AGI.place

Форум создателей искусственных интеллектов


Логин (email) 
Пароль 
Настройки

Скачать
Вперёд
Назад
1
2
3
4
Проект SoundAgent
Аватар
offline
create
Проект SoundAgent
13:24 21.12.2021 №3076
figaro:
Я посмотрел вашу прогу и видосы, всё круто, респектабельно, но подготовка датасета показалась слишком мудреной, так не должно быть.
Да, замечания принимаются, они справедливы. В свое оправдания замечу, что я не оцениваю данную работу, как нечто выдающееся. Ровно потому, что результата нет, если результатом считать распознавание. Такую цель я и не ставил. Это размышления вслух. И еще важный момент. Данные видеосюжеты помогли мне самому оживить данную тему и наметить пути дальнейших действий.
0 | 0
Аватар
offline
create
Проект SoundAgent
13:46 21.12.2021 №3077
Послушал и посмотрел следующую часть разговора Kek'а и в целом мне понравилось изложение в рамках выбранной концепции. Всё ясно и понятно. Но куда ведёт эта концепция? Да, мы можем доказать себе путём натурных экспериментов, практики, что спектральные составляющие являются элементарными кирпичиками слухового восприятия. Мы можем доказать себе, что восприятие активно и само строит картину реальности. Что если слово нам не известно заранее, то и восприятие (реконструкция) его требует больших усилий. Но ведь надо двигаться дальше и получить ответ на вопрос: а как собственно восприятие человека строит эту реальность? Ведь ответы, полученные в рамках изучения слухового восприятия, можно будет перенести и на другие модальности восприятия (зрение, вкус, тактильность). Могу предложить такое направление развития теории. Спектральные составляющие звука слишком элементарны для того, чтобы полагать, что они и есть алфавит для понимания речи именно человеком. Утверждать, что когда человек слышит речь - он распознаёт спектральные составляющие, это примерно то же самое, что утверждать, что когда человек видит картину - он распознаёт цветные точки. Понимание речи/картины происходит тогда, когда человек интерпретирует эту картину (звуковую или цветовую) в рамках некоторой концепции, которую он может повторить. Важным моментом восприятия является именно способность воспроизвести увиденное/услышанное. Так получилось, что единственным способом воспроизведения речи для человека есть мышечный артикуляционный аппарат. В теле человека около 600 отдельных мышц, но в акте говорения участвует только несколько десятков мышц диафрагмы, гортани, языка, лица. Если мы посмотрим на изменение спектральных составляющих звука, когда человек в произношении переходит, например, от протяжного звука "А" к протяжному звуку "У", то мы увидим существенное изменение спектральных составляющих. Но с точки зрения акта говорения это все-лишь вытягивание губ в трубочку. Человек не интерпретирует на сознательном уровне речь как сложное изменение спектра, он интерпретирует речь как простое изменение усилия мышц артикуляционного аппарата, в данном случае губ. Человеку не надо знать ничего про спектр, ему нужно знать только, что вот такой переход от звука "А" к звуку "У" происходит путём вот такого-то мышечного усилия и получения такой физиономии. Именно такой алфавит "мускульный понятийный аппарат" выглядит более просто и естественно и позволяет человеку говорить и понимать речь. Мне всегда было интересно промоделировать процесс обучения речи ребёнком. Когда вместо "мотоцикл" он говорит "пикикийка", или вместо "хомячок" - "сямакок", а потом постепенно улучшает говорение. Это честный полноценный подход. Но для него нужно создать функции, которые будут разным усилиям разных групп виртуальных мышц ставить в соответствие изменение спектра звучания. Это трудно, но такой "алфавит", по моему мнению выглядит более естественно и перспективно, чем спектр товарища Фурье. P.S. Не смог скомпилировать программу RenderWord, она требует компонент TSpVoice. Не подскажете, где его скачать? P.P.S. Нашёл достаточно простой способ скачать нужный mp3-файл с сайта ru.forvo.com. Находим нужное слово, (в броузере Хром) нажимаем правой кнопкой в любом месте страницы и выбираем пункт "Посмотреть код" или нажимаем комбинацию Ctrl+Shift+I. В открывшемся окне разработчика выбираем пункт меню "Network" (он находится между пунктами "Sources" и "Performance") и там выбираем "Media" (он находится между пунктами "Img" и "Font"). Далее в этой же строке меню слева в поле поиска вводим "mp3" без кавычек. И собственно запускаем на воспроизведение нужное слово. Тут же слева внизу мы увидим ссылку на нужный нам mp3-файл, его можно открыть в отдельном окне и скачать любым способом. При следующем открытии окна разработчика эти же пункты будут установлены по умолчанию.
0 | 0
Аватар
offline
create
Проект SoundAgent
14:39 21.12.2021 №3079
Вот! Вот! Вот что нужно от форума! Я поздравляю всех участников и модератора. Наконец-то происходит акт творения и созидания и т.д. Настройка на общую волну приносит свои результаты! 2 figaro. Относительности сложности датасета. А я не знаю как ещё? Проблема вот в чем. Что мы размечаем? Если это спектр отдельного кадра, то только так. Может это два кадра? Это ещё более сложная задача. Если же это слово, то получается так. Вот тебе WAV, товарищ система, этот WAV - человек. Он состоит из 20 кадров, иногда из 16-ти, а иногда из 30-ти. Все спектры тебе известны. Делай что-то. А что? Это я хотел подсмотреть в гитхабе, но вы видели мой гнев праведный. У меня намечается идея не разметки как таковой, а некоего диалога с учителем. Это более сложная и медленная процедура, но в рамках задачи ИИ, она более интересная. И здесь я отмечаю:
Prosolver:
Важным моментом восприятия является именно способность воспроизвести увиденное/услышанное. Так получилось, что единственным способом воспроизведения речи для человека есть мышечный артикуляционный аппарат.
Именно. Диалог, о котором я говорю предполагает синтез речи системой на основе кадров уже запомненных или базовых. Система должна бы воспроизвести тот участок потока, который является для неё новым и не помеченным, отсутствующем в априорной минимальной базе. А учитель должен как-то отреагировать. Это и есть элементы диалога.
0 | 0
Аватар
NA
create
Проект SoundAgent
14:50 21.12.2021 15:19 21.12.2021 №3080
Kek:
Диалог, о котором я говорю предполагает синтез речи системой на основе кадров уже запомненных или базовых. Система должна бы воспроизвести тот участок потока, который является для неё новым и не помеченным, отсутствующем в априорной минимальной базе. А учитель должен как-то отреагировать. Это и есть элементы диалога.
- это есть элементы дрессировки попугая (да простят мне присутствующие мое "особо циничное" настроение ))) В свете непрекращающихся попыток "натянуть на...", стоило бы задаться вопросом о связи распознавания с интеллектом, о связи распознавания с пониманием, с мышлением, с сознанием в конце концов. В давние времена на почтовых сортировочных пунктах стоял оптический автомат для распознавания индекса (благо, на старых конвертах был отпечатан специальный шаблон и образец прописи). И что вы думаете - работал как часы ! Распознавание по шаблону - история древняя как мир, требующая минимальных усилий, даже физических, не говоря об интеллектуальных, которых не требуется вовсе. Откуда взять шаблон ? Из неё ! Из неё родимой - из статистики, которой в высшей степени не брезгуют - просто, дёшево и сердито.
0 | 0
Аватар
offline
create
Проект SoundAgent
15:19 21.12.2021 №3082
Prosolver:
P.S. Не смог скомпилировать программу RenderWord, она требует компонент TSpVoice. Не подскажете, где его скачать?
Вот ссылка Это все, что я быстро собрал по SAPI. Там движки и конкретно паскалевский модуль. sapi.zip Может его будет достаточно, т.к. в вин10 русский движок должен быть предустановлен.
0 | 0
Аватар
offline
create
Проект SoundAgent
15:23 21.12.2021 №3083
Luarvik.:
- это есть элементы дрессировки попугая (да простят мне присутствующие мое "особо циничное" настроение )))
Дальше попугая я даже и не задумывался...
0 | 0
Аватар
NA
create
Проект SoundAgent
15:30 21.12.2021 21:53 21.12.2021 №3085
Kek:
Дальше попугая я даже и не задумывался...
Ну, тогда что уж тут уж ? Тут уж ничего уж тут уж... А жизнь меж тем течёт "меж пальчиков / паутинкой тонкою". Впрочем...
0 | 0
offline
create
Проект SoundAgent
17:16 21.12.2021 17:26 21.12.2021 №3086
Зацените нейросетевой синтезатор, который я иногда пользую. Там есть разные голоса. И дается 5 токенов. Как токены закончатся, синтезатор перестанет работать. Но можно переподключиться, например через 4G повторно и новые 5 токенов у вас. https://zvukogram.com/speech/ Что-то подобное: https://habr.com/ru/post/465941/ Многоязычный синтез речи с клонированием В основе лежат нейронные сети на TensorFlow-gpu. Одна сеть энкодер, которая строит спектрограмму мела, вторая синтез, которая строит спектрограмму мела с учетом эталонного голоса и третья вокодер, которая преобразует спектрограмму мела в звуковую речь. Четвертая преобразует текст в фонемы. Для вокодера можно использовать предобученную модель с гитхаба. Сергей, надеюсь, это не будет для тебя демотиватором?
0 | 0
Аватар
offline
create
Проект SoundAgent
17:51 21.12.2021 17:51 21.12.2021 №3087
Виктор Казаринов:
Сергей, надеюсь, это не будет для тебя демотиватором?
Не, я противоядия хлебнул... :)
0 | 0
Аватар
offline
create
Проект SoundAgent
18:10 22.12.2021 №3088
Kek:
Там движки и конкретно паскалевский модуль
Да, благодарю, всё заработало. Немного переделал программку RenderWord. Теперь словарь слогов загружается из корневой директории автоматически при запуске, упростил интерфейс до трёх кнопок "Создать", "Сказать" и "Показать". Поигрался с синтезом и опознаванием, пособирал статистику. Чаще всего путаются буквы: г к я е и е о а Это не удивительно, потому что они слабо отличаются в произношении, собственно, в той мускульной физиономии, с которой они произносятся. Чего и следовало ожидать.
0 | 0
Аватар
offline
create
Проект SoundAgent
18:56 22.12.2021 №3089
Prosolver:
Немного переделал программку
Отлично! Слоги это так для оценки восприятия. Полезно было бы сделать следующее 1. Загрузка кучи слов из файла 2. Запись каждого слова в отдельный файл, название файла - это слово, например "человек.wav" 3. В качестве параметров - выбор диктора - темп говорения - параметры wav (8000 гц, 16000 гц и тд)
0 | 0
Аватар
offline
create
Проект SoundAgent
13:12 26.12.2021 №3113
Kek:
Загрузка кучи слов из файла Запись каждого слова в отдельный файл темп говорения параметры wav (8000 гц, 16000 гц и тд)
Сделал программку по данному ТЗ. Загрузка и обработка списка слов выполняется по нажатию на кнопку "Пакетная обработка...". После нажатия откроется диалоговое окно для выбора текстового файла. После выбора файла автоматически начнётся создание аудиофайлов в этой же директории, в соответствии с заданными параметрами синтеза речи. К слову, в дистрибутиве Elan, в папке с движком, лежит готовый словарь на 95 тысяч русских слов в файле exc_rus.txt. Параметры wav не устанавливал выше 16 кГц 16 бит, потому что сам речевой движок не выдаёт аудиопоток лучшего качества. Скорость синтеза на моём ноутбуке, примерно ≈ 0,4 сек/слово. Честно, не очень понимаю, в чём и как это всё может помочь, но было, как минимум, интересно разобраться. Надеюсь, пригодится.
0 | 0
Аватар
offline
create
Проект SoundAgent
17:44 26.12.2021 №3114
Prosolver:
Честно, не очень понимаю, в чём и как это всё может помочь, но было, как минимум, интересно разобраться. Надеюсь, пригодится.
Конечно пригодится. Это все для организации обучающей выборки.
0 | 0
Аватар
offline
create
Проект SoundAgent
10:41 17.01.2022 №3553
Коллеги. Я несколько удивлен следующим обстоятельством. Зайдешь эдак на habr, али ещё куда, кто с лёгкостью себя позиционирует исследователем ИИ, и видишь, что все только и пишут о нейронных сетях. «Они то, они сё… А ежели в них лом запихнуть…» Спору нет, нейросети хороши. Но мы-то с вами знаем, что это всего навсего алгоритм статистический и более ничего. И использовать его нУжно и нАжно. Но с осторожностью и без благоговения. Я, думаю, с этим никто не будет спорить. Так вот на нашем форуме нет обсуждения нейросетей. И я не могу понять почему. Метод рабочий, со своими заморочками именно для нашего ИИ-шного дела. Мне кажется это упущение. Нельзя его отбрасывать. У меня накопилось масса материала и вопросов. Въехать в эту тему на низком уровне надо. И я готов помочь. Даже на ПИТОНЕ, хоть его я не люблю. А то смотришь всякие форумы, блин… Люди не умеют говорить слова… И это прогрессирует. Им лень объяснять что-либо…
0 | 0
Аватар
offline
create
Проект SoundAgent
15:14 17.01.2022 №3554
Kek:
нет обсуждения нейросетей. И я не могу понять почему
Может быть просто потому, что эта технология бесперспективна для AGI. Она ортогональна к этой тематике. Только кажется, что она имеет к ней какое-то отношение, потому что якобы нейросети демонстрируют когнитивные способности. Но это иллюзия. То, что делают ИНС и то как они это делают, не имеет ничего общего с тем, что и как делает когнитивный аппарат человека. Иллюзию эту также подпитывает терминология. Кажется, что если что-то "нейро", то это что-то связано с мозгом. Называйте эту технологию не "нейросети", а, например "сетевые аппроксиматоры" и весь ИИ-лоск тут же улетучится. Никто же не обсуждает алгоритмы сортировки или хэширования в контексте ИИ-тематики. Потому что они к ней не имеют никакого отношения. Но если какой-то алгоритм сортировки назвать, например, "метод экранирования нейродоминанты" то уже можно напарить кому-то как smart AI. Лично моё мнение состоит в том, что архитектура AGI должна быть абсолютно прозрачной и понятной для всех, с ясными чёткими алгоритмическими решениями. Чтобы каждый мог соотнести и сравнить алгоритм работы AGI, с работой своего собственного ума. Когда я сравниваю то, что делают ИНС, с тем, что делает мой когнитивный аппарат - я не вижу ничего общего. Поэтому обсуждать, имхо, интересно не частные технологии из области информатики, а теории и гипотезы о том что и как делает ум человека.
0 | 0
Аватар
offline
create
Проект SoundAgent
16:22 17.01.2022 №3555
Prosolver:
Поэтому обсуждать, имхо, интересно не частные технологии из области информатики, а теории и гипотезы о том что и как делает ум человека.
Любая теория или гипотеза из стадии обсуждения когда-нибудь перейдет в стадию проверки. И тут окажется, что не существует специфического алгоритма, имеющего непосредственное отношение к AGI. А что окажется? Я не очень разделяю то, что говорит Черниговская, но одну её фразу я запомнил: "мозг это сеть сетей". Точно также алгоритм AGI это алгоритм алгоритмов. Поэтому, являясь преверженцом теории элементарного ИИ, полагаю не обойтись без информатики и её методов. Здание AGI складывается из кирпичиков, коими являются элементарные методы кластеризации и распознавания. Другое дело, что они должны быть адаптированы к ИИ. И вот что это за адаптация и является предметом исследования. Например. - Как обойтись малой выборкой? - Как "на лету" быстро переобучать сеть? - Как создать иерархическую нейросеть? - Можно ли при малой выборке наращивать её, создавая паттерны, как гипотезы?
0 | 0
NA
create
Проект SoundAgent
17:16 17.01.2022 №3556
Prosolver:
Kek:
нет обсуждения нейросетей. И я не могу понять почему
Может быть просто потому, что эта технология бесперспективна для AGI. Она ортогональна к этой тематике. Только кажется, что она имеет к ней какое-то отношение, потому что якобы нейросети демонстрируют когнитивные способности. Но это иллюзия. То, что делают ИНС и то как они это делают, не имеет ничего общего с тем, что и как делает когнитивный аппарат человека.
Нельзя с вами не согласиться про ортогональность. Но только в части общеизвестных ИНС. Не стоит ставить крест на всех ИНС, включая ещё не разработанные и неизвестные.
0 | 0
Аватар
NA
create
Проект SoundAgent
19:19 17.01.2022 01:47 18.01.2022 №3557
Kek:
Я не очень разделяю то, что говорит Черниговская, но одну её фразу я запомнил: "мозг это сеть сетей".
Не её фраза. Это Анохин задвинул на тему своего коннектома.
Kek:
Точно также алгоритм AGI это алгоритм алгоритмов.
Интеллект - не алгоритм. Все эти "алгоритмические" рассуждения напоминают поиски чёрной кошки в тёмной комнате в условиях неопределенности, когда неизвестно есть она там или нет. Может есть, а может и нет. Если ещё допустить, что кошку такую никто никогда не встречал и знать не знает, как она выглядит, то можно искать вообще что угодно и даже найти что угодно, а потом и обозвать как угодно, дескать, "что нашли - то и искали и будем считать, что оно то самое и есть". А ведь вроде взрослые люди ! p.s. Человечество давно уже выпрямилось, давно на двух ногах ходит, но за всю его историю ещё никому не удалось создать даже самый завалящий алгоритм творчества или каким-либо иным способом его формализовать (сколько бы тогда проблем решилось одним махом !). Сей факт разве не должен вызвать подозрение, что не всё так просто в этом "датском королевстве" ?
0 | 0
Аватар
offline
create
Проект SoundAgent
21:13 17.01.2022 №3558
Luarvik.:
Человечество давно уже выпрямилось, давно на двух ногах ходит, но за всю его историю ещё никому не удалось создать даже самый завалящий алгоритм творчества или каким-либо иным способом его формализовать (сколько бы тогда проблем решилось одним махом !). Сей факт разве не должен вызвать подозрение, что не всё так просто в этом "датском королевстве".
Аргумент, что типа, так давно живём... должны бы уж что-то сделать - слабый. В "датском королевстве" компьютеры появились недавно.
Luarvik.:
Интеллект - не алгоритм.
А хто-о-о? Может мы с вами не одинаково понимаем термин "алгоритм"? Да, наверно так и есть. И тут я начал подозревать принципиальную засаду на основании сказанного вами, Prosolver и др. В качестве др. я вспоминаю NewPoisk. Так вот. Подозреваю, что все перечисленные уважаемые коллеги не рассматривают решение AGI на основе компьютерных технологий вообще. Если так, то я в печали... Тогда действительно Интеллект - не алгоритм.
0 | 0
Аватар
NA
create
Проект SoundAgent
22:21 17.01.2022 04:24 18.01.2022 №3559
Kek:
Аргумент, что типа, так давно живём... должны бы уж что-то сделать - слабый.
Как бы то ни было, а задачка, которой не одна тысяча лет, до сих пор не решена.
Kek:
В "датском королевстве" компьютеры появились недавно.
Так и не в компьютерах дело. Проблема остаётся проблемой и с ними и без них. Интеллект - не алгоритм.
Kek:
А хто-о-о?
Грубо говоря - генератор алгоритмов. Мягко выражаясь - управляющий их производством.
Kek:
Может мы с вами не одинаково понимаем термин "алгоритм"? Да, наверно так и есть.
Так и есть. Я - пользуюсь общепризнанным определением. Вы - ХЗ: "Интеллект - конечная совокупность точно заданных правил решения некоторого класса задач или набор инструкций, описывающих порядок действий исполнителя для решения определённой задачи" - не желаете прокомментировать ? ( Один говорит, что материя и информация это одно и то же, другой - что одно и то же интеллект и алгоритм... и этот список можно продолжить на произвольную длину, равно как и список желающих посводить концы с концами "чистыми руками". Студентов медиков, например, неспособных препарировать лягушку, гонят в шею ! Окончательно и бесповоротно ! Ну, не та порода и не для породы работа... Вам не кажется, господа, что вы заигрались с непреумножением не-необходимого ? Как бы вы отреагировали, если вам, скажем, нормально зашьют в больнице порезанный палец на одной руке, но при этом оттяпают вторую руку по самый подбородок ? - "Да какая нах.. разница - левая/правая, первая/вторая... ещё и две зачем-то... Одной хватит - третьей !" Вам ведь никогда не приходило в голову назвать шарманку композитором ? А почему ? В общем, ваша обоюдная, старая как мир ситуация выглядит довольно незамысловато - "Раз мы не можем подняться до понимания некоторой сущности, значит мы опустим её до нашего уровня понимания", что в просторечии называется знакомым вам словом - опошлить. Помните, как Бендер Кису на пароходе рисовал ? Вот что-то такое же, тем же способом и с такой же квалификацией у вас и получается. (Предел понимания есть у всех, но определяется он отнюдь не т.н. "умственными способностями", как по-житейски думают. Скажем так: он есть первая производная от предела... желаний, а это крайне "тёмная материя". Т.е., дураками не рождаются и не становятся. Ими - остаются. И вот так - совершенно естественным образом - получается, что степень "дурости" выводится не из функции или дисфункции "традиционного" ума. Ах, железяка ! Ну какие же у неё могут быть желания ? И по каким-то причинам одни люди не могут заставить себя перестать говорить и делать глупости, а другие - не менее умные - могут. Право, управлять желаниями - тонкая наука. Сколько ресурсов в это дело вбухивают !) )
Kek:
Подозреваю, что все перечисленные уважаемые коллеги не рассматривают решение AGI на основе компьютерных технологий вообще. Если так, то я в печали...
Отнюдь и печалям здесь не место. Просто задача ставится не так, что всё дело в алгоритмах-алгоритмах-и_ещё_раз_алгоритмах, но в том, как на алгоритмическом в основе своей устройстве реализовать процесс НЕ алгоритмический и... НЕ случайный. p.s. Моя б воля, ввёл бы жесточайшее ограничение (со всякими допусками и доступами, с многоэтажными экзаменами, бесконечными проверками и финальными испытаниями... как на краповый берет или в СВР): "заниматься искусственным интеллектом позволено только тем, кто имеет определённый уровень интеллекта естественного". (Попробуёте ради смеха поискать дебила-идиота, который зная, что т.н. "лётчик" ничем сложнее велосипеда в жизни не управлял и не учился, согласится с этим водилой полететь в одном самолёте. Да вы и на Пряжке такого не найдёте !)
0 | 0
1
2
3
4
Скачать
Вперёд
Назад

Главная Участники Жалобы  Поиск Исходный код О форуме