AGI.place

Форум создателей искусственных интеллектов


Логин (email) 
Пароль 
Настройки

Сообщения участника "Kek"
1
2
3
Аватар
create
Проект SoundAgent
18:09 15.12.2021 18:29 15.12.2021 №3006
Prosolver:
Kek, благодарю, всё скачалось, компилируется и работает.
Вот теперь, друг мой, можно и поработать. Я готов рассказать все нюансы... "Мне интересно научиться выделять из wav-сигнала именно эту основную энергетическую составляющую, потом вычесть её из оригинального сигнала и послушать, что получится." Огибающая в окне Envelope красный график это именно то. Это спектральная плотность. По сути она получается так. Берем кадр, в нем амплитуды гармоник. Их 12 штук. Складываем их все и получаем число. Это есть точка на красном графике Envelope. Зачем ее вычитать, я не очень понимаю. Этот график сам по себе есть характеристика слова. Что я понял? Локальные максимумы этого графика есть ничто иное как характерные признаки слова. В слове "ЧЕЛОВЕК" этих признаков 5. Ч Е О Е К. И это статистическая характеристика. Т.к. может 4, а может 6. Но. Наше человеческое восприятие реагирует именно на максимумы энергии. Именно эти максимумы и лежат в основе разметки обучающей выборки. Здесь важно решить задачу инвариантов. Слово может быть произнесено быстро или медленно. И как тут быть? Если описывать слово не как череду кадров, как это делается в классическом подходе того же Sphinx, а как череду пиков огибающей, то это инвариантно относительно темпа говорения. Слово ЧЕЛОВЕК произнесенное быстро или медленно описывается пиками одинаково. Их, пиков 5. Пик это максимум огибающей, начало и конец. Без картинок плохо. Описывая слово пиками огибающей мы решаем задачу инвариантно относительно темпа говорения. Не знаю понятно это или нет. Конечно надо иметь в виду статистический характер этого описания. Можно и нужно построить нейросеть, которая в качестве входного вектора имеет значение пиков огибающей. Это будет очень "слабая" сеть. Но она будет точно разделять например слово ЧЕЛОВЕК и слово МАМА только на основании того, что количество пиков будет разным. Это иерархический принцип на основании которого формируются кластеры речи. "Думаю, в отдельных случаях, только одного этого первичного энергетического сигнала достаточно для распознавания. Например такие слова как "wow" или "да" не требуют никаких дополнительных признаков. А вот, например, слова "инцидент" и "президент" по такому "бубнению" уже будет сложно различить, нужно будет добавить 1-2 отличительных признака." Именно! Все, устал...
0 | 0
Аватар
create
Проект SoundAgent
20:11 16.12.2021 20:16 16.12.2021 №3015
Покажу все таки публике интересующейся как самому сделать обучающую выборку и обучить нейросеть. Вот видео При проигрывании файла выберите в настройках максимальное разрешение. Чтобы мне хотелось понять. Я обращаюсь к знатокам нейросетей, если таковые имеются. Если разметка сделана не корректно, то ошибка обучения может быть например Error=1 или Error=0.5. Ошибка не дойдет до своего заданного значения. А некорректность может быть двух видов: 1 одинаковые или очень похожие входные вектора размечаются как разные 2 разные вектора размечаются как одинаковые Делая разметку человек ошибается и это факт. А как быть, если достаточно большая выборка обучается не один час и вы не знаете где же эта некорректность среди тысячи паттернов? Это не актуальная задача если мы хотим сделать систему распознавания. В этом случае решение одно : "пилите, Шура, пилите". Подбирайте паттерны. Но мы же не это хотим. Мы же хотим сделать процесс обучения интерактивным, похожим на диалог. В этом случае ошибки просто неизбежны и что делать с сетью я пока не знаю.
0 | 0
Аватар
create
Проект SoundAgent
07:47 17.12.2021 №3017
Prosolver:
Меня интересует такое преобразование: качественный звук (WAV-1) => некая функция => бубнение (WAV-2). После чего я хочу из WAV-1 вычесть WAV-2 и послушать своими ушами, что получилось.
Да, это возможно сделать в ручном режиме уже сейчас. Покажу. Но я понял, что объяснять что-то лучше именно с помощью видео. Поэтому подготовлю короткие сюжеты по каждому функционалу. Размещайте у себя, пусть идет в народ...
0 | 0
Аватар
create
Нормология
14:07 17.12.2021 №3021
Несколько наведенных мыслей относительно нормологии.
Prosolver:
Идеологии - это нормы, принципы, законы…
Всякое движение материальной субстанции без ограничения этого движения будет равномерным и прямолинейным. Либо вращательным. Только наличие ограничений (см. нормы, принципы, стены, потолки, звезды, планеты) делает движение не линейным. Жизнь, как феномен движения материи не возможна без ограничений.
Prosolver:
Ясно, что в каждый момент человек охвачен влиянием многих идеологий-норм, они борются друг с другом за доступ к ресурсу - к механизму своей реализации - к человеческому разуму.
Когда я слушал лекцию Анохина о КОГах (КОгнитивные Группы), мне пришла идея интерпретировать процесс мышления человека, как чередование КОГов. Сегодня мне захотелось попить пива. Хоп, вызывается соответствующий КОГ и ему отдаются бразды правления над телом. Завтра я захотел написать программу AiSound, хоп главным становится КОГ программирования. Откуда взялись КОГи? А они вырастают вместе с человеком и составляют единое целое. Говоря AGIшным языком они куча симбиотических не противоричивых агентов. Ну, иногода они конкурируют, т.к. не возможно одновременно есть и петь. Идеи и нормы это КОГи.
+1 | 0
Аватар
create
Проект SoundAgent
17:08 17.12.2021 №3025
Виктор Казаринов:
2Kek: Мою действующую программу распознавания слов ANNLab от 2018.01 с использованием нейросети никак не удалось использовать? Насколько я помню, там ручной работы для обучения практически не требовалось.
Виктор, я ее смотрел и изучал. Позже я представлю свой подход, который вообще без использования нейросетей. Это конечно дискуссионный момент. Готовлю сюжеты, терпение.
0 | 0
Аватар
create
Проект SoundAgent
23:00 17.12.2021 №3028
+1 | 0
Аватар
create
Проект SoundAgent
08:05 18.12.2021 №3030
cortl:
Kek, спасибо! Ваша работа впечатляет. Особенно, что это самостоятельная и свободная разработка. Единственный минус из-за которого я не стал разбираться с кодом в том, что написано не на C++.
Спасибо, на С я работаю, но только это простейший С для микроконтроллеров. Перелопачивать все - тяжелая работа. Но я попытаюсь и дальше объяснять суть функционалов. Понимая суть, можно самому повторить. И в дальнейшем можно поразмышлять над теми путями по которым двигаться в рамках ИИ, оперируя не кодом, а методами и функциями.
0 | 0
Аватар
create
Проект SoundAgent
11:05 18.12.2021 №3031
+1 | 0
Аватар
create
Проект SoundAgent
21:15 18.12.2021 №3035
Виктор Казаринов:
И тут я кину небольшой камешек в огород Сергея. Т.к. точность определения частоты в исходном спектре равномерна и равна 25 герц, то на низких частотах 20-200 гц получается слишком большая ошибка.
Верно. Именно поэтому в классике делают нелинейное преобразование спектра. Расстояние по частоте тем меньше, чем частота ниже. В высокочастотной области достаточно все собрать в 3,4 полосы.
0 | 0
Аватар
create
Проект SoundAgent
09:50 19.12.2021 №3038
Виктор Казаринов:
Конечно, этот вариант хуже, чем разработки Сергея, но вот я решил выложить на сайт тестовый вариант программы автономного распознавания речи на основе VOSK. Для тестирования можно открыть страничку: https://aigod.com/speechrec/
Всё прекрасно работает в Яндексе!!!
0 | 0
Аватар
create
Проект SoundAgent
11:42 19.12.2021 №3039
Виктору вопрос. Хорошо, ты можешь пояснить как устроена модель, как заполняются вектора для нейросети, если она есть, как работает словарный запас? Это интересно.
0 | 0
Аватар
create
Проект SoundAgent
08:27 20.12.2021 №3046
Виктор Казаринов:
Вот собственно и софт: https://github.com/alphacep/vosk-api Я не стал разбираться с подробностями обучения, т.к. пока мне было не до того. А кому интересно, можете копнуть поглубже, благо все, кажется, с исходными кодами.
Да, Vosk использует Kaldi. В представленном примере Vosk нет никаких низкоуровневых процедур. Всё как любят красноглазые си-шники и питонщики. Кнопочку нажал и хоп, всё работает. С Kaldi полный швах. Мне нестыдно признаться, что я ничего не понимаю... Описания описаний для описания описаний... Вот перевод установки Калди для виндов: ******************************************************************************* Инструкции по установке родной Windows с Visual Studio Для установки cygwin см. Инструкции в ../INSTALLразделе . Примечания Рецепты (в egs/) не будут работать. Нет никаких обязательств по поддержке Windows. Порт Kaldi для Windows предназначен для опытных разработчиков, которые хотят программировать свои собственные приложения с помощью библиотек kaldi и могут самостоятельно устранять неполадки. Эти инструкции действительны с ноября 2017 года, поддерживаются Intel® MKL и OpenBLAS ATLAS не поддерживается, и я лично не намерен работать над его поддержкой, так как для этого требуется вся среда cygwin На данный момент (20171121) мы не поддерживаем CUDA. Мы могли бы снова добавить поддержку в будущем, но пока мы не выражаем никаких обязательств сделать это. Вы все еще можете создавать решения с помощью CUDA, но мы не предоставляем никакой поддержки и не проверяли, работают ли решения или нет. ******************************************************************************* Конечно... я лузер и не опытный разработчик. Это поток сознания нервного др@чилы. Это всё равно, если бы я в своём проекте написал: Запуск программы только для опытных разработчиков, осторожно при неправильном нажатии кнопки диск "C" может самопроизвольно отформатироваться. Я тут непричем, вы все лузеры... Короче, я демотивирован. Виктор конечно, не виноват, это не к нему мой гнев.
0 | 0
Аватар
create
Проект SoundAgent
12:31 20.12.2021 №3052
Виктор Казаринов:
Либо это все потом поступает на вход нейросетки, либо машины опорных векторов. либо еще чего-то.
Я хотел поделиться с публикой о "ещё что-то". Но демотивация пока еще не рассосалась. А идея заключается в корреляционном анализе неких данных о спектре. Результат корреляционного анализа автоматически без учителя выдает кластеризацию первичных сенсорных данных, которые можно класть в сетку.
0 | 0
Аватар
create
Проект SoundAgent
12:33 20.12.2021 №3053
Виктор Казаринов:
например, партийность какого-то человека.
Я бывшего комсомольского вожака чую из далека! И это не запах.
0 | 0
Аватар
create
Проект SoundAgent
13:58 20.12.2021 №3056
Виктор Казаринов:
Kek:
Виктор Казаринов:
например, партийность какого-то человека.
Я бывшего комсомольского вожака чую из далека! И это не запах.
Аха-ха. А вот тут ты и прокололся. Я всегда занимался только техникой и никогда не был причастен
Я вовсе не тебя имел в виду. А вообще. Ладно, это все демотивация виновата...
0 | 0
Аватар
create
Проект SoundAgent
08:14 21.12.2021 №3068
+2 | 0
Аватар
create
Проект SoundAgent
13:24 21.12.2021 №3076
figaro:
Я посмотрел вашу прогу и видосы, всё круто, респектабельно, но подготовка датасета показалась слишком мудреной, так не должно быть.
Да, замечания принимаются, они справедливы. В свое оправдания замечу, что я не оцениваю данную работу, как нечто выдающееся. Ровно потому, что результата нет, если результатом считать распознавание. Такую цель я и не ставил. Это размышления вслух. И еще важный момент. Данные видеосюжеты помогли мне самому оживить данную тему и наметить пути дальнейших действий.
0 | 0
Аватар
create
Проект SoundAgent
14:39 21.12.2021 №3079
Вот! Вот! Вот что нужно от форума! Я поздравляю всех участников и модератора. Наконец-то происходит акт творения и созидания и т.д. Настройка на общую волну приносит свои результаты! 2 figaro. Относительности сложности датасета. А я не знаю как ещё? Проблема вот в чем. Что мы размечаем? Если это спектр отдельного кадра, то только так. Может это два кадра? Это ещё более сложная задача. Если же это слово, то получается так. Вот тебе WAV, товарищ система, этот WAV - человек. Он состоит из 20 кадров, иногда из 16-ти, а иногда из 30-ти. Все спектры тебе известны. Делай что-то. А что? Это я хотел подсмотреть в гитхабе, но вы видели мой гнев праведный. У меня намечается идея не разметки как таковой, а некоего диалога с учителем. Это более сложная и медленная процедура, но в рамках задачи ИИ, она более интересная. И здесь я отмечаю:
Prosolver:
Важным моментом восприятия является именно способность воспроизвести увиденное/услышанное. Так получилось, что единственным способом воспроизведения речи для человека есть мышечный артикуляционный аппарат.
Именно. Диалог, о котором я говорю предполагает синтез речи системой на основе кадров уже запомненных или базовых. Система должна бы воспроизвести тот участок потока, который является для неё новым и не помеченным, отсутствующем в априорной минимальной базе. А учитель должен как-то отреагировать. Это и есть элементы диалога.
0 | 0
Аватар
create
Проект SoundAgent
15:19 21.12.2021 №3082
Prosolver:
P.S. Не смог скомпилировать программу RenderWord, она требует компонент TSpVoice. Не подскажете, где его скачать?
Вот ссылка Это все, что я быстро собрал по SAPI. Там движки и конкретно паскалевский модуль. sapi.zip Может его будет достаточно, т.к. в вин10 русский движок должен быть предустановлен.
0 | 0
Аватар
create
Проект SoundAgent
15:23 21.12.2021 №3083
Luarvik.:
- это есть элементы дрессировки попугая (да простят мне присутствующие мое "особо циничное" настроение )))
Дальше попугая я даже и не задумывался...
0 | 0
1
2
3

Главная Участники Жалобы  Поиск Исходный код О форуме