Форум создателей искусственных интеллектов

Сообщения участника "Kek"

1	2	3

Kek

create

Проект SoundAgent

18:09 15.12.2021

18:29 15.12.2021

№3006

Prosolver:
Kek, благодарю, всё скачалось, компилируется и работает.

Вот теперь, друг мой, можно и поработать. Я готов рассказать все нюансы... "Мне интересно научиться выделять из wav-сигнала именно эту основную энергетическую составляющую, потом вычесть её из оригинального сигнала и послушать, что получится." Огибающая в окне Envelope красный график это именно то. Это спектральная плотность. По сути она получается так. Берем кадр, в нем амплитуды гармоник. Их 12 штук. Складываем их все и получаем число. Это есть точка на красном графике Envelope. Зачем ее вычитать, я не очень понимаю. Этот график сам по себе есть характеристика слова. Что я понял? Локальные максимумы этого графика есть ничто иное как характерные признаки слова. В слове "ЧЕЛОВЕК" этих признаков 5. Ч Е О Е К. И это статистическая характеристика. Т.к. может 4, а может 6. Но. Наше человеческое восприятие реагирует именно на максимумы энергии. Именно эти максимумы и лежат в основе разметки обучающей выборки. Здесь важно решить задачу инвариантов. Слово может быть произнесено быстро или медленно. И как тут быть? Если описывать слово не как череду кадров, как это делается в классическом подходе того же Sphinx, а как череду пиков огибающей, то это инвариантно относительно темпа говорения. Слово ЧЕЛОВЕК произнесенное быстро или медленно описывается пиками одинаково. Их, пиков 5. Пик это максимум огибающей, начало и конец. Без картинок плохо. Описывая слово пиками огибающей мы решаем задачу инвариантно относительно темпа говорения. Не знаю понятно это или нет. Конечно надо иметь в виду статистический характер этого описания. Можно и нужно построить нейросеть, которая в качестве входного вектора имеет значение пиков огибающей. Это будет очень "слабая" сеть. Но она будет точно разделять например слово ЧЕЛОВЕК и слово МАМА только на основании того, что количество пиков будет разным. Это иерархический принцип на основании которого формируются кластеры речи. "Думаю, в отдельных случаях, только одного этого первичного энергетического сигнала достаточно для распознавания. Например такие слова как "wow" или "да" не требуют никаких дополнительных признаков. А вот, например, слова "инцидент" и "президент" по такому "бубнению" уже будет сложно различить, нужно будет добавить 1-2 отличительных признака." Именно! Все, устал...

0 | 0

Kek

create

Проект SoundAgent

20:11 16.12.2021

20:16 16.12.2021

№3015

Покажу все таки публике интересующейся как самому сделать обучающую выборку и обучить нейросеть. Вот видео При проигрывании файла выберите в настройках максимальное разрешение. Чтобы мне хотелось понять. Я обращаюсь к знатокам нейросетей, если таковые имеются. Если разметка сделана не корректно, то ошибка обучения может быть например Error=1 или Error=0.5. Ошибка не дойдет до своего заданного значения. А некорректность может быть двух видов: 1 одинаковые или очень похожие входные вектора размечаются как разные 2 разные вектора размечаются как одинаковые Делая разметку человек ошибается и это факт. А как быть, если достаточно большая выборка обучается не один час и вы не знаете где же эта некорректность среди тысячи паттернов? Это не актуальная задача если мы хотим сделать систему распознавания. В этом случае решение одно : "пилите, Шура, пилите". Подбирайте паттерны. Но мы же не это хотим. Мы же хотим сделать процесс обучения интерактивным, похожим на диалог. В этом случае ошибки просто неизбежны и что делать с сетью я пока не знаю.

0 | 0

Kek

create

Проект SoundAgent

07:47 17.12.2021

№3017

Prosolver:
Меня интересует такое преобразование: качественный звук (WAV-1) => некая функция => бубнение (WAV-2). После чего я хочу из WAV-1 вычесть WAV-2 и послушать своими ушами, что получилось.

Да, это возможно сделать в ручном режиме уже сейчас. Покажу. Но я понял, что объяснять что-то лучше именно с помощью видео. Поэтому подготовлю короткие сюжеты по каждому функционалу. Размещайте у себя, пусть идет в народ...

0 | 0

Kek

create

Нормология

14:07 17.12.2021

№3021

Несколько наведенных мыслей относительно нормологии.

Prosolver:
Идеологии - это нормы, принципы, законы…

Всякое движение материальной субстанции без ограничения этого движения будет равномерным и прямолинейным. Либо вращательным. Только наличие ограничений (см. нормы, принципы, стены, потолки, звезды, планеты) делает движение не линейным. Жизнь, как феномен движения материи не возможна без ограничений.

Prosolver:
Ясно, что в каждый момент человек охвачен влиянием многих идеологий-норм, они борются друг с другом за доступ к ресурсу - к механизму своей реализации - к человеческому разуму.

Когда я слушал лекцию Анохина о КОГах (КОгнитивные Группы), мне пришла идея интерпретировать процесс мышления человека, как чередование КОГов. Сегодня мне захотелось попить пива. Хоп, вызывается соответствующий КОГ и ему отдаются бразды правления над телом. Завтра я захотел написать программу AiSound, хоп главным становится КОГ программирования. Откуда взялись КОГи? А они вырастают вместе с человеком и составляют единое целое. Говоря AGIшным языком они куча симбиотических не противоричивых агентов. Ну, иногода они конкурируют, т.к. не возможно одновременно есть и петь. Идеи и нормы это КОГи.

+1 | 0

Kek

create

Проект SoundAgent

17:08 17.12.2021

№3025

Виктор Казаринов:
2Kek: Мою действующую программу распознавания слов ANNLab от 2018.01 с использованием нейросети никак не удалось использовать? Насколько я помню, там ручной работы для обучения практически не требовалось.

Виктор, я ее смотрел и изучал. Позже я представлю свой подход, который вообще без использования нейросетей. Это конечно дискуссионный момент. Готовлю сюжеты, терпение.

0 | 0

Kek

create

Проект SoundAgent

23:00 17.12.2021

№3028

Введение

+1 | 0

Kek

create

Проект SoundAgent

08:05 18.12.2021

№3030

cortl:
Kek, спасибо! Ваша работа впечатляет. Особенно, что это самостоятельная и свободная разработка. Единственный минус из-за которого я не стал разбираться с кодом в том, что написано не на C++.

Спасибо, на С я работаю, но только это простейший С для микроконтроллеров. Перелопачивать все - тяжелая работа. Но я попытаюсь и дальше объяснять суть функционалов. Понимая суть, можно самому повторить. И в дальнейшем можно поразмышлять над теми путями по которым двигаться в рамках ИИ, оперируя не кодом, а методами и функциями.

0 | 0

Kek

create

Проект SoundAgent

11:05 18.12.2021

№3031

Проект SoundAgent. Удивительный факт восприятия, часть 1.

+1 | 0

Kek

create

Проект SoundAgent

21:15 18.12.2021

№3035

Виктор Казаринов:
И тут я кину небольшой камешек в огород Сергея. Т.к. точность определения частоты в исходном спектре равномерна и равна 25 герц, то на низких частотах 20-200 гц получается слишком большая ошибка.

Верно. Именно поэтому в классике делают нелинейное преобразование спектра. Расстояние по частоте тем меньше, чем частота ниже. В высокочастотной области достаточно все собрать в 3,4 полосы.

0 | 0

Kek

create

Проект SoundAgent

09:50 19.12.2021

№3038

Виктор Казаринов:
Конечно, этот вариант хуже, чем разработки Сергея, но вот я решил выложить на сайт тестовый вариант программы автономного распознавания речи на основе VOSK. Для тестирования можно открыть страничку: https://aigod.com/speechrec/

Всё прекрасно работает в Яндексе!!!

0 | 0

Kek

create

Проект SoundAgent

11:42 19.12.2021

№3039

Виктору вопрос. Хорошо, ты можешь пояснить как устроена модель, как заполняются вектора для нейросети, если она есть, как работает словарный запас? Это интересно.

0 | 0

Kek

create

Проект SoundAgent

08:27 20.12.2021

№3046

Виктор Казаринов:
Вот собственно и софт: https://github.com/alphacep/vosk-api Я не стал разбираться с подробностями обучения, т.к. пока мне было не до того. А кому интересно, можете копнуть поглубже, благо все, кажется, с исходными кодами.

Да, Vosk использует Kaldi. В представленном примере Vosk нет никаких низкоуровневых процедур. Всё как любят красноглазые си-шники и питонщики. Кнопочку нажал и хоп, всё работает. С Kaldi полный швах. Мне нестыдно признаться, что я ничего не понимаю... Описания описаний для описания описаний... Вот перевод установки Калди для виндов: ******************************************************************************* Инструкции по установке родной Windows с Visual Studio Для установки cygwin см. Инструкции в ../INSTALLразделе . Примечания Рецепты (в egs/) не будут работать. Нет никаких обязательств по поддержке Windows. Порт Kaldi для Windows предназначен для опытных разработчиков, которые хотят программировать свои собственные приложения с помощью библиотек kaldi и могут самостоятельно устранять неполадки. Эти инструкции действительны с ноября 2017 года, поддерживаются Intel® MKL и OpenBLAS ATLAS не поддерживается, и я лично не намерен работать над его поддержкой, так как для этого требуется вся среда cygwin На данный момент (20171121) мы не поддерживаем CUDA. Мы могли бы снова добавить поддержку в будущем, но пока мы не выражаем никаких обязательств сделать это. Вы все еще можете создавать решения с помощью CUDA, но мы не предоставляем никакой поддержки и не проверяли, работают ли решения или нет. ******************************************************************************* Конечно... я лузер и не опытный разработчик. Это поток сознания нервного др@чилы. Это всё равно, если бы я в своём проекте написал: Запуск программы только для опытных разработчиков, осторожно при неправильном нажатии кнопки диск "C" может самопроизвольно отформатироваться. Я тут непричем, вы все лузеры... Короче, я демотивирован. Виктор конечно, не виноват, это не к нему мой гнев.

0 | 0

Kek

create

Проект SoundAgent

12:31 20.12.2021

№3052

Виктор Казаринов:
Либо это все потом поступает на вход нейросетки, либо машины опорных векторов. либо еще чего-то.

Я хотел поделиться с публикой о "ещё что-то". Но демотивация пока еще не рассосалась. А идея заключается в корреляционном анализе неких данных о спектре. Результат корреляционного анализа автоматически без учителя выдает кластеризацию первичных сенсорных данных, которые можно класть в сетку.

0 | 0

Kek

create

Проект SoundAgent

12:33 20.12.2021

№3053

Виктор Казаринов:
например, партийность какого-то человека.

Я бывшего комсомольского вожака чую из далека! И это не запах.

0 | 0

Kek

create

Проект SoundAgent

13:58 20.12.2021

№3056

Виктор Казаринов:

Kek:

Виктор Казаринов:
например, партийность какого-то человека.

Я бывшего комсомольского вожака чую из далека! И это не запах.

Аха-ха. А вот тут ты и прокололся. Я всегда занимался только техникой и никогда не был причастен

Я вовсе не тебя имел в виду. А вообще. Ладно, это все демотивация виновата...

0 | 0

Kek

create

Проект SoundAgent

08:14 21.12.2021

№3068

Продолжаем разговор...

+2 | 0

Kek

create

Проект SoundAgent

13:24 21.12.2021

№3076

figaro:

Kek:
Продолжаем разговор...

Я посмотрел вашу прогу и видосы, всё круто, респектабельно, но подготовка датасета показалась слишком мудреной, так не должно быть.

Да, замечания принимаются, они справедливы. В свое оправдания замечу, что я не оцениваю данную работу, как нечто выдающееся. Ровно потому, что результата нет, если результатом считать распознавание. Такую цель я и не ставил. Это размышления вслух. И еще важный момент. Данные видеосюжеты помогли мне самому оживить данную тему и наметить пути дальнейших действий.

0 | 0

Kek

create

Проект SoundAgent

14:39 21.12.2021

№3079

Вот! Вот! Вот что нужно от форума! Я поздравляю всех участников и модератора. Наконец-то происходит акт творения и созидания и т.д. Настройка на общую волну приносит свои результаты! 2 figaro. Относительности сложности датасета. А я не знаю как ещё? Проблема вот в чем. Что мы размечаем? Если это спектр отдельного кадра, то только так. Может это два кадра? Это ещё более сложная задача. Если же это слово, то получается так. Вот тебе WAV, товарищ система, этот WAV - человек. Он состоит из 20 кадров, иногда из 16-ти, а иногда из 30-ти. Все спектры тебе известны. Делай что-то. А что? Это я хотел подсмотреть в гитхабе, но вы видели мой гнев праведный. У меня намечается идея не разметки как таковой, а некоего диалога с учителем. Это более сложная и медленная процедура, но в рамках задачи ИИ, она более интересная. И здесь я отмечаю:

Prosolver:
Важным моментом восприятия является именно способность воспроизвести увиденное/услышанное. Так получилось, что единственным способом воспроизведения речи для человека есть мышечный артикуляционный аппарат.

Именно. Диалог, о котором я говорю предполагает синтез речи системой на основе кадров уже запомненных или базовых. Система должна бы воспроизвести тот участок потока, который является для неё новым и не помеченным, отсутствующем в априорной минимальной базе. А учитель должен как-то отреагировать. Это и есть элементы диалога.

0 | 0

Kek

create

Проект SoundAgent

15:19 21.12.2021

№3082

Prosolver:
P.S. Не смог скомпилировать программу RenderWord, она требует компонент TSpVoice. Не подскажете, где его скачать?

Вот ссылка Это все, что я быстро собрал по SAPI. Там движки и конкретно паскалевский модуль. sapi.zip Может его будет достаточно, т.к. в вин10 русский движок должен быть предустановлен.

0 | 0

Kek

create

Проект SoundAgent

15:23 21.12.2021

№3083

Luarvik.:
- это есть элементы дрессировки попугая (да простят мне присутствующие мое "особо циничное" настроение )))

Дальше попугая я даже и не задумывался...

0 | 0


1	2	3

Жалоба на	×

За Воздержался Против