|
Сообщения участника "figaro" | |
| |
create
|
Ну чего, вполне ясное и вдохновляющее описание, можно садиться и кодить самому, даже не заглядывая в их код(если бы они его выложили). Я про ясность изложения идеи алгоритма, образность. Пример это был именно про подачу материала.
Также конечно нужно архитектурно разбить код на сравнительно независимые модули, как минимум на три — захват звука, распознавание и взаимодействие с юзером, задать всем разумные интерфейсы и тогда на гитхабе может начать подтягиваться народ, комитить ченить пулрекветить...
|
| |
create
|
Ko.B:figaro:
Попытайтесь быть полезным. Расскажите как вы бизнес делали, что программировали, каких добились результатов и тп. Это интересно и полезно.
Даже было бы интересно и полезно особенно для ии-шников, детали того как происходит поломка психики, я например с удовольствием прочитал книгу Оливера Сакса "Человек принявший жену за шляпу", про неврологические поломки. Так как только по поломкам нашего сознания мы можем понять чего теперь стало не хватать, в норме мы не чувствуем слаженной работы всего ансамбля нашего разума.
Начну несколько издалека.
Я закончил Кубанский Государственный Университет в 1999 году. И решил заняться бизнесом, я открыл компьютерный клуб. В то время эта тема только появлялась и доход был довольно неплохим. Через 4 года в Краснодаре было уже более 20 клубов, и мой бизнес стал нерентабельным (учитываю моральный износ компьютеров).
Поэтому логичным шагом было переключиться на новый вид бизнеса. В то время начал зарождаться рынок КПК (карманных компьютеров), и я начал разрабатывать игры для них. Благо у меня был опыт программирования с 14 лет. Написав около десятка игр, я продавал их на зарубежных сайтах Handango и Palmgear. В то время мой доход составлял более 5000$ в месяц.
Потом наступил переломный момент, в своих играх я активно использовал сжатие данных и искусственный интеллект. Поэтому я решил пойти в аспирантуру КубГУ и стать кандидатом наук. Тема моей диссертации была «Иммитация интеллекта соперника в компьютерных играх».
Идея была создать на базе двух игр фирмы Blizzard (Diablo и StarCraft) коммерчески успешные проекты на КПК.
Я хотел стать кандидатом наук и успешным предпринимателем одновременно. В этих проектах я использовал собственные алгоритмы сжатия графики и алгоритмы ИИ.
Вот тут-то и начала проявляться моя болезнь. Я много работал, мало спал, курил, плохо питался, а ещё у меня забеременела жена и умерла моя бабушка.
Все произошло за месяц до рождения сына. Я словил «пробой психики» на фоне сильного истощения.
С тех пор моя жизнь кардинально поменялась. Сил писать игры уже не было и я решил сфокусироваться на сжатии данных и искусственном интеллекте. Мой научный руководитель, как и я видел потенциал в этих двух направлениях. Но я ещё решил взять третье и четвёртое направления: решение np-полных задач и генерацию случайных чисел
Это было в 2004 году, я интенсивно занимался научными исследованиями до 2012 года, а потом мой научный руководитель уволился из КубГУ.
С тех пор я занимаюсь исследованиями самостоятельно по трём направлениям:
1. Сжатие данных без потерь
2. Решение NP-полных задач
3. Генерация случайных чисел
Искусственный интеллект и криптовалюты - перешли в разряд хобби.
Что касается здоровья, то после первого срыва у меня начались проблемы с психикой, которые смешались с моей научной деятельностью.
Сейчас я стараюсь видеть мир под правильным углом - однако это трудно, так как мне приходится иметь дело со значительной умственной нагрузкой…
Как то так…
Ну круто, что сказать! Реально круто, я без шуток!
Вы просто "перегрелись" как говорится, слишком много на себя взяли, не рассчитали сил и надорвались. Но ИМХО это с каждым увлеченным человеком бывает, в той или иной степени.
Важно не отрываться от реальности, не уходить в чистую ментальную мастурбацию, когда продукт многих лет труда почему то никому не нужен, а главное структурно примитивен или вообще откровенно абсурден. Это важно отслеживать. Просто взглянуть со стороны, как бы вы лично к "этому" отнеслись если бы такой контент с генерировал посторонний человек.
Вам нужно понять что даже среди профессиональных айтишников только один из пяти ПЫТАЕТСЯ открыть какой то бизнес(включая фриланс) и лишь 1 из 20 может на этом жить длительное время. Но вы уже добились в своё время достаточно внушительных результатов, 5к$ в 2000 это как сейчас все 15к$, респект!
Искусственный интеллект в играх — практичное и перспективное направление, сам с этим работал и опыт очень положительный. Сжатие данных — ну… чисто в историческом контексте интересно, но практически уже не очень применимо, в этой области можно сказать "почти всё изобретено", можно конечно получить какие то % прироста но это не сильно поможет человечеству.
Криптовалюта — хайп, блокчейн — тема интересная, хотя раздутая, в своей сути там на пару дней раздумий и открытий, особо фанатеть не счего, ну разве что с лохов которые несут в это бабки которые потом улетят в трубу.
Тряхните стариной, замутите игру какую то, может даже не как разраб а как ПМ и овнер, что бы не сильно напрягаться, идите от этапа к этапу, от процесса к процессу, прислушивайтесь к отзывам коллег и друзей, что то выйти должно. А с этими мечтами про СИИ и сжатие данных лучше завязывать, как и с всяким юродством про "ИИ-биткоин" и "бесконечность=2", вы же сами понимаете что это чепуха, разум у вас ясный, уверен всё сами "отстреливаете".
Вы просто зациклились на своём психическом срыве, переступите этот затянувшийся эпизод жизни и идите дальше. Я почти уверен что у вас собственно и нет шизофрении, как прогрессирующего заболевания, от перенапряжения просто "сорвало резьбу" это не так страшно, работа должна быть в кайф, не нужно так разрывать пукан, пилите в свой удовольствие и будет вам счастье.)))
|
| |
create
|
Kek:figaro:
Второе это как то прорекламировать разработку, среди кодеров и братьев меньших, Вы уже бодро начали в этом направлении, сделали кое какое описание что к чему, но это только начало, нужно по подробнее с картинками и видео на ютубе. Нужно заставить древние отделы мозга вовлечься в процесс, которые реагируют на видео, картинки, звуки и истории.
Я очень древний old scool. Мог бы сделать и переход на Pyton, хотя его семантика вызывает у меня несварение желудка. Можно и заютубить. Но не уверен, что чьи-то "отделы мозга" вовлекутся.
Накопилось очень много знаний в этой области. И прежде чем ютубиться хочу увидеть отклик в ИИ-шной среде. Посмотрим.... Не, питон это не путь джедая, да и смысл если он в 10-100 раз медленнее плюсов, питон это гламурная оболочка для вызова сишных библиотек, сам реальный код всегда на плюсах или чистом Си.
|
| |
create
|
15:16 20.12.2021 |
|
15:16 20.12.2021 |
|
№3058 |
Виктор Казаринов: Конечно, этот вариант хуже, чем разработки Сергея, но вот я решил выложить на сайт тестовый вариант программы автономного распознавания речи на основе VOSK.
А, ну это чуть менее круто чем творчество ув. КеКа, думал вы сами запедалили распознавалку.
Мне кажется не нужно искать совсем уж лёгкие пути в нашем деле, всяких питонщиков тензерфловщиков пруд пруди, навык заюзать любу конечно представляет ценность, но не высокую, много конкуренции, порог входя низкий. Можно юзать либы вспомогательные, а не по существу, не по предметной области, иначе это уже простите юзерство какое то. Какой вы тогда ИИ-шник???
Я вот медитирую пока на спектрограмму начитанных циферок:
По сути звук это просто картинка, с точки зрения распознавания, на днях накидаю чонить чтобы циферки эти распознавала, пока "в лоб", каким то классификатором, бустингом вероятно, чтоб побыстрее, уверен качество распознавания будет высоким(>95%).
Сделаю датасет так, каждой циферке начитаю раз по 20-100, а потом порежу на фрагменты, автоматом(надо подумать как). С них спектрограмму, её заресемплить в 20х20 а может и 10х10, с итерполяцией по максимуму и уже это будет вектором нормированным в 0,1.
Но целые слова распознавать это не очень перспективное дело, слов много, начитать датасет такой не выйдет за разумное время, да и десятки(сотни) тысяч размерности таргета тоже не кул.
Потом наверно поработаю с фонемами, так как слова состоят на уровне звука из "фонем", нужно будет их и распознавать и переводить в прото-слова, которым потом исправлять ошибки по словарю всех слов.
Цель-максимум сделать чтобы программа на лету писала текст по звуку как гугл, минимум чтобы делала менее 20% ошибок.
|
| |
create
|
15:27 20.12.2021 |
|
15:39 20.12.2021 |
|
№3060 |
Kek:Виктор Казаринов:
Вот собственно и софт: https://github.com/alphacep/vosk-api
Я не стал разбираться с подробностями обучения, т.к. пока мне было не до того. А кому интересно, можете копнуть поглубже, благо все, кажется, с исходными кодами.
Да, Vosk использует Kaldi. В представленном примере Vosk нет никаких низкоуровневых процедур. Всё как любят красноглазые си-шники и питонщики. Кнопочку нажал и хоп, всё работает.
С Kaldi полный швах. Мне нестыдно признаться, что я ничего не понимаю... Описания описаний для описания описаний...
Вот перевод установки Калди для виндов:
*******************************************************************************
Инструкции по установке родной Windows с Visual Studio
Для установки cygwin см. Инструкции в ../INSTALLразделе .
Примечания
Рецепты (в egs/) не будут работать. Нет никаких обязательств по поддержке Windows. Порт Kaldi для Windows предназначен для опытных разработчиков, которые хотят программировать свои собственные приложения с помощью библиотек kaldi и могут самостоятельно устранять неполадки.
Эти инструкции действительны с ноября 2017 года, поддерживаются Intel® MKL и OpenBLAS
ATLAS не поддерживается, и я лично не намерен работать над его поддержкой, так как для этого требуется вся среда cygwin
На данный момент (20171121) мы не поддерживаем CUDA. Мы могли бы снова добавить поддержку в будущем, но пока мы не выражаем никаких обязательств сделать это. Вы все еще можете создавать решения с помощью CUDA, но мы не предоставляем никакой поддержки и не проверяли, работают ли решения или нет.
*******************************************************************************
Конечно... я лузер и не опытный разработчик.
Это поток сознания нервного др@чилы.
Это всё равно, если бы я в своём проекте написал:
Запуск программы только для опытных разработчиков, осторожно при неправильном нажатии кнопки диск "C" может самопроизвольно отформатироваться. Я тут непричем, вы все лузеры...
Короче, я демотивирован. Виктор конечно, не виноват, это не к нему мой гнев.
Да забейте вы на эту либу, либы для слабаков, да и стыдиться нечего тут, что не нашли мотивации ставить какое то гавно. ИМХО когда чтобы просто заюзать либу, нужно ковыряться в документации, ставить ещё другие либы и руками что то где то прописывать ещё и во многих местах, гуглить что то и тп. это признак очень хренового программирования и вероятней всего от этой либы будет больше проблем чем пользы.
ЗЫ
По поводу "профессионалов" и "промышленный код", это в основном всё чепуха.
Вон на готайке одним праздным вечером какой то хрен с горы взял да переписал код atof(преобразование строки в число) который стал работать на порядок быстрее, я сам проверял и даже удивился честно говоря, думал за десятки лет уже всё работает на пределе оптимума.
Я это к тому что для узких задачь смекалистый кодер может слабать алгоритм СРАВНИМЫЙ, а может и превосходящий, того что пилят в гуглах и амазонах, это вполне вероятно. Оно касается именно конкретного алгоритма, когда важна индивидуальная изобретательность, что не параллелится и не пайплайнится на толпы(простите команды). Конечно когда речь идёт о агрегатных системах вроде ОС или софта в миллионы строк кода и тысячи алгоритмов, толпа кодеров лучше чем один, но это мало касается инноваций в ИИ.
|
| |
create
|
гость 188: теперь доктору клевцову негде проводить свои исследования.. Может написать ему в скайп, пригласить сюда? Клевцов вроде стал блогером, популярной личностью, есть ролик где он танцует на дискотеке.
|
| |
create
|
Виктор Казаринов: Пишу только на С и в необходимых случаях на С++. Да, еще на самодельном Форте для самодельных процессоров на Верилоге.
Это по взрослому, респект.
|
| |
create
|
Я посмотрел вашу прогу и видосы, всё круто, респектабельно, но подготовка датасета показалась слишком мудреной, так не должно быть. Тут тоже надо подумать об оптимальном варианте, важно чтобы это было максимально просто.
Вы конечно суперкул, но нужно поспешно думать в направлении сделать либу для того чтобы КТО ТО ДРУГОЙ мог воспользоваться плодами ваши усилий. Для этого нужно подумать о протоколах взаимодействия, интерфейсах, что на вход, что на выход.
Я вижу датасет для одного слова\фонемы, как один звуковой файл(-ов от разных чтецов) в папке, с последовательностью повторяющихся проговорок, которые потом режутся автоматом уже. Наименования папок соответствуют таргету слову\фонеме. Это ИМХО наиболее логично.
Интерфейс выхода модуля захвата это поток векторов спектра float[], то есть каждый квант времени(например 40мс) по вектору float[]. Выходом будет колбек функция которая будет выплёвывать поток слов по мере их распознавания и восстановления.
|
| |
create
|
Хз, как по мне нормология и местология — чепуха, чиновьичьим лицемерием отдаёт. Вам как украинскому чиновнику конечно хочется чтобы стадо(все кроме самих чиновников), было податливым и предсказуемым, знало своё "место" и не выходило за "нормы", словно глина или овечки. Сгорали старательные на работе, но жили в впроголодь не рапщя и всей толпой финансировали яхты по миллиарду баксов, этих паразитов чинуш и казнокрадов.
Фигушки вам. Будем строптивые, непредсказуемые и посваливаем туда где лучше, будите сами работать.
|
|
|