В НГУ нейросети учатся распознавать человеческую речь
В НГУ нейросети учатся распознавать человеческую речь
В лаборатории прикладных цифровых технологий Международного научно-образовательного математического центра НГУ создали нейросетевые модели, которые имеют высокие показатели качества распознавания речи. Коллеги дообучили разработанную в Новосибирске нейросеть.
Нейросеть Wav2Vec2-Large-Ru-Golos создана для распознавания голосовых команд управления автономным роботом. Она проста в использовании, имеет хорошие возможности для доработки. Это оказалось востребовано в сообществе специалистов по распознаванию речи на русском языке. Моделью заинтересовались специалисты Исследовательского института искусственного интеллекта (AIRI) и Московского физико-технического института (МФТИ).
– Суть работы наших коллег заключалась в следующем: они предложили использовать большие языковые модели типа ChatGPT, только открытые (LLaMA2 и MiniGPT4), для автоматической генерации плана действий автономного робота в зависимости от изменяющихся условий среды на основе задач, которые ставятся роботу человеком, – рассказал научный сотрудник лаборатории прикладных цифровых технологий Иван Бондаренко.
Автоматическое управление и естественный язык – разные научные предметы. Но и то, и другое можно рассматривать как последовательность элементов некоторой знаковой системы. А значит, глубокую нейросеть, которая «понимает» язык, можно дообучить превращению команды, поставленной человеком, в визуально-моторные инструкции управления, которые обеспечивают выполнение этой командыроботом. По словам Ивана, простая команда «подай стакан воды» должна быть трансформирована в довольно длинную цепочку манипулирований объектами и перемещений в пространстве, выполняемых роботом.
Помимо того, что интеллект робота должен уметь генерировать детальный план низкоуровневых управляющих инструкций по высокоуровневой команде человека, важно еще правильно услышать команду, произнесенную человеком с помощью голоса. Эту проблему коллеги из AIRI решили с помощью нейросетевых моделей распознавания речи Wav2Vec2-Large-Ru-Golos и Wav2Vec2-Large-Ru-Golos-With-LM.
Иван Бондаренко убежден, что исследования в области искусственного интеллекта должны быть открытыми:
– Открытость обеспечивает эстафету научного познания, даёт возможность одним учёным продолжить там, где остановились другие, и тем самым ускоряет процесс... Поэтому мы делаем результаты наших исследований открытыми в надежде, что они окажутся полезны коллегам из других научных коллективов. И наши надежды оправдываются!
По информации пресс-службы НГУ
Комментарии