• ПоискГлавная
  • Подписаться на НовостиНовости
  • Подписаться на СтатьиСтатьи
  • Подать объявлениеГазета
  • Доска объявлений
  • Подать объявление на сайт
  • Академгородок
  • О нас
  • Афиша
  • Прайс
  • Юридическая информация
  • Политика конфиденциальности
  • Карта сайта
  • Написать в редакцию
  • Войти
  • 15.02.2024, 11:20

    В НГУ нейросети учатся распознавать человеческую речь

    В НГУ нейросети учатся распознавать человеческую речь

    В НГУ нейросети учатся распознавать человеческую речь

    В лаборатории прикладных цифровых технологий Международного научно-образовательного математического центра НГУ создали нейросетевые модели, которые имеют высокие показатели качества распознавания речи. Коллеги дообучили разработанную в Новосибирске нейросеть.

    Нейросеть Wav2Vec2-Large-Ru-Golos создана для распознавания голосовых команд управления автономным роботом. Она проста в использовании, имеет хорошие возможности для доработки. Это оказалось востребовано в сообществе специалистов по распознаванию речи на русском языке. Моделью заинтересовались специалисты Исследовательского института искусственного интеллекта (AIRI) и Московского физико-технического института (МФТИ).

    – Суть работы наших коллег заключалась в следующем: они предложили использовать большие языковые модели типа ChatGPT, только открытые (LLaMA2 и MiniGPT4), для автоматической генерации плана действий автономного робота в зависимости от изменяющихся условий среды на основе задач, которые ставятся роботу человеком, – рассказал научный сотрудник лаборатории прикладных цифровых технологий Иван Бондаренко.

    Автоматическое управление и естественный язык – разные научные предметы. Но и то, и другое можно рассматривать как последовательность элементов некоторой знаковой системы. А значит, глубокую нейросеть, которая «понимает» язык, можно дообучить превращению команды, поставленной человеком, в визуально-моторные инструкции управления, которые обеспечивают выполнение этой командыроботом. По словам Ивана, простая команда «подай стакан воды» должна быть трансформирована в довольно длинную цепочку манипулирований объектами и перемещений в пространстве, выполняемых роботом.

    Помимо того, что интеллект робота должен уметь генерировать детальный план низкоуровневых управляющих инструкций по высокоуровневой команде человека, важно еще правильно услышать команду, произнесенную человеком с помощью голоса. Эту проблему коллеги из AIRI решили с помощью нейросетевых моделей распознавания речи Wav2Vec2-Large-Ru-Golos и Wav2Vec2-Large-Ru-Golos-With-LM.

    Иван Бондаренко убежден, что исследования в области искусственного интеллекта должны быть открытыми:

    Открытость обеспечивает эстафету научного познания, даёт возможность одним учёным продолжить там, где остановились другие, и тем самым ускоряет процесс... Поэтому мы делаем результаты наших исследований открытыми в надежде, что они окажутся полезны коллегам из других научных коллективов. И наши надежды оправдываются! 

    По информации пресс-службы НГУ

    Другие новости на тему

    Популярное