Нейросеть для распознавания речи

Нейросеть для распознавания речи

Компания Meta представила новую нейросеть для распознавания речи. Проект, названный SeamlessM4T, имеет открытый исходный код и доступен на платформе GitHub по ссылке. Кроме того, Meta выпустила набор данных под названием SeamlessAlign, который включает в себя 270 тысяч часов аудиозаписей речи и их текстовые переводы.

Функционал SeamlessM4T включает в себя следующие возможности:

  • Автоматическое распознавание речи на почти 100 языках.
  • Перевод речи в текст с поддержкой практически 100 языков ввода и вывода.
  • Перевод речи в речь на почти 100 языках ввода и 35 языках вывода (включая английский).
  • Перевод текста на почти 100 языках.
  • Перевод текста в речь на почти 100 языках ввода и 35 языках вывода (включая английский).

Для использования демо-версии нейросети для распознавания речи рекомендуется следовать следующим указаниям:

  • Произнести полное предложение на выбранном языке в тихой обстановке. Продолжительность предложения не должна превышать 15 секунд.
  • Выбрать до трех языков для перевода.

После этого система предоставит транскрипцию и аудиоперевод предложения. Однако исследователи предупреждают о возможности неточного перевода или изменения смысла произнесенных слов. Они просят пользователей сообщать о любых обнаруженных ошибках в работе системы.

Важно отметить, что организация, указанная в тексте, является запрещенной в Российской Федерации.

Обзор на нейросеть на нашем ютюб канале.

Больше о нейросетях на NeuroWiki

Рейтинг
( Пока оценок нет )
Никита Кафтанатий/ автор статьи
Добавить комментарий

NeuroWiki