Компания Meta представила новую нейросеть для распознавания речи. Проект, названный SeamlessM4T, имеет открытый исходный код и доступен на платформе GitHub по ссылке. Кроме того, Meta выпустила набор данных под названием SeamlessAlign, который включает в себя 270 тысяч часов аудиозаписей речи и их текстовые переводы.
Функционал SeamlessM4T включает в себя следующие возможности:
- Автоматическое распознавание речи на почти 100 языках.
- Перевод речи в текст с поддержкой практически 100 языков ввода и вывода.
- Перевод речи в речь на почти 100 языках ввода и 35 языках вывода (включая английский).
- Перевод текста на почти 100 языках.
- Перевод текста в речь на почти 100 языках ввода и 35 языках вывода (включая английский).
Для использования демо-версии нейросети для распознавания речи рекомендуется следовать следующим указаниям:
- Произнести полное предложение на выбранном языке в тихой обстановке. Продолжительность предложения не должна превышать 15 секунд.
- Выбрать до трех языков для перевода.
После этого система предоставит транскрипцию и аудиоперевод предложения. Однако исследователи предупреждают о возможности неточного перевода или изменения смысла произнесенных слов. Они просят пользователей сообщать о любых обнаруженных ошибках в работе системы.
Важно отметить, что организация, указанная в тексте, является запрещенной в Российской Федерации.
Обзор на нейросеть на нашем ютюб канале.
Больше о нейросетях на NeuroWiki