Речевой ИИ Meta с открытым исходным кодом распознает более 4000 разговорных языков | Fanoftech


Meta создала языковую модель ИИ, которая (в освежающей смене темпа) не является клоном ChatGPT. Проект Massively Multilingual Speech (MMS) компании может распознавать более 4000 разговорных языков и воспроизводить речь (преобразование текста в речь) на более чем 1100 языках. Как и большинство других публично объявленных проектов ИИ, Meta сегодня предоставляет MMS с открытым исходным кодом, чтобы помочь сохранить языковое разнообразие и побудить исследователей развивать его основу. «Сегодня мы публично делимся нашими моделями и кодом, чтобы другие члены исследовательского сообщества могли опираться на нашу работу», — написала компания. «Благодаря этой работе мы надеемся внести небольшой вклад в сохранение невероятного языкового разнообразия мира».

Модели распознавания речи и преобразования текста в речь обычно требуют обучения на тысячах часов аудио с сопровождающими метками транскрипции. (Метки имеют решающее значение для машинного обучения, позволяя алгоритмам правильно классифицировать и «понимать» данные.) данных просто не существует», как говорит Мета.

Мета использовала нетрадиционный подход к сбору аудиоданных: прослушивание аудиозаписей переведенных религиозных текстов. «Мы обратились к религиозным текстам, таким как Библия, которые были переведены на множество разных языков и чьи переводы широко изучались для исследования языкового перевода на основе текста», — сказали в компании. «Эти переводы имеют общедоступные аудиозаписи людей, читающих эти тексты на разных языках». Включив немаркированные записи Библии и подобных текстов, исследователи Меты увеличили количество доступных языков модели до более чем 4000.


Если вы похожи на меня, этот подход может на первый взгляд вызвать у вас недоумение, поскольку он звучит как рецепт модели ИИ, сильно смещенной в сторону христианского мировоззрения. Но Мета говорит, что это не так. «Хотя содержание аудиозаписей является религиозным, наш анализ показывает, что это не склоняет модель к созданию более религиозного языка», — пишет Мета. «Мы считаем, что это связано с тем, что мы используем подход коннекционистской временной классификации (CTC), который гораздо более ограничен по сравнению с большими языковыми моделями (LLM) или моделями последовательностей для распознавания речи». Кроме того, несмотря на то, что большинство религиозных записей читали мужчины, это также не вносило мужской предвзятости — они одинаково хорошо исполнялись как женскими, так и мужскими голосами.

После обучения модели выравнивания, чтобы сделать данные более удобными для использования, Meta использовала wav2vec 2.0, модель компании «обучение представлению речи с самоконтролем», которая может обучаться на немаркированных данных. Сочетание нетрадиционных источников данных и модели речи с самоконтролем привело к впечатляющим результатам. «Наши результаты показывают, что модели массовой многоязычной речи работают лучше по сравнению с существующими моделями и охватывают в 10 раз больше языков». В частности, Meta сравнила MMS с Whisper от OpenAI, и результаты превзошли все ожидания. «Мы обнаружили, что модели, обученные на данных Massively Multilingual Speech, демонстрируют вдвое меньшую частоту ошибок в словах, но Massively Multilingual Speech охватывает в 11 раз больше языков».

Meta предупреждает, что ее новые модели не идеальны. «Например, существует некоторый риск того, что модель преобразования речи в текст может неправильно интерпретировать отдельные слова или фразы», ​​— написала компания. «В зависимости от результата это может привести к оскорбительным и/или неточным выражениям. Мы по-прежнему считаем, что сотрудничество в сообществе ИИ имеет решающее значение для ответственного развития технологий ИИ».

Теперь, когда Meta выпустила MMS для исследования с открытым исходным кодом, она надеется, что сможет обратить вспять тенденцию сокращения количества языков в мире до 100 или менее, которые чаще всего поддерживаются Big Tech. Он видит мир, в котором вспомогательные технологии, TTS и даже технологии VR / AR позволяют каждому говорить и учиться на своем родном языке. В нем говорилось: «Мы представляем себе мир, в котором технологии имеют противоположный эффект, побуждая людей поддерживать свой язык, поскольку они могут получить доступ к информации и использовать технологии, говоря на предпочитаемом ими языке».


Нажмите здесь, чтобы узнать больше новостей


Leave a Comment

Your email address will not be published.