OpenAI нужно 15 секунд аудио, чтобы его ИИ смог клонировать голос | Цифровые тенденции

  Мы в Telegram

В последние годы время прослушивания, необходимое ИИ для клонирования чьего-то голоса, становилось все короче и короче.

Раньше это были минуты, теперь — секунды.

OpenAI, компания, поддерживаемая Microsoft и создающая вирусный чат-бот ChatGPT с генеративным искусственным интеллектом, недавно сообщила, что ее собственная технология клонирования голоса требует всего 15 секунд аудиоматериала для воспроизведения чьего-либо голоса.


В сообщении на своем веб-сайте OpenAI поделилась небольшой предварительной версией модели под названием Voice Engine, которую она разрабатывает с конца 2022 года.

Voice Engine работает, подавая ему как минимум 15 секунд разговорного материала. Затем пользователь может вводить текст для создания того, что OpenAI описывает как «эмоциональную и реалистичную» речь, которая «очень похожа на исходного говорящего».

OpenAI настаивает на том, что принимает «осторожный и осознанный подход к более широкому выпуску из-за потенциального злоупотребления синтетическим голосом», добавляя, что он хочет «начать диалог об ответственном использовании синтетических голосов и о том, как общество может адаптироваться к этим новым возможности».

В нем добавлено: «На основе этих разговоров и результатов этих мелкомасштабных испытаний мы примем более обоснованное решение о том, следует ли и как развертывать эту технологию в больших масштабах».


Одним из злоупотреблений, на которые ссылается OpenAI, является мошенничество, которое некоторые преступники уже осуществляют с использованием аналогичной технологии, которая уже некоторое время является общедоступной. Он включает в себя клонирование голоса, а затем звонок другу или родственнику этого человека, чтобы обманом заставить его передать наличные посредством банковского перевода. Существуют также опасения по поводу того, как такая технология может быть использована на предстоящих президентских выборах. Эту проблему подчеркивает недавний громкий инцидент, когда робот-звонок использовал клон голоса президента Джо Байдена. сказал людям не голосовать на январских праймериз в Нью-Гэмпшире.

Еще одна проблема заключается в том, как быстро совершенствующиеся технологии повлияют на жизнь актеров озвучивания, которые опасаются, что их все чаще будут просить передать права на свой голос, чтобы ИИ можно было использовать для создания синтетической версии с компенсацией за такой контракт. вероятно, будет намного ниже, чем если бы актера попросили выполнить работу лично.


Рассматривая более позитивное применение этой технологии, OpenAI предполагает, что ее можно использовать для оказания помощи в чтении тем, кто не умеет читать, и детям с использованием естественно звучащих, эмоциональных голосов, «представляющих более широкий диапазон говорящих, чем это возможно с заранее заданными голосами». как мгновенный перевод видео и подкастов, который Spotify уже тестирует.

Его также можно использовать, чтобы помочь пациентам, которые постепенно теряют голос из-за болезни, продолжать общаться, используя звук, похожий на их собственный голос.

В OpenAI есть несколько примеров звука, сгенерированного искусственным интеллектом, и эталонного звука. на своем сайте и мы уверены, что вы согласитесь, они довольно необычны.

Рекомендации редакции






Нажмите здесь, чтобы узнать больше новостей


Leave a Comment

Your email address will not be published. Required fields are marked *