01 Апреля 2024 | 14:51
Нейросеть позволит заговорить на любом языке с нужным акцентом
Разработчик ChatGPT, компания OpenAI, показала нейросеть под названием Voice
Engine, которая с помощью текста и одного 15-секундного сэмпла (образца) может
сгенерировать естественную речь. ИИ-модель способна создавать эмоциональные и
реалистичные голоса, сообщили в
OpenAI.
Особенность нейросети в том, что ИИ-голос может по команде зачитывать
текстовые подсказки на языке исходника или других языках. Также модель
сохраняет родной акцент говорящего.
Нейросеть может помочь авторам контента обращаться к своей аудитории на
любом языке собственным голосом. Компания HeyGen, специализирующаяся на
создании пользовательских человекоподобных аватаров, одна из первых внедрила в
свою работу Voice Engine для перевода видео.
Также доступ к технологии получили: платформа в сфере образовательных
технологий Age of Learning, производитель программного обеспечения для
здравоохранения Dimagi, разработчик коммуникационных приложений на базе
искусственного интеллекта Livox и система здравоохранения Lifespan.
OpenAI рассказала, что ее партнеры согласились соблюдать политику
использования Voice Engine, которая запрещает выдавать себя за другое
физическое лицо или организацию без их согласия. Компания требует, чтобы
партнеры получали «явное и осознанное согласие» владельцев голоса, а не
уведомляли их уже после записи. Также они должны сообщать своей аудитории, что
звук, который они слышат, создан искусственным интеллектом. В том числе, OpenAI
будет использовать водяные знаки для отслеживания происхождения аудио.
В соответствии с «подходом к безопасности использования ИИ» разработчики
приняли решение предварительно протестировать технологию и не распространять ее
на широкую аудиторию.
OpenAI предложила несколько шагов, которые снизят риски, связанные с
использованием такой нейросети. Они включают в себя отказ от голосовой
аутентификации для доступа к конфиденциальной информации, использование
политики защиты голосов людей в ИИ, информирование общественности о дипфейках и
внедрение методов отслеживания происхождения контента.
OpenAI разработала нейросеть Voice Engine в 2022 г. Технология начала
поддерживать предустановленные голоса для API
преобразования текста в речь и функции чтения вслух с помощью ChatGPT в прошлом
году.
Источник: Источник
No comment