0/50 всего

Сотрудники пекинской компании Baidu создали роботизированную систему, которая воспроизводит человеческую речь, с точностью копируя ее уникальные характеристики.

искусственный интеллект

Технология под названием Deep Voice работает на основе машинного обучения: она «тренировалась» на звуковой записи, длящейся более 800 часов и включающей в себя около 2400 разных голосов. Для эффективной работы нейросети нужно около 100 пятисекундных звуковых сигналов, при этом она может обмануть системы распознавания голоса с помощью всего десяти пятисекундных семплов.

Deep Voice точно имитирует тембр и интонации голоса, что делает производимые им звуки неотличимыми от настоящих, и, по мнению создателей, система найдет широкое применение в совершенно разных областях. Например, она может быть использована для создания персонализированных цифровых помощников, оказания услуг по автоматическому синхронному переводу, озвучивания книг, фильмов и видеоигр.

Более того, нейросеть облегчит жизнь тем, кто по каким-то причинам утратил возможность говорить, и скрасит одиночество детей, читая им сказки на ночь, когда родители уехали в командировку. Интересно, что Deep Voice умеет менять голос, делая его мужским вместо женского или добавляя ему иностранный акцент.

Это настоящий прорыв с технической точки зрения. Нам удалось решить сложнейшую генеративную проблему, а именно, мы смогли синтезировать живую речь со всеми ее особенностямиговорит один из авторов разработки Лео Зу (Leo Zou).

Ранее канадскими разработчиками был создан похожий голосовой сервис под названием Lyrebird. Он сжимает все индивидуальные речевые характеристики в очень короткую запись, воспроизводя 1000 предложений всего за полсекунды. Система легко копирует любые звуки, начиная от «жужжания» бензопилы и заканчивая пением тропических птиц, а также может генерировать новые голоса и добавлять старым определенный тон: сердитый, веселый, сочувствующий. Lyrebird, также как и Deep Voice, применяется для работы голосовых помощников, озвучивания мультимедийных продуктов и синтеза речи людей с ограниченными возможностями.

Правда, у обеих технологий есть общая проблема: возможно, ими захотят воспользоваться мошенники, чтобы вводить людей в заблуждение или обманывать программы, работающие на основе распознавания речи. А юристы опасаются, что в скором времени аудиозаписи перестанут являться доказательством в ходе судебных процессов.

Подписывайтесь и читайте наши лучшие публикации в Яндекс.Дзен. Смотрите красивые фотографии со всех уголков планеты на нашей странице в Instagram

Если вы нашли ошибку, пожалуйста, выделите фрагмент текста и нажмите Ctrl+Enter.

ОСТАВИТЬ КОММЕНТАРИЙ

Введите текст Вашего сообщения
Введите Ваше имя