Meta рассказала о Project CAIRaoke — проекте по улучшению голосовых ассистентов на основе ИИ-технологий

Разработчики из компании Meta (в прошлом Facebook) рассказали о проекте Project CAIRaoke, в рамках которого была создана «сквозная нейронная модель», которая обеспечивает гораздо более естественный процесс взаимодействия человека с голосовым помощником. Новая модель уже используется в смарт-дисплеях Portal, а в будущем она станет частью устройств виртуальной и дополненной реальности, чтобы обеспечить наилучший опыт общения с виртуальными помощниками. В сообщении сказано, что одним из главных препятствий на пути улучшения голосовых ассистентов является архитектура, на основе которой они построены. Несмотря на то, что такие системы выглядят как единое целое, они базируются на четырёх отдельных компонентах: понимание естественного языка (NLU), отслеживание состояния диалога (DST), управление политикой диалога (DP) и генерация естественного языка (NLG). Эти компоненты связаны между собой, из-за чего их оптимизация и адаптация к новым задачам трудна и во многом зависит от аннотированных наборов данных. Это одна из причин, по которым современные голосовые помощники держат пользователей в строго очерченных границах в процессе взаимодействия. В рамках Project CAIRaoke уже созданы нейронные модели, которые позволят людям более естественно и свободно общаться с голосовыми помощниками, например, возвращаясь к предыдущей теме разговора или полностью меняя её, упоминая вещи, зависящие от понимания нюансов контекста, и др. Пользователи также смогут взаимодействовать с голосовыми ассистентами новыми способами, например, с помощью жестов. В настоящее время новая модель используется в смарт-дисплеях Portal и находится на этапе раннего тестирования. Однако уже сейчас разработчики уверены в том, что она превосходит существующие подходы, используемые для создания голосовых помощников. Разработчики выразили уверенность в том, что достигнутый в рамках Project CAIRaoke прогресс позволит сделать более естественным общение между ИИ-алгоритмами и человеком, а также станет важным инструментом при создании метавселенной. Встроенный в AR-гарнитуру голосовой помощник в будущем станет более полезным и сможет понимать смысл того, что говорит пользователь естественным языком.

Читайте также  ДНК: проведение генетической экспертизы
tanki-irgy