Поговори со мной, компьютер…

15.11.2004 15:18

…человеческую речь.

Практически в любом фильме существуют устройства – машины, роботы, лифты, компьютеры которых способны подчиняться управлению голосом. А вспомните ковры-самолеты, скатерти-самобранки, сапоги-скороходы и прочие сказочные предметы. Человеческая мысль давно уже пришла к необходимости создания подобных помощников. Осталось только воплотить ее в жизнь.

Что же представляет собой разговор с компьютером? Ясное дело, вы не будете беседовать с ним о погоде, о новинках кино или о повышении цен, хотя и это не за горами. Все гораздо проще и функциональнее: вы произносите фразу (команду), на которую компьютер (или другое устройство) определенным образом реагирует – например, выполняет команду, набирает текст, предоставляет нужную информацию.

Задача машинного распознавания речи привлекает внимание специалистов в области информационных технологий. Тем не менее, продвинуться в этом направлении пока удалось относительно недалеко. С появлением вычислительной техники в 1950 – 60-е годы многие полагали, что с компьютером можно будет общаться «естественным» образом уже лет через 10 – 15. Первыми попытками было создание автоматических пишущих машинок, печатающих и редактирующих тексты под диктовку.

Сегодня многие гиганты IТ-области (Microsoft, IBM, Oracle) считают одним из главных приоритетов для себя голосовые технологии. Каждые несколько недель появляется сообщение о выходе новых программных продуктов для синтеза и распознавания речи. Голосовой ввод уже является чуть не обязательным компонентом различных программных продуктов и электронных устройств. Последние результаты в области голосовых технологий позволяют уверенно распознавать обычную слитную человеческую речь и озвучивать тексты так, что они практически не будут отличаться от прочитанных человеком.

Решение проблемы компьютерного распознавания речи позволит еще больше упростить способы взаимодействия человека и компьютера. Способ общения с помощью речи намного понятнее, естественнее и, следовательно, удобнее какого-либо другого. Но это – лишь одно из многих преимуществ, которые будут достигнуты с появлением средств распознавания человеческой речи.

Откуда же столько проблем в, казалось бы, настолько тривиальной задаче?

Компьютерная помощь
У вас сломался компьютер, не печатает принтер или не грузится Интернет? Наша компания поможет справиться вам с этими проблемами быстро и не дорого. Мы установим Windows, поменяем вышедшие из строя комплектующие, настроим локальную сеть, окажем любую другую необходимую вам компьютерную помощь.

Чтобы понять это, давайте попробуем разобраться в том, что же представляет собой человеческая речь. Текст, как известно, состоит из букв, слов, предложений, то есть состоит из отдельных частей. В обычных условиях человеческая речь звучит слитно. Фактически слова, произносимые человеком, состоят не из букв, а из звуков, которые называются фонемами. Таким образом, возникает проблема соответствия произнесенных фонем словам. Но и это еще не все.

Сильно отличаются для распознавания мужской, женский и детский голоса. А при распознавании речи людей, которые не произносят некоторые звуки, или речи иностранцев возникает еще больше трудностей.

Для преодоления этих проблем разработчики систем распознавания речи включили в состав своих программ обязательный компонент – обучение, или настройку программы под голос пользователя. Этот компонент определяет индивидуальные особенности речи говорящего и таким образом «подстраивается» под пользователя, улучшая таким образом скорость и качество распознавания речи. Подобные системы называются дикторозависимыми.

Но этим проблемы не исчерпываются. Темп человеческой речи также не одинаков в различных случаях. Речь взволнованного, рассерженного, сонного человека – все это дополнительные проблемы для создателей систем распознавания речи.

Использование слов-паронимов (имеющих схожее звучание, то различное написание и значение), например, прут – пруд, или английские rabbit – rapid, ударения, времен глаголов, склонений – это и многое другое – дополнительные проблемы для создателей систем распознавания речи.

Отдельной проблемой являются внешние шумы. Если это что-то однородное – шум дождя, гул машин, выделить отсюда человеческую речь проще. А если рядом разговаривает несколько людей, то увеличение ошибок при распознавании очевидно.

Существующие системы можно разбить на две большие группы в соответствии с их предназначением. В первую очередь, это командные системы, которые предназначены для выполнения голосовых команд. Ко второй группе относятся системы диктовки текста, целью работы которых является воспроизведение в электронном виде информации, произносимой пользователем.

Уже довольно широко используются так называемые интеллектуальные телефонные справочники. Пользователь, обратившись в центр и сформулировав команду-запрос, может получить необходимую информацию. Подобную услугу уже стали использовать банки и финансовые учреждения. Существует программа (Nuance Verifier), предназначенная для сохранения и сравнения голосов. Основное ее использование – ограничение доступа посторонних пользователей, например, к конфиденциальной информации, либо в том случае, когда пользователь забыл пароль, номер банковского счета. Программа хранит образец голоса и при обращении к ней пользователя сравнивает голос обратившегося с теми, которые есть у нее.

А на основе технологии ViaVoice в некоторых странах Европы и США существует система заказа авиабилетов. Система способна вести несложный диалог с клиентом. Например, в ответ на запрос «Мне нужен билет из Парижа в Сан-Франциско на пятницу на три часа» система способна внести уточнение, на какую именно пятницу нужен билет, и три часа – это 3.00 или 15.00. После необходимых уточнений система предлагает пользователю набор подходящих рейсов.

Да, много всяких чудес придумали ученые электронщики. Жаль, правда, для обычной, рабочей «персоналки» все эти плоды трудов человеческого гения пока не дошли. Так где у нас клавиша, чтобы поставить точку?