Распознавание речи 2012

В постах, посвященных NUI и человеко-компьютерному взаимодействию, мы уже неоднократно упоминали о том, что полноценное распознавание речи является одной из важных задач современных исследований в области информатики. В своей последней публикации на эту тему  Стив Клейтон рассказывает о новой технологии, которая существенно приближает решение этой задачи.

Речь идет о системе MAVIS, разрабатываемой Microsoft Research. Теперь в ней используется алгоритм распознавания речи, построенный на концепции искусственных нейронных сетей. Если ранее системы распознавания речи использовали ограниченное количество слов и выражений, заложенных в их память, то теперь возможен более полноценный и природосообразный подход. Компьютер сможет идентифицировать звуки речи, фонемы и складывать из них слова точно так же, как это делает человеческий мозг. Впрочем, в отличие от человека, компьютеру потребуется дробить речь на еще более мелкие звуковые фрагменты – «сеноны». В результате этот подход позволил увеличить точность распознавания на 33%, а главное – указал путь развития технологии, которая на протяжении последних 50 лет  старается научить компьютер понимать человеческую речь.

Вероятно, не лишним будет уточнить, что обработка такого большого объема информации была бы невозможной без использования облачных вычислений. Для построения искусственной нейронной сети и анализа звуков речи, которые в сотни раз меньше фонемы («сеонов») создатели MAVIS использовали Windows Azure.

Таким образом, уже сегодня можно предположить, что полноценное распознавание речи, а следовательно – новые человеко-компьютерные интерфейсы и автоматизированный перевод уже не за горами. 

 

©  Microsoft