Обновление голосовых данных Mozilla Common Voice 14.0

Компания Mozilla обновила наборы голосовых данных Common Voice, включающие примеры произношения более 200 тысяч человек. Данные опубликованы как общественное достояние (CC0). Предложенные наборы можно использовать в системах машинного обучения для построения моделей распознавания и синтеза речи. По сравнению с прошлым обновлением объём речевого материала в коллекции увеличился с 27.1 до 28.1 тысяч часов речи, из которых 18.6 тысяч часов прошли процедуру проверки. Число поддерживаемых языков увеличилось со 108 до 112 (добавлены пушту, албанский, амхарский и стандартный марокканский берберский языки).

В подготовке материалов на английском языке приняли участие 88.1 тысяча человек, надиктовавших 3279 часов речи (было 88 тысяч участников и 3161 час). Набор для белорусского языка охватывает 8162 участника и 1511 часов речевого материала (было — 7903 участника и 1419 часов), русского языка — 3001 участник и 263 часа (было 2815 участников и 229 часов), узбекского — 2134 участника и 262 часа (было 2092 участника и 261 час), украинского языка — 789 участников и 92 часа (было 780 участников и 87 часов).

Проект Common Voice нацелен на организацию совместной работы по накоплению базы голосовых шаблонов, учитывающей всё разнообразие голосов и манер речи. Пользователям предлагается озвучить выводимые на экран фразы или оценить качество данных, добавленных другими пользователями. Накопленную базу данных c записями различного произношения типовых фраз человеческой речи без ограничений можно использовать в системах машинного обучения и в исследовательских проектах.





Источник: http://www.opennet.ru/opennews/art.shtml? num=59451

©  OpenNet