Мы опубликовали датасет для детекции речи размером более 150 тысяч часов на 6000+ языках
Мы выложили в публичный доступ гигантский датасет для детекции речи (voice activity detection).
Датасет содержит порядка 150 тысяч часов аудио более чем на 6,000 языках. Количество уникальных ISO-кодов данного датасета не совпадает с фактическим количеством языков, так как близкие языки могут кодироваться одним и тем же кодом.
Данные были размечены для задачи детекции голоса при временной дискретизации примерно в 30 миллисекунд (или 512 семплов при частоте дискретизации 16 килогерц).
Данный датасет распространяется под лицензией CC BY-NC-SA 4.0.
Подробности
Датсет содержит следующие наборы данных на следущих языках:
Название | Число часов | Число языков | Ссылка | Лицензия |
---|---|---|---|---|
Bible.is | 53,138 | 1,596 | URL | Уникальная |
globalrecordings.net | 9,743 | 6,171 | URL | CC BY-NC-SA |
VoxLingua107 | 6,628 | 107 | URL | CC BY |
Common Voice | 30,329 | 120 | URL | CC0 |
MLS | 50,709 | 8 | URL | CC BY |
Итого | 150,547 | 6,171+ |
Датасет представлен в виде .feather
файлов, содержащих размеченные открытые наборы аудиоданных, а также короткое описание каждого набора данных с примерами загрузки. .feather
файлы можно открыть с помощью библиотеки pandas
:
import pandas as pd
dataframe = pd.read_feather(PATH_TO_FEATHER_FILE)
Каждый .feather
файл с разметкой содержит следующие колонки:
speech_timings
— разметка данного аудио. Это список, содержащий словари вида{'start': START_SECOND, 'end': END_SECOND}
, гдеSTART_SECOND
иEND_SECOND
— время начала и конца речи в секундах. Количество данных словарей равно количеству речевых аудио отрывков, найденных в данном аудио;language
— ISO код языка данного аудио.
Все остальные детали и подробности вы можете узнать по ссылке.
Лицензия
Лицензия CC BY-NC-SA 4.0 была неизбежно выбрана, потому что один самых интересных наборов данных, globalrecordings.net, опубликован под этой «виральной» лицензией, которая обязывает пользователей использовать ее для производных работ.
Определенный вопрос есть с трактовкой лицензии Bible.is, но если нас попросят удалить эту часть датасета — это придется сделать.
Цитирование и аффилиации
Датасет создан при поддержке Фонда содействия инновациям в рамках федерального проекта «Искусственный интеллект» национальной программы «Цифровая экономика Российской Федерации».
Цитировать датасет можно следующим образом:
@misc{Silero VAD Dataset,
author = {Silero Team},
title = {Silero-VAD Dataset: a large public Internet-scale dataset for voice activity detection for 6000+ languages},
year = {2024},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {\url{https://github.com/snakers4/silero-vad/datasets/README.md}},
email = {hello@silero.ai}
}