Мы опубликовали датасет для детекции речи размером более 150 тысяч часов на 6000+ языках

d786c2c36638c315eb833405bf2053fb.png

Мы выложили в публичный доступ гигантский датасет для детекции речи (voice activity detection).

Датасет содержит порядка 150 тысяч часов аудио более чем на 6,000 языках. Количество уникальных ISO-кодов данного датасета не совпадает с фактическим количеством языков, так как близкие языки могут кодироваться одним и тем же кодом.

Данные были размечены для задачи детекции голоса при временной дискретизации примерно в 30 миллисекунд (или 512 семплов при частоте дискретизации 16 килогерц).

Данный датасет распространяется под лицензией CC BY-NC-SA 4.0.

Подробности

Датсет содержит следующие наборы данных на следущих языках:

Название

Число часов

Число языков

Ссылка

Лицензия

Bible.is

53,138

1,596

URL

Уникальная

globalrecordings.net

9,743

6,171

URL

CC BY-NC-SA

VoxLingua107

6,628

107

URL

CC BY

Common Voice

30,329

120

URL

CC0

MLS

50,709

8

URL

CC BY

Итого

150,547

6,171+

Датасет представлен в виде .feather файлов, содержащих размеченные открытые наборы аудиоданных, а также короткое описание каждого набора данных с примерами загрузки. .feather файлы можно открыть с помощью библиотеки pandas:

import pandas as pd
dataframe = pd.read_feather(PATH_TO_FEATHER_FILE)

Каждый .feather файл с разметкой содержит следующие колонки:

  • speech_timings — разметка данного аудио. Это список, содержащий словари вида {'start': START_SECOND, 'end': END_SECOND}, где START_SECOND и END_SECOND — время начала и конца речи в секундах. Количество данных словарей равно количеству речевых аудио отрывков, найденных в данном аудио;

  • language — ISO код языка данного аудио.

Все остальные детали и подробности вы можете узнать по ссылке.

Лицензия

Лицензия CC BY-NC-SA 4.0 была неизбежно выбрана, потому что один самых интересных наборов данных, globalrecordings.net, опубликован под этой «виральной» лицензией, которая обязывает пользователей использовать ее для производных работ.

Определенный вопрос есть с трактовкой лицензии Bible.is, но если нас попросят удалить эту часть датасета — это придется сделать.

Цитирование и аффилиации

Датасет создан при поддержке Фонда содействия инновациям в рамках федерального проекта «Искусственный интеллект» национальной программы «Цифровая экономика Российской Федерации».

Цитировать датасет можно следующим образом:

@misc{Silero VAD Dataset,
  author = {Silero Team},
  title = {Silero-VAD Dataset: a large public Internet-scale dataset for voice activity detection for 6000+ languages},
  year = {2024},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {\url{https://github.com/snakers4/silero-vad/datasets/README.md}},
  email = {hello@silero.ai}
}

© Habrahabr.ru