О Wikidata для тех кто вообще не слышал: открытая база данных, сестринский проект Википедии — с ней же и интегрирован

Здравствуйте, на Хабре не много о Викиданных, хочу рассказать об этом бесплатном открытом интересном и полезном сервисе. Веб интерфейс располагается по адресу https://www.wikidata.org/wiki/Wikidata: Main_Page.

d6897de6ea135226eb4d45f10bf13f3e.pngИсточник: https://upload.wikimedia.org/wikipedia/commons/d/d9/Wikidata_IO_at_Repository_Fringe_2017_-_Session_1-_Adding_data_to_Wikidata.pdf

Пример айтема — прекрасная компьютерная игра Armies of Exigo https://www.wikidata.org/wiki/Q686963, как видите справа — статьи на разных языках (и пустые блоки с другими продуктами Wikimedia) — одной из первых задач Викиданных было связывание статей:

9e00b14b7c521832937a2d1350cceade.png

Ключ-значение с уточняющими свойствами, многие значения это не текст, а ссылка на соответствующий айтем — например для игры — кто издатель, кто разработчик, также можно посмотреть кто ссылается на этот айтем (Alt-Shift-J) — слева есть кнопка. Как и в Википедии — есть история, страница обсуждений каждого айтема, можно по почте получать уведомления когда кто-то что-то изменил. Меняете язык сайта — айтемы тоже будут на этом же языке — у каждого айтема есть label на разных языках. Редактировать может каждый, как и Википедию. Из статьи в Википедии можно перейти на соответствующий айтем — слева есть кнопка, или Alt-Shift-G. Редактировать можно не только руками в браузере — есть разные инструменты, некоторые скриптами создают миллионы айтемов, распаршивая другие сайты (осторожно с лицензией).

Вот например так выглядят Викиданные

Вот например так выглядят Викиданные

Викиданные это координирующий узел других сайтов и баз данных. Например игра ссылается на страницы обзоров, где ее скачать, музыкальный трек среди прочего может ссылаться на https://musicbrainz.org — другая большая база данных, но только о музыке. Если у вас есть любимая тема, но значимости по ней не хватает для статьи для Википедии (или уже удалили администраторы) — можно создать айтем в Викиданных. Тоже можно вставлять источники. Айтемы бывают большими — и без чтения соответствующей статьи в Википедии уже можно многое узнать. Бывают с картинками, видео, аудио. Вот айтем Хабра.

Как и в Википедии, вокруг Викиданных суетятся боты — например вставили вы линк на Гитхаб — придет бот и проставит все версии, с датами:

Вставлять версии - работа для машины

Вставлять версии — работа для машины

Инфобоксы в Википедии справа — часто берут данные из Викиданных. Как и поисковые машины. Еще один пример интеграции — одна строка генерирует братьев-побратим любого города:

5196e300ecc32cd1fd739ab43b3bd15b.png

Разные языковые разделы Википедии одной и той же статьи могут содержать разные цифры — в идеале цифры хранятся в Викиданных и уже оттуда вставляются в Википедию, вот примеры

e3ff65183bc9bc1babc14053d4f6e3d4.png

Eсть встроенный инструмент для создания запросов — вот сегодня написал квери (язык SPARQL) чтобы получить все freeware игры для Windows, отсортированные по годам, с линками на Steam и сайт:

c38e37c47536b1556148432fcc52532e.png

Вот большая страница примеров — можно взять готовый, поменять айди — и увидеть новые результаты.

Вот еще интересный для меня запрос — показывает свободные програмные проекты написанные на Go.

Есть разные встроенные визуализации данных, например люди рожденные в Минске — два нажатия мыши — и мы видим уже не список, а фотографии:

441ca559f29f777a3612d7b61de1e512.png

Еще одна встроенная визуализация — график, например население Минска:

всплеск потому что какой-то айтем содержит некорректную цифру

всплеск потому что какой-то айтем содержит некорректную цифру

Визуализация шарами — например популярные цвета глаз:

cae087e975de69bd660e59eb87f9d9c1.png

Связанный список — например метро Минска:

9ab68313df145f51902d6abbc71fac47.png

Еще одна визуализация — Timeline:

d284cee0f48aec531cd60f98e6db2886.png

Карта — у айтемов могут быть координаты — места или события:

86082a4e9394b6788b92450781f8a944.png

Есть API. access-control-allow-origin: * — то есть можно делать запросы даже из браузера:

50761c033457380fb95a319398d736e0.png

Есть экосистема программ для загрузки, анализа, чтения, визуализации данных из Викиданных, вот несколько примеров:

Визуализация битв — где и когда:

9e134828116fdb9ae5f6942da4e0fa2b.png

Похожий пример — где и когда построили церковь:

Где и когда ближайшие выборы:

32470573e11eafd03e6fa6d6ed7e89e1.png

Связи людей — тут Симпсоны:

6f1b24ac246f32ce23a090f7a2eb66f2.png

Род Никиты Михалкова:

327f204daeac3f402544d3758e26c9d4.png

Тут список инструментов для запросов.

Тут список инструментов для визуализации данных.

Всю базу можно скачать — 110 гигабайт. Програмное обеспечение такое же открытое как и Википедия — можно установить себе.

Одна из причин для меня написать этот текст — реклама сервиса, чтобы больше людей вкладывалось. Например у вас есть любимые игры, фильмы, книги, города — можете проверить как они присутствуют на Викиданных и возможно улучшить или добавить если их там нет — находите пример (другая популярная игра, фильм, книга) — и нажимайте Create a new item. Документация и комьюнити вам помогут, в том числе Дискорд. Викиданные — это полезный инструмент для анализа, быть может вам пригодится.

© Habrahabr.ru