Ivan Begtin
8.07K subscribers
1.5K photos
3 videos
100 files
4.25K links
I write about Open Data, Data Engineering, Government, Privacy and Data Preservation and other gov and tech stuff
Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech

Contact @NMBabina for ads proposals
Download Telegram
День открытых данных ещё продолжается, а я тем временем выступил с презентацией Как искать данные с помощью каталогов данных. Проект datacatalogs.ru о том как проект устроен, развивается, для чего создавался и к чему идёт. А создавался он для появления поисковика по данным в будущем.

Видео тоже вскоре будет доступно.

Ссылки։
[1] https://www.beautiful.ai/player/-NPgdYTNJKkJTXp_0zgA

#opendata #opengov #datadiscovery
Целенаправленный поиск данных в мире привычно называется data discovery (или "обнаружение данных") и его применение можно разделить на корпоративное и общедоступное.

Корпоративное применение этого термина - это про корпоративные каталоги данных, специальные внутренние инструменты для идентификации всех используемых баз данных, таблиц в них и сопровождающей информации. Корпоративные задачи data discovery - это идентификации персональных данных и соответствие требованиям законодательства, это систематизация данных для работы аналитиков, инженеров и разработчиков и, реже, но набирающее популярность применение - это идентификация данных для машинного обучения.
Всё это решается коммерческими или открытыми продуктами вроде Open Metadata, Datahub и им подобным. О том что это подробнее на английском можно легко нагуглить, или прочитать, например, тут [1]. Как-нибудь я напишу об этом этом подробнее в лонгрид в рассылку

Параллельно этом data discovery среди общедоступных данных - это поиск данных необходимых для исследовательских или рабочих задач. Как правило, это поиск открытых данных, либо данных имеющих какой-либо регламентированный доступ или возможность их запросить. Наиболее очевидный способ поиска - это привычные поисковые системы где вбиваешь что ищешь и добавляешь слова "data" или "dataset', чуть менее очевидный, но специализированный - это воспользоваться поиском Google для наборов данных он всё ещё экспериментальный, сильно зашумлённый SEOшниками коммерческих продуктов [3], но пока ничего другого сравнимого нет. Ни в Bing, ни в Ya[ndex] ничего подобного нет.

Есть ли альтернативы? Какие ещё системы поиска по данным существуют? Они есть, их не так много и они чаще всего специализированы.
Итак:
- ArcGIS Hub search https://hub.arcgis.com/search - поисковая система по наборам данных опубликованных клиентами сервиса ArcGIS Hub, используемом широко в мире (в основном в США) для публикации геоданных и открытых данных. Это один из крупных поисковиков именно по разным геоданным.
- OpenAIRE explore.openaire.eu - поисковая система по результатам научной деятельности (research output) в Евросоюзе, в первую очередь, но не только. Наборы данных подпадают под научную деятельность и OpenAIRE крупнейший индексатор и поисковик по подобным данным.
- Datacite Commons commons.datacite.org - DataCite является одним из сервисов выдачи DOI со специализацией на данных. Их поиск работает по всем работам получавшим DOI через их сервис. Являются одним из источников для OpenAIRE
- Da | Ra www.da-ra.de - поисковая система по открытым научным данным Германии
- DANS EASY easy.dans.knaw.nl - поисковая система по открытым научным данным Нидерландов
- DataMed datamed.org поисковая система по наборам данных в медицине

Этот список неполон, я постарался указать лишь наиболее известные поисковые системы и обращаю внимание что в основном они создаются вокруг данных открытости науки. Исключение лишь ArcGIS Hub, но сколь долго он будет существовать неизвестно, поскольку коммерческая польза для него для компании неочевидна.

А вот в сторону всё большего ухода в концепцию о том что open data = open research data уходят очень многие системы инфраструктуры открытости. Google Datasets в документации и дорожной карте показывают всё более тесную интеграцию с научными дата репозиториями, индексацию ORCID, DOI, ROR, связывание научных статей и цитируемых ими научных данных. Я лично не удивлюсь если в какой-то момент Google объединят поиск по наборам данных и Google Scholar. Во всяком случае в этом будет некая существенная логика.

Ссылки:
[1] https://snowplow.io/blog/data-discovery/
[2] https://datasetsearch.research.google.com/
[3] https://medium.com/@ibegtin/dataset-search-engines-as-global-data-discovery-tools-a0dfc981ea9d

#opendata #datadiscovery #datasearch #datasets #likbez
Я периодически читаю и слышу вопросы на тему где найти данные о xxx по стране yyy? В сообществах по открытым данным это самый частый вопрос, второй по частоте это где найти бесплатные данные о xxx ? Это когда автор вопроса данные уже нашёл, но платить не готов или не готов платить то за сколько данные продают самые очевидные продавцы.

Так вот про то где искать данные я уже неоднократно писал, например в рассылке в публикации Где искать данные?[1] и с тех пор список рекомендаций регулярно пополняется.

И вот ещё несколько таких пополнений:
- Geolode [2] открытый каталог открытых геоданных. Включает как ссылки на порталы геоданных, так и ссылки на конкретные большие базы георесурсов. Из плюсов - весь каталог машиночитаемый и все записи помечены темами и кодами местонахождения. Из минусов - многие записи устарели и описания имеющихся очень короткие. Тем не менее полезный инструмент когда Вы ищите геоданные привязанные к конкретной территории, можно найти очень неочевидные источники

- DataShades [3] каталог инсталляций портала открытых данных CKAN. CKAN не единственный, но самый популярный движок для открытых данных и в его инсталляциях в нужных странах можно найти довольно много интересного.

- Open Data Inception [4] большой каталог каталогов данных от OpenDataSoft. Они там, конечно, врут про 2600+ каталогов данных, там очень многие ссылки - это ссылки на законы, госполитику, отдельные датасеты и тд. Так что верить им нельзя, но есть и вполне полезные ссылки.

Эти ресурсы не являются поисковиками по данным, а скорее являются метакаталогами источников данных. Полезными при ручном поиске нужных данных в привязке к конкретным странам.


Ссылки:
[1] https://begtin.substack.com/p/datasearch
[2] https://geolode.org
[3] https://datashades.info
[4] https://opendatainception.io
[5] https://github.com/commondataio/dataportals-registry

#opendata #datadiscovery
Я несколько лет назад регулярно выступал с презентациями на тему Как и где искать данные? в основном рассказывая про внутрироссийские источники данных и мои лекции были, в основном, о том как находить данные для гражданского или государственного проекта. Я тогда делал акцент на анализе государственных информационных систем, ресурсов и основной логике появления данных от полномочий органов власти.

При этом, как оказалось, в мире довольно мало открытых методик по инвентаризации данных. Вернее практически их нет и то что есть сосредоточено в двух областях: научные данные и дата-журналистика.

Что характерно, у большей части крупных зарубежных университетов есть руководства по поиску исследовательских данных. Они легко гуглятся по "finding and re-using research data", я не так давно стал собирать наиболее интересные/полезные и вот несколько примеров:
- Руководство от University of Bath https://library.bath.ac.uk/research-data/finding-data/home
- Руководство от LIBER Europe https://www.youtube.com/watch?v=6PRlf8KiFpA
- Курс в Университете Осло https://www.ub.uio.no/english/courses-events/courses/other/research-data/time-and-place/rdm-uio-spring2023-7.html

А ещё есть модуль Finding hidden data on the Web в курсе на портале данных Евросоюза https://data.europa.eu/elearning/en/module12/#/id/co-01 Поиск скрытых данных в публичных источниках вообще моя любимая тема, столько интересного находится таким образом.

Некоторые рекомендации по поиску данных есть для дата-журналистов, но они находятся внутри общих руководств по дата-журналистике и часто совмещены с гайдами для журналистов расследователей по верификации источников, поиску данных в соцсетях и OSINT.

Отдельная тема - это поиск и систематизация корпоративных данных. Там почти все методики и гайды не про поиск, а про каталогизацию, поскольку задача поиска лишь один из способов использования корпоративных каталогов данных.

В итоге у всего этого отсутствует теоретическая база, data discovery как дисциплина научная, в первую очередь, мало представлена, а жаль слишком многое приходится додумывать самостоятельно.

#thoughts #datadiscovery #data
В рубрике интересных наборов данных WikiTables [1] набор данных из 1.6 миллионов таблиц извлечённых из английской Википедии и сопровождающий его набор состоящих из записей в этих таблицах слинкованными с объектами в DBPedia. Помимо того что это само по себе интересная и важная задача при создании связанного графа знаний, это ещё и огромная база для обучения разного рода алгоритмом.

Данные связаны со статьёй TabEL: Entity Linking in WebTables [2] ещё 2015 года и ещё много где использовались и используются они и по сей день.

Лично я эти данные использую для проверки и обучения утилиты metacrafter для идентификации семантических типов данных, но им не ограничиваясь.

Ссылки:
[1] http://websail-fe.cs.northwestern.edu/TabEL/index.html
[2] https://www.semanticscholar.org/paper/TabEL%3A-Entity-Linking-in-Web-Tables-Bhagavatula-Noraset/8ffcad9346c4978a211566fde6807d6fb4bfa5ed?p2df

#readings #data #datasets #research #understandingdata #datadiscovery
На днях я копался в своих презентациях, часть я уже выкладывал, те что делались онлайн, а сотни их лежат на дисках и не все из них я часто повторял. На днях я выступал перед аудиторией которая, как и я, как и многие, задавалась вопросами о том что делать в ситуации когда официальная российская статистика превращается в тыкву становится бесполезной. И вот на эту тему я лет 7 назад делал презентацию "Альтернативные данные" как развитие направления сбора и поставки данных гораздо более оперативно чем любые официальные источники. По мере того как официальная статистика в РФ будет сжиматься эти альтернативные источники будут всё более важны.

Кстати, по многим малым и развивающимся странам ситуация похожая, но уже по бедности. Государство просто не создаёт многой статистики и иных датасетов и их приходится собирать из других источников. По Армении, например, многие данные которые мы собираем в Open Data Armenia создаются не внутри страны.

А один из наиболее интересных проектов в области альтернативных данных - это Nasdaq Data Link (ранее Quandl). Торговая площадка для данных. Главное тут помнить что продав данные кому-то одному, другие не лишаются такой возможности. Данные не нефть, а электричество.

#opendata #alternativedata #datasource #datadiscovery