Ivan Begtin
9.31K subscribers
2.1K photos
3 videos
102 files
4.82K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
В продолжение портала открытых данных Франции, из его фишек то что можно зарегистрироваться и публиковать свои датасеты. Вот я там разместил реестр каталогов данных из Dateno [1], просто примера ради. Потом могу добавить отдельно API Dateno (но там уже будет не CC-BY лицензия).

Хороший государственный портал открытых данных должен позволять публиковать данные не только госорганами.

Ссылки:
[1] https://www.data.gouv.fr/fr/datasets/data-portals-registry/

#opendata #dateno #datacatalogs
Ребята из Если быть точным начали публиковать открытые данные в формате Parquet [1] за что их можно похвалить, это правильный выбор. А если кто-то ещё не пользовался данных в этом формате, то самое время это попробовать. У ребят небольшой каталог тщательно отобранных данных и эта их работа и красивая инфографика в канале - это хороший труд, они молодцы.

Ссылки:
[1] https://t.me/tochno_st/476

#opendata #datasets
К вопросу о том как устроена публикация данных в России и что с ней не так. Про портал data.gov.ru я и так часто писал, а вот пример в виде системы показателей ЕМИСС [1]. По всем признакам - это неплохая система публикации показателей. Там и экспорт в Excel есть, и формат SDMX есть, и раздел открытые данные есть на сайте и выглядит всё не так плохо. Казалось бы какая хорошая штука! Больше того у неё даже есть API, недокументированное правда.

Но когда-то несколько лет назад я делал углублённый анализ того как и что там происходит и результаты разочаровывающие.

Про проблемы того что данные/индикаторы исчезают оттуда уже многие писали, но проблема и в том как текущие данные там представлены. Вот несколько самых критичных проблем.
1. Самое критичное, по умолчанию все индикаторы показываются неполностью и не по актуальным данным. Открывая любой индикатор у можно увидеть не полный перечень значений, а те что отдаются в "отображении по умолчанию". Пример, в виде индикатора на картинке [2] открывая его последние значения за 2014 год. Это не значит что за другие годы значений нет, это значит что они по умолчанию не отображаются. Чтобы увидеть всё надо прокликать все фильтры и тогда уже смотреть или выгружать данные целиком. Это очень сильно влияет на всё что есть в этой системе - открытые данные, просмотр индикаторов и так далее.
2. Вид по умолчанию влияет на содержание того что на сайте называется открытыми данными. Данные того же индикатора при выгрузке из раздела открытых данных [3] будут включать только значения за из этого самого "отображения по умолчанию". Тем самым получается что если кто-то просто скачает открытые данные из раздела на портале ЕМИСС то там не будет актуальных данных.
3. Более того получение актуальных данных автоматически или как открытых данных или через недокументированное API вообще не предусмотрено. Чтобы их получить надо вручную или автоматически прокликать эти фильтры и не всякий неподготовленный пользователь это знает. Тем самым это дискредитирует сам портал для многих кто "не в теме".
4. И наконец, тоже важное, но не так как предыдущее. В этой системе нет нормализованных справочников. Там буквально сотни если не тысячи справочников, со своими кодами под каждый показатель. Например, нет гармонизированного справочника регионов. Вообще справочные данные никак не вынесены и не структурированы как в самой системе, так и вне её. Сопоставимость справочников низкая и требуется много ручной работы чтобы её проделать.

Обо всём этом я писал более чем 2 года назад в тексте Почему невозможно хвалить Росстат [4]. Мало что поменялось за эти годы.

Ссылки:
[1] https://fedstat.ru
[2] https://fedstat.ru/indicator/36984
[3] https://fedstat.ru/opendata/7708234640-threeasixanineaeightafour
[4] https://begtin.substack.com/p/22

#opendata #russia #statistics #rosstat
Что я понял за 15 лет работы с открытыми данными
[продолжаю рассуждать на разные темы пунктами, тем у меня ещё много;)]

1. Открытых данных очень много в целом, но мало когда исследуешь конкретную тему.
2. Если есть общая установка сверху то чиновники вполне адекватны в готовности публиковать данные. Если установки сверху нет, то только если это соответствует какой-то другой их повестке.
3. Да, открытые данные публикуются даже авторитарными режимами и диктатурами. Их доступность определяется не только политической повесткой, но и технологической зрелостью. Особенно много данных в странах где есть политическая повестка открытости + культура открытости + технологическая зрелость.
4. Для бизнеса открытые данные - это не более чем снижение до около нуля стоимости покупки данных. Но не ноль потому что стоимость владения и работы с данными складывается из расходов на их выгрузку, хранение, и работу дата программистов по их обработке.
5. За редким исключением дата корпорации, чем крупнее, тем сильнее, избегают публикации данных. Для них любые датасеты - это ценный материальный актив. Исключения есть в только там где они находят значимую выгоду от открытости - тренировка алгоритмов для ИИ, хакатоны, поддержание публичного реноме и тд. Но это всё всегда проходит через линзы оценки стоимости.
6. Движение открытости данных собиралось из 3-х потоков: научного (открытый доступ), политического (право на доступ к информации), технологического (интеграция информационных систем, особенно гос). Иногда они пересекаются, иногда нет. Научное наиболее устойчивое, но часто замкнутое в отдельных областях. Политическое нестабильное от грантополучения и повестки. Технологическое часто суженное до очень узких задач и часто отодвигающееся от открытости в сторону работы с условно любыми данными, не открытыми.
7. Порталы открытых данных сильно отстают от современной дата инженерии, но почти все современные дата продукт используют большие открытые датасеты в качестве примеров того что можно сделать на их основе
8. На открытых данных нет хороших бизнес моделей. Вернее нет хороших бизнес моделей _только_ на открытых данных. Хорошие дата продукты, как правило, интегрируют много разных дата источников.
9. Самые крупные доступные датасеты в мире - это физика частиц и расшифрованные геномы, все связаны с научными дисциплинами. Одни из самых востребованных - базовые слои геоданных.


#opendata #thoughts
Фонд Викимедия опубликовал статью о том что боты теперь создают около 65% трафика на сайты Википедии и остальных их проектов [1]. Сейчас они работают над тем как развить свою инфраструктуру чтобы всё это выдержать, открытым потому что AI боты агрессивно собирают изображения и это и создаёт трафик. Потому что знания бесплатны, а вот инфраструктура для их распространения нет.

Я подозреваю что всё это закончится тем что они начнут блокировать AI краулеры для доступа к тяжёлому контенту вроде изображений и предоставлять этот контент им для массовой выгрузки за деньги. Это было бы самым оптимистичным вариантом решения проблемы роста стоимости инфраструктуры.

Ссылки:
[1] https://diff.wikimedia.org/2025/04/01/how-crawlers-impact-the-operations-of-the-wikimedia-projects/

#openknowledge #opendata #ai #aibots