Ivan Begtin
9.28K subscribers
2.06K photos
3 videos
102 files
4.79K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Победители конкурса Open Data Armenia рассказывают о своём проекте [1]. Мне как организатору приятно что хорошие проекты подаются к нам на конкурс и побеждают и приятно что историей Армении интересуются не только армяне 🇦🇲

Я лично всё время ощущаю себя одновременно армянином, но с чувством что я недостаточно много делаю для своей второй родины.

Ощущаю свой вклад через такие конкурсы и то что создали и развиваем Open Data Armenia (@opendataam).

Ссылки:
[1] https://www.linkedin.com/posts/karasu_armenia-during-tigranes-the-great-activity-7302251419477168129-Zf2K/

#opendata #armenia #digitalhumanities
Please open Telegram to view this post
VIEW IN TELEGRAM
В рубрике как это устроено у них портал данных Humanitarian Data Exchange [1] это один из порталов открытых данных ООН, он был создан Управлением ООН по координации гуманитарных вопросов для публикации данных связанных и значимых для решения глобальных и региональных гуманитарных кризисов и для координации множества организаций помогающих в предупреждении катастроф и минимизации последствий.

Важное их отличие от других порталов открытых данных - это наличие событийного разреза. Например, в момент начала землетрясения в Мьянме они создали соответствующую страницу события [2] где собраны, на сегодня, 20 наборов данных связанных с Мьянмой. Например, оценка масштабов повреждения зданий [3] с помощью AI на основе анализа спутниковых снимков до и после землетрясения от Microsoft AI Labs или вот данные о финансировании [4] и донорах для организаций участвующих в ликвидации последствий.

Ссылки:
[1] https://data.humdata.org/
[2] https://data.humdata.org/event/myanmar-earthquake
[3] https://data.humdata.org/dataset/myanmar-earthquake-building-damage-assessment-from-3-28-2025
[4] https://data.humdata.org/dataset/fts-requirements-and-funding-data-for-myanmar

#opendata #myanmar #earthquake #ocha #datacatalogs
Читаю работу OpenAlex: End-to-End Process for Topic Classification [1] от команды графа по научным работам OpenAlex о том как они классифицируют научные работы по каким темам и там у них есть иерархическая модель разметки работ по уровням Domains -> Fields -> Subfields -> Topics, причём тем (topics) довольно много и они привязаны все к статьям в Википедии. А вообще они построили свою классификацию через идентификацию макрокластеров [3] сообществ через цитирование. Большая и интересная тема, с понятной сложностью и результатами.

Я на всё это смотрю с точки зрения улучшения классификации датасетов в Dateno [4]. Сейчас в Dateno используется два классификатора. Европейский Data Theme [5] используемый в их портале data.europe.eu, но у него всего 13 тем очень верхнеуровневых и тематические категории (topic category) из ISO 19115 [6] которых 19 штук и тоже без иерархии. Тематические категории используются в каталогах данных на базе Geonetwork и в программе INSPIRE Евросоюза и они применимы к геоданным, в первую очередь.

Это одна из особенностей Dateno, да и остальных индексаторов датасетов. По разным блокам и типам каталогов данных свои тематические категории, не связанные между собой и кроме обычных датасетов и геоданных есть ещё и большие банки статистических данных живущих по своим правилам и своим группам.

Сложностей несколько:
- в отличие от научных работ здесь нет цитирования или аналогичных связей, значительно сложнее строить смысловые кластеры. Их можно строить на названиях, оригинальных тематиках в первоисточнике, тематиках самого первоисточника, но не на цитировании и не на связях.
- язык науки в мире почти весь английский, а там где не английский то французский, но в целом все исходят из того что он английский. А среди датасетов много данных на самых разных языках. Тут как раз проще со статистикой которая почти всегда имеет английскую версию и сложнее с остальным.

Тем не менее своя классификация необходима и её идеальные параметры были бы когда одна тема охватывает не более 10 тысяч наборов данных или временных рядов. То есть если мы имеем базу в 22 миллиона набора датасетов, то тематик должно быть не менее 2.2 тысяч, а ещё лучше не менее 5 тысяч. Тогда пользователь получает возможность быстро сузить поиск до нужной ему темы. Тогда у Dateno появляется ещё одна важная модель его применения, это подписка на появление нужных данных в одной или нескольких узких областях избегая ложных срабатываний при ключевых словах.

Без ИИ тут, кстати, не обойтись и ребята из OpenAlex использовали модель GPT 3.5 Turbo [7] для кластеризации научных работ и подбора названий выявленным кластерам.

Ссылки:
[1] https://docs.google.com/document/d/1bDopkhuGieQ4F8gGNj7sEc8WSE8mvLZS/edit?tab=t.0
[2] https://docs.google.com/spreadsheets/d/1v-MAq64x4YjhO7RWcB-yrKV5D_2vOOsxl4u6GBKEXY8/edit?gid=983250122#gid=983250122
[3] https://zenodo.org/records/10560276
[4] https://dateno.io
[5] https://op.europa.eu/en/web/eu-vocabularies/concept-scheme/-/resource?uri=http://publications.europa.eu/resource/authority/data-theme
[6] https://apps.usgs.gov/thesaurus/term-simple.php?thcode=15&code=000
[7] https://www.leidenmadtrics.nl/articles/an-open-approach-for-classifying-research-publications

#opendata #opensource #dateno #thoughts
Полезные ссылки про данные, технологии и не только:
- Towards Inserting One Billion Rows in SQLite Under A Minute [1] заметка 2021 года о том как высокопроизводительно загружать миллиарды строк а базы SQLite. Актуально для всех кто делает высокопроизводительные системы не имея больших бюджетов.
- GROBID [2] переводится как GeneRation Of BIbliographic Data, инструментарий с открытым кодом по извлечению структурированного содержания из PDF файлов, особенно применяется к научным статьям. Активно используется для извлечения библиографических данных.
- Depsy [3] онлайн база цитирования пакетов с открытым кодом в научных статьях. От той же команды что делает OpenAlex. Этот проект более не развивается уже лет 7, а жаль, но исходный код доступен как и API.
- Cadent Open Data [4] раздел с открытыми данных в Cadent, британской газовой компании. Открытые данные прописаны в стратегии цифровизации и отдельный портал с данными [5] которые раскрываются по регуляторным требованиям и инициативами по data sharing
- Schneider Electric Datasets [6] коллекция наборов данных на портале для разработчиков Schneider Electric. В основном данные по энергопотреблению. Бесплатные, но требуют регистрации

Ссылки:
[1] https://avi.im/blag/2021/fast-sqlite-inserts/
[2] https://grobid.readthedocs.io/en/latest/
[3] http://depsy.org
[4] https://cadentgas.com/reports/open-data
[5] https://cadentgas.opendatasoft.com/pages/welcome/
[6] https://exchange.se.com/develop/developer-resources?source=developerResources&developerResources=Datasets

#opendata #opensource #readings
Для разнообразия, следующим постом опрос Что делать с развитием открытых данных в России? А пока вы ещё не прочитали сам опрос и не начали его проходить, важный вопрос в том что вообще делать. Лично мне, в каком-то смысле, это проще в той части что есть области жизни которым текущая политическая ситуация в РФ не мешает. Не помогает, но и не мешает. И своё любопытство в данных я всегда могу наполнить в Dateno или в Open Data Armenia. Но в России тренды не в развитие открытости. Так что вот такой далее опрос;)

#opendata #russia #polls
Можно подвести и прокомментировать итоги опроса, всего 216 проголосовавших это неплохо для такой не самой широкой темы.

- Большинство поддерживают большую открытость данных для исследователей и я тут соглашусь, это важная тема во всех смыслах, развитая во всех странах где есть живая наука и, почему-то, запущенная в России.
- В том чтобы продолжать убеждать далее чиновников главная сложность в том что госинициативы, либо мертвы вспомним data.gov.ru, либо постепенно гибнут, вспомним opendata.mkrf.ru или бессмысленны, вспомним многие региональные порталы. Нужна точка опоры, а этой точки опоры сейчас нет(
- Дататоны и премии - это то о чём я давно думаю и как только будет окончательно понятен формат и темы мы такое сделаем от Инфокультуры и партнёров. Если, кстати, Вы готовы быть спонсорами таких дататонов и премий или видите модели партнёрства по ним - напишите мне
- Убедить бизнес публиковать данные - это давняя моя цель, пока плоходостижимая потому как российский бизнес до открытого кода то дозрел не так давно, а с данными ещё сложнее. Но руки здесь опускать не стоит

В целом опрос на удивление оптимистичный, я думал что гораздо больше читателей отреагируют что "уже ничего не исправить".

#opendata
Совсем не первоапрельская новость, закрывается проект openSNP [1] о чём пишет его создатель у себя в блоге [2]. Это была и пока ещё есть открытая база расшифрованных геномов позволявшая искать родственников, делиться результатами расшифровки генома с другими, а исследователям ещё и находить связи между генотипом и фенотипом.

Причин закрытия проекта множество, важнейшая озвучиваемая автором - это всё большее внимание к этим данным со стороны авторитарных властей. Важно то что пользователи могли делиться добровольно своими данными с исследователями.

В рассуждениях автора стоит ещё и почитать об общем кризисе открытых проектов - открытого кода, репозиториев, Википедии и др. Причины разные, но связанные - это хайп вокруг ИИ, неэтичные ИИ боты и др.

Я к этим мыслям добавлю лишь то что о кризисе движений за открытость слышу уже давно и оно звучит именно в контекстах отступления от демократии и том что "ИИ пожирает всё". Это демотивирует многих

А судьба проекта openSNP, безусловно, печалит.

Ссылки:
[1] https://opensnp.org
[2] https://tzovar.as/sunsetting-opensnp/

#opendata #openaccess #genetics #data
В рубрике как это устроено у них портал открытых данных Франции data.gouv.fr [1]. Всего на портале опубликовано 61 947 набора данных, на 2 апреля 2025 г, а также 338 точек подключения к API к которым предоставлена документация, есть возможность связаться с разработчиками и тд.

Особенность их портала в большом сообществе из 131.4 тысячи зарегистрированных пользователей и 15.1 тысяче дискуссий вокруг опубликованных датасетов и API.

Параллельно с этим они создают портал открытых научных данных entrepot.recherche.data.gouv.fr [2] на базе продукта Dataverse . Там сейчас чуть менее 7 тысяч наборов данных и список постоянно растёт.

Многие команды и компании публикуют свои проекты сделанные на открытых данных Франции в специальном разделе на сайте [3].

Во Франции порталом занимается их национальная команда Etalab, почти все что они делают является открытым кодом и портал открытых данных создан на непривычном ПО - uData, используемом ещё в паре-тройке стран.

Ссылки:
[1] https://www.data.gouv.fr
[2] https://entrepot.recherche.data.gouv.fr
[3] https://www.data.gouv.fr/fr/reuses/

#opendata #datasets #france #data
В продолжение портала открытых данных Франции, из его фишек то что можно зарегистрироваться и публиковать свои датасеты. Вот я там разместил реестр каталогов данных из Dateno [1], просто примера ради. Потом могу добавить отдельно API Dateno (но там уже будет не CC-BY лицензия).

Хороший государственный портал открытых данных должен позволять публиковать данные не только госорганами.

Ссылки:
[1] https://www.data.gouv.fr/fr/datasets/data-portals-registry/

#opendata #dateno #datacatalogs
Ребята из Если быть точным начали публиковать открытые данные в формате Parquet [1] за что их можно похвалить, это правильный выбор. А если кто-то ещё не пользовался данных в этом формате, то самое время это попробовать. У ребят небольшой каталог тщательно отобранных данных и эта их работа и красивая инфографика в канале - это хороший труд, они молодцы.

Ссылки:
[1] https://t.me/tochno_st/476

#opendata #datasets
К вопросу о том как устроена публикация данных в России и что с ней не так. Про портал data.gov.ru я и так часто писал, а вот пример в виде системы показателей ЕМИСС [1]. По всем признакам - это неплохая система публикации показателей. Там и экспорт в Excel есть, и формат SDMX есть, и раздел открытые данные есть на сайте и выглядит всё не так плохо. Казалось бы какая хорошая штука! Больше того у неё даже есть API, недокументированное правда.

Но когда-то несколько лет назад я делал углублённый анализ того как и что там происходит и результаты разочаровывающие.

Про проблемы того что данные/индикаторы исчезают оттуда уже многие писали, но проблема и в том как текущие данные там представлены. Вот несколько самых критичных проблем.
1. Самое критичное, по умолчанию все индикаторы показываются неполностью и не по актуальным данным. Открывая любой индикатор у можно увидеть не полный перечень значений, а те что отдаются в "отображении по умолчанию". Пример, в виде индикатора на картинке [2] открывая его последние значения за 2014 год. Это не значит что за другие годы значений нет, это значит что они по умолчанию не отображаются. Чтобы увидеть всё надо прокликать все фильтры и тогда уже смотреть или выгружать данные целиком. Это очень сильно влияет на всё что есть в этой системе - открытые данные, просмотр индикаторов и так далее.
2. Вид по умолчанию влияет на содержание того что на сайте называется открытыми данными. Данные того же индикатора при выгрузке из раздела открытых данных [3] будут включать только значения за из этого самого "отображения по умолчанию". Тем самым получается что если кто-то просто скачает открытые данные из раздела на портале ЕМИСС то там не будет актуальных данных.
3. Более того получение актуальных данных автоматически или как открытых данных или через недокументированное API вообще не предусмотрено. Чтобы их получить надо вручную или автоматически прокликать эти фильтры и не всякий неподготовленный пользователь это знает. Тем самым это дискредитирует сам портал для многих кто "не в теме".
4. И наконец, тоже важное, но не так как предыдущее. В этой системе нет нормализованных справочников. Там буквально сотни если не тысячи справочников, со своими кодами под каждый показатель. Например, нет гармонизированного справочника регионов. Вообще справочные данные никак не вынесены и не структурированы как в самой системе, так и вне её. Сопоставимость справочников низкая и требуется много ручной работы чтобы её проделать.

Обо всём этом я писал более чем 2 года назад в тексте Почему невозможно хвалить Росстат [4]. Мало что поменялось за эти годы.

Ссылки:
[1] https://fedstat.ru
[2] https://fedstat.ru/indicator/36984
[3] https://fedstat.ru/opendata/7708234640-threeasixanineaeightafour
[4] https://begtin.substack.com/p/22

#opendata #russia #statistics #rosstat
Что я понял за 15 лет работы с открытыми данными
[продолжаю рассуждать на разные темы пунктами, тем у меня ещё много;)]

1. Открытых данных очень много в целом, но мало когда исследуешь конкретную тему.
2. Если есть общая установка сверху то чиновники вполне адекватны в готовности публиковать данные. Если установки сверху нет, то только если это соответствует какой-то другой их повестке.
3. Да, открытые данные публикуются даже авторитарными режимами и диктатурами. Их доступность определяется не только политической повесткой, но и технологической зрелостью. Особенно много данных в странах где есть политическая повестка открытости + культура открытости + технологическая зрелость.
4. Для бизнеса открытые данные - это не более чем снижение до около нуля стоимости покупки данных. Но не ноль потому что стоимость владения и работы с данными складывается из расходов на их выгрузку, хранение, и работу дата программистов по их обработке.
5. За редким исключением дата корпорации, чем крупнее, тем сильнее, избегают публикации данных. Для них любые датасеты - это ценный материальный актив. Исключения есть в только там где они находят значимую выгоду от открытости - тренировка алгоритмов для ИИ, хакатоны, поддержание публичного реноме и тд. Но это всё всегда проходит через линзы оценки стоимости.
6. Движение открытости данных собиралось из 3-х потоков: научного (открытый доступ), политического (право на доступ к информации), технологического (интеграция информационных систем, особенно гос). Иногда они пересекаются, иногда нет. Научное наиболее устойчивое, но часто замкнутое в отдельных областях. Политическое нестабильное от грантополучения и повестки. Технологическое часто суженное до очень узких задач и часто отодвигающееся от открытости в сторону работы с условно любыми данными, не открытыми.
7. Порталы открытых данных сильно отстают от современной дата инженерии, но почти все современные дата продукт используют большие открытые датасеты в качестве примеров того что можно сделать на их основе
8. На открытых данных нет хороших бизнес моделей. Вернее нет хороших бизнес моделей _только_ на открытых данных. Хорошие дата продукты, как правило, интегрируют много разных дата источников.
9. Самые крупные доступные датасеты в мире - это физика частиц и расшифрованные геномы, все связаны с научными дисциплинами. Одни из самых востребованных - базовые слои геоданных.


#opendata #thoughts
Фонд Викимедия опубликовал статью о том что боты теперь создают около 65% трафика на сайты Википедии и остальных их проектов [1]. Сейчас они работают над тем как развить свою инфраструктуру чтобы всё это выдержать, открытым потому что AI боты агрессивно собирают изображения и это и создаёт трафик. Потому что знания бесплатны, а вот инфраструктура для их распространения нет.

Я подозреваю что всё это закончится тем что они начнут блокировать AI краулеры для доступа к тяжёлому контенту вроде изображений и предоставлять этот контент им для массовой выгрузки за деньги. Это было бы самым оптимистичным вариантом решения проблемы роста стоимости инфраструктуры.

Ссылки:
[1] https://diff.wikimedia.org/2025/04/01/how-crawlers-impact-the-operations-of-the-wikimedia-projects/

#openknowledge #opendata #ai #aibots