Ivan Begtin
8.09K subscribers
1.99K photos
3 videos
102 files
4.7K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Полезное чтение про данные, технологии и не только:
- TPC-H SF300 on a Raspberry Pi [1] бенчмарк TPC-H SF300 для DuckDB на Raspberri Pi с 16 GB RAM и 1TB SSD. TPC-H тест на двух базах в 26GB и 78GB. Самое главное, все стоимость всего всего этого железа $281.
- BuzzHouse: Bridging the database fuzzing gap for testing ClickHouse [2] в блоге ClickHouse об автоматизации тестирования запросов к ClickHouse. Автор создал и оформил 100+ issues выявленных таким автоматическим тестированием.
- Öppna data-portalen [3] портал открытых данных Шведского национального совета по культурному наследию. Все они геоданные в открытых форматах для возможности нанесения на карту.
- Pilot NIH Science of Science Scholars Program [4] национальный институт здравоохранения США запустил программу для исследователей по работе с их внутренними данными. Это те данные которые не могут быть открыты, но доступны с соблюдением требований безопасности, приватности, с оборудования предоставленного государством и тд. Ограничений немало, но и данные из тех что относят к особо чувствительным.
- LINDAS [5] официальный государственный портал связанных данных (Linked Data) Швейцарии. Создан и поддерживается Швейцарскими Федеральными Архивами. Включает 133 набора данных/базы данных
- Visualize Swiss Open Government Data [6] Швейцарская государственная платформа для визуализации данных. Да, по сути это как если бы к Datawrapper прикрутили каталог данных и придали бы всему государственный статус. Наборов данных там около 200 и, самое главное, всё с открытым кодом [6]

Ссылки:
[1] https://duckdb.org/2025/01/17/raspberryi-pi-tpch.html
[2] https://clickhouse.com/blog/buzzhouse-bridging-the-database-fuzzing-gap-for-testing-clickhouse
[3] https://www.raa.se/hitta-information/oppna-data/oppna-data-portal/
[4] https://dpcpsi.nih.gov/oepr/pilot-nih-science-science-scholars-program
[5] https://lindas.admin.ch/
[6] https://github.com/visualize-admin

#opendata #opensource #data #rdmbs #datatools
🤍 Совсем скоро начнется Неделя любви к данным 2025

Ежегодная международная акция Недели любви к данным (англ. Love Data Week) пройдет 10-14 февраля. Тема 2025 года «Чьи это данные, в конце концов?» дает нам возможность задуматься о том, кто владеет данными и кто их использует. Собирать данные могут разные группы, например, исследователи, компании или университеты. Неделя любви к данным в этом году побуждает нас задуматься о грамотности в области данных и о том, кто может владеть данными, делиться ими, а также публиковать их в интернете.

Предлагаем вам посмотреть все мероприятия и события Недели любви к данным 2025 года, которые пройдут локально и виртуально по всему миру.

Вы также можете организовать свое мероприятие в рамках этой международной акции. Для этого отправьте необходимую информацию для включения вашего события в официальный список мероприятий. Если у вас возникли вопросы, свяжитесь с организаторами по эл. адресу: LoveDataWeek@umich.edu

Что такое Love Data Week?

Love Data Week — это международный праздник данных, который проводится каждый год в течение недели Дня святого Валентина. Университеты, некоммерческие организации, государственные учреждения, корпорации и частные лица проводят различные мероприятия, связанные с данными, и участвуют в них.


Источник: ICPSR
Про Love Data Week надо дополнить что задолго до него появился день открытых данных который и сейчас проводится и о нём глобально можно почитать на сайте ODD и в России он будет проводится 1 марта и наша команда будет его организовывать ещё и в Армении.

А Love Data Week это, по сути такой конкурент в хорошем смысле для Open Data Day, многие решили делать регулярные мероприятия, но в другие, близкие даты.

Например, EU Open Data Days пройдут в Люксембурге 19-25 марта.

Участвуйте где можете и всем будет счастье.

#opendata #events
В рубрике как это устроено у них каталог визуализаций 3D сканов археологических объектов, объектов культурного наследия и иных научных коллекций физических объектов MorphoSource [1]. Включает визуализацию результатов сканирования, возможность запросить сами данные и обеспечивает доступность данных, чаще опубликованных под лицензией CC-BY-NC, свободное использование для некоммерческих целей.

Всего 172 тысяч объектов из которых 170.5 тысяч это объекты животного и растительного происхождения.

У проекта есть открытое API [2] и открытый код. Создан в Duke University за счет финансирования Национального научного фонда США.

Ссылки:
[1] https://www.morphosource.org
[2] https://morphosource.stoplight.io/docs/morphosource-api/rm6bqdolcidct-morpho-source-rest-api
[3] https://github.com/morphosource

#opendata #datacatalogs #datasets #archeology
Свежий интересный продукт по контролю качества данных DQX - Data Quality Framework от Databricks Labs [1].

Плюсы:
- зрелость поскольку Databricks один из лидеров рынка дата инженерии
- хорошая документация, судя по первому взгляду
- декларативное описание тестов в YAML (тут очень субъективно)
- интегрированность и заточенность на работу с Apache Spark
- открытый код на Github

Минусы:
- зависимость от Databricks Workspace в их дата каталоге Unity
- код открыт но лицензия несвободная, а специальная Databricks License с ограничениями [2], вполне возможно внешних контрибьюторов это оттолкнёт

Он очень напоминает движок Soda [3] который тоже даёт возможность декларативного описания тестов, но ещё более заточенный на их облачный сервис и который бесплатен только в рамках 45 дней тестирования. Можно пользоваться из Soda Core, правда, который под лицензией Apache 2.0

Итоговая ситуация такова что из частично открытых остались только движки Soda и great_expectations [4] который также стремительно коммерциализируется, но вроде как его команда обещала сохранить продукт GX Core под лицензией Apache 2.0 и развивать его, но как бы не закончилось также как с Elasticsearch и MongoDB, со сменой лицензии или тем что новые ключевые возможности будут только в облачных сервисах.

А DQX продукт интересный, но хотелось бы то же самое, но без вот этого вот всего (с).

Итого я могу сказать что есть заметный дефицит инструментов контроля качества данных. Сейчас нет ни одного подобного продукта под лицензией MIT, с простой интеграцией и, желательно, декларативным описанием тестов.

Поляна инструментов контроля качества данных совершенно точно заполнена не до конца и "рулят" на нём продукты в гибридном состоянии открытого кода и SaaS платформ.

Ссылки:
[1] https://databrickslabs.github.io/dqx/
[2] https://github.com/databrickslabs/dqx?tab=License-1-ov-file#readme
[3] https://github.com/sodadata/soda-core
[4] https://github.com/great-expectations/great_expectations

#opensource #dataquality #datatools
Я обещал написать развернутое мнение про свежую стратегию развития статистики и Росстата до 2030 года. Когда-нибудь доберусь до того чтобы написать прям подробно-подробно, но понял что это уже ближе к работе чем прокомментировать документ и фактически придётся описывать своё видение и собственную характеристику оценки российской статистики.

Я сфокусируюсь на кратких тезисах того что есть и того что нет:
1. О целях и рынке данных

В стратегии есть два пункта про доход и рынок данных. Первый присутствует на 15й странице отсутствие рынка государственных данных, который мог бы стать
источником дополнительных доходов для бюджета страны;

второй на 21 странице в целевых индикаторах
создан рынок государственных статистических данных,
удовлетворяющий пользовательские запросы на платной основе


Что важно про них понимать:
- де-факто Росстат и его территориальные управления и ранее поставляли данные и их ключевыми покупателями были региональные органы власти;
- рынок государственных данных - это не только и не то чтобы первично Росстат. Это давние разговоры про то что есть датасеты востребованные бизнесом и хорошо бы если бы их предоставление было бы на системной основе;
- к закрытию существующих данных это имеет меньшее отношение, это не про цензуру, а про монетизацию. Которая может быть как оправданной, в случаях сейчас недоступных данных которые будут доступны, но чаще не оправдана поскольку бьёт по малому и среднему бизнесу и возможностям журналистов и исследователей работать с данными.

Что важно - в документе нет ничего кроме этих фраз про форму развития этого рынка и про то что он мог бы стать вообще-то означает что мог бы и не стать. Потому что рынок данных может быть реализован множеством способов.

Это может быть:
a) Предоставление данных на платной основе отдельными ведомствами независимо
б) Наличие одного ведомства с маркетплейсом данных для продажи данных других ведомств.
в) Продажа данных через уполномоченных операторов (на самом деле предоставление доступа только уполномоченным операторам), а через них всему рынку. Такую модель применяют в ряде развитых стран вроде Австралии.

Из документа стратегии вообще непонятно каким этот рынок будет, какова в нём будет роль Росстата и вообще хоть что-то кроме этих слов. А ведь это, на минуточку, документ стратегии. Можно допустить предположение что будет через какое-то время отдельный закон или постановление о "маркетплейсе госданных" и в нем будет отсылка на эту стратегию, тогда эти слова про рынок немного понятнее.

2. Раздел II. Характеристика государственной статистики
в Российской Федерации и мире


Ключевое про этот раздел что он катастрофически неполон, как в части международного опыта так и российского. Про международный опыт я пишу здесь с завидной регулярностью, а вот относительно российского тут есть такой нюанс что официальная государственная статистика != Росстат. А в документе нет никаких цифр, хотя бы верхнеуровневых по числу сотрудников вовлеченных в создание ведомственной статистики, по числу ведомств, числу отчетных форм. Большой важный пробел.

В принципе этот раздел с описанием того как в мире и в России устроено был бы логичнее если бы был опубликован как отдельный подробный документ оценки текущего состояния официальной статистики в РФ. Но ничего такого я не видел как и опубликованных результатов аудита текущего состояния.

Самое главное, в характеристике текущего состояния нет ничего про деньги. Ни сколько на Росстат тратится, ни сколько тратится на ведомственную статистику, нет сравнения с другими странами сопоставимого размера/ВВП на душу населения/уровня доходов, нет вообще ничего про то сколько Росстат зарабатывает/зарабатывал денег и каким образом. Есть описания кадровых проблем, нет цифр текущей заработной платы и это справедливо ко всем обозначенным в стратегии вызовам.

Чуть позже я продолжу разбирать этот документ и напишу про остальное.

#statistics #regulation #russia
28 января будет проходить Privacy Day 2025 интересный для всех кто интересуется приватностью, персональными данными и балансе частной жизни и общественного интереса.

Среди организаторов наши друзья из CyberHub Армения с рассказом про инфобез для НКО в контексте Армении, но актуальный для всех.

А также многие другие участники из постсоветских стран, России, международных организаций, практики, специалисты и тд.

Я также приму участие в одной из дискуссий.

#events #privacy
Для тех кто хочет поработать с относительно небольшими открытыми данными в области культуры по ссылке доступен слепок Госкаталога музейного фонда РФ в формате Parquet (3GB) преобразованный из слепка датасета в 78GB с портала данных Минкультуры.

Для тех кто захочет поделать интересных запросов к этим данным вот тут их примеры которые я приводил на семинаре и которые можно делать с помощью DuckDB.
Подчеркну что с файлами Parquet и DuckDB работать можно на недорогих ноутбуках, настольных компьютерах и тд., загружать эти данные на сервер нет необходимости.

Серия запросов по объединению наиболее тяжелых экспонатов по весу и получению отсортированного списка предметов по весу в любом измерении
1. copy (select name, museum.name, weight/1000 as weight from 'data.parquet' where weightUnit = '{"name":"килограммы"}' order by weight desc) to 'heavy_kg_to_tonn.csv';
2. copy (select name, museum.name, weight/100000 as weight from 'data.parquet' where weightUnit = '{"name":"граммы"}' order by weight desc) to 'heavy_gramm.csv';
3. copy (select name, museum.name, weight from 'data.parquet' where weightUnit = '{"name":"тонны"}' order by weight desc) to 'heavy_tonn.csv';
4. select * from read_csv(['heavy_kg_to_tonn.csv', 'heavy_tonn.csv']) order by weight desc;

Рейтинг музеев по качеству заполнения описания (поле description) во внесённых элементах каталога

select t1.name as name, c as num, total, c*100.0/total as share from (select museum.name as name, count(id) as c from 'data.parquet' where len(description) = 0 group by museum.name) as t1 join (select museum.name as name, count(id) as total from 'data.parquet' group by museum.name) as t2 on t1.name = t2.name order by share desc;

Рейтинг музеев по качеству заполнения invNumber (инвентарный номер) во внесённых элементах каталога

select t1.name as name, c as num, total, c*100.0/total as share from (select museum.name as name, count(id) as c from 'data.parquet' where invNumber = '' group by museum.name) as t1 join (select museum.name as name, count(id) as total from 'data.parquet' group by museum.name) as t2 on t1.name = t2.name order by share desc;

#opendata #russia #parquet #duckdb
В продолжение разговора про обновлённую стратегию развития статистики и Росстата в РФ, очень в тему публикация в блоге Всемирного банка о мотивации и компетенции сотрудников статистических служб.

Там приведены результаты опросов сотрудников статслужб Латинской америки и Карибских стран, результаты такие что хотя 78% сотрудников готовы хорошо работать, но только 46% планируют остаться работать в статведомстве. Там, кстати, есть ссылка на опрос удовлетворенности госслужащих зарплатой и у статистиков она особенно низка.

Иначе говоря платят специалистам в этой области мало, чем они объективно недовольны и из-за чего компетенции страдают так как специалисты лучшей квалификации идут в бизнес и в другие госорганы.

И это один из наиболее ключевых вопросов во всех реформах статслужб в мире и на которых пока мало хороших решений.

Что я вижу из происходящего в мире:
1. Маргинализация статистических служб в странах где изначально официальная статистика была сомнительной. Например, некоторые африканские страны. И использование альтернативных источников для получения нужных показателей/индикаторов потенциальными их потребителями.
2. Попытки обновления статистических служб с сохранение их идентификации именно в такой роли. Как правило усложнённые как раз недофинансированием и отсутствием компетенций.
3. Трансформация статистических служб в государственные службы данных и дальнейшая их реформа с точки зрения обеспечения инфраструктуры работы и доступа к данным для госорганов, бизнеса и граждан.

Всё это сводится, в том числе, к вопросу лидерства подобных организаций. И для полноценной реформы статистики здесь есть всего 3 сценария:
1) Главой стат службы должен быть профессионал в области статистики с видением реформ и готовностью их проводить (из того что я знаю наиболее знающие люди в этой области на такую должность просто не пойдут).
2) Главой стат службы должен быть профессионал в области государственных данных и трансформировать службу в службу данных (в РФ не наблюдается такой тренд)
3) Присоединить (не подчинить, а присоединить) Росстат к Минцифры РФ (не выглядит пока реалистично)
4) Главой стат службы должен быть человек с сильным внутриполитическим влиянием который уже привлечёт остальных профессионалов в статистике и работе с данными.

Что такое этот четвертый вариант? Это как если бы главой статслужбы назначили Германа Грефа или Мишустин со словами "я устал, я мухожух" уходя с поста премьера лично занялся бы реформой Росстата, благо у него опыт автоматизации ФНС был вполне релевантный.

Вот тогда можно будет поверить что будут реальные и серьёзные изменения в российской официальной статистике.

В других странах ситуация другая. Во многих развивающихся странах статслужбы крайне бедны и многие их информационные системы были созданы в рамках поддержки от Всемирного банка и других международных организаций.

Тем не менее я лично ставлю на то что неизбежно официальные статистические службы будут или трансформироваться или интегрироваться в государственные органы отвечающие за политику работы с данными и их предоставление.


#regulation #statistics #policies #thoughts
В продолжение моих расхваливаний в адрес Parquet и DuckDB, приведу ещё один пример. Для задача Dateno я в последние дни анализирую большой датасет индикаторов статистики Всемирного банка из data.worldbank.org.

И вот, для справки, Всемирный банк предоставляет данные своих индикаторов не самым удобным образом. При многих достоинствах их данных, но там почти нет того что называется массовой выгрузкой, bulk download, и приходится выкачивать данные через API. Выгрузка этих данных по каждому индикатору - это около 22 ГБ в виде 3382 JSON файлов. Общим объёмом около 76 миллионов записей. Это не все, а примерно 12% всех индикаторов которые удалось проверить. Немного, на самом деле, но всё равно надо чуть-чуть заморочиться.

После преобразования этих файлов в один Parquet файл его размер составляет 44MB, а это 0.2% от исходного объёма. Опять же полученный файл не только сохраняет все возможности его анализа, но и этот анализ происходит куда быстрее.

Откуда такая эффективность? От того что данные индикаторов сильно денормалированы. Колоночное сжатие на них крайне эффективно. Жаль что Всемирный банк данные для массовой выгрузки до сих пор не публикует, хочется надеяться что когда-нибудь начнёт.

Но важный вывод тут ещё и в другом. Если кто-то из статистических служб и не только говорит о том что они не публикуют данные потому что они очень большие и рядовой пользователь не может с ними работать, то знайте что этот человек:
1) Или безграмотен.
2) Или целенаправленно врёт.

Кроме DuckDB и Parquet есть и другие инструменты сильно снижающие порог аналитической работы на недорогих устройствах.

#opendata #duckdb #statistics #parquet #worldbank
Свежий документ Data Governance in Open Source AI [1] от Open Source Initiative про то как публиковать данные для обучения ИИ с открытым кодом. В документе много всего, важно что они промоутируют отход от чистого определения Open Data и говорят о новом (старом) подходе Data Commons с разными моделями доступа к данным.

Дословно в тексте упоминаются, привожу как есть:
- Open data: data that is freely accessible, usable and shareable without restrictions, typically
under an open license or in the Public Domain36 (for example, OpenStreetMap data);
Public data: data that is accessible to anyone without authentication or special permissions
(for example, Common Crawl data). Note that this data can degrade as web content
becomes unavailable;
Obtainable data: data that can be obtained or acquired through specific actions, such as
licensing deals, subscriptions or permissions (for example, ImageNet data);
Unshareable non-public data: data that is confidential or protected by privacy laws,
agreements or proprietary rights and cannot be legally shared or publicly distributed.


С точки зрения многих в открытых данных всё это звучит как размывание открытости, но с точки зрения практики ИИ в этом есть логика.

Ссылки:
[1] https://opensource.org/blog/reimagining-data-for-open-source-ai-a-call-to-action

#opendata #data #readings
Написал в рассылку текст Работаем с дата фреймами. Почему не Pandas и какие альтернативы? [1] про альтернативы Pandas такие как Polars, Dask, DuckdB и cuDF. А также там же подборка ссылок на большое число параллельно развивающихся инструментов.

А я повторю тезис что Pandas нужный, полезный и важный, но легаси инструмент у которого есть уже много высокопроизводительных альтернатив значительно упрощающих работу с данными большого объёма на недорогих устройствах.

Ссылки:
[1] https://begtin.substack.com/p/pandas

#opensource #dataengineering #dataframes #datatools
В рубрике как это устроено у них Европейский проект Europeana [1] является не только общедоступной поисковой системой по культурному наследию Евросоюза, но и одним из крупнейших источников открытых данных используемых исследователями и просто заинтересованными пользователями.

В рамках Europeana доступно сразу несколько API [2] позволяющих получать доступ к поиску и информации об объектах в индексе, а также все метаданные доступны через открытый FTP сервер [3]. Это более 242 GB сжатых метаданных в формате RDF. После распаковски это чуть более 1TB RDF/XML документов включающих все описания всех размещённых на сайте изображений культурного наследия.

В виду высокой избыточности RDF документов, итоговые данные можно преобразовать в базу от 50 до 100GB, с чем уже можно работать без серверной инфраструктуры.

Не все знают также что Europeana - это агрегатор цифровых объектов из европейских культурных инициатив и проектов и агрегируется туда далеко не всё. Например, в Europeana лишь 626 445 записей [4] из греческого национального поисковика по культурному наследию SearchCulture.gr, а на самом сайте греческого проекта их 938 929 [5].

Тем не менее именно благодаря Europeana значительные объёмы информации о культурном наследии Европы стали доступны как открытые данные и большая часть культурных учреждений стран ЕС являются или аккредитованными партнерами Europeana или предоставляют информацию о своих коллекциях национальным аккредитованным партнерам.

Ссылки:
[1] https://www.europeana.eu
[2] https://europeana.atlassian.net/wiki/spaces/EF/pages/2461270026/API+Suite
[3] https://europeana.atlassian.net/wiki/spaces/EF/pages/2324463617/Dataset+download+and+OAI-PMH+service
[4] https://www.europeana.eu/en/collections/organisation/1331-greek-aggregator-search-culture-gr
[5] https://www.searchculture.gr/aggregator/portal/?language=en

#opendata #culture #europe #europeana
В рубрике как это устроено у них Jewish Heritage Network (JHN) голландская технологическая некоммерческая организация со специализацией на еврейском культурном наследии публикует 58 наборов данных из 33 источников общим объёмов в 834+ тысячи записей [1]. Большая часть этих данных доступна в европейском проекте Europeana, практически ко всем из них есть открытое общедоступное REST API. Часть датасетов доступны для полной выгрузки (bulk download), другие через API интерфейсы OAI-PMH.

Финансируется проект несколькими фонда поддержки еврейской культуры и из бюджета ЕС (проект Europeana).

Ссылки:
[1] https://jhn.ngo/research/#judaica_datasets

#opendata #digitalheritage #archives
Китайский стартап Deepseek [1] с его 3-й версией языковой модели показал что можно создать конкурентную языковую модель за $6 миллионов и ограниченными ресурсами, всего 10 тысяч процессоров Nvidia H100s [2]. Сейчас в США акции AI компаний упали, особенно Nvidia, а также приложение DeepSeek в топе скачиваний. Оно уже явно сбоит, невозможно зарегистрироваться через их сайт, ошибки одна за другой, но это явно из-за массового спроса.

Сама модель сделана небольшой командой AI исследователей, а Deepseek ранее был малоизвестным китайским стартапом.

Что важно так это то что их код открыт под свободной лицензией MIT и они опубликовали полный технический отчёт о том как они добились такого результата [3].

Если так дальше пойдет то совершенно то $500 миллиардов в проект Stargate США резко уменьшится в цене. Может быть даже очень резко, как и ожидаемые доходы AI лидеров.

Ссылки:
[1] https://www.deepseek.com
[2] https://www.axios.com/2025/01/27/deepseek-ai-model-china-openai-rival
[3] https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf

#ai #ml #llm
Я вот тут попытался поискать в Perplexity данные по культурному наследию Армении и... если долго искать находишь самого себя. В первом же результате каталог открытых данных Армении data.opendata.am

С одной стороны приятно, а с другой что-то печально.

P.S. Печально потому что хочется чтобы людей занимающихся цифровизацией культурного наследия было больше и их работа была заметнее.

#opendata #armenia #digitalpreservation #culture