Ivan Begtin
8.07K subscribers
1.5K photos
3 videos
99 files
4.25K links
I write about Open Data, Data Engineering, Government, Privacy and Data Preservation and other gov and tech stuff
Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech

Contact @NMBabina for ads proposals
Download Telegram
Поднакопилось какое-то количество мыслей про доступность/открытость данных и дата инженерию, прежде чем писать по каждой мысли отдельный текст, изложу тезисами:

- проблема поиска данных под конкретную задачу в том что структурированных данных может и не быть. Ищущий решает задачу интеграции данных в свой продукт/решение своей задачи и машиночитаемость данных - это лишь снижение барьера по работе с ними, а так то данные могут быть и распарсены из любого неструктурированного формата или собраны вручную. Из-за такой модели потребления главный недостаток поиска структурированных данных в том что их может не быть и пользователю нужен первоисточник.

- самое сложное - это производство данных и ещё сложнее производство хороших данных. Создавая Dateno одной из мыслей было хотя бы частично решить задачу нахождения данных индексируя основных производителей. Но это не решает проблему отсутствия данных. Как поощрять их создание? Конкурсы для волонтеров? Datathon'ы ? Вопрос открытый.

- геоданные очень прикольная штука когда они очищены и приведены в удобную форму. Можно, например, довольно быстро сделать геопортал Армении на базе TerriaJS и интегрировать туда данные из нашего портала открытых данных data.opendata.am даже сейчас пара сотен слоёв данных наберётся из открытых источников и результат даже будет вполне симпатичен и открыт. Стоит ли делать его с учётом скорого обновления maparmenia.am (не отовсюду и не всегда доступен, неизвестно чем будет после обновления) ? Стоит ли делать такой портал для других стран?

- особенность доступности данных в России что всё что на сайтах госорганов названо "открытыми данными" таковыми не является, или бесполезно, или не обновлялось от 4 до 8 лет. Создать портал открытых данных без гос-ва не так сложно, сколь сложно его держать актуальным и с тем что его надо обновлять. Перезапуск темы открытых данных в России так чтобы данные были востребованы? Ха! Самое очевидное - машиночитаемые нормативные документы и первичные нормативные документы и тексты для машинного обучения, систематизация научных данных и их агрегация и много-много-много датасетов. Это не дорого, этим некому заниматься внутри гос-ва и не похоже что появится кто-то в ближайшие годы. Но если федералы всё же запустят новую версию data.gov.ru то точно сделаем альтернативу ему, больше и лучше, просто чтобы все знали что они не умеют;)

- веб архивация, цифровая архивация находится в кризисе. Причин много, и они нарастают. Во первых многие страны огораживаются, как РФ от поисковых ботов, во вторых информации производится сильно больше чем раньше, волонтеров и НКО недостаточно, далее контент тяжелеет, далее всё больше контента в соцсетях с авторизацией и пэйволов, инструменты устаревают, соцсети блокируют доступ к контенту, а в некоторых странах нет даже политики сохранения даже ключевого контента.

#opendata #data #thoughts #webarchives #geodata
В рубрике как это устроено у них, об открытых данных в США:
1. Особенность открытости данных в США в сильном сдвиге раскрытия данных на данные научные и геоданные. Даже на основном федеральном портале data.gov [1] этот акцент явно присутствует. Федеральный портал работает на движке CKAN и агрегирует из многих (не всех) порталов данных федеральных органов и их правительственных организаций.
2. Далеко не у всех штатов в США есть порталы открытых данных. Например их нет у Висконсина, Вайоминга, Западной Виргинии да и многих других. При этом порталы открытых данных есть у многих городов в этих штатах, а также почти у всех штатов и ещё большего числа городов есть порталы геоданных.
3. Самые популярные продукты для публикации открытых данных - это Socrata и ArcGIS Hub. Socrata были первопроходцами SaaS сервисов для публикации данных госорганами, но уже давно стагнируют. ArcGIS Hub очень популярен в муниципалитетах и используют его, как для публикации геоданных, так и просто данных без геопривязки.
4. Почти у каждого университета где ведутся научные исследования или научного центра если, или специальный портал для публикации данных или публикация научных данных вместе с другими Research outputs (научными результатами). В основном на платформах Figshare, Elsevier Pure, Esploro, DSpace, а также большом числе специализированных научных порталах и агрегаторах таких как ScienceBase [2]
5. Большая часть корпоративных порталов открытых данных также происходят из США поскольку и дата корпораций больше в США. Порталы данных Amazon, Google, Microsoft и многих других.
6. Как и во всех развитых странах основные тренды публикации данных: открытый доступ (научные данные), геоданные/геопорталы (для аналитиков и граждан), прозрачность государства (для правозащитников и журналистов) и экономический эффект (малый и средний бизнес). Геоданных и научных данных более всего по заметности.
7. Важная особенность, почти нет такого "роccийского явления" как симуляция открытости. Госорганы в США ничего не обязаны публиковать по "белым спискам" открытых данных и если уж публикуют, то это почти всегда реакция на общественный запрос.
8. В реестре Dateno сейчас 1851 портал с данными США из которых 73% это геопорталы [3]. Всего данных на всех порталах более 1 миллиона датасетов. На самом деле порталов и данных куда больше, но их надо буквально вручную искать поскольку единого каталога порталов открытых данных в США никогда не было и нет.

Ссылки:
[1] https://www.data.gov
[2] https://www.sciencebase.gov/
[3] https://dateno.io/registry/country/US

#opendata #usa #datacatalogs #datasets
В *рубрике закрытых данных в РФ* в январе я писал о том что исчезли отчёты Системного оператора единой энергетической системы [1] по состоянию энергетики, но обнаружил недавно что написал там не всё. Кроме отчётов исчезли ещё и ежесуточные индикаторы такие как:
- План генерации и потребления
- Факт генерации и потребления
- Генерация и потребление (сут)

И так по каждому из ОЭС в рамках ЕЭС.

Данные остались только в Интернет архива [2].

В разрезе отдельных энергокомпаний мне недавно необходимо было найти данные по электрогенерации и только в паре случаев удалось найти помесячные данные по электрогенерации за 2023 год, а за 2024 год уже ничего не нашлось.

Ссылки:
[1] https://t.me/begtin/5359
[2] https://web.archive.org/web/20211107094307/https://www.so-ups.ru/functioning/ees/oes-center/oes-center-indicators/

#statistics #russia #opendata #closeddata #energy
В рубрике как это устроено у них в мире существует как минимум две большие инициативы по международной кооперации вокруг открытых данных и открытости государства.

Первая - это Open Government Partnership [1], партнёрство открытых правительств где страны и регионы участники публикуют добровольные обязательства, а НКО из этих стран мониторят их соблюдение. Всего там сейчас 75 стран и более 100 городов. Причём 55 городов и территорий присоединились в 2024 году.

Основные инициативы OGP - это открытость бюджетов, открытость парламентов, вовлечение граждан в госуправление, открытость информации, открытые данные, противодействие коррупции и ещё многое другое.

В обязательствах стран и регионов не всегда есть открытые данные, часто акцент делается на партисипаторном бюджетировании. Тем не менее открытые данные есть в повестке большей части стран и многих территорий.

Из постсоветских стран в OGP участвуют Кыргызстан, Украина, Литва, Латвия, Эстония, Грузия и Армения и ряд городов из этих стран. Например, города Армавир, Гюмри, Ванадзор, Ереван. Правда в Армении почти нет обязательств властей по публикации открытых данных, на сегодняшний день.

Акцент на вовлечение городов и территорий у OGP произошёл относительно недавно, в основном поскольку застопорилось участие национальных правительств и однозначной политической ориентированностью организации.

В OGP, к примеру, нет таких стран как Вьетнам, Таиланд, Малайзия, Турция, Индия - всё это страны с большими публичными инициативами по открытости данных и национальными программами в этой области.

Другая большая международная инициатива - это Open Data Charter, о ней я расскажу в следующий раз.

Ссылки:
[1] https://www.opengovpartnership.org
[2] https://www.opengovpartnership.org/ogp-local/

#opendata #opengov #datasets #data
В рубрике интересных наборов данных

- Kiwi-Torrent-Research [1] датасет torrent файлов, включает 107 миллионов torrent'ов указывающих на 1.68 миллиардов файлов. Всего торрентов там на 59.6 GB в сжатом виде. В основе более десятка источников, в основном из Archive.org. Многие источники 3-4 летней давности, так что дамп не самый актуальный по содержанию, но, несомненно, один из самых крупных если не крупнейших.
- Rijden de Treinen train services [2] открытые данные архива данных о движении поездов в Нидерландах. Данные с 2019 по 2024 годы, в сжатом виде около 2 GB. Включают информацию о фактическом движении поездов включая информацию об остановке, времени прибытия, времени отправления, операторе, поезде и многом другом. Очень хороший обучающий датасетов учить студентов. Его используют в DuckDB для демонстрации работы базы данных [3] заодно с датасетом по расстояниям между станциями.

Ссылки:
[1] https://github.com/Kiwi-Torrent-Research/Kiwi-Torrent-Research
[2] https://www.rijdendetreinen.nl/en/open-data/train-archive
[3] https://duckdb.org/2024/05/31/analyzing-railway-traffic-in-the-netherlands.html

#opendata #datasets
В продолжение международных инициатив по открытости данных, ключевая из них - это Open Data Charter (ODC) [1] международная хартия открытости данных основанная на 6 международных принципах открытых данных:

1. Для инклюзивного развития и инноваций
2. Для улучшения госуправления и вовлечения граждан
3. Сравнимые и интегрируемые
4. Доступные и пригодные к использованию
5. Своевременные и полные
6. Открытые по умолчанию

Эту хартию подписали 27 национальных правительств и 68 региональных правительств и властей городов. Эта хартия продвигается с 2015 года и процесс её принятия небыстрый и, кроме того, она идёт параллельно инициативам OGP и по многим странам нет пересечения.

Фактически, хартия - это ни к чему не обязывающее добровольное обязательство по открытости, но подтверждающее интерес к теме.

Немаловажно помнить что:
1. Темы открытого доступа и научных данных почти полностью отсутствуют в повестке OGP и ODC кроме разве что темы Climate change и то скорее в политическом чем в научном звучании.
2. Аналогично с тематикой доступности культурных данных и того что называют OpenGLAM, это слищком деполитизированная тема для международных институтов вроде OGP и ODC.
3. Многие страны с сильной внутренней политикой открытости данныхнигде в этих соглашениях не присутствуют. Примеры: Индия, Вьетнам, Таиланд, Малайзия

Ссылки:
[1] https://opendatacharter.org/

#opendata #opengov
В рубрике интересных поисковиков по данным, Lens.org научный поисковик по патентам, авторам и научным работам. Причём научных работ там проиндексировано 272 миллиона из которых 3.8 миллиона - это наборы данных.

Грамотно спроектированный интерфейс, удобный поиск (хотя и в Dateno быстрее) и большой охват источников.

Из минусов:
- существенный дисбаланс в сторону США и мало данных других стран
- многое названное там датасетами таковым не является
- только научные данные и даже не всех отраслей

#opendata #datasearch #datatools
В Бразилии местное отделение Open Knowledge Foundation запустило индекс открытости городов проанализировав доступность данных по 15 группам в 26 городах, столицах регионов. Результат ожидаемый - кроме Сан Пауло и Бело Хоризонте в большинстве городов открытости маловато.

При этом есть параллели с РФ, высокий уровень доступности данных о городских бюджетах и низкая доступность данных о нормативных документах.

Такой рейтинг полезен в странах где на федеральном уровне инициатива по открытости данных активна. К примеру, в РФ сделать такое сравнение реалистично, но необходимость совершенно неочевидна. А в Армении даже просто сделать такую оценку, но Армения унитарная страна, если сравнивать марзы, а если города, то они невелики. Но сделать такое можно, в том числе, потому что открыт код проекта.

#opendata #brazil #opengov #okfn
Собрал свои публичные презентации по нескольким темам и понял что получится большой пост если перечислять все. Вот тут самые основные:

Открытые данные
-
Раскрытие данных о госфинансах как часть государственной политики - про проекты открытости госфинансов и их значимости
- Открытые данные как основа госполитики - о том как устроены открытые данные в мире
- Как искать данные с помощью каталогов данных. Проект Datacatalogs.ru - об одном из первых каталогов-каталогов данных
- Sharing Data for Disaster Response and Recovery Programs - об открытых данных в вопросах чрезвычайных ситуаций и восстановления
- Открытость информационных систем нормотворчества - об открытости/закрытости систем нормотворчества в России

Data engineering
-
Dateno. Global Data Discovery search engine - презентация проекта поиска по данным Dateno
-
Datacrafter. Каталог и озеро данных на базе MongoDB - презентация для выступления на конференции SmartData, о внутренностях продукта Datacrafter и куча технических подробностей

Open Data Armenia
-
Open Finances. International and Armenia overview - обзор проектов по открытости госфинансов в мире и в Армении
- Open Data, Open Code, Open Licenses - о разных компонентах открытости

Открытый код
- Открытый код в других странах - Как и в каком объёме и кто именно публикует открытый код, почему это важно и почему это становится всё более популярным

Приватность
-
Слежка через государственные мобильные приложения - о том как государственные органы следят за гражданами с помощью мобильных приложений и сливают информацию о их передвижении и действиях коммерческим компаниям
- Термины и объекты регулирования: ADM-системы - о том что такое системы для автоматического принятия решения и как они описываются в разных странах
- О необходимости контроля и аудита ADM- систем - о том как регулировать ИИ используемый для автоматического принятия решений

Веб архивация
- Организация веб-архивов - о том как устроены современные интернет архивы и Национальный цифровой архив (ruarxive.org)
- Дата инженерия и цифровая гуманитаристика - о том какие большие цифровые гуманитарные проекты есть в мире и про Национальный цифровой архив

Понятный язык
- Простой и понятный русский язык - о простоте русского языка и её измерении
- Простота нормативно-правового языка - о подходах к оценке нормативно-правовых текстов

P.S. Всего у меня 200+ неразобранных презентаций за последние 15 лет, в онлайне не больше 30. Что-то устаревает, что-то нельзя публиковать, что-то бессмысленно без самого выступления, но, по мере разбора завалов, буду выкладывать дальше.

#opendata #opensource #plainlanguage #webarchives #digitalpreservation #dataengineering #armenia
В рубрике как это работает у них портал transport.data.gouv.fr во Франции посвящённый открытым данным мобильности. На нём опубликованы многочисленные датасеты с данными по трафику общественного транспорта, дорогами, парковками, морском транспорте и многое другое. Причём очень много API с данными реального времени.

Используется десятками компаний большая часть из которых малые и средние предприятия. Пока покрывают 15 из 19 регионов Франции, с каждым годом наращивают покрытие.

Франция одна из немногих стран с подобным системным подходом по раскрытию данных по транспорту.

#opendata #datasets #france #transport