Ivan Begtin
8.07K subscribers
1.51K photos
3 videos
100 files
4.26K links
I write about Open Data, Data Engineering, Government, Privacy and Data Preservation and other gov and tech stuff
Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech

Contact @NMBabina for ads proposals
Download Telegram
В продолжение международных инициатив по открытости данных, ключевая из них - это Open Data Charter (ODC) [1] международная хартия открытости данных основанная на 6 международных принципах открытых данных:

1. Для инклюзивного развития и инноваций
2. Для улучшения госуправления и вовлечения граждан
3. Сравнимые и интегрируемые
4. Доступные и пригодные к использованию
5. Своевременные и полные
6. Открытые по умолчанию

Эту хартию подписали 27 национальных правительств и 68 региональных правительств и властей городов. Эта хартия продвигается с 2015 года и процесс её принятия небыстрый и, кроме того, она идёт параллельно инициативам OGP и по многим странам нет пересечения.

Фактически, хартия - это ни к чему не обязывающее добровольное обязательство по открытости, но подтверждающее интерес к теме.

Немаловажно помнить что:
1. Темы открытого доступа и научных данных почти полностью отсутствуют в повестке OGP и ODC кроме разве что темы Climate change и то скорее в политическом чем в научном звучании.
2. Аналогично с тематикой доступности культурных данных и того что называют OpenGLAM, это слищком деполитизированная тема для международных институтов вроде OGP и ODC.
3. Многие страны с сильной внутренней политикой открытости данныхнигде в этих соглашениях не присутствуют. Примеры: Индия, Вьетнам, Таиланд, Малайзия

Ссылки:
[1] https://opendatacharter.org/

#opendata #opengov
В рубрике интересных поисковиков по данным, Lens.org научный поисковик по патентам, авторам и научным работам. Причём научных работ там проиндексировано 272 миллиона из которых 3.8 миллиона - это наборы данных.

Грамотно спроектированный интерфейс, удобный поиск (хотя и в Dateno быстрее) и большой охват источников.

Из минусов:
- существенный дисбаланс в сторону США и мало данных других стран
- многое названное там датасетами таковым не является
- только научные данные и даже не всех отраслей

#opendata #datasearch #datatools
В Бразилии местное отделение Open Knowledge Foundation запустило индекс открытости городов проанализировав доступность данных по 15 группам в 26 городах, столицах регионов. Результат ожидаемый - кроме Сан Пауло и Бело Хоризонте в большинстве городов открытости маловато.

При этом есть параллели с РФ, высокий уровень доступности данных о городских бюджетах и низкая доступность данных о нормативных документах.

Такой рейтинг полезен в странах где на федеральном уровне инициатива по открытости данных активна. К примеру, в РФ сделать такое сравнение реалистично, но необходимость совершенно неочевидна. А в Армении даже просто сделать такую оценку, но Армения унитарная страна, если сравнивать марзы, а если города, то они невелики. Но сделать такое можно, в том числе, потому что открыт код проекта.

#opendata #brazil #opengov #okfn
Собрал свои публичные презентации по нескольким темам и понял что получится большой пост если перечислять все. Вот тут самые основные:

Открытые данные
-
Раскрытие данных о госфинансах как часть государственной политики - про проекты открытости госфинансов и их значимости
- Открытые данные как основа госполитики - о том как устроены открытые данные в мире
- Как искать данные с помощью каталогов данных. Проект Datacatalogs.ru - об одном из первых каталогов-каталогов данных
- Sharing Data for Disaster Response and Recovery Programs - об открытых данных в вопросах чрезвычайных ситуаций и восстановления
- Открытость информационных систем нормотворчества - об открытости/закрытости систем нормотворчества в России

Data engineering
-
Dateno. Global Data Discovery search engine - презентация проекта поиска по данным Dateno
-
Datacrafter. Каталог и озеро данных на базе MongoDB - презентация для выступления на конференции SmartData, о внутренностях продукта Datacrafter и куча технических подробностей

Open Data Armenia
-
Open Finances. International and Armenia overview - обзор проектов по открытости госфинансов в мире и в Армении
- Open Data, Open Code, Open Licenses - о разных компонентах открытости

Открытый код
- Открытый код в других странах - Как и в каком объёме и кто именно публикует открытый код, почему это важно и почему это становится всё более популярным

Приватность
-
Слежка через государственные мобильные приложения - о том как государственные органы следят за гражданами с помощью мобильных приложений и сливают информацию о их передвижении и действиях коммерческим компаниям
- Термины и объекты регулирования: ADM-системы - о том что такое системы для автоматического принятия решения и как они описываются в разных странах
- О необходимости контроля и аудита ADM- систем - о том как регулировать ИИ используемый для автоматического принятия решений

Веб архивация
- Организация веб-архивов - о том как устроены современные интернет архивы и Национальный цифровой архив (ruarxive.org)
- Дата инженерия и цифровая гуманитаристика - о том какие большие цифровые гуманитарные проекты есть в мире и про Национальный цифровой архив

Понятный язык
- Простой и понятный русский язык - о простоте русского языка и её измерении
- Простота нормативно-правового языка - о подходах к оценке нормативно-правовых текстов

P.S. Всего у меня 200+ неразобранных презентаций за последние 15 лет, в онлайне не больше 30. Что-то устаревает, что-то нельзя публиковать, что-то бессмысленно без самого выступления, но, по мере разбора завалов, буду выкладывать дальше.

#opendata #opensource #plainlanguage #webarchives #digitalpreservation #dataengineering #armenia
В рубрике как это работает у них портал transport.data.gouv.fr во Франции посвящённый открытым данным мобильности. На нём опубликованы многочисленные датасеты с данными по трафику общественного транспорта, дорогами, парковками, морском транспорте и многое другое. Причём очень много API с данными реального времени.

Используется десятками компаний большая часть из которых малые и средние предприятия. Пока покрывают 15 из 19 регионов Франции, с каждым годом наращивают покрытие.

Франция одна из немногих стран с подобным системным подходом по раскрытию данных по транспорту.

#opendata #datasets #france #transport
К вопросу о том сколько в мире общедоступных / открытых данных, приведу цифры чуть более приближенные к настоящим оценкам.

Всего в индексе Dateno сейчас 2 миллиона CSV файлов. Из них 144 тысячи файлов уже собраны и выгружены, на них обучаются алгоритмы и отрабатываются инструменты для выявления семантических типов, конвертации, преобразования форматов и тд. Всего эти файлы в несжатом виде составляют 697ГБ. Итого 697 ГБ / 144 * 2000 получается ~ 9.7 терабайта. Это только из проиндексированных каталогов данных и только CSV файлы. Кроме них ещё немало файлов XLS и XLSX, JSON, XML и многих других.

Ещё цифры:
- половина хранения, около 350ГБ - это 300 крупнейших CSV файлов. Наибольшие достигают размера в 11ГБ в несжатом виде
- крупнейшие датасеты выкладывают французы, канадцы, британцы и американцы на своих национальных порталах открытых данных

Если создавать архив хотя бы самых очевидных файлов в наиболее распространённых форматах потребуется порядка 100-500 ТБ хранения, конечно с оговорками что данные можно хранить сжатыми, с тем что если хранить несколько версий то старые версии можно класть в холодное хранилище и с тем что можно почистить дубликаты, но порядки примерно понятны. Большие отличия начинают возникать при хранении научных и спутниковых датасетов.

И добавлю что работа с таким бесконечным числом дата файлов вскрывает порой самые неожиданные технические челленджи. Например, то что нет функции из коробки по определению что содержание файла CSV файл. Даже если в каталоге данных написано что он CSV, на входе может быть ZIP или GZip файл с CSV внутри, HTML файл если файл уже удалили, ошибка в виде JSON ответа когда по какой-то причине сервер не отдаёт файл и так далее. Но если сервер не выдал ошибку, если файл лежит в хранилище, то лучший способ определить его формат - это прочитать и разобрать из него несколько строк. А встроенные идентификаторы формата не работают. У класса csv.Sniffer в Python слишком много ошибок False Positive (FAR), у duckdb полностью отсутствует поддержка не UTF-8 кодировок, Magika от Google выдаёт слишком много ошибок , как FAR, так и FRR. Приходится делать собственные простые инструменты.

#opendata #dateno #thoughts
Свежий гайд от Всемирного банка про Beneficial Ownership Registers: Implementation Insights and Emerging Frontiers [1] в виде пояснений о том как реализовывать реестры конечных бенефициаров компаний и с весьма конкретными рекомендациями. На сегодняшний день таких реестров немного, самый известный это реестр компаний в Великобритании и чуть меньше в других странах, но тренд в этом направлении точно есть и общедоступные и открытые данные тоже. Конкретно в этом документе разобраны такие проекты в Нигерии, Кении, Северной Македонии и Великобритании.

Кроме того напомню что в реестрах Open Ownership есть данные из Дании, Словакии и чуть-чуть Армении. [2]

Про Армению разговор отдельный, там всего несколько компаний и сами данные довольно плохого качества, можно сказать что инициативы де-факто работающей нет.

Важно отличать реестры компаний от реестров конечных бенефициаров компаний потому что реестры компаний не дают глубокой прослеживаемости фактического владения юр. лицом.

Ссылки:
[1] https://openknowledge.worldbank.org/server/api/core/bitstreams/fea074cb-e6a4-4ebe-8348-6cd151d2f424/content
[2] https://register.openownership.org/data_sources

#opendata #readings #transparency
Кстати, продолжая о том что получается достигать в Dateno того чего нет в других агрегаторах и поисковиках данных покажу на примере Эстонии.

В Европейском портале данных (ЕПД) всего 324 датасета из Эстонии. В Dateno их 39310.

Откуда такая разница? ЕПД агрегирует только данные национального геопортала Эстонии, а Dateno использует 43 каталога данных внутри страны и 18581 индикатор из базы Всемирного банка и 1760 индикаторов из базы индикаторов Банка международных расчётов. И ещё не все внутренние источники проиндексированы, набрать 50-60 тысяч наборов данных вполне реально.

Причём большая часть датасетов будут статистическими индикаторами, научными данными и геоданными.

#opendata #datasets #estonia #dateno #datacatalogs
Давайте я для разнообразия напишу про что-нибудь хорошее с открытыми данными в РФ
- похоже что жив и даже перезапущен портал справочников Минздрава (nsi.rosminzrav.ru), это 1797 наборов данных справочной информации в виде датасетов в XML, JSON, XLS и CSV форматах для экспорта
- всё ещё живы и активны многие региональные порталы открытых данных таких как портал данных Республики Коми (opendata.rkomi.ru) и портал данных города Новосибирска (opendata.novo-sibirsk.ru). Таких обновляющихся порталов около десятка.
- всё ещё доступен и обновляется портал открытых данных Минкульта РФ (opendata.mkrf.ru) , наборов данных новых там нет, но старые продолжают обновлять.
- Пушкинский дом продолжает публиковать открытые данные в своём репозитории (dataverse.pushdom.ru)
- некоторые университеты в РФ начали публиковать открытые данные о своей деятельности, например раздел с данными в формате CSV на сайте РНИМУ им. Пирогова и раздел данных Нижегородского НГТУ . А также научные данные публикуются как отдельные проекты, как это делает СГМУ в репозитории клинических данных
- некоторые датасеты для машинного обучения публикует ВНИИАС / РЖД в рамках проекта RailDataSets

#opendata #russia #datasets
Новый портал с открытыми данными по госконтрактам открылся в Гватемале. Данные и API публикуются по стандарту Open Contracting Data Standard и доступны для всех желающих

#opendata #datasets #opencontracting