Ivan Begtin
9.31K subscribers
2.08K photos
3 videos
102 files
4.81K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
У меня много рефлексии по поводу всего что я слышал, читал и видел в записи с прошедшей в России конфы Data Fusion. Ещё несколько лет я зарёкся слишком много думать про госполитику в работе с данными в РФ и вместо этого пишу в жанре "как это работает у них" для понимания того как это не работает в РФ, но сказать могу об этом многое, наверное даже слишком многое.

Ключевая мысль которую не грех повторить в том что в РФ не западная (точно не европейская) и не китайская модели работы с рынком данных и цифровыми рынками в целом. Я опишу это всё своими словами, как можно проще, без юридических тонкостей.

Западная, особенно европейская, основана на:
- открытости данных/знаний как базовой ценности для всех данных относимым к общественному благу
- развитии и расширении прав пользователей в управлении данными - крайняя форма это европейский GDPR
- поощрение отраслевого обмена данными через кооперационные механизмы с участием государства и государствами поддерживаемая
- поощрению открытости в областях связанных с общественными интересами (развитие принципов открытой науки, прямая поддержка проектов с открытым кодом и данными)

Китайская модель
основана на:
- безусловной доминанте государственных интересов над правами граждан на работу с их данными и интересами бизнеса
- приоритет экономики и интересов бизнеса над правами граждан на работу с их данными
- сильный фокус на обмен данными в научных исследованиях (как следствие госполитики развития науки) и открытости науки

Российская модель имеет некоторые сходства, но не похожа ни на одну из перечисленных:
- госполитика открытости де-факто приостановлена более 10 лет назад, с отдельными исключениями. До этого в течение 3-4 лет она была ближе к западной модели
- декларируемое расширение защиты данных граждан без расширения прав граждан на защиту. Это звучит странно, но имеет простую расшифровку. Вместо усиления юридической защиты граждан идёт усиление регуляторов в отношении организаций которые работают с персональными данными.
- отсутствие госполитики поддержки принципов открытой науки и поддержки проектов с открытым кодом и данными)
- приоритет принципов патернализма и контроля в цифровой сфере с нарастающим усилением давления на цифровой бизнес

Ключевое в российской госполитике - это патернализм и контроль. Поэтому гос-во столь активно стремится получить доступ к данным бизнеса и поэтому же столь тормозятся или не стартуют все инициативы по предоставлению данных из государственных информационных систем.

Специально всё это описываю безэмоционально и безоценочно, просто как описание контекста.

#opendata #data #regulation #russia
В рубрике как это устроено у них проект bustimes.org с расписаниями автобусов в Великобритании и картой их движения в реальном времени. Автор обрабатывает данные из примерно десятка источников, геокодировал все остановки и позволяет спланировать поезки и найти сайты и контакты перевозчиков.

Пример проект на открытых данных, преимущественно используя открытые API транспортных служб Великобритании.

Такого нехватает для многих стран, хотя бы для региональных поездок.

Неидеальный, но открытый и полезный продукт. Жаль что там только Великобритания.

#opendata #transport #uk
Я для себя какое-то время назад составил список проектов по дата инженерии и аналитики для изучения и отслеживания.

Не у всех есть открытый код и некоторые я бы отдельно отметил:
- DoltHub - продукт и сервис по работе с данными как с Git, большой каталог данных. Активно используется в игровой индустрии и не только
- Mode - стартап Бэна Стенцила про рабочее место для аналитика. Полезно
- CastorDoc - дата каталог с сильным акцентом на автодокументирование. Его недавно купили Coalesce
- Clickhouse - open source продукт и сервис одной из лучших аналитической СУБД
- DuckDB - про это я пишу часто, open source продукт для аналитической базы и мощный инструмент запросов. Возможно лучший или один из лучших инструментов работы с parquet файлами
- CKAN - open source каталог открытых данных активно трансформирующийся в более человечный продукт PortalJS, в сильной конкуренции с другими продуктами для каталогов открытых данных
- OpenDataSoft - французский стартап облачного продукта каталога открытых данных. Не самый популярный, но имеет множество уникальных возможностей

А также я веду большую коллекцию продуктов с открытым кодом который я собрал в структурированных списках на Github вот тут https://github.com/ivbeg?tab=stars

#opendata #data #dataanalytics #dataengineering
В рубрике как это устроено у них новый портал данных Международного валютного фонда data.imf.org был открыт совсем недавно.

Из любопытного:
- добавилась публикация данных в форме наборов данных в разделе Datasets [1]
- обновился Data Explorer по данным статпоказателей [2]
- появился сквозной поиск одновременно по датасетам, таблицам, индикаторам и остальным объектам [3]
- появились дашборды (на базе PowerBI) [4]
- появилось новое SDMX API на базе Azure [5]

Из минусов и косяков:
- нет возможности скачать всё и сразу (bulk download), хотя частично это сделано с помощью датасетов в каталоге, но недоделано поскольку самого каталога нет в машиночитаемой форме
- нет данных в современных форматах и вообще экспорт не в CSV
- датасеты опубликованы без схем описания, нет ни Schema.org ни DCAT
- при просмотре временных рядов нельзя создать ссылку на конкретный временной ряд или отфильтрованную визуализацию
- API требует обязательной регистрации

Ссылки:
[1] https://data.imf.org/en/Datasets
[2] https://data.imf.org/en/Data-Explorer
[3] https://data.imf.org/en/Search-Results#q=Oil%20export&t=coveob02de888&sort=relevancy
[4] https://data.imf.org/en/dashboards/dip%20dashboard
[5] https://portal.api.imf.org/

#opendata #datasets #statistics #imf