Ivan Begtin
9.37K subscribers
2.17K photos
4 videos
104 files
4.9K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
Немного отвлекаясь от сугубо технических тем и возвращаясь к сбору геотреков граждан государством в РФ, а ранее историям про госозеро и про огосударствление биометрических данных.

Помимо шуток и не шуток про тотальную слежку тут важно понимать что сама ситуация абсолютно уникальная. Я лично не знаю ни одну страну где государство де-факто национализировало бы данные бизнеса в таких количествах. Обычно всё происходит иначе и взаимоотношения гос-ва и дата-корпораций состоит из 3-х частей:
1) Корпорации и общественность лоббируют доступность тех или иных госданных которые предоставляются по разным моделям: открытые данные, доверенные операторы, покупка и продажа и тд.
2) Власти принуждают корпорации отдавать свои данные рынку, через антимонопольное давление, через программы по обмену данными (data sharing), через иные формы поощрения использования и предоставления данных
3) Спецслужбы/разведки разными непубличными способами взаимодействуют с крупнейшими сборщиками и операторами данных для решения госзадач в их ведении.

Собственно первые два типа взаимоотношений мы регулярно наблюдаем, про третий тип иногда происходят утечки, но в целом это то как мир развивается.

В России всё происходит иначе. Государство в лице фед. пр-ва шаг за шагом национализирует даже не просто базы данных, а целые блоки общественной жизни которые находятся у разного рода владельцев, дата корпораций и тд. и далее может раздавать эти данные кому надо. Скорее всего тем кто окажется ближе к лицам принимающающим решения.

Данные дата-корпораций становятся из их актива в государственный ресурс сдачи и раздачи. Мне это напоминает описанное в книгах Симона Гдальевича Кордонского, но перенесённое из физического пространства, в цифровое. Цифровые компании превращаются в цифровых бояр (или помещиков), оказываются во всё большей зависимости от федеральной власти, должны жить по определённым правилам игры не все из которых изложены нормативно.

Усиливаться эти цифровые бояре могут только путём приобретения адм. ресурса и укрупнением. Собственно подобное развитие отношений государство-бизнес, вместе с другими факторами, естественно ведёт к чеболизации всей этой сферы.

Честно говоря у меня каких-либо выводов нет, современный цифровой государственный патернализм стремительно набирает обороты, и пока какой-то большой цифровой катастрофы не произойдёт, то и шансов на то что этот процесс остановится или замедлится, нет.

P.S. Хочется добавить что такими темпами цифровая катастрофа неизбежна как один из чёрных лебедей который поломает цифровую инфраструктуру и что всё это выглядит довольно хрупко, но, думаю, что это и так очевидно.

#thoughts #russia #privacy
И ещё про итоги года, самое время вспомнить про тренды открытости и доступности данных в мире.

1. Больше международных данных. Совершенно точно общедоступных данных становится больше, большая часть новых данных публикуются как открытые (под свободными) лицензиями. Например, на большинстве сайтов активных межгосударственных организаций разделы "Статистика" и "Исследования" переименовали в разделы "Данные" или "Данные и статистика" и "Данные и исследования". Я бы даже сказал что это стало нормой для почти всех структур входящих в ООН, к примеру.

2. Больше данных городов и муниципалитетов
. Местные/городские данные один из приоритетов OGP, порталы данных городов появляются во все большем числе стран и наиболее активно создаются порталы геоданных. А также именно в городах чаще используют SaaS решения вроде OpenDataSoft и ArcGIS Hub.

3. Больше данных для машинного обучения. Этот тренд исключительно нарастает, помимо Kaggle и Hugging Face данные публикуют на многочисленных других порталах и сайтах компаний, исследовательских центров и так далее.

4. Постепенное проникновение дата инженерии и дата сайенс в открытые данные. Это происходит медленно но в последние пару лет особенно заметно и то что данные всё чаще доступны для массовой выгрузки (bulk download) и в форматах вроде parquet (данные из порталов OpenDataSoft, данные французского нац портала портала, данные нац портала Малайзии)

5. Больше особенно ценных данных. Инициатива High Value Datasets в Европейском союзе развивается и за его пределами. Появляется всё больше данных имеющих прямую измеренную пользу для экономики и всё более закрепляется политика государств что открытость этих данных несёт больше пользы обществу и бизнесу в частности чем торговля ими.

6. Расширение вклада биг техов в открытость данных.
Это касается тех данных которые касаются общей инфраструктуры, данных полученных с помощью ИИ, данных необходимых для обучения LLM моделей. Чаще всего это не собственные данные, а чьи-то ещё переупакованные, обогащённые и тем не менее полезные. Например, данные в рамках Overture Maps.

7. Усиление движения открытого доступа (Open Access).
Что выражается не только в том что повышается доступность научных статей, но и в появлении всё большего числа порталов исследовательских данных открытого доступа. Также становится больше специализированных порталов данных привязанных к конкретным научным дисциплинам и их специфике.

8. Сложность восприятия ИИ среди open data активистов
. Главными бенефициарами открытости не только данных, но и любых других свободно распространяемых материалов оказываются big tech компании, а теперь ещё и OpenAI и лидеры рынка LLM моделей. На многих волонтеров начинает давить ощущение что именно биг техи, а не общество выигрывают от открытости данных.

#opendata #opengov #data #thoughts