Ivan Begtin
9.34K subscribers
2.12K photos
3 videos
103 files
4.84K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
Про состояние открытости данных в Армении, ещё более краткая сводка😜 на сегодня 16 апреля 2025 г.

Негативное
- Правительство Армении не публикует никаких открытых данных, не имеет таких обязательств и даже не прописало их публикацию в обещаниях в рамках Open Government Partnership, в отличие от других стран участников.
- внутренний спрос на доступность госданных очень невысок, требуется много усилий на раскачку сообщества

Нейтральная
- многие данные доступны на сайтах, требуется их парсинг и описание. Многое не публикуется не из-за политики закрытости, а по бедности, нет ресурсов и явного нет запроса.

Позитивное
- данные публикует сообщество, конкретно наше Open Data Armenia (opendata.am и ТГ канал @opendataam)

#opendata #stateofopendata #armenia
В рубрике интересных порталов открытых данных, свежий портал открытых данных Министерства образования Франции [1]. Сделан на базе облачного ПО OpenDataSoft и предоставляет 242 набора данных по темам образования, спорта и молодёжи.

У французской компании OpenDataSoft очень неплохой продукт каталога данных который довольно популярен на субнациональном уровне во Франции и ряде других стран, в основном ЕС. В последние версии они туда добавили новые функции такие как анализ данных и отображение их карте и в других форматах.

Например, календарь министра национального образования [2] или отображение справочника школ на карте [3], но, конечно, самое главное - это продвинутое API и экспорт данных в разных форматах: CSV, JSON, Excel, Parquet и ещё 5 форматов для геоданных.

У OpenDataSoft в итоге очень хороший прогресс с их публичными каталогами данных. Я бы их порекламировал, но в РФ их каталог неприменим, а, к примеру, для Армении слишком дорог для общественных проектов.

При всей хорошей организации их каталога, при этом, отмечу что самое большое число датасетов в них которое я видел было около 40 тысяч наборов данных. Для сравнения в CKAN есть каталоги на 1+ миллионов датасетов. Поэтому качество не значит масштаб, а масштаб не равен качеству.

Тем не менее можно увидеть как теперь публикует данные Минобразования Франции.

Ссылки:
[1] https://data.education.gouv.fr
[2] https://data.education.gouv.fr/explore/dataset/fr-en-agenda-ministre-education-nationale/calendar/?disjunctive.uid&sort=dtstart&calendarview=month
[3] https://data.education.gouv.fr/explore/dataset/fr-en-annuaire-education/map/?disjunctive.type_etablissement&disjunctive.libelle_academie&disjunctive.libelle_region&disjunctive.ministere_tutelle&disjunctive.appartenance_education_prioritaire&disjunctive.nom_commune&disjunctive.code_postal&disjunctive.code_departement&location=9,45.88427,3.1723&basemap=jawg.streets

#opendata #education #france #datasets #data #datacatalogs
Я как фанат инструментов самоорганизации на днях попробовал Notion Mail [1] AI ассистент для почтового ящика поверх почты Google, свежий продукт от команды Notion. Что могу сказать, многое неплохо, многое очень разумно сделано, например, авто разметка тегами (auto-labeling) и автоматизация создания групп для подобных писем. Это очень даже очень хорошо, но не киллер фича.

Эх, привлекли бы меня как консультанта мне много что есть сказать про AI ассистентов/ассистентов по самоорганизации.

Я когда-то давно писал про некоторые мысли в этом направлении. Сейчас вспомню не все, но две идеи являются ключевыми:
1. Письмо=задача. Если ты получил письмо, у тебя появилась задача с ним что-то сделать. Прочитать, ответить,не отвечать и кинуть в спам. В любом случае это от микро до макро задачи
2. Гибкий контекст. Это такая сложная штука для понимания разработчиков email клиентов. Они все считают что можно сделать универсальный интерфейс и не понимают высокой вариативности моделей использования в зависимости от контекста. Например, я живу по принципу zero inbox. И то что у меня сейчас в Inbox'е накопилось более 800 писем создаёт существенный дискомфорт. Мне важно автоматизировать очистку Inbox'а максимально удобно и быстро. У других пользователей другие сценарии и модели. Контекст должен быть гибок, хотя бы 2-3 шаблона.

А Notion Mail пока скорее выглядит как бэта и, из минусов, безбожно тормозит и грузит браузер.

Ссылки:
[1] https://www.notion.com/product/mail

#email #productivity #reviews
Оказывается Фонд Викимедиа относительно недавно, ещё в 2022 году создал Wikimedia Enterprise [1] отдельную компанию предоставляющую современные API корпоративного уровня (modern enterprise-grade APIs) для Википедии и других их проектов.

Обещают 850+ наборов данных, 100+ миллионов страниц.

А теперь ещё и договорились с Google о выкладывании на Kaggle снэпшотов [2].

Сейчас их датасет представлен в виде 54 JSONL файлов англоязычной и франкоязычной вики и составляет [3] 113 гигабайт

Ссылки:
[1] https://enterprise.wikimedia.com/
[2] https://enterprise.wikimedia.com/blog/kaggle-dataset/
[3] https://www.kaggle.com/datasets/wikimedia-foundation/wikipedia-structured-contents/data

#opendata #datasets #wikipedia #api
Forwarded from Нецифровая экономика (Илья Склюев)
Горячая тема сегодня обсуждалась на Data Fusion: где же тот самый злополучный datalake, и как нам развить рынок больших данных в РФ?

Президент «Ассоциации больших данных» Анна Серебряникова констатировала, что открытый рынок данных в РФ не сформировался, и все остальные направления прошли в основном по «базовому сценарию», несмотря на надежды бизнеса. Как видно из её слайда ☝️, единственная область, в которой выполнены цели развитие рынка big data — это монетизация. В 2024 году он достиг 320 млрд руб. А вот в части обмена данными и выхода на внешние рынки, проекты либо только начаты, либо приостановлены.

Сейчас в Ассоциации разрабатывают новую стратегию развития до 2030 года и призывают государство к более активному вмешательству: правительство должно быть регулятором не только контролирующим, но и стимулирующим. Иначе у России есть риск серьёзно отстать от США и Китая, которые все проблемы на своей стороне решили.

📍 Сейчас же регуляторные рамки мешают открытости данных. У телеком операторов — тайна связи, у финансовых организаций — банковская тайна, заметил Вадим Кулик, зампредправления ВТБ. С прошлого года также появились оборотные штрафы за утечку персональных данных: всё это создаёт негативные стимулы для рынка.

Вчера говорили про биржу данных, которая уже есть в Китае. Значит, этот путь рабочий, но пока закрытый из-за регуляторных вызовов. При этом пилотные проекты, вроде работы с Open API от ЦБ, приводят лишь к развитию новых продуктов в экосистемах. Например, когда у некоторых банков появилась возможность показывать в одном интерфейсе несколько счетов, это создало для них риски потери клиентов.

Отвечают на это соответственно: скоро на таких «витринах» у каждого банка появятся свои «антисоветчики»: они будут рассказывать, почему не нужно совершать покупку через другой банк, советовать выгодные предложения. Вот тебе и ещё одно применение ИИ. Но, опять же, это не путь к обмену данными.

✔️ Министр цифры Максут Шадаев отметил, что в России первоначальный период накопления капитала данных уже прошёл. Россия цифровизировалась, теперь настало время повысить эффективность использования уже собранной информации. Каждый работает с данными по разному, гармонизация не проведена.

Есть соблазн собрать все данные в одном месте, но это риск с точки зрения кибербезопасности. Поэтому формат «витрин», когда данные хранятся в ведомствах, а в приложении только отображаются, удобнее. Задача Госуслуг — к 2026 году отказаться от хранения любой информации, чтобы данные подгружались из баз ведомств. Ну и, естественно, властям интересны данные бизнеса.

А что касается инициатив про биржи данных... Шадаев отметил, что здесь, как и с ИИ, увлечение регуляторикой может иметь свои минусы. Пусть лучше бизнес самоорганизуется и принесёт свои предложения — например, на ЦИПР. Хочется от общих вещей перейти к конкретным проектам, понимать, что можно сделать.

🔤🔤Буквально вчера видели прекрасный пост о том, как обстоят дела с открытостью данных в России. Если кратко: со стороны государства стимулов к развитию индустрии фактически нет. Дата-сеты публикует и обновляет в основном ЦБ и ФНС. В феврале представитель аппарата вице-премьера Дмитрия Григоренко сообщил, что собранные властями данные будут передавать для обучения ИИ, но о практических результатах этого пока не слышно.

Конкретных действий мало, а те что есть ограничиваются взаимодействием властей и крупного финтех-бизнеса. Обсуждения сценариев выхода из этого тупика идут — даже сегодня после пленарки об этом с нервным смешком вновь заговорили на тематической дискуссии «Нужна ли России национальная биржа данных?». Но кажется, что всё упирается в регуляторику: кроме открытых данных государства на биржу пока ничего не положить.
Please open Telegram to view this post
VIEW IN TELEGRAM
У меня много рефлексии по поводу всего что я слышал, читал и видел в записи с прошедшей в России конфы Data Fusion. Ещё несколько лет я зарёкся слишком много думать про госполитику в работе с данными в РФ и вместо этого пишу в жанре "как это работает у них" для понимания того как это не работает в РФ, но сказать могу об этом многое, наверное даже слишком многое.

Ключевая мысль которую не грех повторить в том что в РФ не западная (точно не европейская) и не китайская модели работы с рынком данных и цифровыми рынками в целом. Я опишу это всё своими словами, как можно проще, без юридических тонкостей.

Западная, особенно европейская, основана на:
- открытости данных/знаний как базовой ценности для всех данных относимым к общественному благу
- развитии и расширении прав пользователей в управлении данными - крайняя форма это европейский GDPR
- поощрение отраслевого обмена данными через кооперационные механизмы с участием государства и государствами поддерживаемая
- поощрению открытости в областях связанных с общественными интересами (развитие принципов открытой науки, прямая поддержка проектов с открытым кодом и данными)

Китайская модель
основана на:
- безусловной доминанте государственных интересов над правами граждан на работу с их данными и интересами бизнеса
- приоритет экономики и интересов бизнеса над правами граждан на работу с их данными
- сильный фокус на обмен данными в научных исследованиях (как следствие госполитики развития науки) и открытости науки

Российская модель имеет некоторые сходства, но не похожа ни на одну из перечисленных:
- госполитика открытости де-факто приостановлена более 10 лет назад, с отдельными исключениями. До этого в течение 3-4 лет она была ближе к западной модели
- декларируемое расширение защиты данных граждан без расширения прав граждан на защиту. Это звучит странно, но имеет простую расшифровку. Вместо усиления юридической защиты граждан идёт усиление регуляторов в отношении организаций которые работают с персональными данными.
- отсутствие госполитики поддержки принципов открытой науки и поддержки проектов с открытым кодом и данными)
- приоритет принципов патернализма и контроля в цифровой сфере с нарастающим усилением давления на цифровой бизнес

Ключевое в российской госполитике - это патернализм и контроль. Поэтому гос-во столь активно стремится получить доступ к данным бизнеса и поэтому же столь тормозятся или не стартуют все инициативы по предоставлению данных из государственных информационных систем.

Специально всё это описываю безэмоционально и безоценочно, просто как описание контекста.

#opendata #data #regulation #russia
Свежая модель o3 от OpenAI умеет неплохо в местоположение по фотографии, угадывает с большой точностью не всё, но многое. Для OSINT бесценный инструмент.

Думаю что загрузив несколько фотографий из одного места можно получить ещё более точный результат, пока не проверял.

Но что важно это то что результат зависит от языка запроса. Один и тот же вопрос на русском и на армянском языках даёт разные результаты, пересекающиеся, но... разные.


#ai #photo #tools #osint
Internet Archive разместили петицию на Change.org с призывом отменить $700 миллионный иск звукозаписывающих компаний который угрожает существованию Интернет архива. За сутки они собрали уже более 17 тысяч подписей. Иску угрожает полностью обанкротить Интернет архив и лишить пользователей не только звукового архива, но и архива сайтов и иных оцифрованных и цифровых коллекций.

Коллекции Интернет архива бесценны - это сайты, видео, аудио, книги, данные и многое другое. Потерять его будет большой катастрофой.

#internetarchive
В рубрике как это устроено у них проект bustimes.org с расписаниями автобусов в Великобритании и картой их движения в реальном времени. Автор обрабатывает данные из примерно десятка источников, геокодировал все остановки и позволяет спланировать поезки и найти сайты и контакты перевозчиков.

Пример проект на открытых данных, преимущественно используя открытые API транспортных служб Великобритании.

Такого нехватает для многих стран, хотя бы для региональных поездок.

Неидеальный, но открытый и полезный продукт. Жаль что там только Великобритания.

#opendata #transport #uk
Я для себя какое-то время назад составил список проектов по дата инженерии и аналитики для изучения и отслеживания.

Не у всех есть открытый код и некоторые я бы отдельно отметил:
- DoltHub - продукт и сервис по работе с данными как с Git, большой каталог данных. Активно используется в игровой индустрии и не только
- Mode - стартап Бэна Стенцила про рабочее место для аналитика. Полезно
- CastorDoc - дата каталог с сильным акцентом на автодокументирование. Его недавно купили Coalesce
- Clickhouse - open source продукт и сервис одной из лучших аналитической СУБД
- DuckDB - про это я пишу часто, open source продукт для аналитической базы и мощный инструмент запросов. Возможно лучший или один из лучших инструментов работы с parquet файлами
- CKAN - open source каталог открытых данных активно трансформирующийся в более человечный продукт PortalJS, в сильной конкуренции с другими продуктами для каталогов открытых данных
- OpenDataSoft - французский стартап облачного продукта каталога открытых данных. Не самый популярный, но имеет множество уникальных возможностей

А также я веду большую коллекцию продуктов с открытым кодом который я собрал в структурированных списках на Github вот тут https://github.com/ivbeg?tab=stars

#opendata #data #dataanalytics #dataengineering
В рубрике как это устроено у них новый портал данных Международного валютного фонда data.imf.org был открыт совсем недавно.

Из любопытного:
- добавилась публикация данных в форме наборов данных в разделе Datasets [1]
- обновился Data Explorer по данным статпоказателей [2]
- появился сквозной поиск одновременно по датасетам, таблицам, индикаторам и остальным объектам [3]
- появились дашборды (на базе PowerBI) [4]
- появилось новое SDMX API на базе Azure [5]

Из минусов и косяков:
- нет возможности скачать всё и сразу (bulk download), хотя частично это сделано с помощью датасетов в каталоге, но недоделано поскольку самого каталога нет в машиночитаемой форме
- нет данных в современных форматах и вообще экспорт не в CSV
- датасеты опубликованы без схем описания, нет ни Schema.org ни DCAT
- при просмотре временных рядов нельзя создать ссылку на конкретный временной ряд или отфильтрованную визуализацию
- API требует обязательной регистрации

Ссылки:
[1] https://data.imf.org/en/Datasets
[2] https://data.imf.org/en/Data-Explorer
[3] https://data.imf.org/en/Search-Results#q=Oil%20export&t=coveob02de888&sort=relevancy
[4] https://data.imf.org/en/dashboards/dip%20dashboard
[5] https://portal.api.imf.org/

#opendata #datasets #statistics #imf