Ivan Begtin
9.33K subscribers
2.11K photos
3 videos
103 files
4.84K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
Про Apache Iceberg как всё более нарастающий технологический тренд в дата инженерии, ещё в декабре 2024 года Amazon добавили его поддержку в S3, а сейчас появляется всё больше число инструментов поддерживающих подключение к Apache Iceberg.

Даже удивительно как технология которой уже более 8 лет может стремительно набрать популярность при достижении определённого уровня зрелости и появлении эффективных инструментов.

Что важно знать про Apache Iceberg:
1. Это стандарт и ПО для построения озер данных созданный для преодоления ограничений предыдущих продуктов со схожими функциями такими как Apache Hudi
2. В основе Apache Iceberg технологии хранения на базе S3 и файлы Parquet. Parquet используется как контейнеры хранения данных, а S3 как хранилище данных и метаданных
3. Фундаментальная идея в реализации недорого хранилища для аналитических данных с высокопроизводительным доступом через SQL.
4. Важная причина роста популярности в комбинации: производительности, снижения стоимости и большой экосистемы из движком для запросов (query engines)
5. Серверных продуктов с открытым кодом для Apache Iceberg пока немного, кроме самой референсной реализации есть Nessie и Lakekeeper. Но много облачных провайдеров которые поддерживают такие таблицы.
6. Большая часть примеров сейчас про облачные S3 хранилища, в основном AWS. Для подключения S3 совместимых хранилищ требуется повозится
7. Применять Apache Iceberg оправдано когда у вас есть команда аналитиков умеющих в SQL и совсем неоправдано для не умеющих
8. К задачам связанным с открытыми данными этот тип дата каталога малоприменим потому что он про удобное рабочее место для продвинутого аналитика, а не про дистрибуцию данных.
9. Вообще такие продукты - это про разницу между каталогами данных, каталогами метаданных, каталогами открытых данных. Названия выглядят так словно отличий мало, а отличия огромны. Как и области применения.

#opensource #dataengineering #dataanalytics #iceberg
Полезные ссылки про данные, технологии и не только:
- Cloudflare R2 data catalog [1] свежий каталог данных на базе Apache Iceberg от Cloudflare поверх их сервиса хранения файлов R2. Хорошая новость, потому что R2 дешевле Amazon S3 при сравнимом качестве сервиса. Жду когда Backblaze запустит аналогичный сервис для их Backblaze B2
- xorq [2] читается как zork, фреймворк для обработки данных с помощью разных движков. Там и DuckDB, и Pandas, и DataFusion и др. Удобство в универсальности, но продукт пока малоизвестный, надо смотреть
- Iceberg?? Give it a REST! [3] автор рассуждает о том что без REST каталога Iceberg малополезен и, в принципе, про развитие этой экосистемы. Многие уже рассматривают стремительный взлёт Iceberg как хайп, что не отменяет того что технология весьма любопытная.
- BI is dead. Change my mind. [4] текст от Engeneering director в Clickhouse о том как меняется (может поменяться) BI в ближайшее время. TLDR: LLM + MCP + LibreChat. Чтение полезное для всех кто занимается внутренней аналитикой и использует Clickhouse
- Roadmap: Data 3.0 in the Lakehouse Era [5] изменения в экосистеме управления данными с точки зрения венчурного капитала. Простым языком для тех кто инвестирует средства в то какие новые технологии в дата инженерии появились и развиваются.

Ссылки:
[1] https://blog.cloudflare.com/r2-data-catalog-public-beta/
[2] https://github.com/xorq-labs/xorq
[3] https://roundup.getdbt.com/p/iceberg-give-it-a-rest
[4] https://www.linkedin.com/pulse/bi-dead-change-my-mind-dmitry-pavlov-2otae/
[5] https://www.bvp.com/atlas/roadmap-data-3-0-in-the-lakehouse-era

#opensource #dataanalytics #datatools #dataengineering
По поводу каталогов данных на базы Apache Iceberg, я не поленился и развернул один на базе Cloudflare R2 о котором писал ранее и могу сказать что всё прекрасно работает, с некоторыми оговорками конечно:

- каталог в Cloudflare R2 настраивается очень просто, без танцев с бубном, но требует ввода карты даже если не надо платить (на бесплатном тарифе в R2 можно хранить до 10GB и бесплатный исходящий трафик). Фактически там просто одна галочка которую надо включить
- подключение к pyIceberg также крайне простое, и в части загрузки данных, и в части запросов к ним. Для всего есть примеры
- а вот для прямого подключения DuckDB к этому каталогу танцы с бубном явно понадобятся, потому что в документации нет ничего про R2, примеры только с Amazon S3 Tables и Amazon Glue, скорее всего всё вскоре появится, но пока ничего нет.
- не заработало передача параметров фильтрации в функции table.scan, что решается последующим запросом к не фильтрованным записям, но при фильтрации требует очень много памяти;
- какие-либо UI для каталогов Apache Iceberg пока отсутствуют. Вернее есть встроенные инструменты в облачных сервисах и возможность посмотреть на загруженное в open source каталогах типа Nessie и Lakehouse, но всё это встроенные интерфейсы. Явно напрашивается UI для Iceberg browser и доступ к таблицам из веб интерфейса через DuckDB WASM к примеру.
- спецификация предусматривает возможность задания метаданных таблицам и пространствам имён, но у меня это не сработало. Впрочем я бы метаданные по пространствам имён хранил бы отдельно. Как то это логичнее
- хотя UI для каталога нет, но UI для доступа к данным в нём можно обеспечить через UI к DuckDB. Хотя для DuckDB нет пока инструкций для подключения к R2, но есть примеры прямого чтения метаданных по файлу манифеста в JSON
- есть ощущение что для работы с Iceberg и подобными таблицами напрашивается кеширующий клиент. Собственно я не первый и не один кто об этом думает.

В целом выглядит перспективно как долгосрочная технология, но ещё много что требует оптимизации и инструментарий только на стадии становления.

#datatools #data #dataengineering #dataanalytics
Полезные ссылки про данные, технологии и не только:
- vanna [1] движок с открытым кодом по генерации SQL запросов к СУБД на основе промптов. Относится к классу продуктов text-to-sql. Поддерживает много видом LLM и много баз данных. Выглядит многообещающие и его есть куда применить. Лицензия MIT.
- Boring Data [2] готовые шаблоны для Terraform для развёртывания своего стека данных. А я даже не думал что это может быть чем-то большим чем консультации, а оказывается тут просто таки автоматизированный сервис с немалым ценником.
- Understanding beneficial ownership data use [3] отчет о том как используются данные о бенефициарных собственниках компании, от Open Ownership. Пример того как делать исследования аудитории по большим общедоступным значимым базам данных / наборам данных.
- Дашборд по качеству данных в opendata.swiss [4] а ещё точнее по качеству метаданных, этим многие озадачены кто создавал большие каталоги данных.
- Open Data in D: Perfekte Idee, halbherzige Umsetzung? Ein Erfahrungsbericht. [5] выступление с рассказом о состоянии доступа к геоданным в Германии с конференции FOSSIG Munster. Всё на немецком, но всё понятно😜 там же презентации. TLDR: все геоданные в Германии доступны, но не во всех территориях одинаково. Можно только позавидовать
- Legal frictions for data openness [6] инсайты из 41 юридического случая проблем с использованием открытых данных для обучения ИИ.

Ссылки:
[1] https://github.com/vanna-ai/vanna
[2] https://www.boringdata.io/
[3] https://www.openownership.org/en/publications/understanding-beneficial-ownership-data-use/
[4] https://dashboard.opendata.swiss/fr/
[5] https://pretalx.com/fossgis2025/talk/XBXSVJ/
[6] https://ok.hypotheses.org/files/2025/03/Legal-frictions-for-data-openness-open-web-and-AI-RC-2025-final.pdf

#opendata #data #dataengineering #readings #ai #dataquality #geodata
Любопытный проект Local deep research [1] локальный privacy-first инструмент для постановки заданий LLM для комплексных исследований. По аналогии с режимами deep research в OpenAI, Perplexity и других облачных прдуктах.

Описание очень симпатично и кажется практичным, но лично у меня с первой попытки не завелось, исследования по темам Recent development in CSV files analysis и Recent development in automatic data analysis не принесли никаких результатов.

Наверняка дело в настройках, но, как бы, из коробки не заработало. Тем не менее, несомненно, инструмент интересный.

Впрочем это не единственный инструмент, есть ещё deep-searcher [2] который тоже умеет искать с использованием разных моделей и возвращать результаты локально.

Ссылки:
[1] https://github.com/LearningCircuit/local-deep-research
[2] https://github.com/zilliztech/deep-searcher

#opensource #ai #research #analytics
Ivan Begtin
Любопытный проект Local deep research [1] локальный privacy-first инструмент для постановки заданий LLM для комплексных исследований. По аналогии с режимами deep research в OpenAI, Perplexity и других облачных прдуктах. Описание очень симпатично и кажется…
Про состояние открытости данных в России, краткая сводка на сегодня 16 апреля 2025 г.

Негативное
- федеральный портал data.gov.ru так и не [пере]запущен и недоступен уже несколько много лет.
- портал статистики ЕМИСС fedstat.ru де-факто заморожен в любом развитии, многие показатели удалены, другие не обновляются. Публикуемые открытые данные неполны. Каких либо изменений в функциональности нет с момента его запуска.
- портал криминальной статистики crimestat.ru не обновляется с начала 2022 года
- портал данных Минкультуры России opendata.mkrf.ru не обновляется кроме ряда наборов данных, при выгрузке крупнейших датасетов выдаёт ошибку
- большинство порталов открытых данных субъектов федерации ФОИВов не обновлялись более 6 лет и содержат устаревшие и бесполезные наборы административных данных малого объёма
- госполитика поощрения раскрытия данных научных исследований отсутствует
- госполитика публикации открытых геопространственных данных отсутствует, почти все наборы геоданных имеют те или иные ограничения (не свободны)

Нейтральное
- идут разговоры на государственном уровне про публикацию датасетов для AI продолжаются, есть вероятность что хотя бы часть из них будут общедоступны
- наборы данных созданные исследователями из РФ продолжают публиковаться на платформах Kaggle, Hugging Face, Github и др. На сегодняшний день государственная политика по запрету этого не введена.

Позитивное
- Банк России начал публиковать многие из своих таблиц/датасетов в форматах доступных через REST API
- ФНС России продолжает публиковать и обновлять данные у себя на сайте www.nalog.gov.ru как старые датасеты, так и публикуют новые данные. Не всегда в разделе открытых данных, иногда в форме страниц с недокументированным API

#opendata #stateofopendata
Про состояние открытости данных в Армении, ещё более краткая сводка😜 на сегодня 16 апреля 2025 г.

Негативное
- Правительство Армении не публикует никаких открытых данных, не имеет таких обязательств и даже не прописало их публикацию в обещаниях в рамках Open Government Partnership, в отличие от других стран участников.
- внутренний спрос на доступность госданных очень невысок, требуется много усилий на раскачку сообщества

Нейтральная
- многие данные доступны на сайтах, требуется их парсинг и описание. Многое не публикуется не из-за политики закрытости, а по бедности, нет ресурсов и явного нет запроса.

Позитивное
- данные публикует сообщество, конкретно наше Open Data Armenia (opendata.am и ТГ канал @opendataam)

#opendata #stateofopendata #armenia
В рубрике интересных порталов открытых данных, свежий портал открытых данных Министерства образования Франции [1]. Сделан на базе облачного ПО OpenDataSoft и предоставляет 242 набора данных по темам образования, спорта и молодёжи.

У французской компании OpenDataSoft очень неплохой продукт каталога данных который довольно популярен на субнациональном уровне во Франции и ряде других стран, в основном ЕС. В последние версии они туда добавили новые функции такие как анализ данных и отображение их карте и в других форматах.

Например, календарь министра национального образования [2] или отображение справочника школ на карте [3], но, конечно, самое главное - это продвинутое API и экспорт данных в разных форматах: CSV, JSON, Excel, Parquet и ещё 5 форматов для геоданных.

У OpenDataSoft в итоге очень хороший прогресс с их публичными каталогами данных. Я бы их порекламировал, но в РФ их каталог неприменим, а, к примеру, для Армении слишком дорог для общественных проектов.

При всей хорошей организации их каталога, при этом, отмечу что самое большое число датасетов в них которое я видел было около 40 тысяч наборов данных. Для сравнения в CKAN есть каталоги на 1+ миллионов датасетов. Поэтому качество не значит масштаб, а масштаб не равен качеству.

Тем не менее можно увидеть как теперь публикует данные Минобразования Франции.

Ссылки:
[1] https://data.education.gouv.fr
[2] https://data.education.gouv.fr/explore/dataset/fr-en-agenda-ministre-education-nationale/calendar/?disjunctive.uid&sort=dtstart&calendarview=month
[3] https://data.education.gouv.fr/explore/dataset/fr-en-annuaire-education/map/?disjunctive.type_etablissement&disjunctive.libelle_academie&disjunctive.libelle_region&disjunctive.ministere_tutelle&disjunctive.appartenance_education_prioritaire&disjunctive.nom_commune&disjunctive.code_postal&disjunctive.code_departement&location=9,45.88427,3.1723&basemap=jawg.streets

#opendata #education #france #datasets #data #datacatalogs
Я как фанат инструментов самоорганизации на днях попробовал Notion Mail [1] AI ассистент для почтового ящика поверх почты Google, свежий продукт от команды Notion. Что могу сказать, многое неплохо, многое очень разумно сделано, например, авто разметка тегами (auto-labeling) и автоматизация создания групп для подобных писем. Это очень даже очень хорошо, но не киллер фича.

Эх, привлекли бы меня как консультанта мне много что есть сказать про AI ассистентов/ассистентов по самоорганизации.

Я когда-то давно писал про некоторые мысли в этом направлении. Сейчас вспомню не все, но две идеи являются ключевыми:
1. Письмо=задача. Если ты получил письмо, у тебя появилась задача с ним что-то сделать. Прочитать, ответить,не отвечать и кинуть в спам. В любом случае это от микро до макро задачи
2. Гибкий контекст. Это такая сложная штука для понимания разработчиков email клиентов. Они все считают что можно сделать универсальный интерфейс и не понимают высокой вариативности моделей использования в зависимости от контекста. Например, я живу по принципу zero inbox. И то что у меня сейчас в Inbox'е накопилось более 800 писем создаёт существенный дискомфорт. Мне важно автоматизировать очистку Inbox'а максимально удобно и быстро. У других пользователей другие сценарии и модели. Контекст должен быть гибок, хотя бы 2-3 шаблона.

А Notion Mail пока скорее выглядит как бэта и, из минусов, безбожно тормозит и грузит браузер.

Ссылки:
[1] https://www.notion.com/product/mail

#email #productivity #reviews
Оказывается Фонд Викимедиа относительно недавно, ещё в 2022 году создал Wikimedia Enterprise [1] отдельную компанию предоставляющую современные API корпоративного уровня (modern enterprise-grade APIs) для Википедии и других их проектов.

Обещают 850+ наборов данных, 100+ миллионов страниц.

А теперь ещё и договорились с Google о выкладывании на Kaggle снэпшотов [2].

Сейчас их датасет представлен в виде 54 JSONL файлов англоязычной и франкоязычной вики и составляет [3] 113 гигабайт

Ссылки:
[1] https://enterprise.wikimedia.com/
[2] https://enterprise.wikimedia.com/blog/kaggle-dataset/
[3] https://www.kaggle.com/datasets/wikimedia-foundation/wikipedia-structured-contents/data

#opendata #datasets #wikipedia #api
Forwarded from Нецифровая экономика (Илья Склюев)
Горячая тема сегодня обсуждалась на Data Fusion: где же тот самый злополучный datalake, и как нам развить рынок больших данных в РФ?

Президент «Ассоциации больших данных» Анна Серебряникова констатировала, что открытый рынок данных в РФ не сформировался, и все остальные направления прошли в основном по «базовому сценарию», несмотря на надежды бизнеса. Как видно из её слайда ☝️, единственная область, в которой выполнены цели развитие рынка big data — это монетизация. В 2024 году он достиг 320 млрд руб. А вот в части обмена данными и выхода на внешние рынки, проекты либо только начаты, либо приостановлены.

Сейчас в Ассоциации разрабатывают новую стратегию развития до 2030 года и призывают государство к более активному вмешательству: правительство должно быть регулятором не только контролирующим, но и стимулирующим. Иначе у России есть риск серьёзно отстать от США и Китая, которые все проблемы на своей стороне решили.

📍 Сейчас же регуляторные рамки мешают открытости данных. У телеком операторов — тайна связи, у финансовых организаций — банковская тайна, заметил Вадим Кулик, зампредправления ВТБ. С прошлого года также появились оборотные штрафы за утечку персональных данных: всё это создаёт негативные стимулы для рынка.

Вчера говорили про биржу данных, которая уже есть в Китае. Значит, этот путь рабочий, но пока закрытый из-за регуляторных вызовов. При этом пилотные проекты, вроде работы с Open API от ЦБ, приводят лишь к развитию новых продуктов в экосистемах. Например, когда у некоторых банков появилась возможность показывать в одном интерфейсе несколько счетов, это создало для них риски потери клиентов.

Отвечают на это соответственно: скоро на таких «витринах» у каждого банка появятся свои «антисоветчики»: они будут рассказывать, почему не нужно совершать покупку через другой банк, советовать выгодные предложения. Вот тебе и ещё одно применение ИИ. Но, опять же, это не путь к обмену данными.

✔️ Министр цифры Максут Шадаев отметил, что в России первоначальный период накопления капитала данных уже прошёл. Россия цифровизировалась, теперь настало время повысить эффективность использования уже собранной информации. Каждый работает с данными по разному, гармонизация не проведена.

Есть соблазн собрать все данные в одном месте, но это риск с точки зрения кибербезопасности. Поэтому формат «витрин», когда данные хранятся в ведомствах, а в приложении только отображаются, удобнее. Задача Госуслуг — к 2026 году отказаться от хранения любой информации, чтобы данные подгружались из баз ведомств. Ну и, естественно, властям интересны данные бизнеса.

А что касается инициатив про биржи данных... Шадаев отметил, что здесь, как и с ИИ, увлечение регуляторикой может иметь свои минусы. Пусть лучше бизнес самоорганизуется и принесёт свои предложения — например, на ЦИПР. Хочется от общих вещей перейти к конкретным проектам, понимать, что можно сделать.

🔤🔤Буквально вчера видели прекрасный пост о том, как обстоят дела с открытостью данных в России. Если кратко: со стороны государства стимулов к развитию индустрии фактически нет. Дата-сеты публикует и обновляет в основном ЦБ и ФНС. В феврале представитель аппарата вице-премьера Дмитрия Григоренко сообщил, что собранные властями данные будут передавать для обучения ИИ, но о практических результатах этого пока не слышно.

Конкретных действий мало, а те что есть ограничиваются взаимодействием властей и крупного финтех-бизнеса. Обсуждения сценариев выхода из этого тупика идут — даже сегодня после пленарки об этом с нервным смешком вновь заговорили на тематической дискуссии «Нужна ли России национальная биржа данных?». Но кажется, что всё упирается в регуляторику: кроме открытых данных государства на биржу пока ничего не положить.
Please open Telegram to view this post
VIEW IN TELEGRAM
У меня много рефлексии по поводу всего что я слышал, читал и видел в записи с прошедшей в России конфы Data Fusion. Ещё несколько лет я зарёкся слишком много думать про госполитику в работе с данными в РФ и вместо этого пишу в жанре "как это работает у них" для понимания того как это не работает в РФ, но сказать могу об этом многое, наверное даже слишком многое.

Ключевая мысль которую не грех повторить в том что в РФ не западная (точно не европейская) и не китайская модели работы с рынком данных и цифровыми рынками в целом. Я опишу это всё своими словами, как можно проще, без юридических тонкостей.

Западная, особенно европейская, основана на:
- открытости данных/знаний как базовой ценности для всех данных относимым к общественному благу
- развитии и расширении прав пользователей в управлении данными - крайняя форма это европейский GDPR
- поощрение отраслевого обмена данными через кооперационные механизмы с участием государства и государствами поддерживаемая
- поощрению открытости в областях связанных с общественными интересами (развитие принципов открытой науки, прямая поддержка проектов с открытым кодом и данными)

Китайская модель
основана на:
- безусловной доминанте государственных интересов над правами граждан на работу с их данными и интересами бизнеса
- приоритет экономики и интересов бизнеса над правами граждан на работу с их данными
- сильный фокус на обмен данными в научных исследованиях (как следствие госполитики развития науки) и открытости науки

Российская модель имеет некоторые сходства, но не похожа ни на одну из перечисленных:
- госполитика открытости де-факто приостановлена более 10 лет назад, с отдельными исключениями. До этого в течение 3-4 лет она была ближе к западной модели
- декларируемое расширение защиты данных граждан без расширения прав граждан на защиту. Это звучит странно, но имеет простую расшифровку. Вместо усиления юридической защиты граждан идёт усиление регуляторов в отношении организаций которые работают с персональными данными.
- отсутствие госполитики поддержки принципов открытой науки и поддержки проектов с открытым кодом и данными)
- приоритет принципов патернализма и контроля в цифровой сфере с нарастающим усилением давления на цифровой бизнес

Ключевое в российской госполитике - это патернализм и контроль. Поэтому гос-во столь активно стремится получить доступ к данным бизнеса и поэтому же столь тормозятся или не стартуют все инициативы по предоставлению данных из государственных информационных систем.

Специально всё это описываю безэмоционально и безоценочно, просто как описание контекста.

#opendata #data #regulation #russia
Свежая модель o3 от OpenAI умеет неплохо в местоположение по фотографии, угадывает с большой точностью не всё, но многое. Для OSINT бесценный инструмент.

Думаю что загрузив несколько фотографий из одного места можно получить ещё более точный результат, пока не проверял.

Но что важно это то что результат зависит от языка запроса. Один и тот же вопрос на русском и на армянском языках даёт разные результаты, пересекающиеся, но... разные.


#ai #photo #tools #osint
Internet Archive разместили петицию на Change.org с призывом отменить $700 миллионный иск звукозаписывающих компаний который угрожает существованию Интернет архива. За сутки они собрали уже более 17 тысяч подписей. Иску угрожает полностью обанкротить Интернет архив и лишить пользователей не только звукового архива, но и архива сайтов и иных оцифрованных и цифровых коллекций.

Коллекции Интернет архива бесценны - это сайты, видео, аудио, книги, данные и многое другое. Потерять его будет большой катастрофой.

#internetarchive
В рубрике как это устроено у них проект bustimes.org с расписаниями автобусов в Великобритании и картой их движения в реальном времени. Автор обрабатывает данные из примерно десятка источников, геокодировал все остановки и позволяет спланировать поезки и найти сайты и контакты перевозчиков.

Пример проект на открытых данных, преимущественно используя открытые API транспортных служб Великобритании.

Такого нехватает для многих стран, хотя бы для региональных поездок.

Неидеальный, но открытый и полезный продукт. Жаль что там только Великобритания.

#opendata #transport #uk