Ivan Begtin
9.36K subscribers
2.21K photos
4 videos
105 files
4.92K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
Стал недоступен портал документации и отчетности поставщиков Минэкономразвития России (портал управления проектами госпрограммы Информационное общество) aisup.economy.gov.ru [1]. В Интернет архива последняя версия от 7 февраля 2022 года [2].

Мы последний раз архивировали этот сайт 8 лет назад, его копия есть в файловом хранилище Ruarxive и составляет 33ГБ в виде WARC файлов. Напишите, если она вам понадобится.

А если у вас есть более свежие архивные копии материалов этого сайта, присылайте нам, положим их в хранилище и сделаем общедоступными.

Ссылки:
[1] https://aisup.economy.gov.ru
[2] https://web.archive.org/web/20220207104559/https://aisup.economy.gov.ru/pubportal//

#digitalpreservation #webarchives
Подборка полезных ссылок про данные, технологии и не только:
- Wireduck [1] расширение для DuckDB для чтения файлов сохраненного сетевого трафика PCAP. Для тех кто анализирует трафик вручную или автоматически может оказаться очень полезным
- OpenDataEditor v1.4.0 [2] новая версия инструмента для публикации открытых данных от Open Knowledge Foundation. Пока не пробовал, но скоро надо будет посмотреть внимательнее.
- dataframely [3] библиотека для декларативной проверки данных в дата фреймах нативная для Polars. Есть вероятность что будет работать с хорошей производительностью. Уже напрашиваются бенчмарки для библиотек и инструментов валидации фреймов и датасетов.
- Repairing Raw Data Files with TASHEEH [4] статья про инструмент восстановления битых CSV файлов. Это результат работы команды из Hasso-Plattner Institut [5]. Код найти не удалось, хотя пишут что он открыт, скорее всего под эмбарго пока что
- Pollock [6] инструмент и бенчмарк от той же команды из HPI по измерению качества парсинга CSV файлов. Неожиданно и тут лидирует DuckDB. Удивительно что о нём никто не знает. У этой команды много инструментов и практических работ по теме data preparation.

Ссылки:
[1] https://github.com/hyehudai/wireduck
[2] https://blog.okfn.org/2025/04/21/announcement-open-data-editor-1-4-0-version-release/
[3] https://tech.quantco.com/blog/dataframely
[4] https://www.semanticscholar.org/paper/Repairing-Raw-Data-Files-with-TASHEEH-Hameed-Vitagliano/4ec3b2d9e8ef1658bfce12c75e1ad332d4f73665
[5] https://hpi.de/naumann/projects/data-preparation/tasheeh.html
[6] https://github.com/HPI-Information-Systems/Pollock

#opensource #data #datatools #dataengineering
Ещё одна важная находка, оказывается облачные LLM'ки вполне неплохо научились восстанавливать данные из графиков. Причём в разных формах и разных стилях. Это даёт довольно существенные возможности по превращению PDF отчетов и презентаций в таблицы с данными.

Слишком многие данные вот таким образом закопаны в официальных отчётах. А теперь можно их "выковыривать" гораздо более универсальными способами.

#data #datasets #llm
PDF Craft [1] ещё один инструмент с открытым кодом преобразования PDF файлов в разные форматы включая аккуратную разметку и перенос изображений. Может использовать LLM для анализа документа и ускорятся с помощью CUDA.

Русский язык пока не поддерживает [2] потому что языковое распознавание вынесено в отдельную библиотеку OnnxOCR [3] заточенную под английский и китайский языки. Скорее всего другие языки с латинскими буквами тоже будет распознавать, а вот кириллические пока нет.

Интересно ещё что там с распознаванием армянского языка.

Интересная штука даже с текущими ограничениями.

А мне вот нужна, хоть самому пиши, штука которая получив PDF документ извлечёт из него все таблицы, извлечет данные из графиков и запишет всё в приложении к документу. Но таких пока нет и у меня времени не хватит в ближайшие месяцы.

Ссылки:
[1] https://github.com/oomol-lab/pdf-craft
[2] https://github.com/oomol-lab/pdf-craft/issues/145
[3] https://github.com/jingsongliujing/OnnxOCR

#opensource #pdf
Я вначале думал что это первоапрельская шутка, а оказывается совсем нет, мебель с открытым кодом, Hyperwood [1] и это прям реально открытый код на Github [2] спецификация для обмена данными и описания моделей.

На что только люди не находят время и выглядит весьма и весьма неплохо.

Ссылки:
[1] https://hyperwood.org/
[2] https://github.com/jo/hyperwood

#opensource #wood
Команда DBT выложила их State of Analytics Engineering Report 2025 [1] с некоторым числом полезных инсайтов по результатам опроса их пользователей. Тут главное не забывать что analytics engineer не то чтобы зафиксированная профессия, скорее некое предположение что они есть. Но инсайты полезны во многих смыслах того как работают современные дата аналитики и какие продукты создаются.

Ссылки:
[1] https://www.getdbt.com/resources/reports/state-of-analytics-engineering-2025

#analytics #readings #data
Ещё один инструмент построения конвееров данных sql-flow [1] через декларативное описание в конфигурации YAML и SQL запросы.

Внутри DuckDB и Apache Arrow, поддерживаются Kafka, PostgreSQL и другие источники цели для записи.

Выглядит как нечто неплохо спроектированное и описанное.

Для тех кто любит SQL и YAML - самое оно.

Ссылки:
[1] https://github.com/turbolytics/sql-flow

#opensource #datatools #dataengineering
Случился апокалипсис и нет Интернета? В США есть не то чтобы популярное, но заметное движение выживальшиков (preppers) с большим числом товаров и даже специализированными магазинами для них. Один из любопытных продуктов для выживания - это Prepper Disk [1] оффлайновая точка Wi-Fi с диском на 512ГБ или 1ТБ с оффлайн копией Википедии, множества руководств, OpenStreetMap, руководства iFixIt, StackOverflow по выживанию, копия сайта Ready.Gov (агентства FEMA) и многое другое.

Пишут что у них резко выросли продажи [2] на фоне второго прихода Трампа к власти.

Ребята, конечно, молодцы, это один из способов монетизировать усилия по сохранению наиболее ценного контента.

Кроме них ещё есть похожий проект Internet-in-a-box [3], значительно дешевле и для развивающихся стран с акцентом на школы. Там внутри Kiwix и много контента из проектов фонда Wikimedia.

Ссылки:
[1] https://www.prepperdisk.com
[2] https://www.404media.co/sales-of-hard-drives-prepper-disk-for-the-end-of-the-world-have-boomed-under-trump/
[3] https://internet-in-a-box.org/

#digitalpreservation
Похоже что с РГБ случилась какая-то катастрофа, все их цифровые ресурсы недоступны и пишут что неизвестно когда восстановят https://t.me/leninka_ru/5986.

В РГБ и конкретно в НЭБ было немало цифрового контента, полезного как для историков, так и ценного для создания исторических наборов данных, да и просто для всех кто интересовался историей не только России, но и всего наследия РИ и СССР.

Наша команда Национального цифрового архива @ruarxive никогда ресурсы РГБ не архивировала исходя из их максимальной сохранности. Не было признаков что материалы оттуда могут быть удалены. Но вот что-то случилось, непонятно проблемы с оборудованием или работа хакеров и много неопределённости и недоступные ресурсы. Если их в итоге восстановят, то будем архивировать как минимум НЭБ.

P.S. Пишут что в здании РГБ был пожар и данные в целостности.

#digitalpreservation
Прекрасно справляются LLM'ки с анализом идентификаторов. Вот результаты Deep Research через Perplexity по промпту

В государственном реестре у телеграм канала https://t.me/government_rus указан код 676aa1e71e4e233a71743076, а также
- у телеграм канала
https://t.me/webstrangler код 6726c91f4821646949597aa1
- у телеграм канала
https://t.me/bloodysx код 677fd08c4de6c368456d0b5f

Проанализируй по какому алгоритму могли быть созданы эти коды


Полную декомпозицию получить не удалось, потому что примеров пока маловато, а может быть там действительно рандомные значения.

В задачах OSINT анализ идентификаторов требуется часто. Но нужен он ещё и в задачах анализа данных в контексте дисциплины data understanding.

#llm #ai #research #identifiers