Ivan Begtin
9.37K subscribers
2.17K photos
4 videos
104 files
4.89K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
Ещё одна важная находка, оказывается облачные LLM'ки вполне неплохо научились восстанавливать данные из графиков. Причём в разных формах и разных стилях. Это даёт довольно существенные возможности по превращению PDF отчетов и презентаций в таблицы с данными.

Слишком многие данные вот таким образом закопаны в официальных отчётах. А теперь можно их "выковыривать" гораздо более универсальными способами.

#data #datasets #llm
PDF Craft [1] ещё один инструмент с открытым кодом преобразования PDF файлов в разные форматы включая аккуратную разметку и перенос изображений. Может использовать LLM для анализа документа и ускорятся с помощью CUDA.

Русский язык пока не поддерживает [2] потому что языковое распознавание вынесено в отдельную библиотеку OnnxOCR [3] заточенную под английский и китайский языки. Скорее всего другие языки с латинскими буквами тоже будет распознавать, а вот кириллические пока нет.

Интересно ещё что там с распознаванием армянского языка.

Интересная штука даже с текущими ограничениями.

А мне вот нужна, хоть самому пиши, штука которая получив PDF документ извлечёт из него все таблицы, извлечет данные из графиков и запишет всё в приложении к документу. Но таких пока нет и у меня времени не хватит в ближайшие месяцы.

Ссылки:
[1] https://github.com/oomol-lab/pdf-craft
[2] https://github.com/oomol-lab/pdf-craft/issues/145
[3] https://github.com/jingsongliujing/OnnxOCR

#opensource #pdf
Я вначале думал что это первоапрельская шутка, а оказывается совсем нет, мебель с открытым кодом, Hyperwood [1] и это прям реально открытый код на Github [2] спецификация для обмена данными и описания моделей.

На что только люди не находят время и выглядит весьма и весьма неплохо.

Ссылки:
[1] https://hyperwood.org/
[2] https://github.com/jo/hyperwood

#opensource #wood
Команда DBT выложила их State of Analytics Engineering Report 2025 [1] с некоторым числом полезных инсайтов по результатам опроса их пользователей. Тут главное не забывать что analytics engineer не то чтобы зафиксированная профессия, скорее некое предположение что они есть. Но инсайты полезны во многих смыслах того как работают современные дата аналитики и какие продукты создаются.

Ссылки:
[1] https://www.getdbt.com/resources/reports/state-of-analytics-engineering-2025

#analytics #readings #data
Ещё один инструмент построения конвееров данных sql-flow [1] через декларативное описание в конфигурации YAML и SQL запросы.

Внутри DuckDB и Apache Arrow, поддерживаются Kafka, PostgreSQL и другие источники цели для записи.

Выглядит как нечто неплохо спроектированное и описанное.

Для тех кто любит SQL и YAML - самое оно.

Ссылки:
[1] https://github.com/turbolytics/sql-flow

#opensource #datatools #dataengineering
Случился апокалипсис и нет Интернета? В США есть не то чтобы популярное, но заметное движение выживальшиков (preppers) с большим числом товаров и даже специализированными магазинами для них. Один из любопытных продуктов для выживания - это Prepper Disk [1] оффлайновая точка Wi-Fi с диском на 512ГБ или 1ТБ с оффлайн копией Википедии, множества руководств, OpenStreetMap, руководства iFixIt, StackOverflow по выживанию, копия сайта Ready.Gov (агентства FEMA) и многое другое.

Пишут что у них резко выросли продажи [2] на фоне второго прихода Трампа к власти.

Ребята, конечно, молодцы, это один из способов монетизировать усилия по сохранению наиболее ценного контента.

Кроме них ещё есть похожий проект Internet-in-a-box [3], значительно дешевле и для развивающихся стран с акцентом на школы. Там внутри Kiwix и много контента из проектов фонда Wikimedia.

Ссылки:
[1] https://www.prepperdisk.com
[2] https://www.404media.co/sales-of-hard-drives-prepper-disk-for-the-end-of-the-world-have-boomed-under-trump/
[3] https://internet-in-a-box.org/

#digitalpreservation
Похоже что с РГБ случилась какая-то катастрофа, все их цифровые ресурсы недоступны и пишут что неизвестно когда восстановят https://t.me/leninka_ru/5986.

В РГБ и конкретно в НЭБ было немало цифрового контента, полезного как для историков, так и ценного для создания исторических наборов данных, да и просто для всех кто интересовался историей не только России, но и всего наследия РИ и СССР.

Наша команда Национального цифрового архива @ruarxive никогда ресурсы РГБ не архивировала исходя из их максимальной сохранности. Не было признаков что материалы оттуда могут быть удалены. Но вот что-то случилось, непонятно проблемы с оборудованием или работа хакеров и много неопределённости и недоступные ресурсы. Если их в итоге восстановят, то будем архивировать как минимум НЭБ.

P.S. Пишут что в здании РГБ был пожар и данные в целостности.

#digitalpreservation
Прекрасно справляются LLM'ки с анализом идентификаторов. Вот результаты Deep Research через Perplexity по промпту

В государственном реестре у телеграм канала https://t.me/government_rus указан код 676aa1e71e4e233a71743076, а также
- у телеграм канала
https://t.me/webstrangler код 6726c91f4821646949597aa1
- у телеграм канала
https://t.me/bloodysx код 677fd08c4de6c368456d0b5f

Проанализируй по какому алгоритму могли быть созданы эти коды


Полную декомпозицию получить не удалось, потому что примеров пока маловато, а может быть там действительно рандомные значения.

В задачах OSINT анализ идентификаторов требуется часто. Но нужен он ещё и в задачах анализа данных в контексте дисциплины data understanding.

#llm #ai #research #identifiers
В рубрике интересных наборов данных и проектов на данных HydroSheds [1] включающий наборы геоданных со всеми озёрами, реками, речными бассейнами, речной сетью, побережью озёр и так далее. Множество датасетов в форматах GDP и SHP и общим объёмом в несколько десятков, может быть, более 100ГБ сжатом виде.

Создан и распространяется World Wildlife Fund US под свободной лицензией для любых способов использования.

Ссылки:
[1] https://www.hydrosheds.org

#opendata #geodata #hydrology #openaccess