Ivan Begtin

Ещё один инструмент построения конвееров данных sql-flow [1] через декларативное описание в конфигурации YAML и SQL запросы.

Внутри DuckDB и Apache Arrow, поддерживаются Kafka, PostgreSQL и другие источники цели для записи.

Выглядит как нечто неплохо спроектированное и описанное.

Для тех кто любит SQL и YAML - самое оно.

Ссылки:
[1] https://github.com/turbolytics/sql-flow

#opensource #datatools #dataengineering

1.8K viewsIvan Begtin, 19:27

Ivan Begtin

Случился апокалипсис и нет Интернета? В США есть не то чтобы популярное, но заметное движение выживальшиков (preppers) с большим числом товаров и даже специализированными магазинами для них. Один из любопытных продуктов для выживания - это Prepper Disk [1] оффлайновая точка Wi-Fi с диском на 512ГБ или 1ТБ с оффлайн копией Википедии, множества руководств, OpenStreetMap, руководства iFixIt, StackOverflow по выживанию, копия сайта Ready.Gov (агентства FEMA) и многое другое.

Пишут что у них резко выросли продажи [2] на фоне второго прихода Трампа к власти.

Ребята, конечно, молодцы, это один из способов монетизировать усилия по сохранению наиболее ценного контента.

Кроме них ещё есть похожий проект Internet-in-a-box [3], значительно дешевле и для развивающихся стран с акцентом на школы. Там внутри Kiwix и много контента из проектов фонда Wikimedia.

Ссылки:
[1] https://www.prepperdisk.com
[2] https://www.404media.co/sales-of-hard-drives-prepper-disk-for-the-end-of-the-world-have-boomed-under-trump/
[3] https://internet-in-a-box.org/

#digitalpreservation

1.7K viewsIvan Begtin, 04:58

Ivan Begtin

Похоже что с РГБ случилась какая-то катастрофа, все их цифровые ресурсы недоступны и пишут что неизвестно когда восстановят https://t.me/leninka_ru/5986.

В РГБ и конкретно в НЭБ было немало цифрового контента, полезного как для историков, так и ценного для создания исторических наборов данных, да и просто для всех кто интересовался историей не только России, но и всего наследия РИ и СССР.

Наша команда Национального цифрового архива @ruarxive никогда ресурсы РГБ не архивировала исходя из их максимальной сохранности. Не было признаков что материалы оттуда могут быть удалены. Но вот что-то случилось, непонятно проблемы с оборудованием или работа хакеров и много неопределённости и недоступные ресурсы. Если их в итоге восстановят, то будем архивировать как минимум НЭБ.

P.S. Пишут что в здании РГБ был пожар и данные в целостности.

#digitalpreservation

Российская государственная библиотека (Ленинка)

⚠️ Уважаемые читатели!
С 28 апреля и до отдельного объявления в связи с техническими проблемами будут недоступны:

- сайт РГБ,
- электронная библиотека РГБ, поиск по электронному каталогу и электронным ресурсам,
- электронный заказ документов,
- удаленный…

1.6K viewsIvan Begtin, edited 05:52

Ivan Begtin

Прекрасно справляются LLM'ки с анализом идентификаторов. Вот результаты Deep Research через Perplexity по промпту
—
В государственном реестре у телеграм канала https://t.me/government_rus указан код 676aa1e71e4e233a71743076, а также
- у телеграм канала https://t.me/webstrangler код 6726c91f4821646949597aa1
- у телеграм канала https://t.me/bloodysx код 677fd08c4de6c368456d0b5f

Проанализируй по какому алгоритму могли быть созданы эти коды
—
Полную декомпозицию получить не удалось, потому что примеров пока маловато, а может быть там действительно рандомные значения.

В задачах OSINT анализ идентификаторов требуется часто. Но нужен он ещё и в задачах анализа данных в контексте дисциплины data understanding.

#llm #ai #research #identifiers

1.3K viewsIvan Begtin, edited 08:37

Ivan Begtin

1.3K viewsIvan Begtin, 08:37

Ivan Begtin

Анализ_алгоритма_генерации_кодов_Telegram_каналов.pdf

483.2 KB

1.3K viewsIvan Begtin, 08:37

Ivan Begtin

В рубрике интересных наборов данных и проектов на данных HydroSheds [1] включающий наборы геоданных со всеми озёрами, реками, речными бассейнами, речной сетью, побережью озёр и так далее. Множество датасетов в форматах GDP и SHP и общим объёмом в несколько десятков, может быть, более 100ГБ сжатом виде.

Создан и распространяется World Wildlife Fund US под свободной лицензией для любых способов использования.

Ссылки:
[1] https://www.hydrosheds.org

#opendata #geodata #hydrology #openaccess

1.4K viewsIvan Begtin, 09:36

Ivan Begtin

Государство как API становится доктриной когда к власти приходят предприниматели вроде Илона Маска. DOGE, Департамент по государственной эффективности, выложили API [1] по доступу к данным госконтрактов, грантов и иных госрасходов. Оно доступно в виде спецификации OpenAPI [2] и к нему уже неофициальный инструмент по получению данных в CSV [3]

А совсем недавно была информация о том что Palantir помогает налоговой службе США по созданию "мега API" [4] для работы с налоговыми данными.

С инженерной точки зрения кому-то очень повезло поработать над большим интересным технически сложным проектом на данных, а с человеческой, больше интеграции госданных = больше полицейского гос-ва.

Хорошо или плохо странам где технократы не смогут прийти к власти ?

Ссылки:
[1] https://winbuzzer.com/2025/04/27/new-doge-api-download-tool-lets-you-save-and-analyze-government-spending-data-in-excel-xcxwbn/
[2] https://api.doge.gov/docs#/
[3] https://dogedownloadtool.pages.dev/
[4] https://www.wired.com/story/palantir-doge-irs-mega-api-data/

#opendata #api #usa #government #spending

1.1K viewsIvan Begtin, 14:03

Ivan Begtin

Кстати, я вот всё никак не соберусь написать про эксперименты с Яндекс.Нейроэксперт [1]. Вначале хотел написать весьма критично, потому что недостатков много:
- нет открытого API, невозможно автоматически подключиться
- загрузка файлов непрозрачна, ты как бы отправляешь файл и ждёшь непонимания в какой стадии файл находится
- ограничение в 25 файлов маловато

Но, потом, сравнивая с ChatGPT и Perplexity где тоже можно создавать пространства с документами, моё мнение несколько переменилось.

У Нейроэксперта выявилось две очень важные характеристики.
1. Он умеет прожёвывать файлы сканов условно большого размера. Дореволюционные книжки без текстового слоя, со старой орфографией. Грузил туда файлы по 80-100МБ и, хоть и неудобно, но несколько загрузить удалось.
2. По текстам этих книжек он умеет строить временные ряды. Так по книгам старых статистических справочников он по наводящим вопросам выдал временные ряды в виде CSV файла по нескольким таблицам

Для сравнения ChatGPT не смог распознать такие сканы, а Perplexity не поддерживает загрузку файлов более 25МБ (по числу файлов там ограничений нет).

Если команда Нейроэксперта его "детские болезни" полечит он станет бесценным инструментом для работы с историческими документами. Примеры пока не привожу, это тема отдельного поста.

Ссылки:
[1] https://expert.ya.ru/expert

#ai #aitools #digitalhumanities

1.7K viewsIvan Begtin, 17:39

Ivan Begtin

Forwarded from Национальный цифровой архив

У CommonCrawl, некоммерческого проекта поискового индекса Интернета, появился новый набор данных cc-host-index [1].

В новом индексе хостов есть одна строка для каждого известного нам веб-хостинга в каждом отдельном обходе. Он содержит сводную информацию из обхода, индексов, веб-графика и наших необработанных журналов обхода. Вы можете использовать его непосредственно из AWS с помощью инструментов SQL, таких как Amazon Athena или duckdb, или загрузить на свой собственный диск (24 обхода по 7 гигабайт каждый).

Вот пример запроса к этому набору данных на получение всех хостов Ватикана где более 50% страниц на языках отличных от английского.

Подробнее в их блоге [2].

Ссылки:
[1] https://github.com/commoncrawl/cc-host-index
[2] https://commoncrawl.org/blog/introducing-the-host-index

#opendata #webarchives #datasets

1.1K viewsIvan Begtin, 17:45

Ivan Begtin

TerraMind, свежая генеративная модель по данным наблюдения за Землёй от IBM и ESA [1] также доступная на Hugging Face [2] и статья на Arxive.org [3]

Всё под лицензией Apache 2.0, общий объём разных версий модели более 10 ГБ.

Авторы пишут что она превосходит аналогичные foundation models на 8%

Ссылки:
[1] https://research.ibm.com/blog/terramind-esa-earth-observation-model
[2] https://huggingface.co/ibm-esa-geospatial
[3] https://arxiv.org/abs/2504.11171

#geodata #opendata #ibm #ai #aimodels

1.2K viewsIvan Begtin, 07:53

Ivan Begtin

Прекрасный текст I use Zip Bombs to Protect my Server [1] в котором автор рассказывает как он отбивается от ботов сканирующих его веб сайт через подсовывание им ZIP файла в 1MB который разворачивается в 1GB и это помогает "убить" большую часть ботов. Самым упоротым ботам он подсовывает уже 10MB ZIP файл и после этого не выживает уже ни один бот.

Конечно, это, в основном для ботов которые автоматически распаковывают ZIP файлы, например разные сканеры безопасности.

Эта техника называется ZIP бомбинг [2], я помню её ещё по студенческим временам, тогда её применяли не против ботов, как-нибудь ещё.

А сейчас дело это увлекательное, но способное и вред нанести. Признают ли ZIP бомбинг цифровым экстремизмом когда-нибудь?:)

Ссылки:
[1] https://idiallo.com/blog/zipbomb-protection
[2] https://en.wikipedia.org/wiki/Zip_bomb

#zip #funny

1.2K viewsIvan Begtin, 15:34

Ivan Begtin

В рубрике полезных ссылок про данные, технологии и не только:
- Как с помощью deep learning мы построили Геокодер, масштабируемый для разных стран [1] статья на хабре от команды Яндекса про геокодирование. Достаточно сложно чтобы не поверхностно, недостаточно сложно чтобы было нечитабельно. Полезно для всех кто анализирует адреса.
- Data Commons: The Missing Infrastructure for Public Interest Artificial Intelligence [2] статья Stefaan Verhulst и группы исследователей про необходимость создания Data Commons, общей инфраструктуры данных и организуемого ими конкурса на эту тему. Интересна и предыдущая статья [3].
- AI is getting “creepy good” at geo-guessing [4] о том насколько облачные AI модели стали пугающе хороши в идентификации мест по фотографии в блоге MalwareBytes
- Redis is now available under the AGPLv3 open source license [5] да, СУБД Redis с 8 версии снова AGPL. Больше открытого кода и свободных лицензий
- Hyperparam Open-Source [6] Hyperparam это инструмент визуализации больших датасетов для машинного обучения. Теперь выпустили с открытым кодом компонент HighTable [7] для отображения больших таблиц. Лицензия MIT
- AI Action Plan Database [8] база данных и более чем 4700 предложений по плану действий в отношении ИИ, инициативе Президента Трампа в США, к которой многие компании прислали свои предложения. Хорошо систематизировано (с помощью ИИ) и доступен CSV датасет.

Ссылки:
[1] https://habr.com/ru/companies/yandex/articles/877086/
[2] https://www.linkedin.com/pulse/data-commons-missing-infrastructure-public-interest-verhulst-phd-k8eec/
[3] https://medium.com/data-policy/data-commons-under-threat-by-or-the-solution-for-a-generative-ai-era-rethinking-9193e35f85e6
[4] https://www.malwarebytes.com/blog/news/2025/04/ai-is-getting-creepy-good-at-geo-guessing
[5] https://redis.io/blog/agplv3/
[6] https://hyperparam.app/about/opensource
[7] https://github.com/hyparam/hightable
[8] https://www.aiactionplan.org/

#opendata #datatools #opensource #datapolicy #ai

Хабр

Как с помощью deep learning мы построили Геокодер, масштабируемый для разных стран

Давным‑давно, когда мир ML состоял из бустингов, линейных моделей и статистических подходов, перед нашей командой API Яндекс Карт стояла задача сделать качественный Геокодер. Это алгоритм,...

896 viewsIvan Begtin, 12:24

Ivan Begtin

В рубрике как это устроено у них EarthBank [1] платформа для удобной визуализации, анализа и извлечения геопривязанных данных, полученных геохимическими лабораториями по всему миру.

Вернее, конечно по всему миру, но только с теми данными что есть в австралийских музеях и лабораториях. Это более 96 тысяч образцов собранных в 61 пакет с данными. Конечно, большая часть данных по Австралии, но есть примеры и из других стран, например, на скриншоте образцы из Адыгеи которые собраны в 2015 году и хранятся в Музее минералогии штата Виктория.

Проект создан в AuScope Geochemistry Network (AGN) на базе движка австралийского стартапа Lithodat по визуализации геохимических данных.

У проект открытое API, возможность выгрузить все наборы данных, но требуется авторизация для доступа.

Ссылки:
[1] https://ausgeochem.auscope.org.au

#opendata #geodata #geochemistry #mineralogy

1.1K viewsIvan Begtin, 18:48

Ivan Begtin

В рубрике как это устроено у них Статистика по топливной бедности в Великобритании [1] публикуется с 2010 года в форматах Excel и ODS и даёт информацию об уровне топливной бедности, доле домохозяйств с низкими доходами, низкой энергоэффективностью и высокими расходами на топливо. Датасет создаётся из данных English Housing Survey (EHS), регулярного опроса в Англии, на основе которого формируются эти цифры.

Его особенность - это субрегиональный срез до младшего муниципального уровня [2]. Это даёт возможность анализировать реальный уровень бедности на уровне Lower layer Super Output Area (LSOA). Объёмно данных всё ещё немного, это десятки тысяч записей, но для статистического анализа - это много.

Данных нет в CSV и других машиночитаемых форматах, но есть весьма стандартизированные Excel шаблоны.

У всей субрегиональной статистики обязательно указываются 9 значные коды ONS, например, E01000001 которые закодированы по общедоступному справочнику [3] и достаточно просто геокодируются на карту страны.

Ссылки:
[1] https://www.gov.uk/government/collections/fuel-poverty-statistics
[2] https://www.gov.uk/government/statistics/sub-regional-fuel-poverty-data-2025-2023-data
[3] https://opendatacommunities.org/data/lower-layer-super-output-areas/

#opendata #statistics

845 viewsIvan Begtin, 05:23

About

Blog

Apps

Platform