Ivan Begtin
9.37K subscribers
2.17K photos
4 videos
104 files
4.9K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
В рубрике полезных ссылок про данные, технологии и не только:
- Как с помощью deep learning мы построили Геокодер, масштабируемый для разных стран [1] статья на хабре от команды Яндекса про геокодирование. Достаточно сложно чтобы не поверхностно, недостаточно сложно чтобы было нечитабельно. Полезно для всех кто анализирует адреса.
- Data Commons: The Missing Infrastructure for Public Interest Artificial Intelligence [2] статья Stefaan Verhulst и группы исследователей про необходимость создания Data Commons, общей инфраструктуры данных и организуемого ими конкурса на эту тему. Интересна и предыдущая статья [3].
- AI is getting “creepy good” at geo-guessing [4] о том насколько облачные AI модели стали пугающе хороши в идентификации мест по фотографии в блоге MalwareBytes
- Redis is now available under the AGPLv3 open source license [5] да, СУБД Redis с 8 версии снова AGPL. Больше открытого кода и свободных лицензий
- Hyperparam Open-Source [6] Hyperparam это инструмент визуализации больших датасетов для машинного обучения. Теперь выпустили с открытым кодом компонент HighTable [7] для отображения больших таблиц. Лицензия MIT
- AI Action Plan Database [8] база данных и более чем 4700 предложений по плану действий в отношении ИИ, инициативе Президента Трампа в США, к которой многие компании прислали свои предложения. Хорошо систематизировано (с помощью ИИ) и доступен CSV датасет.

Ссылки:
[1] https://habr.com/ru/companies/yandex/articles/877086/
[2] https://www.linkedin.com/pulse/data-commons-missing-infrastructure-public-interest-verhulst-phd-k8eec/
[3] https://medium.com/data-policy/data-commons-under-threat-by-or-the-solution-for-a-generative-ai-era-rethinking-9193e35f85e6
[4] https://www.malwarebytes.com/blog/news/2025/04/ai-is-getting-creepy-good-at-geo-guessing
[5] https://redis.io/blog/agplv3/
[6] https://hyperparam.app/about/opensource
[7] https://github.com/hyparam/hightable
[8] https://www.aiactionplan.org/

#opendata #datatools #opensource #datapolicy #ai
Подборка регулярных ссылок про данные, технологии и не только:
- Smithy opensource генератор кода и документации для сервисов с собственным языком их описания, от команды Amazon AWS. Казалось бы зачем если есть OpenAPI/Swagger, но поддерживает множество стандартов сериализации и транспорта

- Unlock8 кампания по продвижению идеи того что навыки программирования и работы с ИИ должны быть обязательными для всех школьников в США. В подписантах сотни CEO крупнейших ИТ компаний. Тотальное обучение программированию может быть чуть-ли не единственным объективным решением после массового проникновения AI в школы. Лично я поддерживаю эту идею, но не в США конкретно, а применительно ко всем странам.

- SmolDocling особенно компактная модель распознавания образов для преобразования документов. Доступна на HuggingFace. Пишут что очень хороша, но в работе её ещё не видел. Надо смотреть и пробовать.

- NIH blocks researchers in China, Russia and other countries from multiple databases администрация Трампа с 4 апреля ограничили доступ исследователей из Китая, Ирана, России, Кубы, Венесуэлы, Гонконга и Макау ко множеству научных репозиториев данных связанных со здравоохранением. Это так называемые controlled-access data repositories (CADRs), репозитории доступ к которым предоставляется по запросу.

- A First Look at ODIN 2024/25: A Decade of Progress with New Risks Ahead обзор доступности и открытости данных по статистике по практически всем странам. Краткие выводы: открытости в целом больше, больше данных доступно, больше свободных лицензий и машиночитаемости. Я лично не со всеми их оценками могу согласится, но это объективно важный монитор общей доступности статистики в мире. Можно посмотреть, например, изменения в доступности данных по РФ за 2020-2024 годы. Кстати, если посмотреть подобно на индикаторы, то видно что оценщики не смотрели на системы типа ЕМИСС, а оценивали только по доступности данных на официальных сайта Росстата и ЦБ РФ. О чём это говорит? Нет, не о их невнимательности, а о том что сайт Росстата устарел морально и технически.

#opensource #opendata #ai #sanctions
Подборка ссылок про данные, технологии и не только:
- State of Docs 2025 [1] результаты опроса от Gitbook про документирование программных продуктов с акцентом на документацию к API. В целом ничего нового: все используют AI, спецификацию OpenAPI и тд. Из интересного - метрики документированности и documentation observability [2], полезно для всех кто пишет техническую документацию или не пишет, хотя должен бы писать.
- UNCTAD: Working group on data governance at all levels [3] рабочая группа при ЮНКТАД по управлению данными на всех уровнях, была сформирована в ноябре 2024 года, в неё входит 27 стран членов ООН (почти все крупнейшие экономики, кроме РФ) и 27 не-государственных участников. Ожили с мая, начали проводить сессии с обсуждениями и подготовки предложений к Global Digital Compact
- SchemaStore [4] частная попытка с открытым кодом сделать репозиторий схем данных в формате JSON Schema. Не структурированно, на мой взгляд, но довольно массово, 1000+ схем. Выглядит как хорошая попытка, но я бы сделал иначе.
- The Plain Language Act: A solution, not a problem — my view on the Repeal Bill [5] в Новой Зеландии парламентарии задумали отменить Закон о Простом Языке, обязывающем чиновников излагать официальные тексты понятным образом. Те кто занимался этой темой много лет теперь бьют тревогу и ссылаются на то что другие страны (например, Норвегия), наоборот усиливают подобное законодательство.
- ContextGem: Effortless LLM extraction from documents [6] ещё один движок по анализу документов с помощью AI, пока только набирает популярность. Вместо преобразования разных форматов автор сконцентрировался на конвертере из DOCX файла и обработке текста.
- o3 Beats a Master-Level Geoguessr Player—Even with Fake EXIF Data [7] ещё один текст про прогресс ИИ в определении геолокации по фотографии, даже если указаны подложные данные в EXIF и в сравнении с человеком который давно играет в Geoguessr.

Ссылки:
[1] https://www.stateofdocs.com/2025/
[2] https://passo.uno/docs-observability-do11y/
[3] https://unctad.org/topic/commission-on-science-and-technology-for-development/working-group-on-data-governance
[4] https://github.com/SchemaStore/schemastore
[5] https://www.linkedin.com/pulse/plain-language-act-solution-problem-my-view-repeal-bill-lynda-harris-jf2pf/
[6] https://github.com/shcherbak-ai/contextgem

#opensource #datadocumentation #datapolicy #plainlanguage
Model Context Protocol (MCP) был разработан компанией Anthropic для интеграции существующих сервисов и данных в LLM Claude. Это весьма простой и неплохо стандартизированный протокол с вариантами референсной реализации на Python, Java, Typescript, Swift, Kotlin, C# и с большим числом реализаций на других языках.

Тысячи серверов MCP уже доступны и вот основные ресурсы где можно их искать:
- Model Context Protocol servers - большой каталог на Github
- Awesome MCP Servers - ещё один большой каталог с переводом на несколько языков
- Pipedream MCP - интеграция с 12.5 тысяч API и инструментов через сервис Pipedream
- Zapier MCP - интеграция с 8 тысячами приложений через сервис Zapier
- Smithery - каталог MCP серверов, 6200+ записей по множеству категорий
- MCP.so - каталог в 13100+ MCP серверов

Похоже мода на MCP пришла надолго и пора добавлять его к своим продуктам повсеместно.

#ai #opensource #aitools
О том как устроена архивация сайтов в примере. Я не раз писал о том как устроена веб архивация и цифровое архивирование в принципе и среди многих проблем в этой области, далеко не последняя в том что почти весь инструментарий для этой задачи, скажем так, слегка устарелый. А на то чтобы переписать его нужны серьёзные расходы, но не инвестиционные потому что они врядли окупаются.

Один из таких инструментов - это grab-site [1] от команды ArchiveTeam, волонтеров архивирующих гибнущие веб сайты.

Его ключевые фичи - это возможность динамически настраивать списки блокировки/игнорирования и большие подборки преднастроенных правил игнорирования несодержательного контента.

Это, к слову, одна из серьёзных проблем при веб архивации, чтобы краулер не оказался в ловушке циклических перенаправлений и чтобы он не индексировал дубликаты. А также у grab-site в комплекте сервер мониторинга краулинга.

Внутри grab-site используется аналог утилиты wget под названием wpull. С очень давно не обновлявшимся кодом и чуть большими возможностями по автоматизации обработки получаемого потока данных.

Все эти инструменты из экосистемы WARC, они архивируют весь контент в WARC файлы.

Это экосистема выросшая из Интернет Архива, но переставшая развиваться уже много лет. Гораздо чаще контент с сайтов краулят не для архивации, а для обработки или извлечения данных и инструменты для архивации из WARC экосистемы для этого пригодны плохо.

Вместо них используют совсем другие краулеры, в том числе ныне популярные краулеры для AI или встроенные в инструменты вроде Elastic.

Тем не менее на фоне реформы российского Росстата архивировать его контент необходимо потому что, выражаясь аллегорически, "Почему-то каждый раз когда они снимают фильм про Робин Гуда, они сжигают нашу деревню" (c).

А я напомню про ещё один инструмент, metawarc [2] это разработанная мной несколько лет назад утилита по анализу веб архивов. Она извлекает из WARC файлов метаданные и делает рядом индексный файл с которым можно работать через SQL.

Ссылки:
[1] https://github.com/ArchiveTeam/grab-site
[2] https://github.com/datacoon/metawarc

#webarchives #digitalpreservation #opensource
Для тех кто любит не только читать, но и слушать книжки. Audiblez [1] генератор аудиокниг по текстам, с открытым кодом, командной строкой и UI интерфейсом. Поддерживает английский, испанский, французский, хинди, итальянский, японский, португальский и китайский. Русский не поддерживает и даже армянского языка нет - это минус, в основном из-за того что внутри используется Kokoro-82M [2] модель где только эти языки. Можно выбрать книгу в epub формате и голос и создать аудиокнигу.

Сама генерация аудиокниги весьма ресурсоёмкая, но реалистичная.

Лицензия MIT.

Ссылки:
[1] https://github.com/santinic/audiblez
[2] https://huggingface.co/hexgrad/Kokoro-82M

#opensource #ai #books #readings
Подборка ссылок про данные, технологии и не только

AI

- Transforming R&D with agentic AI: Introducing Microsoft Discovery о Microsoft Discovery, инструменте в виде агентского AI для исследователей. Акцент явно на практических исследованиях и сервисе для исследовательских центров и университетов.
- Spatial Speech Translation: Translating Across Space With Binaural Hearables научная статья про прогресс распознавания речи одновременно говорящих в толпе. Если всё сильно продвинется то тут столько возможностей для шпионского применения. Так и просится на страницы книги/рассказа про будущее.
- Claude Code SDK свежее SDK для генерации кода от Claude для тех кто хочет интегрировать Claude в свой продукт.

Открытый код
- Void альтернатива Cursor с открытым кодом. Пишут что поддерживают условно любую LLM, локальную или облачную. Форк VS Code.
- Marginalia Search - малоизвестный небольшой европейский поисковик авторы которого пытаются переосмыслить индексацию некоммерческой части интернета. Делают на небольшой европейский грант, открытый код AGPL. Любопытно, есть пара интересных идей, но нет хорошо продуманной стратегии.
- Scrapling свежая библиотека по "скрытному" парсингу сайтов. Интегрирована со всякими сервисами онлайн прокси, авторы обещают парсинг HTML быстрее чем у многих других инструментов. Выглядит полезно. Лицензия BSD-3
- Doctor инструмент для краулинга и индексации веб сайтов и предоставления собранного контента как MCP сервера. Можно сказать сайт-в-MCP. Внутри crawl4ai, DuckDB и Redis. Используют DuckDB как базу для векторного поиска, что немного необычно. Лицензия MIT
- VERT - конвертер изображений, видео, документов, аудио с открытым кодом и онлайн сервисом. Код под AGPL и веб интерфейс выглядит смазливо так что авторы явно нацелились на стартапо по модели онлайн сервис + открытый код. Плюс - работает без облака, через WebAssembly все преобразования идут на вашем компьютере. Это же и минус, потоковое преобразование сотен тысяч файлов не организовать.

#opensource #data #datatools #ai
Вышла новая версия 1.3.0 DuckDB [1] с кучей изменений и улучшений.

Из важного стоит отметить:
1. Кэширование внешних файлов.
Теперь при обращении к файлу по ссылке он по умолчанию кешируется. Это очень удобно при работе с файлами относительно небольшого объёма.Опять же DuckDB здесь выступает скорее как query engine чем как база данных

2. Прямое обращение к файлу с командной строки

Позволяет сразу передать файл параметром и сделать запрос. Удобно тем что позволяет сократить описание к командной сроке и сэкономить время.

3. Расширение для кодировок
Это, конечно, давно ожидаемая [2] возможность работы с файлами в любой кодировке. Многим это существенно облегчит жизнь.

Также пишут что системно переработали код чтения и записи в Parquet файлы и всё должно быть быстрее, вот это надо будет проверить. Потому что чтение вроде как и раньше было неплохо, а вот запись в Parquet в DuckDB съедала много оперативной памяти.

Там ещё много изменений связанных с работой с геоданными, JOIN'ам, инструмент явно и быстро улучшается.

Ссылки:
[1] https://duckdb.org/2025/05/21/announcing-duckdb-130.html
[2] https://duckdb.org/docs/stable/core_extensions/encodings

#opensource #dataengineering #duckdb
Полезное чтение про данные, технологии и не только:
- On file formats [1] автор систематизирует рекомендации тем кто придумывает собственные форматы файлов. Всё достаточно сжато и по делу.
- A deep dive into AlloyDB’s vector search enhancements [2] о применении векторного поиска и операций со ScanNN индексе в AlloyDB расширении для Postgres. О том как ИИ проникает в СУБД и там закрепляется.
- TrailBase [3] замена Firebase с открытым кодом
- LiamERD [4] красивые ERD диаграммы для ваших баз данных, с открытым кодом


Ссылки:
[1] https://solhsa.com/oldernews2025.html#ON-FILE-FORMATS
[2] https://cloud.google.com/blog/products/databases/alloydb-ais-scann-index-improves-search-on-all-kinds-of-data/
[3] https://github.com/trailbaseio/trailbase
[4] https://liambx.com/

#opensource #data #datatools
Microsoft опубликовали Windows Subsystem for Linux как открытый код под MIT лицензией [1], а это большой проект с 70 контрибьюторами и 9 годами разработки.

У них там более тысячи issues большая часть которых это запросы на фичи, может быть теперь и появление новых возможностей ускорится.

Больше открытого исходного кода под свободными лицензиями - это, несомненно, хорошая новость.

Ссылки:
[1] https://blogs.windows.com/windowsdeveloper/2025/05/19/the-windows-subsystem-for-linux-is-now-open-source/

#opensource #microsoft
DuckLake (утиное озеро) [1] новый продукт от команды DuckDB по созданию озер данных с помощью DuckDB. Очень похоже по идеологии на Apache Iceberg и Delta Lake, но с хранением метаданных в SQL, а данных в Parquet файлах.

Тот случай когда выглядит интересно и надо приглядеться к работе на практике. Лично я чаще сталкиваюсь с редко обновляемыми данными большого объёма где транзакции сильно вторичны к скорости доступа к данным. Возможно DuckLake было бы лучшим решением для такого. А может быть и нет. Надо изучать и посмотреть на примеры внедрения.

Ссылки:
[1] https://duckdb.org/2025/05/27/ducklake

#data #opensource #datatools #duckdb
Полезное чтение про данные, технологии и не только:
- Behind the Curtain: A white-collar bloodbath заметка в Axios по итогам выступления Dario Amodei, главы Anthropic о кризисе работы для белых воротничков в самое ближайшее время и о том что правительствам (США) надо собирать "налог на токены". Тут есть о чём подискутировать, начиная с того что кроме правительств США и Китая никто более налогов с этого не наберёт.
- Measuring the US-China AI Gap свежее исследование с анализом разрыва в области ИИ между США и Китаем от Insikt Group. Сжатое изложение полезного материала.
- Introducing Apache Spark 4.0 вышла 4-я версия Apache Spark где много нового в его Python API включая нового легковесного API клиента да и много других полезных изменений.
- Meet the dbt Fusion Engine: the new Rust-based, industrial-grade engine for dbt важное для всех кто пользуется dbt, после покупки sdf команда dbt Labs выпустила новый движок на базе Rust и обещают что он лучше, быстрее, эффективнее и тд.
- ClickStack: A High-Performance OSS Observability Stack on ClickHouse я так понимаю что Clickhouse выбрали одним из направлений конкуренцию со стеком Elastic / OpenSearch для сбора логов и наблюдаемости (observability) и ClickStack именно такое решение с открытым кодом.
- Perplexity Labs свежий сервис от Perplexity который ориентированный на воплощение идей в реальность выполнение задач по созданию продуктов с начала и до завершения. Не они первые, не они последние, инструмент полезный, один из тех что дожирают рынок фриланса
- Opening code, opening access: The World Bank’s first open source software release первый релиз открытого кода от команды Всемирного банка, они разместили код Metadata Editor инструмента описания документов, индикаторов, геоданных и иных объектов. С акцентом на статистику, конечно же. Полезно изучить тем создает и работает с официальной статистикой.

#ai #statistics #opensource #data #datatools
В рубрике как это устроено у них французский проект по мониторингу всего кода созданного органами власти Франции, государственными научными учреждениями и в рамках госфинансирования (гранты) из французского бюджета data.code.gouv.fr [1].

Охватывает 82 источника, более 32 тысяч репозиториев, более 3 тысяч владельцев репозиториев

Построен на базе открытого кода ecosyste.ms проекта по мониторингу пакетов и репозиториев открытого кода.

Позволяет оценить масштабы государственного открытого кода во Франции и, при желании, выявить наиболее живые и востребованные проекты


Ссылки:
[1] https://data.code.gouv.fr/
[2] https://ecosyste.ms/

#opensource #france #opendata #sourcecode
Стремительно набирающий популярность продукт MindsDB [1] который позиционируется как Data Driven AI Agents и позволяет подключать любую базу данных и получать ответы на её основе. В том числе он предоставляет MCP сервер к которому можно подключить языковую модель.

Главный минус в том что лицензия а ля Elastic [2], но для большей части проектов это не критично.

Одновременно команда предоставляет корпоративный вариант продукта, уже с петабайтным масштабированием и коммерческим применением.

Но вообще сама идея что вот тебе данные и пусть над ними будет AI интерфейс в виде чата - это ещё один гроб в рынок не автоматизированных BI систем

Ссылки:
[1] https://mindsdb.com
[2] https://github.com/mindsdb/mindsdb

#opensource #ai #data