Ivan Begtin
9.07K subscribers
2.52K photos
4 videos
114 files
5.3K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

CTO&Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
В рубрике полезного чтения про данные, технологии и не только:
- Saloni's guide to data visualization гайд по визуализации данных с акцентом на наглядность научных данных, хорошие примеры, понятные советы
- Useful patterns for building HTML tools обзор HTML инструментов, в том числе созданных с помощью LLM.Немного за пределами моих интересов, но взгляд на эти инструменты который я лично упускал.
- Economics of Orbital vs Terrestrial Data Centers про обоснованность и возможность создания дата центров на орбите Земли. Любопытно, хотя и не кажется практичным в ближайшие годы
- Cloudflare Radar 2025 Year обзор трендов 2025 года от Cloudflare, обзор большой, в том числе страновой и есть что посмотреть по разным странам. Тянет на отдельную заметку, а пока просто закладка на чтение

#readings #data #dataviz
👍54
Множество предсказаний о журналистике в 2026 году https://www.niemanlab.org/collection/predictions-2026/ на сайте Nieman Lab

Многое про технологии и ИИ, есть даже про API для новостей. Для дата журналистов может быть полезным.

#thoughts #readings #journalism
👍52🔥2
Полезное чтение про данные, технологии и не только

AI
- Introduction to AI Agents хорошо написанный четко изложенный документ от Google. Полезно для быстрого погружения в тему
- State of Agent Engineering обзор от LangChain состояния разработки ИИ агентов через опрос 1300 специалистов
- 2025 LLM Year in Review обзор 2025 года с точки зрения LLM, с погружением в технологии, от Андрея Карпатого
- AI Scraping and the Open Web о том что владельцы контента перешли к юридической защите от ИИ скрейперов после того как технические меры перестали работать

Облачная инфраструктура
- Let’s talk about GitHub Actions в блоге Github о том как они переделали Github Actions. Важное для всех что Github Actions использует. Важное тем что для многие GA стали заменой собственных ETL/ELT инструментов и многие конвееры работы с данными и другими действиями живут на Github.

Инструменты
- headson инструмент для выполнения команд типа head/tail для JSON и YAML файлов. Бывает полезно, но как-то узковато, больший универсализм был бы полезнее
- AGENTS.md спецификация для управления кодирующими ИИ агентами через специальный Markdown файл
- chandra модель для OCR с обещанием поддержки сложных структур и таблиц. Надо пробовать, правда ли так работает.
- Mistral OCR 3 свежая ИИ модель от Mistral для OCR, тоже обещают работу со сложными таблицами

Разное
- On the Immortality of Microsoft Word о бессмертии MS Word и почему Markdown не может заменить его, например, в работе юристов с документами

#opensource #ai #readings
👍9🔥41
Полезные ссылки про данные, технологии и не только:
- NERD Language свежий язык программирования заточенный под LLM. Сделан читаемым для людей, но с предположением что пишут на нём ИИ агенты. Идея не кажется странной, но адаптация одного или нескольких существующих языков программирования кажется мне более логичной
- 2025 letter интересные рассуждения автора о сходстве Кремниевой долины и Коммунистической партии Китая в виде отсутствия юмора и исполненности самомнения. Текст реально длинный лонгрид, интересный и тем что автор рассуждений является автором книги Breakneck: China's Quest to Engineer the Future о изменениях в Китае и его инженерной культуре
- UK accounting body to halt remote exams amid AI cheating в Великобритании регулятор экзаменов для бухгалтеров запретил онлайн экзамены кроме как в редких исключительных случаях. Причина очевидна - обман с помощью ИИ агентов. Хотите бесплатную идею для edutech ближайшего будущего? Сеть экзаменационных центров с подавлением сотовых, абсолютно тотальным видеомониторингом с автоматизированным определением использования шпаргалок и устройств, обязательные обыски на входе, охранниками с дубинками и прочими "ноу-хау"
- on the software job climate автор сжато повторяет то о чем многие пишут, денег в ИТ (особенно венчурных) стало глобально меньше, бюджетов на найм в ИТ тоже меньше, а рабочей силы больше. Выводы делайте сами (уже и так все сделали)
- 2025: The year in LLMs автор делает обзор года программирования с помощью разных LLM. Много полезного. Автор - это Саймон Уиллисон, создатель довольно популярного инструмента Datasette для публикации данных онлайн, хорошо известный в кругах открытого кода и открытых данных

#readings #ai #opensource
62❤‍🔥1👌1
Полезный ежегодный обзор баз данных в тексте Databases in 2025: A Year in Review от Andy Pavlov.
Всем кто работает с данными большого объёма будет полезно, вот ключевые выдержки:
1. Доминирование PostgreSQL продолжается. Многие экспериментируют со многими базами данных, но в продакшен всё равно используется PostgreSQL и совместимые с ним и его протоколом аналоги.
2. MCP для каждой СУБД. Похоже что тренд очевиден, MCP прикручивают к каждой СУБД каждый вендор и в этом нет ничего дурного. Больше универсальных интерфейсов полезных и нужных
3. MongoDB против FerretDB. MongoDB активно давит на FerretDB в том что воспроизведение их API и протокола нарушает их права. Такого в области баз данных ранее не было, самое близкое - это разборки Oracle vs Google из-за Java API. Тогда Oracle не удалось убедить суд в том что их права нарушены
4. Поле битвы форматов файлов. Активно идет появление новых стандартов и форматов дата файлов на замену Parquet. Я также не спроста писал про эту тему так часто, там идет сильная конкуренция и интересные технические решения

В оригинальном обзоре много ссылок и других событий

#data #rdbms #readings
5👍5
В продолжение моих малореалистичных предсказаний вот краткое изложение предсказаний экспертов из Стенфорда.

Они гораздо более скучные реалистичные чем мои

ИИ в 2026: от хайпа к реальной оценке и измерению

Эксперты Стэнфорда считают, что 2026-й станет годом прагматичного подхода к искусственному интеллекту: не обещаниями и «чудесами», а оценкой реальной пользы, затрат и рисков. Вместо вопроса *«может ли ИИ что-то сделать?»* будет *«насколько хорошо, в каких условиях и для кого?»*.

AGI не появится
Общий искусственный интеллект широкого уровня всё ещё остаётся в будущем, и в ближайшем году его не ожидают.

«Суверенный» ИИ и геополитика
Страны активнее развивают собственные ИИ-экосистемы или запускают чужие модели на своих серверах, чтобы контролировать данные и снизить зависимость от крупных поставщиков.

Прозрачность и понимание
В науке и медицине усиливается внимание к объяснимости моделей — не только к результату, но и к тому, *как* система приходит к выводу.

Юридический ИИ — сложнее задач
Системы для юристов пойдут дальше простого чернового текста: научатся сопоставлять документы, синтезировать аргументы и давать оценки с привязкой к метрикам качества.

Реализм вместо пузыря
Инвестиции огромны, но эффективность ИИ в реальных процессах всё ещё умеренная. Ожидается больше тщательно измеренных данных о том, где технология действительно работает, а где — нет.

Медицина: постепенный «момент ChatGPT»
Методы самообучения и большие качественные наборы данных позволят медленным до сих пор медицинским ИИ-системам быстрее развиваться — в том числе для диагностики редких заболеваний.

Измерение воздействия на экономику
Вместо деклараций появятся «дашборды» для измерения влияния ИИ на производительность, рабочие места и отходы. Это позволит видеть результаты в реальном времени и корректировать стратегии.

По моему уже пришло время предсказаний в стиле Saxo Bank'а в отношении экономики, только вместо экономики предсказывать будущее ИИ (с другой стороны мы разве не подошли вплотную когда ИИ технологии и экономика становятся синонимами?)

#ai #readings
👍9322
Свежий доклад от Всемирного банка GovTech Maturity Index 2025 : Tracking Public Sector Digital Transformation Worldwide с измерением уровня цифровых технологий в госсекторе.

Некоторые оценки удивляют, например, низкий уровень цифровизации в Польше и высокий уровень в Секторе Газа.

Зато Армения оценена как весьма зрелая страна в этом отношении. Хм

В рейтинге учитывается открытый код и открытые данные и ещё довольно много всего.

Сам рейтинг разделен на 4 суб-рейтинга по зрелости информационных систем, предоставлению услуг, вовлечению граждан и зрелости институтов.

#rankings #readings
👍72
Cursor выпустил гайд с лучшими практиками по использованию ИИ агентов в разработке. Рекомендации все довольно понятные, я бы даже сказал что очевидные для опытных разработчиков, но могут быть не настолько очевидными для кого-то ещё.

Важный акцент там на стадии планирования и вопросам к ассистенту до реализации фич или исправления багов.

А я бы добавил к этому следующее:
1. Планирование через OpenSpec или его аналоги. Очень хорошо структурирует процесс проектирования и коммуникации с ИИ агентом. Для сложного и унаследованного кода - это просто необходимо. В принципе разделять планирование и реализацию, на стадии планирования не меняется код, а результаты - спеки и планы.
2. Cursor и аналогичные инструменты (Antigravity, Copilot и тд.) могут выполнять роль инструментов исследовательской поддержки и аналитики. Например, формируz отчеты по конкурентам, проектируя инструменты бенчмарков с ними, подготовка аналитики по разным функциям, проектирование верхнеуровневой архитектуры и тд.
3. ИИ ассистент - это не только объект проверки (а не кривой ли код он написал?), но и сам является контуром контроля качества. Поэтому на каждой итерации внедрения фич необходим контур создания и проверки тестов, линтинга кода, обновления документации и тд. Это частично решается уже сейчас на стадиях планирования и спеков, но опыт показывает что явное указание этих обязательных проверок дает больше гарантии что код будет не поломан и документация будет актуальной.
4. Инструменты для разработки вполне способны не только писать код, но и писать документы. Подход такой же может быть как к репозиториям кода с использованием спецификаций, планирования и тд. Иначе говоря при проектировании больших ИТ продуктов можно создать отдельный репозиторий с архитектурой продуктов и от него создавать все остальные. Например, если надо условно с нуля сделать продукт у которого есть фронтэнд, бэкэнд, REST API, SDK, интеграционные модули и тд., то вместо того чтобы все засовывать в один репозиторий или сразу разбивать на множество, имеет смысл собрать архитектурный репозиторий с документами.

#ai #coding #thoughts #readings
👍131🔥1🐳1
Интересный взгляд на ИИ разработку в тексте про Gas town от Steve Egge. Много уникальной терминологии так что сразу ещё один текст Gas town decoded

Подход интересный, но к терминологии надо привыкнуть ибо сложное описание процессов через большое число новых понятий.

Почитать точно стоит всем кто проектирует ПО

#readings #aiagents
5
Полезные ссылки про данные, технологии и не только:
- Open Responses открытая спецификация на API для LLM на базе OpenAI Responses API. Вообще API OpenAI и так уже было стандартом де-факто, а тут уже и формализированный и описанный стандарт. Не вижу какой-то конкретной организации за его разработкой, похоже на частную инициативу
- Using AI as a Design Engineer о работе дизайн инженера с использованием ИИ, многое похоже на разработку ПО в целом, но есть свои особенности вроде интеграции с Figma MCP
- Can A.I. Generate New Ideas? может ли ИИ генерировать новые идеи? Статья в NYT, под пэйволом. Краткое изложение можно прочитать тут
- How UK museums are embracing citizens’ assemblies to help frame their futures интересное явление когда британские музеи начали создавать общественные советы которые должны помогать им определять их будущее

#uk #museums #ai #llms #design #ideas #readings
52
Где узнать больше о цифровых архивах, цифровой архивации, инструментах, курсах и так далее? Подборка каталогов ресурсов:
- Awesome Digital Preservation - список инструментов и ресурсов посвященных цифровой архивации, преимущественно ссылки на открытый код и открытые сервисы и наиболее известные платформы (от Ruarxive)
- Awesome Digital Preservation аналогичный список от Digipress сообщества по цифровой архивации, множество ссылок на существующие инструменты и сервисы
- Awesome Web Archiving - список инструментов и ресурсов по веб-архивации, созданы и поддерживается Международным консорциумом сохранения интернета (IIPC)
- ArchiveTeam Wiki большой вики проект от команды ArchiveTeam посвященный веб архивации и архивационным кампаниям для сохранения гибнущих онлайн ресурсов.
- База знания Ruarxive база знаний по цифровой и веб архивации на русском языке от проекта Ruarxive, инструкции по использованию инструментов и сервисов

#webarchives #digitalpreservation #readings
👍6
Data Engineering Design Patterns свежая бесплатная книга от ORelly профинансированная стартапом Buf по дата инженерии.

Полезная для тех кто уже понял что в дата инженерии есть шаблоны, но не знает как они правильно называются/рисуются/описываются/проектируются.

Для тех кому неохота регистрироваться, следующим постом закину в телеграм канал саму книжку в PDF.

А я смотрю на книгу и думаю не написать ли мне самому книжку по data discovery, но объективно понимаю что столько сейчас операционной работы что не до этого.

#dataengineering #readings #data
17🔥8👍5
Полезное чтение A lot of population numbers are fake о том что правительства некоторых стран просто не знают сколько людей там живет потому что не могут измерить и о том что спутниковые данные не спасают.

Автор описывает страны третьего мира, но есть причины полагать что и для других стран всё также неидеально с учетом проживающих там людей - где-то нелегальные мигранты, где-то не все тотально оцифрованы, где-то нецентрализованный учет умерших и родившихся, а где-то прямой централизованный подлог чисел потому что они могут показать скажем так антигуманную политику властей в отношении жителей.

Есть много причин почему цифры могут быть занижены или завышены и эта статья именно о таких случаях.

#readings #data
🔥9👍2🤔1
Полезное чтение:
- Gas town критика от Benn Stancil подхода Gas town где ИИ агенты делают работы вместе с другими ИИ агентами и управляются другими ИИ агентами. Главный аргумент в том что подход Gas Town очень выгоден ИИ бигтеху чтобы подсадить пользователей на чрезмерно дорогие ИИ решения с непонятным результатом.
- Guidelines and best practices for making government datasets ready for AI документ от UK Government Digital Service о том как публиковать данные для обучения ИИ. Документ длинный и полезный, но вообще британцы все больше отстают в системной публикации госданных.
- The software complexity of nations научная работа переносящая логику экономической сложности (economic complexity) па программное обеспечение в странах. Не то чтобы я согласен с методологией авторов исследующих репозитории на Github в контексте стран, но работа любопытная

#readings #data #ai #economics
🔥7
Ещё полезного чтения про данные, технологии и не только:
- пост в LinkedIn руководителя проекта Open Ownership о том что зарегистрированная в Ирландии компания MariaDB PLC (коммерческая рука популярного одноименного продукта MariaDB) проводит мероприятия по поддержке создания "европейского импортозамещения" под названием "Building the European cloud with MariaDB", но конечный её владелец - это калифорнийский инвестфонд K1 Investment Management. Таких историй будет ещё немало и ждем теперь волны расследований в Евросоюзе о том сколько из денег на формирование собственной независящей от США цифровой инфраструктуры пойдет компаниям из США напрямую и через европейских дочек
- PubTables-v2: A new large-scale dataset for full-page and multi-page table extraction любопытная научная работа команды которая экспериментирует с автоматизацией распознавания и структуризации таблиц из PDF документов и с упоминанием что они планируют выгрузить в открытый доступ обновленную версию набора данных который использовали для обучения. Задача с распознаванием таблиц и их извлечением - это одна из наиболее изученных в автоматизированном визуальном анализе документов, но далеко не является законченной, особенно для языков отличных от английского
- ZeroBrew специальный инструмент под замену brew, управления пакетами в MacOS. Приводит его к виду похожему на пакет uv для Python и ускоряет, улучшает и делает более удобным работу с пакетами в MacOS. Учитывая сколь часто приходится использовать brew - это важное изменение, а сам продукт является иллюстрацией переноса логика из более современной системы управления распространением ПО на более архаичную и ещё и с тем что сделать за короткий срок с помощью ИИ ассистента (код сделан в Claude 4.5).
- ChartGPU библиотека построения графиков с открытым кодом на Typescript с использованием GPU (WebGPU) и с поддержкой больших датасетов. Из особенностей. У неё один единственный разработчик использовавший ИИ ассистента Claude Code, библиотека стремительно набрала популярности (2400+ лайков) после поста в Hacker News, похоже что её разработка заняла всего пару недель (если не меньше).
- ZXC новый алгоритм и инструмент сжатия данных с более высокой скоростью декомпрессии чем LZ4 и другим алгоритмам. Может быть интересен именно в применении к дата-файлам и внутри форматов файлов вроде Parquet, там где скорость доступа к данным важнее уровня сжатия и скорости сжатия. Показывает сильно лучшие результаты на процессорах ARM и Apple Silicon

#opensource #ai #data #readings
👍11