Ivan Begtin
8.99K subscribers
2.61K photos
5 videos
114 files
5.42K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

CTO&Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
Полезные ссылки про данные, технологии и не только:
- NERD Language свежий язык программирования заточенный под LLM. Сделан читаемым для людей, но с предположением что пишут на нём ИИ агенты. Идея не кажется странной, но адаптация одного или нескольких существующих языков программирования кажется мне более логичной
- 2025 letter интересные рассуждения автора о сходстве Кремниевой долины и Коммунистической партии Китая в виде отсутствия юмора и исполненности самомнения. Текст реально длинный лонгрид, интересный и тем что автор рассуждений является автором книги Breakneck: China's Quest to Engineer the Future о изменениях в Китае и его инженерной культуре
- UK accounting body to halt remote exams amid AI cheating в Великобритании регулятор экзаменов для бухгалтеров запретил онлайн экзамены кроме как в редких исключительных случаях. Причина очевидна - обман с помощью ИИ агентов. Хотите бесплатную идею для edutech ближайшего будущего? Сеть экзаменационных центров с подавлением сотовых, абсолютно тотальным видеомониторингом с автоматизированным определением использования шпаргалок и устройств, обязательные обыски на входе, охранниками с дубинками и прочими "ноу-хау"
- on the software job climate автор сжато повторяет то о чем многие пишут, денег в ИТ (особенно венчурных) стало глобально меньше, бюджетов на найм в ИТ тоже меньше, а рабочей силы больше. Выводы делайте сами (уже и так все сделали)
- 2025: The year in LLMs автор делает обзор года программирования с помощью разных LLM. Много полезного. Автор - это Саймон Уиллисон, создатель довольно популярного инструмента Datasette для публикации данных онлайн, хорошо известный в кругах открытого кода и открытых данных

#readings #ai #opensource
62❤‍🔥1👌1
Полезный ежегодный обзор баз данных в тексте Databases in 2025: A Year in Review от Andy Pavlov.
Всем кто работает с данными большого объёма будет полезно, вот ключевые выдержки:
1. Доминирование PostgreSQL продолжается. Многие экспериментируют со многими базами данных, но в продакшен всё равно используется PostgreSQL и совместимые с ним и его протоколом аналоги.
2. MCP для каждой СУБД. Похоже что тренд очевиден, MCP прикручивают к каждой СУБД каждый вендор и в этом нет ничего дурного. Больше универсальных интерфейсов полезных и нужных
3. MongoDB против FerretDB. MongoDB активно давит на FerretDB в том что воспроизведение их API и протокола нарушает их права. Такого в области баз данных ранее не было, самое близкое - это разборки Oracle vs Google из-за Java API. Тогда Oracle не удалось убедить суд в том что их права нарушены
4. Поле битвы форматов файлов. Активно идет появление новых стандартов и форматов дата файлов на замену Parquet. Я также не спроста писал про эту тему так часто, там идет сильная конкуренция и интересные технические решения

В оригинальном обзоре много ссылок и других событий

#data #rdbms #readings
5👍5
В продолжение моих малореалистичных предсказаний вот краткое изложение предсказаний экспертов из Стенфорда.

Они гораздо более скучные реалистичные чем мои

ИИ в 2026: от хайпа к реальной оценке и измерению

Эксперты Стэнфорда считают, что 2026-й станет годом прагматичного подхода к искусственному интеллекту: не обещаниями и «чудесами», а оценкой реальной пользы, затрат и рисков. Вместо вопроса *«может ли ИИ что-то сделать?»* будет *«насколько хорошо, в каких условиях и для кого?»*.

AGI не появится
Общий искусственный интеллект широкого уровня всё ещё остаётся в будущем, и в ближайшем году его не ожидают.

«Суверенный» ИИ и геополитика
Страны активнее развивают собственные ИИ-экосистемы или запускают чужие модели на своих серверах, чтобы контролировать данные и снизить зависимость от крупных поставщиков.

Прозрачность и понимание
В науке и медицине усиливается внимание к объяснимости моделей — не только к результату, но и к тому, *как* система приходит к выводу.

Юридический ИИ — сложнее задач
Системы для юристов пойдут дальше простого чернового текста: научатся сопоставлять документы, синтезировать аргументы и давать оценки с привязкой к метрикам качества.

Реализм вместо пузыря
Инвестиции огромны, но эффективность ИИ в реальных процессах всё ещё умеренная. Ожидается больше тщательно измеренных данных о том, где технология действительно работает, а где — нет.

Медицина: постепенный «момент ChatGPT»
Методы самообучения и большие качественные наборы данных позволят медленным до сих пор медицинским ИИ-системам быстрее развиваться — в том числе для диагностики редких заболеваний.

Измерение воздействия на экономику
Вместо деклараций появятся «дашборды» для измерения влияния ИИ на производительность, рабочие места и отходы. Это позволит видеть результаты в реальном времени и корректировать стратегии.

По моему уже пришло время предсказаний в стиле Saxo Bank'а в отношении экономики, только вместо экономики предсказывать будущее ИИ (с другой стороны мы разве не подошли вплотную когда ИИ технологии и экономика становятся синонимами?)

#ai #readings
👍9322
Свежий доклад от Всемирного банка GovTech Maturity Index 2025 : Tracking Public Sector Digital Transformation Worldwide с измерением уровня цифровых технологий в госсекторе.

Некоторые оценки удивляют, например, низкий уровень цифровизации в Польше и высокий уровень в Секторе Газа.

Зато Армения оценена как весьма зрелая страна в этом отношении. Хм

В рейтинге учитывается открытый код и открытые данные и ещё довольно много всего.

Сам рейтинг разделен на 4 суб-рейтинга по зрелости информационных систем, предоставлению услуг, вовлечению граждан и зрелости институтов.

#rankings #readings
👍72
Cursor выпустил гайд с лучшими практиками по использованию ИИ агентов в разработке. Рекомендации все довольно понятные, я бы даже сказал что очевидные для опытных разработчиков, но могут быть не настолько очевидными для кого-то ещё.

Важный акцент там на стадии планирования и вопросам к ассистенту до реализации фич или исправления багов.

А я бы добавил к этому следующее:
1. Планирование через OpenSpec или его аналоги. Очень хорошо структурирует процесс проектирования и коммуникации с ИИ агентом. Для сложного и унаследованного кода - это просто необходимо. В принципе разделять планирование и реализацию, на стадии планирования не меняется код, а результаты - спеки и планы.
2. Cursor и аналогичные инструменты (Antigravity, Copilot и тд.) могут выполнять роль инструментов исследовательской поддержки и аналитики. Например, формируz отчеты по конкурентам, проектируя инструменты бенчмарков с ними, подготовка аналитики по разным функциям, проектирование верхнеуровневой архитектуры и тд.
3. ИИ ассистент - это не только объект проверки (а не кривой ли код он написал?), но и сам является контуром контроля качества. Поэтому на каждой итерации внедрения фич необходим контур создания и проверки тестов, линтинга кода, обновления документации и тд. Это частично решается уже сейчас на стадиях планирования и спеков, но опыт показывает что явное указание этих обязательных проверок дает больше гарантии что код будет не поломан и документация будет актуальной.
4. Инструменты для разработки вполне способны не только писать код, но и писать документы. Подход такой же может быть как к репозиториям кода с использованием спецификаций, планирования и тд. Иначе говоря при проектировании больших ИТ продуктов можно создать отдельный репозиторий с архитектурой продуктов и от него создавать все остальные. Например, если надо условно с нуля сделать продукт у которого есть фронтэнд, бэкэнд, REST API, SDK, интеграционные модули и тд., то вместо того чтобы все засовывать в один репозиторий или сразу разбивать на множество, имеет смысл собрать архитектурный репозиторий с документами.

#ai #coding #thoughts #readings
👍132🔥1🐳1
Интересный взгляд на ИИ разработку в тексте про Gas town от Steve Egge. Много уникальной терминологии так что сразу ещё один текст Gas town decoded

Подход интересный, но к терминологии надо привыкнуть ибо сложное описание процессов через большое число новых понятий.

Почитать точно стоит всем кто проектирует ПО

#readings #aiagents
5
Полезные ссылки про данные, технологии и не только:
- Open Responses открытая спецификация на API для LLM на базе OpenAI Responses API. Вообще API OpenAI и так уже было стандартом де-факто, а тут уже и формализированный и описанный стандарт. Не вижу какой-то конкретной организации за его разработкой, похоже на частную инициативу
- Using AI as a Design Engineer о работе дизайн инженера с использованием ИИ, многое похоже на разработку ПО в целом, но есть свои особенности вроде интеграции с Figma MCP
- Can A.I. Generate New Ideas? может ли ИИ генерировать новые идеи? Статья в NYT, под пэйволом. Краткое изложение можно прочитать тут
- How UK museums are embracing citizens’ assemblies to help frame their futures интересное явление когда британские музеи начали создавать общественные советы которые должны помогать им определять их будущее

#uk #museums #ai #llms #design #ideas #readings
52
Где узнать больше о цифровых архивах, цифровой архивации, инструментах, курсах и так далее? Подборка каталогов ресурсов:
- Awesome Digital Preservation - список инструментов и ресурсов посвященных цифровой архивации, преимущественно ссылки на открытый код и открытые сервисы и наиболее известные платформы (от Ruarxive)
- Awesome Digital Preservation аналогичный список от Digipress сообщества по цифровой архивации, множество ссылок на существующие инструменты и сервисы
- Awesome Web Archiving - список инструментов и ресурсов по веб-архивации, созданы и поддерживается Международным консорциумом сохранения интернета (IIPC)
- ArchiveTeam Wiki большой вики проект от команды ArchiveTeam посвященный веб архивации и архивационным кампаниям для сохранения гибнущих онлайн ресурсов.
- База знания Ruarxive база знаний по цифровой и веб архивации на русском языке от проекта Ruarxive, инструкции по использованию инструментов и сервисов

#webarchives #digitalpreservation #readings
👍6
Data Engineering Design Patterns свежая бесплатная книга от ORelly профинансированная стартапом Buf по дата инженерии.

Полезная для тех кто уже понял что в дата инженерии есть шаблоны, но не знает как они правильно называются/рисуются/описываются/проектируются.

Для тех кому неохота регистрироваться, следующим постом закину в телеграм канал саму книжку в PDF.

А я смотрю на книгу и думаю не написать ли мне самому книжку по data discovery, но объективно понимаю что столько сейчас операционной работы что не до этого.

#dataengineering #readings #data
17🔥8👍5
Полезное чтение A lot of population numbers are fake о том что правительства некоторых стран просто не знают сколько людей там живет потому что не могут измерить и о том что спутниковые данные не спасают.

Автор описывает страны третьего мира, но есть причины полагать что и для других стран всё также неидеально с учетом проживающих там людей - где-то нелегальные мигранты, где-то не все тотально оцифрованы, где-то нецентрализованный учет умерших и родившихся, а где-то прямой централизованный подлог чисел потому что они могут показать скажем так антигуманную политику властей в отношении жителей.

Есть много причин почему цифры могут быть занижены или завышены и эта статья именно о таких случаях.

#readings #data
🔥11👍31🤔1
Полезное чтение:
- Gas town критика от Benn Stancil подхода Gas town где ИИ агенты делают работы вместе с другими ИИ агентами и управляются другими ИИ агентами. Главный аргумент в том что подход Gas Town очень выгоден ИИ бигтеху чтобы подсадить пользователей на чрезмерно дорогие ИИ решения с непонятным результатом.
- Guidelines and best practices for making government datasets ready for AI документ от UK Government Digital Service о том как публиковать данные для обучения ИИ. Документ длинный и полезный, но вообще британцы все больше отстают в системной публикации госданных.
- The software complexity of nations научная работа переносящая логику экономической сложности (economic complexity) па программное обеспечение в странах. Не то чтобы я согласен с методологией авторов исследующих репозитории на Github в контексте стран, но работа любопытная

#readings #data #ai #economics
🔥8
Ещё полезного чтения про данные, технологии и не только:
- пост в LinkedIn руководителя проекта Open Ownership о том что зарегистрированная в Ирландии компания MariaDB PLC (коммерческая рука популярного одноименного продукта MariaDB) проводит мероприятия по поддержке создания "европейского импортозамещения" под названием "Building the European cloud with MariaDB", но конечный её владелец - это калифорнийский инвестфонд K1 Investment Management. Таких историй будет ещё немало и ждем теперь волны расследований в Евросоюзе о том сколько из денег на формирование собственной независящей от США цифровой инфраструктуры пойдет компаниям из США напрямую и через европейских дочек
- PubTables-v2: A new large-scale dataset for full-page and multi-page table extraction любопытная научная работа команды которая экспериментирует с автоматизацией распознавания и структуризации таблиц из PDF документов и с упоминанием что они планируют выгрузить в открытый доступ обновленную версию набора данных который использовали для обучения. Задача с распознаванием таблиц и их извлечением - это одна из наиболее изученных в автоматизированном визуальном анализе документов, но далеко не является законченной, особенно для языков отличных от английского
- ZeroBrew специальный инструмент под замену brew, управления пакетами в MacOS. Приводит его к виду похожему на пакет uv для Python и ускоряет, улучшает и делает более удобным работу с пакетами в MacOS. Учитывая сколь часто приходится использовать brew - это важное изменение, а сам продукт является иллюстрацией переноса логика из более современной системы управления распространением ПО на более архаичную и ещё и с тем что сделать за короткий срок с помощью ИИ ассистента (код сделан в Claude 4.5).
- ChartGPU библиотека построения графиков с открытым кодом на Typescript с использованием GPU (WebGPU) и с поддержкой больших датасетов. Из особенностей. У неё один единственный разработчик использовавший ИИ ассистента Claude Code, библиотека стремительно набрала популярности (2400+ лайков) после поста в Hacker News, похоже что её разработка заняла всего пару недель (если не меньше).
- ZXC новый алгоритм и инструмент сжатия данных с более высокой скоростью декомпрессии чем LZ4 и другим алгоритмам. Может быть интересен именно в применении к дата-файлам и внутри форматов файлов вроде Parquet, там где скорость доступа к данным важнее уровня сжатия и скорости сжатия. Показывает сильно лучшие результаты на процессорах ARM и Apple Silicon

#opensource #ai #data #readings
👍11
Полезные ссылки про данные, технологии и не только:
- The Economics of the Modern Data Stack есть ощущение что сам термин Modern Data Stack уже уходит в прошлое, но тут любопытный разговор про ETL продукты с открытым кодом и про то что Matatika поглотили Meltano. Лично мне продукт Meltano нравился на каких-то ранних его стадиях когда они форкнулись из Gitlab, но дальше они как-то совсем провалили коммуникацию с сообществом. Причем я не могу понять как они такое умудрились.
- Antigravity Manager open source инструмент для управления аккаунтами для работы с Google Antigravity. Решает важную проблему с тем что работать с Antigravity с корпоративного аккаунта очень накладно и откровенно неудобно. Вообще Google сделали хороший продукт технически и весьма неудобный в части управления им. Инструмент на китайском языке почти полностью
- Inside OpenAI’s in-house data agent о том как с помощью дата агента работают с данными внутри OpenAI. Любопытны идеи, но повторять один в один такое не надо, то что могут позволить себе те у кого ресурсы не ограничены - это не для всех.

#readings #ai #data
👍5🔥21
Два свежих документа ОЭСР для внимательного чтения:
- The agentic AI landscape and its conceptual foundations систематизация терминологии, определений и основного понимания того что такое ИИ агенты, агентские ИИ и так далее. Не техническое, но концептуальное погружение в предметную область для регуляторов, руководителей и тд. Про технологии мало, про перевод с технологического профессионального на понятный язык - много. Полезно для всех кто ищет правильные определения и внутреннее понимание этих определений.
- Digital Government Index and Open, Useful and Re-usable Data Index. 2025 Results and Key Findings результаты оценки стран ОЭСР и кандидатов по индексам DGI и OURData за 2025, оценки там вполне ожидаемые, однако поражают крайне низкие оценки Турции по открытости данных и очень особенно низкие оценки в доступности данных в Турции. Из всех стран ОЭСР и кандидатов там ситуация хуже всего. В остальном мало что изменилось - Франция и Корея показывают наилучшие практики в открытости данных,

#readings #oecd #ai #opendata #data #government
5🔥3
Подборка ссылок про данные, технологии и не только:
- Jack Dorsey’s Block to Lay Off 40% of Its Workforce in AI Remake Джек Дорси, создатель Твиттера, а теперь стартапа Block уволил 4000 человек, это 40% команды, с начала года. Что важно, оставшаяся команда плотно работает с ИИ инструментами и то что акции компании только выросли. Да, в ИТ отрасли и в создании ИТ продуктов будут сокращения, это неизбежность и большие возможности для AI-first компаний и большой кризис для всех кто думает что это пройдет мимо них.
- Geopolitical Union книга о том как Евросоюз перешел к реальным шагам в части цифрового/технологического суверенитета, автор Ben Farrand много лет пишет на эту тему. Не видел пока этой книги в открытом доступе, но скорее всего будет любопытной для улучшения понимания причин и стратегического тренда
- GeoAI for Humanitarian Action собственно про спасение людей с помощью ИИ в самом буквальном смысле, руководство по применению ИИ при гуманитарных кризисах связанных со стихией, катастрофами. По большей части речь про анализ спутниковых снимков с помощью ИИ.
- 2028 the Great Data Reckoning автор рассуждает о том что вендоры инструментов работы с данными идут к кризису 2028 года. О том что дата инженерам надо переосмыслять принципы своей работы.


#readings #dataengineering #ai #humanitarian
❤‍🔥41
Полезное чтение про данные, технологии и не только:
- Dataset Discovery and Exploration: A Survey наиболее полный современный обзор автоматизированных методов поиска и исследования датасетов. Охватывает архитектуры поисковых систем, методы навигации и аннотирования данных.

- Lost or Found? Discovering Data Needed for Research Результаты крупнейшего глобального опроса о том, как исследователи ищут и используют вторичные данные. Анализируются стратегии поиска и критерии оценки данных.

- Discovering Datasets on the Web Scale: Challenges and Recommendations for Google Dataset Search Исследование пользовательского опыта работы с Google Dataset Search. Рассматриваются ментальные модели пользователей и проблемы работы с гетерогенными данными в масштабах веба.

- Datagraphy: toward a systematic approach to dataset discovery Статья, вводящая концепцию "датаграфии" - формализованного и воспроизводимого метода поиска датасетов, призванного заменить хаотичный поиск.

- Handbook on Using Administrative Data for Research and Evidence-based Policy Практическое руководство по поиску, получению доступа и использованию административных (государственных) данных для исследований.

#data #datadiscovery #datasets #readings
👍21
Полезное чтение про данные, технологии и не только:
Тексты для обдумывания
- A Fourth Wave of Open Data? Exploring the Spectrum of Scenarios for Open Data and Generative AI одна из немногих попыток переосмыслить подход к открытым данным в эпоху генеративного ИИ. Тексту уже почти 2 года, его авторы когда-то описывали концепцию 3-й волны открытых данных, а теперь пытаются нащупать основу для 4-й. С одной стороны это про полезный взгляд на мир, с другой стороны он скорее смотрит с регуляторной, а не с инженерной практики.
- Can AI Strengthen Policy Dialogue? Lessons from Building ReguLens рассказ про ReguLens, инструмент оценки регуляторных документов с помощью ИИ. Сам инструмент пока представлен только этим текстом и скриншотами и позиционируется как помощник специалиста, а не автономный агент. Достаточно очевидно что таким подходом очень скоро будут оценивать разные международные рейтинги в которых анализируется национальное регулирование.

Про ИИ
- Introducing Muse Spark: Scaling Towards Personal Superintelligence новая ИИ модель от Meta, в этот раз без открытого кода и похоже что бренд Llama пошел в утиль, а к этой модели надо присмотреться. Хотя выбирая между открытыми и закрытыми моделями, открытые предпочтительнее, если он немного, а не сильно хуже.

Сугубо технологическое
- Announcing General Availability of ClickHouse Full-text Search в Clickhouse появился/существенно обновился полнотекстовый поиск. Надо как можно скорее проверять и смотреть можно ли с его помощью заменить поиск в других продуктах. Использовать его вместо эластика в первую очередь
- Why I'm replacing Polars with DuckDB автор пишет про миграцию с Polars на DuckDB, текст короткий, но отражает и мои впечатления. Качество разработки у DuckDB существенно выше.
- profiling-explorer инструмент для визуализации файлов pstats при отладке приложений на Python. Полезный для отладки серверных и пользовательских приложений. Простая штука, хорошо дополняющая работу с profiling.tracing в Python

#opendata #ai #datatools #readings
33👍2🔥2
Полезные ссылки про данные, технологии и не только:
- Artifacts бета версия версионированного хранилища файлов с доступом через Git. Продукт от Cloudflare, под использование ИИ агентами и легким созданием новых репозиторий. Выглядит интересно, под ИИ продукты особенно (а может быть только для них). Из необычного - написан на Zig
- AI Summer, Data Winter: What the AI Index Reveals — and What It Doesn’t Yet Measure статья об исчерпании данных для обучения ИИ и о data winter, сжиманию открытости данных из-за ИИ хайпа. Полезно почитать это и другие статьи автора
- isitagentready.com еще один сервис от Cloudflare который определяет готов ли Ваш сайт для ИИ агентов. Возникает вопрос - а хорошо ли если он готов и плохо ли если не готов? В чем больше выгоды?
- Inside Notion про культуру внутри Notion, читать интересно, хороший жанр

#ai #tools #services #readings
👍71
Полезные ссылки про данные, технологии и не только:
- Auditing AI книжка про то как организовывать аудит ИИ систем. Выглядит полезно, но хочется большего погружения. В открытом доступе под CC-BY-ND
- Understanding Data свежая книга про понимание статистики и дата сайенс в современном мире. Авторы из мира биоинформатики, но большая часть написанного универсальна
- Apodex сингапурский стартап Miromind AI переехал в США и меняет название. Лично я активно пользовался их продуктом MiroThinker и теперь вроде как у них think.apodex.ai. А также у них есть открытый deep research агент в виде открытого кода

#opensource #ai #readings
👍42🔥1
Свежий доклад The 2026 AI Index Report про тренды в ИИ в создании продуктов, регулировании и тд от Стэнфордского университета (кто бы мог подумать, но он в РФ признан нежелательной организацией).

Основные выводы:
1. ИИ продукты стремительно развиваются, плато не достигнуто
2. США лидируют по возможностям и числу дата центров
3. Компании в США и Китае основные лидеры, с таким отрывом что остальных можно даже не рассматривать
4. США лидируют в инвестициях в ИИ, но возможность привлекать таланты снижается
5. ИИ суверенитет все более значимая тема для национальных правительств
6. Число ИИ инцидентов растет
7. Большой разрыв в восприятии ИИ экспертами и гражданами. Эксперты позитивны, общественность негативна.

Чтение полезное, достаточно просто чтобы было понятно, недостаточно просто чтобы было бесполезным.

Там еще много чего интересного в самом документе отчета, например, снижение прозрачности Foundation Models (индекс FMTI).

Это далеко не все, отчет в PDF на 425 страниц и там очень многие аспекты разобраны.

Россия упоминается минимально, только в контексте числа ИИ законов и числа дата центров. Малые страны упоминаются только в контексте языковых бенчмарков.

Повторюсь, что это хорошее чтение, стоит в него погрузиться.

#readings #ai
👍943🔥3🌚1