Ivan Begtin
9.01K subscribers
2.64K photos
5 videos
114 files
5.45K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

CTO&Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
Подборка ссылок про данные, технологии и не только:
- Jack Dorsey’s Block to Lay Off 40% of Its Workforce in AI Remake Джек Дорси, создатель Твиттера, а теперь стартапа Block уволил 4000 человек, это 40% команды, с начала года. Что важно, оставшаяся команда плотно работает с ИИ инструментами и то что акции компании только выросли. Да, в ИТ отрасли и в создании ИТ продуктов будут сокращения, это неизбежность и большие возможности для AI-first компаний и большой кризис для всех кто думает что это пройдет мимо них.
- Geopolitical Union книга о том как Евросоюз перешел к реальным шагам в части цифрового/технологического суверенитета, автор Ben Farrand много лет пишет на эту тему. Не видел пока этой книги в открытом доступе, но скорее всего будет любопытной для улучшения понимания причин и стратегического тренда
- GeoAI for Humanitarian Action собственно про спасение людей с помощью ИИ в самом буквальном смысле, руководство по применению ИИ при гуманитарных кризисах связанных со стихией, катастрофами. По большей части речь про анализ спутниковых снимков с помощью ИИ.
- 2028 the Great Data Reckoning автор рассуждает о том что вендоры инструментов работы с данными идут к кризису 2028 года. О том что дата инженерам надо переосмыслять принципы своей работы.


#readings #dataengineering #ai #humanitarian
❤‍🔥41
Полезное чтение про данные, технологии и не только:
- Dataset Discovery and Exploration: A Survey наиболее полный современный обзор автоматизированных методов поиска и исследования датасетов. Охватывает архитектуры поисковых систем, методы навигации и аннотирования данных.

- Lost or Found? Discovering Data Needed for Research Результаты крупнейшего глобального опроса о том, как исследователи ищут и используют вторичные данные. Анализируются стратегии поиска и критерии оценки данных.

- Discovering Datasets on the Web Scale: Challenges and Recommendations for Google Dataset Search Исследование пользовательского опыта работы с Google Dataset Search. Рассматриваются ментальные модели пользователей и проблемы работы с гетерогенными данными в масштабах веба.

- Datagraphy: toward a systematic approach to dataset discovery Статья, вводящая концепцию "датаграфии" - формализованного и воспроизводимого метода поиска датасетов, призванного заменить хаотичный поиск.

- Handbook on Using Administrative Data for Research and Evidence-based Policy Практическое руководство по поиску, получению доступа и использованию административных (государственных) данных для исследований.

#data #datadiscovery #datasets #readings
👍21
Полезное чтение про данные, технологии и не только:
Тексты для обдумывания
- A Fourth Wave of Open Data? Exploring the Spectrum of Scenarios for Open Data and Generative AI одна из немногих попыток переосмыслить подход к открытым данным в эпоху генеративного ИИ. Тексту уже почти 2 года, его авторы когда-то описывали концепцию 3-й волны открытых данных, а теперь пытаются нащупать основу для 4-й. С одной стороны это про полезный взгляд на мир, с другой стороны он скорее смотрит с регуляторной, а не с инженерной практики.
- Can AI Strengthen Policy Dialogue? Lessons from Building ReguLens рассказ про ReguLens, инструмент оценки регуляторных документов с помощью ИИ. Сам инструмент пока представлен только этим текстом и скриншотами и позиционируется как помощник специалиста, а не автономный агент. Достаточно очевидно что таким подходом очень скоро будут оценивать разные международные рейтинги в которых анализируется национальное регулирование.

Про ИИ
- Introducing Muse Spark: Scaling Towards Personal Superintelligence новая ИИ модель от Meta, в этот раз без открытого кода и похоже что бренд Llama пошел в утиль, а к этой модели надо присмотреться. Хотя выбирая между открытыми и закрытыми моделями, открытые предпочтительнее, если он немного, а не сильно хуже.

Сугубо технологическое
- Announcing General Availability of ClickHouse Full-text Search в Clickhouse появился/существенно обновился полнотекстовый поиск. Надо как можно скорее проверять и смотреть можно ли с его помощью заменить поиск в других продуктах. Использовать его вместо эластика в первую очередь
- Why I'm replacing Polars with DuckDB автор пишет про миграцию с Polars на DuckDB, текст короткий, но отражает и мои впечатления. Качество разработки у DuckDB существенно выше.
- profiling-explorer инструмент для визуализации файлов pstats при отладке приложений на Python. Полезный для отладки серверных и пользовательских приложений. Простая штука, хорошо дополняющая работу с profiling.tracing в Python

#opendata #ai #datatools #readings
33👍2🔥2
Полезные ссылки про данные, технологии и не только:
- Artifacts бета версия версионированного хранилища файлов с доступом через Git. Продукт от Cloudflare, под использование ИИ агентами и легким созданием новых репозиторий. Выглядит интересно, под ИИ продукты особенно (а может быть только для них). Из необычного - написан на Zig
- AI Summer, Data Winter: What the AI Index Reveals — and What It Doesn’t Yet Measure статья об исчерпании данных для обучения ИИ и о data winter, сжиманию открытости данных из-за ИИ хайпа. Полезно почитать это и другие статьи автора
- isitagentready.com еще один сервис от Cloudflare который определяет готов ли Ваш сайт для ИИ агентов. Возникает вопрос - а хорошо ли если он готов и плохо ли если не готов? В чем больше выгоды?
- Inside Notion про культуру внутри Notion, читать интересно, хороший жанр

#ai #tools #services #readings
👍71
Полезные ссылки про данные, технологии и не только:
- Auditing AI книжка про то как организовывать аудит ИИ систем. Выглядит полезно, но хочется большего погружения. В открытом доступе под CC-BY-ND
- Understanding Data свежая книга про понимание статистики и дата сайенс в современном мире. Авторы из мира биоинформатики, но большая часть написанного универсальна
- Apodex сингапурский стартап Miromind AI переехал в США и меняет название. Лично я активно пользовался их продуктом MiroThinker и теперь вроде как у них think.apodex.ai. А также у них есть открытый deep research агент в виде открытого кода

#opensource #ai #readings
👍42🔥1
Свежий доклад The 2026 AI Index Report про тренды в ИИ в создании продуктов, регулировании и тд от Стэнфордского университета (кто бы мог подумать, но он в РФ признан нежелательной организацией).

Основные выводы:
1. ИИ продукты стремительно развиваются, плато не достигнуто
2. США лидируют по возможностям и числу дата центров
3. Компании в США и Китае основные лидеры, с таким отрывом что остальных можно даже не рассматривать
4. США лидируют в инвестициях в ИИ, но возможность привлекать таланты снижается
5. ИИ суверенитет все более значимая тема для национальных правительств
6. Число ИИ инцидентов растет
7. Большой разрыв в восприятии ИИ экспертами и гражданами. Эксперты позитивны, общественность негативна.

Чтение полезное, достаточно просто чтобы было понятно, недостаточно просто чтобы было бесполезным.

Там еще много чего интересного в самом документе отчета, например, снижение прозрачности Foundation Models (индекс FMTI).

Это далеко не все, отчет в PDF на 425 страниц и там очень многие аспекты разобраны.

Россия упоминается минимально, только в контексте числа ИИ законов и числа дата центров. Малые страны упоминаются только в контексте языковых бенчмарков.

Повторюсь, что это хорошее чтение, стоит в него погрузиться.

#readings #ai
👍943🔥3🌚1
Zero-Click Government (Без-кликовое правительство) свежая книга от одноименной институции Zero-click government institute основанным Gustavo Moreira Maia основателем бразильского govtech стартапа Colab про коммуникацию граждан и госорганов. Книга, по сути, про проактивные госуслуги и проактивную бюрократию. Примеров у них на сайте и, как я понимаю, в книге довольно много и в разных странах. С сильным искажением в сторону опыта который им доступен - англо и испаноязычного потому что такие же проактивные услуги есть и в Восточной Азии, и в Центральной Азии, и в РФ. Разве что в Африке и арабских странах пока маловато или просто знают об этом не все.

Книга пока не опубликована, можно подписаться на уведомление о ней. В моем представлении Без-кликовое правительство/государство - это еще одна попытка придумать маркетинговое название для государства углубленного цифрового патернализма. В РФ на уровне пр-ва это называют "Государство для людей", в других странах иначе.

Собственно выходя за рамки позитивной повестки проблема в том что проактивное государство - не всегда позитивное. И вопрос области применения этой проактивности. Проактивность в автоматическом предоставлении льгот и налоговых вычетов или проактивность в раздаче цифровых повесток и мобилизации?

В любом случае материалы на эту темы интересны и буду эту книжку заказывать когда она выйдет.

#opengov #readings
👍8💯4❤‍🔥2
Data Not Found любопытный доклад про прозрачность данных социальных сетей, в первую очередь для регуляторов и исследователей. Охватывает регулирование ЕС, Бразилии и Великобритании, весьма любопытное по содержанию, не очень практическое лично для меня сейчас - не вижу практического применения. Хотя один аспект важен - нет оценки возможности архивации содержания соц сетей, или же он явно недостаточен. Есть упоминание про оценку доступности данных через API, но это не одно и то же.

#data #readings
👍31
Обзор протокола MCP от NSA (Агентство национальной безопасности США). Если коротко то так
Хотя MCP действительно является многообещающим базовым уровнем для агентных систем, его текущее
состояние безопасности остается неоднородным и в значительной степени зависит от дисциплины реализации, а не от гарантий протокола.

Сам по себе документ небольшой, 17 страниц, обзорный по многим ранее опубликованным проблемам протокола. Почитать его стоит всем разработчикам и архитекторам работающим с MCP протоколом.

#readings #security #ai
193👍2
Подборка ссылок про данные, технологии и не только:
- Dead on Arrival: The AI Dashboard Problem автор рассуждает о том насколько легко стало делать дашборды с помощью ИИ и насколько они плохи и о том как их улучшить. Полезное чтение для всех кто быстро делает дашборды для себя и других
- SiteRows маленький стартап/проект который позволяет получать данные из сайтов с помощью SQL. На вход много ссылок и SQL запрос - на выход таблицы. Лет 8 назад я проектировал похожий сервис, но к реализации так и не приступил, только сделал автопревращение страниц в RSS ленты. А тут автор пошел дальше и сразу SQL и явно прицел под маленький стартап. По моему бизнес идея там сейчас недостаточно ёмкая, но любопытно
- 2026 State of Analytics Engineering Report от команды dbt и с ожидаемыми выводами о том как растет эта экосистема в первую очередь с акцентом на сам dbt. Полезно для корпоративных аналитиков и дата инженеров
- Digitally delivered services trade dataset набор данных и визуализации по торговле услугами оказываемыми через интернет, включая финансовые услуги, нематериальные ИТ услуги и многое другое. С одной стороны интересно и можно наглядно увидеть, например, резкое падение импорта и экспорта услуг из России с 2022 года (но падение, а не исчезновение). А с другой стороны почему то оценки по услугам из США и по их импорту услуг меньше чем по тому же Евросоюзу в 2.5 раза.Сам набор данных небольшой, CSV файл в 7.5 мегабайт, период охвата 2005-2025 годы.

#opendata #datasets #readings #ai
4👍4
Свежий документ Data Systems at a Crossroads: Official Statistics for a New Era
от авторов из PARIS21 (The Partnership in Statistics for Development in the 21st Century).

Документ о том что национальные статистические службы в мире находятся в кризисе, а ещё вернее в нескольких кризисах:
- Кризис доверия и легитимности. Растёт политизация данных, а «факты» всё чаще проигрывают «чувствам» в публичной дискуссии.
- Финансовый и институциональный. Статистические службы недофинансируются, а их бюджеты несут всё большую нагрузку по сбору новых показателей (SDG, климат, цифровая экономика).
- Кадровый разрыв. Между хорошо оснащёнными НСО, которые уже экспериментируют с ML и NLP, и бюро, где данные до сих пор собираются на бумаге и обрабатываются в Excel, - пропасть.

Вывод там довольно простой, есть развилка в виде:
- продолжения медленного развития "как есть"
- глубокой трансформации статистических служб

Документ ценный краткостью и актуальностью и очень близок к моим собственным размышлениям. Статистические службы наиболее близки по смыслу к "дата-службам", они могли бы (должны бы?) производить оперативную качественную аналитику и поставлять данные, но за десятилетия-столетия своего существования обросли столь объемными фактическими и когнитивными ограничениями что в редких случаях выступают в этой роли.

При это цикл их развития очень медленный в сравнении со всем что творится с данными, а теперь и с ИИ в коммерческом секторе. К официальной статистике обращаются когда нет достойных альтернатив, но она почти всегда отстает в актуальности, полноте и соответствию ожиданиям рынка.

Например, Росстат можно сравнить с Почтой России. Вроде как монументальное явление, а WB и Ozon уже существенно почту потеснили. Монумент еще не рухнул, но вызывает очень много вопросов. Так и с Росстатом, вроде он есть и имеет полномочия, а реальной экспериментальной аналитикой и статистикой в РФ занимаются подведы Пр-ва и фед. органов исп. власти.

Росстат лишь как пример близкий, в похожих кризисах находятся статслужбы очень многих стран. Как они изменяться? Вот в этом документе есть некоторые размышления с примерами.

#statistics #readings
6👍54
Интересный доклад Corporate Transparency от US GAO посвященной прозрачности сведений о конечных владельцах компаний в США. На странице краткое изложение и там же ссылка на подробный текст, полезный всем кто изучает то как устроена прозрачность бизнеса в мире. Если вкратце то GAO рекомендуют обязать компании раскрывать сведения о владельцах что сейчас предусмотрено далеко не всегда.

Все кто сталкивался с открытием бизнеса в США знают что концентрация сложностей там возникает не в момент регистрации компании, а при открытии счета в банке где необходимо проходить due diligence. Похожая ситуация с странах ЕС и еще много в каких развитых странах.

А GAO в своем отчете пишут что в этой ситуации компании которые регистрируются, но не открывают счетов выпадают из под мониторинга и сведения о их владельцах недоступны и они могут использоваться для финансовых преступлений.

Я, правда, не настолько хорошо знаю устройство схем работы с такими компаниями у которых нет счетов в банках и которые не должны проходить due diligence, интересно тогда как они ведут деятельность? Но специалисты, уверен, знают лучше.

В любом случае доклад интересный для понимания как устроена прозрачность бизнеса в США, из известных цифр - там зарегистрировано порядка 50 миллионов того что в РФ называют юр лицами. К ним есть разные требования по прозрачности и они неплохо описаны.

#readings #transparency #usa
41
Европейский пакет по технологическому суверенитету European Technological Sovereignty Package.

Включает 4 инициативы:
- The Chips Act 2.0 - усиление экосистемы полупроводников
- The Cloud and AI Development Act (CADA) - снижение зависимости от иностранных облачных и ИИ провайдеров
- The EU Open Source Strategy - общее снижение зависимостей в технологическом секторе
- A Strategic Roadmap for Digitalisation and AI in Energy - стратегическая дорожная карта для цифровизации и ИИ в энергетике

Почитать будет полезно все эти документы, мне лично были особенно интересны стратегия по открытому коду и CADA. У Евросоюза есть хорошие шансы сделать много что интересного несмотря на огромную бюрократию и множество ограничений. А открытый код еще и повторно использовать можно.

#opensource #eu #regulation #readings
👍1🤔1