Ivan Begtin

Для тех кто, возможно, еще не читал, полезный материал Coding agents for data analysis от Саймона Уиллисона про применении ИИ агентов в анализе данных. Более всего полезно дата журналистам, даже аналитикам и в разного рода аналитических проектах.

Главное достоинство - все хорошо и просто объяснено, хоть переводи и курс делай по этому материалу.

#opendata #ai #dataanalysis

❤13✍7👍3

1.8K viewsIvan Begtin, edited 12:53

Ivan Begtin

Все тот же Саймон Уиллисон выложил результаты дизассемблирования компилятора Turbo Pascal 3.02A 1986 года в интерактивной форме с посекционной структурой. Выглядит неплохо, но судя по всему и здесь не обошлось без галлюцинаций ИИ

Идея интересная, но ИИ инструменты пока с ней не справляются, во всяком случае не в руках специалистов по ассемблеру и бинарному коду.

Впрочем я предсказываю что это изменится в течение этого года и тогда это будет еще один прорыв в работе ИИ в разработке ПО, потому что объективная человеческая трудоемкость у этих задач сейчас огромная, а тут ИИ вполне может справиться.

#ai #itmarket #softwaredev

❤2🙏1

1.58K viewsIvan Begtin, 09:25

Ivan Begtin

Ещё один любопытный проект про данные в эпоху ИИ ассистентов Legal Data Hunter в виде базы нормативно-правовых и судебных документов со всего мира. Явно пэт-проект одного разработчика, бизнес идея если и прослеживается, то в ней есть сомнения, автор явно хочет продавать API к глобальной базе законов и судебных решений чтобы кто угодно мог подключать их к своим ИИ ассистентам. Открытые данные там тоже есть - это каталог источников юридических документов legal-sources организованный на удивление похоже с тем как я создавал реестр Dateno, в виде большой коллекции YAML файлов по каждому источнику.

Весь проект с конвеерами сбора данных, сбором источников и тд. автор писал с помощью ИИ. Написал он всё это в очень короткий срок и охватывает уже источники более чем по 40 странам (остальные в статусе "запланировано").

Порог входа для создания таких проектов теперь резко сократился, можно сделать в одиночку за недели то что команда разработчиков раньше делала бы полгода или дольше.

Конкретно судьба этого проекта не так интересна, а вот руках более продвинутой LegalTech команды можно создавать базы НПА и судебных решений другого уровня.

#opendata #datasets #ai

❤4✍2🤔2

1.75K viewsIvan Begtin, 12:59

Ivan Begtin

Я готовлюсь к выступлению на одной большой международной конференции (не буду говорить пока на какой, лучше потом выложу презентацию или расскажу постфактум) и ловлю себя на том что почти окончательно перешел от подготовки презентаций в BeautifulAI к Manus.

Тезисы и структуру презентации по прежнему готовлю текстом, но все остальное - упаковка, стиль, компоновка слайдов, акценты, почти всё это сгружаю на ИИ ассистента и вычищаю последовательным набором запросов.

Не скажу что презентации получаются красивее сразу, их надо допиливать практически всегда, но скорость работы над любой новой презентацией сильно возрастает.

👍22🔥5😁2❤‍🔥1

1.64K viewsIvan Begtin, 14:43

Ivan Begtin

Сегодня утром я выступал на конференции Digital Qazaqstan 2026 в Шымкенте, рассказывал про Dateno, Open Data Armenia, про открытые данные в целом, о том как страны могут развивать практики публикации данных. Презентация прошла успешно, судя по числу людей с кем я потом переговорил по итогам. Мероприятие целиком отличное и Шымкент город красивый.

А, помимо моего выступления, я немного послушал о чем говорили на сессии премьер министры стран и структурно это звучало примерно так:
- Казахстан: у нас лучшие цифровые услуги, мы делаем свой государственный LLM и SLM и наши услуги будут еще лучше
- Беларусь: У нас отличный ИТ парк и наши сельхозпроизводители роботизируются ( очень мало про цифровые услуги)
- Узбекистан: У нас есть ИТ парк, программа для стартапов и мы хотим улучшить кредитование ИТ компаний. И да, у нас отличные цифровые услуги
- Кыргызстан: У нас есть ИТ парк, разные программы развития бизнеса в ИТ и отличные цифровые услуги. А еще мы оцифровываем книжки для обучения ИИ
- Россия (Мишустин): покупайте наши импортозамещенные базовые станции и мы делаем свои LLM (показывал Алису, но не Гигачат, заметим) и покупайте наши технологии. Ничего не говорил про российские госуслуги и про Гостех

Я об этом всем чуть позже еще подумаю вслух, а пока готовлюсь к вечернему воркшопу который я буду вести на тему инвентаризации данных.

#opendata #data #kazakhstan

👍25❤9🔥3👌2✍1🐳1

1.83K viewsIvan Begtin, 09:49

Ivan Begtin

В продолжение предыдущей моей публикации про Digital Qazaqstan 2026 и мое выступление там. У меня было примерно 10 минут выступление в котором я рассказывал том как публикуют открытые данные в мире, что изменилось за эти годы, какие государства продвинулись в этом и какие сильные и слабые стороны публикации данных есть в ЕАЭС.

Ключевое - это доступность данных для экономического развития, многие данные необходимы для принятия решений и подход заключается в публикации данных особой ценности (High Valued Datasets) и воприятии создаваемых наборов данных как дата-продуктов, а не как пассивные обременения.

Также мое выступление было про то что государства являются монополиями и не предоставляя бизнесу данные, они замыкают все инновации внутри себя и эти инновации там же и погибают ( и не рождаются )

Что хорошо - многие на конференции ко мне подошли по итогам и было много содержательных разговоров после выступления и в процессе воркшопа который я провел ближе к вечеру про инвентаризацию данных. Рассказывал, например, о том что в Казахстане есть 46 каталогов данных, но о их существовании мало кто знает внутри страны и большая часть этих каталогов - это геопорталы.

Что можно добавить - если вслушаться в речи практически всех премьер-министров которые выступали на пленарной сессии то они озвучивали позицию "государственного патернализма" (кто-то скажет социализма или госкорпоративизма), но важнее то что государства сами создают цифровые услуги и ИИ сервисы вместо развития коммерческих экосистем. Не поймите меня правильно, про поддержку стартапов говорили многие, но инфраструктура для ИТ стартапов это не только налоги, помещения и деньги, но и иные ресурсы которые включают данные. У компаний недостаточно цифрового топлива и это удорожает и усложняет их путь.

Тем кто хоть что-то говорил про цифровые продукты был российские премьер Мишустин, но делал он это не упоминая ни одной компании, а только в режиме "покупайте наши базовые станции", "покупайте наши технологии" и еще "у нас есть Алиса", но даже говоря про Алису Яндекс он не упомянул. (тут сложно не сделать ремарку о том что чья Алиса то. Она точно Яндексу принадлежит, а не российскому пр-ву?🙈)

Надо отдать должное сам форум прошел отлично, организаторы хорошо постарались и посетителей там было какое-то особенно большое количество, самые большие залы собирали ребята рассказывающие про ИИ и ML с точки зрения разработки, там стульев явно нехватало. Единственный явный организационный огрех был в том что на пленарной сессии премьер-министров был еще и представитель Кубы который говорил на испанском. К этому никто готов не был, я его худо-бедно понимал, но в целом ничего значимого он не говорил, так что и рассказать об этом нечего.

#opendata #data #kazakhstan

⚡7🤝5✍4❤4🌚2

1.81K viewsIvan Begtin, 11:15

Ivan Begtin

Ещё мысли вслух:
1. Если присмотреться к наиболее популярным репозиториям в Github'е которые попадают в ежесуточные, еженедельные и ежемесячные списки Trending то в какой-то недавний момент почти 100% из них - это разного рода инструменты и руководства для работы с ИИ агентами или сами открытые ИИ агенты или иной код для работы с ИИ.

В какой-то момент ИИ инструменты стали синонимом разработки, хайп ли или реальные изменения достигшие неимоверного масштаба. Фактически стремительный переход к AI-first разработке не только в том смысле что с помощью ИИ ассистентов пишется код, но и в том что все наиболее популярные разработки идут в сторону усиления этого тренда. Лично я ничего подобного не наблюдал ранее.

2. Похоже осталось немного времени когда ИИ инструменты получат возможность осуществлять оплату от имени пользователя и это сильно повлияет не только на рынок сервисов, но и на рынок дата продуктов (и данных соответственно). Например, когда появится возможность задавать ИИ агентам задачи. в стиле "исследуй то-то и то-то, найди сведения о том-то и том-то, систематизируй знания в этой области и потрать на это исследование не более $200" причем не обязательно на токены для запросов к LLM, а, например, для подключения к платному API, платным базам данных и тд. Неизбежно изменение тарификации, агентская тарификация - это вам не ручная подписка на доступ, это оплата здесь и сейчас по числу запросов к сервису. Это поломает бизнес модели многих онлайн сервисов и даст новые возможности многим другим. И это актуально потому что сейчас ИИ агенты делают выводы по общедоступным сведениям преимущественно.

#thoughts #ai #business

👍13❤10🔥2

1.46K viewsIvan Begtin, edited 17:32

Ivan Begtin

Полезное чтение про данные, технологии и не только:
- Dataset Discovery and Exploration: A Survey наиболее полный современный обзор автоматизированных методов поиска и исследования датасетов. Охватывает архитектуры поисковых систем, методы навигации и аннотирования данных.

- Lost or Found? Discovering Data Needed for Research Результаты крупнейшего глобального опроса о том, как исследователи ищут и используют вторичные данные. Анализируются стратегии поиска и критерии оценки данных.

- Discovering Datasets on the Web Scale: Challenges and Recommendations for Google Dataset Search Исследование пользовательского опыта работы с Google Dataset Search. Рассматриваются ментальные модели пользователей и проблемы работы с гетерогенными данными в масштабах веба.

- Datagraphy: toward a systematic approach to dataset discovery Статья, вводящая концепцию "датаграфии" - формализованного и воспроизводимого метода поиска датасетов, призванного заменить хаотичный поиск.

- Handbook on Using Administrative Data for Research and Evidence-based Policy Практическое руководство по поиску, получению доступа и использованию административных (государственных) данных для исследований.

#data #datadiscovery #datasets #readings

ACM Computing Surveys

Dataset Discovery and Exploration: A Survey | ACM Computing Surveys

Data scientists are tasked with obtaining insights from data. However, suitable data
is often not immediately at hand, and there may be many potentially relevant datasets
in a data lake or in open data repositories. As a result, data discovery and ...

👍2❤1

1.39K viewsIvan Begtin, 06:46

Ivan Begtin

Я, как и обещал, начал чаще писать в рассылку https://begtin.substack.com. Формат рассылки, все таки, существенно отличается от телеграм канала. В моем понимании, телеграм канал под короткие и быстрые заметки, а рассылка для более масштабного чтения, поэтому сейчас я в рассылку отправляю не каждый пост из телеграм канала, а некоторую их совокупность в 2-4 заметки.

Для всех у кого есть сложности доступа к Telegram каналам - рассылка это удобный вариант

Substack

Ivan’s Begtin Newsletter on digital, open and preserved government | Substack

Digital government can't be without openness, preservation, plain language and data, for sure. Click to read Ivan’s Begtin Newsletter on digital, open and preserved government, by Ivan Begtin, a Substack publication with hundreds of subscribers.

1👍13❤2❤‍🔥1

1.39K viewsIvan Begtin, 07:20

Ivan Begtin

Forwarded from Национальный цифровой архив

Для тех кто интересуется где можно найти материалы многих, в том числе закрытых, Wiki проектов в мире. Команда Wikiteam из ArchiveTeam регулярно архивирует вики сайты и результаты их архивации доступны в одноименной коллекции Wikiteam и Интернет Архиве.

Контент сохраняется в форматах XML и в виде архивов с изображениями.

Для тех кто хотел бы архивировать сайты на базе MediaWiki самостоятельно, существует открытый код инструмента wikiteam3.

Учитывая что контент вики сайтов публикуется в виде дампов в XML пригодных для машинной обработки, можно сказать что эта коллекция в Интернет Архиве не только каталог архивов, но и каталог открытых данных.

Важно что многие исчезнувшие русскоязычные вики проекты и те что могут исчезнуть в очень скором времени могут быть найдены именно там.

#opendata #digitalpreservation #wiki #archiveorg

🔥8👍3❤1

1.29K viewsIvan Begtin, 11:48

Ivan Begtin

Знаете ли вы что... в Германии существует инициатива Deutchland-Stack как список обязательных и рекомендуемых открытых стандартов и технологий для использования в государственном секторе. Там есть множество стандартов по самым разным категориям: данные, low-code, интеграция, AI, транспортные протоколы и многое другое. Довольно хорошо описанные, оформленные и почти все с открытым кодом (кроме iOS для Apple)

Картинка и сайты основаны на базе Cloud Native Landscape у которого есть открытый код

#opensource #germany #eu #standards

👍11✍8🔥4❤‍🔥2❤1🤔1

1.49K viewsIvan Begtin, 15:59

Ivan Begtin

Хронология удаления администрацией Дональда Трампа данных из открытого доступа опубликовано в журнале Passport Общества историков Американских внешних отношений (SHAFR)

Подозреваю что список будет больше, здесь лишь часть систематизации. Единственные исключения там это приказы о раскрытии данных об убийстве Кеннеди и раскрытие данных о Джеффри Эпштейне.

И, кстати, как я и предполагал США официально вышли из Open Government Partnership (OGP). Это не означает закрытие проектов по открытости внутри США, они всегда были отвязаны от международных обязательств, кроме малого числа случаев. Это означает, в первую очередь, прекращение финансирования OGP со стороны США и потенциальный кризис организации если страны ЕС и др. не компенсируют выпадающие средства.

#opendata #closedata #trump #usa

✍3👍3😢2❤1😱1🕊1

2.29K viewsIvan Begtin, 09:34

Ivan Begtin

Я тут думал как бы прокомментировать идущие и грядущие блокировки Интернета в РФ. По моему то что предсказания ИА Панорама начали сбываться это более чем иллюстративно к нынешней российской реальности.

Если коротко то политические решения однозначно начали доминировать над экономическими. Нарушается не только личное, но и любое профессиональное общение с теми кто живет и работает в странах с которыми Россия (пока что) торгует. Экономическое воздействие ограничительных мер если и анализируется, то очень секретно, а больше похоже что никак не анализируется. Социальное пространство сильно сжимается и это не одноразовое действие - это ежедневно ощущаемая людьми невозможность общаться с семьёй, друзьями, коллегами и тд.

Ограничения - это хреново, самоизоляция страны это ещё хуже. Я слышу как ощущения "осажденной крепости" у многих сменяется тем что осада то идет не снаружи, а изнутри.

У тех кто еще как-то умудрялся оставаться в России и работать на компании не в России, теперь всё жестче стоит выбор уезжать безвозвратно.

Печально это всё.

#thoughts

💯35❤7🔥3🌚3

1.37K viewsIvan Begtin, edited 13:22

Ivan Begtin

FlowDataGouv проект с открытым кодом с результатами анализа 74 тысяч наборов и 384 тысяч ресурсов опубликованных во Франции на портале data.gouv.fr. Результаты доступны в репозитории и в виде PDF отчета.

Если коротко, то данных много, охватывают все регионы Франции, какие-то больше, какие-то меньше

Большая часть данных доступны, мертвых только 14 тысяч ссылок на ресурсы.

Тексты на французском языке, но всё довольно понятно и так.

Такие исследования стало сильно проще проводить используя ИИ ассистенты, в данном случае автор использовал Mistal + Claude и проделал исследование за январь-март 2026 года

#opendata #france

👍5🔥2❤1

1.26K viewsIvan Begtin, 13:47

Ivan Begtin

Forwarded from Институт Гайдара

📱«Персональные данные ценнее чем нефть?»

Друзья! Институт Гайдара запускает цикл лекций в нашей Библиотеке на Газетном.

Открываем темой, которая касается каждого: поговорим о том, как компании используют наши персональные данные, как это влияет на конкуренцию, манипулирует нашим выбором и что делать с доступом к информации в эпоху ИИ и чрезвычайных ситуаций.

🎤 Лектор:
Антонина Левашенко, заведующая лаборатории анализа лучших международных практик Института Гайдара

👥 Участники дискуссии:
Алексей Мунтян, генеральный директор Privacy Advocates
Иван Бегтин, директор АНО «Информационная культура»

📅 16 апреля (чт), 19:00–20:30
📍 Библиотека на Газетном (Москва, Газетный пер., 3-5, стр. 1)

Вход свободный, но нужна регистрация. Для входа возьмите с собой паспорт.

#Институт_Гайдара

👉 Подписывайтесь на канал Института Гайдара | Читайте нас в Max

👍4❤3🔥2✍1

1.37K viewsIvan Begtin, 14:03

Ivan Begtin

Forwarded from Ревизская сказочница (Elena Korchmina Ревизская сказочница)

Статистика как боевой вид спорта

Готовлюсь к лекциям, читаю чудесную книгу Дайан Койл GDP: A Brief but Affectionate History. Начинается с одной из лучших историй для книги по экономике.

«В Греции статистика — это боевой вид спорта». Это сказал Андреас Георгиу после того, как против него выдвинули уголовные обвинения и начали парламентское расследование. Георгиу, специалист, много лет проработавший в МВФ, в 2010 году стал главой новой греческой статистической службы Elstat. Фактически его назначили ЕС и МВФ. Через несколько недель его почту взломали. Через несколько месяцев бывшие сотрудники старой службы обвинили его в действиях против национальных интересов Греции. Прокуратура предъявила обвинения в служебной халатности, даче ложных показаний и фальсификации официальных данных.

В чём его преступление? Он пытался представить точную статистику о состоянии греческой экономики после десятилетий, в течение которых официальные статистики искажали данные по указанию политиков.

Ставки были высоки. Средства для спасения греческого правительства зависели от достижения жёстких целевых показателей по сокращению государственных расходов и заимствований. Эти показатели выражались как отношение бюджетного дефицита к ВВП.

Официальное расследование Европейской комиссии подтвердило: греческие данные годами подвергались манипуляциям. Глава предыдущей статистической службы в отчаянии обратился к европейским чиновникам в Брюсселе, заявив о вмешательстве. Расследование пришло к выводу: показатели неоднократно искажались, правительство не могло должным образом отслеживать собственные расходы, существуют серьёзные сомнения в подотчётности греческой институциональной системы.
Любой статистик мог сказать это и без расследования. Просто посмотрев на данные. Например, в 2006 году Греция объявила, что ВВП оказался на 25% выше, чем считалось ранее. Включили в расчёты оценку объёма теневой экономики, скрытой от налоговых органов. Удобный момент для увеличения ВВП, поскольку размер ВВП напрямую влияет на оценку кредиторами способности страны обслуживать долг.

Книга Койл рассказывает историю того, как ВВП стал столь важным показателем!

Источник: Diane Coyle. GDP: A Brief but Affectionate History. Princeton University Press, 2014.

✍11❤9😱6👍5

1.35K viewsIvan Begtin, 07:12

Ivan Begtin

Forwarded from Национальный цифровой архив

Какие альтернативные способы трансляции информации канала ruarxive стоит добавить на случай блокировки Telegram? (можно несколько ответов)

Final Results

24%

Сделать блог-рассылку, например, на Substack

20%

Создать отдельный современный форум для новостей и обсуждений

64%

Ничего делать не надо, все кому надо в Telegram зайти смогут

12%

Мигрировать на Mastodon сервер англоязычных цифровых архивистов (digipress.club). Из РФ недоступен

24%

Развернуть свой Mastodon сервер и интегрировать его в общий мировой Fediverse

... всё таки сделать сообщество в VK

... всё таки сделать сообщество в Max

11%

Просто хочу посмотреть ответы или предложить свою идею в чате @ruarxivechat

👍7

242 voters1.16K viewsIvan Begtin, 14:31

Ivan Begtin

Great Data Products ещё один взгляд на открытые данные от основателей source.coop, платформы для публикации данных большого объёма, преимущественно геоданных. Автор делает экскурс в историю открытости данных, с акцентом на данные для исследователей публикуемые в США, с отсылками к первым большим изменениям в регулировании к 2003 году. Но при этом автор говорит о неопределенности слова "open" и предлагает ввести понятие "great" и акцент не на открытых датасетах, а на дата продуктах. Разница в том что дата продукты документированы, сопровождаются, имеют измеримую стоимость создания и поддержания и понятную стоимость для потребителей.

Это очень похоже на концепцию 3-й волны открытых данных (publish with the purpose) и акценте на понимании пользователей и ценности данных для пользователей.

Собственно он приводит в пример Scoop.coop, CommonCrawl, Open Supply Hub и другие специализированные НКО созданные вокруг дата продуктов и экосистемы вокруг дата продуктов.

Ко всему автор ведет и любопытный подкаст с одноименным названием.

И вдогонку к этому тексту пример проекта в виде дата продукта базы штормовых событий на основе данных NOAA с API и специализированным веб интерфейсом для их отображения.

Сама идея дата продуктов не нова, я склоняюсь что за ней однозначное будущее как переход к ценностному отношению к данным - неважно, открытым, регламентированным, для внутреннего использования.

#opendata #dataengineering #dataproducts #data

👍5🔥3

1.49K viewsIvan Begtin, 16:50

Ivan Begtin

В рубрике как это устроено у них могу сказать что для меня открытие этого года в том сколько спешно-успешно распространяются сервисы для доступа к геоданным на базе спецификации STAC (SpatioTemporal Asset Catalogs). Я как раз обновляю реестр каталогов данных Dateno и у меня сервисов поддерживающих спецификацию STAC накопилось уже 168. Скорее будет больше. При этом изначально я их классифицировал как отдельное ПО, потому что большая часть сервисов были на базе референсных реализаций, а правильнее классифицировать как протокол, а ПО определять иначе. Например, после появления расширения STAC для Geoserver (ПО с открытым кодом для создания OGC совместимых API, используется по всему миру)

Особенность спецификации STAC в том что из нее сложно преобразовывать в другие спецификации и отсюда сложность в индексации в Dateno. То что обычно называют датасетом в STAC называется каталогом, в рамках этого каталога публикуются ресурсы охватывающие территорию заданную этим каталогом, но в разные промежутки времени (еженедельно, ежедневно, ежечасно и тд). В результате внутри одного набора данных могут быть тысячи и миллионы файлов. Рассматривать ресурсы как отдельные наборы данных будет некорректно, а как отображать карточки с таким числом файлов непонятно.

И, кстати, перечень каталогов STAC сервисов на StacIndex неполон, у нас в реестре Dateno полнее будет, а в живой природе их сильно больше потому что, как я упоминал, он теперь поддерживается расширением GeoServer'а, а этих инсталляций в мире очень много.

P.S. Кстати, у Роскосмоса тоже есть открытый STAC каталог, с декларируемыми примерно 200ТБ данными. Явление необычное при нынешнем тренде в РФ на закрытость.

#opendata #geodata #datasets

stacspec.org

STAC: SpatioTemporal Asset Catalogs

The STAC specification is a common language to describe geospatial information, so it can more easily be worked with, indexed, and discovered.

👍3✍2❤1🔥1🤝1

2.12K viewsIvan Begtin, 16:36

About

Blog

Apps

Platform