Ivan Begtin – Telegram

Ivan Begtin

9.15K subscribers

2.68K photos

5 videos

115 files

5.51K links

I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

CTO&Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk

Download Telegram

About

Blog

Apps

Platform

9.15K subscribers

Artificial Intelligence and Open Government: Local Perspectives свежий документ от Open Government Partnership о применении ИИ на уровне муниципалитетов/городов, в основном в странах ОЭСР и иных входящих в OGP. Примеров там куда меньше чем хотелось бы, больше про базовые принципы этичности и подотчетности ИИ, но какие-то полезные факты есть с тем что в ИИ всё больше применяют в городских услугах, сервисах коммуникации с гражданами и тд. И, конечно, это документ отражающий больший тренд на сдвиг в сторону открытости и прозрачности применения ИИ в международных организациях.

#ai #opengovernment

👍5

2.5K viewsIvan Begtin, 10:27

Полезный текст The End of the User Interface? о том что интерфейс чат-ботов и ИИ агентов сжирает все остальные интерфейсы пользователей и о будущем специалистов по UI/UX. Рассуждения полезны, а многочисленные ссылки на другие публикации ещё полезнее.

Я тоже размышлял на эту тему и мне такой подход к пользовательскому интерфейсу скорее не нравится. Хотя ИИ агенты умеет давать структурированные ответы, но не всегда работа через естественный язык удобнее чего-либо другого. К примеру, использование ИИ как персональных ассистентов удобно в одних задачах и неудобно в других. К, примеру, когда нужно описаться от конкретной рассылки в почте то можно использовать запрос естественным языком. А если надо отписаться от нескольких десятков и с ручным выбором рассылок, то естественный язык не годится.

Тут вопрос как скоро появятся динамический интерфейсы под разные задачи и насколько будут удобны они.

#thoughts #ui #ux

5👍8🤔2💔1

2.05K viewsIvan Begtin, edited 11:21

Основатели Polars, высокопроизводительного движка на базе Rust для работы с датафреймами подняли $18 миллионов инвестиций на их облачный продукт Polars Cloud в котором обещают интегрировать обработку данных в облаке и сделать её потоковой. За основателей продукта можно только порадоваться, а как это отразится на их открытом продукте пока непонятно, но думаю что достаточно очевидно что явно они меньше смогут уделять внимание открытой части кода и будут больше внимание уделять коммерческому облачному продукту. Впрочем конкуренция суровая и у Polars в избытке альтернатив начиная с DuckDB, продолжая облачным Clickhouse и ещё много какими другими продуктами.

Однако стоит обратить внимание на стратегию которая привела к успешному привлечению инвестиций. Ребята взяли готовый продукт и сохраняя его интерфейс переписали его в более производительную версию за счёт переписывания на низкоуровневом языке, в данном случае Rust.

#opensource #startups #dataengineering

🔥7💯2❤1

1.93K viewsIvan Begtin, edited 18:52

Разное чтение

F-Droid пишут что решение Google об обязательной верификации всех приложений на устройствах на базе Android убьёт их проект и призывает писать своим парламентариям и конгрессменам чтобы те не допустили подобного. История про превращение экосистемы Android'а в закрытую, конечно, плохая. Право распоряжаться собственными устройствами лично я считаю неотъемлимым.

Small data короткий текст в котором автор пишет о том что развитие железа и инструментов работы с данными привело к тому что нет проблемы работать с данными подавляющего большинства компаний без больших инфраструктурных расходов. Тут нет big data, тут только small data. Я на эту тему говорю обычно о том что "Вы не начинаете производить больше данных, а вот инструменты обработки данных развиваются стремительно".

Отдавайте сразу Markdown вместо HTML для скармливания данных LLM. Мысль простая и довольно любопытная, отдавать Markdown текст вместо HTML по HTTP заголовку типа mime. А почему бы и нет?

#readings #data #privacy #ai

Small Data Small data appears to be a very exciting movement that is moving the overton window away from Big Data onto much simpler and cheaper solutions ...

1😱6👍3

1.87K viewsIvan Begtin, 11:06

Стартап с каталогами данных OpenDatSoft превратился на днях в компанию Huwise, а свой продукт теперь позиционируют как data product marketplace. Продукт у них довольно любопытный, структурированное храненилище данных с возможностью получения данных через API и в разнообразных форматах: JSON, CSV, Parquet, GeoJSON и др. Плюс довольно неплохой эксплорер данных с наглядным их просмотром и анализом. Часть внедрений этого каталога были внутрикорпоративные или в режиме компания + её партнёры, но не как каталоги открытых данных. Возможно они почувствовали что на корпоративном рынке денег больше и он выгоднее чем продолжать охватывать муниципалитеты и конкурировать за это с ArcGIS с их ArcGIS Hub.

В любом случае это сдвиг с бизнес модели порталов открытых данных в дата каталоги/дата маркетплейсы для корпоративных задач. В 2022 году они привлекли $25 миллионов инвестиций, а в общей сложности за 10 лет $35 миллионов, на свой SaaS продукт. Интересно как он будет меняться дальше, но чем больше он отходит от открытости тем он менее интересен, поскольку есть альтернативы с открытым кодом.

#opendata #startups #datacatalogs

✍4👍3💯1

1.88K viewsIvan Begtin, edited 16:22

Sim, ещё один любопытный продукт оркестратор потоков данных со встроенной работой с промптами. Доступен под свободной лицензией Apache 2.0, имеет встроенное ИИ и сделан по архитектуре local-first и может использоваться без облачных сервисов, а для ИИ можно связать с Ollama.

Выглядит интересно для задач с минимальной дата инженерией и как альтернатива n8n.

#opensource #dataengineering #ai #datatools

✍6👍2⚡1💯1

1.91K viewsIvan Begtin, 09:29

Есть много харизматичных, умных, талантливых людей от которых стоит держаться как можно дальше (с)

В сообществе Ruby on Rails в очередной раз наезжают тут и тут на Давид Хейнемейера Ханссона, автора этого фреймворка и сооснователя 37 Signals за его политические убеждения и, в частности, свежий пост As I remember London с весьма четкими анти-иммигрантскими взглядами и упоминанием native Brits которых город лишается. Его, собственно, не в первый раз обвиняют и в правых взглядах, и в токсичности, и несколько лет назад по этой причине не пустили делать приветственную речь на конференции RubyConf. В Ruby on Rails сообществе не в первый раз это звучит как DHH Problem.

Но тут у меня есть два тезиса:
1. Основатели многих ИТ и общественных продуктов/организаций/движухи в первую очередь люди как и во всем другом важно отделять личные убеждения и профессиональную работу.
2. Как в том меме которым делился Илон Маск, сейчас чтобы быть "правым" достаточно просто оставаться сохранять свои убеждения потому что многие левые становятся ещё левее.

Вообще не хочется чтобы ещё и мир открытого кода превратился в арену склок вокруг политических убеждений участников.

#opensource #rubyonrails #thoughts

👍19💯10❤3💅2

1.8K viewsIvan Begtin, 08:20

Для тех кто интересуется куда сейчас развивается хранение данных любопытный обзор где автор разбирает современные форматы файлов с данными такие как Parquet как базовый формат и новые форматы BtrBlocks, FastLanes, Lance, Vortex, вообще если так дело дальше пойдет то скоро вместо Parquet будут совсем другие форматы ещё более быстрые и с более эффективным сжатием.

#parquet #data

Apache Parquet vs. Newer File Formats (BtrBlocks, FastLanes, Lance, Vortex)

For over a decade, Apache Parquet has been the cornerstone of analytical data storage. Parquet emerged in the Hadoop era as an open…

👍16🔥3✍2

2.09K viewsIvan Begtin, 14:04

И ещё один формат для дата файлов F3: The Open-Source Data File Format for the Future вместе с одноимённой статьёй о его преимуществах по сравнению с Parquet. Я вижу прямо таки ренессанс изобретений новых форматов хранения данных и это хорошо, там много с что есть улучшать и всё больший запрос на всё более продвинутое именно файловое хранение данных. Видимо расцвет популярности Parquet многих к этому подтолкнул

#opensource #data #datatools

GitHub - future-file-format/F3: [SIGMOD 2026] F3: The Open-Source Data File Format for the Future

[SIGMOD 2026] F3: The Open-Source Data File Format for the Future - future-file-format/F3

✍3⚡2❤‍🔥1

2.05K viewsIvan Begtin, 08:40

Bringing Light to Government Dark Data in the Age of AI любопытный текст от Heather Openshaw из Digital Impact Alliance на тему того что у государств монополия на многие "темные данные" (dark data), неоцифрованные, в устаревших СУБД, с необоснованными ограничениями доступа и тд. И о том что государства должны и могут обеспечивать доступность этих данных во всех смыслах - для граждан, для цифровых сервисов, для обучения ИИ. Акценты там и примеры по наименее развитым странам и обратите внимание на упоминание Digital Public Infrastructure (DPI), а это всё более развивающаяся концепция, в основном, в отношении развивающихся стран.

#readings #data #opendata

Digital Impact Alliance

Bringing Light to Government Dark Data in the Age of AI

Today, governments across the world are collecting and storing vast amounts of data, the majority of which is considered dark data. While high-income countries are beginning to invest in AI tools...

👍4

1.69K viewsIvan Begtin, 08:23

А Ваш ИИ умеет отслеживать галлюцинации ИИ в сдаваемых Вам отчетах? Нет? А пора бы. Делойт вернул австралийскому правительству $440 тысяч за галлюцинации. Доверие докладу подорвано, а у Делойта определённо есть проблема с человеческим интеллектом.

Скоро ли ждать проектов по мониторингу госдокументов и документов подобных отчетов с отслеживанием галлюционаций ?

#ai #deloitte #consulting #australia

👍14😁8⚡5

2.19K viewsIvan Begtin, edited 11:24

Совсем свежий цифровой апокалипсис в Южной Корее перевел оригинальный текст тезисами:
- В Южной Корее 26 сентября произошел крупный пожар в государственном дата-центре Национальной службы информационных ресурсов в городе Тэджон.
- В результате огня уничтожено 858 ТБ важных правительственных данных, включая документы, отчёты и информацию облачного хранилища G-Drive.
- Пожар затронул 647 государственных сервисов, из которых 96 были полностью уничтожены.
- Самое критичное — резервные копии данных для G-Drive хранились в том же здании и тоже сгорели.
- Работа цифровой инфраструктуры страны была практически парализована на неделю.
- По состоянию на сейчас восстановлено только около 18% данных, полный откат займет около месяца.
- Причиной возгорания стало воспламенение изношенной литий-ионной батареи во время профилактических работ.
- В ходе расследования арестованы четыре человека по подозрению в халатности.
- Известно о трагедии — чиновник, курировавший восстановление, покончил с собой.

P.S. Я всё думал что от себя добавить, но реально не могу подобрать слов. И это ведь ещё пожар, стихийное бедствие, а что будет когда военных конфликтов будет в мире побольше, ЦОДы будут объектами диверсий, атак ракет и дронов и ещё много что.

#apocalypsis #digital #southkorea

858TB of government data may be lost for good after South Korea data center fire

Destroyed drive wasn't backed up, officials say

😢17⚡5😱4🌚3🔥2🌭1

3.15K viewsIvan Begtin, edited 16:50

В блоге Meta интересный пост с анонсом OpenZL нового движка для сжатия данных соревнующегося в сжимании и очень быстро расжимании именно структурированных данных. Оно всё ещё в стадии бета, но главная специфика что в отличие от универсальных компрессов тут используются разные профили сжатия для разных структурированных данных таких как csv или parquet или результаты сохранения pytorch и др. Причем есть режим просто сжатия, а есть режим предварительного обучения на данных, создания профиля и последующего сжатия уже в соответствии с ним, в результате чего сжатия может существенно улучшиться.

Это очень интересная штука и перспективная если её пораспространять на другие типы данных: jsonl, xml и так далее. В любом случае она важна, в первую очередь. дата инженерам потому что составит конкуренцию многим форматам и даст возможность хранить сильно сжатые оригинальные файлы.

Например, нужно очень сильно сжать CSV файлы, и нельзя вот так просто преобразовать их в parquet'ы. Ещё одна фишка в том что данные сжимаются сравнимо по эффективности с xz и zstd, но быстрее и с очень высокой скоростью декомпрессии.

#compression #data #datatools #dataengineering

Engineering at Meta

Introducing OpenZL: An Open Source Format-Aware Compression Framework

OpenZL is a new open source data compression framework that offers lossless compression for structured data. OpenZL is designed to offer the performance of a format-specific compressor with the eas…

1👍8❤2

1.61K viewsIvan Begtin, edited 08:09

😎 У наших друзей RPPA.pro совсем скоро стартует 3-й поток образовательной программы: AI Governance: регулирование и комплаенс ИИ-систем - первый русскоязычный курс, охватывающий все сферы регулирования ИИ, приватность, риски, качество, IP и ИБ - от ведущих экспертов отрасли. Фокус на практику и навыки управления ИИ-продуктами.

🗓

Даты: 27 октября 2025 - февраль 2026

🍏

Объем: 35 часов лекций, 20 часов практики, 3 мастер-класса, проверка знаний, домашние задания / кейсы, поддержка менторов, карьерная консультация, интеграция с комьюнити AIG

🔜 Подать заявку на регистрацию можно здесь

А мы собрали полезную подборку материалов с этого курса и делимся с вами:

🔘

Кто такие AI governance эксперты и где они нужны. Анализ рынка.

🔘

Практики ИИ-грамóтности: что уже внедряют организации.

🔘

Как устроены современные языковые модели. Разбор технологий.

🔘

В каких индустриях спрос на экспертов AI Governance появится раньше? Карьерная консультация.

🔘

Что изменилось в регулировании для интеграторов ChatGPT и других ИИ-моделей?

🔘

Почему нужна маркировка ИИ генераций?

Disclaimer: Не реклама, сам преподаю на этом курсе;) Курс реально полезный для всех кто хочет погрузится в регуляторику, этику и иные аспекты ИИ. Если не успеете на этот, то стоит присоединиться к следующему. Я там буду говорить про технические аспекты AI governance.

#ai #privacy #data #learning #rppa

Please open Telegram to view this post

VIEW IN TELEGRAM

Образовательный продукт AI Governance поможет специалисту стать экспертом в области и научиться превращать технологии из риска в актив

✍7❤4🔥2

2.04K viewsIvan Begtin, 10:09

Вышел Python 3.14.0 — это новая крупная версия языка программирования Python, выпущенная официально в октябре 2025 года. Она включает множество новых функций и оптимизаций по сравнению с Python 3.13:

- Официально поддерживается free-threaded режим (PEP 779), который снимает необходимость глобальной блокировки интерпретатора (GIL), что существенно улучшает многопоточную производительность.
- Введены шаблонные строковые литералы (PEP 750) для кастомной обработки строк, похожие на f-строки.
- Аннотации теперь вычисляются отложенно (PEP 649), улучшая работу с импортами.- Добавлен новый модуль compression.zstd с поддержкой алгоритма сжатия Zstandard (PEP 784).
- Улучшена поддержка UUID, добавлены версии 6-8, и генерация версий 3-5 стала до 40% быстрее.
- Встроенная реализация HMAC с формально проверенным кодом.
- Добавлен безопасный интерфейс для внешнего отладчика без накладных расходов (PEP 768).
- Появился экспериментальный JIT-компилятор в официальных сборках для macOS и Windows.
- Появились официальные бинарные сборки для Android.
-- Улучшения в работе с несколькими интерпретаторами и новый тип интерпретатора для современных компиляторов с ростом производительности.
- Улучшены сообщения об ошибках и стандартные библиотеки.

Всё выглядит как полезные изменения, переходить на эту версию пока рано, но скоро будет возможно

#python #datatools #dataengineering

👍11🔥2

1.48K viewsIvan Begtin, edited 16:24

В Форбс статья о том как похорошела Москва в исследовании Kept (ранее KPMG), они приводят и мой комментарий о том что с данными доступными для граждан в РФ и Москве в частности всё довольно таки так себе, не очень, особенно в сравнении с Китаем. Хорошо что хоть Kept обращают на это внимание, но вообще смотря с кем/чем сравнивать. Например, в Армении и Ереване в частности вообще нет портала открытых данных, а в Центральной Азии в городах тоже нет или есть только номинально. А у китайцев доступных данных всё больше

#opendata #moscow #china

Как похорошела: Москва в лидерах мирового рейтинга умных городов от Kept

Москва лишь одну десятую балла уступила Сингапуру во втором рейтинге умных городов от Kept и заняла вторую строчку. Пекин замкнул тройку, Лондон, возглавлявший первую версию рейтинга, занял лишь четвертое место, а Санкт-Петербург, прежде замыкавший п

👍6🔥3

1.59K viewsIvan Begtin, 16:30

Полезные ссылки про данные, технологии и не только:
- Slidecrafting открытая книжка про рисование презентаций с помощью Quatro, продвинутого движка для документирования и визуализации. Лично я этим искусством владею недостаточно, но инструмент полезный и книжка тожа
- StataWales новый портал статистики Уэльса (Великобритания), ничего необычного, кроме акцента на API и некоторых интерфейсных решений таких как отсутствие поиска.
- Supporting open science practices: Why share your research data? заметка в Springer Nature о том почему всё больше открытых данных публикуется учёными. Главное - рост цитируемости работ и требования тех кто финансирует научные работы.
- Data is not available upon request научная статья о том что механизм предоставления данных по запросу работает плохо. Многие авторы научных работ публикующие данные в режиме "по запросу" по запросу их не предоставляют. Работа в журнале по психологии потому что это про психологию.
- Why Conservatives Are Attacking ‘Wokepedia’ статья в WSJ о Grokipedia, ничего сверхнового, просто некоторая систематизация. Я бы добавил к этому взгляд что развитие ИИ позволяет порождать над Википедией любые контентные фильтры. Условно помимо Grokipedia можно быстро порождать версии Википедии с иными "политическими взглядами". Российская РуВики, кстати, сделано по той же модели.
- Opening Doors with AI: How Free Law Project and the Civil Rights Litigation Clearinghouse Are Reimagining Legal Research про проект Free Law по развитию открытости юридических документов и юридических систем. Ориентировано на юридическую систему США, но стоит присмотреться к подходам и потенциальным результатам для любой страны

#ai #data #laws #FAIR #wikipedia #tools #books

A practical guide to slidecrafting — creating functional and beautiful Quarto reveal.js presentations through theming, layout, interactivity, and extensions.

👍4❤3

1.54K viewsIvan Begtin, 05:44

Давно хотел написать почему я так отрицательно отношусь к перезапуску российского портала data.gov.ru, потому что ещё довольно давно, в мирное время, я довольно много думал о том как его можно бы привести если не в хорошее, то в адекватное состояние. Вот тут прилагаю изображением и картой Xmind одну из схем структуризации мыслей тех времен. Если по этой структуре пройтись и проставить галочки есть/нет, то окажется что перезапущенный портал даже по очень формальным критериям очень сомнителен. А это, подчеркну, довольно давние мысли. Сейчас я бы думал ещё и в сторону особо ценных наборов данных, API и данных для ИИ.

В перезапуск data.gov.ru в РФ я как-то уже не особенно верю, там нетехнические проблемы, но как базовый набор действий для любого странового или регионального портала это можно использовать.

#opendata #datagovru #mindmaps

👍7✍1❤1🔥1

1.56K viewsIvan Begtin, 16:40

👍4🔥3

1.34K viewsIvan Begtin, 16:40

data.gov.ru.xmind

👍3

1.2K viewsIvan Begtin, 16:40