Ivan Begtin
9.09K subscribers
2.48K photos
4 videos
113 files
5.23K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

CTO&Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
Artificial Intelligence and Open Government: Local Perspectives свежий документ от Open Government Partnership о применении ИИ на уровне муниципалитетов/городов, в основном в странах ОЭСР и иных входящих в OGP. Примеров там куда меньше чем хотелось бы, больше про базовые принципы этичности и подотчетности ИИ, но какие-то полезные факты есть с тем что в ИИ всё больше применяют в городских услугах, сервисах коммуникации с гражданами и тд. И, конечно, это документ отражающий больший тренд на сдвиг в сторону открытости и прозрачности применения ИИ в международных организациях.

#ai #opengovernment
👍5
Полезный текст The End of the User Interface? о том что интерфейс чат-ботов и ИИ агентов сжирает все остальные интерфейсы пользователей и о будущем специалистов по UI/UX. Рассуждения полезны, а многочисленные ссылки на другие публикации ещё полезнее.

Я тоже размышлял на эту тему и мне такой подход к пользовательскому интерфейсу скорее не нравится. Хотя ИИ агенты умеет давать структурированные ответы, но не всегда работа через естественный язык удобнее чего-либо другого. К примеру, использование ИИ как персональных ассистентов удобно в одних задачах и неудобно в других. К, примеру, когда нужно описаться от конкретной рассылки в почте то можно использовать запрос естественным языком. А если надо отписаться от нескольких десятков и с ручным выбором рассылок, то естественный язык не годится.

Тут вопрос как скоро появятся динамический интерфейсы под разные задачи и насколько будут удобны они.

#thoughts #ui #ux
5👍8🤔2💔1
Основатели Polars, высокопроизводительного движка на базе Rust для работы с датафреймами подняли $18 миллионов инвестиций на их облачный продукт Polars Cloud в котором обещают интегрировать обработку данных в облаке и сделать её потоковой. За основателей продукта можно только порадоваться, а как это отразится на их открытом продукте пока непонятно, но думаю что достаточно очевидно что явно они меньше смогут уделять внимание открытой части кода и будут больше внимание уделять коммерческому облачному продукту. Впрочем конкуренция суровая и у Polars в избытке альтернатив начиная с DuckDB, продолжая облачным Clickhouse и ещё много какими другими продуктами.

Однако стоит обратить внимание на стратегию которая привела к успешному привлечению инвестиций. Ребята взяли готовый продукт и сохраняя его интерфейс переписали его в более производительную версию за счёт переписывания на низкоуровневом языке, в данном случае Rust.

#opensource #startups #dataengineering
🔥7💯21
Разное чтение

F-Droid пишут что решение Google об обязательной верификации всех приложений на устройствах на базе Android убьёт их проект и призывает писать своим парламентариям и конгрессменам чтобы те не допустили подобного. История про превращение экосистемы Android'а в закрытую, конечно, плохая. Право распоряжаться собственными устройствами лично я считаю неотъемлимым.

Small data короткий текст в котором автор пишет о том что развитие железа и инструментов работы с данными привело к тому что нет проблемы работать с данными подавляющего большинства компаний без больших инфраструктурных расходов. Тут нет big data, тут только small data. Я на эту тему говорю обычно о том что "Вы не начинаете производить больше данных, а вот инструменты обработки данных развиваются стремительно".

Отдавайте сразу Markdown вместо HTML для скармливания данных LLM. Мысль простая и довольно любопытная, отдавать Markdown текст вместо HTML по HTTP заголовку типа mime. А почему бы и нет?

#readings #data #privacy #ai
1😱6👍3
Стартап с каталогами данных OpenDatSoft превратился на днях в компанию Huwise, а свой продукт теперь позиционируют как data product marketplace. Продукт у них довольно любопытный, структурированное храненилище данных с возможностью получения данных через API и в разнообразных форматах: JSON, CSV, Parquet, GeoJSON и др. Плюс довольно неплохой эксплорер данных с наглядным их просмотром и анализом. Часть внедрений этого каталога были внутрикорпоративные или в режиме компания + её партнёры, но не как каталоги открытых данных. Возможно они почувствовали что на корпоративном рынке денег больше и он выгоднее чем продолжать охватывать муниципалитеты и конкурировать за это с ArcGIS с их ArcGIS Hub.

В любом случае это сдвиг с бизнес модели порталов открытых данных в дата каталоги/дата маркетплейсы для корпоративных задач. В 2022 году они привлекли $25 миллионов инвестиций, а в общей сложности за 10 лет $35 миллионов, на свой SaaS продукт. Интересно как он будет меняться дальше, но чем больше он отходит от открытости тем он менее интересен, поскольку есть альтернативы с открытым кодом.

#opendata #startups #datacatalogs
4👍3💯1
Sim, ещё один любопытный продукт оркестратор потоков данных со встроенной работой с промптами. Доступен под свободной лицензией Apache 2.0, имеет встроенное ИИ и сделан по архитектуре local-first и может использоваться без облачных сервисов, а для ИИ можно связать с Ollama.

Выглядит интересно для задач с минимальной дата инженерией и как альтернатива n8n.

#opensource #dataengineering #ai #datatools
6👍21💯1
Есть много харизматичных, умных, талантливых людей от которых стоит держаться как можно дальше (с)

В сообществе Ruby on Rails в очередной раз наезжают тут и тут на Давид Хейнемейера Ханссона, автора этого фреймворка и сооснователя 37 Signals за его политические убеждения и, в частности, свежий пост As I remember London с весьма четкими анти-иммигрантскими взглядами и упоминанием native Brits которых город лишается. Его, собственно, не в первый раз обвиняют и в правых взглядах, и в токсичности, и несколько лет назад по этой причине не пустили делать приветственную речь на конференции RubyConf. В Ruby on Rails сообществе не в первый раз это звучит как DHH Problem.

Но тут у меня есть два тезиса:
1. Основатели многих ИТ и общественных продуктов/организаций/движухи в первую очередь люди как и во всем другом важно отделять личные убеждения и профессиональную работу.
2. Как в том меме которым делился Илон Маск, сейчас чтобы быть "правым" достаточно просто оставаться сохранять свои убеждения потому что многие левые становятся ещё левее.

Вообще не хочется чтобы ещё и мир открытого кода превратился в арену склок вокруг политических убеждений участников.

#opensource #rubyonrails #thoughts
👍19💯103💅2
Для тех кто интересуется куда сейчас развивается хранение данных любопытный обзор где автор разбирает современные форматы файлов с данными такие как Parquet как базовый формат и новые форматы BtrBlocks, FastLanes, Lance, Vortex, вообще если так дело дальше пойдет то скоро вместо Parquet будут совсем другие форматы ещё более быстрые и с более эффективным сжатием.

#parquet #data
👍16🔥32
И ещё один формат для дата файлов F3: The Open-Source Data File Format for the Future вместе с одноимённой статьёй о его преимуществах по сравнению с Parquet. Я вижу прямо таки ренессанс изобретений новых форматов хранения данных и это хорошо, там много с что есть улучшать и всё больший запрос на всё более продвинутое именно файловое хранение данных. Видимо расцвет популярности Parquet многих к этому подтолкнул

#opensource #data #datatools
32❤‍🔥1
Bringing Light to Government Dark Data in the Age of AI любопытный текст от Heather Openshaw из Digital Impact Alliance на тему того что у государств монополия на многие "темные данные" (dark data), неоцифрованные, в устаревших СУБД, с необоснованными ограничениями доступа и тд. И о том что государства должны и могут обеспечивать доступность этих данных во всех смыслах - для граждан, для цифровых сервисов, для обучения ИИ. Акценты там и примеры по наименее развитым странам и обратите внимание на упоминание Digital Public Infrastructure (DPI), а это всё более развивающаяся концепция, в основном, в отношении развивающихся стран.

#readings #data #opendata
👍4
А Ваш ИИ умеет отслеживать галлюцинации ИИ в сдаваемых Вам отчетах? Нет? А пора бы. Делойт вернул австралийскому правительству $440 тысяч за галлюцинации. Доверие докладу подорвано, а у Делойта определённо есть проблема с человеческим интеллектом.

Скоро ли ждать проектов по мониторингу госдокументов и документов подобных отчетов с отслеживанием галлюционаций ?

#ai #deloitte #consulting #australia
👍14😁75
Совсем свежий цифровой апокалипсис в Южной Корее перевел оригинальный текст тезисами:
- В Южной Корее 26 сентября произошел крупный пожар в государственном дата-центре Национальной службы информационных ресурсов в городе Тэджон.
- В результате огня уничтожено 858 ТБ важных правительственных данных, включая документы, отчёты и информацию облачного хранилища G-Drive.
- Пожар затронул 647 государственных сервисов, из которых 96 были полностью уничтожены.
- Самое критичное — резервные копии данных для G-Drive хранились в том же здании и тоже сгорели.
- Работа цифровой инфраструктуры страны была практически парализована на неделю.
- По состоянию на сейчас восстановлено только около 18% данных, полный откат займет около месяца.
- Причиной возгорания стало воспламенение изношенной литий-ионной батареи во время профилактических работ.
- В ходе расследования арестованы четыре человека по подозрению в халатности.
- Известно о трагедии — чиновник, курировавший восстановление, покончил с собой.

P.S. Я всё думал что от себя добавить, но реально не могу подобрать слов. И это ведь ещё пожар, стихийное бедствие, а что будет когда военных конфликтов будет в мире побольше, ЦОДы будут объектами диверсий, атак ракет и дронов и ещё много что.

#apocalypsis #digital #southkorea
😢165😱4🌚3🔥2🌭1
В блоге Meta интересный пост с анонсом OpenZL нового движка для сжатия данных соревнующегося в сжимании и очень быстро расжимании именно структурированных данных. Оно всё ещё в стадии бета, но главная специфика что в отличие от универсальных компрессов тут используются разные профили сжатия для разных структурированных данных таких как csv или parquet или результаты сохранения pytorch и др. Причем есть режим просто сжатия, а есть режим предварительного обучения на данных, создания профиля и последующего сжатия уже в соответствии с ним, в результате чего сжатия может существенно улучшиться.

Это очень интересная штука и перспективная если её пораспространять на другие типы данных: jsonl, xml и так далее. В любом случае она важна, в первую очередь. дата инженерам потому что составит конкуренцию многим форматам и даст возможность хранить сильно сжатые оригинальные файлы.

Например, нужно очень сильно сжать CSV файлы, и нельзя вот так просто преобразовать их в parquet'ы. Ещё одна фишка в том что данные сжимаются сравнимо по эффективности с xz и zstd, но быстрее и с очень высокой скоростью декомпрессии.

#compression #data #datatools #dataengineering
1👍82
😎 У наших друзей RPPA.pro совсем скоро стартует 3-й поток образовательной программы: AI Governance: регулирование и комплаенс ИИ-систем - первый русскоязычный курс, охватывающий все сферы регулирования ИИ, приватность, риски, качество, IP и ИБ - от ведущих экспертов отрасли. Фокус на практику и навыки управления ИИ-продуктами.

🗓 Даты: 27 октября 2025 - февраль 2026

🍏 Объем: 35 часов лекций, 20 часов практики, 3 мастер-класса, проверка знаний, домашние задания / кейсы, поддержка менторов, карьерная консультация, интеграция с комьюнити AIG

🔜 Подать заявку на регистрацию можно здесь

А мы собрали полезную подборку материалов с этого курса и делимся с вами:
🔘 Кто такие AI governance эксперты и где они нужны. Анализ рынка.
🔘 Практики ИИ-грамóтности: что уже внедряют организации.
🔘 Как устроены современные языковые модели. Разбор технологий.
🔘 В каких индустриях спрос на экспертов AI Governance появится раньше? Карьерная консультация.
🔘 Что изменилось в регулировании для интеграторов ChatGPT и других ИИ-моделей?
🔘 Почему нужна маркировка ИИ генераций?

Disclaimer: Не реклама, сам преподаю на этом курсе;) Курс реально полезный для всех кто хочет погрузится в регуляторику, этику и иные аспекты ИИ. Если не успеете на этот, то стоит присоединиться к следующему. Я там буду говорить про технические аспекты AI governance.

#ai #privacy #data #learning #rppa
Please open Telegram to view this post
VIEW IN TELEGRAM
74🔥2
Вышел Python 3.14.0 — это новая крупная версия языка программирования Python, выпущенная официально в октябре 2025 года. Она включает множество новых функций и оптимизаций по сравнению с Python 3.13:

- Официально поддерживается free-threaded режим (PEP 779), который снимает необходимость глобальной блокировки интерпретатора (GIL), что существенно улучшает многопоточную производительность.
- Введены шаблонные строковые литералы (PEP 750) для кастомной обработки строк, похожие на f-строки.
- Аннотации теперь вычисляются отложенно (PEP 649), улучшая работу с импортами.- Добавлен новый модуль compression.zstd с поддержкой алгоритма сжатия Zstandard (PEP 784).
- Улучшена поддержка UUID, добавлены версии 6-8, и генерация версий 3-5 стала до 40% быстрее.
- Встроенная реализация HMAC с формально проверенным кодом.
- Добавлен безопасный интерфейс для внешнего отладчика без накладных расходов (PEP 768).
- Появился экспериментальный JIT-компилятор в официальных сборках для macOS и Windows.
- Появились официальные бинарные сборки для Android.
-- Улучшения в работе с несколькими интерпретаторами и новый тип интерпретатора для современных компиляторов с ростом производительности.
- Улучшены сообщения об ошибках и стандартные библиотеки.

Всё выглядит как полезные изменения, переходить на эту версию пока рано, но скоро будет возможно

#python #datatools #dataengineering
👍11🔥2
В Форбс статья о том как похорошела Москва в исследовании Kept (ранее KPMG), они приводят и мой комментарий о том что с данными доступными для граждан в РФ и Москве в частности всё довольно таки так себе, не очень, особенно в сравнении с Китаем. Хорошо что хоть Kept обращают на это внимание, но вообще смотря с кем/чем сравнивать. Например, в Армении и Ереване в частности вообще нет портала открытых данных, а в Центральной Азии в городах тоже нет или есть только номинально. А у китайцев доступных данных всё больше

#opendata #moscow #china
👍6🔥3
Полезные ссылки про данные, технологии и не только:
- Slidecrafting открытая книжка про рисование презентаций с помощью Quatro, продвинутого движка для документирования и визуализации. Лично я этим искусством владею недостаточно, но инструмент полезный и книжка тожа
- StataWales новый портал статистики Уэльса (Великобритания), ничего необычного, кроме акцента на API и некоторых интерфейсных решений таких как отсутствие поиска.
- Supporting open science practices: Why share your research data? заметка в Springer Nature о том почему всё больше открытых данных публикуется учёными. Главное - рост цитируемости работ и требования тех кто финансирует научные работы.
- Data is not available upon request научная статья о том что механизм предоставления данных по запросу работает плохо. Многие авторы научных работ публикующие данные в режиме "по запросу" по запросу их не предоставляют. Работа в журнале по психологии потому что это про психологию.
- Why Conservatives Are Attacking ‘Wokepedia’ статья в WSJ о Grokipedia, ничего сверхнового, просто некоторая систематизация. Я бы добавил к этому взгляд что развитие ИИ позволяет порождать над Википедией любые контентные фильтры. Условно помимо Grokipedia можно быстро порождать версии Википедии с иными "политическими взглядами". Российская РуВики, кстати, сделано по той же модели.
- Opening Doors with AI: How Free Law Project and the Civil Rights Litigation Clearinghouse Are Reimagining Legal Research про проект Free Law по развитию открытости юридических документов и юридических систем. Ориентировано на юридическую систему США, но стоит присмотреться к подходам и потенциальным результатам для любой страны

#ai #data #laws #FAIR #wikipedia #tools #books
👍43
Давно хотел написать почему я так отрицательно отношусь к перезапуску российского портала data.gov.ru, потому что ещё довольно давно, в мирное время, я довольно много думал о том как его можно бы привести если не в хорошее, то в адекватное состояние. Вот тут прилагаю изображением и картой Xmind одну из схем структуризации мыслей тех времен. Если по этой структуре пройтись и проставить галочки есть/нет, то окажется что перезапущенный портал даже по очень формальным критериям очень сомнителен. А это, подчеркну, довольно давние мысли. Сейчас я бы думал ещё и в сторону особо ценных наборов данных, API и данных для ИИ.

В перезапуск data.gov.ru в РФ я как-то уже не особенно верю, там нетехнические проблемы, но как базовый набор действий для любого странового или регионального портала это можно использовать.

#opendata #datagovru #mindmaps
👍711🔥1
👍4🔥3
data.gov.ru.xmind
330.7 KB
👍3