Ivan Begtin

В Южной Корее правительство планирует в ближайшее время опубликовать 15 особо ценных наборов данных для обучения ИИ и корпоративной поддержки. Первые данные необходимы для обучения ИИ агентов, например, в области LegalTech, вторые для типовых задач решаемых корпорациями и для которых нужны государственные данные. Обещают безопасное открытое раскрытие данных с заменой персональных данных на синтетические.

Всего же в Южной Корее опубликовано более 100 тысяч наборов данных и открытых API на национальном портале www.data.go.kr

В Корее есть совершенно чёткий акцент на данные востребованные бизнесом и на коммуникацию с бизнесом заинтересованном в данных и этой стратегии там придерживаются довольно давно.

#opendata #korea #datasets

❤7

1.75K viewsIvan Begtin, 10:51

Ivan Begtin

Я тут всё подумывал рассказать о том что творится в мире с открытыми данными с точки зрения сообщества, но как не начну текст получался слишком длинным, сжать никак не получалось, но я попробую хотя бы кратко изложить:
1. Главная проблема всего явления открытых данных в том что данные - это не инструменты, а топливо. С одной стороны все хотят много бесплатного хорошего топлива, а с другой топливо - это не инструмент. Если для открытого кода появилось бизнес модели в основе которых открытый продукт под свободной лицензией, а коммерческий продукт - это, обычно, SaaS. Для открытых данных так не получается и, в лучшем случае, это бизнес как у Фонда Викимедия - открытое идёт обычными дампами, а коммерческое - как дампы адаптированные для ИИ.
2. Как и многие другие области жизни связанные с данными открытые данные активно пожираются ИИ. Кто-то из активистов демотивировался тем что усилия предпринимают они, а зарабатывают на этом бигтехи, кто-то быстро убежал/убегает заниматься ИИ агентами (в основном наиболее технически подкованные), кто-то выпадает из мейнстрима всё больше и дата инженерия/дата сайенс и открытые данные пересекаются плохо.
3. Практически все компании которые делают инструменты для работы с открытыми данными (Datopian, Link Digital, OpenDataSoft) и др. в мир дата инженерии включены слабо, инструменты их выглядят всё более слабо. Исключения OpenDataSoft и Esri с их ArcGIS Data Hub, из-за изначально хорошей коммерческой стратегии, но рынки внедрения их продуктов весьма ограничены.
4. Сама тусовка по открытым данным весьма левая, анти-бигтеховая, с активным уходом в тематики AI literacy. Гранты от ЕС и близких по духу частных фондов? Все готовы. Взаимодействовать с Microsoft или Amazon или Google по повышению доступности данных на базе облачных платформ или в бизнес интересах ? Нее, не готовы.
5. Основное финансирование открытости данных в межгосударственных организациях уходит на поддержку сообществ в наименее развитых странах глобального юга. Это видно по проектам вроде Global Data Barometer
6. Для развитых стран уже считается что если ты развитая страна то открытость гос-ва и открытость данных - это как бы то что должно быть обеспечено по умолчанию. На это ориентированы рейтинги и мониторинги ЕС и ОЭСР, к примеру.
7. В азиатских странах гораздо более сильный акцент на доступности данных для бизнеса чем для граждан (Южная Корея, Япония, Китай)
8. В науке тема открытых данных просто слилась с тематикой открытого доступа и активно развивается и имеет очень чёткие дисциплинарные границы и особенности.
9. В развитых странах сильные акценты на high-value datasets (датасеты высокой ценности). Не только в Евросоюзе, но там наиболее институционально.
10. В целом российская/русскоязычная тусовка как тусовка одна из крупнейших в мире. Данных мало, а людей немало. В большинстве развитых стран всё наоборот, данных очень много, активистов совсем немного и они довольно сильно фрагментированы.

#opendata #thoughts #community

🔥14❤3🤔2👍1💯1

1.79K viewsIvan Begtin, edited 17:03

Ivan Begtin

И ещё немного про рынок труда в ИТ, главное изменение в том что рынок перебалансировался и снова стал рынком компаний, а не соискателя. Для соискателей - это боль и существенное изменение, но пока этот баланс не уравновесился до конца то и конфликты происходят из-за несоответствия ожидания сторон. Соискатели ищут зарплату выше рынка и условия работы такие какие были несколько лет назад, компании сталкиваются с тем что теперь необходимо делать техническое интервью с каждым потому что слишком много желающих решать домашние задания с помощью ИИ.

Если говорить про РФ то всё идёт к тому что тема импортозамещения уходит в ИТ крупняк, у ИТ компаний постепенно начнут подрезать льготы, а "лайфхаки" вроде зарегистрировать компанию в Сколково и нанимать самозанятых вместо трудовых отношений могут очень быстро перестать работать. Плюс перегрев рынка большим числом окончивших "быстрокурсы" специалистов.

В мире всё идёт стремительно в сторону автоматизации ИТ процессов с помощью ИИ и тотальной замены всех и вся на ИИ не произойдет, но сокращения идут и продолжатся.

Всё это к тому что хорошие психологи всегда в цене:) Или коньяк, армянский коньяк актуален всегда;)

#thoughts #it

👍20✍2😁2

2.39K viewsIvan Begtin, 17:25

Ivan Begtin

Perplexity анонсировали новое API для поиска https://www.perplexity.ai/hub/blog/introducing-the-perplexity-search-api надо потестить ибо больше API для поиска - это полезно и нужно.

#api #ai #websearch

👍6

1.87K viewsIvan Begtin, 14:17

Ivan Begtin

Пару недель назад прошла новость что в Албании назначили первого в мире ИИ министра Diella которая входит в кабинет министров и, кроме всего прочего, обеспечивает прозрачность госзакупок. Я эту новость прочитал ещё давно, но тянул с рассуждениями о ней ожидая критики, потому что уж очень это всё звучало популистски. Критики этой, конечно же, привалило, ключевое в ней то что ИИ системы/чатботы работают настолько хорошо насколько хороши данные на которых они обучены и алгоритмы и обучение Diella непрозрачны, известно только лишь что для этого использовались 36 тысяч документов на середину 2025 года.

Мне слишком много есть что сказать про применение ИИ в части борьбы с коррупцией и в отношении госзакупок в частности, ключевое, конечно же, в том что именно госзакупки - это лишь одна из стадий процессов приобретения работ, товаров и услуг. Все кто хоть более менее как-то знают как это работает изнутри отдают себе отчёт что коррупция возникает не только на процедурном этапе, а не менее важна на этапе планирования и ещё более на этапе исполнения контрактов.

Автоматизировать выявление закупок с признаками риска (red flags) - это не сложная работа, вернее все сложности там с внедрением этого в практику, а не с пониманием того что надо внедрять. А вот автоматизированный контроль с помощью ИИ за тем как принимались решения и тем как исполнялись контракты - вот это самая сложная часть с бесконечной сложностью безумного сопротивления госаппарата на любые попытки применять подобное на практике. Потому что это будет тем что залезает в самую подноготную процессов и даёт возможность тотального контроля.

При этом, применения ИИ хотя бы большей системности в госконтроле и госпланировании более чем возможно. Кое-где даже идут такие эксперименты. Но албанский опыт я на практике не использовал.

Албания не то чтобы большая страна, это 2.7 миллиона человек с ВВП 27 млрд USD, это почти как Новосибирская область в РФ, где примерно столько же людей и ВРП 2.6 млрд USD.

Всё это я к тому что при таких масштабах не нужен ИИ, это всё поддаётся ручному автоматизированному анализу и в таком виде ИИ ассистент - это однозначный популизм.

#thoughts #albania #ai #procurement

😁8👏6❤1💯1

1.89K viewsIvan Begtin, 06:41

Ivan Begtin

Artificial Intelligence and Open Government: Local Perspectives свежий документ от Open Government Partnership о применении ИИ на уровне муниципалитетов/городов, в основном в странах ОЭСР и иных входящих в OGP. Примеров там куда меньше чем хотелось бы, больше про базовые принципы этичности и подотчетности ИИ, но какие-то полезные факты есть с тем что в ИИ всё больше применяют в городских услугах, сервисах коммуникации с гражданами и тд. И, конечно, это документ отражающий больший тренд на сдвиг в сторону открытости и прозрачности применения ИИ в международных организациях.

#ai #opengovernment

👍5

2.5K viewsIvan Begtin, 10:27

Ivan Begtin

Полезный текст The End of the User Interface? о том что интерфейс чат-ботов и ИИ агентов сжирает все остальные интерфейсы пользователей и о будущем специалистов по UI/UX. Рассуждения полезны, а многочисленные ссылки на другие публикации ещё полезнее.

Я тоже размышлял на эту тему и мне такой подход к пользовательскому интерфейсу скорее не нравится. Хотя ИИ агенты умеет давать структурированные ответы, но не всегда работа через естественный язык удобнее чего-либо другого. К примеру, использование ИИ как персональных ассистентов удобно в одних задачах и неудобно в других. К, примеру, когда нужно описаться от конкретной рассылки в почте то можно использовать запрос естественным языком. А если надо отписаться от нескольких десятков и с ручным выбором рассылок, то естественный язык не годится.

Тут вопрос как скоро появятся динамический интерфейсы под разные задачи и насколько будут удобны они.

#thoughts #ui #ux

5👍8🤔2💔1

2.05K viewsIvan Begtin, edited 11:21

Ivan Begtin

Основатели Polars, высокопроизводительного движка на базе Rust для работы с датафреймами подняли $18 миллионов инвестиций на их облачный продукт Polars Cloud в котором обещают интегрировать обработку данных в облаке и сделать её потоковой. За основателей продукта можно только порадоваться, а как это отразится на их открытом продукте пока непонятно, но думаю что достаточно очевидно что явно они меньше смогут уделять внимание открытой части кода и будут больше внимание уделять коммерческому облачному продукту. Впрочем конкуренция суровая и у Polars в избытке альтернатив начиная с DuckDB, продолжая облачным Clickhouse и ещё много какими другими продуктами.

Однако стоит обратить внимание на стратегию которая привела к успешному привлечению инвестиций. Ребята взяли готовый продукт и сохраняя его интерфейс переписали его в более производительную версию за счёт переписывания на низкоуровневом языке, в данном случае Rust.

#opensource #startups #dataengineering

🔥7💯2❤1

1.93K viewsIvan Begtin, edited 18:52

Ivan Begtin

Разное чтение

F-Droid пишут что решение Google об обязательной верификации всех приложений на устройствах на базе Android убьёт их проект и призывает писать своим парламентариям и конгрессменам чтобы те не допустили подобного. История про превращение экосистемы Android'а в закрытую, конечно, плохая. Право распоряжаться собственными устройствами лично я считаю неотъемлимым.

Small data короткий текст в котором автор пишет о том что развитие железа и инструментов работы с данными привело к тому что нет проблемы работать с данными подавляющего большинства компаний без больших инфраструктурных расходов. Тут нет big data, тут только small data. Я на эту тему говорю обычно о том что "Вы не начинаете производить больше данных, а вот инструменты обработки данных развиваются стремительно".

Отдавайте сразу Markdown вместо HTML для скармливания данных LLM. Мысль простая и довольно любопытная, отдавать Markdown текст вместо HTML по HTTP заголовку типа mime. А почему бы и нет?

#readings #data #privacy #ai

TopicPartition

Small Data

Small Data Small data appears to be a very exciting movement that is moving the overton window away from Big Data onto much simpler and cheaper solutions ...

1😱6👍3

1.87K viewsIvan Begtin, 11:06

Ivan Begtin

Стартап с каталогами данных OpenDatSoft превратился на днях в компанию Huwise, а свой продукт теперь позиционируют как data product marketplace. Продукт у них довольно любопытный, структурированное храненилище данных с возможностью получения данных через API и в разнообразных форматах: JSON, CSV, Parquet, GeoJSON и др. Плюс довольно неплохой эксплорер данных с наглядным их просмотром и анализом. Часть внедрений этого каталога были внутрикорпоративные или в режиме компания + её партнёры, но не как каталоги открытых данных. Возможно они почувствовали что на корпоративном рынке денег больше и он выгоднее чем продолжать охватывать муниципалитеты и конкурировать за это с ArcGIS с их ArcGIS Hub.

В любом случае это сдвиг с бизнес модели порталов открытых данных в дата каталоги/дата маркетплейсы для корпоративных задач. В 2022 году они привлекли $25 миллионов инвестиций, а в общей сложности за 10 лет $35 миллионов, на свой SaaS продукт. Интересно как он будет меняться дальше, но чем больше он отходит от открытости тем он менее интересен, поскольку есть альтернативы с открытым кодом.

#opendata #startups #datacatalogs

✍4👍3💯1

1.88K viewsIvan Begtin, edited 16:22

Ivan Begtin

Sim, ещё один любопытный продукт оркестратор потоков данных со встроенной работой с промптами. Доступен под свободной лицензией Apache 2.0, имеет встроенное ИИ и сделан по архитектуре local-first и может использоваться без облачных сервисов, а для ИИ можно связать с Ollama.

Выглядит интересно для задач с минимальной дата инженерией и как альтернатива n8n.

#opensource #dataengineering #ai #datatools

✍6👍2⚡1💯1

1.91K viewsIvan Begtin, 09:29

Ivan Begtin

Есть много харизматичных, умных, талантливых людей от которых стоит держаться как можно дальше (с)

В сообществе Ruby on Rails в очередной раз наезжают тут и тут на Давид Хейнемейера Ханссона, автора этого фреймворка и сооснователя 37 Signals за его политические убеждения и, в частности, свежий пост As I remember London с весьма четкими анти-иммигрантскими взглядами и упоминанием native Brits которых город лишается. Его, собственно, не в первый раз обвиняют и в правых взглядах, и в токсичности, и несколько лет назад по этой причине не пустили делать приветственную речь на конференции RubyConf. В Ruby on Rails сообществе не в первый раз это звучит как DHH Problem.

Но тут у меня есть два тезиса:
1. Основатели многих ИТ и общественных продуктов/организаций/движухи в первую очередь люди как и во всем другом важно отделять личные убеждения и профессиональную работу.
2. Как в том меме которым делился Илон Маск, сейчас чтобы быть "правым" достаточно просто оставаться сохранять свои убеждения потому что многие левые становятся ещё левее.

Вообще не хочется чтобы ещё и мир открытого кода превратился в арену склок вокруг политических убеждений участников.

#opensource #rubyonrails #thoughts

👍19💯10❤3💅2

1.8K viewsIvan Begtin, 08:20

Ivan Begtin

Для тех кто интересуется куда сейчас развивается хранение данных любопытный обзор где автор разбирает современные форматы файлов с данными такие как Parquet как базовый формат и новые форматы BtrBlocks, FastLanes, Lance, Vortex, вообще если так дело дальше пойдет то скоро вместо Parquet будут совсем другие форматы ещё более быстрые и с более эффективным сжатием.

#parquet #data

Medium

Apache Parquet vs. Newer File Formats (BtrBlocks, FastLanes, Lance, Vortex)

For over a decade, Apache Parquet has been the cornerstone of analytical data storage. Parquet emerged in the Hadoop era as an open…

👍16🔥3✍2

2.09K viewsIvan Begtin, 14:04

Ivan Begtin

И ещё один формат для дата файлов F3: The Open-Source Data File Format for the Future вместе с одноимённой статьёй о его преимуществах по сравнению с Parquet. Я вижу прямо таки ренессанс изобретений новых форматов хранения данных и это хорошо, там много с что есть улучшать и всё больший запрос на всё более продвинутое именно файловое хранение данных. Видимо расцвет популярности Parquet многих к этому подтолкнул

#opensource #data #datatools

GitHub

GitHub - future-file-format/F3: [SIGMOD 2026] F3: The Open-Source Data File Format for the Future

[SIGMOD 2026] F3: The Open-Source Data File Format for the Future - future-file-format/F3

✍3⚡2❤‍🔥1

2.05K viewsIvan Begtin, 08:40

Ivan Begtin

Bringing Light to Government Dark Data in the Age of AI любопытный текст от Heather Openshaw из Digital Impact Alliance на тему того что у государств монополия на многие "темные данные" (dark data), неоцифрованные, в устаревших СУБД, с необоснованными ограничениями доступа и тд. И о том что государства должны и могут обеспечивать доступность этих данных во всех смыслах - для граждан, для цифровых сервисов, для обучения ИИ. Акценты там и примеры по наименее развитым странам и обратите внимание на упоминание Digital Public Infrastructure (DPI), а это всё более развивающаяся концепция, в основном, в отношении развивающихся стран.

#readings #data #opendata

Digital Impact Alliance

Bringing Light to Government Dark Data in the Age of AI

Today, governments across the world are collecting and storing vast amounts of data, the majority of which is considered dark data. While high-income countries are beginning to invest in AI tools...

👍4

1.69K viewsIvan Begtin, 08:23

Ivan Begtin

А Ваш ИИ умеет отслеживать галлюцинации ИИ в сдаваемых Вам отчетах? Нет? А пора бы. Делойт вернул австралийскому правительству $440 тысяч за галлюцинации. Доверие докладу подорвано, а у Делойта определённо есть проблема с человеческим интеллектом.

Скоро ли ждать проектов по мониторингу госдокументов и документов подобных отчетов с отслеживанием галлюционаций ?

#ai #deloitte #consulting #australia

👍14😁8⚡5

2.19K viewsIvan Begtin, edited 11:24

Ivan Begtin

Совсем свежий цифровой апокалипсис в Южной Корее перевел оригинальный текст тезисами:
- В Южной Корее 26 сентября произошел крупный пожар в государственном дата-центре Национальной службы информационных ресурсов в городе Тэджон.
- В результате огня уничтожено 858 ТБ важных правительственных данных, включая документы, отчёты и информацию облачного хранилища G-Drive.
- Пожар затронул 647 государственных сервисов, из которых 96 были полностью уничтожены.
- Самое критичное — резервные копии данных для G-Drive хранились в том же здании и тоже сгорели.
- Работа цифровой инфраструктуры страны была практически парализована на неделю.
- По состоянию на сейчас восстановлено только около 18% данных, полный откат займет около месяца.
- Причиной возгорания стало воспламенение изношенной литий-ионной батареи во время профилактических работ.
- В ходе расследования арестованы четыре человека по подозрению в халатности.
- Известно о трагедии — чиновник, курировавший восстановление, покончил с собой.

P.S. Я всё думал что от себя добавить, но реально не могу подобрать слов. И это ведь ещё пожар, стихийное бедствие, а что будет когда военных конфликтов будет в мире побольше, ЦОДы будут объектами диверсий, атак ракет и дронов и ещё много что.

#apocalypsis #digital #southkorea

DCD

858TB of government data may be lost for good after South Korea data center fire

Destroyed drive wasn't backed up, officials say

😢17⚡5😱4🌚3🔥2🌭1

3.15K viewsIvan Begtin, edited 16:50

Ivan Begtin

В блоге Meta интересный пост с анонсом OpenZL нового движка для сжатия данных соревнующегося в сжимании и очень быстро расжимании именно структурированных данных. Оно всё ещё в стадии бета, но главная специфика что в отличие от универсальных компрессов тут используются разные профили сжатия для разных структурированных данных таких как csv или parquet или результаты сохранения pytorch и др. Причем есть режим просто сжатия, а есть режим предварительного обучения на данных, создания профиля и последующего сжатия уже в соответствии с ним, в результате чего сжатия может существенно улучшиться.

Это очень интересная штука и перспективная если её пораспространять на другие типы данных: jsonl, xml и так далее. В любом случае она важна, в первую очередь. дата инженерам потому что составит конкуренцию многим форматам и даст возможность хранить сильно сжатые оригинальные файлы.

Например, нужно очень сильно сжать CSV файлы, и нельзя вот так просто преобразовать их в parquet'ы. Ещё одна фишка в том что данные сжимаются сравнимо по эффективности с xz и zstd, но быстрее и с очень высокой скоростью декомпрессии.

#compression #data #datatools #dataengineering

Engineering at Meta

Introducing OpenZL: An Open Source Format-Aware Compression Framework

OpenZL is a new open source data compression framework that offers lossless compression for structured data. OpenZL is designed to offer the performance of a format-specific compressor with the eas…

1👍8❤2

1.61K viewsIvan Begtin, edited 08:09

Ivan Begtin

😎 У наших друзей RPPA.pro совсем скоро стартует 3-й поток образовательной программы: AI Governance: регулирование и комплаенс ИИ-систем - первый русскоязычный курс, охватывающий все сферы регулирования ИИ, приватность, риски, качество, IP и ИБ - от ведущих экспертов отрасли. Фокус на практику и навыки управления ИИ-продуктами.

🗓

Даты: 27 октября 2025 - февраль 2026

🍏

Объем: 35 часов лекций, 20 часов практики, 3 мастер-класса, проверка знаний, домашние задания / кейсы, поддержка менторов, карьерная консультация, интеграция с комьюнити AIG

🔜 Подать заявку на регистрацию можно здесь

А мы собрали полезную подборку материалов с этого курса и делимся с вами:

🔘

Кто такие AI governance эксперты и где они нужны. Анализ рынка.

🔘

Практики ИИ-грамóтности: что уже внедряют организации.

🔘

Как устроены современные языковые модели. Разбор технологий.

🔘

В каких индустриях спрос на экспертов AI Governance появится раньше? Карьерная консультация.

🔘

Что изменилось в регулировании для интеграторов ChatGPT и других ИИ-моделей?

🔘

Почему нужна маркировка ИИ генераций?

Disclaimer: Не реклама, сам преподаю на этом курсе;) Курс реально полезный для всех кто хочет погрузится в регуляторику, этику и иные аспекты ИИ. Если не успеете на этот, то стоит присоединиться к следующему. Я там буду говорить про технические аспекты AI governance.

#ai #privacy #data #learning #rppa

Please open Telegram to view this post

VIEW IN TELEGRAM

rppaedu.pro

AI Governance

Образовательный продукт AI Governance поможет специалисту стать экспертом в области и научиться превращать технологии из риска в актив

✍7❤4🔥2

2.04K viewsIvan Begtin, 10:09

Ivan Begtin

Вышел Python 3.14.0 — это новая крупная версия языка программирования Python, выпущенная официально в октябре 2025 года. Она включает множество новых функций и оптимизаций по сравнению с Python 3.13:

- Официально поддерживается free-threaded режим (PEP 779), который снимает необходимость глобальной блокировки интерпретатора (GIL), что существенно улучшает многопоточную производительность.
- Введены шаблонные строковые литералы (PEP 750) для кастомной обработки строк, похожие на f-строки.
- Аннотации теперь вычисляются отложенно (PEP 649), улучшая работу с импортами.- Добавлен новый модуль compression.zstd с поддержкой алгоритма сжатия Zstandard (PEP 784).
- Улучшена поддержка UUID, добавлены версии 6-8, и генерация версий 3-5 стала до 40% быстрее.
- Встроенная реализация HMAC с формально проверенным кодом.
- Добавлен безопасный интерфейс для внешнего отладчика без накладных расходов (PEP 768).
- Появился экспериментальный JIT-компилятор в официальных сборках для macOS и Windows.
- Появились официальные бинарные сборки для Android.
-- Улучшения в работе с несколькими интерпретаторами и новый тип интерпретатора для современных компиляторов с ростом производительности.
- Улучшены сообщения об ошибках и стандартные библиотеки.

Всё выглядит как полезные изменения, переходить на эту версию пока рано, но скоро будет возможно

#python #datatools #dataengineering

👍11🔥2

1.48K viewsIvan Begtin, edited 16:24

About

Blog

Apps

Platform