Ivan Begtin
9.08K subscribers
2.53K photos
4 videos
114 files
5.31K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

CTO&Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
В Южной Корее правительство планирует в ближайшее время опубликовать 15 особо ценных наборов данных для обучения ИИ и корпоративной поддержки. Первые данные необходимы для обучения ИИ агентов, например, в области LegalTech, вторые для типовых задач решаемых корпорациями и для которых нужны государственные данные. Обещают безопасное открытое раскрытие данных с заменой персональных данных на синтетические.

Всего же в Южной Корее опубликовано более 100 тысяч наборов данных и открытых API на национальном портале www.data.go.kr

В Корее есть совершенно чёткий акцент на данные востребованные бизнесом и на коммуникацию с бизнесом заинтересованном в данных и этой стратегии там придерживаются довольно давно.

#opendata #korea #datasets
7
Я тут всё подумывал рассказать о том что творится в мире с открытыми данными с точки зрения сообщества, но как не начну текст получался слишком длинным, сжать никак не получалось, но я попробую хотя бы кратко изложить:
1. Главная проблема всего явления открытых данных в том что данные - это не инструменты, а топливо. С одной стороны все хотят много бесплатного хорошего топлива, а с другой топливо - это не инструмент. Если для открытого кода появилось бизнес модели в основе которых открытый продукт под свободной лицензией, а коммерческий продукт - это, обычно, SaaS. Для открытых данных так не получается и, в лучшем случае, это бизнес как у Фонда Викимедия - открытое идёт обычными дампами, а коммерческое - как дампы адаптированные для ИИ.
2. Как и многие другие области жизни связанные с данными открытые данные активно пожираются ИИ. Кто-то из активистов демотивировался тем что усилия предпринимают они, а зарабатывают на этом бигтехи, кто-то быстро убежал/убегает заниматься ИИ агентами (в основном наиболее технически подкованные), кто-то выпадает из мейнстрима всё больше и дата инженерия/дата сайенс и открытые данные пересекаются плохо.
3. Практически все компании которые делают инструменты для работы с открытыми данными (Datopian, Link Digital, OpenDataSoft) и др. в мир дата инженерии включены слабо, инструменты их выглядят всё более слабо. Исключения OpenDataSoft и Esri с их ArcGIS Data Hub, из-за изначально хорошей коммерческой стратегии, но рынки внедрения их продуктов весьма ограничены.
4. Сама тусовка по открытым данным весьма левая, анти-бигтеховая, с активным уходом в тематики AI literacy. Гранты от ЕС и близких по духу частных фондов? Все готовы. Взаимодействовать с Microsoft или Amazon или Google по повышению доступности данных на базе облачных платформ или в бизнес интересах ? Нее, не готовы.
5. Основное финансирование открытости данных в межгосударственных организациях уходит на поддержку сообществ в наименее развитых странах глобального юга. Это видно по проектам вроде Global Data Barometer
6. Для развитых стран уже считается что если ты развитая страна то открытость гос-ва и открытость данных - это как бы то что должно быть обеспечено по умолчанию. На это ориентированы рейтинги и мониторинги ЕС и ОЭСР, к примеру.
7. В азиатских странах гораздо более сильный акцент на доступности данных для бизнеса чем для граждан (Южная Корея, Япония, Китай)
8. В науке тема открытых данных просто слилась с тематикой открытого доступа и активно развивается и имеет очень чёткие дисциплинарные границы и особенности.
9. В развитых странах сильные акценты на high-value datasets (датасеты высокой ценности). Не только в Евросоюзе, но там наиболее институционально.
10. В целом российская/русскоязычная тусовка как тусовка одна из крупнейших в мире. Данных мало, а людей немало. В большинстве развитых стран всё наоборот, данных очень много, активистов совсем немного и они довольно сильно фрагментированы.

#opendata #thoughts #community
🔥143🤔2👍1💯1
И ещё немного про рынок труда в ИТ, главное изменение в том что рынок перебалансировался и снова стал рынком компаний, а не соискателя. Для соискателей - это боль и существенное изменение, но пока этот баланс не уравновесился до конца то и конфликты происходят из-за несоответствия ожидания сторон. Соискатели ищут зарплату выше рынка и условия работы такие какие были несколько лет назад, компании сталкиваются с тем что теперь необходимо делать техническое интервью с каждым потому что слишком много желающих решать домашние задания с помощью ИИ.

Если говорить про РФ то всё идёт к тому что тема импортозамещения уходит в ИТ крупняк, у ИТ компаний постепенно начнут подрезать льготы, а "лайфхаки" вроде зарегистрировать компанию в Сколково и нанимать самозанятых вместо трудовых отношений могут очень быстро перестать работать. Плюс перегрев рынка большим числом окончивших "быстрокурсы" специалистов.

В мире всё идёт стремительно в сторону автоматизации ИТ процессов с помощью ИИ и тотальной замены всех и вся на ИИ не произойдет, но сокращения идут и продолжатся.

Всё это к тому что хорошие психологи всегда в цене:) Или коньяк, армянский коньяк актуален всегда;)

#thoughts #it
👍202😁2
Perplexity анонсировали новое API для поиска https://www.perplexity.ai/hub/blog/introducing-the-perplexity-search-api надо потестить ибо больше API для поиска - это полезно и нужно.

#api #ai #websearch
👍6
Пару недель назад прошла новость что в Албании назначили первого в мире ИИ министра Diella которая входит в кабинет министров и, кроме всего прочего, обеспечивает прозрачность госзакупок. Я эту новость прочитал ещё давно, но тянул с рассуждениями о ней ожидая критики, потому что уж очень это всё звучало популистски. Критики этой, конечно же, привалило, ключевое в ней то что ИИ системы/чатботы работают настолько хорошо насколько хороши данные на которых они обучены и алгоритмы и обучение Diella непрозрачны, известно только лишь что для этого использовались 36 тысяч документов на середину 2025 года.

Мне слишком много есть что сказать про применение ИИ в части борьбы с коррупцией и в отношении госзакупок в частности, ключевое, конечно же, в том что именно госзакупки - это лишь одна из стадий процессов приобретения работ, товаров и услуг. Все кто хоть более менее как-то знают как это работает изнутри отдают себе отчёт что коррупция возникает не только на процедурном этапе, а не менее важна на этапе планирования и ещё более на этапе исполнения контрактов.

Автоматизировать выявление закупок с признаками риска (red flags) - это не сложная работа, вернее все сложности там с внедрением этого в практику, а не с пониманием того что надо внедрять. А вот автоматизированный контроль с помощью ИИ за тем как принимались решения и тем как исполнялись контракты - вот это самая сложная часть с бесконечной сложностью безумного сопротивления госаппарата на любые попытки применять подобное на практике. Потому что это будет тем что залезает в самую подноготную процессов и даёт возможность тотального контроля.

При этом, применения ИИ хотя бы большей системности в госконтроле и госпланировании более чем возможно. Кое-где даже идут такие эксперименты. Но албанский опыт я на практике не использовал.

Албания не то чтобы большая страна, это 2.7 миллиона человек с ВВП 27 млрд USD, это почти как Новосибирская область в РФ, где примерно столько же людей и ВРП 2.6 млрд USD.

Всё это я к тому что при таких масштабах не нужен ИИ, это всё поддаётся ручному автоматизированному анализу и в таком виде ИИ ассистент - это однозначный популизм.

#thoughts #albania #ai #procurement
😁8👏61💯1
Artificial Intelligence and Open Government: Local Perspectives свежий документ от Open Government Partnership о применении ИИ на уровне муниципалитетов/городов, в основном в странах ОЭСР и иных входящих в OGP. Примеров там куда меньше чем хотелось бы, больше про базовые принципы этичности и подотчетности ИИ, но какие-то полезные факты есть с тем что в ИИ всё больше применяют в городских услугах, сервисах коммуникации с гражданами и тд. И, конечно, это документ отражающий больший тренд на сдвиг в сторону открытости и прозрачности применения ИИ в международных организациях.

#ai #opengovernment
👍5
Полезный текст The End of the User Interface? о том что интерфейс чат-ботов и ИИ агентов сжирает все остальные интерфейсы пользователей и о будущем специалистов по UI/UX. Рассуждения полезны, а многочисленные ссылки на другие публикации ещё полезнее.

Я тоже размышлял на эту тему и мне такой подход к пользовательскому интерфейсу скорее не нравится. Хотя ИИ агенты умеет давать структурированные ответы, но не всегда работа через естественный язык удобнее чего-либо другого. К примеру, использование ИИ как персональных ассистентов удобно в одних задачах и неудобно в других. К, примеру, когда нужно описаться от конкретной рассылки в почте то можно использовать запрос естественным языком. А если надо отписаться от нескольких десятков и с ручным выбором рассылок, то естественный язык не годится.

Тут вопрос как скоро появятся динамический интерфейсы под разные задачи и насколько будут удобны они.

#thoughts #ui #ux
5👍8🤔2💔1
Основатели Polars, высокопроизводительного движка на базе Rust для работы с датафреймами подняли $18 миллионов инвестиций на их облачный продукт Polars Cloud в котором обещают интегрировать обработку данных в облаке и сделать её потоковой. За основателей продукта можно только порадоваться, а как это отразится на их открытом продукте пока непонятно, но думаю что достаточно очевидно что явно они меньше смогут уделять внимание открытой части кода и будут больше внимание уделять коммерческому облачному продукту. Впрочем конкуренция суровая и у Polars в избытке альтернатив начиная с DuckDB, продолжая облачным Clickhouse и ещё много какими другими продуктами.

Однако стоит обратить внимание на стратегию которая привела к успешному привлечению инвестиций. Ребята взяли готовый продукт и сохраняя его интерфейс переписали его в более производительную версию за счёт переписывания на низкоуровневом языке, в данном случае Rust.

#opensource #startups #dataengineering
🔥7💯21
Разное чтение

F-Droid пишут что решение Google об обязательной верификации всех приложений на устройствах на базе Android убьёт их проект и призывает писать своим парламентариям и конгрессменам чтобы те не допустили подобного. История про превращение экосистемы Android'а в закрытую, конечно, плохая. Право распоряжаться собственными устройствами лично я считаю неотъемлимым.

Small data короткий текст в котором автор пишет о том что развитие железа и инструментов работы с данными привело к тому что нет проблемы работать с данными подавляющего большинства компаний без больших инфраструктурных расходов. Тут нет big data, тут только small data. Я на эту тему говорю обычно о том что "Вы не начинаете производить больше данных, а вот инструменты обработки данных развиваются стремительно".

Отдавайте сразу Markdown вместо HTML для скармливания данных LLM. Мысль простая и довольно любопытная, отдавать Markdown текст вместо HTML по HTTP заголовку типа mime. А почему бы и нет?

#readings #data #privacy #ai
1😱6👍3
Стартап с каталогами данных OpenDatSoft превратился на днях в компанию Huwise, а свой продукт теперь позиционируют как data product marketplace. Продукт у них довольно любопытный, структурированное храненилище данных с возможностью получения данных через API и в разнообразных форматах: JSON, CSV, Parquet, GeoJSON и др. Плюс довольно неплохой эксплорер данных с наглядным их просмотром и анализом. Часть внедрений этого каталога были внутрикорпоративные или в режиме компания + её партнёры, но не как каталоги открытых данных. Возможно они почувствовали что на корпоративном рынке денег больше и он выгоднее чем продолжать охватывать муниципалитеты и конкурировать за это с ArcGIS с их ArcGIS Hub.

В любом случае это сдвиг с бизнес модели порталов открытых данных в дата каталоги/дата маркетплейсы для корпоративных задач. В 2022 году они привлекли $25 миллионов инвестиций, а в общей сложности за 10 лет $35 миллионов, на свой SaaS продукт. Интересно как он будет меняться дальше, но чем больше он отходит от открытости тем он менее интересен, поскольку есть альтернативы с открытым кодом.

#opendata #startups #datacatalogs
4👍3💯1
Sim, ещё один любопытный продукт оркестратор потоков данных со встроенной работой с промптами. Доступен под свободной лицензией Apache 2.0, имеет встроенное ИИ и сделан по архитектуре local-first и может использоваться без облачных сервисов, а для ИИ можно связать с Ollama.

Выглядит интересно для задач с минимальной дата инженерией и как альтернатива n8n.

#opensource #dataengineering #ai #datatools
6👍21💯1
Есть много харизматичных, умных, талантливых людей от которых стоит держаться как можно дальше (с)

В сообществе Ruby on Rails в очередной раз наезжают тут и тут на Давид Хейнемейера Ханссона, автора этого фреймворка и сооснователя 37 Signals за его политические убеждения и, в частности, свежий пост As I remember London с весьма четкими анти-иммигрантскими взглядами и упоминанием native Brits которых город лишается. Его, собственно, не в первый раз обвиняют и в правых взглядах, и в токсичности, и несколько лет назад по этой причине не пустили делать приветственную речь на конференции RubyConf. В Ruby on Rails сообществе не в первый раз это звучит как DHH Problem.

Но тут у меня есть два тезиса:
1. Основатели многих ИТ и общественных продуктов/организаций/движухи в первую очередь люди как и во всем другом важно отделять личные убеждения и профессиональную работу.
2. Как в том меме которым делился Илон Маск, сейчас чтобы быть "правым" достаточно просто оставаться сохранять свои убеждения потому что многие левые становятся ещё левее.

Вообще не хочется чтобы ещё и мир открытого кода превратился в арену склок вокруг политических убеждений участников.

#opensource #rubyonrails #thoughts
👍19💯103💅2
Для тех кто интересуется куда сейчас развивается хранение данных любопытный обзор где автор разбирает современные форматы файлов с данными такие как Parquet как базовый формат и новые форматы BtrBlocks, FastLanes, Lance, Vortex, вообще если так дело дальше пойдет то скоро вместо Parquet будут совсем другие форматы ещё более быстрые и с более эффективным сжатием.

#parquet #data
👍16🔥32
И ещё один формат для дата файлов F3: The Open-Source Data File Format for the Future вместе с одноимённой статьёй о его преимуществах по сравнению с Parquet. Я вижу прямо таки ренессанс изобретений новых форматов хранения данных и это хорошо, там много с что есть улучшать и всё больший запрос на всё более продвинутое именно файловое хранение данных. Видимо расцвет популярности Parquet многих к этому подтолкнул

#opensource #data #datatools
32❤‍🔥1
Bringing Light to Government Dark Data in the Age of AI любопытный текст от Heather Openshaw из Digital Impact Alliance на тему того что у государств монополия на многие "темные данные" (dark data), неоцифрованные, в устаревших СУБД, с необоснованными ограничениями доступа и тд. И о том что государства должны и могут обеспечивать доступность этих данных во всех смыслах - для граждан, для цифровых сервисов, для обучения ИИ. Акценты там и примеры по наименее развитым странам и обратите внимание на упоминание Digital Public Infrastructure (DPI), а это всё более развивающаяся концепция, в основном, в отношении развивающихся стран.

#readings #data #opendata
👍4
А Ваш ИИ умеет отслеживать галлюцинации ИИ в сдаваемых Вам отчетах? Нет? А пора бы. Делойт вернул австралийскому правительству $440 тысяч за галлюцинации. Доверие докладу подорвано, а у Делойта определённо есть проблема с человеческим интеллектом.

Скоро ли ждать проектов по мониторингу госдокументов и документов подобных отчетов с отслеживанием галлюционаций ?

#ai #deloitte #consulting #australia
👍14😁85
Совсем свежий цифровой апокалипсис в Южной Корее перевел оригинальный текст тезисами:
- В Южной Корее 26 сентября произошел крупный пожар в государственном дата-центре Национальной службы информационных ресурсов в городе Тэджон.
- В результате огня уничтожено 858 ТБ важных правительственных данных, включая документы, отчёты и информацию облачного хранилища G-Drive.
- Пожар затронул 647 государственных сервисов, из которых 96 были полностью уничтожены.
- Самое критичное — резервные копии данных для G-Drive хранились в том же здании и тоже сгорели.
- Работа цифровой инфраструктуры страны была практически парализована на неделю.
- По состоянию на сейчас восстановлено только около 18% данных, полный откат займет около месяца.
- Причиной возгорания стало воспламенение изношенной литий-ионной батареи во время профилактических работ.
- В ходе расследования арестованы четыре человека по подозрению в халатности.
- Известно о трагедии — чиновник, курировавший восстановление, покончил с собой.

P.S. Я всё думал что от себя добавить, но реально не могу подобрать слов. И это ведь ещё пожар, стихийное бедствие, а что будет когда военных конфликтов будет в мире побольше, ЦОДы будут объектами диверсий, атак ракет и дронов и ещё много что.

#apocalypsis #digital #southkorea
😢175😱4🌚3🔥2🌭1
В блоге Meta интересный пост с анонсом OpenZL нового движка для сжатия данных соревнующегося в сжимании и очень быстро расжимании именно структурированных данных. Оно всё ещё в стадии бета, но главная специфика что в отличие от универсальных компрессов тут используются разные профили сжатия для разных структурированных данных таких как csv или parquet или результаты сохранения pytorch и др. Причем есть режим просто сжатия, а есть режим предварительного обучения на данных, создания профиля и последующего сжатия уже в соответствии с ним, в результате чего сжатия может существенно улучшиться.

Это очень интересная штука и перспективная если её пораспространять на другие типы данных: jsonl, xml и так далее. В любом случае она важна, в первую очередь. дата инженерам потому что составит конкуренцию многим форматам и даст возможность хранить сильно сжатые оригинальные файлы.

Например, нужно очень сильно сжать CSV файлы, и нельзя вот так просто преобразовать их в parquet'ы. Ещё одна фишка в том что данные сжимаются сравнимо по эффективности с xz и zstd, но быстрее и с очень высокой скоростью декомпрессии.

#compression #data #datatools #dataengineering
1👍82
😎 У наших друзей RPPA.pro совсем скоро стартует 3-й поток образовательной программы: AI Governance: регулирование и комплаенс ИИ-систем - первый русскоязычный курс, охватывающий все сферы регулирования ИИ, приватность, риски, качество, IP и ИБ - от ведущих экспертов отрасли. Фокус на практику и навыки управления ИИ-продуктами.

🗓 Даты: 27 октября 2025 - февраль 2026

🍏 Объем: 35 часов лекций, 20 часов практики, 3 мастер-класса, проверка знаний, домашние задания / кейсы, поддержка менторов, карьерная консультация, интеграция с комьюнити AIG

🔜 Подать заявку на регистрацию можно здесь

А мы собрали полезную подборку материалов с этого курса и делимся с вами:
🔘 Кто такие AI governance эксперты и где они нужны. Анализ рынка.
🔘 Практики ИИ-грамóтности: что уже внедряют организации.
🔘 Как устроены современные языковые модели. Разбор технологий.
🔘 В каких индустриях спрос на экспертов AI Governance появится раньше? Карьерная консультация.
🔘 Что изменилось в регулировании для интеграторов ChatGPT и других ИИ-моделей?
🔘 Почему нужна маркировка ИИ генераций?

Disclaimer: Не реклама, сам преподаю на этом курсе;) Курс реально полезный для всех кто хочет погрузится в регуляторику, этику и иные аспекты ИИ. Если не успеете на этот, то стоит присоединиться к следующему. Я там буду говорить про технические аспекты AI governance.

#ai #privacy #data #learning #rppa
Please open Telegram to view this post
VIEW IN TELEGRAM
74🔥2
Вышел Python 3.14.0 — это новая крупная версия языка программирования Python, выпущенная официально в октябре 2025 года. Она включает множество новых функций и оптимизаций по сравнению с Python 3.13:

- Официально поддерживается free-threaded режим (PEP 779), который снимает необходимость глобальной блокировки интерпретатора (GIL), что существенно улучшает многопоточную производительность.
- Введены шаблонные строковые литералы (PEP 750) для кастомной обработки строк, похожие на f-строки.
- Аннотации теперь вычисляются отложенно (PEP 649), улучшая работу с импортами.- Добавлен новый модуль compression.zstd с поддержкой алгоритма сжатия Zstandard (PEP 784).
- Улучшена поддержка UUID, добавлены версии 6-8, и генерация версий 3-5 стала до 40% быстрее.
- Встроенная реализация HMAC с формально проверенным кодом.
- Добавлен безопасный интерфейс для внешнего отладчика без накладных расходов (PEP 768).
- Появился экспериментальный JIT-компилятор в официальных сборках для macOS и Windows.
- Появились официальные бинарные сборки для Android.
-- Улучшения в работе с несколькими интерпретаторами и новый тип интерпретатора для современных компиляторов с ростом производительности.
- Улучшены сообщения об ошибках и стандартные библиотеки.

Всё выглядит как полезные изменения, переходить на эту версию пока рано, но скоро будет возможно

#python #datatools #dataengineering
👍11🔥2