Ivan Begtin
8.99K subscribers
2.59K photos
5 videos
114 files
5.4K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

CTO&Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
Актуальная научная статья на Arxive Buy versus Build an LLM: A Decision Framework for Governments о том покупать ли госорганам (правительствам) LLM или строить собственные. Авторы из разных институций связанных с ИИ, в первую очередь из сингапурских и поэтому, в первую очередь, приводят в пример сингапурский опыт создания государственных LLM, а ещё упоминают швейцарский проект Apertus, проекты LLM из ОАЭ для арабского языка и поддержку Mistral AI в Европе.

В самой статье много полезных рассуждений об имеющихся ограничениях как финансовых, так и технических, но вообще работа на научную не тянет, честно говоря я думал что там будет в итоге методология принятия решения и гораздо более четкие рекомендации, но там вместо этого примерно так: "вот Вам перечень того что надо учесть, а дальше решайте сами"

Почему это важно? Потому что консолидация ИИ инициатив внутри государств неизбежна и многие решения будут исключительно политическими. Например, если в Армении Пр-во захочет сделать ИИ ассистента для госслужащих или граждан то будет ли Пр-во создавать свою ИИ модель или будет разворачивать и инвестировать усилия в одну из существующих? Второй сценарий более вероятен и вот вопрос - какую LLM они используют: открытую китайскую? коммерческую из США? Mistral? российскую от Сбера или Яндекса?

Армения - это как пример страны у которой точно нет ресурсов на создание собственной фундаментальной LLM. Точно также можно рассмотреть Кыргызстан, Грузию, Азербайджан, Узбекистан. Может быть и Казахстан тоже. И это только если пройтись по постсоветским странам.

Вот видите, у меня тоже только вопросы и нет ответов.

#ai #government
👍131
Два свежих документа ОЭСР для внимательного чтения:
- The agentic AI landscape and its conceptual foundations систематизация терминологии, определений и основного понимания того что такое ИИ агенты, агентские ИИ и так далее. Не техническое, но концептуальное погружение в предметную область для регуляторов, руководителей и тд. Про технологии мало, про перевод с технологического профессионального на понятный язык - много. Полезно для всех кто ищет правильные определения и внутреннее понимание этих определений.
- Digital Government Index and Open, Useful and Re-usable Data Index. 2025 Results and Key Findings результаты оценки стран ОЭСР и кандидатов по индексам DGI и OURData за 2025, оценки там вполне ожидаемые, однако поражают крайне низкие оценки Турции по открытости данных и очень особенно низкие оценки в доступности данных в Турции. Из всех стран ОЭСР и кандидатов там ситуация хуже всего. В остальном мало что изменилось - Франция и Корея показывают наилучшие практики в открытости данных,

#readings #oecd #ai #opendata #data #government
5🔥3
В рубрике полезных инструментов для разработки Roam Code движок на Python для индексации кода в семантический граф и снижения потребления токенов ИИ агентами для программирования за счет того что вместо grep'пинга кода они обращаются к индексу. Вернее снижение потребления токенов - это лишь малая часть полезного, остальное заключается ещё и в повышении управляемости, скорости внесения изменений и так далее.

Полезный инструмент для тех кто использует ИИ агентов для работы с кодом.

#opensource #ai #development
3🔥2
Подборка ссылок про данные, технологии и не только:
- Jack Dorsey’s Block to Lay Off 40% of Its Workforce in AI Remake Джек Дорси, создатель Твиттера, а теперь стартапа Block уволил 4000 человек, это 40% команды, с начала года. Что важно, оставшаяся команда плотно работает с ИИ инструментами и то что акции компании только выросли. Да, в ИТ отрасли и в создании ИТ продуктов будут сокращения, это неизбежность и большие возможности для AI-first компаний и большой кризис для всех кто думает что это пройдет мимо них.
- Geopolitical Union книга о том как Евросоюз перешел к реальным шагам в части цифрового/технологического суверенитета, автор Ben Farrand много лет пишет на эту тему. Не видел пока этой книги в открытом доступе, но скорее всего будет любопытной для улучшения понимания причин и стратегического тренда
- GeoAI for Humanitarian Action собственно про спасение людей с помощью ИИ в самом буквальном смысле, руководство по применению ИИ при гуманитарных кризисах связанных со стихией, катастрофами. По большей части речь про анализ спутниковых снимков с помощью ИИ.
- 2028 the Great Data Reckoning автор рассуждает о том что вендоры инструментов работы с данными идут к кризису 2028 года. О том что дата инженерам надо переосмыслять принципы своей работы.


#readings #dataengineering #ai #humanitarian
❤‍🔥41
В рубрике полезных ссылок про данные, технологии и не только, подборка Text-to-SQL решений:
- QueryWeaver (Text2SQL) - решение с открытым кодом от FalkorDB. Из плюсов - открытый код, из минусов работает только с моделями OpenAI и требует развертывания FalkorDB которая с открытым кодом, но доп зависимость. Внутри Python и Typescript. AGPL
- WrenAI обещают поддержку многих СУБД и многих LLM. Есть демо с дашбордами. Внутри Python и Typescript. AGPL
- SQLChat баз поддерживают мало, из LLM только OpenAI. Typescript и MIT лицензия
- Vanna поддерживает много баз, почти любую LLM. Python. Лицензия MIT. Разработка остановилась где-то в апреле 2025 г.
- Build a robust text-to-SQL solution generating complex queries, self-correcting, and querying diverse data sources текст в блоге Amazon о том как Text-to-SQL может реализовываться и в чем есть системные сложности
- Getting AI to write good SQL: Text-to-SQL techniques explained текст в блоге Google на ту же тему и со схожими рекомендациями (задавайте контекст)

#opensource #ai #texttosql #sql
5👍4
The Generative AI Policy Landscape in Open Source интересный обзор публичных политик в отношении использовании ИИ для изменения кода и отправки ошибок у основных проектов с открытым кодом.

Обратите внимание на немалое число проектов где есть полный запрет на изменение кода с помощью ИИ. Будет ли это ещё одним критерием выбора продуктов с открытым кодом из альтернатив?

Представим себе логику "Хочу выбрать себе дистрибутив Linux на сервер, какой брать - с полным запретом на ИИ код или наоборот который преимущественно ИИ пишется?"

И это ни разу не шутка. Велика вероятностью появления альтернативных open source продуктов которые будут делаться в разы меньшими командами .

#opensource #ai
🔥4
В продолжение дискуссии про chardet в связи со сменой лицензии с LGPL на MIT через переписывание всего кода с ИИ ассистентом, разговор там оказался довольно таки шумным и в The Register вышла заметка где проблему разбирают подробнее.

А проблема простая - воспроизведение любого продукта становится настолько простым с помощью ИИ что можно нарушить любую лицензию (почти любую). Берешь софт который тебе нравится и и не нравится его лицензия, даешь ИИ ассистенту нужные вводные и за несколько дней получаешь альтернативу.

Да, да, есть много доводов почему это нецелесообразно на долгий срок, но есть и доводы почему это может быть жизненно необходимо. Многие вендоры ПО ведут себя совсем недружественно к пользователям, внедряют фичи которые ненужны, устанавливают ценники которые отсеивают существенную часть клиентов, переводят покупку лицензий на годовые подписки и тд. В общем их жалет будут не сильно или совсем жалеть не будут.

#ai #softwaredev #software
👍9🤔1
В рубрике как это устроено у них MCP сервис для доступа к данным французского национального портала открытых данных data.gouv.fr.

Опубликовано под MIT лицензией, внутри FastMCP, много примеров и рекомендаций по подключению для разных инструментов.

Выглядит интересно, отложил на попробовать и посмотреть в деле.

#opendata #opensource #ai #mcp
🔥62👍2
Я обещал начать более системно записывать взаимосвязь открытых данных и ИИ и их пересечения и, в том числе, посмотрел конференцию The Future of Open Data которую OKFN провело ко дню открытых данных в мире.

Сессия эта с участием разных предсавителей сообщества открытых данных, разработчиков CKAN, академических и других исследователей. С сильным акцентом на экосистему CKAN'а, но это специфика OKFN откуда разработчики и изначальные создатели CKAN'ат вышли.

Так вот про взаимосвязь ИИ и открытых данных, это довольно сложная история про разные взгляды и восприятие:
1. Отношение к ИИ в среде открытых данных (тусовке) довольно неоднозначное, главным образом из-за довольно сильно левых взглядов у тусовки в целом, неприятию Бигтехов в целом и ИИ Бигтехов в частности. Если, к примеру, я рационализирую применение ИИ инструментов проприетарных или открытых в зависимости от ситуации и стоимости, то многие в среде open data рассматривают только открытые ИИ модели для практического использования. Это не вся тусовка, конечно, но существенная её часть.
2. Одно из очевидных применений - это попытки создавать MCP сервисы как неотъемлимую или дополняемую часть порталов открытых данных. Я ранее писал про MCP сервис французского национального портала данных data.gouv.fr, а также есть MCP сервисы у CKAN'а и PortalJS и других
3. В целом активность тех кто работал над наиболее заметными и известными доступными наборами данных можно разделить на две части. Существенное усиление тех кто поставляет данные для обучения ИИ и сохраняет некоммерческий статус - пример, Common Crawl. Они получили существенно большее финансирование в последние годы (но и это копейки в сравнении с объёмом ИИ рынка), и многих других кто создавал открытые данные, а теперь понимает что их монетизируют другие (ИИ бигтехи в основном).
4. Тут важно понимать что открытые данные сами по себе не являются профессией или специализацией. Профессией может быть дата инженерия или биоинформатика, к примеру. А главные выгодоприобретатели от идущей ИИ революции в данных являются люди с глубоким отраслевым или профессиональным погружением. Поэтому, если честно, то существенная часть мировой тусовки по открытым данным выглядит всё маргинализированной в сравнении с профессиональными дата продуктами. Я ранее ругался про то куда ушла разработка Open Data Editor, который OKFN делали для подготовки данных для публикации в CKAN и это лишь один из многих примеров. Продукт откровенно свернул не туда, ИИ фичи в нем оказались очень плохо реализованными и в целом программная реализация скорее плохая чем какая-либо иная.
5. К примеру, то что мы делаем в Dateno сильно лучше (без хвастовства) чем практически все попытки делать ИИ ассистенты, поисковики и тд в экосистеме открытых данных, но если сравнивать с профессиональными продуктами и сервисами то ещё есть куда расти. MCP сервис у нас уже есть, про ИИ асситентов я расскажу еще позже, но в целом из изучения что делают разные команды в среди именно в тусовке open data никаких инсайтов не дает, увы.
6. Очень много разговоров в среде открытых данных про этику применения ИИ, OKF, к примеру, пытается еще и заниматься AI Literacy, но объективно компетенций в этом немного и это далеко от открытости данных, объективно.

В целом, как я неоднократно вслух рассуждал, с одной стороны открытые данные как уже не настолько sexy тема как лет 10 назад, а с другой стороны сама тема никуда не исчезла и имеет много институционального закрепления во многих странах, сильнее всего в ЕС. Однако видно как многие кто этим занимались десятилетия уже устали, а смены им не будет, потому что ИИ пожирает всё, и интересы активных технарей интересующихся открытостью меняются.

А в целом лично мне нехватает глубины что ли в разговорах про ИИ и про открытость. Например, может ли возникнуть такая ситуация что государства могут отойти от политики открытых данных и вместо этого будут предоставлять ИИ модели обученные на них?

Типа, а зачем вам данные? Вот вам ГосЧат, им и пользуйтесь! А все что есть данные у него внутри и только так.

#opendata #ai #thoughts
👍4🔥421
По поводу законопроекта Об основах государственного регулирования сфер применения технологий искусственного интеллекта в Российской Федерации [1] который многие сейчас обсуждают и который вступит в силу в сентябре 2027 г. если будет принят.

Содержательно его и без меня многие разберут по косточкам, а я могу лишь с небольшой иронией озвучить "в воздух вопросы":
1. Будет ли создано министерство духовно-нравственных ценностей? А то дело то серьезное, во многих законах уже есть (думаю что де-факто есть засекреченное)
2. Все незарегистрированные ИИ ассистенты и агенты заблокируют или китайские ИИ агенты еще останутся доступными? (а есть сомнения? все заблокируют)
3. И самое главное, а чего полтора года то тянуть? Это что же такое, целых полтора года российские суверенные и национальные модели будут бездушные и безнравственные?! (вопрос риторический)

Ссылки:
[1] https://regulation.gov.ru/projects/166424/

#ai #russia #regulation #laws
1😁29👏11😢7🌚32💯2
Подборка ссылок про данные, технологии и не только:
- Kagi онлайн переводчик умеющий переводить на токсично-позитивный язык LinkedIn'а. Переводы смешные, особенно для тех кто в LinkedIn с таким не сталкивался, а те кто сталкивался уже не смеются, там реально многие так пишут;)
- Gdb-engines маленький сайт сравнения 67 движков графовых баз данных с открытым кодом. Полезно для тех кто выбирает графовую базу с нуля или на замену имеющейся
- Gdotv в ту же тему графовых баз, графический клиент ко многим графовым базам, есть версии для Windows, Macos и Linux. Код, увы, не открыт, но есть бесплатная версия
- Lightpanda Browser headless браузер для автоматизации с помощью ИИ агентов, живет в виде Docker контейнера, под AGPL лицензией. Самое интересное что он написан с нуля на языке программирования Zig и не является форком Chromium'а или Webkit'а. Это важно из-за радикально меньших объемов потребления памяти. Продукт как хорошая реклама языка Zig
- DeerFlow (Олений поток) от Bytedance обещают агента умеющего исследовать и кодировать и творить. Открытый код, MIT лицензия. Поддерживает условно любую LLM

#opensource #ai
1👍101
Во Вьетнаме Министерство науки и технологии приняло National Artificial Intelligence Ethics Framework - этический кодекс разработки и эксплуатации ИИ. Сам текст на английском языке пока что найти не удалось, только новость о том что регулирование принято и начнет действовать сразу же, с марта 2026 года.

Как появится текст на английском языке можно будет обсуждать его подробнее, а на вьетнамском он доступен. Что важно так его обязательность, это не саморегулирующий добровольный документ, а набор требований.

И что не менее важно он написан в соответствии с глобальными документам ОЭСР, ЮНЕСКО и EU AI Act

#ai #regulation #vietnam
👍102🌚1🤨1
Написал про российский законопроект регулирования ИИ скучным текстом на Substack и картинкой для тех кто любит смотреть картинки, а не читать (в тексте подробностей больше, если что).

Картинку, конечно, рисовал с помощью ИИ агента.

#ai #regulation #russia
👍266🔥3🤣2🤔1