Ivan Begtin
8.99K subscribers
2.59K photos
5 videos
114 files
5.4K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

CTO&Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
Подборка ссылок про данные, технологии и не только:
- Jack Dorsey’s Block to Lay Off 40% of Its Workforce in AI Remake Джек Дорси, создатель Твиттера, а теперь стартапа Block уволил 4000 человек, это 40% команды, с начала года. Что важно, оставшаяся команда плотно работает с ИИ инструментами и то что акции компании только выросли. Да, в ИТ отрасли и в создании ИТ продуктов будут сокращения, это неизбежность и большие возможности для AI-first компаний и большой кризис для всех кто думает что это пройдет мимо них.
- Geopolitical Union книга о том как Евросоюз перешел к реальным шагам в части цифрового/технологического суверенитета, автор Ben Farrand много лет пишет на эту тему. Не видел пока этой книги в открытом доступе, но скорее всего будет любопытной для улучшения понимания причин и стратегического тренда
- GeoAI for Humanitarian Action собственно про спасение людей с помощью ИИ в самом буквальном смысле, руководство по применению ИИ при гуманитарных кризисах связанных со стихией, катастрофами. По большей части речь про анализ спутниковых снимков с помощью ИИ.
- 2028 the Great Data Reckoning автор рассуждает о том что вендоры инструментов работы с данными идут к кризису 2028 года. О том что дата инженерам надо переосмыслять принципы своей работы.


#readings #dataengineering #ai #humanitarian
❤‍🔥41
В рубрике полезных ссылок про данные, технологии и не только, подборка Text-to-SQL решений:
- QueryWeaver (Text2SQL) - решение с открытым кодом от FalkorDB. Из плюсов - открытый код, из минусов работает только с моделями OpenAI и требует развертывания FalkorDB которая с открытым кодом, но доп зависимость. Внутри Python и Typescript. AGPL
- WrenAI обещают поддержку многих СУБД и многих LLM. Есть демо с дашбордами. Внутри Python и Typescript. AGPL
- SQLChat баз поддерживают мало, из LLM только OpenAI. Typescript и MIT лицензия
- Vanna поддерживает много баз, почти любую LLM. Python. Лицензия MIT. Разработка остановилась где-то в апреле 2025 г.
- Build a robust text-to-SQL solution generating complex queries, self-correcting, and querying diverse data sources текст в блоге Amazon о том как Text-to-SQL может реализовываться и в чем есть системные сложности
- Getting AI to write good SQL: Text-to-SQL techniques explained текст в блоге Google на ту же тему и со схожими рекомендациями (задавайте контекст)

#opensource #ai #texttosql #sql
5👍4
The Generative AI Policy Landscape in Open Source интересный обзор публичных политик в отношении использовании ИИ для изменения кода и отправки ошибок у основных проектов с открытым кодом.

Обратите внимание на немалое число проектов где есть полный запрет на изменение кода с помощью ИИ. Будет ли это ещё одним критерием выбора продуктов с открытым кодом из альтернатив?

Представим себе логику "Хочу выбрать себе дистрибутив Linux на сервер, какой брать - с полным запретом на ИИ код или наоборот который преимущественно ИИ пишется?"

И это ни разу не шутка. Велика вероятностью появления альтернативных open source продуктов которые будут делаться в разы меньшими командами .

#opensource #ai
🔥4
В продолжение дискуссии про chardet в связи со сменой лицензии с LGPL на MIT через переписывание всего кода с ИИ ассистентом, разговор там оказался довольно таки шумным и в The Register вышла заметка где проблему разбирают подробнее.

А проблема простая - воспроизведение любого продукта становится настолько простым с помощью ИИ что можно нарушить любую лицензию (почти любую). Берешь софт который тебе нравится и и не нравится его лицензия, даешь ИИ ассистенту нужные вводные и за несколько дней получаешь альтернативу.

Да, да, есть много доводов почему это нецелесообразно на долгий срок, но есть и доводы почему это может быть жизненно необходимо. Многие вендоры ПО ведут себя совсем недружественно к пользователям, внедряют фичи которые ненужны, устанавливают ценники которые отсеивают существенную часть клиентов, переводят покупку лицензий на годовые подписки и тд. В общем их жалет будут не сильно или совсем жалеть не будут.

#ai #softwaredev #software
👍9🤔1
В рубрике как это устроено у них MCP сервис для доступа к данным французского национального портала открытых данных data.gouv.fr.

Опубликовано под MIT лицензией, внутри FastMCP, много примеров и рекомендаций по подключению для разных инструментов.

Выглядит интересно, отложил на попробовать и посмотреть в деле.

#opendata #opensource #ai #mcp
🔥62👍2
Я обещал начать более системно записывать взаимосвязь открытых данных и ИИ и их пересечения и, в том числе, посмотрел конференцию The Future of Open Data которую OKFN провело ко дню открытых данных в мире.

Сессия эта с участием разных предсавителей сообщества открытых данных, разработчиков CKAN, академических и других исследователей. С сильным акцентом на экосистему CKAN'а, но это специфика OKFN откуда разработчики и изначальные создатели CKAN'ат вышли.

Так вот про взаимосвязь ИИ и открытых данных, это довольно сложная история про разные взгляды и восприятие:
1. Отношение к ИИ в среде открытых данных (тусовке) довольно неоднозначное, главным образом из-за довольно сильно левых взглядов у тусовки в целом, неприятию Бигтехов в целом и ИИ Бигтехов в частности. Если, к примеру, я рационализирую применение ИИ инструментов проприетарных или открытых в зависимости от ситуации и стоимости, то многие в среде open data рассматривают только открытые ИИ модели для практического использования. Это не вся тусовка, конечно, но существенная её часть.
2. Одно из очевидных применений - это попытки создавать MCP сервисы как неотъемлимую или дополняемую часть порталов открытых данных. Я ранее писал про MCP сервис французского национального портала данных data.gouv.fr, а также есть MCP сервисы у CKAN'а и PortalJS и других
3. В целом активность тех кто работал над наиболее заметными и известными доступными наборами данных можно разделить на две части. Существенное усиление тех кто поставляет данные для обучения ИИ и сохраняет некоммерческий статус - пример, Common Crawl. Они получили существенно большее финансирование в последние годы (но и это копейки в сравнении с объёмом ИИ рынка), и многих других кто создавал открытые данные, а теперь понимает что их монетизируют другие (ИИ бигтехи в основном).
4. Тут важно понимать что открытые данные сами по себе не являются профессией или специализацией. Профессией может быть дата инженерия или биоинформатика, к примеру. А главные выгодоприобретатели от идущей ИИ революции в данных являются люди с глубоким отраслевым или профессиональным погружением. Поэтому, если честно, то существенная часть мировой тусовки по открытым данным выглядит всё маргинализированной в сравнении с профессиональными дата продуктами. Я ранее ругался про то куда ушла разработка Open Data Editor, который OKFN делали для подготовки данных для публикации в CKAN и это лишь один из многих примеров. Продукт откровенно свернул не туда, ИИ фичи в нем оказались очень плохо реализованными и в целом программная реализация скорее плохая чем какая-либо иная.
5. К примеру, то что мы делаем в Dateno сильно лучше (без хвастовства) чем практически все попытки делать ИИ ассистенты, поисковики и тд в экосистеме открытых данных, но если сравнивать с профессиональными продуктами и сервисами то ещё есть куда расти. MCP сервис у нас уже есть, про ИИ асситентов я расскажу еще позже, но в целом из изучения что делают разные команды в среди именно в тусовке open data никаких инсайтов не дает, увы.
6. Очень много разговоров в среде открытых данных про этику применения ИИ, OKF, к примеру, пытается еще и заниматься AI Literacy, но объективно компетенций в этом немного и это далеко от открытости данных, объективно.

В целом, как я неоднократно вслух рассуждал, с одной стороны открытые данные как уже не настолько sexy тема как лет 10 назад, а с другой стороны сама тема никуда не исчезла и имеет много институционального закрепления во многих странах, сильнее всего в ЕС. Однако видно как многие кто этим занимались десятилетия уже устали, а смены им не будет, потому что ИИ пожирает всё, и интересы активных технарей интересующихся открытостью меняются.

А в целом лично мне нехватает глубины что ли в разговорах про ИИ и про открытость. Например, может ли возникнуть такая ситуация что государства могут отойти от политики открытых данных и вместо этого будут предоставлять ИИ модели обученные на них?

Типа, а зачем вам данные? Вот вам ГосЧат, им и пользуйтесь! А все что есть данные у него внутри и только так.

#opendata #ai #thoughts
👍4🔥421
По поводу законопроекта Об основах государственного регулирования сфер применения технологий искусственного интеллекта в Российской Федерации [1] который многие сейчас обсуждают и который вступит в силу в сентябре 2027 г. если будет принят.

Содержательно его и без меня многие разберут по косточкам, а я могу лишь с небольшой иронией озвучить "в воздух вопросы":
1. Будет ли создано министерство духовно-нравственных ценностей? А то дело то серьезное, во многих законах уже есть (думаю что де-факто есть засекреченное)
2. Все незарегистрированные ИИ ассистенты и агенты заблокируют или китайские ИИ агенты еще останутся доступными? (а есть сомнения? все заблокируют)
3. И самое главное, а чего полтора года то тянуть? Это что же такое, целых полтора года российские суверенные и национальные модели будут бездушные и безнравственные?! (вопрос риторический)

Ссылки:
[1] https://regulation.gov.ru/projects/166424/

#ai #russia #regulation #laws
1😁29👏11😢7🌚32💯2
Подборка ссылок про данные, технологии и не только:
- Kagi онлайн переводчик умеющий переводить на токсично-позитивный язык LinkedIn'а. Переводы смешные, особенно для тех кто в LinkedIn с таким не сталкивался, а те кто сталкивался уже не смеются, там реально многие так пишут;)
- Gdb-engines маленький сайт сравнения 67 движков графовых баз данных с открытым кодом. Полезно для тех кто выбирает графовую базу с нуля или на замену имеющейся
- Gdotv в ту же тему графовых баз, графический клиент ко многим графовым базам, есть версии для Windows, Macos и Linux. Код, увы, не открыт, но есть бесплатная версия
- Lightpanda Browser headless браузер для автоматизации с помощью ИИ агентов, живет в виде Docker контейнера, под AGPL лицензией. Самое интересное что он написан с нуля на языке программирования Zig и не является форком Chromium'а или Webkit'а. Это важно из-за радикально меньших объемов потребления памяти. Продукт как хорошая реклама языка Zig
- DeerFlow (Олений поток) от Bytedance обещают агента умеющего исследовать и кодировать и творить. Открытый код, MIT лицензия. Поддерживает условно любую LLM

#opensource #ai
1👍101
Во Вьетнаме Министерство науки и технологии приняло National Artificial Intelligence Ethics Framework - этический кодекс разработки и эксплуатации ИИ. Сам текст на английском языке пока что найти не удалось, только новость о том что регулирование принято и начнет действовать сразу же, с марта 2026 года.

Как появится текст на английском языке можно будет обсуждать его подробнее, а на вьетнамском он доступен. Что важно так его обязательность, это не саморегулирующий добровольный документ, а набор требований.

И что не менее важно он написан в соответствии с глобальными документам ОЭСР, ЮНЕСКО и EU AI Act

#ai #regulation #vietnam
👍102🌚1🤨1
Написал про российский законопроект регулирования ИИ скучным текстом на Substack и картинкой для тех кто любит смотреть картинки, а не читать (в тексте подробностей больше, если что).

Картинку, конечно, рисовал с помощью ИИ агента.

#ai #regulation #russia
👍266🔥3🤣2🤔1
Для тех кто, возможно, еще не читал, полезный материал Coding agents for data analysis от Саймона Уиллисона про применении ИИ агентов в анализе данных. Более всего полезно дата журналистам, даже аналитикам и в разного рода аналитических проектах.

Главное достоинство - все хорошо и просто объяснено, хоть переводи и курс делай по этому материалу.

#opendata #ai #dataanalysis
137👍3
Все тот же Саймон Уиллисон выложил результаты дизассемблирования компилятора Turbo Pascal 3.02A 1986 года в интерактивной форме с посекционной структурой. Выглядит неплохо, но судя по всему и здесь не обошлось без галлюцинаций ИИ

Идея интересная, но ИИ инструменты пока с ней не справляются, во всяком случае не в руках специалистов по ассемблеру и бинарному коду.

Впрочем я предсказываю что это изменится в течение этого года и тогда это будет еще один прорыв в работе ИИ в разработке ПО, потому что объективная человеческая трудоемкость у этих задач сейчас огромная, а тут ИИ вполне может справиться.

#ai #itmarket #softwaredev
2🙏1
Ещё один любопытный проект про данные в эпоху ИИ ассистентов Legal Data Hunter в виде базы нормативно-правовых и судебных документов со всего мира. Явно пэт-проект одного разработчика, бизнес идея если и прослеживается, то в ней есть сомнения, автор явно хочет продавать API к глобальной базе законов и судебных решений чтобы кто угодно мог подключать их к своим ИИ ассистентам. Открытые данные там тоже есть - это каталог источников юридических документов legal-sources организованный на удивление похоже с тем как я создавал реестр Dateno, в виде большой коллекции YAML файлов по каждому источнику.

Весь проект с конвеерами сбора данных, сбором источников и тд. автор писал с помощью ИИ. Написал он всё это в очень короткий срок и охватывает уже источники более чем по 40 странам (остальные в статусе "запланировано").

Порог входа для создания таких проектов теперь резко сократился, можно сделать в одиночку за недели то что команда разработчиков раньше делала бы полгода или дольше.

Конкретно судьба этого проекта не так интересна, а вот руках более продвинутой LegalTech команды можно создавать базы НПА и судебных решений другого уровня.

#opendata #datasets #ai
42🤔2
Ещё мысли вслух:
1. Если присмотреться к наиболее популярным репозиториям в Github'е которые попадают в ежесуточные, еженедельные и ежемесячные списки Trending то в какой-то недавний момент почти 100% из них - это разного рода инструменты и руководства для работы с ИИ агентами или сами открытые ИИ агенты или иной код для работы с ИИ.

В какой-то момент ИИ инструменты стали синонимом разработки, хайп ли или реальные изменения достигшие неимоверного масштаба. Фактически стремительный переход к AI-first разработке не только в том смысле что с помощью ИИ ассистентов пишется код, но и в том что все наиболее популярные разработки идут в сторону усиления этого тренда. Лично я ничего подобного не наблюдал ранее.

2. Похоже осталось немного времени когда ИИ инструменты получат возможность осуществлять оплату от имени пользователя и это сильно повлияет не только на рынок сервисов, но и на рынок дата продуктов (и данных соответственно). Например, когда появится возможность задавать ИИ агентам задачи. в стиле "исследуй то-то и то-то, найди сведения о том-то и том-то, систематизируй знания в этой области и потрать на это исследование не более $200" причем не обязательно на токены для запросов к LLM, а, например, для подключения к платному API, платным базам данных и тд. Неизбежно изменение тарификации, агентская тарификация - это вам не ручная подписка на доступ, это оплата здесь и сейчас по числу запросов к сервису. Это поломает бизнес модели многих онлайн сервисов и даст новые возможности многим другим. И это актуально потому что сейчас ИИ агенты делают выводы по общедоступным сведениям преимущественно.

#thoughts #ai #business
👍1310🔥2
Разные мысли вслух:
- инструменты мониторинга потребления токенов и запросов к LLM становятся всё более актуальными. Что-то вроде deepeval или phoenix и других. Характерно, что в мире такие решения существуют и интегрированы со всеми основными сервисами, а российские сервисы типа Яндекса и Сбера исключены из мировой экосистемы. Это отдельная тема для размышлений: изменится ли это как-либо или нет.
- единственные по-настоящему успешные бизнесы, связанные с открытыми данными, не являются бизнесами на самих открытых данных, а бизнесами на инфраструктуре вокруг них. Hugging Face сейчас крупнейший хостинг данных для обучения ИИ, но это не бизнес на открытых данных, хотя портал и наполнен ими. Другой пример — Esri. Я наблюдаю, как всё больше городских порталов данных и геоданных создаются на их платформе, но бизнес Esri не в них, а в том, что создатели порталов используют их сервисы, а портал по открытости данных/геоданных создают в довесок.

#opendata #ai #thoughts
👍54
Полезные ссылки про данные, технологии и не только:
- anton ИИ агент для анализа данных и построения дашбордов. Позволяет быстро сделать дашборды не привлекая внимания санитаров выделенного аналитика. Выглядит как минимум любопытно, открытый код, AGPL. Но завязано на платформу MindsDB командой которой он и создан. У MindsDB минимальная подписка это $35 в месяц с привязкой карты, что для работы немного, а для тестирования, особенно когда тестируешь много сервисов, себя не оправдывает. Был бы аналогичный platform-agnostic инструмент - ценность его была бы выше для пользователей. Думаю что еще появится если еще не появился. P.S. Не понимаю тех кто называет продукты распространенными человеческими именами, не любят они людей.
- OpenScreen многоплатформенный инструмент для создания демок к софтверным продуктам. Открытый код, MIT, выглядит как наглядный и зрелый продукт. На практике надо проверять, если все как в его демо то можно использовать для создания пользовательской документации, презентаций инвесторам и тд.
- whylogs библиотека для ведения логов в задачах машинного обучения. Существует достаточно давно и, кроме всего прочего, умеет суммаризировать датасеты и выдавать их статистические профили. Не так много таких инструментов существует, как ни странно, а для данных очень большого объёма их практически нет, поскольку почти всегда они работают через датафреймы. Whylogs тоже основан на датафреймах поэтому и применимость его ограничена.
- Nicholas Carlini - Black-hat LLMs | [un]prompted 2026 о том как применять LLM (в данном случае Anthropic) для поиска 0-day уязвимостей. Полезно для тех кто занимается безопасностью ПО в любой шляпе.
- parallel.ai онлайн ИИ агент с ориентацией на машинное использование (хотя формат вывода для людей тоже есть) и умеющий в поиск, deep research и тд. Как продукт выглядит интересно и в части вывода промежуточной информации в процессе работы над задачами и в части в том что он сделан в формате machine-first и API-first (машинная выдача и доступ через API/MCP выведены в приоритет). Я его на автоматических задачах еще не проверял, только сравнивал работу в режиме deep research с другими сервисами.

P.S. И про deep research инструменты некоторые размышления вдогонку
У меня есть типовая задача по deep research с тестированием одной из идей развития Dateno. Она неплохо структурировано для аналитики результатом которой должна быть и оценка бизнес ниши и техническое проектирование. Я регулярно проверяю новые ИИ агенты на этой задаче. Что хорошо - оценку бизнес ниши parallel.ai выдал очень четкую, не идеальную, но логичную. А вот с техническим проектированием не очень. Я до этого сравнивал с десяток сервисов способных в deep research (Perplexity, ChatGPT, Kimi, MiroMind, Gemini, Antigravity, Cursor и др.) и пока только Kimi и MiroMind выдавали наиболее интересный результат в части продумывания архитектуры ПО.


#opensource #datatools #ai #thoughts
👍6🔥531
Для тех кто интересуется регулированию ИИ в других странах, обзор последних правил закупок ИИ госорганами в США, скорее критичный чем хвалящий. Основная мысль в том что правила госзакупок исходят из того что государства получают лучшие (самые дешевые часто) сервисы на тех же условиях что они предоставляются на рынке и выигрывают за счет того что за счет рыночных внедрений у продуктов есть устоявшиеся цены, условия и тд. А в данном случае госорганы устанавливают большое число ограничений включая политические, ограничения на "Woke AI" и запрет на сбор телеметрии необходимой основным ИИ провайдерам. Все очень похоже на то что ИИ в госорганы в США будут поставлять, или ИИ-бигтех договариваясь об особых условиях, или "классические господрядчики" используя открытые модели и инфраструктуру внутри госинфраструктуры.

Сравнивать это регулирование с российским, к примеру, сложно. Российское регулирование, в форме ранее упомянутого законопроекта, предполагает жесткие ограничения не только для ИИ для гос-ва, но и для любых разработчиков ИИ в принципе и выведено оно в регулирование подзаконными актами Пр-ва, которые могут быть как весьма облегченными, так и убивающими рынок для всех кроме пары компаний (конечно никакой коррупции тут не может быть, даже думать об этом ни-ни).

Но возвращаясь к регулированию в США, оно далеко от идеала и говорит про тренд на усиление госконтроля к ИИ продуктам используемым госорганами, что для практики закупки ПО в США если не странно, то не общепринято.

#usa #ai #regulation
43❤‍🔥1
Полезное чтение про данные, технологии и не только:
Тексты для обдумывания
- A Fourth Wave of Open Data? Exploring the Spectrum of Scenarios for Open Data and Generative AI одна из немногих попыток переосмыслить подход к открытым данным в эпоху генеративного ИИ. Тексту уже почти 2 года, его авторы когда-то описывали концепцию 3-й волны открытых данных, а теперь пытаются нащупать основу для 4-й. С одной стороны это про полезный взгляд на мир, с другой стороны он скорее смотрит с регуляторной, а не с инженерной практики.
- Can AI Strengthen Policy Dialogue? Lessons from Building ReguLens рассказ про ReguLens, инструмент оценки регуляторных документов с помощью ИИ. Сам инструмент пока представлен только этим текстом и скриншотами и позиционируется как помощник специалиста, а не автономный агент. Достаточно очевидно что таким подходом очень скоро будут оценивать разные международные рейтинги в которых анализируется национальное регулирование.

Про ИИ
- Introducing Muse Spark: Scaling Towards Personal Superintelligence новая ИИ модель от Meta, в этот раз без открытого кода и похоже что бренд Llama пошел в утиль, а к этой модели надо присмотреться. Хотя выбирая между открытыми и закрытыми моделями, открытые предпочтительнее, если он немного, а не сильно хуже.

Сугубо технологическое
- Announcing General Availability of ClickHouse Full-text Search в Clickhouse появился/существенно обновился полнотекстовый поиск. Надо как можно скорее проверять и смотреть можно ли с его помощью заменить поиск в других продуктах. Использовать его вместо эластика в первую очередь
- Why I'm replacing Polars with DuckDB автор пишет про миграцию с Polars на DuckDB, текст короткий, но отражает и мои впечатления. Качество разработки у DuckDB существенно выше.
- profiling-explorer инструмент для визуализации файлов pstats при отладке приложений на Python. Полезный для отладки серверных и пользовательских приложений. Простая штука, хорошо дополняющая работу с profiling.tracing в Python

#opendata #ai #datatools #readings
33👍2🔥2
Mozilla Thunderbolt корпоративный ИИ ассистент с открытым кодом от Mozilla. Судя по анонсу доступен в виде открытого кода прямо сейчас и можно записаться в лист ожидания. В основе продукта лежит Haystack от deepset.

Во всех анонсах и материалах явно видны акценты на европейский рынок, суверенный ИИ (в контексте ЕС) и решении на принципах local-first, а то есть можно выбрать какой LLM сервис использовать, облачный или локальный и с чем интегрироваться.

Не первый и не последний продукт такого рода, здесь интересно что происходит он изнутри Mozilla.

Чтобы развернуть его нужно сейчас много усилий, тем кто не хочет возиться со сложными конфигурациями проще будет дождаться готовых сборок.

Ещё удивительно что нет никаких демо, ни онлайн, ни в видео. Ну, можно и подождать

#opensource #ai #mozilla
👌6👍5
Полезные ссылки про данные, технологии и не только:
- Artifacts бета версия версионированного хранилища файлов с доступом через Git. Продукт от Cloudflare, под использование ИИ агентами и легким созданием новых репозиторий. Выглядит интересно, под ИИ продукты особенно (а может быть только для них). Из необычного - написан на Zig
- AI Summer, Data Winter: What the AI Index Reveals — and What It Doesn’t Yet Measure статья об исчерпании данных для обучения ИИ и о data winter, сжиманию открытости данных из-за ИИ хайпа. Полезно почитать это и другие статьи автора
- isitagentready.com еще один сервис от Cloudflare который определяет готов ли Ваш сайт для ИИ агентов. Возникает вопрос - а хорошо ли если он готов и плохо ли если не готов? В чем больше выгоды?
- Inside Notion про культуру внутри Notion, читать интересно, хороший жанр

#ai #tools #services #readings
👍4