Ivan Begtin
8.99K subscribers
2.63K photos
5 videos
114 files
5.43K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

CTO&Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
The Generative AI Policy Landscape in Open Source интересный обзор публичных политик в отношении использовании ИИ для изменения кода и отправки ошибок у основных проектов с открытым кодом.

Обратите внимание на немалое число проектов где есть полный запрет на изменение кода с помощью ИИ. Будет ли это ещё одним критерием выбора продуктов с открытым кодом из альтернатив?

Представим себе логику "Хочу выбрать себе дистрибутив Linux на сервер, какой брать - с полным запретом на ИИ код или наоборот который преимущественно ИИ пишется?"

И это ни разу не шутка. Велика вероятностью появления альтернативных open source продуктов которые будут делаться в разы меньшими командами .

#opensource #ai
🔥4
Кстати, вот назрел вопрос, сколько сейчас платят фуллтайм спецам по скрейпингу? Так чтобы человек умел разбирать не только HTML, но и DOC, DOCX, PDF и Excel файлы и складывать их дата файлы (CSV, Parquet) или сразу в СУБД и регулярно данные обновлять. Задачи такие очень частые и обычно решается ad-hoc и с использованием ИИ ассистентов.

Но тут есть задача побольше в том чтобы скрейпить и обработать данные статистического ведомства некоторой страны, а там не один парсер понадобится, а 20? 30? 40? много в общем.

Итого:
- много разноформатных данных
- высокая гетерогенность (нельзя написать один универсальный парсер)
- многое в неструктурированном и полуструктурированном виде

Кто как решает такие задачи и за сколько денег?

#questions
🔥4
То что в России признали Калифорнийский университет Беркли нежелательной организацией - это, конечно, нечто кафкианское поскольку даже если это не затрагивает большую часть их open source проектов (там лицензии, нет формального взаимодействия), но это может привести к тому что если кто-то контрибьютит в репозитории университета или участвует в любой их разработке идущей от организации - это может быть истолковано российскими силовыми органами как участие в деятельности нежелательной организации.

Гонений на участников open source проектов ещё не было, но вопросы возникают.

#opensource #russia
💯15😢8💅5👍2
И ещё одна мысль вслух, про свежее регулировании ИИ в РФ. Разделение на суверенные и национальные ИИ системы где национальные - это обученные на российских датасетах и внутрироссийскими моделями, а национальные типа на любых датасетов и могут использовать любые open source модели.

Первое - тут сразу понятно уши какого зеленого танцующего слона тут видны.
Второе - российские датасеты для обучения ИИ? серьёзно? поднимите мне веки, покажите мне их

Я бы сказал что оборонительное регулирование (guardian legislation) неизбежно во всех странах пытающихся создавать собственные LLM за госсчёт или за счет национальных технологических монополий и олигополий.

Регуляторы многих стран сейчас будут списывать друг у друга всё то плохое регулирование которое они только смогут придумать.

А какое могло бы быть хорошим?

#thoughts #aiagents
👍8🤔54💯4🔥3😢1🗿1
Ещё один инструмент для работы с базами данных использующий DuckDB WASM - dbx lite. Запускается через браузер, работает с данными локально, внутри браузера пользователя.
- онлайн демо
- репозиторий кода

открытый код, лицензия MIT

Автор позиционирует его как замену пользовательскому интерфейсу DuckDB, но это не вполне верно поскольку тот про замену тетрадок и похож скорее на Jupyter Notebook, а dbx lite скорее для SQL запросов в чистом виде.

Для исследования данных вполне удобно

#opensource #duckdb #sql
3👍21
Портал открытых данных Москвы data.mos.ru недоступен уже 2 недели с сообщением о технических работах без каких либо анонсов о их завершении. Явный признак что он уже мёртв. Этот портал был старейшим из российских официальных порталов данных и он был чуть более живым чем остальные.

Но ценных данных там давно не было, а теперь недоступны и те что были.

#opendata #closeddata #russia #moscow
😱155🕊4😁2🌚1
В предверии дней открытых данных которые начнутся в мире с 7 марта, мне бы хотелось сказать что-то положительное про открытость данных в контексте гос-ва в России, но позитива мало, негатива много.

Я лишь напомню про тренды последних лет, которые не изменились:
1. Региональные порталы открытых данных постепенно устаревают и закрыватся. Портал открытых данных СПб не обновлялся с 2021 г., портал ОД Москвы выключен последние 2 недели, в других регионах порталы данных или уже не работают, или содержат минимум сведений, или сведения все не обновляются от 3 до 10 лет.
2. Федеральный портал data.gov.ru хоть и заработал, но бессмысленнен по своей природе поскольку агрегирует те самые устаревшие датасеты с региональных порталов и на нем нет никаких значимых наборов данных.
3. Официальная статистическая информация всё активнее закрывается и исчезает из открытого доступа.
4. Негосударственные активности по созданию открытых данных получили множество ограничений:
- создание наборов данных на аудиторию журналистов и общественников стало опасным из-за массового признания их иноагентами
- создание наборов данных для бизнеса не понятно зачем кому-либо создавать их открытыми кроме как государство официально. Резонное мнение что бизнес если не получает открытые данные из первоисточника, то способен оплатить их
- аналогично с наборами данных для ИИ. Они востребованы, но для большинства общественной активности в мире по этой теме падает мотивация поскольку видны огромные доходы ИИ бигтеха на общественной, в общем-то, работе. В России ситуация аналогичная.

Ну вот и у меня получается обзор в стиле списка проблем и позитива мало. Более-менее что-то позитивное возможно в части доступа исследователей к данным и в части данных в гуманитарных науках и культуре. Первое - это естественная потребность во всех странах где ещё есть живая наука, второе осложнено скорее почти полным отсутствием средств, а не отсутствием людей.

Тем временем в мире проходит порядка 87 небольших мероприятий Дня открытых данных с 7 по 13 марта https://opendataday.org/ большая их часть это митапы сообществ, но есть и несколько больших виртуальных событий на которых есть что послушать.

#opendata #opengov
4🤔4👍1🔥1
Ещё одна весьма неприятная российская новость то что Сотрудников вузов уже штрафуют за упоминания нежелательных организаций. https://66.ru/news/society/287190/

И тут у меня вопрос, если я сошлюсь на данные созданные в Университете Беркли или Йеле или IETLS то меня тоже захотят оштрафовать?

У Йеля и Беркли есть значимые датасеты опубликованные на Hugging Face и платформах Dataverse

#opendata #datasets #russia #closeddata
😢21💊521👏1🕊1🌚1💯1
Помните я писал что ИИ будут использовать для переписывания кода для сменя лицензии? Так и происходит https://tuananh.net/2026/03/05/relicensing-with-ai-assisted-rewrite/ автор пишет о кейсе когда новые майнтейнеры библиотеки chardet с помощью ИИ переписали код полностью и выпустил его под MIT лицензией вместо оригинальной LGPL

Теперь их обвиняют в нарушении GPL https://github.com/chardet/chardet/issues/327

Да, это похоже на смерть copyleft'а и лицензирования под GPL/LGPL. Потому что ИИ позволяет быстро создавать почти идентичный по фунциональности и совместимый код под MIT или другим лицензиям не имеющих ограничений GPL/LGPL

#opensource
🤨8😢63😐21🔥1💅1
Немного про экономику открытых данных с точки зрения инфраструктуры. Набор фактов, о том как порталы данных создаются.

Количественно большая часть порталов открытых данных в мире создаются на базе открытого ПО: CKAN, DKAN, Geonetwork, GeoNode, InvenioRDM и многих других. Открытый код доминирует, но далеко не является единственным.

В мире есть несколько основных коммерческих вендоров предоставляющих облачные порталы через годовые лицензии:
- ArcGIS Hub - продукт SaaS от ESRI есть ограниченная бесплатная версия которой массово пользуются и есть Premium версия стоит порядка $10000 в год. Акцент на геоданных, но многие публикуют и Excel и. CSV и иные дата файлы на этих порталах.
- OpenDataSoft - французская компания предоставляющая сервис порталов открытых данных. За последние 2 года они переименовались в Huwise и стали позиционировать себя как разработчиков маркетплейсов данных. Их ценник варьируется от 46 до 186 тысяч евро в год
- Socrata - компания из США и одноименный продукт, была куплена Tyler Technologies' Data & Insights и как компания более не существует, но продукт остался и используется преимущественно в США. Стоимость лицензии и внедрения порядка $49000 в год
- PortalJS - продукт компании Datopian, одних из разработчиков open source каталога данных CKAN. Продукт тоже с открытым кодом и с онлайн версией по модели SaaS с ценником от ~$1200 до ~$3600 ежегодно. Стоимость невысокая, но и коммерческих внедрений у них очень мало. Большинству достаточно бесплатного и открытого CKAN или открытой версии PortalJS.

Все остальные вендоры порталов с данными скорее являются вендорами автоматизации академических и образовательных институций и тот же Elsevier Pure используется для публикации исследовательских результатов (research outputs) включая наборы данных, но рассматривать их как вендора порталов открытых данных будет, всё таки, неверно.

В целом же этот рынок как рынок существует только в Западном мире, где есть сложившаяся привычка и бюджеты платить за SaaS решения и лицензии и где тема открытых данных имеет сильные институциональные корни. В развивающихся странах чаще массово разворачивают ПО с открытым кодом или используют бесплатные версии SaaS продуктов вроде ArcGIS Hub в базовой бесплатной редакции.

#opendata #market #data #datacatalogs
👍32
В продолжение дискуссии про chardet в связи со сменой лицензии с LGPL на MIT через переписывание всего кода с ИИ ассистентом, разговор там оказался довольно таки шумным и в The Register вышла заметка где проблему разбирают подробнее.

А проблема простая - воспроизведение любого продукта становится настолько простым с помощью ИИ что можно нарушить любую лицензию (почти любую). Берешь софт который тебе нравится и и не нравится его лицензия, даешь ИИ ассистенту нужные вводные и за несколько дней получаешь альтернативу.

Да, да, есть много доводов почему это нецелесообразно на долгий срок, но есть и доводы почему это может быть жизненно необходимо. Многие вендоры ПО ведут себя совсем недружественно к пользователям, внедряют фичи которые ненужны, устанавливают ценники которые отсеивают существенную часть клиентов, переводят покупку лицензий на годовые подписки и тд. В общем их жалет будут не сильно или совсем жалеть не будут.

#ai #softwaredev #software
👍9🤔1
Forwarded from Open Data Armenia
До Дня открытых данных осталось 2 дня🥳

13-ого марта в гостинице ibis в Ереване День открытых данных соберет всех, кто интересуется открытыми данными в Армении, чтобы обсудить доступность данных, возможности трудоустройства, применение ИИ и принятие решений на основе данных 💭

Кульминацией дня станет презентация победителей конкурса открытых данных и церемония награждения 🎉

Зарегистрируйтесь здесь: https://forms.gle/L6jH4ty6Zk4tPxYQ9

Программа 👇

11:00 - Открытие

11:15 - Презентация индекса благополучия регионов Армении на основе открытых данных

12:05 - Церемония награждения лауреатов премии «За открытые данные Армении»

13:05 - Вручение премии «Чемпион открытых данных» государственным/муниципальным учреждениям

14:00 - Мастер-классы по инструменту составления бюджета Армении и использованию данных по предотвращению коррупции

15:30 - Дискуссия: данные и ИИ

16:00 - Обсуждение данных об Армении, Арцахе и армянском культурном наследии, возможности финансирования

16:40 - Нетворкинг и презентация предложений, общие интересы и сотрудничество

Ждём вас 13-ого марта в гостинице ibis
44
Новый подход в Data engineering - ECL (Extract Contextualize Link). Через адаптацию подхода ETL к применению ИИ.

Концепция не бесспорная, но интересная. Как верно указывают автору в комментариях она не решает проблему владения процессами, данными и так далее, но дает опору для переосмысления роли дата инженеров в среде где ИИ для обработки данных становится новой нормой.

Подробнее в тексте https://www.dataengineeringweekly.com/p/data-engineering-after-ai

#dataenginering #data
1👍85🔥3
Новая версия DuckDB 1.5 обещают поддержку типа GEOMETRY для геоданных, обновленную утилиту командной строки, подключение к ODBC, обновление спецификации DuckLake и больше поддержки озер данных и множество других изменений.

#opensource #datatools #duckdb #dataengineering
🔥65
В рубрике как это устроено у них Water Data for the Nation портал данных о воде в США созданный государственной геологической службой страны.

Включает открытые API, открытые данные, визуализацию и графики мониторинга уровня и качества воды в реальном времени.

Довольно комплексная штука на самые разные аудитории.

#opendata #water #usa
4🔥2
В рубрике как это устроено у них MCP сервис для доступа к данным французского национального портала открытых данных data.gouv.fr.

Опубликовано под MIT лицензией, внутри FastMCP, много примеров и рекомендаций по подключению для разных инструментов.

Выглядит интересно, отложил на попробовать и посмотреть в деле.

#opendata #opensource #ai #mcp
🔥62👍2
Я слегка выпал из злободневных событий с тем что у меня буквально за пару дней сломался ноутбук, сначала частично, а потом полностью отказала матрица.

А почти все осмысленные тексты в телеграм я пишу только с клавиатуры.

О чем хочу написать, но пока откладываю так это про ИИ и открытые данные. Это тема для большого числа дискуссий в мире и я об это тоже ранее писал, но не столь целенаправлено.

Так что как решу мелкие неурядицы, то вернусь к этой теме.

#offtopic #opendata
👍297🔥6
Forwarded from prometa.pro книжки
Этот канал я буду вести, пока ведение каналов в телеграме не станет напрямую караемым делом. Если просто заблокируют в ноль, найду человека в сопредельных странах, которому дам доступ и буду пересылать посты раз в неделю по почте. В отпусках и поездках можно включать комментарии. Вот это получится арт-проект!

К каналам в Max я отношусь скептически. Даже не потому что сама ситуация отвратительна: чтобы загнать пользователей в этот сервис, уничтожаются наши блогерские активы на миллионы рублей и, как сказал один деятель, намеренно разрушаются социальные связи. И даже не потому что аудитория у сервиса будет здорово отличаться от аудитории телеграма, благодаря особенностям которой и востребован сложный контент.

Я думаю, что феномен телеграма как мессенджера и медиа-платформы, где клубятся миллион активных каналов, чатов и закрытых сообществ нельзя повторить в 2026 году, даже если волшебным образом воспроизвести весь существующий функционал не в скандальном Максе, а в ненасильственном, модном и благонравном сервисе Другаксе.

Наша с вами экосистема появилась десять лет назад, в ответ на определенные условия и ситуации. Десять лет! Вечность уже прошла. Сейчас с таким же успехом можно попробовать сделать новый Инстаграм, Твиттер, (тоже запрещенные в РФ сети) или ЖЖ, повторив старый. Это так не работает. Никому сейчас не нужен новый Инстаграм (запрещенная в РФ сеть), даже если старый запретят во всем мире. Сложившиеся 10-15 лет назад платформы с большой аудиторией живут на старых дрожжах, но это инерция, а не повод их копировать.

Фокус общественной жизни перетечет еще куда-то. Как средневековые крестьяне после разорения деревни враждующими баронами, заново отстроимся. Хотя было бы классно уже начать строить вольные города, потому что надоело это раз за разом переживать.
373👍31💯14🔥10🤝3❤‍🔥1
Я обещал начать более системно записывать взаимосвязь открытых данных и ИИ и их пересечения и, в том числе, посмотрел конференцию The Future of Open Data которую OKFN провело ко дню открытых данных в мире.

Сессия эта с участием разных предсавителей сообщества открытых данных, разработчиков CKAN, академических и других исследователей. С сильным акцентом на экосистему CKAN'а, но это специфика OKFN откуда разработчики и изначальные создатели CKAN'ат вышли.

Так вот про взаимосвязь ИИ и открытых данных, это довольно сложная история про разные взгляды и восприятие:
1. Отношение к ИИ в среде открытых данных (тусовке) довольно неоднозначное, главным образом из-за довольно сильно левых взглядов у тусовки в целом, неприятию Бигтехов в целом и ИИ Бигтехов в частности. Если, к примеру, я рационализирую применение ИИ инструментов проприетарных или открытых в зависимости от ситуации и стоимости, то многие в среде open data рассматривают только открытые ИИ модели для практического использования. Это не вся тусовка, конечно, но существенная её часть.
2. Одно из очевидных применений - это попытки создавать MCP сервисы как неотъемлимую или дополняемую часть порталов открытых данных. Я ранее писал про MCP сервис французского национального портала данных data.gouv.fr, а также есть MCP сервисы у CKAN'а и PortalJS и других
3. В целом активность тех кто работал над наиболее заметными и известными доступными наборами данных можно разделить на две части. Существенное усиление тех кто поставляет данные для обучения ИИ и сохраняет некоммерческий статус - пример, Common Crawl. Они получили существенно большее финансирование в последние годы (но и это копейки в сравнении с объёмом ИИ рынка), и многих других кто создавал открытые данные, а теперь понимает что их монетизируют другие (ИИ бигтехи в основном).
4. Тут важно понимать что открытые данные сами по себе не являются профессией или специализацией. Профессией может быть дата инженерия или биоинформатика, к примеру. А главные выгодоприобретатели от идущей ИИ революции в данных являются люди с глубоким отраслевым или профессиональным погружением. Поэтому, если честно, то существенная часть мировой тусовки по открытым данным выглядит всё маргинализированной в сравнении с профессиональными дата продуктами. Я ранее ругался про то куда ушла разработка Open Data Editor, который OKFN делали для подготовки данных для публикации в CKAN и это лишь один из многих примеров. Продукт откровенно свернул не туда, ИИ фичи в нем оказались очень плохо реализованными и в целом программная реализация скорее плохая чем какая-либо иная.
5. К примеру, то что мы делаем в Dateno сильно лучше (без хвастовства) чем практически все попытки делать ИИ ассистенты, поисковики и тд в экосистеме открытых данных, но если сравнивать с профессиональными продуктами и сервисами то ещё есть куда расти. MCP сервис у нас уже есть, про ИИ асситентов я расскажу еще позже, но в целом из изучения что делают разные команды в среди именно в тусовке open data никаких инсайтов не дает, увы.
6. Очень много разговоров в среде открытых данных про этику применения ИИ, OKF, к примеру, пытается еще и заниматься AI Literacy, но объективно компетенций в этом немного и это далеко от открытости данных, объективно.

В целом, как я неоднократно вслух рассуждал, с одной стороны открытые данные как уже не настолько sexy тема как лет 10 назад, а с другой стороны сама тема никуда не исчезла и имеет много институционального закрепления во многих странах, сильнее всего в ЕС. Однако видно как многие кто этим занимались десятилетия уже устали, а смены им не будет, потому что ИИ пожирает всё, и интересы активных технарей интересующихся открытостью меняются.

А в целом лично мне нехватает глубины что ли в разговорах про ИИ и про открытость. Например, может ли возникнуть такая ситуация что государства могут отойти от политики открытых данных и вместо этого будут предоставлять ИИ модели обученные на них?

Типа, а зачем вам данные? Вот вам ГосЧат, им и пользуйтесь! А все что есть данные у него внутри и только так.

#opendata #ai #thoughts
👍4🔥421