То что в России признали Калифорнийский университет Беркли нежелательной организацией - это, конечно, нечто кафкианское поскольку даже если это не затрагивает большую часть их open source проектов (там лицензии, нет формального взаимодействия), но это может привести к тому что если кто-то контрибьютит в репозитории университета или участвует в любой их разработке идущей от организации - это может быть истолковано российскими силовыми органами как участие в деятельности нежелательной организации.
Гонений на участников open source проектов ещё не было, но вопросы возникают.
#opensource #russia
Гонений на участников open source проектов ещё не было, но вопросы возникают.
#opensource #russia
💯15😢8💅5👍2
И ещё одна мысль вслух, про свежее регулировании ИИ в РФ. Разделение на суверенные и национальные ИИ системы где национальные - это обученные на российских датасетах и внутрироссийскими моделями, а национальные типа на любых датасетов и могут использовать любые open source модели.
Первое - тут сразу понятно уши какого зеленого танцующего слона тут видны.
Второе - российские датасеты для обучения ИИ? серьёзно? поднимите мне веки, покажите мне их
Я бы сказал что оборонительное регулирование (guardian legislation) неизбежно во всех странах пытающихся создавать собственные LLM за госсчёт или за счет национальных технологических монополий и олигополий.
Регуляторы многих стран сейчас будут списывать друг у друга всё то плохое регулирование которое они только смогут придумать.
А какое могло бы быть хорошим?
#thoughts #aiagents
Первое - тут сразу понятно уши какого зеленого танцующего слона тут видны.
Второе - российские датасеты для обучения ИИ? серьёзно? поднимите мне веки, покажите мне их
Я бы сказал что оборонительное регулирование (guardian legislation) неизбежно во всех странах пытающихся создавать собственные LLM за госсчёт или за счет национальных технологических монополий и олигополий.
Регуляторы многих стран сейчас будут списывать друг у друга всё то плохое регулирование которое они только смогут придумать.
А какое могло бы быть хорошим?
#thoughts #aiagents
👍8🤔5❤4💯4🔥3😢1🗿1
Ещё один инструмент для работы с базами данных использующий DuckDB WASM - dbx lite. Запускается через браузер, работает с данными локально, внутри браузера пользователя.
- онлайн демо
- репозиторий кода
открытый код, лицензия MIT
Автор позиционирует его как замену пользовательскому интерфейсу DuckDB, но это не вполне верно поскольку тот про замену тетрадок и похож скорее на Jupyter Notebook, а dbx lite скорее для SQL запросов в чистом виде.
Для исследования данных вполне удобно
#opensource #duckdb #sql
- онлайн демо
- репозиторий кода
открытый код, лицензия MIT
Автор позиционирует его как замену пользовательскому интерфейсу DuckDB, но это не вполне верно поскольку тот про замену тетрадок и похож скорее на Jupyter Notebook, а dbx lite скорее для SQL запросов в чистом виде.
Для исследования данных вполне удобно
#opensource #duckdb #sql
⚡3👍2✍1
Портал открытых данных Москвы data.mos.ru недоступен уже 2 недели с сообщением о технических работах без каких либо анонсов о их завершении. Явный признак что он уже мёртв. Этот портал был старейшим из российских официальных порталов данных и он был чуть более живым чем остальные.
Но ценных данных там давно не было, а теперь недоступны и те что были.
#opendata #closeddata #russia #moscow
Но ценных данных там давно не было, а теперь недоступны и те что были.
#opendata #closeddata #russia #moscow
😱15✍5🕊4😁2🌚1
В предверии дней открытых данных которые начнутся в мире с 7 марта, мне бы хотелось сказать что-то положительное про открытость данных в контексте гос-ва в России, но позитива мало, негатива много.
Я лишь напомню про тренды последних лет, которые не изменились:
1. Региональные порталы открытых данных постепенно устаревают и закрыватся. Портал открытых данных СПб не обновлялся с 2021 г., портал ОД Москвы выключен последние 2 недели, в других регионах порталы данных или уже не работают, или содержат минимум сведений, или сведения все не обновляются от 3 до 10 лет.
2. Федеральный портал data.gov.ru хоть и заработал, но бессмысленнен по своей природе поскольку агрегирует те самые устаревшие датасеты с региональных порталов и на нем нет никаких значимых наборов данных.
3. Официальная статистическая информация всё активнее закрывается и исчезает из открытого доступа.
4. Негосударственные активности по созданию открытых данных получили множество ограничений:
- создание наборов данных на аудиторию журналистов и общественников стало опасным из-за массового признания их иноагентами
- создание наборов данных для бизнеса не понятно зачем кому-либо создавать их открытыми кроме как государство официально. Резонное мнение что бизнес если не получает открытые данные из первоисточника, то способен оплатить их
- аналогично с наборами данных для ИИ. Они востребованы, но для большинства общественной активности в мире по этой теме падает мотивация поскольку видны огромные доходы ИИ бигтеха на общественной, в общем-то, работе. В России ситуация аналогичная.
—
Ну вот и у меня получается обзор в стиле списка проблем и позитива мало. Более-менее что-то позитивное возможно в части доступа исследователей к данным и в части данных в гуманитарных науках и культуре. Первое - это естественная потребность во всех странах где ещё есть живая наука, второе осложнено скорее почти полным отсутствием средств, а не отсутствием людей.
Тем временем в мире проходит порядка 87 небольших мероприятий Дня открытых данных с 7 по 13 марта https://opendataday.org/ большая их часть это митапы сообществ, но есть и несколько больших виртуальных событий на которых есть что послушать.
#opendata #opengov
Я лишь напомню про тренды последних лет, которые не изменились:
1. Региональные порталы открытых данных постепенно устаревают и закрыватся. Портал открытых данных СПб не обновлялся с 2021 г., портал ОД Москвы выключен последние 2 недели, в других регионах порталы данных или уже не работают, или содержат минимум сведений, или сведения все не обновляются от 3 до 10 лет.
2. Федеральный портал data.gov.ru хоть и заработал, но бессмысленнен по своей природе поскольку агрегирует те самые устаревшие датасеты с региональных порталов и на нем нет никаких значимых наборов данных.
3. Официальная статистическая информация всё активнее закрывается и исчезает из открытого доступа.
4. Негосударственные активности по созданию открытых данных получили множество ограничений:
- создание наборов данных на аудиторию журналистов и общественников стало опасным из-за массового признания их иноагентами
- создание наборов данных для бизнеса не понятно зачем кому-либо создавать их открытыми кроме как государство официально. Резонное мнение что бизнес если не получает открытые данные из первоисточника, то способен оплатить их
- аналогично с наборами данных для ИИ. Они востребованы, но для большинства общественной активности в мире по этой теме падает мотивация поскольку видны огромные доходы ИИ бигтеха на общественной, в общем-то, работе. В России ситуация аналогичная.
—
Ну вот и у меня получается обзор в стиле списка проблем и позитива мало. Более-менее что-то позитивное возможно в части доступа исследователей к данным и в части данных в гуманитарных науках и культуре. Первое - это естественная потребность во всех странах где ещё есть живая наука, второе осложнено скорее почти полным отсутствием средств, а не отсутствием людей.
Тем временем в мире проходит порядка 87 небольших мероприятий Дня открытых данных с 7 по 13 марта https://opendataday.org/ большая их часть это митапы сообществ, но есть и несколько больших виртуальных событий на которых есть что послушать.
#opendata #opengov
opendataday.org
Open Data Day 2026 - Celebrate #opendata where you are
Join the annual celebration of open data all over the world, when communities gather to reach out to new people and build new solutions using open data.
❤4🤔4👍1🔥1
Ещё одна весьма неприятная российская новость то что Сотрудников вузов уже штрафуют за упоминания нежелательных организаций. https://66.ru/news/society/287190/
И тут у меня вопрос, если я сошлюсь на данные созданные в Университете Беркли или Йеле или IETLS то меня тоже захотят оштрафовать?
У Йеля и Беркли есть значимые датасеты опубликованные на Hugging Face и платформах Dataverse
#opendata #datasets #russia #closeddata
И тут у меня вопрос, если я сошлюсь на данные созданные в Университете Беркли или Йеле или IETLS то меня тоже захотят оштрафовать?
У Йеля и Беркли есть значимые датасеты опубликованные на Hugging Face и платформах Dataverse
#opendata #datasets #russia #closeddata
😢21💊5❤2✍1👏1🕊1🌚1💯1
Помните я писал что ИИ будут использовать для переписывания кода для сменя лицензии? Так и происходит https://tuananh.net/2026/03/05/relicensing-with-ai-assisted-rewrite/ автор пишет о кейсе когда новые майнтейнеры библиотеки chardet с помощью ИИ переписали код полностью и выпустил его под MIT лицензией вместо оригинальной LGPL
Теперь их обвиняют в нарушении GPL https://github.com/chardet/chardet/issues/327
Да, это похоже на смерть copyleft'а и лицензирования под GPL/LGPL. Потому что ИИ позволяет быстро создавать почти идентичный по фунциональности и совместимый код под MIT или другим лицензиям не имеющих ограничений GPL/LGPL
#opensource
Теперь их обвиняют в нарушении GPL https://github.com/chardet/chardet/issues/327
Да, это похоже на смерть copyleft'а и лицензирования под GPL/LGPL. Потому что ИИ позволяет быстро создавать почти идентичный по фунциональности и совместимый код под MIT или другим лицензиям не имеющих ограничений GPL/LGPL
#opensource
Tuan-Anh Tran
Relicensing with AI-assisted rewrite
Exploring the chardet v7.0.0 controversy: Can an AI rewrite legally 'launder' a library from LGPL to MIT?
🤨8😢6✍3😐2❤1🔥1💅1
Немного про экономику открытых данных с точки зрения инфраструктуры. Набор фактов, о том как порталы данных создаются.
Количественно большая часть порталов открытых данных в мире создаются на базе открытого ПО: CKAN, DKAN, Geonetwork, GeoNode, InvenioRDM и многих других. Открытый код доминирует, но далеко не является единственным.
В мире есть несколько основных коммерческих вендоров предоставляющих облачные порталы через годовые лицензии:
- ArcGIS Hub - продукт SaaS от ESRI есть ограниченная бесплатная версия которой массово пользуются и есть Premium версия стоит порядка $10000 в год. Акцент на геоданных, но многие публикуют и Excel и. CSV и иные дата файлы на этих порталах.
- OpenDataSoft - французская компания предоставляющая сервис порталов открытых данных. За последние 2 года они переименовались в Huwise и стали позиционировать себя как разработчиков маркетплейсов данных. Их ценник варьируется от 46 до 186 тысяч евро в год
- Socrata - компания из США и одноименный продукт, была куплена Tyler Technologies' Data & Insights и как компания более не существует, но продукт остался и используется преимущественно в США. Стоимость лицензии и внедрения порядка $49000 в год
- PortalJS - продукт компании Datopian, одних из разработчиков open source каталога данных CKAN. Продукт тоже с открытым кодом и с онлайн версией по модели SaaS с ценником от ~$1200 до ~$3600 ежегодно. Стоимость невысокая, но и коммерческих внедрений у них очень мало. Большинству достаточно бесплатного и открытого CKAN или открытой версии PortalJS.
Все остальные вендоры порталов с данными скорее являются вендорами автоматизации академических и образовательных институций и тот же Elsevier Pure используется для публикации исследовательских результатов (research outputs) включая наборы данных, но рассматривать их как вендора порталов открытых данных будет, всё таки, неверно.
В целом же этот рынок как рынок существует только в Западном мире, где есть сложившаяся привычка и бюджеты платить за SaaS решения и лицензии и где тема открытых данных имеет сильные институциональные корни. В развивающихся странах чаще массово разворачивают ПО с открытым кодом или используют бесплатные версии SaaS продуктов вроде ArcGIS Hub в базовой бесплатной редакции.
#opendata #market #data #datacatalogs
Количественно большая часть порталов открытых данных в мире создаются на базе открытого ПО: CKAN, DKAN, Geonetwork, GeoNode, InvenioRDM и многих других. Открытый код доминирует, но далеко не является единственным.
В мире есть несколько основных коммерческих вендоров предоставляющих облачные порталы через годовые лицензии:
- ArcGIS Hub - продукт SaaS от ESRI есть ограниченная бесплатная версия которой массово пользуются и есть Premium версия стоит порядка $10000 в год. Акцент на геоданных, но многие публикуют и Excel и. CSV и иные дата файлы на этих порталах.
- OpenDataSoft - французская компания предоставляющая сервис порталов открытых данных. За последние 2 года они переименовались в Huwise и стали позиционировать себя как разработчиков маркетплейсов данных. Их ценник варьируется от 46 до 186 тысяч евро в год
- Socrata - компания из США и одноименный продукт, была куплена Tyler Technologies' Data & Insights и как компания более не существует, но продукт остался и используется преимущественно в США. Стоимость лицензии и внедрения порядка $49000 в год
- PortalJS - продукт компании Datopian, одних из разработчиков open source каталога данных CKAN. Продукт тоже с открытым кодом и с онлайн версией по модели SaaS с ценником от ~$1200 до ~$3600 ежегодно. Стоимость невысокая, но и коммерческих внедрений у них очень мало. Большинству достаточно бесплатного и открытого CKAN или открытой версии PortalJS.
Все остальные вендоры порталов с данными скорее являются вендорами автоматизации академических и образовательных институций и тот же Elsevier Pure используется для публикации исследовательских результатов (research outputs) включая наборы данных, но рассматривать их как вендора порталов открытых данных будет, всё таки, неверно.
В целом же этот рынок как рынок существует только в Западном мире, где есть сложившаяся привычка и бюджеты платить за SaaS решения и лицензии и где тема открытых данных имеет сильные институциональные корни. В развивающихся странах чаще массово разворачивают ПО с открытым кодом или используют бесплатные версии SaaS продуктов вроде ArcGIS Hub в базовой бесплатной редакции.
#opendata #market #data #datacatalogs
👍3✍2
В продолжение дискуссии про chardet в связи со сменой лицензии с LGPL на MIT через переписывание всего кода с ИИ ассистентом, разговор там оказался довольно таки шумным и в The Register вышла заметка где проблему разбирают подробнее.
А проблема простая - воспроизведение любого продукта становится настолько простым с помощью ИИ что можно нарушить любую лицензию (почти любую). Берешь софт который тебе нравится и и не нравится его лицензия, даешь ИИ ассистенту нужные вводные и за несколько дней получаешь альтернативу.
Да, да, есть много доводов почему это нецелесообразно на долгий срок, но есть и доводы почему это может быть жизненно необходимо. Многие вендоры ПО ведут себя совсем недружественно к пользователям, внедряют фичи которые ненужны, устанавливают ценники которые отсеивают существенную часть клиентов, переводят покупку лицензий на годовые подписки и тд. В общем их жалет будут не сильно или совсем жалеть не будут.
#ai #softwaredev #software
А проблема простая - воспроизведение любого продукта становится настолько простым с помощью ИИ что можно нарушить любую лицензию (почти любую). Берешь софт который тебе нравится и и не нравится его лицензия, даешь ИИ ассистенту нужные вводные и за несколько дней получаешь альтернативу.
Да, да, есть много доводов почему это нецелесообразно на долгий срок, но есть и доводы почему это может быть жизненно необходимо. Многие вендоры ПО ведут себя совсем недружественно к пользователям, внедряют фичи которые ненужны, устанавливают ценники которые отсеивают существенную часть клиентов, переводят покупку лицензий на годовые подписки и тд. В общем их жалет будут не сильно или совсем жалеть не будут.
#ai #softwaredev #software
Telegram
Ivan Begtin
Помните я писал что ИИ будут использовать для переписывания кода для сменя лицензии? Так и происходит https://tuananh.net/2026/03/05/relicensing-with-ai-assisted-rewrite/ автор пишет о кейсе когда новые майнтейнеры библиотеки chardet с помощью ИИ переписали…
👍9🤔1
Forwarded from Open Data Armenia
До Дня открытых данных осталось 2 дня🥳
13-ого марта в гостинице ibis в Ереване День открытых данных соберет всех, кто интересуется открытыми данными в Армении, чтобы обсудить доступность данных, возможности трудоустройства, применение ИИ и принятие решений на основе данных 💭
Кульминацией дня станет презентация победителей конкурса открытых данных и церемония награждения 🎉
Зарегистрируйтесь здесь: https://forms.gle/L6jH4ty6Zk4tPxYQ9
Программа 👇
11:00 - Открытие
11:15 - Презентация индекса благополучия регионов Армении на основе открытых данных
12:05 - Церемония награждения лауреатов премии «За открытые данные Армении»
13:05 - Вручение премии «Чемпион открытых данных» государственным/муниципальным учреждениям
14:00 - Мастер-классы по инструменту составления бюджета Армении и использованию данных по предотвращению коррупции
15:30 - Дискуссия: данные и ИИ
16:00 - Обсуждение данных об Армении, Арцахе и армянском культурном наследии, возможности финансирования
16:40 - Нетворкинг и презентация предложений, общие интересы и сотрудничество
Ждём вас 13-ого марта в гостинице ibis✅
13-ого марта в гостинице ibis в Ереване День открытых данных соберет всех, кто интересуется открытыми данными в Армении, чтобы обсудить доступность данных, возможности трудоустройства, применение ИИ и принятие решений на основе данных 💭
Кульминацией дня станет презентация победителей конкурса открытых данных и церемония награждения 🎉
Зарегистрируйтесь здесь: https://forms.gle/L6jH4ty6Zk4tPxYQ9
Программа 👇
11:00 - Открытие
11:15 - Презентация индекса благополучия регионов Армении на основе открытых данных
12:05 - Церемония награждения лауреатов премии «За открытые данные Армении»
13:05 - Вручение премии «Чемпион открытых данных» государственным/муниципальным учреждениям
14:00 - Мастер-классы по инструменту составления бюджета Армении и использованию данных по предотвращению коррупции
15:30 - Дискуссия: данные и ИИ
16:00 - Обсуждение данных об Армении, Арцахе и армянском культурном наследии, возможности финансирования
16:40 - Нетворкинг и презентация предложений, общие интересы и сотрудничество
Ждём вас 13-ого марта в гостинице ibis✅
Google Docs
Open Data Day 2026 in Armenia
At the Open Data Day event in Armenia, we will bring together those interested in open data about Armenia to talk about:
Open data in Armenia and work opportunities,
Developing policy based on open data,
Working with data with AI tools,
Data journalism and…
Open data in Armenia and work opportunities,
Developing policy based on open data,
Working with data with AI tools,
Data journalism and…
✍4❤4
Новый подход в Data engineering - ECL (Extract Contextualize Link). Через адаптацию подхода ETL к применению ИИ.
Концепция не бесспорная, но интересная. Как верно указывают автору в комментариях она не решает проблему владения процессами, данными и так далее, но дает опору для переосмысления роли дата инженеров в среде где ИИ для обработки данных становится новой нормой.
Подробнее в тексте https://www.dataengineeringweekly.com/p/data-engineering-after-ai
#dataenginering #data
Концепция не бесспорная, но интересная. Как верно указывают автору в комментариях она не решает проблему владения процессами, данными и так далее, но дает опору для переосмысления роли дата инженеров в среде где ИИ для обработки данных становится новой нормой.
Подробнее в тексте https://www.dataengineeringweekly.com/p/data-engineering-after-ai
#dataenginering #data
1👍8✍5🔥3
Новая версия DuckDB 1.5 обещают поддержку типа GEOMETRY для геоданных, обновленную утилиту командной строки, подключение к ODBC, обновление спецификации DuckLake и больше поддержки озер данных и множество других изменений.
#opensource #datatools #duckdb #dataengineering
#opensource #datatools #duckdb #dataengineering
🔥6❤5
В рубрике как это устроено у них Water Data for the Nation портал данных о воде в США созданный государственной геологической службой страны.
Включает открытые API, открытые данные, визуализацию и графики мониторинга уровня и качества воды в реальном времени.
Довольно комплексная штука на самые разные аудитории.
#opendata #water #usa
Включает открытые API, открытые данные, визуализацию и графики мониторинга уровня и качества воды в реальном времени.
Довольно комплексная штука на самые разные аудитории.
#opendata #water #usa
✍4🔥2
В рубрике как это устроено у них MCP сервис для доступа к данным французского национального портала открытых данных data.gouv.fr.
Опубликовано под MIT лицензией, внутри FastMCP, много примеров и рекомендаций по подключению для разных инструментов.
Выглядит интересно, отложил на попробовать и посмотреть в деле.
#opendata #opensource #ai #mcp
Опубликовано под MIT лицензией, внутри FastMCP, много примеров и рекомендаций по подключению для разных инструментов.
Выглядит интересно, отложил на попробовать и посмотреть в деле.
#opendata #opensource #ai #mcp
🔥6✍2👍2
Блокировка Телеграм в России приведет к ... (несколько вариантов)
Anonymous Poll
8%
Павел Дуров пойдет на сделку
17%
Очередному витку эмиграции из РФ
25%
Ничего серьёзного не произойдет
52%
Ущербу малому бизнесу который будет существенный
48%
Мессенжер MAX будут ненавидеть и саботировать
16%
Ничего не знаю, примус починяю, хочу посмотреть ответы
✍7
Я слегка выпал из злободневных событий с тем что у меня буквально за пару дней сломался ноутбук, сначала частично, а потом полностью отказала матрица.
А почти все осмысленные тексты в телеграм я пишу только с клавиатуры.
О чем хочу написать, но пока откладываю так это про ИИ и открытые данные. Это тема для большого числа дискуссий в мире и я об это тоже ранее писал, но не столь целенаправлено.
Так что как решу мелкие неурядицы, то вернусь к этой теме.
#offtopic #opendata
А почти все осмысленные тексты в телеграм я пишу только с клавиатуры.
О чем хочу написать, но пока откладываю так это про ИИ и открытые данные. Это тема для большого числа дискуссий в мире и я об это тоже ранее писал, но не столь целенаправлено.
Так что как решу мелкие неурядицы, то вернусь к этой теме.
#offtopic #opendata
👍29❤7🔥6
Forwarded from prometa.pro книжки
Этот канал я буду вести, пока ведение каналов в телеграме не станет напрямую караемым делом. Если просто заблокируют в ноль, найду человека в сопредельных странах, которому дам доступ и буду пересылать посты раз в неделю по почте. В отпусках и поездках можно включать комментарии. Вот это получится арт-проект!
К каналам в Max я отношусь скептически. Даже не потому что сама ситуация отвратительна: чтобы загнать пользователей в этот сервис, уничтожаются наши блогерские активы на миллионы рублей и, как сказал один деятель, намеренно разрушаются социальные связи. И даже не потому что аудитория у сервиса будет здорово отличаться от аудитории телеграма, благодаря особенностям которой и востребован сложный контент.
Я думаю, что феномен телеграма как мессенджера и медиа-платформы, где клубятся миллион активных каналов, чатов и закрытых сообществ нельзя повторить в 2026 году, даже если волшебным образом воспроизвести весь существующий функционал не в скандальном Максе, а в ненасильственном, модном и благонравном сервисе Другаксе.
Наша с вами экосистема появилась десять лет назад, в ответ на определенные условия и ситуации. Десять лет! Вечность уже прошла. Сейчас с таким же успехом можно попробовать сделать новый Инстаграм, Твиттер, (тоже запрещенные в РФ сети) или ЖЖ, повторив старый. Это так не работает. Никому сейчас не нужен новый Инстаграм (запрещенная в РФ сеть), даже если старый запретят во всем мире. Сложившиеся 10-15 лет назад платформы с большой аудиторией живут на старых дрожжах, но это инерция, а не повод их копировать.
Фокус общественной жизни перетечет еще куда-то. Как средневековые крестьяне после разорения деревни враждующими баронами, заново отстроимся. Хотя было бы классно уже начать строить вольные города, потому что надоело это раз за разом переживать.
К каналам в Max я отношусь скептически. Даже не потому что сама ситуация отвратительна: чтобы загнать пользователей в этот сервис, уничтожаются наши блогерские активы на миллионы рублей и, как сказал один деятель, намеренно разрушаются социальные связи. И даже не потому что аудитория у сервиса будет здорово отличаться от аудитории телеграма, благодаря особенностям которой и востребован сложный контент.
Я думаю, что феномен телеграма как мессенджера и медиа-платформы, где клубятся миллион активных каналов, чатов и закрытых сообществ нельзя повторить в 2026 году, даже если волшебным образом воспроизвести весь существующий функционал не в скандальном Максе, а в ненасильственном, модном и благонравном сервисе Другаксе.
Наша с вами экосистема появилась десять лет назад, в ответ на определенные условия и ситуации. Десять лет! Вечность уже прошла. Сейчас с таким же успехом можно попробовать сделать новый Инстаграм, Твиттер, (тоже запрещенные в РФ сети) или ЖЖ, повторив старый. Это так не работает. Никому сейчас не нужен новый Инстаграм (запрещенная в РФ сеть), даже если старый запретят во всем мире. Сложившиеся 10-15 лет назад платформы с большой аудиторией живут на старых дрожжах, но это инерция, а не повод их копировать.
Фокус общественной жизни перетечет еще куда-то. Как средневековые крестьяне после разорения деревни враждующими баронами, заново отстроимся. Хотя было бы классно уже начать строить вольные города, потому что надоело это раз за разом переживать.
3❤73👍31💯14🔥10🤝3❤🔥1
Я обещал начать более системно записывать взаимосвязь открытых данных и ИИ и их пересечения и, в том числе, посмотрел конференцию The Future of Open Data которую OKFN провело ко дню открытых данных в мире.
Сессия эта с участием разных предсавителей сообщества открытых данных, разработчиков CKAN, академических и других исследователей. С сильным акцентом на экосистему CKAN'а, но это специфика OKFN откуда разработчики и изначальные создатели CKAN'ат вышли.
Так вот про взаимосвязь ИИ и открытых данных, это довольно сложная история про разные взгляды и восприятие:
1. Отношение к ИИ в среде открытых данных (тусовке) довольно неоднозначное, главным образом из-за довольно сильно левых взглядов у тусовки в целом, неприятию Бигтехов в целом и ИИ Бигтехов в частности. Если, к примеру, я рационализирую применение ИИ инструментов проприетарных или открытых в зависимости от ситуации и стоимости, то многие в среде open data рассматривают только открытые ИИ модели для практического использования. Это не вся тусовка, конечно, но существенная её часть.
2. Одно из очевидных применений - это попытки создавать MCP сервисы как неотъемлимую или дополняемую часть порталов открытых данных. Я ранее писал про MCP сервис французского национального портала данных data.gouv.fr, а также есть MCP сервисы у CKAN'а и PortalJS и других
3. В целом активность тех кто работал над наиболее заметными и известными доступными наборами данных можно разделить на две части. Существенное усиление тех кто поставляет данные для обучения ИИ и сохраняет некоммерческий статус - пример, Common Crawl. Они получили существенно большее финансирование в последние годы (но и это копейки в сравнении с объёмом ИИ рынка), и многих других кто создавал открытые данные, а теперь понимает что их монетизируют другие (ИИ бигтехи в основном).
4. Тут важно понимать что открытые данные сами по себе не являются профессией или специализацией. Профессией может быть дата инженерия или биоинформатика, к примеру. А главные выгодоприобретатели от идущей ИИ революции в данных являются люди с глубоким отраслевым или профессиональным погружением. Поэтому, если честно, то существенная часть мировой тусовки по открытым данным выглядит всё маргинализированной в сравнении с профессиональными дата продуктами. Я ранее ругался про то куда ушла разработка Open Data Editor, который OKFN делали для подготовки данных для публикации в CKAN и это лишь один из многих примеров. Продукт откровенно свернул не туда, ИИ фичи в нем оказались очень плохо реализованными и в целом программная реализация скорее плохая чем какая-либо иная.
5. К примеру, то что мы делаем в Dateno сильно лучше (без хвастовства) чем практически все попытки делать ИИ ассистенты, поисковики и тд в экосистеме открытых данных, но если сравнивать с профессиональными продуктами и сервисами то ещё есть куда расти. MCP сервис у нас уже есть, про ИИ асситентов я расскажу еще позже, но в целом из изучения что делают разные команды в среди именно в тусовке open data никаких инсайтов не дает, увы.
6. Очень много разговоров в среде открытых данных про этику применения ИИ, OKF, к примеру, пытается еще и заниматься AI Literacy, но объективно компетенций в этом немного и это далеко от открытости данных, объективно.
В целом, как я неоднократно вслух рассуждал, с одной стороны открытые данные как уже не настолько sexy тема как лет 10 назад, а с другой стороны сама тема никуда не исчезла и имеет много институционального закрепления во многих странах, сильнее всего в ЕС. Однако видно как многие кто этим занимались десятилетия уже устали, а смены им не будет, потому что ИИ пожирает всё, и интересы активных технарей интересующихся открытостью меняются.
А в целом лично мне нехватает глубины что ли в разговорах про ИИ и про открытость. Например, может ли возникнуть такая ситуация что государства могут отойти от политики открытых данных и вместо этого будут предоставлять ИИ модели обученные на них?
Типа, а зачем вам данные? Вот вам ГосЧат, им и пользуйтесь! А все что есть данные у него внутри и только так.
#opendata #ai #thoughts
Сессия эта с участием разных предсавителей сообщества открытых данных, разработчиков CKAN, академических и других исследователей. С сильным акцентом на экосистему CKAN'а, но это специфика OKFN откуда разработчики и изначальные создатели CKAN'ат вышли.
Так вот про взаимосвязь ИИ и открытых данных, это довольно сложная история про разные взгляды и восприятие:
1. Отношение к ИИ в среде открытых данных (тусовке) довольно неоднозначное, главным образом из-за довольно сильно левых взглядов у тусовки в целом, неприятию Бигтехов в целом и ИИ Бигтехов в частности. Если, к примеру, я рационализирую применение ИИ инструментов проприетарных или открытых в зависимости от ситуации и стоимости, то многие в среде open data рассматривают только открытые ИИ модели для практического использования. Это не вся тусовка, конечно, но существенная её часть.
2. Одно из очевидных применений - это попытки создавать MCP сервисы как неотъемлимую или дополняемую часть порталов открытых данных. Я ранее писал про MCP сервис французского национального портала данных data.gouv.fr, а также есть MCP сервисы у CKAN'а и PortalJS и других
3. В целом активность тех кто работал над наиболее заметными и известными доступными наборами данных можно разделить на две части. Существенное усиление тех кто поставляет данные для обучения ИИ и сохраняет некоммерческий статус - пример, Common Crawl. Они получили существенно большее финансирование в последние годы (но и это копейки в сравнении с объёмом ИИ рынка), и многих других кто создавал открытые данные, а теперь понимает что их монетизируют другие (ИИ бигтехи в основном).
4. Тут важно понимать что открытые данные сами по себе не являются профессией или специализацией. Профессией может быть дата инженерия или биоинформатика, к примеру. А главные выгодоприобретатели от идущей ИИ революции в данных являются люди с глубоким отраслевым или профессиональным погружением. Поэтому, если честно, то существенная часть мировой тусовки по открытым данным выглядит всё маргинализированной в сравнении с профессиональными дата продуктами. Я ранее ругался про то куда ушла разработка Open Data Editor, который OKFN делали для подготовки данных для публикации в CKAN и это лишь один из многих примеров. Продукт откровенно свернул не туда, ИИ фичи в нем оказались очень плохо реализованными и в целом программная реализация скорее плохая чем какая-либо иная.
5. К примеру, то что мы делаем в Dateno сильно лучше (без хвастовства) чем практически все попытки делать ИИ ассистенты, поисковики и тд в экосистеме открытых данных, но если сравнивать с профессиональными продуктами и сервисами то ещё есть куда расти. MCP сервис у нас уже есть, про ИИ асситентов я расскажу еще позже, но в целом из изучения что делают разные команды в среди именно в тусовке open data никаких инсайтов не дает, увы.
6. Очень много разговоров в среде открытых данных про этику применения ИИ, OKF, к примеру, пытается еще и заниматься AI Literacy, но объективно компетенций в этом немного и это далеко от открытости данных, объективно.
В целом, как я неоднократно вслух рассуждал, с одной стороны открытые данные как уже не настолько sexy тема как лет 10 назад, а с другой стороны сама тема никуда не исчезла и имеет много институционального закрепления во многих странах, сильнее всего в ЕС. Однако видно как многие кто этим занимались десятилетия уже устали, а смены им не будет, потому что ИИ пожирает всё, и интересы активных технарей интересующихся открытостью меняются.
А в целом лично мне нехватает глубины что ли в разговорах про ИИ и про открытость. Например, может ли возникнуть такая ситуация что государства могут отойти от политики открытых данных и вместо этого будут предоставлять ИИ модели обученные на них?
Типа, а зачем вам данные? Вот вам ГосЧат, им и пользуйтесь! А все что есть данные у него внутри и только так.
#opendata #ai #thoughts
👍4🔥4✍2❤1
В качестве регулярных напоминаний, помимо телеграм канала я также пишу в рассылке на Substack, электронную почту (пока что) в России не блокируют так что можно на нее подписаться и получать мои тексты на почту. Ранее я туда писал редко и, в основном, длинные тексты поскольку большая часть читателей была в Телеграм, сейчас подумываю о том что дублировать тексты из Телеграм канала и там тоже. Тогда письма будут приходить сильно чаще, но это будет удобнее кому в Telegram теперь будет тяжело.
По поводу ведения Телеграм канала, я придерживаюсь того же мнения что и Катерина Аксенова, я ее пост пересылал недавно. Любой информационный канал очень сильно зависит от платформы, в VK или Max'е повторить эффект накопления аудитории и дискуссий очень сложно и непонятно зачем. Поэтому нет, я не буду заводить канал в Max'е и давно прекратил дублировать тексты в VK, это требует слишком много усилий с непонятным результатом при том что и телеграм канал я создавал не как медиа, а как открытую записную книжку. Я потому и проставляю теги у каждого поста потому что регулярно ищу и читаю написанное ранее. Если кому-то полезно написанное мной, то и хорошо.
А также про Dateno и на английском я чаще пишу в LinkedIn и сильно реже в Medium
#blogging #thoughts
По поводу ведения Телеграм канала, я придерживаюсь того же мнения что и Катерина Аксенова, я ее пост пересылал недавно. Любой информационный канал очень сильно зависит от платформы, в VK или Max'е повторить эффект накопления аудитории и дискуссий очень сложно и непонятно зачем. Поэтому нет, я не буду заводить канал в Max'е и давно прекратил дублировать тексты в VK, это требует слишком много усилий с непонятным результатом при том что и телеграм канал я создавал не как медиа, а как открытую записную книжку. Я потому и проставляю теги у каждого поста потому что регулярно ищу и читаю написанное ранее. Если кому-то полезно написанное мной, то и хорошо.
А также про Dateno и на английском я чаще пишу в LinkedIn и сильно реже в Medium
#blogging #thoughts
Substack
Ivan’s Begtin Newsletter on digital, open and preserved government | Substack
Digital government can't be without openness, preservation, plain language and data, for sure. Click to read Ivan’s Begtin Newsletter on digital, open and preserved government, by Ivan Begtin, a Substack publication with hundreds of subscribers.
❤20👍16🔥4👏2
По поводу законопроекта Об основах государственного регулирования сфер применения технологий искусственного интеллекта в Российской Федерации [1] который многие сейчас обсуждают и который вступит в силу в сентябре 2027 г. если будет принят.
Содержательно его и без меня многие разберут по косточкам, а я могу лишь с небольшой иронией озвучить "в воздух вопросы":
1. Будет ли создано министерство духовно-нравственных ценностей? А то дело то серьезное, во многих законах уже есть (думаю что де-факто есть засекреченное)
2. Все незарегистрированные ИИ ассистенты и агенты заблокируют или китайские ИИ агенты еще останутся доступными? (а есть сомнения? все заблокируют)
3. И самое главное, а чего полтора года то тянуть? Это что же такое, целых полтора года российские суверенные и национальные модели будут бездушные и безнравственные?! (вопрос риторический)
Ссылки:
[1] https://regulation.gov.ru/projects/166424/
#ai #russia #regulation #laws
Содержательно его и без меня многие разберут по косточкам, а я могу лишь с небольшой иронией озвучить "в воздух вопросы":
1. Будет ли создано министерство духовно-нравственных ценностей? А то дело то серьезное, во многих законах уже есть (думаю что де-факто есть засекреченное)
2. Все незарегистрированные ИИ ассистенты и агенты заблокируют или китайские ИИ агенты еще останутся доступными? (а есть сомнения? все заблокируют)
3. И самое главное, а чего полтора года то тянуть? Это что же такое, целых полтора года российские суверенные и национальные модели будут бездушные и безнравственные?! (вопрос риторический)
Ссылки:
[1] https://regulation.gov.ru/projects/166424/
#ai #russia #regulation #laws
1😁29👏11😢7🌚3❤2💯2