Портал открытых данных Москвы data.mos.ru недоступен уже 2 недели с сообщением о технических работах без каких либо анонсов о их завершении. Явный признак что он уже мёртв. Этот портал был старейшим из российских официальных порталов данных и он был чуть более живым чем остальные.
Но ценных данных там давно не было, а теперь недоступны и те что были.
#opendata #closeddata #russia #moscow
Но ценных данных там давно не было, а теперь недоступны и те что были.
#opendata #closeddata #russia #moscow
😱15✍5🕊4😁2🌚1
В предверии дней открытых данных которые начнутся в мире с 7 марта, мне бы хотелось сказать что-то положительное про открытость данных в контексте гос-ва в России, но позитива мало, негатива много.
Я лишь напомню про тренды последних лет, которые не изменились:
1. Региональные порталы открытых данных постепенно устаревают и закрыватся. Портал открытых данных СПб не обновлялся с 2021 г., портал ОД Москвы выключен последние 2 недели, в других регионах порталы данных или уже не работают, или содержат минимум сведений, или сведения все не обновляются от 3 до 10 лет.
2. Федеральный портал data.gov.ru хоть и заработал, но бессмысленнен по своей природе поскольку агрегирует те самые устаревшие датасеты с региональных порталов и на нем нет никаких значимых наборов данных.
3. Официальная статистическая информация всё активнее закрывается и исчезает из открытого доступа.
4. Негосударственные активности по созданию открытых данных получили множество ограничений:
- создание наборов данных на аудиторию журналистов и общественников стало опасным из-за массового признания их иноагентами
- создание наборов данных для бизнеса не понятно зачем кому-либо создавать их открытыми кроме как государство официально. Резонное мнение что бизнес если не получает открытые данные из первоисточника, то способен оплатить их
- аналогично с наборами данных для ИИ. Они востребованы, но для большинства общественной активности в мире по этой теме падает мотивация поскольку видны огромные доходы ИИ бигтеха на общественной, в общем-то, работе. В России ситуация аналогичная.
—
Ну вот и у меня получается обзор в стиле списка проблем и позитива мало. Более-менее что-то позитивное возможно в части доступа исследователей к данным и в части данных в гуманитарных науках и культуре. Первое - это естественная потребность во всех странах где ещё есть живая наука, второе осложнено скорее почти полным отсутствием средств, а не отсутствием людей.
Тем временем в мире проходит порядка 87 небольших мероприятий Дня открытых данных с 7 по 13 марта https://opendataday.org/ большая их часть это митапы сообществ, но есть и несколько больших виртуальных событий на которых есть что послушать.
#opendata #opengov
Я лишь напомню про тренды последних лет, которые не изменились:
1. Региональные порталы открытых данных постепенно устаревают и закрыватся. Портал открытых данных СПб не обновлялся с 2021 г., портал ОД Москвы выключен последние 2 недели, в других регионах порталы данных или уже не работают, или содержат минимум сведений, или сведения все не обновляются от 3 до 10 лет.
2. Федеральный портал data.gov.ru хоть и заработал, но бессмысленнен по своей природе поскольку агрегирует те самые устаревшие датасеты с региональных порталов и на нем нет никаких значимых наборов данных.
3. Официальная статистическая информация всё активнее закрывается и исчезает из открытого доступа.
4. Негосударственные активности по созданию открытых данных получили множество ограничений:
- создание наборов данных на аудиторию журналистов и общественников стало опасным из-за массового признания их иноагентами
- создание наборов данных для бизнеса не понятно зачем кому-либо создавать их открытыми кроме как государство официально. Резонное мнение что бизнес если не получает открытые данные из первоисточника, то способен оплатить их
- аналогично с наборами данных для ИИ. Они востребованы, но для большинства общественной активности в мире по этой теме падает мотивация поскольку видны огромные доходы ИИ бигтеха на общественной, в общем-то, работе. В России ситуация аналогичная.
—
Ну вот и у меня получается обзор в стиле списка проблем и позитива мало. Более-менее что-то позитивное возможно в части доступа исследователей к данным и в части данных в гуманитарных науках и культуре. Первое - это естественная потребность во всех странах где ещё есть живая наука, второе осложнено скорее почти полным отсутствием средств, а не отсутствием людей.
Тем временем в мире проходит порядка 87 небольших мероприятий Дня открытых данных с 7 по 13 марта https://opendataday.org/ большая их часть это митапы сообществ, но есть и несколько больших виртуальных событий на которых есть что послушать.
#opendata #opengov
opendataday.org
Open Data Day 2026 - Celebrate #opendata where you are
Join the annual celebration of open data all over the world, when communities gather to reach out to new people and build new solutions using open data.
❤4🤔4👍1🔥1
Ещё одна весьма неприятная российская новость то что Сотрудников вузов уже штрафуют за упоминания нежелательных организаций. https://66.ru/news/society/287190/
И тут у меня вопрос, если я сошлюсь на данные созданные в Университете Беркли или Йеле или IETLS то меня тоже захотят оштрафовать?
У Йеля и Беркли есть значимые датасеты опубликованные на Hugging Face и платформах Dataverse
#opendata #datasets #russia #closeddata
И тут у меня вопрос, если я сошлюсь на данные созданные в Университете Беркли или Йеле или IETLS то меня тоже захотят оштрафовать?
У Йеля и Беркли есть значимые датасеты опубликованные на Hugging Face и платформах Dataverse
#opendata #datasets #russia #closeddata
😢20💊5❤2✍1👏1🕊1🌚1💯1
Немного про экономику открытых данных с точки зрения инфраструктуры. Набор фактов, о том как порталы данных создаются.
Количественно большая часть порталов открытых данных в мире создаются на базе открытого ПО: CKAN, DKAN, Geonetwork, GeoNode, InvenioRDM и многих других. Открытый код доминирует, но далеко не является единственным.
В мире есть несколько основных коммерческих вендоров предоставляющих облачные порталы через годовые лицензии:
- ArcGIS Hub - продукт SaaS от ESRI есть ограниченная бесплатная версия которой массово пользуются и есть Premium версия стоит порядка $10000 в год. Акцент на геоданных, но многие публикуют и Excel и. CSV и иные дата файлы на этих порталах.
- OpenDataSoft - французская компания предоставляющая сервис порталов открытых данных. За последние 2 года они переименовались в Huwise и стали позиционировать себя как разработчиков маркетплейсов данных. Их ценник варьируется от 46 до 186 тысяч евро в год
- Socrata - компания из США и одноименный продукт, была куплена Tyler Technologies' Data & Insights и как компания более не существует, но продукт остался и используется преимущественно в США. Стоимость лицензии и внедрения порядка $49000 в год
- PortalJS - продукт компании Datopian, одних из разработчиков open source каталога данных CKAN. Продукт тоже с открытым кодом и с онлайн версией по модели SaaS с ценником от ~$1200 до ~$3600 ежегодно. Стоимость невысокая, но и коммерческих внедрений у них очень мало. Большинству достаточно бесплатного и открытого CKAN или открытой версии PortalJS.
Все остальные вендоры порталов с данными скорее являются вендорами автоматизации академических и образовательных институций и тот же Elsevier Pure используется для публикации исследовательских результатов (research outputs) включая наборы данных, но рассматривать их как вендора порталов открытых данных будет, всё таки, неверно.
В целом же этот рынок как рынок существует только в Западном мире, где есть сложившаяся привычка и бюджеты платить за SaaS решения и лицензии и где тема открытых данных имеет сильные институциональные корни. В развивающихся странах чаще массово разворачивают ПО с открытым кодом или используют бесплатные версии SaaS продуктов вроде ArcGIS Hub в базовой бесплатной редакции.
#opendata #market #data #datacatalogs
Количественно большая часть порталов открытых данных в мире создаются на базе открытого ПО: CKAN, DKAN, Geonetwork, GeoNode, InvenioRDM и многих других. Открытый код доминирует, но далеко не является единственным.
В мире есть несколько основных коммерческих вендоров предоставляющих облачные порталы через годовые лицензии:
- ArcGIS Hub - продукт SaaS от ESRI есть ограниченная бесплатная версия которой массово пользуются и есть Premium версия стоит порядка $10000 в год. Акцент на геоданных, но многие публикуют и Excel и. CSV и иные дата файлы на этих порталах.
- OpenDataSoft - французская компания предоставляющая сервис порталов открытых данных. За последние 2 года они переименовались в Huwise и стали позиционировать себя как разработчиков маркетплейсов данных. Их ценник варьируется от 46 до 186 тысяч евро в год
- Socrata - компания из США и одноименный продукт, была куплена Tyler Technologies' Data & Insights и как компания более не существует, но продукт остался и используется преимущественно в США. Стоимость лицензии и внедрения порядка $49000 в год
- PortalJS - продукт компании Datopian, одних из разработчиков open source каталога данных CKAN. Продукт тоже с открытым кодом и с онлайн версией по модели SaaS с ценником от ~$1200 до ~$3600 ежегодно. Стоимость невысокая, но и коммерческих внедрений у них очень мало. Большинству достаточно бесплатного и открытого CKAN или открытой версии PortalJS.
Все остальные вендоры порталов с данными скорее являются вендорами автоматизации академических и образовательных институций и тот же Elsevier Pure используется для публикации исследовательских результатов (research outputs) включая наборы данных, но рассматривать их как вендора порталов открытых данных будет, всё таки, неверно.
В целом же этот рынок как рынок существует только в Западном мире, где есть сложившаяся привычка и бюджеты платить за SaaS решения и лицензии и где тема открытых данных имеет сильные институциональные корни. В развивающихся странах чаще массово разворачивают ПО с открытым кодом или используют бесплатные версии SaaS продуктов вроде ArcGIS Hub в базовой бесплатной редакции.
#opendata #market #data #datacatalogs
👍3✍2
В рубрике как это устроено у них Water Data for the Nation портал данных о воде в США созданный государственной геологической службой страны.
Включает открытые API, открытые данные, визуализацию и графики мониторинга уровня и качества воды в реальном времени.
Довольно комплексная штука на самые разные аудитории.
#opendata #water #usa
Включает открытые API, открытые данные, визуализацию и графики мониторинга уровня и качества воды в реальном времени.
Довольно комплексная штука на самые разные аудитории.
#opendata #water #usa
✍4🔥2
В рубрике как это устроено у них MCP сервис для доступа к данным французского национального портала открытых данных data.gouv.fr.
Опубликовано под MIT лицензией, внутри FastMCP, много примеров и рекомендаций по подключению для разных инструментов.
Выглядит интересно, отложил на попробовать и посмотреть в деле.
#opendata #opensource #ai #mcp
Опубликовано под MIT лицензией, внутри FastMCP, много примеров и рекомендаций по подключению для разных инструментов.
Выглядит интересно, отложил на попробовать и посмотреть в деле.
#opendata #opensource #ai #mcp
🔥6✍2👍2
Я слегка выпал из злободневных событий с тем что у меня буквально за пару дней сломался ноутбук, сначала частично, а потом полностью отказала матрица.
А почти все осмысленные тексты в телеграм я пишу только с клавиатуры.
О чем хочу написать, но пока откладываю так это про ИИ и открытые данные. Это тема для большого числа дискуссий в мире и я об это тоже ранее писал, но не столь целенаправлено.
Так что как решу мелкие неурядицы, то вернусь к этой теме.
#offtopic #opendata
А почти все осмысленные тексты в телеграм я пишу только с клавиатуры.
О чем хочу написать, но пока откладываю так это про ИИ и открытые данные. Это тема для большого числа дискуссий в мире и я об это тоже ранее писал, но не столь целенаправлено.
Так что как решу мелкие неурядицы, то вернусь к этой теме.
#offtopic #opendata
👍29❤7🔥6
Я обещал начать более системно записывать взаимосвязь открытых данных и ИИ и их пересечения и, в том числе, посмотрел конференцию The Future of Open Data которую OKFN провело ко дню открытых данных в мире.
Сессия эта с участием разных предсавителей сообщества открытых данных, разработчиков CKAN, академических и других исследователей. С сильным акцентом на экосистему CKAN'а, но это специфика OKFN откуда разработчики и изначальные создатели CKAN'ат вышли.
Так вот про взаимосвязь ИИ и открытых данных, это довольно сложная история про разные взгляды и восприятие:
1. Отношение к ИИ в среде открытых данных (тусовке) довольно неоднозначное, главным образом из-за довольно сильно левых взглядов у тусовки в целом, неприятию Бигтехов в целом и ИИ Бигтехов в частности. Если, к примеру, я рационализирую применение ИИ инструментов проприетарных или открытых в зависимости от ситуации и стоимости, то многие в среде open data рассматривают только открытые ИИ модели для практического использования. Это не вся тусовка, конечно, но существенная её часть.
2. Одно из очевидных применений - это попытки создавать MCP сервисы как неотъемлимую или дополняемую часть порталов открытых данных. Я ранее писал про MCP сервис французского национального портала данных data.gouv.fr, а также есть MCP сервисы у CKAN'а и PortalJS и других
3. В целом активность тех кто работал над наиболее заметными и известными доступными наборами данных можно разделить на две части. Существенное усиление тех кто поставляет данные для обучения ИИ и сохраняет некоммерческий статус - пример, Common Crawl. Они получили существенно большее финансирование в последние годы (но и это копейки в сравнении с объёмом ИИ рынка), и многих других кто создавал открытые данные, а теперь понимает что их монетизируют другие (ИИ бигтехи в основном).
4. Тут важно понимать что открытые данные сами по себе не являются профессией или специализацией. Профессией может быть дата инженерия или биоинформатика, к примеру. А главные выгодоприобретатели от идущей ИИ революции в данных являются люди с глубоким отраслевым или профессиональным погружением. Поэтому, если честно, то существенная часть мировой тусовки по открытым данным выглядит всё маргинализированной в сравнении с профессиональными дата продуктами. Я ранее ругался про то куда ушла разработка Open Data Editor, который OKFN делали для подготовки данных для публикации в CKAN и это лишь один из многих примеров. Продукт откровенно свернул не туда, ИИ фичи в нем оказались очень плохо реализованными и в целом программная реализация скорее плохая чем какая-либо иная.
5. К примеру, то что мы делаем в Dateno сильно лучше (без хвастовства) чем практически все попытки делать ИИ ассистенты, поисковики и тд в экосистеме открытых данных, но если сравнивать с профессиональными продуктами и сервисами то ещё есть куда расти. MCP сервис у нас уже есть, про ИИ асситентов я расскажу еще позже, но в целом из изучения что делают разные команды в среди именно в тусовке open data никаких инсайтов не дает, увы.
6. Очень много разговоров в среде открытых данных про этику применения ИИ, OKF, к примеру, пытается еще и заниматься AI Literacy, но объективно компетенций в этом немного и это далеко от открытости данных, объективно.
В целом, как я неоднократно вслух рассуждал, с одной стороны открытые данные как уже не настолько sexy тема как лет 10 назад, а с другой стороны сама тема никуда не исчезла и имеет много институционального закрепления во многих странах, сильнее всего в ЕС. Однако видно как многие кто этим занимались десятилетия уже устали, а смены им не будет, потому что ИИ пожирает всё, и интересы активных технарей интересующихся открытостью меняются.
А в целом лично мне нехватает глубины что ли в разговорах про ИИ и про открытость. Например, может ли возникнуть такая ситуация что государства могут отойти от политики открытых данных и вместо этого будут предоставлять ИИ модели обученные на них?
Типа, а зачем вам данные? Вот вам ГосЧат, им и пользуйтесь! А все что есть данные у него внутри и только так.
#opendata #ai #thoughts
Сессия эта с участием разных предсавителей сообщества открытых данных, разработчиков CKAN, академических и других исследователей. С сильным акцентом на экосистему CKAN'а, но это специфика OKFN откуда разработчики и изначальные создатели CKAN'ат вышли.
Так вот про взаимосвязь ИИ и открытых данных, это довольно сложная история про разные взгляды и восприятие:
1. Отношение к ИИ в среде открытых данных (тусовке) довольно неоднозначное, главным образом из-за довольно сильно левых взглядов у тусовки в целом, неприятию Бигтехов в целом и ИИ Бигтехов в частности. Если, к примеру, я рационализирую применение ИИ инструментов проприетарных или открытых в зависимости от ситуации и стоимости, то многие в среде open data рассматривают только открытые ИИ модели для практического использования. Это не вся тусовка, конечно, но существенная её часть.
2. Одно из очевидных применений - это попытки создавать MCP сервисы как неотъемлимую или дополняемую часть порталов открытых данных. Я ранее писал про MCP сервис французского национального портала данных data.gouv.fr, а также есть MCP сервисы у CKAN'а и PortalJS и других
3. В целом активность тех кто работал над наиболее заметными и известными доступными наборами данных можно разделить на две части. Существенное усиление тех кто поставляет данные для обучения ИИ и сохраняет некоммерческий статус - пример, Common Crawl. Они получили существенно большее финансирование в последние годы (но и это копейки в сравнении с объёмом ИИ рынка), и многих других кто создавал открытые данные, а теперь понимает что их монетизируют другие (ИИ бигтехи в основном).
4. Тут важно понимать что открытые данные сами по себе не являются профессией или специализацией. Профессией может быть дата инженерия или биоинформатика, к примеру. А главные выгодоприобретатели от идущей ИИ революции в данных являются люди с глубоким отраслевым или профессиональным погружением. Поэтому, если честно, то существенная часть мировой тусовки по открытым данным выглядит всё маргинализированной в сравнении с профессиональными дата продуктами. Я ранее ругался про то куда ушла разработка Open Data Editor, который OKFN делали для подготовки данных для публикации в CKAN и это лишь один из многих примеров. Продукт откровенно свернул не туда, ИИ фичи в нем оказались очень плохо реализованными и в целом программная реализация скорее плохая чем какая-либо иная.
5. К примеру, то что мы делаем в Dateno сильно лучше (без хвастовства) чем практически все попытки делать ИИ ассистенты, поисковики и тд в экосистеме открытых данных, но если сравнивать с профессиональными продуктами и сервисами то ещё есть куда расти. MCP сервис у нас уже есть, про ИИ асситентов я расскажу еще позже, но в целом из изучения что делают разные команды в среди именно в тусовке open data никаких инсайтов не дает, увы.
6. Очень много разговоров в среде открытых данных про этику применения ИИ, OKF, к примеру, пытается еще и заниматься AI Literacy, но объективно компетенций в этом немного и это далеко от открытости данных, объективно.
В целом, как я неоднократно вслух рассуждал, с одной стороны открытые данные как уже не настолько sexy тема как лет 10 назад, а с другой стороны сама тема никуда не исчезла и имеет много институционального закрепления во многих странах, сильнее всего в ЕС. Однако видно как многие кто этим занимались десятилетия уже устали, а смены им не будет, потому что ИИ пожирает всё, и интересы активных технарей интересующихся открытостью меняются.
А в целом лично мне нехватает глубины что ли в разговорах про ИИ и про открытость. Например, может ли возникнуть такая ситуация что государства могут отойти от политики открытых данных и вместо этого будут предоставлять ИИ модели обученные на них?
Типа, а зачем вам данные? Вот вам ГосЧат, им и пользуйтесь! А все что есть данные у него внутри и только так.
#opendata #ai #thoughts
🔥4👍3✍2❤1
Для тех кто интересуется глобальными геодатасетами Global Canopy Heights (Глобальная высота растительного покрова) эти обновленные данные совсем недавно Meta опубликовали как открытую модель на 22ТБ и появился уже сервис chm.geocarpentry.org для выгрузки из него по странам или по конкретным блокам. Он позволяет извлечь из датасета слепки по интересующим территориям.
#opendata #datasets #geodata
#opendata #datasets #geodata
👍12❤2❤🔥1