Реально простое лицензирование (RSL) свежий стандарт описания того как опубликован контент на веб-ресурсах. Создан в коллаборации Yahoo, Medium, Reddit, Raptive и ряда других медиа и ориентирован на то чтобы явным образом указывать условия доступа к контенту в robots.txt, веб-страницах и так далее причём, согласно анонсу с акцентом на автоматизированное потребление контента ИИ краулерами.
Выглядит весьма проработано и интегрировано с передачей метаданных о лицензиях в:
- Schema.org
- robots.txt
- HTTP заголовках
- RSS лентах
- внутри метаданных изображений и PDF файлах
С возможностью указания:
- запрета на обучение ИИ
- разрешения на обучение ИИ с ограничениями
- отсутствие ограничений на обучение ИИ
- свободных лицензий на код (OSI)
- свободных лицензий на контент (CC)
и так далее
Из особенностей - ничего нет про наборы данных и в техническом комитете нет data людей, но все участвующие про контент. Из наиболее известных людей я там увидел Тима О'Рэлли.
Сам подход интересный декомпозицией ограничений в машинную форму. Об этом многие задумывались и лучше всего ИМХО лицензии структурировались в проектах вроде Creative Commons. Здесь же реестр лицензией с их ключевыми характеристиками авторы создавать не стали, вместо этого ввели возможность указания новых параметров завязанных на ИИ.
Не знаю получит ли более широкое распространение, но проработка стандарта там хорошая, так что инициатива стоит внимания и применения.
#standards #licenses #specifications
Выглядит весьма проработано и интегрировано с передачей метаданных о лицензиях в:
- Schema.org
- robots.txt
- HTTP заголовках
- RSS лентах
- внутри метаданных изображений и PDF файлах
С возможностью указания:
- запрета на обучение ИИ
- разрешения на обучение ИИ с ограничениями
- отсутствие ограничений на обучение ИИ
- свободных лицензий на код (OSI)
- свободных лицензий на контент (CC)
и так далее
Из особенностей - ничего нет про наборы данных и в техническом комитете нет data людей, но все участвующие про контент. Из наиболее известных людей я там увидел Тима О'Рэлли.
Сам подход интересный декомпозицией ограничений в машинную форму. Об этом многие задумывались и лучше всего ИМХО лицензии структурировались в проектах вроде Creative Commons. Здесь же реестр лицензией с их ключевыми характеристиками авторы создавать не стали, вместо этого ввели возможность указания новых параметров завязанных на ИИ.
Не знаю получит ли более широкое распространение, но проработка стандарта там хорошая, так что инициатива стоит внимания и применения.
#standards #licenses #specifications
👍3❤2😍2❤🔥1
В рубрике как это устроено у них данные о стоимости земель во Франциии. Доступны в виде датасетов размером около 450MB и включают более 3.4 миллионов строк только за 2024 год, а также доступны данные начиная с 2020 года.
Данные О=рпубликованы на национальном портале data.gouv.fr и являются одним из наиболее востребованных наборов данных с 1.4 миллионами просмотров и 111 примеров повторного использования в виде визуализаций, общественных и коммерческих приложений созданных на их основе.
Один из способов оценки потенциальной востребованности данных в том чтобы смотреть на популярность данных опубликованных в других странах. Скажу сразу почти всегда наиболее популярны геоданные, особенно данные по стоимости земель, национальные базы адресов и официальная статистика в максимально детализированной форме.
#opendata #france #datasets
Данные О=рпубликованы на национальном портале data.gouv.fr и являются одним из наиболее востребованных наборов данных с 1.4 миллионами просмотров и 111 примеров повторного использования в виде визуализаций, общественных и коммерческих приложений созданных на их основе.
Один из способов оценки потенциальной востребованности данных в том чтобы смотреть на популярность данных опубликованных в других странах. Скажу сразу почти всегда наиболее популярны геоданные, особенно данные по стоимости земель, национальные базы адресов и официальная статистика в максимально детализированной форме.
#opendata #france #datasets
✍3⚡1❤1
Apertus (лат. открытый) LLM - свежая открытая прозрачная многоязычная большая языковая модель из Швейцарии анонсированная как совместная разработка исследователей EPFL, ETH Zurich и CSCS. Модель опубликована на Hugging Face, доступна с открытым кодом, декларируется как прозрачная и этичная (обучена только на данных сайтов которые позволяют обучать ИИ) и декларируется поддержка более 1000 языков.
Эта модель создана как часть инициативы Swiss AI, демо Apertus доступно онлайн на publicai.co.
И, на закуску, технический отчет 0.1 о текущей версии модели Apertus. Там много интересного, мне бросилось в глаза наличие SwitzerlandQA, специализированного набора тестов по каждому из 26 кантонов Швейцарии по каждому из которых как минимум 200 вопросов и всего собрано 9,167 вопросов, с последующим их переводом на немецкий, французский, итальянский, романшский и английский языки.
#opensource #opendata #ai #switzerland
Эта модель создана как часть инициативы Swiss AI, демо Apertus доступно онлайн на publicai.co.
И, на закуску, технический отчет 0.1 о текущей версии модели Apertus. Там много интересного, мне бросилось в глаза наличие SwitzerlandQA, специализированного набора тестов по каждому из 26 кантонов Швейцарии по каждому из которых как минимум 200 вопросов и всего собрано 9,167 вопросов, с последующим их переводом на немецкий, французский, итальянский, романшский и английский языки.
#opensource #opendata #ai #switzerland
👍12
Свежий доклад ОЭСР National statistical offices as emerging trusted intermediaries in data governance о том что национальные статистические службы (NSO) в мире могут выступать в роли доверенных дата-посредников (TDI) в предоставлении доступа к данным третьих сторон.
В докладе акцент на том что национальные статслужбы собирают данные от других госорганов и создающих данные организации и обеспечивают безопасный доступ исследователей к этим данным в контролируемом окружении. С примерами такой инфраструктуры в Канаде, Франции, Израиле, Финляндии, Литве, Эстонии, Великобритании, Турции и других странах.
Почти во всех случаях акцент на доступе к деперсонализированным данным соцопросов и данных с иными ограничениями и обременениями.
В целом, лично для меня мало нового, но хорошо систематизированный материал о том что управление данными - это ключевые компетенции статслужб и то что статслужбы наиболее логичные дата стюарды для обеспечения доступа к данным, но только когда эти компетенции развиты и развиваются.
#opendata #data #statistics #oecd #readings
В докладе акцент на том что национальные статслужбы собирают данные от других госорганов и создающих данные организации и обеспечивают безопасный доступ исследователей к этим данным в контролируемом окружении. С примерами такой инфраструктуры в Канаде, Франции, Израиле, Финляндии, Литве, Эстонии, Великобритании, Турции и других странах.
Почти во всех случаях акцент на доступе к деперсонализированным данным соцопросов и данных с иными ограничениями и обременениями.
В целом, лично для меня мало нового, но хорошо систематизированный материал о том что управление данными - это ключевые компетенции статслужб и то что статслужбы наиболее логичные дата стюарды для обеспечения доступа к данным, но только когда эти компетенции развиты и развиваются.
#opendata #data #statistics #oecd #readings
👍6✍1🔥1
Разработчики из Dagster Labs, создатели известного open source ETL/ELT движка анонсировали новый продукт Compass, в этот раз совсем не с открытым кодом и в другой области. Compass - это ИИ бот по автоматизации корпоративной аналитики через использование чатов в Slack. Он подключается к корп хранилищу данных в BigQuery/Snowflake/Databricks и тд. и выдаёт текстовые инсайты на явно заданные вопросы.
Идея не новая, но прикольная как замена дашбордов на чатовую аналитику. Для тех руководителей и аналитиков кто тусуется в чатах больше чем в BI системах - это удобная штука. Менее всего мне в ней нравится Slack, но его выбор тоже вполне логичен.
Кто теперь первым запилит open source аналог такого продукта?
#analytics #data #ai
Идея не новая, но прикольная как замена дашбордов на чатовую аналитику. Для тех руководителей и аналитиков кто тусуется в чатах больше чем в BI системах - это удобная штука. Менее всего мне в ней нравится Slack, но его выбор тоже вполне логичен.
Кто теперь первым запилит open source аналог такого продукта?
#analytics #data #ai
👍5❤1
В рубрике интересных наборов данных датасет метаданными 40 миллионов репозиториев на Github github-repos-metadata-40M размещённый на HuggingFace. Создан в июле 2025 г., включает такие метаданные как название репозитория, уникальный код, описание, основной язык, код лицензии, число, размер, число наблюдаетелей, число форков, дату создания.
Создан на основе GHArchive - базы событий в Github.
С одной стороны полезный датасет, а с другой он позволяет считать только основные метрики по репозиториям.
Например, Github это, возможно, крупнейший архив не только кода, но и данных в мире и, с точки зрения наполнения Dateno, лично меня всегда интересовала возможность найти на Github'е репозитории используемыми для публикации наборов данных. Это не так просто, если быть честным. Это требует не базовых метаданных, а, как минимум, копии README.md и списка всех файлов в репозитории и классификационного механизма позволяющего определить тип репозитория: только код, данные, документация, гибрид и тд. Причём после первоначального анализа README.md и списка файлов может потребоваться заглянуть в дополнительные файлы чтобы собрать все метаданные необходимые для описания набора данных.
Но такой датасет на базе Github'а лично мне пока не попадался.
#opendata #datasets
Создан на основе GHArchive - базы событий в Github.
С одной стороны полезный датасет, а с другой он позволяет считать только основные метрики по репозиториям.
Например, Github это, возможно, крупнейший архив не только кода, но и данных в мире и, с точки зрения наполнения Dateno, лично меня всегда интересовала возможность найти на Github'е репозитории используемыми для публикации наборов данных. Это не так просто, если быть честным. Это требует не базовых метаданных, а, как минимум, копии README.md и списка всех файлов в репозитории и классификационного механизма позволяющего определить тип репозитория: только код, данные, документация, гибрид и тд. Причём после первоначального анализа README.md и списка файлов может потребоваться заглянуть в дополнительные файлы чтобы собрать все метаданные необходимые для описания набора данных.
Но такой датасет на базе Github'а лично мне пока не попадался.
#opendata #datasets
❤3
Для тех кто учится на чужих ошибках отличный тред на reddit'е где автор делиться опытом применения вайб кодинга на живой системе. В этот тред можно отправлять всех кто думает про вайб кодинг как про "манну небесную" и решение всех проблем. Скорее про создание новых проблем в руках людей не обладающих необходимыми техническими навыками.
Я бы, кстати, всех продавцов курсов по вайб-кодингу для начинающих разработчиков сразу вносил в чёрный список как разрушающих ИТ индустрию. И если Вы сами только-только начинаете программировать, лучше не начинайте с применения ИИ ассистентов. Это помешает приобрести реальный опыт и отразится на всей последующей карьере.
#ai #coding
Я бы, кстати, всех продавцов курсов по вайб-кодингу для начинающих разработчиков сразу вносил в чёрный список как разрушающих ИТ индустрию. И если Вы сами только-только начинаете программировать, лучше не начинайте с применения ИИ ассистентов. Это помешает приобрести реальный опыт и отразится на всей последующей карьере.
#ai #coding
1💯21🔥6
Вышла версия 1.4 DuckDB, изменений там довольно немало, я бы обратил внимание на появление режима шифрования базы данных которой охватывает и сам файл базы данных, и всех промежуточных файлов. А также улучшена сортировка, появился коннектор к Teradata, запись в таблицы Apache Iceberg и так далее.
#opensource #datatools
#opensource #datatools
DuckDB
Announcing DuckDB 1.4.0 LTS
We're releasing DuckDB version 1.4.0, codenamed “Andium”. This is an LTS release with one year of community support, and it packs several new features including database encryption, the MERGE statement and Iceberg writes.
🔥10
Forwarded from Национальный цифровой архив
Важный вопрос, как для развития Ruarxive.org, так и для сообщества по цифровой архивации в том как мы могли сообщество развивать и поддерживать? Как можно было бы сделать текущую работы по архивации более полезной, удобной и востребованной? Для чего обязательно проведём опрос тут в телеграм канале, но прежде это хотелось бы обсудить.
У инициатив по архивации, увы, немного ресурсов и удаётся сохранить далеко не всё что хотелось бы
Вот неполный список идей которые "витают в воздухе":
1. Обновить сайт ruarxive.org и выложить туда в более удобном виде все накопленные архивы.
2. Сделать форум для обсуждений который бы дополнял чат @ruarxivechat и дел бы возможность не терять треды обсуждения.
3. Больше интегрироваться с Archive.org и ArchiveTeam и ориентироваться на них в архивных задачах. Например, делать обязательную копию всего в Интернет архив
4. Организовать курсы/семинары по обучению самостоятельной архивации (материалы есть, они даже использовались для курсов в одном из университетов).
5. Регулярно организовывать митапы или ежегодную конференцию по теме архивации цифрового контента
6. Актуализировать гайды по архивации цифрового контента разного типа и подготовить новые
7. Организовать конкурс на создание инструментов архивации типовых сайтов/соц сетей/иных цифровых источников данных, может быть добавить конкурс на создание гайдов и курсов по архивации от сообщества
Возможно какие-то ещё идеи? Предлагаю обсудить их в чате @ruarxivechat и все их выставим на голосование в ближайшее время
#ideas #community
У инициатив по архивации, увы, немного ресурсов и удаётся сохранить далеко не всё что хотелось бы
Вот неполный список идей которые "витают в воздухе":
1. Обновить сайт ruarxive.org и выложить туда в более удобном виде все накопленные архивы.
2. Сделать форум для обсуждений который бы дополнял чат @ruarxivechat и дел бы возможность не терять треды обсуждения.
3. Больше интегрироваться с Archive.org и ArchiveTeam и ориентироваться на них в архивных задачах. Например, делать обязательную копию всего в Интернет архив
4. Организовать курсы/семинары по обучению самостоятельной архивации (материалы есть, они даже использовались для курсов в одном из университетов).
5. Регулярно организовывать митапы или ежегодную конференцию по теме архивации цифрового контента
6. Актуализировать гайды по архивации цифрового контента разного типа и подготовить новые
7. Организовать конкурс на создание инструментов архивации типовых сайтов/соц сетей/иных цифровых источников данных, может быть добавить конкурс на создание гайдов и курсов по архивации от сообщества
Возможно какие-то ещё идеи? Предлагаю обсудить их в чате @ruarxivechat и все их выставим на голосование в ближайшее время
#ideas #community
⚡3❤1
Свежий инструмент для исследователей ORKG Ask даёт структурированные ответы на вопросы на основе CORE Dataset, крупнейшей базы научных статей открытого доступа в мире (418 миллионов статей)
Основное применение тут в виде подборок статей для цитирования.
#openaccess #opensource
Основное применение тут в виде подборок статей для цитирования.
#openaccess #opensource
👍6
Сюда ещё много чего можно добавить:
❌ вы написали что умеете убирать говно лопатой, а у нас все работают на экскаваторах (недостаточное владение современными инструментами)
❌ вы не умеете убирать говно без роботов, а нам нужен личный опыт (вайб спецы по уборке говна не нужны)
❌ вы умеете бросать говно только налево, а у нас все бросают направо (несоответствие командным практикам)
❌ вы можете убирать говно только с 8 до 16, а надо с 16 до 24 (живёте в другой временной зоне)
Всё так, ИТ-рынок, особенно в части управления проектами, и режим работы "головы откручивать и говно разбрасывать"
#юморпосредам #it
❌ вы написали что умеете убирать говно лопатой, а у нас все работают на экскаваторах (недостаточное владение современными инструментами)
❌ вы не умеете убирать говно без роботов, а нам нужен личный опыт (вайб спецы по уборке говна не нужны)
❌ вы умеете бросать говно только налево, а у нас все бросают направо (несоответствие командным практикам)
❌ вы можете убирать говно только с 8 до 16, а надо с 16 до 24 (живёте в другой временной зоне)
Всё так, ИТ-рынок, особенно в части управления проектами, и режим работы "головы откручивать и говно разбрасывать"
#юморпосредам #it
😁30🔥6💯6
Forwarded from Национальный цифровой архив
Давайте выберем приоритеты в развитии сообщества по цифровой архивации и проекта Ruarxive.org (множественный выбор)
Anonymous Poll
53%
Более удобный доступ к архивам и удобный сайт ruarxive.org
14%
Сделать форум для обсуждений который бы дополнял чат @ruarxivechat и
39%
Больше интегрироваться с Archive.org и ArchiveTeam и ориентироваться на них в архивных задачах. Н
30%
Организовать курсы/семинары по обучению самостоятельной архивации
22%
Регулярно организовывать митапы или ежегодную конференцию по теме архивации цифрового контента
50%
Актуализировать гайды по архивации цифрового контента разного типа и подготовить новые
18%
Организовать конкурс на создание инструментов архивации
16%
Консорциум по выбору способов и форматов хранения
45%
Развивать кросс-интеграцию решений, чтобы разные приложения могли понимать форматы друг-друга
37%
Усилить взаимодействие с разработчиками популярных инструментов, чтобы улучшить интеграцию с ними.
🔥4
Любопытный стартап за которым я слежу - это Factory. Он как раз про то самое вайб-кодирование которое приносит много боли, но поставленное на промышленный масштаб. По сути это реконструкция работы команды разработчиков с разными задачами и разным функционалом и состоящей из нескольких видов дроидов.
Это ни разу не вайб кодинг и не low/no code продукт, а как раз новая хардкорная IDE и среда для усиления команд миддлов и синьёров.
Честно говоря я вообще не вижу места джуниорам в командах которые такими продуктами пользуются.
Лично я бы для прода такой сервис использовал бы только если он будет от какого-то очень "тяжёлого бигтеха" или вообще продукт с открытым кодом, ибо зависимость от него будет критичная. Но последить за этим стартапом интересно.
#coding #it #ai
Это ни разу не вайб кодинг и не low/no code продукт, а как раз новая хардкорная IDE и среда для усиления команд миддлов и синьёров.
Честно говоря я вообще не вижу места джуниорам в командах которые такими продуктами пользуются.
Лично я бы для прода такой сервис использовал бы только если он будет от какого-то очень "тяжёлого бигтеха" или вообще продукт с открытым кодом, ибо зависимость от него будет критичная. Но последить за этим стартапом интересно.
#coding #it #ai
👍5🤔1😢1
В рубрике как это устроено у них портал открытых данных Ирана data.gov.ir
Включает 11675 наборов данных, от 32 организаций. Внутри построен на CKAN.
Большая часть данных - это статистика, форматы включают Excel, PDF, а также карты, обычно в JPEG'ах.
Лицензии на данные не указывают, структурированного хранилища там тоже нет.
В текущем виде он появился он относительно недавно, ранее там был какой-то свой движок и только геоданные, а теперь появилось какое-то количество статистики и данных в Excel.
#opendata #datasets #iran #ckan
Включает 11675 наборов данных, от 32 организаций. Внутри построен на CKAN.
Большая часть данных - это статистика, форматы включают Excel, PDF, а также карты, обычно в JPEG'ах.
Лицензии на данные не указывают, структурированного хранилища там тоже нет.
В текущем виде он появился он относительно недавно, ранее там был какой-то свой движок и только геоданные, а теперь появилось какое-то количество статистики и данных в Excel.
#opendata #datasets #iran #ckan
✍4👍3⚡2🤔1
Разные мысли вслух:
1. LLM'ки для кодинга пока плохо справляются с оптимизацией уже оптимизированного кода. Все мои попытки оптимизировать инструменты ориентированные на быстрый разбор данных приводят к тому что ИИ агенты дают множество как бы неплохих оптимизаций, но, ожидаемо, без серьёзного понимания контекста. Например, много лет назад я написал библиотеку для Python qddate которая заточена под быстрый парсинг дат, которая довольно интенсивно мной оптимизировалась под быстрый разбор дат в разных форматах в том числе "грязными хаками" вроде вкодированной идентификации потенциальных шаблонов. Все рекомендации от LLM сводились к введению разных форм кеширования без учёта природы и специфики данных. Итоговой оптимизации парсинга они не дают. Немного лучше становится когда природу данных и инструментов ты понимаешь и ставишь задачу в стиле "Оптимизируй код XXX используя инструменты YYY и/или ZZZ", но в целом проблема не в галлюцинациях, а в непонимании автоматическими инструментами природы задач под которые код должен быть оптимизирован.
2. Программирование тяжело сочетается со всеми прерывающими задачами. Это, конечно, совсем не новость, но сложно сочетать любую разработку и написание текстов и управленческую работу, равно как и работу руководителем проектов. Есть задачи качество которых измеряется в возможности непрерывной работы от 2 до 4 часов подряд. Даже при том что все свои активности связанные с выступлениями, лекциями, совещаниями я в последние годы сократил до минимума, но управление временем становится важнейшей необходимостью.
3. Хороший код != востребованный продукт. Хотя эти явления часто идут вместе, но синонимами не являются. Работая со множеством инструментов по обработке данных вижу как хорошие инструменты часто могут быть заменены эволюционно более сильными инструментами, даже при наличии хорошего кода. Например, DuckDB, по факту, значительно эффективнее большей части утилит работы с CSV файлами, а работа с CSV файлами куда менее эффективна чем работа с файлами в форматах вроде Parquet. Это касается, как минимум, инструментария работы с данными, но ими не ограничивается.
#thoughts
1. LLM'ки для кодинга пока плохо справляются с оптимизацией уже оптимизированного кода. Все мои попытки оптимизировать инструменты ориентированные на быстрый разбор данных приводят к тому что ИИ агенты дают множество как бы неплохих оптимизаций, но, ожидаемо, без серьёзного понимания контекста. Например, много лет назад я написал библиотеку для Python qddate которая заточена под быстрый парсинг дат, которая довольно интенсивно мной оптимизировалась под быстрый разбор дат в разных форматах в том числе "грязными хаками" вроде вкодированной идентификации потенциальных шаблонов. Все рекомендации от LLM сводились к введению разных форм кеширования без учёта природы и специфики данных. Итоговой оптимизации парсинга они не дают. Немного лучше становится когда природу данных и инструментов ты понимаешь и ставишь задачу в стиле "Оптимизируй код XXX используя инструменты YYY и/или ZZZ", но в целом проблема не в галлюцинациях, а в непонимании автоматическими инструментами природы задач под которые код должен быть оптимизирован.
2. Программирование тяжело сочетается со всеми прерывающими задачами. Это, конечно, совсем не новость, но сложно сочетать любую разработку и написание текстов и управленческую работу, равно как и работу руководителем проектов. Есть задачи качество которых измеряется в возможности непрерывной работы от 2 до 4 часов подряд. Даже при том что все свои активности связанные с выступлениями, лекциями, совещаниями я в последние годы сократил до минимума, но управление временем становится важнейшей необходимостью.
3. Хороший код != востребованный продукт. Хотя эти явления часто идут вместе, но синонимами не являются. Работая со множеством инструментов по обработке данных вижу как хорошие инструменты часто могут быть заменены эволюционно более сильными инструментами, даже при наличии хорошего кода. Например, DuckDB, по факту, значительно эффективнее большей части утилит работы с CSV файлами, а работа с CSV файлами куда менее эффективна чем работа с файлами в форматах вроде Parquet. Это касается, как минимум, инструментария работы с данными, но ими не ограничивается.
#thoughts
❤12✍7👍4⚡2
В рубрике как это устроено у них 国家公共数据资源登记平台 (Национальная платформа регистрации общедоступных данных Китая) sjdj.nda.gov.cn.
Создан в National Data Administration (NDA) Китая, правительственной структуре отвечающей за регулирование данных в Китае. Публично анонсирован в марте 2025 г. и на сентябрь 2025 г. включает 17 313 зарегистрированных общедоступных наборов данных и 2984 набора открытых данных.
У этой платформы есть ряд существенных особенностей:
- регистрация на портале разрешена только для граждан и компаний Китая
- информации о внутренней работе поратала очень мало и вся она только на китайском языке
- непонятно доступны ли сами данные на портале для авторизованных пользователей, для неавторизованных они точно недоступны
- это именно портал общедоступных данных в нем есть разделы реестра общедоступных данных и открытых данных
- раздел с открытыми данными содержит ссылки на данные в первоисточниках, десятках порталов открытых данных и общедоступных данных органов власти и регионов Китая.
При всех ограничениях - это полноценный национальный портал данных, далеко не идеальный, в Китае есть немало открытых каталогов данных и агрегаторов датасетов сделанных более совершенно, однако теперь нельзя говорить что в Китае нет нац. портала данных.
#opendata #china #datacatalogs
Создан в National Data Administration (NDA) Китая, правительственной структуре отвечающей за регулирование данных в Китае. Публично анонсирован в марте 2025 г. и на сентябрь 2025 г. включает 17 313 зарегистрированных общедоступных наборов данных и 2984 набора открытых данных.
У этой платформы есть ряд существенных особенностей:
- регистрация на портале разрешена только для граждан и компаний Китая
- информации о внутренней работе поратала очень мало и вся она только на китайском языке
- непонятно доступны ли сами данные на портале для авторизованных пользователей, для неавторизованных они точно недоступны
- это именно портал общедоступных данных в нем есть разделы реестра общедоступных данных и открытых данных
- раздел с открытыми данными содержит ссылки на данные в первоисточниках, десятках порталов открытых данных и общедоступных данных органов власти и регионов Китая.
При всех ограничениях - это полноценный национальный портал данных, далеко не идеальный, в Китае есть немало открытых каталогов данных и агрегаторов датасетов сделанных более совершенно, однако теперь нельзя говорить что в Китае нет нац. портала данных.
#opendata #china #datacatalogs
✍2🔥2⚡1