В продолжение про Китай и про данные в Китае
📊 Национальный доклад о данных Китая (2024)
Кратко — в цифрах и фактах:
📦 Производство данных
▪️ Общий объём: 41.06 ZB (+25%)
▪️ На душу населения: 31.31 TB
🗄 Хранение
▪️ Всего: 2.09 ZB (+20.81%)
▪️ Использование хранилищ: 61%
▪️ Структурированные данные: +36% (доля — 18.7%)
⚙️ Вычислительные мощности
▪️ Общая: 280 EFLOPS
▪️ Из них ИИ-мощности: 90 EFLOPS (32%)
▪️ У госкомпаний — рост в 3 раза
🏛 Публичные данные
▪️ Платформы открытых данных: +7.5%
▪️ Объем открытых данных: +7.1%
▪️ Вызовы к госданным: 5400+ млрд
▪️ 60% регионов запустили авторизованное управление
🏢 Бизнес и ИИ
▪️ 66% лидеров рынка покупают данные
▪️ Активные данные: 62% от всего хранения
▪️ ИИ-сервисы: +238
▪️ Компании с ИИ: +36%
▪️ Большие модели: +57%
▪️ Качественные датасеты: +27%
🌍 Где больше всего данных?
▪️ Топ-6 провинций: 57.45% от всех данных
▪️ Лидеры по ИИ: Пекин, Шанхай, Чжэцзян
▪️ Топ-отрасли: промышленность, финансы, логистика
🔮 Прогноз на 2025
▪️ Производство данных превысит 50 ZB
▪️ Растёт доля синтетических и ИИ-данных
▪️ Формируется рынок доверенных пространств данных
▪️ Данные = полноценный актив, как нефть
—
Первоисточник NATIONAL DATA RESOURCE SURVEY REPORT (2024), опубликован в апреле 2025 г.
#opendata #data #china #ai #regulation
📊 Национальный доклад о данных Китая (2024)
Кратко — в цифрах и фактах:
📦 Производство данных
▪️ Общий объём: 41.06 ZB (+25%)
▪️ На душу населения: 31.31 TB
🗄 Хранение
▪️ Всего: 2.09 ZB (+20.81%)
▪️ Использование хранилищ: 61%
▪️ Структурированные данные: +36% (доля — 18.7%)
⚙️ Вычислительные мощности
▪️ Общая: 280 EFLOPS
▪️ Из них ИИ-мощности: 90 EFLOPS (32%)
▪️ У госкомпаний — рост в 3 раза
🏛 Публичные данные
▪️ Платформы открытых данных: +7.5%
▪️ Объем открытых данных: +7.1%
▪️ Вызовы к госданным: 5400+ млрд
▪️ 60% регионов запустили авторизованное управление
🏢 Бизнес и ИИ
▪️ 66% лидеров рынка покупают данные
▪️ Активные данные: 62% от всего хранения
▪️ ИИ-сервисы: +238
▪️ Компании с ИИ: +36%
▪️ Большие модели: +57%
▪️ Качественные датасеты: +27%
🌍 Где больше всего данных?
▪️ Топ-6 провинций: 57.45% от всех данных
▪️ Лидеры по ИИ: Пекин, Шанхай, Чжэцзян
▪️ Топ-отрасли: промышленность, финансы, логистика
🔮 Прогноз на 2025
▪️ Производство данных превысит 50 ZB
▪️ Растёт доля синтетических и ИИ-данных
▪️ Формируется рынок доверенных пространств данных
▪️ Данные = полноценный актив, как нефть
—
Первоисточник NATIONAL DATA RESOURCE SURVEY REPORT (2024), опубликован в апреле 2025 г.
#opendata #data #china #ai #regulation
👍11❤3
В рубрике как это устроено у них портал открытых данных провинции Гуандоу (Китай) gddata.gd.gov.cn содержит более 98 тысяч наборов данных и более 6700 API для доступа к данным провинции, всех государственных департаментов и всех муниципалитетов. Портал позиционируется скорее не как портал открытых данных, а как "открытая платформа индустриальных данных". В отличие от порталов и каталогов данных в других странах здесь нет открытых лицензий и данные доступны только после регистрации и верификации пользователей (нужен аккаунт WeChat или другой способ идентификации и подтверждения жизни в Китае или связи с ним).
На самом деле там, конечно же, есть недокументированное API и эти требования условны, но тем не менее.
Данные опубликованы в форматах CSV, RDF, JSON, XML, XLSX, XLS. Часто в один набор данных входят файлы в разных форматах с одним содержанием.
Население провинции Гуандоу более 120 миллионов человек что позволяет сранивать её в с РФ, её номинальный ВВП и ППС тоже сравнимы с РФ, так что можно увидеть как публикуют данные на территории сравнимой по населению и экономике (не по размеру, конечно).
Всё это помимо других проектов в Гуандоу, таких как Shenzhen Data Exchange и Canton Data Exchange которые не про открытые данные, а про рынок данных и торговлю ими.
Несмотря на отсутствие центрального портала открытых данных в Китае порталы данных есть у почти каждой провинции и у них сильный уклон на API доступа к данным реального времени и данных о городской инфраструктуре.
#opendata #china #datasets
На самом деле там, конечно же, есть недокументированное API и эти требования условны, но тем не менее.
Данные опубликованы в форматах CSV, RDF, JSON, XML, XLSX, XLS. Часто в один набор данных входят файлы в разных форматах с одним содержанием.
Население провинции Гуандоу более 120 миллионов человек что позволяет сранивать её в с РФ, её номинальный ВВП и ППС тоже сравнимы с РФ, так что можно увидеть как публикуют данные на территории сравнимой по населению и экономике (не по размеру, конечно).
Всё это помимо других проектов в Гуандоу, таких как Shenzhen Data Exchange и Canton Data Exchange которые не про открытые данные, а про рынок данных и торговлю ими.
Несмотря на отсутствие центрального портала открытых данных в Китае порталы данных есть у почти каждой провинции и у них сильный уклон на API доступа к данным реального времени и данных о городской инфраструктуре.
#opendata #china #datasets
✍6❤3⚡2❤🔥1
В рубрике как это устроено у них национальный портал открытых данных Литвы data.gov.lt
Включает 2702 набора данных от 508 организаций, общий объём данных в статистике не упоминается, но я бы исходил что там от десятков до сотен гигабайт поскольку довольно много данных большого объёма, датасеты, условно, от 1ГБ.
111 наборов данных - это данные высокой ценности в определении Евросоюза.
Некоторые полезные факты из их презентации:
- Литовская статслужба была реорганизована как государственное Агентство данных
- до создания портала специальная команда из 70 (!) человек в режиме полной занятости проводили инвентаризацию государственных и муниципальных данных
- не просто сделали портал, но под ним находится национальное озеро данных
- в 2025 году сдвинули приоритет на качество данных и данные особой ценности
Жаль нет их открытых методик по инвентаризации данных, подозреваю что там есть много чему поучится можно было бы.
У меня несколько лет назад был гайдлайн по инвентаризации госданных, он годится не только к открытым данным, но открытие данных после инвентаризации - это важная задача.
#opendata #datasets #lithuania
Включает 2702 набора данных от 508 организаций, общий объём данных в статистике не упоминается, но я бы исходил что там от десятков до сотен гигабайт поскольку довольно много данных большого объёма, датасеты, условно, от 1ГБ.
111 наборов данных - это данные высокой ценности в определении Евросоюза.
Некоторые полезные факты из их презентации:
- Литовская статслужба была реорганизована как государственное Агентство данных
- до создания портала специальная команда из 70 (!) человек в режиме полной занятости проводили инвентаризацию государственных и муниципальных данных
- не просто сделали портал, но под ним находится национальное озеро данных
- в 2025 году сдвинули приоритет на качество данных и данные особой ценности
Жаль нет их открытых методик по инвентаризации данных, подозреваю что там есть много чему поучится можно было бы.
У меня несколько лет назад был гайдлайн по инвентаризации госданных, он годится не только к открытым данным, но открытие данных после инвентаризации - это важная задача.
#opendata #datasets #lithuania
✍5
begtin_inventory_v03.pdf
1.1 MB
Для тех кто интересуется инвентаризацией именно открытых данных вот тут моя презентация от 2020 года. Это облегчённая версия для обучения госслужащих этой работе, полную версию, увы, я опубликовать не могу, ибо она делалась для конкретной академической структуры (там это больше не преподаю, если что), а с этой версией я даже выступал на каких-то мероприятиях
По большей части она актуально, хотя какое-то количество изменений уже накопилось.
#data #presentations #datainventory #opendata
По большей части она актуально, хотя какое-то количество изменений уже накопилось.
#data #presentations #datainventory #opendata
❤6✍5👍1
Ни к чему не призываю, ничего не предлагаю, просто интересуюсь (с)
Исключительно в познавательных целях вопрос, РКН ведь ещё не начали блокировать протокол SSH и SSH туннели? И заблокировать не смогут поскольку полностью похоронят всю разработку и системное администрирование в Рунете?
#ятолькоспросить
Исключительно в познавательных целях вопрос, РКН ведь ещё не начали блокировать протокол SSH и SSH туннели? И заблокировать не смогут поскольку полностью похоронят всю разработку и системное администрирование в Рунете?
#ятолькоспросить
😁12😐5👍2✍1
На национальном портале открытых данных Норвегии заменили строку поиска на запросы к ИИ где можно написать что ищете и получить подборку ссылок. Внутри там pgvector + LangChain + Google Vertex AI. Выглядит неплохо, но и не хорошо, люди чаще ищут конкретные данные (значений), а не датасеты и от ИИ поиска ожидают именно этого. В любом случае это какая-никакая инновация, уж точно значимее чем "хихикающий ИИ помощник" на портале data.gov.ru.
#opendata #ai #search
#opendata #ai #search
👍10🗿3❤1
Результаты Stack Overflow Annual Developer Survey за 2025 год.
Я выделил те блоки которые касаются баз данных и LLM. Как всегда обращаю внимание на DuckDB в базах данных, сейчас это самый популярный движок для OLAP.
Но, конечно, с оговорками что основная аудитория опроса StackOverflow - это фуллстаки, бэкэндеры и студенты. А дата инженеров, AI/ML инженеров и дата сайентистов там менее 5%.
#it #surveys
Я выделил те блоки которые касаются баз данных и LLM. Как всегда обращаю внимание на DuckDB в базах данных, сейчас это самый популярный движок для OLAP.
Но, конечно, с оговорками что основная аудитория опроса StackOverflow - это фуллстаки, бэкэндеры и студенты. А дата инженеров, AI/ML инженеров и дата сайентистов там менее 5%.
#it #surveys
👍6🔥3❤1
Spatial Desktop свежий инструмент с от Foursquare для визуализации геоданных. Основан на их другом open source продукте SQLRooms и стоит от $25 в месяц.
Внутри DuckDB, обещают поддержку Geoparquet и PMTiles и в целом выглядит смазливо.
Главный недостаток - пока есть версия только для Mac.
#data #datatools #geodata
Внутри DuckDB, обещают поддержку Geoparquet и PMTiles и в целом выглядит смазливо.
Главный недостаток - пока есть версия только для Mac.
#data #datatools #geodata
🔥9🌚1💅1
AI Safety Index от Future of Life Institute. По сути оценивали они не столько ИИ модели, сколько корп. культуру, планы, обещания, юр. статус, публичные декларации и тд. основных провайдеров облачных LLM. Поэтому DeepSeek на последнем месте, о чём в тексте индекса тоже есть, о том что китайская корпоративная культура устроена иначе.
А в целом результаты индекса в том что все ИИ компании сами не готовы к тому к чему они стремятся.
Документ полезный, много сопроводительных ссылок на другие схожие работы.
#ai #readings #ratings
А в целом результаты индекса в том что все ИИ компании сами не готовы к тому к чему они стремятся.
Документ полезный, много сопроводительных ссылок на другие схожие работы.
#ai #readings #ratings
🔥8😁4
Google анонсировали AlphaEarth ИИ модель для работы с петабайтами данных наблюдения за Землей.
Пишут что его уже используют для разметки неизвестных экосистем, анализа климатических и агрокультурных изменений и тд.
В основе модели набор данных Google Satellite Embedding доступный для разработчиков через Google Earth
#geodata #opendata #ai
Пишут что его уже используют для разметки неизвестных экосистем, анализа климатических и агрокультурных изменений и тд.
В основе модели набор данных Google Satellite Embedding доступный для разработчиков через Google Earth
#geodata #opendata #ai
❤6👍5🔥4
Хороший текст Hyparquet: The Quest for Instant Data от команды Hyperparam о специфике parquet файлов которой они воспользовались для оптимизации их отображения в браузере, как они сами называют browser-first подход к отображению данных и работы с ними с помощью WASM. Видно что автор и сама команда хорошо понимают и структуру parquet файлов (там метаданные записаны в конце файла), и то как работает сжатие и то как оптимизируется код для WASM.
Тот случай когда множество технологических оптимизаций дают хороший результат. Ну и большим плюсом является наличие открытого кода и дизайн local-first
#opensource #data #datatools
Тот случай когда множество технологических оптимизаций дают хороший результат. Ну и большим плюсом является наличие открытого кода и дизайн local-first
#opensource #data #datatools
👍6
Поделюсь личной болью отсутствия на русском языке книг о метаданных, на английском их есть в каком-то количестве, чаще со взглядом со стороны каталогизации библиотечных объектов, реже любых цифровых объектов, ещё реже о каталогизации данных, но на русском практически ничего нет.
А это как минимум описание основы природы метаданных, основных областей применения, принципов разработки стандартов и обзор самих стандартов которые после Dublin Core сильно расширились и имеют очень много разных отражений, как в управлении цифровыми объектами/имуществом так и в части в более узких, каталогизации данных, архивов, ML артефактов и так далее.
Буквально хоть сам пиши, но и себя ловлю на мысли что возможно русскоязычная аудитория для таких книг невелика и если писать самому то тоже на английском языке. Почти шутка.
Метаданные - это важное явление и взгляд на жизнь, тесно переплетённое с техническим долгом и документацией. Я регулярно наблюдаю как создаётся огромное число цифровых объектов, тех же данных, без полноценного заполнения сопутствующих метаданных, даже наиболее значимых: название, описание, права. Не спроста оценка качества данных начинается с полноты метаданных их описывающих.
И наоборот есть немало случаев когда метаданные заполняются в отношении объектов которые и каталогизировать то не надо в виду их малозначимости.
#metadata #data #thoughts
А это как минимум описание основы природы метаданных, основных областей применения, принципов разработки стандартов и обзор самих стандартов которые после Dublin Core сильно расширились и имеют очень много разных отражений, как в управлении цифровыми объектами/имуществом так и в части в более узких, каталогизации данных, архивов, ML артефактов и так далее.
Буквально хоть сам пиши, но и себя ловлю на мысли что возможно русскоязычная аудитория для таких книг невелика и если писать самому то тоже на английском языке. Почти шутка.
Метаданные - это важное явление и взгляд на жизнь, тесно переплетённое с техническим долгом и документацией. Я регулярно наблюдаю как создаётся огромное число цифровых объектов, тех же данных, без полноценного заполнения сопутствующих метаданных, даже наиболее значимых: название, описание, права. Не спроста оценка качества данных начинается с полноты метаданных их описывающих.
И наоборот есть немало случаев когда метаданные заполняются в отношении объектов которые и каталогизировать то не надо в виду их малозначимости.
#metadata #data #thoughts
👍14💯10❤5💊1
Полезное чтение про данные, технологии и не только:
- Will data centers crash the economy? о том может ли переток денег на финансирование дата центров в США привести к финансовому кризису. Не смотрел на происходящее этим взглядом, размышления весьма любопытные и тесно связанные в ИИ хайпом
- langextract инструмент/библиотека на Python по извлечению именованных сущностей из текстов. В качестве примера разбор текста Ромео и Джульеты. Полезно для многих задач. Открытый код, лицензия Apache 2.0
- Can analysis ever be automated? Бенн Стансил рассуждает об автоматизации аналитики и то что важное отличие ИИ аналитики от ИИ кодинга в том что нет бенчмарков проверяющих верность аналитики. В итоге нельзя определить автоматически правильно ли ИИ построил график или нет.
- mcp-use интегрирует любую LLM с любыми MCP серверами. Важный компонент в экосистему, надо пробовать.
- DesignVision ИИ поисковик по изображениям патентов от Патентной службы США. Есть пока только анонс, живой интерфейс ещё не публиковали. Идея интересная, надо посмотреть
#ai #data #analytics
- Will data centers crash the economy? о том может ли переток денег на финансирование дата центров в США привести к финансовому кризису. Не смотрел на происходящее этим взглядом, размышления весьма любопытные и тесно связанные в ИИ хайпом
- langextract инструмент/библиотека на Python по извлечению именованных сущностей из текстов. В качестве примера разбор текста Ромео и Джульеты. Полезно для многих задач. Открытый код, лицензия Apache 2.0
- Can analysis ever be automated? Бенн Стансил рассуждает об автоматизации аналитики и то что важное отличие ИИ аналитики от ИИ кодинга в том что нет бенчмарков проверяющих верность аналитики. В итоге нельзя определить автоматически правильно ли ИИ построил график или нет.
- mcp-use интегрирует любую LLM с любыми MCP серверами. Важный компонент в экосистему, надо пробовать.
- DesignVision ИИ поисковик по изображениям патентов от Патентной службы США. Есть пока только анонс, живой интерфейс ещё не публиковали. Идея интересная, надо посмотреть
#ai #data #analytics
✍6