Ivan Begtin

В рубрике как это устроено у них 国家公共数据资源登记平台 (Национальная платформа регистрации общедоступных данных Китая) sjdj.nda.gov.cn.

Создан в National Data Administration (NDA) Китая, правительственной структуре отвечающей за регулирование данных в Китае. Публично анонсирован в марте 2025 г. и на сентябрь 2025 г. включает 17 313 зарегистрированных общедоступных наборов данных и 2984 набора открытых данных.

У этой платформы есть ряд существенных особенностей:
- регистрация на портале разрешена только для граждан и компаний Китая
- информации о внутренней работе поратала очень мало и вся она только на китайском языке
- непонятно доступны ли сами данные на портале для авторизованных пользователей, для неавторизованных они точно недоступны
- это именно портал общедоступных данных в нем есть разделы реестра общедоступных данных и открытых данных
- раздел с открытыми данными содержит ссылки на данные в первоисточниках, десятках порталов открытых данных и общедоступных данных органов власти и регионов Китая.

При всех ограничениях - это полноценный национальный портал данных, далеко не идеальный, в Китае есть немало открытых каталогов данных и агрегаторов датасетов сделанных более совершенно, однако теперь нельзя говорить что в Китае нет нац. портала данных.

#opendata #china #datacatalogs

✍2🔥2⚡1

1.53K viewsIvan Begtin, 07:52

Ivan Begtin

Полезное чтение про данные, технологии и не только с моими комментариями:
- How Tables Grew a Brain: Iceberg, Hudi, Delta, Paimon, DuckLake примерно месячной давности обзор основных продуктов для построения озер данных. Полезно, однако стоит дождаться обновлений по DuckLake и прочитать про них для полноты картины. И тут, конечно, важно вновь вспомнить что озера данных это всё ещё термин имеющий как минимум два значения. Первый - разрозненная комбинация хранилищ данных объединённая общим каталогом метаданных и некоторыми принципами доступа к ним. Второй - это архитектурный подход и хранилище, куда можно загружать разнообразные данные (структурированные, полуструктурированные, неструктурированные) в их исходном виде. Ключевая идея — хранить всё «как есть» и предоставлять единый уровень доступа для анализа, обработки и интеграции. Это кажется очень похожим определениями, но это не совсем так и продуктовая часть подходов к озерам данных сдвинута в сторону "бери в любом формате и загружай в структурированном по правилам".
- The Missing README: A Guide for the New Software Engineer хорошая книжка о том как учиться программной инженерии, почитываю её постепенно в электронном виде. Она, во многом, именно про то как быть профессиональным разработчиком что включает написание тестов, документации, организации процесса разработки, изучение нового, работе в команде, понимание задач и целей программных продуктов и тд. В общем-то похоже на гайд для тимлидов, но начинающим разработчикам полезно читать чтобы понимать куда двигаться чтобы приобретать реальный опыт
- Columnar File Readers in Depth: Structural Encoding погружение в логику работы структурного кодирования в блоге LanceDB. Для тех кто работает с большими массивами и словарями данных о том чем отличается организация данных LanceDB по сравнению с Parquet и другими форматами.
- Is Your Data “AI-Ready”? Why Good Data Isn’t Enough Anymore вполне резонные рассуждения о том что просто "хорошие данные" недостаточны для применения вместе с ИИ. Сталкиваюсь с этим всё больше когда есть базы данных которые могут быть весьма неплохи, но без базы знаний прилинкованных к базам данных и применимость для ИИ задач ограничена.

#readings #ai #data

❤6✍3💯3

1.24K viewsIvan Begtin, edited 07:41

Ivan Begtin

Forwarded from Координация профанации

Рубрика "Циничная перегостехизация"
По данным источников (тм) завтра должна состояться большая стратсессия по Гостеху (но это не точно!).
Сначала эта стратсессия была запланирована на июль 2025, потом плановая дата переехала на август 2025 - но тоже не срослось.
И вот сейчас третья попытка.
В стратсессии будет принимать участие отец Гостеха - ~~Греф~~ Сбер (мамы у Гостеха нет, и это многое объясняет). Предварительная тема выступления Сбера - Гостех 2.0 (что бы это ни значило).
Те, кто еще почему-то следят за историей Гостеха, знают, что то, что сейчас называют Гостехом, это совсем не тот Гостех, который начинался в 2020 году (ахренеть - уже пять лет продолжается это шоу!) - от Сберовской Platform V там почти ничего не осталось.
Но Сбер не теряет надежды заново продать свое детище государству - теперь под вывеской "Гостех 2.0."
Мне еще пару месяцев назад подогнали презентацию Сбера про Гостех 2.0 - и, судя по всему, это внутренняя преза, а не картинки для "Бункера".
Завтра, если стратсессия все-таки состоится, в презе Сбера, наверняка, будет больше всяких лозунгов про пользу Гостеха 2.0 для государства и не будет картинок про экономику проекта в интересах самого Сбера.
Но вы посмотрите на то, что Сбер думает про Гостех внутри себя

🌚1

1.02K viewsIvan Begtin, 10:34

Ivan Begtin

Forwarded from Координация профанации

1.06K viewsIvan Begtin, 10:34

Ivan Begtin

Forwarded from Координация профанации

1.35K viewsIvan Begtin, 10:34

Ivan Begtin

Я хотел всё это как-то прокомментировать, но у меня "неделя без матерных слов", так что это полезно почитать и помнить что лучше не болеть (с) потому что наступит момент когда таки появится "система поддержки принятия врачебных решений на основе жалоб" и не только

🔥5😢2⚡1👍1

1.25K viewsIvan Begtin, 10:35

Ivan Begtin

В качестве регулярных напоминаний в основе поисковика Dateno реестр почти всех существующих каталогов с данными. Этих каталогов много, более 10 тысяч и большая их часть - это каталоги геоданных, вторые по количеству - порталы открытых данных и далее научные репозитории, базы индикаторов и так далее.

Ценность этого репозитория не только в том что он помогает индексировать датасеты, но и в том что он позволяет понять национальным пр-вам и их уполномоченным органам какие данные можно было бы собирать на едином/центральном портале.

Кроме того этот реестр - это подсказка для тех кто ищет данные по своей стране и возможность находить, в том числе, те данные которые пока ещё не проиндексированы в Dateno.

#opendata #dateno #datasets #datadiscovery

⚡4

1.8K viewsHovannes Begtin, 17:06

About

Blog

Apps

Platform