Ivan Begtin
8.07K subscribers
1.46K photos
3 videos
98 files
4.19K links
I write about Open Data, Data Engineering, Government, Privacy and Data Preservation and other gov and tech stuff
Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech

Contact @NMBabina for ads proposals
Download Telegram
Полезное чтение про приватность, открытость, и госполитику в цифре
- в Китае власти расширяют наблюдение за гражданами [1] статья в NYT по результатам анализа тысяч документов о госзакупках. Читать лучше без VPN из России открывается без пэйвола.
- об использовании открытых данных для понимания политики [2] текст на европейском портале открытых данных о том как изучать и наблюдать за политикой через открытые данные. Много ссылок на общественные проекты. Невозможно представить аналогичный текст в России на госпортале.
- проект Manifesto [3] большая научная база с открытыми данными и исследованиями манифестов политических партий с 1945 г. по нынешнее время. Охватывает более 1000 политических партий.
- свежая статья в CODATA [4] о том как отраслевые данные агрокультуры должны соответствовать практике работы с научными данными FAIR.
- несколько победителей EUDataThon 2022 сфокусировались на исследовании и анализе рисков при госзакупках [5]․ Ссылки на результаты организаторы не публикуют, только названия проектов и победителей и участников, но найти сами проекты не так уж сложно. Жаль из России невозможно было поучаствовать

Ссылки:
[1] https://www.nytimes.com/2022/06/21/world/asia/china-surveillance-investigation.html
[2] https://data.europa.eu/en/datastories/using-open-data-understand-politics
[3] https://manifesto-project.wzb.eu/
[4] https://datascience.codata.org/articles/10.5334/dsj-2022-013/
[5] https://op.europa.eu/en/web/eudatathon

#opendata #policy #privacy #china #eu #readings
В рубрике "как это работает у них" два китайских портала открытых данных

Портал открытых данных города Чанчжоу, Китай opendata.changzhou.gov.cn [1]

580 наборов данных опубликовано 66 департаментами города. Из них 563 набора данных в виде файлов и 78 API, некоторые наборы данных одновременно файлы и API.

Для доступа к API требуют авторизации через Jiangsu Unified Identity Authentication System [2], для выгрузки в данных в машиночитаемом виде авторизация не нужна, можно просто скачать.

Наиболее востребованные данные по разрешениям на строительство, часто данные публикуются в виде большой коллекции Excel файлов.

Население Чанчжоу около 5.3 миллионов человек.

Портал открытых данных Пекинского государственного университета, Китай opendata.pku.edu.cn [3]

Создан на базе платформы Dataverse и включает 103 пространства с 355 наборами исследовательских данных по направлениям научных публикаций университета.

Не все данные общедоступны, некоторые доступные под эмбарго, только в момент публикации научной статьи или по запросу.

В Китае сотни существуют сотни порталов данных и открытых данных. А также существуют большие общедоступные наборы из государственных информационных систем. В скором будущем я отдельно напишу про другие их порталы.

Ссылки։
[1] http://opendata.changzhou.gov.cn/
[2] https://www.jszwfw.gov.cn
[3] https://opendata.pku.edu.cn/

#opendata #china #datasets #datacatalogs
В NYT статья о том как косвенным образом журналисты пытаются понять реальную смертность от COVID'а в Китае [1]. Журналисты взяли публикации некрологов двух государственных институтов и проанализировали вручную их число и возраст умерших. Если кратко, то смертность значительно выросла в декабре 2022 г. и январе 2023 г.

Всё это об альтернативных данных и о том как важно не доверять официальной статистике, в данном случае китайской, и искать другие, альтернативные данные. На альтернативных данных сейчас принимаются решения не реже чем на официальной статистике.

И, конечно, это большое искусство и много опыта нужно в том чтобы понимать как такие данные находить и собирать.

Ссылки:
[1] https://www.nytimes.com/interactive/2023/02/05/world/asia/china-obits-covid.html

#opendata #alternativedata #china #covid
В рубрике как это работает у них портал открытых данных Шанхая (Китай) data.sa.gov.cn [1]. Я ранее уже рассказывал об открытых данных в Китае, но не рассказывал именно про этот портал.

Первая особенность портала в большом объёме данных. На нём опубликовано 4490 наборов данных. Это довольно много даже для национальных порталов открытых данных, а тут портал только города. Впрочем города с 25 миллионами населения, что немало.

Почти все данные публикуются в форме данных для структурированного хранилища и экспортируются сразу в форматах XML, XLS, JSON, CSV и RDF. По поводу RDF сразу те же сомнения что с порталом открытых данных Узбекистана, никакой привязки к онтологиям нет - это, конечно, минус.

Плюс - объём данных и частота обновления. 929 наборов данных предоставляются через API и обновляются ежесуточно.

Для полноты картины осталось посмотреть на их инструкции для разработчиков.

Ссылки:
[1] https://data.sh.gov.cn
[2] https://t.me/begtin/4470

#opendata #dataportals #china #shanghai
Рекомендую последние две публикации в канале Ивана Стерлигова про то что CrossRef перестаёт работать с российскими журналами и о последствиях этого шага [1] [2]. Последствия для российских научных организаций и учёных весьма неприятные, поскольку DOI выдают, в основном, два агентства в мире, это CrossRef и DataCite. CrossRef находится в США, DataCite в Германии, и там, и там будут соблюдать санкционные требования. Понятно что некоторые российские журналы будут напрямую публиковать все материалы на Zenodo, Arxive.org и ряде других, но если это будут журналы которые будут аффилированы так или иначе с научными учреждениями или лицами под санкциями, то, вопрос только времени, когда и некоммерческие проекты могут ввести свои ограничения в виду своей юрисдикции.

Это же к вопросу о наукометрии в России, которая во многом сейчас построена на открытых базах цитирования. Много ли будет толку от этих баз если измеримость научных публикаций будет сильно ограничена? Вопрос, этот, конечно, риторический.

Я, кстати, считаю что китайские сервисы выдачи DOI тут не помогут по одной простой причине. Китайские научные власти уже давно выстраивают партнерство с большинством зарубежных агрегаторов научных публикаций и создают собственную инфраструктуру. У них, например, есть свой аналог DOI, называется CSTR, Common Science and Technology Resource Identification [3]. Он используется не только для научных статей, но и для идентификации наборов данных, диссертаций, препринтов, патентов, инструментов, проектов, научных институтов и исследователей. Огромная база с открытым API и с интеграцией с Google Scholar, Semantic Scholar, CrossRef, ORCID и другими. В Китае есть проект Science Data Bank [4] для публикации открытых наборов научных данных, это китайский аналог Zenodo, так вот он интегрирован с десятками наукометрических проектов в США и в Европе. Проект уже интегрирован с OpenAIRE, Schoolix, Google Dataset Search, Data Citation Index, DataCite и другими. И это далеко не вся китайская научная инфраструктура, она, в принципе, весьма велика и интегрирована и интегрируется в мировую научную инфраструктуру очень тесно.

Будут ли китайские власти рисковать этим всем ради взаимодействия с российскими научными организациями? Лично я буду в этом сдержанно скептичен.

Ссылки:
[1] https://t.me/science_policy/833
[2] https://t.me/science_policy/834
[3] https://www.cstr.cn
[4] https://www.scidb.cn/en

#opendata #openaccess #openscience #science #china #crossref #sanctions
Authoritarian Privacy [1] свежая научная статья в открытом доступе о том как развиваются законы о приватности в авторитарных режимах. Нет, не в России, но в Китае.

Статья ориентирована на читателя знакомого с законами о приватности в демократических странах и рассказывает о разнице в регуляторных подходах, природе самого регулирования и в ней же хорошо систематизированы и множественно приведены примеры проблем с приватностью. Например, там наглядные примеры торговли биометрическими данными и госрегулирование распознавания лиц, но не только.

При этом, судя по примерам в статье, само китайское общество гораздо более активно чем российское, к примеру, самоорганизуется для защиты приватности. Например, история с профессором Guo Bing в 2019 году который потребовал чтобы его биометрические данные (изображение лица) были удалены из системы сафари-парка где от него потребовали такой идентификации и есть немало других подобных примеров.

Ссылки։
[1] https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4362527

#privacy #china #facerecognition
В Китае в состав правительства войдёт новая структура National Data Administration создаваемая для контроля за приватностью и безопасностью данных [1]. Подробностей всё ещё мало, но показательно что это именно структура в составе правительства, а то есть с достаточно серьёзными полномочиями. Есть эксперты кто считают что создание этой структуры - это кульминация китайской национальной стратегии данных [2], а также нельзя не упомянуть бюро по большим данным которые создавались в китайских провинциях с 2015 года [3], правда было немало сомнений выживет ли эта инициатива в принципе [4].

В любом случае создание специальной правительственной структуры - это серьёзный шаг на который могут обратить внимание и регуляторы других стран. Будет ли такая практика воспроизводится? Думаю что мы узнаем об этом до конца 2023 года.

Ссылки։
[1] https://www.technologyreview.com/2023/03/15/1069814/china-new-bureau-data-economiy/
[2] https://twitter.com/freefader/status/1633070438766239745
[3] https://merics.org/en/short-analysis/china-activates-data-national-interest
[4] https://thechinaproject.com/2022/10/11/the-chinese-government-wants-a-data-trading-market-but-it-may-never-happen/

#privacy #data #regulation #government #china
В рассылке AlgorithmWatch рассуждения [1] их репортёра Николя Кайзера-Бриля о том как Twitter опубликовал открытый код ранее. Ключевой вывод - большей открытости раскрытие именно этого кода не даёт, больше пользы от поста в блоге Twitter о том как устроены алгоритмы [2]. Я не до конца с ним согласен, всё таки я ближе к технологическим компаниям по складу ума, но, действительно, прозрачность складывается не только их кода.

Интересно и другое, он рассказывает про примеры раскрытия кода по запросу. Для тех кто не знает, в Европейском союзе действует Digital Services Act (DSA) [3] который позволяет исследователям запрашивать данные в целях общественного интереса у очень больших платформ. И уже была история когда французская организация CNAF отвечающая за государственное соцобеспечение по такому запросу опубликовала 7 миллионов строк кода, без сопровождающей документации и на запросы журналистов делали вид что документации не существует [4].

Всё это к тому что почувствуйте разницу в проблемах. В каких-то странах проблема в том что раскрывается слишком много кода и без документации, а в других что просто ничего не раскрывается. Первый вариант тоже не очень, но второй совсем плохой.

Ещё из полезного чтения:
- В Ирландии правительство пытается протащить быстрым образом закон разрешающий полиции использовать технологии распознавания лиц, но часть парламента сопротивляется [5]
- Во Франции служба аудиторов проверяет расходы в 3 миллиарда евро на стратегию Франции в области ИИ и выяснили что деньги тратили на короткие проекты, вместо долгосрочных [6] таких как образовательные программы
- В Швейцарии, в Лозанне местные власти запретили использовать распознавание лиц в общественных местах [7]

И, наконец, новости из Африки.

О том как Зимбабве строят государство тотальной слежки [8], на больших китайских кредитах, китайских технологиях и тд. Если кратко, то быстро и эффективно внедряют всё что возможно чтобы отслеживать всех без исключения и быстро разбираться со всеми кто имеет признаки оппозиционной деятельности.

А знаете почему Россия не Зимбабве? Потому что в России есть свои технологические компании по массовой слежки и достаточно денег чтобы не брать китайские кредиты.

Кстати, не могу не напомнить про проект по отслеживанию китайских технологических компаний в мире Mapping China’s Tech Giants [9] который делают в The Australian Strategic Policy Institute и собирают данные по всем известным китайским технологическим проектам в мире. Там есть наглядная карта, каждый может найти свою страну.

Они же анонсировали проект Critical Technology Tracker [10], я о нём расскажу через какое-то время. Он может быть даже поинтереснее мониторинга только Китая.

Ссылки:
[1] https://r.algorithmwatch.org/nl3/HCBGLxy-H3KfnMpjebKRLw
[2] https://blog.twitter.com/engineering/en_us/topics/open-source/2023/twitter-recommendation-algorithm
[3] https://eur-lex.europa.eu/legal-content/EN/TXT/PDF/?uri=OJ:L:2022:277:FULL&from=EN&pk_campaign=todays_OJ&pk_source=EURLEX&pk_medium=TW&pk_keyword=Digital%20service%20act&pk_content=Regulation%20
[4] https://www.nextinpact.com/article/28136/106298-les-allocations-familales-nous-ouvrent-code-source-leur-calculateur-daides
[5] https://www.irishtimes.com/crime-law/2023/04/06/oireachtas-committee-wants-to-scrutinise-use-of-facial-recognition-technology-by-gardai/
[6] https://www.nextinpact.com/article/71408/la-strategie-nationale-recherche-en-ia-passee-au-crible-cour-comptes
[7] https://algorithmwatch.ch/fr/lausanne-interdit-reconnaissance-faciale-lespace-public/
[8] https://globalvoices.org/2023/01/10/how-zimbabwe-is-building-a-big-brother-surveillance-state/
[9] https://chinatechmap.aspi.org.au
[10] https://techtracker.aspi.org.au

#privacy #zimbabwe #china #ai #ethics #twitter
Чуть подробнее про Critical Technology Tracker [1] проект австралийского мозгового центра ASPI по отслеживанию ведущих научных центров и исследователей по наиболее значимым (критичным) технологиям.

Сделано в виде красивой интерактивной визуализации, весьма наглядно и можно увидеть рейтинги отдельных исследовательских центров и то как перетекают студенты вузов между странами и далее, кто из них остаётся получать научные степени и работать в индустрии.

На картинках примеры визуализации по России и в области анализа данных, но, сразу скажу, рейтинги России тут невысоки. В большинстве направлений лидируют Китай и США с большим отрывом и ещё где-то присутствуют Индия, страны ЕС, Великобритания и Южная Корея. А по умным материалам ещё и Иран(!) [2]

Методология этого проекта в анализе публикаций исследователей и их цитирования. Кто-то может измерять вклад стран по числу патентов, но важнее понимать что почти все такие сравнения стран показывают лидерство Китая.

Ссылки:
[1] https://techtracker.aspi.org.au/
[2] https://techtracker.aspi.org.au/tech/smart-materials/?c1=ir

#china #technology #australia #data #ratings
Я несколько раз писал про то сколько открытых данных публикуют в Китае, в первую очередь в научной сфере, в централизованной базе SciDb.cn для исследовательских данных. Но, честно говоря, я уже ощущаю что сильно недооценивал масштаб их публикаций. А он таков что практически у каждой из провинций Китая есть портал открытых данных, данные на них регулярно обновляются. Их, китайская специфика, в большом числе открытых API и акценте на данных городской/провинциальной инфраструктуры в виде API к их инфраструктурным информационным системам.

И даже у компаний вроде Baidu есть программы предоставления данных партнёрам открытым образом [1], это не open data, но подпадает под data sharing.

В Университете Фуданя есть ежегодный обзор и рейтинг провинций Китая по открытости данных [2] и рейтинг этот вырос вдвое за 3 года, с 102 пунктов в 2019 г. до 208 пунктов в 2022 г.

Можно обратить внимание насколько там было ещё неразвито в 2013-2016 годах когда как раз в России у практически всех регионов были порталы открытых данных.

В Китае они стали появляться позже и медленнее, и всё ещё нет общенационального, но явно до него осталось недолго, 1-2 года максимум, а скорее раньше.

Я об этом ещё напишу подробнее, материалов накопилось уже на большой обзор.

Ссылки:
[1] https://open.baidu.com/
[2] http://ifopendata.cn/

#opendata #china #data
В IPVM статья [1] о том как в Китае компания Dahua, с 2021 года, помимо классических услуг распознавания лиц и объектов, предоставляет ещё и AI платформу Jinn [2] в которой обещают что могут определять неработающих сотрудников, сотрудников на стройке без касок, людей курящих в помещении и ещё много чего. В том числе среди их продуктов обнаружили пример с распознаванием протестующих с баннерами. Неизвестно умеет ли их продукт считывать с лозунга текст, но умеет определять тех кто с ним стоит. После того как журналисты IPVM запросили у компании комментарии, то сразу же эти примеры исчезли. Причем скорее всего Dahua не единственный вендор с таким продуктом,

Ссылки:
[1] https://ipvm.com/reports/dahua-protestor-alarms
[2] https://ai.dahuatech.com/deviceOpenPlatform

#privacy #surveillance #china #ai
В рубрике как это устроено у них, в Гонконге 9 каталогов открытых данных. Основной из них - это государственный портал data.gov.hk [1] с более чем 5200 наборами данных, а также 3 геопортала:
- Hong Kong Geodata store https://geodata.gov.hk
- Hong Kong Common spatial data infrastructure geodata catalog https://portal.csdi.gov.hk/geoportal
- Hong Kong Geotechnical Engineering office geodata for public use https://www.geomap.cedd.gov.hk/GEOOpenData/eng/Default.aspx

Геоданные также предоставляются властями города.

Параллельно с открытыми государственными данными, в Гонконге есть как минимум 4 каталогов данных университетов и исследовательских центров:
- CUHK Research Data Repository https://researchdata.cuhk.edu.hk/
- DataSpace@HKUST https://dataspace.ust.hk/
- Research at Hong Kong Baptist University https://scholars.hkbu.edu.hk/en/datasets/
- Lingnan Scholars https://scholars.ln.edu.hk/en/datasets/

Два из которых являются частью экосистемы Dataverse, два других основаны на Elsevier Pure (там данные лишь один из видов результатов научной деятельности)

В Гонконге же находится команда проекта GigaDb http://gigadb.org которые создали портал с 47ТБ научных данных связанных с публикациями по биомедицине, в основном это геномные данные.

Кроме того существует Hong Kong Open Data Index https://opendata.isoc.hk проект Internet Society Hong Kong со сравнением доступности данных города по ключевым наборам данных, во многом с оглядкой на Global Data Barometer.

В последние пару лет очень заметно влияние материкового Китая где Университет Фуданя регулярно ведёт свой индекс открытости и публикует доклады о состоянии открытых данных в провинциях Китая.

#opendata #hongkong #china
Я всё долго искал какие есть альтернативы поиску Google по наборам данных, и так чтобы не на коленках сделанные. И нашёл findata.cn [1] поисковик созданный Computer Network Information Center, Chinese Academy of Sciences, той же структуры что сделала китайский открытый национальный репозиторий научных данных SciDb [2]

Findata.cn также про открытые научные данные, но кроме SciDb агрегирует ещё и Zenodo, DRYAD, GBIF, USGS, IEEEDataPort и множество других.

При этом сам Findata.cn довольно упрощённо позволяет искать с фасетами только по году и источнику.

Всё больше поисковиков агрегаторов по открытым данным, и большая их часть создаются для научной инфраструктуры.

Ссылки:
[1] https://findata.cn
[2] https://www.scidb.cn/en

#opendata #data #datasearch #china #openscience #openaccess
В рубрике как это работает у них Национальная платформа общественных геопространственных сервисов Китая [1] включает:
- онлайн карты на сайте
- API для данных и геокодирования
- API по стандартам OGC: WMTS и другие
- API для встраивания в сайты
- каталог слоёв карт и данных
- подпорталы и каталоги геоданных для каждой из провинций Китая

Портал поддерживается National Geomatics Center of China находящемся в подчинении у Министерства природных ресурсов КНР.

Непонятно на каком движке сайт работает, скорее этой какой-то самописный/самостоятельный продукт.

В Китае довольно мало открытых стандартизированных API для геоданных, но есть общедоступный ArcGIS сервер компании Geoq [2] который упоминают китайские геоаналитики в своих обзорах.

Ссылки:
[1] https://www.tianditu.gov.cn
[2] https://map.geoq.cn/arcgis/rest/services

#opendata #geodata #china #datasets
В рубрике как это устроено у них центры научных данных и другие проекты распространения научных данных Китайской республики.

Центры научных данных
- National Basic Sciences Public Science Data Center [1] - центр данных по базовым дисциплинам: физика, химия, астрономия, биология и т.д.
- National Marine Science Data Center [2] - центр данных о море и водных объектах
- National Earthquake Science Data Center [3] - центр данных о землетрясениям
- National Meteorological Science Data Center [4] - центр данных по метеорологии
- National Forestry and Grassland Science Data Center [5] - центр данных о лесе и зеленых насаждениях
- National Agricultural Science Data Center [6] - центр данных о сельском хозяйстве
- National Population Health Science Data Center [7] - центр данных о здоровье граждан
- National Metrological Science Data Center [8] - центр данных по метрологии
- National Cryosphere Desert Data Center [9] - центр данных о засушливых и холодных территориях

Другие ресурсы
- CSDB [10] центр научных данных академии наук Китая. Действует с 1987 года, включает более 45 тысяч наборов данных
- Science Data Bank [11] портал для публикации данных исследователями Китая. Интегрирован с большинством поисковых систем, сервисов цитирования и иными глобальными сервисами открытой науки
- CSData [12] научный журнал посвящённый доступности научных данных Китая и для китайских исследователей
- FinData [13] поисковик по научным данным Китая и данным используемых китайскими исследователями

Не все из научных порталов данных предоставляют открытые данные, через многие доступны данные только по запросу или авторизации, в некоторых случаях существуют градации режимов доступа, в ряде случаев есть требования/рекомендации поделиться Вашими исследованиями на этих данных. Однако широко распространены свободные лицензии и большая часть данных общедоступны и не требуют никаких усилий кроме как скачать их напрямую и знать китайский язык.

Ссылки:
[1] http://www.nsdata.cn
[2] http://mds.nmdis.org.cn
[3] https://data.earthquake.cn
[4] http://data.cma.cn/en
[5] http://www.forestdata.cn
[6] http://www.agridata.cn
[7] http://www.geodata.cn
[8] https://www.nms.org.cn
[9] http://www.ncdc.ac.cn/portal/?lang=en
[10] https://www.casdc.cn
[11] https://www.scidb.cn/en
[12] http://www.csdata.org/en/
[13] https://findata.cn

#opendata #datasets #china #datacatalogs #openaccess #openresearch
Китайская компания HKVision выиграла тендер в Китае на систему "Умный кампус" умеющую отслеживать что представители национальных меньшинств соблюдают пост в Рамадан [1].

Даже не знаю как это прокомментировать. Подозреваю лишь что Китаем такие внедрения не ограничатся.

Только в Китае следят за мусульманами, а за кем будут следить в России ? Правильно, за социальной жизнью студентов ЛГБТ. Научат камеры распознавать то что девушки или юноши ходят по коридорам и двору за ручку и сразу будут камеры стучать в профильный Департамент социального позора Министерства раздувания национального достояния.

Думаете фантастический сценарий?

Ссылки:
[1] https://ipvm.com/reports/hikvision-fasting

#privacy #china #algorithms #ai
Про интересные данные в геополитике, исследование Belt and Road Reboot: Beijing’s Bid to De-Risk Its Global Infrastructure Initiative [1] с результатами анализа чуть менее 21 тысячи проектов профинансированных и поддержанных Китаем за 2000-2021 годы в 165 развивающихся странах и странах со средними доходами. К этому же отчёту набор данных AidData's Global Chinese Development Finance Dataset, Version 3.0 [2] со всеми этими данными.

Данные они распространяют в Excel, и они по формату ближе к академическим датасетам, разве что DOI нехватает.

Сами данные более чем интересные, можно найти проекты которые Китай реализует практически в любой стране мира, в Армении, Уругвае, России, Иране и так далее.

Ссылки:
[1] https://www.aiddata.org/publications/belt-and-road-reboot
[2] https://www.aiddata.org/data/aiddatas-global-chinese-development-finance-dataset-version-3-0

#opendata #international #china #readings #datasets
Я об этом мало рассказывал, но в течение многих лет работа с данными, особенно их систематизация были моими хобби, а не работой. Я много лет занимался вначале разработкой ПО, потом архитектурой и управлением проектами, а параллельно сводил какие-нибудь таблицы для себя потому что "очень хотелось сводить таблицы" (с). Одно из таких моих увлечений ещё давно была систематизация международных организаций, институтов развития, банков развития и другие систематизации объединяющие группы стран и международные взаимоотношения.

У меня и сейчас есть их реестр, я его давно ещё вёл в Excel, потом перенес в Airtable и до сих пор регулярно им пользуюсь, например, когда ищу данные по тематикам, часто они есть на сайтах межгосударственных организаций. Там база межгосударственных объединений, блоков стран, таможенных и экономических союзов и банков развития. Такое полезное оказалось хобби, сильно помогшее мне в будущих задачах по data discovery.

А недавно я обнаружил что в Пекинском университете ведут похожую базу данных Public Development Banks and Development Financing Institutions Database [1], но только по банкам развития.

Любопытный проект, пересекающийся с моей базой где-то на 50-60%, но с визуализацией наглядно.

И да, их данные общедоступны, но для выгрузки требуют регистрацию [2].

Ссылки:
[1] http://www.dfidatabase.pku.edu.cn/index.htm
[2] http://www.dfidatabase.pku.edu.cn/DataDownloading/index.htm

#opendata #data #finances #china #banking
Немногие за пределами Китая знают о масштабах публикации там научных данных. При этом данных там много и, помимо таких проектов как SciDB и Findata существуют десятки крупных научных репозиториев с данными.

В большинстве из них в их основе лежит ПО InstDB [1] установленное в 72 научных учреждениях и служащее для раскрытия научных данных в режимах: открытости, доступа по авторизации и доступа по запросу.

Например, на InstDB работает центр научных данных академии наук Китая [2], репозиторий Института физики [3] и многих других научных организаций.

В Китае научных данных многократно больше чем на государственных порталах данных, которые тоже есть и которые, тоже, работают на типовом ПО. Но типовом местном ПО, разработанном китайскими компаниями. Это большая и важная страновая особенность по доступности данных. Ещё одна особенность в том что про китайские открытые данные почти не пишут в обзорах OKF или State of data. Это делает эти данные почти невидимыми для тех кто не знает о том как всё устроено.

А типовое ПО в виде InstDB позволило китайской академии наук создать поисковик Findata о котором я ранее писал.

Ссылки:
[1] https://market.csdb.cn/InstDB
[2] http://instdb.casdc.cn
[3] http://instdb.iphy.ac.cn

#opendata #china #datacatalogs #datasets
К вопросу о качестве индексов в больших агрегаторов данных, приведу в пример SciDB [1] китайский агрегатор и портал для раскрытия научных данных. Всего там 8,7 миллионов объектов, можно было бы называть их датасетами, но датасеты там далеко не всё.

Когда смотришь подробнее на статистику то оказывается что в фильтрах гораздо меньше данных. В фильтре по годам 3.5 миллионов записей, в фильтре по типу около 5 миллионов записей из которых 4.25 - это "Other data",а по фильтру тематик вообще размечено только 50 тысяч наборов данных.

И тут просто таки начинаешь задаваться вопросом, а где же всё остальное? Неужели где-то врут?

Но, скорее всего не врут, а не договаривают. Общий индекс может быть большим, но данные там не родные, а импортированные из DataCite или Zenodo и других ресурсов. Они почти наверняка не размечены и не сматчены с тематиками SciDB и всем остальным. Похожая ситуация и в базе поиска Datacite и в OpenAIRE когда большая часть фильтров не фильтрует потому что нужно много работать над этим. Качество метаданных и качество поисковых индексов очень невысокое. Увы( Но это можно рассматривать не как проблему, а как вызов.

В Dateno тематическая классификация датасетов сейчас решается через классифицированные источники и через авторазметку по простым правилам, а в планах добавить разметку по расширенному классификатору и это даст возможность находить самые неожиданные данные.

Ссылки:
[1] https://www.scidb.cn

#opendata #datasets #datasearch #china