Ivan Begtin
8.07K subscribers
1.47K photos
3 videos
99 files
4.21K links
I write about Open Data, Data Engineering, Government, Privacy and Data Preservation and other gov and tech stuff
Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech

Contact @NMBabina for ads proposals
Download Telegram
MIT Technology Review пишут о рисках отделения России, Ирана и Китая от Интернета и называют это Splinternet [1] (сеть-осколок). У них же о том что это может происходить двумя путями. Первый в появлении новых несовместимых протоколов, второй в появлении параллельно регулируемой сети с теми же протоколами, но другими органами управления.

Шутки-шутками про "чебурнет", события могут развиваться в этом направлении довольно быстро.

Ссылки:
[1] https://www.technologyreview.com/2022/03/17/1047352/russia-splinternet-risk/

#internet #russia #china #iran #regulation
Тем временем в Китае армия роботов без участия человека построит дамбу [1], 180 метровая дамба будет построена с помощью экскаваторов, бульдозеров и другой строительной техники управляемой ИИ. Работа которая пока ещё остаётся людям - это добыча камня для строительства, эта работа пока ещё слишком сложна для автоматической работы.

Ссылки:
[1] https://www.asiaone.com/digital/army-robots-and-zero-human-workers-will-build-dam-china

#ai #construction #china
Статья How China uses search engines to spread propaganda [1] и отчет Brookings Institution [2] о том как китайские власти манипулируют поисковой выдачей по теме Синцзяня и COVID-19.

Россию там тоже упоминают в контексте того что Google демонетизировал российские гос-СМИ.

Но важнее что авторы пишут о том что поисковые системы уже начали размечать контент от госСМИ Китая и не только и то что исследователи рекомендуют поисковым системам (технологическим кампаниями их создающим) поменять правила ранжирования и деприоритизировать "низкокачественный государственный контент".

Поэтому неприятная новость в том что "демократическая цензура" поисковых систем весьма вероятна и обсуждается․ Сейчас в контексте Китая, далее может и в контексте России.

Политический нейтралитет для big tech скоро станет уже абсолютно невозможен.

Ссылки:
[1] https://www.brookings.edu/techstream/how-china-uses-search-engines-to-spread-propaganda/
[2] https://www.brookings.edu/research/winning-the-web-how-beijing-exploits-search-results-to-shape-views-of-xinjiang-and-covid-19/

#search #censorship #china #russia #usa #microsoft #google
Полезное чтение про приватность, открытость, и госполитику в цифре
- в Китае власти расширяют наблюдение за гражданами [1] статья в NYT по результатам анализа тысяч документов о госзакупках. Читать лучше без VPN из России открывается без пэйвола.
- об использовании открытых данных для понимания политики [2] текст на европейском портале открытых данных о том как изучать и наблюдать за политикой через открытые данные. Много ссылок на общественные проекты. Невозможно представить аналогичный текст в России на госпортале.
- проект Manifesto [3] большая научная база с открытыми данными и исследованиями манифестов политических партий с 1945 г. по нынешнее время. Охватывает более 1000 политических партий.
- свежая статья в CODATA [4] о том как отраслевые данные агрокультуры должны соответствовать практике работы с научными данными FAIR.
- несколько победителей EUDataThon 2022 сфокусировались на исследовании и анализе рисков при госзакупках [5]․ Ссылки на результаты организаторы не публикуют, только названия проектов и победителей и участников, но найти сами проекты не так уж сложно. Жаль из России невозможно было поучаствовать

Ссылки:
[1] https://www.nytimes.com/2022/06/21/world/asia/china-surveillance-investigation.html
[2] https://data.europa.eu/en/datastories/using-open-data-understand-politics
[3] https://manifesto-project.wzb.eu/
[4] https://datascience.codata.org/articles/10.5334/dsj-2022-013/
[5] https://op.europa.eu/en/web/eudatathon

#opendata #policy #privacy #china #eu #readings
В рубрике "как это работает у них" два китайских портала открытых данных

Портал открытых данных города Чанчжоу, Китай opendata.changzhou.gov.cn [1]

580 наборов данных опубликовано 66 департаментами города. Из них 563 набора данных в виде файлов и 78 API, некоторые наборы данных одновременно файлы и API.

Для доступа к API требуют авторизации через Jiangsu Unified Identity Authentication System [2], для выгрузки в данных в машиночитаемом виде авторизация не нужна, можно просто скачать.

Наиболее востребованные данные по разрешениям на строительство, часто данные публикуются в виде большой коллекции Excel файлов.

Население Чанчжоу около 5.3 миллионов человек.

Портал открытых данных Пекинского государственного университета, Китай opendata.pku.edu.cn [3]

Создан на базе платформы Dataverse и включает 103 пространства с 355 наборами исследовательских данных по направлениям научных публикаций университета.

Не все данные общедоступны, некоторые доступные под эмбарго, только в момент публикации научной статьи или по запросу.

В Китае сотни существуют сотни порталов данных и открытых данных. А также существуют большие общедоступные наборы из государственных информационных систем. В скором будущем я отдельно напишу про другие их порталы.

Ссылки։
[1] http://opendata.changzhou.gov.cn/
[2] https://www.jszwfw.gov.cn
[3] https://opendata.pku.edu.cn/

#opendata #china #datasets #datacatalogs
В NYT статья о том как косвенным образом журналисты пытаются понять реальную смертность от COVID'а в Китае [1]. Журналисты взяли публикации некрологов двух государственных институтов и проанализировали вручную их число и возраст умерших. Если кратко, то смертность значительно выросла в декабре 2022 г. и январе 2023 г.

Всё это об альтернативных данных и о том как важно не доверять официальной статистике, в данном случае китайской, и искать другие, альтернативные данные. На альтернативных данных сейчас принимаются решения не реже чем на официальной статистике.

И, конечно, это большое искусство и много опыта нужно в том чтобы понимать как такие данные находить и собирать.

Ссылки:
[1] https://www.nytimes.com/interactive/2023/02/05/world/asia/china-obits-covid.html

#opendata #alternativedata #china #covid
В рубрике как это работает у них портал открытых данных Шанхая (Китай) data.sa.gov.cn [1]. Я ранее уже рассказывал об открытых данных в Китае, но не рассказывал именно про этот портал.

Первая особенность портала в большом объёме данных. На нём опубликовано 4490 наборов данных. Это довольно много даже для национальных порталов открытых данных, а тут портал только города. Впрочем города с 25 миллионами населения, что немало.

Почти все данные публикуются в форме данных для структурированного хранилища и экспортируются сразу в форматах XML, XLS, JSON, CSV и RDF. По поводу RDF сразу те же сомнения что с порталом открытых данных Узбекистана, никакой привязки к онтологиям нет - это, конечно, минус.

Плюс - объём данных и частота обновления. 929 наборов данных предоставляются через API и обновляются ежесуточно.

Для полноты картины осталось посмотреть на их инструкции для разработчиков.

Ссылки:
[1] https://data.sh.gov.cn
[2] https://t.me/begtin/4470

#opendata #dataportals #china #shanghai
Рекомендую последние две публикации в канале Ивана Стерлигова про то что CrossRef перестаёт работать с российскими журналами и о последствиях этого шага [1] [2]. Последствия для российских научных организаций и учёных весьма неприятные, поскольку DOI выдают, в основном, два агентства в мире, это CrossRef и DataCite. CrossRef находится в США, DataCite в Германии, и там, и там будут соблюдать санкционные требования. Понятно что некоторые российские журналы будут напрямую публиковать все материалы на Zenodo, Arxive.org и ряде других, но если это будут журналы которые будут аффилированы так или иначе с научными учреждениями или лицами под санкциями, то, вопрос только времени, когда и некоммерческие проекты могут ввести свои ограничения в виду своей юрисдикции.

Это же к вопросу о наукометрии в России, которая во многом сейчас построена на открытых базах цитирования. Много ли будет толку от этих баз если измеримость научных публикаций будет сильно ограничена? Вопрос, этот, конечно, риторический.

Я, кстати, считаю что китайские сервисы выдачи DOI тут не помогут по одной простой причине. Китайские научные власти уже давно выстраивают партнерство с большинством зарубежных агрегаторов научных публикаций и создают собственную инфраструктуру. У них, например, есть свой аналог DOI, называется CSTR, Common Science and Technology Resource Identification [3]. Он используется не только для научных статей, но и для идентификации наборов данных, диссертаций, препринтов, патентов, инструментов, проектов, научных институтов и исследователей. Огромная база с открытым API и с интеграцией с Google Scholar, Semantic Scholar, CrossRef, ORCID и другими. В Китае есть проект Science Data Bank [4] для публикации открытых наборов научных данных, это китайский аналог Zenodo, так вот он интегрирован с десятками наукометрических проектов в США и в Европе. Проект уже интегрирован с OpenAIRE, Schoolix, Google Dataset Search, Data Citation Index, DataCite и другими. И это далеко не вся китайская научная инфраструктура, она, в принципе, весьма велика и интегрирована и интегрируется в мировую научную инфраструктуру очень тесно.

Будут ли китайские власти рисковать этим всем ради взаимодействия с российскими научными организациями? Лично я буду в этом сдержанно скептичен.

Ссылки:
[1] https://t.me/science_policy/833
[2] https://t.me/science_policy/834
[3] https://www.cstr.cn
[4] https://www.scidb.cn/en

#opendata #openaccess #openscience #science #china #crossref #sanctions
Authoritarian Privacy [1] свежая научная статья в открытом доступе о том как развиваются законы о приватности в авторитарных режимах. Нет, не в России, но в Китае.

Статья ориентирована на читателя знакомого с законами о приватности в демократических странах и рассказывает о разнице в регуляторных подходах, природе самого регулирования и в ней же хорошо систематизированы и множественно приведены примеры проблем с приватностью. Например, там наглядные примеры торговли биометрическими данными и госрегулирование распознавания лиц, но не только.

При этом, судя по примерам в статье, само китайское общество гораздо более активно чем российское, к примеру, самоорганизуется для защиты приватности. Например, история с профессором Guo Bing в 2019 году который потребовал чтобы его биометрические данные (изображение лица) были удалены из системы сафари-парка где от него потребовали такой идентификации и есть немало других подобных примеров.

Ссылки։
[1] https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4362527

#privacy #china #facerecognition
В Китае в состав правительства войдёт новая структура National Data Administration создаваемая для контроля за приватностью и безопасностью данных [1]. Подробностей всё ещё мало, но показательно что это именно структура в составе правительства, а то есть с достаточно серьёзными полномочиями. Есть эксперты кто считают что создание этой структуры - это кульминация китайской национальной стратегии данных [2], а также нельзя не упомянуть бюро по большим данным которые создавались в китайских провинциях с 2015 года [3], правда было немало сомнений выживет ли эта инициатива в принципе [4].

В любом случае создание специальной правительственной структуры - это серьёзный шаг на который могут обратить внимание и регуляторы других стран. Будет ли такая практика воспроизводится? Думаю что мы узнаем об этом до конца 2023 года.

Ссылки։
[1] https://www.technologyreview.com/2023/03/15/1069814/china-new-bureau-data-economiy/
[2] https://twitter.com/freefader/status/1633070438766239745
[3] https://merics.org/en/short-analysis/china-activates-data-national-interest
[4] https://thechinaproject.com/2022/10/11/the-chinese-government-wants-a-data-trading-market-but-it-may-never-happen/

#privacy #data #regulation #government #china