Ivan Begtin
8.07K subscribers
1.47K photos
3 videos
99 files
4.21K links
I write about Open Data, Data Engineering, Government, Privacy and Data Preservation and other gov and tech stuff
Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech

Contact @NMBabina for ads proposals
Download Telegram
В рубрике интересных больших наборов данных, данные OpenAIRE Research Graph [1]. В наборе данных собраны все метаданные о публикациях, данных, исследователях, изданиях, финансировании и иных сведений из европейского проекта OpenAIRE. Это, в общей сложности, сведения о:
- 24 финансирующих структуры
- 97 000+ публикаторов (изданий/организаций)
- 3 000 000+ научных проектов
- 132 000 000+ научных публикаций
- 15 000 000+ научных наборов данных
а также сведения о программном обеспечении и иных научных продуктах.

Общий объём хранения в системе OpenAIRE около 860ТБ, а объём OpenAIRE Research Graph около 136ГБ [2].

Данные собираются из множества источников, включая ORCID, Crossref, Microsoft Academic Graph и других [3].

Это большая, сложная, неплохо продуманная система агрегации данных и публичный продукт в виде сайтов, данных и API.

Есть ли там исследователи и исследовательские центры из России? Да, конечно же есть. 797 научных организаций из России зарегистрированы в OpenAIRE [4].

Ссылки:
[1] https://graph.openaire.eu/develop/graph-dumps.html
[2] https://zenodo.org/record/5801283
[3] https://graph.openaire.eu/about#architecture
[4] https://explore.openaire.eu/search/find?active=organizations&country=%22RU%22

#data #opendata #science #openacess #datasets #eu
Нужны ли интернет-провайдеры? Приемлема ли интернет цензура частных компаний? Почему мы вообще обязаны платить за интернет когда он становится обязательным? Это всё немаловажные вопросы о том как интернет и связь развивались все эти годы и как они должны.

В Евросоюзе эти вопросы разобраны в докладе Towards Public Digital Infrastructure посвящённому тому что цифровая инфраструктура должна быть приравнена к общественной инфраструктуре.

В докладе акценты расставлены в сторону контроля данных пользователями, то что называется Democratic Data Spaces, но я бы трактовал его сразу расширенно, на цифрую инфраструктуру как явление.

Тут важно помнить что доклад готовился на грант ЕС в рамках проекта Next Generation Internet и стоит предполагать появление этих идей в Европейском законодательстве в ближайшие годы.

P.S. Тем временем в России Ростех хочет получить контроль над Ростелекомом. А это, уж простите, но вхождение Ростелекома в состав военно-промышленного комплекса.

#data #policy #regulation #eu #digital
EPDS (he European Data Protection Supervisor) [1] анонсировали две новые социальные платформы с заботой о приватности EU Voice [2] и EU Video [3].

EU Voice основано на Mastodon, платформе для социальных сетей с открытым кодом.

EU Video работает на базе движка Peertube, также с открытым кодом.

А российское правительство могё'т развернуть свой экземпляр Mastodon или поддерживать бизнес товарища Дурова приоритетнее?;)

Ссылки:
[1] https://edps.europa.eu/press-publications/press-news/press-releases/2022/edps-launches-pilot-phase-two-social-media_en
[2] https://social.network.europa.eu/public
[3] https://tube.network.europa.eu/

#opensource #socialnetworks #eu #government #privacy
В Евросоюзе опубликовали черновик закона (регуляторного документа) по раскрытию особо ценных наборов данных для бизнеса и исследователей [1].

Опубликовали черновик ещё в конце мая и до 21 июня собирали обратную связь, которую, тоже будет полезно почитать чтобы знать позицию организаций в ЕС [2].

Также стоит обратить внимание на то какие данные определяются сейчас как особо ценные:
1) geospatial;
2) earth observation and environment;
3) meteorological;
4) statistics;
5) companies and company ownership;
6) mobility.

В обратной связи многие пишут что список неполон и нужны данные относящиеся к качеству жизни, например, статистика преступности.

А вот раскрытие данных о компаниях и их владельцах может повлиять на рынок проверки контрагентов и усилить конкуренцию.

Ссылки:
[1] https://ec.europa.eu/info/law/better-regulation/have-your-say/initiatives/12111-Open-data-availability-of-public-datasets_en
[2] https://ec.europa.eu/info/law/better-regulation/have-your-say/initiatives/12111-Open-data-availability-of-public-datasets/feedback_en?p_id=30829659

#opendata #eu #regulation #laws
Полезное чтение про приватность, открытость, и госполитику в цифре
- в Китае власти расширяют наблюдение за гражданами [1] статья в NYT по результатам анализа тысяч документов о госзакупках. Читать лучше без VPN из России открывается без пэйвола.
- об использовании открытых данных для понимания политики [2] текст на европейском портале открытых данных о том как изучать и наблюдать за политикой через открытые данные. Много ссылок на общественные проекты. Невозможно представить аналогичный текст в России на госпортале.
- проект Manifesto [3] большая научная база с открытыми данными и исследованиями манифестов политических партий с 1945 г. по нынешнее время. Охватывает более 1000 политических партий.
- свежая статья в CODATA [4] о том как отраслевые данные агрокультуры должны соответствовать практике работы с научными данными FAIR.
- несколько победителей EUDataThon 2022 сфокусировались на исследовании и анализе рисков при госзакупках [5]․ Ссылки на результаты организаторы не публикуют, только названия проектов и победителей и участников, но найти сами проекты не так уж сложно. Жаль из России невозможно было поучаствовать

Ссылки:
[1] https://www.nytimes.com/2022/06/21/world/asia/china-surveillance-investigation.html
[2] https://data.europa.eu/en/datastories/using-open-data-understand-politics
[3] https://manifesto-project.wzb.eu/
[4] https://datascience.codata.org/articles/10.5334/dsj-2022-013/
[5] https://op.europa.eu/en/web/eudatathon

#opendata #policy #privacy #china #eu #readings
В блоге статистического ведомства ООН о том как государства получают доступ к данным частных компаний [1] с акцентом на свежее регулирование Евросоюза The Data Act [2].

Краткие тезисы:
— некоторые данные есть только у крупных компаний и они не спешат делиться ими с госорганами
— попытки государств установить партнерства с компаниями в период пандемии сработали в 9 случаях из 41, из отчета Мирового Банка
— Евросоюз в The Data Act установил условия при которых компании обязаны предоставлять данные органам власти по запросу:
* реакция на чрезвычайную ситуацию, например, пандемию или природный катаклизм
* предупреждение чрезвычайной ситуации или восстановление
* ситуации предполагающие "исключительную необходимость" и отсутствие возможности или затруднение в приобретении данных.

Всё это к свежему российскому регулированию в котором российское гос-во также хочет получить доступ к данным коммерческих компаний.

Разница с Евросоюзом у российского регулирования, в недоверии способности органов власти сохранить эти данные, и в этическом дискомфорте поскольку не было даже видимости публичного обсуждения всех последствий этого законопроекта и в расплывчатости российского нормативного регулирования.

Тем не менее, я предскажу что рынок продажи данных государствам со стороны крупных цифровых монополий будет сжиматься. Неизбежно, либо ценовое регулирование, либо предоставление данных крупными компаниями на бесплатной основе.

Причём как раз модель регулирования ЕС, с высокой вероятностью, будут применять в других юрисдикциях.


Ссылки:
[1] https://unstats.un.org/unsd/undataforum/blog/the-eu-data-act-regulating-public-sector-access-to-privately-held-data/
[2] https://digital-strategy.ec.europa.eu/en/library/data-act-proposal-regulation-harmonised-rules-fair-access-and-use-data

#data #datasharing #legislation #laws #eu
Свежий европейский отчет eGovernment Benchmark 2022 [1] о зрелости электронного правительства в Евросоюзе со сравнению EU27+ стран членов и кандидатов в ЕС.

К нему же презентация с фактами по каждой стране [2].

Акцент в отчете сделан на то что в России называют госуслугами, но включает такой блок как прозрачность действий государства при отборе услуг для цифровизации и прозрачность их создания.

Ссылки:
[1] https://ec.europa.eu/newsroom/dae/redirection/document/88517
[2] https://ec.europa.eu/newsroom/dae/redirection/document/88733

#opengovernment #opengov #eu #policy #government
В Евросоюзе, очень похоже, начался сезон индексов и рейтингов и вышел рейтинг Digital Economy and Society Index (DESI) 2022 [1] о состоянии цифровой экономики и общества.

Индекс по 4-м направлениям:
- человеческий капитал
- цифровая инфраструктура
- интеграция цифровых технологий
- цифровые государственные услуги

Он почти полностью основан на статистике Евростата, данных опросов Еврокомиссии, данных по участию стран ЕС в общих проектах и данные о стартапах из Startup Genome.

Сравнение стран - это, конечно, важно, но самое интересное в таких публикациях это материалы о многочисленных страновых проектах перечисленные в документах профилей стран. Среди этих проектов немало национальных порталов открытых данных и иных проектов по обмену данными.

Ссылки:
[1] https://digital-strategy.ec.europa.eu/en/library/digital-economy-and-society-index-desi-2022

#opendata #government #eu #opengov #digital #economy
В рубрике как это работает у них проект Nueva Economía de la Lengua [1], Новая языковая экономика в Испании.

В его основе инвестиции в размере 1.1 миллиарда евро в изучение испанского языка из которых:
- 475 миллионов евро идёт на создание цифровой платформы изучение языка и оцифровку материалов Института Сервантеса
- 330 миллионов евро идёт на создание языковых моделей для работы искусственного интеллекта.

Эти модели уже активно создаются. Из последних можно привести в пример ESCORPUS [2] языковая модель высокого качества на 50 миллионов слов, а также исходный код и многочисленные другие модели языков и публикации научные и популярные [3] создаваемые в суперкомпьютерном центре в Барселоне.

Обо всём этом, проектах и результатах, на сайте Министерства экономики Испании [4], результатов там немало.

Всё это делает испанский язык наиболее вероятным языком после английского языка по появлению новых продуктов на базе языковых моделей. Может быть ещё китайский язык составляет конкуренцию, разве что.

С точки зрения работы с данными можно рассматривать этот план как создание огромных качественных открытых наборов данных с чётко сформулированными целями в рамках долгосрочной государственной политики.

Испанский язык один из наиболее распространённых в мире и его распространение явно продолжится.

А есть ли на постсоветском пространстве похожие инициативы? Есть ли государственные инвестиции и открытые модели для русского, казахского, армянского, узбекского и других языков? Можно ли сохранять свои языки популярными и востребованными не вкладываясь в технологии их применения?

Ссылки:
[1] https://planderecuperacion.gob.es/como-acceder-a-los-fondos/pertes/perte-nueva-economia-de-la-lengua
[2] https://huggingface.co/datasets/LHF/escorpius
[3] https://github.com/PlanTL-GOB-ES
[4] https://plantl.mineco.gob.es/Paginas/index.aspx

#opendata #datasets #spain #languages #government #policy #eu
О том как развивается открытие данных в мире. Во Франции государственная ИТ команда Etalab разметила обновлённый интерфейс просмотра данных национального портала открытых данных data.gov.fr [1].

Интерфейс чем-то напоминает коммерческие продукты такие как Socrata и OpenDataSoft, а чем-то движок публикации данных datasette с открытым кодом.

Сам подход заключается в том чтобы уже опубликованные данные приводить в более удобный вид. Путь интересный, но не единственный.

Ссылки:
[1] https://explore.data.gouv.fr

#opendata #france #eu