Ivan Begtin
7.98K subscribers
1.82K photos
3 videos
101 files
4.53K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Свежий европейский отчет eGovernment Benchmark 2022 [1] о зрелости электронного правительства в Евросоюзе со сравнению EU27+ стран членов и кандидатов в ЕС.

К нему же презентация с фактами по каждой стране [2].

Акцент в отчете сделан на то что в России называют госуслугами, но включает такой блок как прозрачность действий государства при отборе услуг для цифровизации и прозрачность их создания.

Ссылки:
[1] https://ec.europa.eu/newsroom/dae/redirection/document/88517
[2] https://ec.europa.eu/newsroom/dae/redirection/document/88733

#opengovernment #opengov #eu #policy #government
В Евросоюзе, очень похоже, начался сезон индексов и рейтингов и вышел рейтинг Digital Economy and Society Index (DESI) 2022 [1] о состоянии цифровой экономики и общества.

Индекс по 4-м направлениям:
- человеческий капитал
- цифровая инфраструктура
- интеграция цифровых технологий
- цифровые государственные услуги

Он почти полностью основан на статистике Евростата, данных опросов Еврокомиссии, данных по участию стран ЕС в общих проектах и данные о стартапах из Startup Genome.

Сравнение стран - это, конечно, важно, но самое интересное в таких публикациях это материалы о многочисленных страновых проектах перечисленные в документах профилей стран. Среди этих проектов немало национальных порталов открытых данных и иных проектов по обмену данными.

Ссылки:
[1] https://digital-strategy.ec.europa.eu/en/library/digital-economy-and-society-index-desi-2022

#opendata #government #eu #opengov #digital #economy
В рубрике как это работает у них проект Nueva Economía de la Lengua [1], Новая языковая экономика в Испании.

В его основе инвестиции в размере 1.1 миллиарда евро в изучение испанского языка из которых:
- 475 миллионов евро идёт на создание цифровой платформы изучение языка и оцифровку материалов Института Сервантеса
- 330 миллионов евро идёт на создание языковых моделей для работы искусственного интеллекта.

Эти модели уже активно создаются. Из последних можно привести в пример ESCORPUS [2] языковая модель высокого качества на 50 миллионов слов, а также исходный код и многочисленные другие модели языков и публикации научные и популярные [3] создаваемые в суперкомпьютерном центре в Барселоне.

Обо всём этом, проектах и результатах, на сайте Министерства экономики Испании [4], результатов там немало.

Всё это делает испанский язык наиболее вероятным языком после английского языка по появлению новых продуктов на базе языковых моделей. Может быть ещё китайский язык составляет конкуренцию, разве что.

С точки зрения работы с данными можно рассматривать этот план как создание огромных качественных открытых наборов данных с чётко сформулированными целями в рамках долгосрочной государственной политики.

Испанский язык один из наиболее распространённых в мире и его распространение явно продолжится.

А есть ли на постсоветском пространстве похожие инициативы? Есть ли государственные инвестиции и открытые модели для русского, казахского, армянского, узбекского и других языков? Можно ли сохранять свои языки популярными и востребованными не вкладываясь в технологии их применения?

Ссылки:
[1] https://planderecuperacion.gob.es/como-acceder-a-los-fondos/pertes/perte-nueva-economia-de-la-lengua
[2] https://huggingface.co/datasets/LHF/escorpius
[3] https://github.com/PlanTL-GOB-ES
[4] https://plantl.mineco.gob.es/Paginas/index.aspx

#opendata #datasets #spain #languages #government #policy #eu
О том как развивается открытие данных в мире. Во Франции государственная ИТ команда Etalab разметила обновлённый интерфейс просмотра данных национального портала открытых данных data.gov.fr [1].

Интерфейс чем-то напоминает коммерческие продукты такие как Socrata и OpenDataSoft, а чем-то движок публикации данных datasette с открытым кодом.

Сам подход заключается в том чтобы уже опубликованные данные приводить в более удобный вид. Путь интересный, но не единственный.

Ссылки:
[1] https://explore.data.gouv.fr

#opendata #france #eu
Суд Европейского Союза принял решение о том что раскрытие реестров бенефициаров противоречит правам человека [1]. Сейчас реестры закрыли Голландия и Люксембург, вполне возможно вскоре такая же участь последует другие открытые реестры. При этом, не могу не напомнить, что раскрытие реестров бенефициаров было официально поддержано на встрече G20 и в мире есть несколько больших инициатив в этой области, в основном родом из Великобритании. Например, Open Ownership [2].

Означает ли это что будет сложнее расследовать коррупционные схемы с участием компаний зарегистрированных в Европе? Для журналистов - скорее всего да.

Действительно, что важнее, общественный интерес или частная жизнь (бизнес) ? Лично я считаю что в данном случае интерес общества и практики проверки контрагентов перевешивают риски для человека.

Ссылки:
[1] https://delano.lu/article/court-of-justice-of-the-eu-que
[2] https://t.me/begtin/4382
[3] https://openownership.org

#opendata #opengov #transparency #eu
Top400 A top-down crime prevention strategy in Amsterdam, система предупреждения преступлений в Нидерландах, впервые начатая в 2011 году под названием Top600 и переименованная в Top400 в 2016 году. Основная идея в том чтобы снижать число преступлений через вмешательство в жизнь тех кто наиболее вероятно совершит преступление. Иначе говоря, это обычно то что называется профилактикой преступлений среди лиц ведущих антиобщественный образ жизни.

В ноябре вышел подробный доклад за авторством Fieke Jansen [1] для которого автор запросила множество документов через FOI запросы и исследовала более 4 тысяч страниц текста.

Этот проект создан создан для создания списка, примерно, 400 изначально, а сейчас уже под 1000 человек которые находятся под особым наблюдением полиции.

Для попадания туда есть два пути.

Первый набор критериев это комбинация взаимодействия с полицией и местным сообществом и включает։
• имеет (имели) меры по реабилитации молодежи (признак удваивается)
• находится или находился под наблюдением
• например, часто отсутствовал в школе или не закончил школу
• сменил начальную школу не менее 3 раз
• участвовал в инциденте с домашним насилием (в качестве потерпевшего, свидетеля или подозреваемого)
• был арестован как подозреваемый в возрасте от 12 до 14 лет
• был арестован за торговлю поддельным наркотиком в течение последних 2 лет

Второй набор критериев, это взаимодействие с полицией։
• хотя бы раз за последние 5 лет подозревался с полицией
• имел другие контакты с полицией
• и/или люди из их непосредственного окружения контактировали с полицией

К этому добавляется что полиция Амстердама сотрудничает с программой уличных тренеров (Street coaches) в рамках которой тренеры сообщают об антиобщественном поведении об отдельных лицах и это учитывается как один из критериев попадания в Top400.

Там же в докладе весьма подробно рассказывается про систему Prokid+ в которой регистрируются сведения о детях которые совершают нарушения или ведут антиобщественный образ жизни и о том что школы также сотрудничают с полицией.

Сам доклад всячески рекомендую почитать чтобы понимать в каком направлении сейчас движутся практики профилактики преступлений.

Ссылки։
[1] https://pilpnjcm.nl/wp-content/uploads/2022/11/Top400_topdown-crime-prevention-Amsterdam.pdf

#predictivepolicing #netherlands #privacy #eu
В рубрике интересных и актуальных наборов данных, ежесуточные данные по импорту природного газа странами Евросоюза [1] публикуются исследователями из Bruegel [2] на основе данных портала прозрачности [3] от European Network of Transmission System Operators for Gas [4].
Также исследователи агрегируют данные по заполненности европейских хранилищ газа [5] природного газа. Эти данные доступны для выгрузки в CSV, JSON и XLSX и через API. Данные, также, ежесуточные.



Ссылки։
[1] https://www.bruegel.org/dataset/european-natural-gas-imports
[2] https://www.bruegel.org/
[3] https://transparency.entsog.eu/
[4] https://www.entsog.eu/
[5] https://agsi.gie.eu/

#opendata #dataset #data #eu #gas
В рубрике как это устроено у них, 3 репозитория открытых научных данных созданные Варшавским университетом в 2017-2021 годах в рамках проекта Dziedzinowe Repozytoria Otwartych Danych Badawczych [1] переводится как Открытые репозитории доменных исследовательских данных.

В рамках проекта созданы репозитории:
- RepOD https://repod.icm.edu.pl - репозиторий открытых данных
- RDS https://rds.icm.edu.pl/ репозиторий социологических данных
- MX-RDR http://mxrdr.icm.edu.pl/ - репозиторий первичных данных в области макромолекулярной кристаллографии.

В общей сложности на них опубликовано около 1300 наборов данных. Данные в разных форматах: CSV, Excel, Nb, Ods, Tab и другие. Научные наборы данных также, часто отличаются тем что содержат первичные данные на которых проводилось исследование: тексты или изображения, например.

Общая стоимость проекта 4 998 889 злотых, по текущему курсу - это 95 миллионов рублей, всё это на 4 года.

Ссылки:
[1] https://drodb.icm.edu.pl/opis-projektu/

#opendata #openaccess #openscience #poland #eu #datasets
Тем временем в Испании 3 мая приняли первую национальную стратегию открытой науки [1] и собираются тратить по 23.8 миллионов евро ежегодно до 2027 года на развитие открытой науки и интеграции в мировую и европейскую инфраструктуру, в частности в European Open Science Cloud (EOSC). Учитывая что в Испании довольно развиты порталы открытых данных и не так много открытых репозиториев научных данных, я предполагаю что они пойдут французским путём и интегрируют открытые научные данные в нац портал datos.gob.es, но может быть и пойдут польским путем и вложатся в обучение работе с научными репозиториями и создании репозиториев научных данных в ведущих университетах.

Ссылки:
[1] https://www.universidades.gob.es/el-gobierno-aprueba-la-primera-estrategia-nacional-de-ciencia-abierta/

#opendata #openaccess #openscience #spain #eu
В рубрике как это устроено у них Български портал за отворена наука [1], портал открытой науки Болгарии созданный в НАЦИД (Национален център за информация и документация), государственным учреждением Болгарии подведомственным местному Министерству образования и науки. На портале собираются и публикуются данные из 8 репозиториев публикации результатов научной деятельности [3] большая часть которых являются научными статьями в открытом доступе.

По сути портал выступает в качестве поисковика по метаданным, перенаправляя на открытые репозитории содержащие тексты публикаций, в этом смысле он более похож на OpenAIRE чем, к примеру, на Dataverse. В то же время, портал был сертифицирован CoreTrustSeal [4], а то есть его создатели как минимум продумали достаточно важные системные вопросы организации его работы.

В принципе, национальные порталы открытости науки не редкость, их становится всё больше. Конкретно на этом портале открытые научные данные почти не представлены, во всяком случае их почти нет в болгарских институциональных репозиториях, можно предполагать что болгарские исследователи скорее используют напрямую общеевропейские порталы вроде Zenodo.

Ссылки:
[1] https://bpos.bg
[2] https://nacid.bg
[3] https://bpos.bg/bg/repositories
[4] https://www.coretrustseal.org/wp-content/uploads/2022/03/20220307-Bulgarian-Portal-for-Open-Science_final.pdf

#openaccess #openscience #bulgaria #eu
Свежий список компаний [1] попадающих под регулирование Евросоюза Digital Markets Act включает:
Alphabet
Amazon
Apple
ByteDance
Meta
Microsoft

А также список их продуктов. Список интересен тем что охватывает не все продукты компаний, а лишь те что значимы. Например, поиск Google там есть, а поиска Bing там нет. Также интересно что компании Маска и Twitter'а там тоже нет.

Правда этот список на 6 сентября и явно будет расти постепенно.

Учитывая что многие смотрят на регуляторов в ЕС как на пример для подражания я бы не удивился появлению схожего регулирования в Китае, не идентичного, а именно схожего по смыслу регулирования крупнейших цифровых игроков. И, с какой-то вероятностью, в России, со схожей риторикой, но достаточно жёсткими обременениями произвольного применения.

Ссылки:
[1] https://ec.europa.eu/commission/presscorner/detail/en/qanda_20_2349

#regulation #eu #datamarket #digital
Свежий европейский доклад Mapping the landscape of data intermediaries [1] о таких посредниках в работе с данными как: системы управления персональной информацией (PIMS), информационные кооперативы, трасты данных, профсоюзы данных, рынки данных и пулы обмена данными.

Много примеров из европейской практики, включая разбор бизнес моделей каждого из 6 типов посредников.

Например, малоизвестные мне ранее, профсоюзы данных (data unions) объединяющие людей предоставляющих свои данные, их примеры: TheDataUnion [2] и Unbankx [3].

А также многое другое. Полезно всем кто хочет знать как изнутри устроены _некоторые_, не все, рынки данных.

Ссылки:
[1] https://publications.jrc.ec.europa.eu/repository/handle/JRC133988
[2] https://thedataunion.eu
[3] https://www.unbanx.me

#data #research #readings #eu
Свежий стандарт по публикации результатов научной деятельности в открытом доступе Cross Domain Interoperability Framework (CDIF): Discovery Module [1] создан в рамках проекта WorldFAIR [2] и охватывает самые разнообразные объекты, но, что важнее, он описывает их публикацию используя schema.org что существенно повышает их находимость для поисковиков, в первую очередь, Google, но не только. Существенная часть стандарта про публикацию наборов данных, с отсылками в другим стандартам, включая DCAT, DataCite, ISO19115, EML, FGDC CSDGM, CERIF и DDI. Странно разве что отсутствие упоминания OAI-PHM. Как бы то ни было, потенциально это новый стандарт, который может быть вскоре одобрен в ЕС.

Ссылки:
[1] https://zenodo.org/records/10252564
[2] https://worldfair-project.eu/2023/12/05/cross-domain-interoperability-framework-cdif-discovery-module-v01-draft-for-public-consultation/

#opendata #datastandards #eu #standards #data #openaccess
Тем временем в Евросоюзе чиновники и законодатели согласовали свежий "Закон о ИИ" [1] который уже скоро примут и туда войдут многие положения по весьма жёсткому регулированию создания, применения и эксплуатации ИИ.

В частности будет запрещена эксплуатация ИИ следующих категорий:
- системы биометрической категоризации, использующие чувствительные характеристики (например, политические, религиозные, философские убеждения, сексуальная ориентация, раса);
- нецелевое извлечение изображений лиц из Интернета или записей с камер видеонаблюдения для создания баз данных для распознавания лиц;
- распознавание эмоций на рабочем месте и в учебных заведениях;
- социальный рейтинг, основанный на социальном поведении или личных характеристиках;
- системы искусственного интеллекта, которые манипулируют поведением людей, чтобы обойти их свободную волю;
- ИИ используемый для эксплуатации уязвимостей людей (из-за их возраста, инвалидности, социального или экономического положения).

За исключением таких задач как:
- целевые поиски жертв (похищение, торговля людьми, сексуальная эксплуатация),
- предотвращение конкретной и существующей террористической угрозы или
- локализация или идентификация лица, подозреваемого в совершении одного из конкретных преступлений

А также будут установлены требования к прозрачности ИИ продуктов и создание "песочниц" по контролем национальных властей для разработки ИИ малым и средним бизнесом без влияния глобальных корпораций.

Штрафы за нарушение могут достигать 7% от глобального оборота компании, так что последствия нарушений будут серьёзными, для многих компаний на кону может стоять принципиальное решение присутствовать или нет на рынке ЕС. Многое будет зависеть от того когда те или иные требования закона будут запланированы к исполнению.

Надо сказать что европейское регулирование резко контрастирует с отсутствием регулирования во многих странах или, к примеру, с российским регулированием в котором нет даже намёка на публичное раскрытие информации за исключением регулирования рекомендательных систем.

Ссылки:
[1] https://www.europarl.europa.eu/news/en/press-room/20231206IPR15699/artificial-intelligence-act-deal-on-comprehensive-rules-for-trustworthy-ai

#ai #eu #legislation #regulation
Незаслуженно упущенный мной документ GENERATIVE ARTIFICIAL INTELLIGENCE. OPPORTUNITIES, RISKS AND POLICY CHALLENGES [1] отчет European Parliamentary Technology Assessment о генеративном ИИ с точки зрения регуляторов в Евросоюзе и немного в Японии в контексте влияния ИИ на демократию. В целом весьма полезный обзорный документ.

И туда же вдогонку публикация про норвежский бюджет 2024 года [2] и упоминания расходов на ИИ в нём.

Ссылки:
[1] https://teknologiradet.no/en/publication/epta-report-2023-generative-artificial-intelligence-opportunities-risks-and-policy-challenges/
[2] https://medium.com/ethical-ai-resources/artificial-intelligence-in-the-norwegian-national-budget-for-2024-4f4d5bdde6fc

#ai #readings #eu #norway
Европейский доклад о гомогенизации особо ценных наборов данных (Report on Data Homogenisation for High- value Datasets) [1] вышел ещё 5 декабря. Небольшой по объёму и посвящён тому как в странах ЕС публикуют реестры компаний, данные по мобильности населения и официальную статистику. А также о том как можно было бы унифицировать публикацию таких данных. Можно уже ожидать что в 2024 году, или отдельно, или как часть существующего, но будет рейтинг/индекс/сравнение стран ЕС именно по публикации данных особой ценности.

Если кто-то пропустил, то эти наборы данных должны публиковаться в ЕС в рамках директивы 2023/138 [2] и, в принципе, европейское регулирование открытости данных идёт в направлении не только "открытости по умолчанию", но и гарантированной доступности данных по которым подтверждён общественный и коммерческий запрос. В частности - это данные реестров компаний, статистики, геоданные, метеоданные и многое другое.

Ссылки:
[1] https://data.europa.eu/en/doc/report-data-homogenisation-high-value-datasets
[2] https://eur-lex.europa.eu/eli/reg_impl/2023/138/oj

#opendata #eu #readings #reports
В рубрике как это устроено у них и о разнице между подходами к регулированию деперсонализации данных в Евросоюзе и в России.

Amnesia [1] продукт с открытым кодом [2] в рамках европейского проекта OpenAIRE позволяет анонимизировать научные данные прежде чем их публиковать в научных репозиториях.

Базовый сценарией его применения:
1. Скачать код или дистрибутив к себе локально во внутреннюю сеть или рабочий компьютер.
2. Запустить Amnesia
3. Выбрать режим анонимизации
4. Проделать все необходимые операции по деперсонализации данных.

Работает только с табличными данными вроде TXT и CSV, имеет API, может использоваться как исследователями лично, так и лабораториями, интегрирован с Zenodo и Dataverse.

Финансируется в рамках European Union's Horizon 2020 Research and Innovation programme.

Всё это к вопросу о том что если бы российское Минцифры реально хотело бы получить анонимизированные данные для ИИ, то могло бы выдать гранты на создание продуктов на открытом коде или дать субсидии коммерческим компаниям /стартапам в рамках ФСИ на создание таких коммерческих продуктов, а не централизованно собирать персональные данные от бизнеса и внутри этого оператора эти данные анонимизировать.

Всё это к тому что есть другие решения, гораздо более безопасные. А от решения по централизации всех персональных данных в России выиграют только спецслужбы, продающие перс. данные инсайдеры и хакеры которые через инсайдеров эти данные получат.

Ссылки:
[1] https://amnesia.openaire.eu/
[2] https://github.com/dTsitsigkos/Amnesia

#privacy #opensource #eu #regulation
В рубрике как это устроено у них новый каталог открытых данных Словакии data.slovensko.sk заменил предыдущий портал data.gov.sk (более недоступен). Новый портал переписали на CSharp и его код доступен [1]. Из его особенностей - это ориентация на SPARQL, доступность возможности работы со SPARQL эндпоинтом, а также то что краулит из 12 каталогов открытых данных страны и подлерживает каталоги датасетов по стандартам DCAT-AP, SPARQL и CKAN API.

Выглядит любопытно, но эта картина была бы неполной если бы:
1. Разработчики не поломали бы все ссылки на data.gov.sk которые были в европейском data.europe.eu где новый портал даже не зарегистрирован, а старый уже недоступен и ссылки "протухли"
2. Нет общедоступной документации API нового каталога
3. Нет экспорта DCAT AP или CKAN API у нового каталога.

В целом очень неаккуратно. Про SPARQL я скажу так, у него и Semantic Web есть очень много сторонников в европейских проектах за госсчёт, но к современной дата инженерии он имеет смутное отношение. Вообще никакого, если честно. Экспорт данных в Parquet, удобное REST API и, может быть, даже GraphQL эндпоинт куда важнее.

Ссылки:
[1] https://github.com/slovak-egov/nkod-portal

#opendata #slovakia #eu #standards #data #datasets
В рубрике как это устроено у них, Пражский проект по доступу к городским данным Golemio [1] существует в виде команды занимающеся дата продуктами такими как портал открытых данных Праги [2] и открытые API к системам Праги [3].

Технологически ничего феноменального, собственная BI платформа, разного рода дата продукты в активе. Но, во первых это модель по созданию открытой инсорсинговой команды внутри мэрии достаточно крупного города, во вторых исходный код их платформы открыт [4] и в третьих тут нет госпатернализма, наоборот акцент на платформе данных и государства / мэрии как структур предоставляющих данные.

Ссылки:
[1] https://golemio.cz/english
[2] https://opendata.praha.eu/datasets
[3] https://api.golemio.cz/docs/openapi/#/
[4] https://gitlab.com/operator-ict/golemio

#opendata #dataportals #czechia #praha #eu
В Нидерландах Министерство внутренних дел и по делам королевства опубликовало Handleiding Herziene Who nav de Wet implementatie open data richtlijn [1], Пересмотренное руководство для тех следует за Законом о реализации Директивы по открытым данным [2]

Руководство на голландском языке, но ничего сложного там нет и для тех кому будет сложно читать можно воспользоваться одним из онлайн переводчиков.

Если вкратце то руководство определяет политику обязательной открытости данных и кода всех государственных структур таких как:
- органы и организации федеральной власти (de staat);
- органы и организации региональной власти (zijn territoriale lichamen);
- организации учреждённые по закону (publiekrechtelijke instellingen)
- ассоциации учреждённые одним или более органов/организаций власти или организаций учрежденных по закону (verenigingen gevormd door een of meer van deze lichamen of een of meer van deze publiekrechtelijke instellingen)

Сюда попадают все органы власти, бюджетные учреждения, государственные исследовательские центры, любые организации которые они учреждали.

В руководстве определены приоритеты открытости по таким направлениям как:
- исследовательские данные
- динамические данные, такие как трафик, движение общественного транспорта и тд.
- особо ценные наборы данных (как это определено в директиве Евросоюза)
- программное обеспечение и открытый код

Из интересного:
- соблюдение принципов FAIR для открытых научных данных
- требование по использованию Metagegevens Duurzaam Toegankelijke Overheidsinformatie (MDTO) стандарта по устойчивой доступности государственной информации [2]. Разработано Национальным Архивом Нидерландов
- требование Archivering by design по предусматриванию обязательной архивации всего публикуемого и для этого использование стандарта DUTO [4], также от Национального Архива

И там ещё много всего.

В итоге можно обратить внимание на два фактора:
1. Сильный акцент на обязательное раскрытие научных данных. Это не удивительно зная сколько их создаётся и раскрывается в Нидерландах.
2. Переход к обязательности раскрытие ПО и открытого кода
3. Стандартизация с акцентом на архивацию. Роль национального архива в этом процессе.

И, чтобы два раза не вставать, нидерландский веб-архив всех государственных сайтов [5], несколько тысяч, может быть, десяток тысяч сайтов и госучреждений.

Ссылки:
[1] https://openrijk.nl/artikel/5c0e86d8-bc47-48c0-99f5-4306dea73b6d/nieuwe-wet-voor-open-data-in-nederland
[2] https://minbzk.github.io/publicatie/hl/hwho/#wat-is-de-status-van-deze-handleiding
[3] https://www.nationaalarchief.nl/archiveren/mdto/stappenplan-toepassen-mdto
[4] https://www.nationaalarchief.nl/archiveren/kennisbank/duto-raamwerk
[5] https://www.archiefweb.eu/


#opendata #netherlands #eu #policy #opensource #digitalpreservation #webarchives