Ivan Begtin
8.07K subscribers
1.47K photos
3 videos
99 files
4.21K links
I write about Open Data, Data Engineering, Government, Privacy and Data Preservation and other gov and tech stuff
Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech

Contact @NMBabina for ads proposals
Download Telegram
Можно дискутировать остались ли в России открытые данные или нет. Многие, включая меня, считают что открытость сейчас под большим вопросом, другие удивляются что вообще хоть какие-то данные доступны.

Тем временем у федерального портала открытых данных data.gov.ru просрочен сертификат. Удивительно ли это ? Нет, Минэкономразвития РФ довольно сильно запустило портал, сейчас он забит бесконечным объёмом микро-файлов. Но тут важнее то что на портал просто забили, даже не отслеживая протухание сертификата.

Впрочем это не единственная проблема с этим сайтом. Например, поломался экспорт реестра наборов данных [1].

Впрочем, как я уже говорил ранее, даже если сертификат исправят и экспорт данных вылечат, фундаментальной проблемы плохой работы этого портала это не решит.

Ссылки:
[1] https://data.gov.ru/opendata/export/csv

#opendata #russia #government #opengov #closeddata
В качестве напоминания, через 3 дня будет проходить День открытых данных по всему миру [1], кое-где он проходит целую неделю, с 4-го по 10-е марта, но большинство сообществ проводит его один день. Команда Инфокультуры (@infoculture) возвращается к его проведению в Москве и на сайте Дня открытых данных в России opendataday.ru [2] можно узнать программу.

Я лично буду выступать на ODD с рассказом про datacatalogs.ru, нашем проекте по data discovery, инструментах обнаружения данных и их поиска. Расскажу также про другие системы поиска по данным.

Моя коллега по Инфокультуре, Ксения Орлова, расскажет про практику архивацию сайтов (и данных) в рамках проекта Национальный цифровой архив. Вообще важно помнить что цифровые архивы - это тоже открытые данные, я бы даже сказал что это в первую очередь открытые данные.

В этом году всё мероприятие будет проходить только онлайн, но хочется надеяться что это лишь повысит его доступность и возможность для участников смотреть трансляцию.
Будет много других интересных выступлений, о использовании данных для геоаналитике, корпоративной ответственности, в некоммерческом секторе и многом другом. Обязательно посмотрите программу на сайте.

Пока это первое мероприятие за полтора года по открытым данным которое мы проводим. День открытых данных в 2022 году, в России, мы не проводили.

Будут ли ещё мероприятия в России/по России/на российских открытых данных и связанных с открытыми данными в этом году ? Возможно. Как минимум по теме цифровой архивации есть желание провести онлайн и оффлайн мероприятие, с акцентом на архивацию цифрового контента и создание баз данных на основе архивов.

Пишите если будет интересные идеи того что сейчас можно делать публичного и открытого про открытые данные.

А пока я не могу не напомнить что День открытых данных - это не одна конференция, а сеть мероприятий по всему миру организуемых волонтерами. Ничто не ограничивает Вас провести митап в своем регионе, городе, университете, стране.

Ссылки։
[1] https://opendataday.org
[2] https://opendataday.ru

#opendata #opengov #events #data
В рубрике как это устроено у них каталог геоданных Швейцарии [1] создан на базе открытого ПО Geonetwork [2], включает 12859 наборов геоданных в форматах DXF, Shapefile, GeoPackage, INTERLIS 2 и множеством вариантов экспорта метаданных.

Данные используются во множестве проектов связанных с данными геоданными в Швейцарии и в Европе, например, в официальной карте Швейцарии [3].

Таких государственных порталов геоданных в мире не так уж мало и чаще всего они построены именно на GeoNetwork

Ссылки։
[1] https://www.geocat.ch
[2] http://geonetwork-opensource.org/
[3] https://map.geo.admin.ch/


#opendata #opengov #switzerland #geodata
День открытых данных ещё продолжается, а я тем временем выступил с презентацией Как искать данные с помощью каталогов данных. Проект datacatalogs.ru о том как проект устроен, развивается, для чего создавался и к чему идёт. А создавался он для появления поисковика по данным в будущем.

Видео тоже вскоре будет доступно.

Ссылки։
[1] https://www.beautiful.ai/player/-NPgdYTNJKkJTXp_0zgA

#opendata #opengov #datadiscovery
По поводу российского государственного портала открытых данных data.gov.ru который недавно был закрыт Минэкономразвития [1] и как пишет Ольга Пархимович у себя в канале там ещё и чудеса с обратной связью с представителями этого министерства [2], так вот ещё до появления госпортала открытых данных мы командой Инфокультуры делали портал hubofdata.ru [3] куда загружали данные которые госорганы "забывали" опубликовать как открытые и который подзабросили когда российские госорганы начали создавать свои порталы открытых данных, поскольку было, какое-то время, впечатление что данные госорганы будут публиковать.

Так вот я большого секрета не открою сказав что сделать большой негосударственный портал открытых данных можно и даже не феноменально сложно. И если Минэкономразвития собирается запускать новую версию data.gov.ru на Гостехе и за 50 млн. руб, то без министерства и без Гостеха общественный проект с большим числом наборов данных и их объёмом можно сделать в 5 раз дешевле.

Больше того, поскольку мы кроме общественного портала Hubofdata делали ещё и полу-коммерческий Datacrafter [4] то заполнить такой общероссийский портал можно сразу данными большого объёма и в хорошем качестве. Кстати, Datacrafter никуда не исчез, может быть будет перезапущен в России, может быть мигрирован в другую страну и с другими акцентами. В любом случае значительная часть собранных там данных может быть перенесена в общественный проект.

В чем же сложность тогда? На самом деле ключевая сложность в России вот уже много лет в отсутствии доступных инвестиций/грантов/средств на цифровые гражданские проекты, особенно по доступности данных. Это министерства могут сжечь любое количество потратить 50 миллионов рублей в довесок к уже потраченным без гарантии результата. Объяснить из чего складывается разница? Из того что порталы открытых данных во всём мире делают на готовых опенсорс решениях, чаще всего на CKAN, реже на DKAN, uData, Dataverse, а для геоданных Geonetwork. Развертывание любого из них в разы дешевле и практичнее разработки с нуля, если только нет плана по созданию мегафич из-за которых опенсорс продукты не подходят. А разработка с нуля на Гостехе - это удовольствие не для слабонервных, учитывая что там никаких готовых решений. Нельзя вот так просто взять и развернуть готовое решение из коробки и неизвестно можно ли будет когда-либо. Например, Datacrafter делался не на CKAN'е потому что в нём внутри структурированное NoSQL хранилище, разметчик семантических типов данных и экспорт всех данных в parquet по умолчанию. CKAN этого не умеет, пока что.

Когда есть амбиции делать национальные порталы открытых данных, то стоит ли делать их в России? Поэтому я через какое-то время анонсирую общественный портал открытых данных, пока небольшой, создаваемый для другой страны и я уже рассказывал ранее про проект Common Data Index [5] который начинается с общего реестра каталогов и порталов открытых данных в мире, а продолжится поисковой системой по всем наборам данных в общедоступных каталогах данных.

Ссылки:
[1] https://t.me/begtin/4714
[2] https://t.me/ahminfin/541
[3] https://hubofdata.ru
[4] https://datacrafter.ru
[5] https://t.me/begtin/4764

#opendata #russia #opengov #dataportals
Я, кстати, ранее ругался что на портале открытых данных Казахстана [1] ничего не скачать не имея местного ИИ, данные были доступны только после регистрации, теперь скачивать данные можно без регистрации, наверное они меня читают;) Но и тут без подвоха не обошлось, скачивать можно только до 100 записей за раз. Это, конечно, совершенно "потрясающе" как можно было до такого додуматься. Настолько смешно, что даже не знаю что добавить. В общем, портал по прежнему не про открытые данные. А вот где у них открытые данные точно есть так это в Портале открытых пространственных данных Республики Казахстан [2]. Там взяли готовый продукт Geonode и опубликовали более 500 слоёв. Но ленятся бессовестно, не указывают условия использования данных, язык везде указан как английский, хотя названия слоёв на русском. Описания есть далеко не у всех наборов данных.

Это вообще странно что решили делать каталог на GeoNode, а не GeoNetwork, не то чтобы это невозможно, но продукт другого типа.

Ссылки:
[1] https://data.egov.kz
[2] https://map.gov.kz/

#opendata #data #opengov #kazakhstan
В рубрике интересных каталогов данных открытые каталоги данных на базе TriplyDb [1]. Это продукт с открытым кодом [2] и одноимённая компания для публикации связанных открытых данных. В принципе проникновение связанных данных (Linked Data) в порталы открытых данных оказалось довольно сложным занятием. До сих пор активное использование связанных данных есть только в интеграции научных данных и самый известный проект в этой области DBPedia, в порталах открытых данных до сих пор поддержка OWL/RDF чаще формальность чем реальность.

Тем не менее, Triply есть инсталляции 3-х каталогов:
- https://triplydb.com - каталог 1102 наборов данных
- https://druid.datalegend.net - система Druid в Университете Утрехта
- https://data.pldn.nl - платформа связанных данных Нидерландов

Другим интересным стартапом пытавшемся занять нишу порталов и сервисов данных с акцентом на связанных данных был Swirrl, но несколько лет назад их поглотила компания TPXimpact [3]
У них осталось немного инсталляций:
- https://opendatacommunities.org - официальная статистика Департамента по вопросам выравнивания, жилищного строительства и сообществ Великобритании
- https://statistics.gov.scot - Официальная статистика Шотландии
- https://beta.gss-data.org.uk - статистика по изменению климата по Великобритании

В целом это два наиболее известных мне примеров реального применения связанных данных и инфраструктуры на них за пределами академических задач и общественных проектов. Тем не менее за ними также интересно наблюдать и изучать практическое применение в будущем.

Ссылки:
[1] https://triply.cc
[2] https://github.com/TriplyDB
[3] https://pages.tpximpact.com/swirrl

#opendata #linkedata #opengov #uk #netherlands #datacatalogs #opensource
По поводу перевода сайтов российских госорганов в доменную зону .gov.ru я вначале с большим недоумением прочитал что российские СМИ вообще считают это инфоповодом и активно об этом пишут. Потом я вспомнил про те масштабные ротации и кризис в российских СМИ в последние годы и недоумение пропало, но ситуация от этого менее идиотской не стала.

Я много лет веду реестр всех российских госсайтов, его публичная часть в репозитории на Github [1] и есть ещё непубличная часть в таблице в Airtable и я слишком хорошо знаю сколько и какие домены госорганы используют в работе, где они хостятся и так далее.

Перевод сайтов сайтов в зону .gov.ru обсуждался ещё 10-15 лет назад, и не так давно, пару-тройку лет назад, предпринимались усилия по переносу многих сайтов госорганов, большую часть с той поры перенесли, но не все.

Перенос домена сайта госоргана в зону .gov.ru - это вопрос скорее эстетический, по принципу "почему у всех правильно, а тут нет?", меня тоже всегда раздражало что сайты многих госорганов и госинициатив надо искать. Неудобно же!

Но, тут важно помнить, что нахождение сайтов госорганов в одной доменной зоне может иметь всего два практических смысла:
1. Большее доверие сайтам госорганов в ситуации когда есть "сайты обманки" или каким-то образом возникали ситуации недоверия. Это не то чтобы часто является проблемой, но иногда важно.
2. Возможность архивации сайтов госорганов автоматизированными краулерами. Так, например, устроено в Великобритании, где Национальный архив архивирует все сайты в зоне .gov.uk каждый час. Это называется UK Government Web Archive [2] и такие же инициативы есть в десятках стран, во всех странах где есть думают о будущем, я бы сказал.

Про практический смысл, первый пункт в России не актуален, а второй до сих пор ни в какой форме не реализован. Я за все эти годы не увидел ни одной инициативы внутри российского государства по архивации хотя бы собственных принятых решений. Хочется иронично спросить, как же так, если за то что делаете не стыдно, то сохраняйте для потомков, а если так стыдно что не сохраняете, то может и не делать? Поэтому если кратко, все инициативы по архивации сайтов госорганов в России сейчас гражданские, вроде нашего Национального цифрового архива [3]

Остаётся эстетический смысл исключительно который выглядит так что кто-то хочет обсудить цвет двери которую уже сорвало с петель и порвало на части. Важно ли что эта дверь была зёленая? Может быть салатово-фиолетовой ей было бы быть лучше? Иначе говоря на фоне повсеместного постепенно закрытия госданных, исчезновение ключевой информации с сайтов госорганов, изначальная непрозрачность множества инициатив, де-факто разрушение российской журналистики и исчезновение возможности журналистам получать содержательные ответы от госорганов, и при этом говорить про госдомены в зоне .gov.ru ? Самое близкое к этому - это публичное рукоблудие. Общественное внимание привлекает, смысла не имеет, приличия тоже.

Лично мне нет никакой разницы находится ли сайт криминальной статистики crimestat.ru в зоне .gov.ru или нет если он более не обновляется. Нет разницы находится ли национальный портал открытых данных data.gov.ru в зоне .gov.ru или нет, если он закрыт, и судя по сумбурности представителей Минэка, надолго если не навсегда и так далее.

В истинном золоте блеска нет и двулично говорить о том что надо делать хоть что-то что можно в текущей ситуации. Просто не надо тратить время на эту ерунду. Я вот немного потратил его, о чём уже жалею, и написал про это всё и больше не буду.

Ссылки:
[1] https://github.com/infoculture/govdomains
[2] https://www.nationalarchives.gov.uk/webarchive/
[3] https://ruarxive.org

#government #transparency #websites #opendata #opengov
Пришло время рассказать о том, чем я давно занимаюсь, а это, трам-парам-пам, ни много ни мало, а создание проекта по открытым данным в Республике Армения - Open Data Armenia, также посвященного армянской культуре, языку и истории по всему миру.

Признаюсь, идея начать делать проекты по открытости, связанные с Арменией, была у меня давно. Среди моих предков - амшенские армяне, в начале 20-го века бежавшие из Трапезунда в Турции от Геноцида армян. Планы были давно, и наконец-то удалось к ним приступить.

Любой проект по открытым данным начинается с портала открытых данных https://data.opendata.am, который пока существует в общественном статусе и наполняется нашей командой и волонтерами. Мы ищем интересные наборы данных, связанные с Арменией по всему миру, и вносим их раз за разом.

Что дальше? Конечно же, конкурсы, хакатоны, интересные проекты на открытых данных.. И хотя у нашей команды и был соблазн сразу делать что-то интересное на открытых данных, начали мы именно с каталога, поскольку, как оказалось, в Армении его до сих пор не было. Теперь этот каталог есть, и есть телеграм канал https://t.me/opendataam и телеграм-чат, в котором мы будем формировать сообщество по открытым данным https://t.me/opendataamchat.

Проекту можно помочь многими способами. Если Вы из ИТ-компании в Армении или связанной с Арменией, то можно помочь собрать призовой фонд для хакатонов и конкурсов. Если Вы программист, то можно помочь с преобразованием немашиночитаемых данных в форматы CSV/JSON/XML. Если просто интересуетесь, то подсказать где найти интересные данные, предложить идеи проектов на основе данных.

Идеи, предложения партнерства, готовность помочь и тд. - пишите на opendata@opendata.am или в личку в телеграм.

#opendata #armenia #opengov
Даже не знаю что добавить, Ольга (@ahminfin) всё правильно пишет что ключевое в том что в российском Минэкономразвития нет компетенций связанных с их полномочиями по открытости государства. Проблема эта, что называется, качества человеческого капитала. Ну а миграция официального портала открытых данных на Гостех - это минус на минус который превращается в жирный минус.

#opendata #opengov