Ivan Begtin
9.08K subscribers
2.49K photos
4 videos
113 files
5.24K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

CTO&Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
В D-Russia.ru пишут о изменениях [1] в "трехглавый закон" в котором ввели два новых термина:

«Государственная информационная система – информационная система, созданная в соответствии с настоящим федеральным законом, иными федеральными законами, законами субъектов Российской Федерации, в базах данных которой содержится документированная информация и (или) иные сведения, получаемые или формируемые федеральными органами государственной власти, иными федеральными государственными органами, органами государственной власти субъектов Российской Федерации, иными государственными органами субъектов Российской Федерации, государственными организациями в связи с осуществлением ими полномочий по предоставлению государственных или муниципальных услуг (исполнению государственных или муниципальных функций), предусмотренных нормативными правовыми актами, а также иными организациями, на которые возложено осуществление функций по получению или формированию соответствующей информации и (или) сведений законодательством Российской Федерации, законодательством субъектов Российской Федерации»

и
«Жизненный цикл информационной системы – совокупность взаимосвязанных процессов, объединяемых в этапы, изменения состояния информационной системы от принятия решения о ее создании, формирования исходных требований к ней и до окончания ее эксплуатации (вывода из эксплуатации)».

Определение, конечно, было нужно, но беда в том что определение не решает ключевого вопроса. Все ли ИТ продукты сделанные за бюджетные средства ГИСы? А что делать с эксплуатацией программных продуктов созданных без нормативных документов, например, Минцифра разработала мобильное приложение - это приложение какой статус имеет: ГИС, компонент ГИС и тд. ? Каков его жизненный цикл?

Или, к примеру, Министерство заборостроительства Китежградаского края разработает телеграм-бот. Это ГИС или не ГИС? И такого ещё много.

Иначе говоря законопроект не снимает неоднозначности трактовок, к сожалению.

Ссылки:
[1] https://d-russia.ru/mincifry-opredelilo-ponjatija-gis-i-zhiznennyj-cikl-gis-dlja-vvedenija-ih-v-federalnyj-zakon.html

#gis #government #regulation
Федеральное правительство Германии опубликовало стратегию открытости данных [1]. Довольно подробный текст, доступный только на немецком языке. Много примеров публикации и использования данных и ориентир на дальнейшее их раскрытие и поощрение использования.

В чём отличия от российских реалий?
1. Никаких рейтингов и сравнений госорганов/регионов.
2. Акцент на эффекте от повторного использования данных.
3. Много научных примеров с раскрытием данных на общеевропейском портале Zenodo.org
4. Работа над стандартами по раскрытию данных (стандарт DCAT-AP)

Ссылки:
[1] https://www.bundesregierung.de/breg-de/aktuelles/open-data-strategie-1939808
[2] https://www.bundesregierung.de/resource/blob/975228/1940386/1d269a2ad1b6346fcf60663bdea9c9f8/2021-07-07-open-data-strategie-data.pdf?download=1

#opendata #opengov
Вчера вечером на общественном телевидении (ОТР) я комментировал прошедшие недавно учения по отключению Рунета от Интернета о которых писал ранее РБК [1].

Передачу ОТР и мой комментарий можно посмотреть на сайте их сайте [2] в записи передачи, начиная с 3:26:14.

Честно говоря я хотел об этом написать раньше, но и сейчас не поздно повторить тезисы озвученные в передаче:
1. Отключить рунет от Интернета, конечно, возможно, вопрос лишь цены которая будет непомерной для экономики.
2. С иностранными инвестициями и развитием несырьевой экономики в России можно будет распрощаться.
3. Говорить о том что надо тестировать отключение на случай если нас отключат, это примерно как тестировать самоубийство на случай если могут пристрелить.

В передачу там ещё дозвонился зритель с резонным вопросом что вообще надо всё отключить и вообще ядерная война скоро и она уже должна была ещё ранее произойти.

У меня вот тоже есть вопросы, в самом деле, если отключение Рунета тестируют, то что это давно не было учений ядерных бомбардировок, почему это давно нет учений на случай биологической войны? Граждане, вон, уже забыли где бомбоубежища и авианалётами их пугает Миноброны понарошку на большие военные праздники.

В самом деле, почему нет федерального органа ответственного за создание паники у населения, нет национального проекта нагнетания страха, даже федеральные проекты по запугиванию не попали в 42 приоритетные задачи правительства.

Я в недоумении.

Ссылки:
[1] https://www.rbc.ru/technology_and_media/21/07/2021/60f8134c9a79476f5de1d739
[2] https://otr-online.ru/programmy/segodnya-v-rossii/dolzhno-li-gosudarstvo-kontrolirovat-internet-kak-ozhivit-ekonomiku-kuril-pravo-na-dorogu-tokio-2020-tri-zolota-za-odin-chas-52282.html

#runet
Для тех кто интересуется "гражданской наукой" (citizen science) и данными - проект BirdNet [1] лаборатории орнитологии Корнелла в виде мобильного приложения куда каждый может загрузить часть птичьей песни для немедленной идентификации кто же её поёт.

У приложения открытый код [2] и там же возможность скачать открытую модель для распознавания.


Ссылки:
[1] https://birdnet.cornell.edu/
[2] https://github.com/kahst/BirdNET

#opensource #datascience #citizenscience
12 лет назад я создал сообщество в группах Google посвящённое открытым данным [1] и проект OpenGovData [2] (сейчас зеркало хаба открытых данных), а потом ещё через год Wiki Открытая госинформация [3] в которых собирал данные сам, создавал первый каталог открытых данных в России и организовывал активистов по написанию парсеров по сбору данных.

Сейчас есть много других сообществ, инструментов и сервисов. Новые каталоги, новые данные, а тогда не существовало ни одного госпроекта в этой области, данные и data science в частности не были такой сверхпопулярной темой, а главным вопросом у всех было в основном "зачем вы это делаете? кому это вообще в России нужно?". На фоне этих вопросов общественный проект выглядел вызывающе, а вел я его по собственной инициативе;)

Несмотря на то что сейчас открытые данные уже с боку от активной государственной повестке в России, но даже если так то ситуация с доступностью госданных стала сильно лучше. Не всё, но многое стало доступнее. Но смотря с чем сравнивать. Если с тем что было 12 лет назад в России, то стало лучше. Если сравнивать с другими странами которые начинали этот же путь, то не всё так хорошо как хотелось бы.
На что я не могу не обратить внимание это то что за 12 лет не стало лучше с доступностью нормативных документов и всего что касается качества жизни. Именно тех данных которые наиболее востребованы гражданами не изменилось ничего.

Важные отличия России от стран которые начинали первыми в том что там тема открытых данных получила разные формы институционализации. В виде команд внутри государства, как часть законов, стратегий и госполитики, как специально созданные организации вроде The Open Data Institute и ещё многого другого что сделало тему неразрывно связанной с будущим государства.

Впрочем я повторю то же что регулярно повторял на мероприятиях открытого правительства: мы занимались открытыми данными до вас, занимаемся сейчас и продолжим заниматься когда вы прекратите.

Открытость данных для меня вот уже 12 летний марафон и он продолжается.

Ссылки:
[1] https://groups.google.com/g/opengovdataru
[2] https://opengovdata.ru
[3] http://opengovdataru.pbworks.com/

#opendata #opengov #retrospective
Можно сказать что новый термин INDS (Integrated national data system) / Интегрированная национальная система данных. В блоге Мирового банка [1] заметка о таких системах в Гане, Эстонии и Мексике и со ссылкой на доклад World Development Report 2021: DATA FOR BETTER LIVES [2] того же Мирового банка.

Доклад полезный, есть версия на русском языке [3], много примеров, но не о России, но не в России, а жаль, в России немало примеров работы с данными на государственном уровне и в частном секторе.

Ссылки:
[1] https://blogs.worldbank.org/opendata/creating-integrated-national-data-system-lessons-estonia-ghana-and-mexico
[2] https://www.worldbank.org/en/publication/wdr2021
[3] https://openknowledge.worldbank.org/bitstream/handle/10986/35218/211600ovRU.pdf

#data #opendata
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
Правительство Санкт-Петербурга вернуло портал открытых данных ^_^. Сайт снова доступен по ссылке: data.gov.spb.ru.

Подробнее об исчезновении портала в июне 2021 года здесь: https://t.me/ahminfin/397
Big data for economic statistics [1] свежий обзор практик применяемых статистическими ведомствами для мониторинга экономической ситуации и сбора оперативной экономической статистики.

Много примеров, например:
- Малазийское статведомство DOSM разработало собственный портал мониторинга цен данные для которого собирают парсингом с сайтов интернет-магазинов
- Аналогично статведомство Новой Зеландии собирает с помощью парсинга сайтов данные по ценам на еду и объединяет их с данными полученными из других источников
- аналогично поступают ещё около десятка статведомств других стран
- в Индонезии и в Грузии отслеживают статистику туризма с помощью данных сотовых операторов

И так далее, примеров много, областей и направлений работы с данными много. Всё это про альтернативные источники данных заменяющие классические статистические показатели. Важные для инвесторов, туристов и тех кто принимает решения внутри страны.

Ссылки:
[1] https://repository.unescap.org/handle/20.500.12870/3501

#statistics #bigdata #economics
Написал большой текст в рассылку с подробностями о том как и зачем мы создаем сервис DataCrafter [1]. В ближайшем будущем я буду больше рассказывать о проблемах работы с данными, ведением реестров и другим особенностям работы с общедоступными источниками данных.

Ссылки:
[1] https://begtin.substack.com/p/datacrafter

#data #datasets #opendata
Написал в рассылку текст о том где и как искать данные и о том что нет до сих пор универсального поисковика по всем наборам данных, но есть много каталогов данных и каталогов-каталогов данных с которых можно начать [1].

А здесь хочу написать про обратную сторону каталогизации данных. Большая часть открытых каталогов данных и каталогов открытых данных в мире поддерживают стандарт DCAT [2] от W3C, который в первой версии вышел в 2014 году, а далее обновлялся, последний раз в 2020 году. Этот стандарт определяет метаданные наборов данных и благодаря ему возможно не только собирать описания данных в агрегированный каталог, но и осуществлять контроль за качеством данных, как, например, это делают европейцы в мониторинге Open Data Maturity [3] и в Metadata quality [4]

Российские государственные порталы открытых данных, в основном, медленно умирают, не обновляются или имитационно публикуют кучу мелких административных данных. С другой стороны сама тема открытых данных в России жива и поэтому есть отдельные акторы публикующие открытые данные инициативно.

Но строить единые агрегаторы вроде европейского или каталога данных США (data.gov) сложно потому что метод. рекомендации используемые сейчас, как бы сказать помягче, довольно устаревшие и задачи агрегации данных и контроля качества не решают.

Ссылки:
[1] https://begtin.substack.com/p/datasearch
[2] https://www.w3.org/TR/vocab-dcat/#motivation
[3] https://data.europa.eu/en/impact-studies/open-data-maturity
[4] https://data.europa.eu/mqa/?locale=en

#opendata #datasets
Свежие госприложения:
- от Минцифры "Госключ" [1] для подписания договоров
- от МИД РФ "Зарубежный помощник" [2] со справочной инфой для граждан

Приложение от Минцифры совсем свежее и включает трекеры Google Firebase Analytics и Huawei Mobile Services (HMS) Core [3]

Приложение МИДа существует с 2016 года, но зарегистрированно было на их подрядчика Sitesoft (отдельный вопрос почему так) и поэтому ранее не находилось и у того же Сайтсофта в профиле в Google Play ещё несколько госприложений оказывается. Их тоже надо будет проверить. А вот это приложение МИДа просит доступ к контактам, набору номера телефона и ещё много к чему.

Ссылки:
[1] https://play.google.com/store/apps/details?id=ru.gosuslugi.goskey
[2] https://play.google.com/store/apps/details?id=ru.sitesoft.mid&hl=ru
[3] https://beta.pithus.org/report/ae2b9cd4298554dfd12706ad4576b0e1695ecb57d8e95c53b462d5fecaba99c2
[4] https://reports.exodus-privacy.eu.org/en/reports/192278/

#mobile #privacy
Аэрофлот при входе запросил согласие на обработку персональных данных, а там полный спектр организаций
ООО Иннодата
ООО Базис
и ещё и Авиакомпания Победа

Причём запрашивают они это согласие безальтернативно, нельзя отказаться и не передавать персональные данные какой-либо компании, но хотя бы все хорошо подсчитаны и понятно кому слать запросы на отзыв согласия на обработку данных и кого проверять на предмет наличия права на такую обработку данных.

#privacy #personaldata
Я рассказывал ранее что госорганы крайне халатно относятся к персональным данным граждан, особенно граждан которые вступают с ними в любые взаимоотношения, например, трудовые или договорные. Ещё один наглядный пример федерального уровня, Минобороны России продаёт высвобождаемое имущество и публикует протоколы торгов включая паспортные данные представителей компаний. Их довольно легко "нагуглить" запросом 'паспорт серия site:mil.ru/files filetype:pdf' [1]

Удивительно что никто из граждан так и не засудил представителей Минобороны за такое.

И это один пример из тысяч и не все они находятся так просто, но пытливые умы могут найти многое.

Ссылки:
[1] https://www.google.com/search?q=паспорт+серия+site:mil.ru/files+filetype:pdf

#leaks #milru #government #privacy #personaldata
Дата журналистика - самое активно развивающееся направление журналистики в России.
Forwarded from Инфокультура
Дата-стрим «Как выгорает Россия»
📆 Четверг, 5 августа, в 20:00 (мск)

Где искать данные о лесных пожарах в России и как их исследовать, расскажут дата-журналистка «Новой Газеты» Катя Бонч-Осмоловская и дата-журналист Андрей Дорожный.

За один час они создадут прототип дата-материала: придумают тему, получат данные, найдут инсайт и сделают визуализацию. А также они расскажут об инструментах и приемах, которые используют практикующие дата-журналисты.

➡️ Регистрация: http://dorozhnij.com/firestream
На самом деле, главная проблема с проектами вроде Госключ и всём остальном сделанном государством по принципу G2B и G2C за рамками обязательных госфункций, так вот главная проблема в том что из опциональных они слишком легко переходят в обязательные.

Например, по такому сценарию:
1. Вначале появится Госключ
2. Через какое-то время его установят несколько сотен тысяч предпринимателей.
3. Потом окажется что что внедрение идёт не так активно и будет организовать госмониторинг использования.
4. Потом появятся публикации что Госключ это хорошо (может и будет где-то и кому-то с него польза) и без него плохо.
5. Потом появятся призывы сделать его обязательным в каких-то областях.
6. Потом его сделают обязательным, например, в какой-то области, где уже есть цифра, например, для подписания сделок с самозанятыми.
7. Потом обяжут к применению в каких-нибудь "социально значимых областях", например, для подписания договоров с турфирмами.
8. ... и так далее по цепочке.

Но важнее то что государство приходит на рынок который оно могло бы создать. Какими бы большими, тяжёлыми и неприятными не были бы грёбанные олигополии национальные цифровые чемпионы, лучше они чем государство. А ещё лучше нормальный конкурентный рынок по разумным правилам где государство выступает арбитром, а не игроком.

#government #business #govapps
Утром в газете, вечером в куплете (с)
CNews написали про публикацию персональных даннных граждан https://www.cnews.ru/news/top/2021-08-03_v_otkrytom_dostupe_obnaruzhilis и Илья Варламов написал https://varlamov.ru/YXl01mjqt4e

Только некорректно, конечно, говорить что я сейчас имею отношение к Счетной палате РФ, уже 2 месяца как я "свободный человек и поэтому пишу и думаю что хочу" (c)
В догонку к подборке источников и каталогов данных о которых я писал сегодня в рассылке [1], стартап bit.io [2] решает вопрос доступности данных обмена данными через гигантскую единую базу Postgres. Помимо того что туда уже загружены тысячи/десятки тысяч наборов данных из открытых источников, они дают возможность грузить собственные данные в Excel, CSV, JSON форматах, держать их в форме репозиторией, а далее обмениваться ими, визуализировать и многое другое. Чем-то похоже на data.world, но меньше про визуализацию и больше про хранение, API и обмен данными. У стартапа есть финансирование на нераскрываемую сумму и довольно неплохой старт.


Ссылки:
[1] https://begtin.substack.com/p/datasearch
[2] https://bit.io

#opendata #data #datacatalogs
Подробное и весьма познавательное исследование на основе опроса разработчиков Stack Overflow за 2021 год [1]

Знаете ли Вы что:
- лишь 3.38% разработчиков Black or of African descent
- мужчин среди разработчиков 91.6%
- большинство разработчиков в возрасте от 18 до 34 лет
- самые популярные технологии Python и SQL
- самые популярные СУБД MySQL, Postgres, SQLite и MongoDB
- облако Amazon наиболее популярно и за ним Google Cloud и Microsoft Azure

и там ещё много всего.

Ссылки:
[1] https://insights.stackoverflow.com/survey/2021

#developers
Размышления последних дней:
1. Один из признаков что у коммерческой компании "отношения" с госзаказчиком - это когда 99% её бюджета формируется лишь этим госзаказчиком на протяжении многи х лет. Например, 10 лет. Знаю такой случай.
2. Российская контрактная система начисто игнорирует мировой опыт реформирования контрактных систем последних лет. Это не только про отсутствие раскрытия в стандартах Open Contracting, но и отсутствие даже намёка на ведение реестра бенефициарных собственников компаний заключающих госконтракты.
3. Пример с утечкой персональных данных на сайте Минобороны - это просто пример, есть много других примеров аналогичного и они свидетельствуют о том что: а) В большинстве органов власти нет процедур контроля за публикацией персональных данных. б) Нет мониторинга того что они же сами публикуют. Правда и нет признаков того что это изменится. Я писал об этом 2 года назад, 2.5 года назад писал в Роскомнадзор и ещё не раз напишу.
4. В копилку ГосНКО надо добавлять организации с непрозрачной системой финансирования и связанные с государством не через отношения учредителей, а через их продвижение руководителями органов власти. Обычно, в последние годы, ГосНКО практически все имели в учредителях госструктуры, в той или иной форме. А их участие в госмероприятиях было как участие одной из госструктур, типа как продолжение государства. Но есть и те ГосНКО которые как бы частные или частные которые представляются как бы гос.

#thoughts