Ivan Begtin
8.07K subscribers
1.49K photos
3 videos
99 files
4.24K links
I write about Open Data, Data Engineering, Government, Privacy and Data Preservation and other gov and tech stuff
Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech

Contact @NMBabina for ads proposals
Download Telegram
Для тех кто мог пропустить ранее, например я пропустил, в июне 2019 года вышел отчёт офиса аудита Великобритании об использовании данных в органах власти "Challenges in using data across government" [1]. В этом, относительно кратком отчёте на 59 страниц, помимо обзора стратегий работы с данными, ещё и присутствует большой раздел об используемых идентификаторах для граждан и бизнеса. Несмотря на то что это неполный список, он довольно впечатляющий, и включает:
- номер национального страхования
- номер получателя соцподдержки
- уникальный идентификатор налогоплательщика
- уникальный идентификатор учащегося
- уникальный идентификатор студента присваиваемый образовательным учреждением
- номер паспорта
- номер водительского удостоверения
и так далее.

Наверняка если поисследовать по России то число идентификаторов будет не меньшее, а скорее большее. Кросс-использование их органами власти будет, скажем так, разным.

В целом этот документ можно описать как результат аудита стратегии правительства в области данных. Полезный по многим причинам, не затрагивающий вопросы финансов и затрагивающий вопросы результатов.

Ссылки:
[1] https://www.nao.org.uk/wp-content/uploads/2019/06/Challenges-in-using-data-across-government.pdf

#data #audit
В России тема Сингапура особенно популярно среди государственных служащих как пример того как должно быть устроено государство и как пример его эффективности. Но используется ли сингапурский опыт в России?

В Сингапуре вот уже несколько лет действует "государственная цифровая команда" создающая открытые государстсвенные продукты [1] среди которых есть такие как:
- портал открытых данных data.gov.sg [2]
- мобильное приложение для парковок [3]
- сервис для заполнения государственных форм Forms.sg [4]
- конструктор для госсайтов Isomer [5]
- сокращатель ссылок для госслужащих [6]
- конструктор общедоступных документов [7]
- сервис авторизации с приватностью [8]

Большая кода команды общедоступна на Github [9], [10], [11].

Что главное в этом всём? Все эти продукты, кроме приложения для парковки - это G2G продукты.
Многие из них, например, конструктор для госсайтов и конструктор документов сделаны столь хорошо что вполне пригодны для использования и за пределами властей Сингапура. В них Github используется для создания сайтов с разметкой markdown а госслужащих учат использованию этой разметки для подготовки и публикации документов.

Ссылки:
[1] https://open.gov.sg/
[2] https://open.gov.sg/products/datagovsg/
[3] https://open.gov.sg/products/parkingsg/
[4] https://open.gov.sg/products/formsg/
[5] https://open.gov.sg/products/isomer/
[6] https://open.gov.sg/products/gosg/
[7] https://open.gov.sg/products/opendoc/
[8] https://open.gov.sg/products/sgid/
[9] https://github.com/datagovsg
[10] https://github.com/opengovsg
[11] https://github.com/opendocsg/

#singapore #opendata #opensource #opengov
Каждый год я собираю и публикую статистику того как государства по всему миру публикуют код, работают с открытым кодом, ведут открытую разработку и взаимодействуют с тысячами разработчиков. Это довольно актуально во всём мире и актуально, но практически не реализуется в России. В России, в принципе, открытых репозиториев кода кроме открытых репозиториев Счетной палаты [1] нет.

Я приведу цифры из анализа проектов зарегистрированных на Github [2] и относящихся к госорганам и к НКО помогающим госорганам стать лучше, так называемым civil hackers (гражданские хакеры), такие как Open Knowledge International, Sunlight, OMB Watch и многие другие.

Всего в мире открытый код публикуют 1281 организация, из которых 320 относятся к гражданским хакерам и остальные к органам власти, госучреждениям и исследовательским центрам на госфинансировании. Ими создано 48 944 репозитория кода из которых 12 602 создано гражданскими хакерами и 36 342 создано государственными структурами.
В общей сложности "тусовка" открытого государственного кода составляет 4584 разработчика. Более всего их среди "гражданских хакеров", их 2148, а также много разработчиков в США - 1566 и в Великобритании - 255. Все вместе они создали кода и данных опубликованных на Github в объёме 852 гигабайт.

За последний год максимальная активность в разработке, количестве коммитов в Github, у разработчиков из Великобритании. За ними идут разработчики США, Франции, Канады и Норвегии.

Есть несколько способов измерить востребованность опубликованного кода. На мой взгляд наиболее точный способ - это подсчёт числа людей наблюдающих за кодом организации, для GitHub'а - это счётчик watchers и на его основе можно найти наиболее востребованные.

Топ 10 организаций по числу наблюдателей:
- National Security Agency - https://github.com/NationalSecurityAgency [США]
- NASA - https://github.com/nasa [США]
- KnightLab - https://github.com/nuknightlab [Гражданские хакеры]
- 18F - https://github.com/18f [США]
- GCHQ https://github.com/GCHQ [США]
- USWDS https://github.com/uswds [США]
- AlphaGov https://github.com/alphagov [Великобритания]
- WhiteHouse https://github.com/whitehouse [США]
- Open Knowledge Foundation https://github.com/okfn [Гражданские хакеры]

Накопленные материалы тянут на лонгрид на много страниц и много текста. Пока лишь базовые цифры и через какое-то время я опубликую датасеты, результаты подсчётов, топы стран и все списки включая первичные собранные данные.

Ссылки:
[1] https://code.ach.gov.ru/public
[2] https://government.github.com/community/

#opensource #opencode #opendata
Панель отслеживания коронавируса в Великобритании https://www.arcgis.com/apps/opsdashboard/index.html#/f94c3c90da5b4e9f9a0b19484dd4bb14 от государственного Public Health England
Public Health England открыли официальную панель для информирования о распространении коронавируса. Подробности можно узнать у них на сайте [1], а саму панель просмотреть здесь [2].

Также, все данные сразу отдаются в форматах CSV, с публикацией ежедневно обновляемых индикаторов [3].

Ссылки:
[1] https://www.gov.uk/government/publications/covid-19-track-coronavirus-cases
[2] https://www.arcgis.com/apps/opsdashboard/index.html#/f94c3c90da5b4e9f9a0b19484dd4bb14
[3] https://www.arcgis.com/home/item.html?id=bc8ee90225644ef7a6f4dd1b13ea1d67

#uk #government #coronavirus
Для тех кто с темой открытых данных столкнулся недавно, но хочет узнать и понять что это такое, рекомендую начать с книги Джошуа Тауберера Open Government Data [1]. Она вся в открытом доступе и объясняет что такое открытые данные и их роль в движениях за открытость государства в целом.

Ссылки:
[1] https://opengovdata.io/

#opendata #opengov
На работу требуются "сторож данных" и "управляющий складом данных" без вредных привычек (c)

Среди множества профессий вокруг работы с данными, таких как data scientists, data engineers или data analytics незаслуженно забывают или просто не вспоминают о как минимум двух ролях data steward (управляющий данными) и data custodian (сторож данных).

Это термины наиболее распространённые в зарубежной академической и архивной среде, например, в NC State University [1] или в университете Рочестера [2] и в некоторых странах, например, в Новой Зеландии [3] есть большая область деятельности "Управление данными", но в правильном переводе с русского на английском - это не "data management", а именно "data stewardship".

Кто такой data steward? Это роль в организации, ответственная за организацию сбора, создания и использования данных для максимальной точности данных, как содержания так и метаданных. Их задача в том чтобы работа с данными, правилами работы с ними соответствовали регуляторным и внутренним требованиям.
Часто эта роль совмещена с ролью data custodian (сторож данных) который, в свою очередь, отвечает за безопасность доступа к данным, их передачи, хранения и так далее. Часто эти роли совмещены или пересекаются.

Иногда, как по ссылке выше [1], выделяют роль data trustee (попечителя данных) и выстраивают иерархию из этих трёх ролей, где data trustee отвечает за стратегию, data steward за правила и принципы, а data custodian за конкретные данные и за их защиту, в том числе.

Термин data steward часто заменяют на data curator (куратор данных), очень близкий по смыслу и роли человека ответственного за сопровождения тех или иных баз данных и процессов их сбора.

Потребности в "управляющих данными" хорошо сформулированы в публикации "Wanted: data stewards" [4] вышедшей в начале марта. Где авторы пере-определяют этот термин и описывают его как "лидеры организаций и команд имеющие возможность создавать общую ценность используя повторно данные (и экспертизу в данных) организации".

Ссылки:
[1] https://oit.ncsu.edu/it-security/data-framework/data-categories-trustees-stewards-and-custodians/
[2] https://tech.rochester.edu/data-custodian-duties/
[3] https://www.data.govt.nz/manage-data/data-stewardship/a-draft-data-stewardship-framework-for-nz/
[4] https://www.thegovlab.org/static/files/publications/wanted-data-stewards.pdf

#opendata #data #datasteward #datacustodian
В США Electronic Frontier Foundation бьёт тревогу [1] из-за законопроекта EARN IT [2] в котором интернет провайдерам и платформам предполагается навязать и ежегодно обновлять "лучшие практики" по защите детей от сексуальной эксплуатации. Фактически - это такой антипедофильский законопроект, по усилению ограничений оборота видео и изображений.

Однако у него все те же проблемы что были с Законом Яровой в России и другими законами в США, и в мире, ограничивающими права и свободы неограниченного числа лиц. Вот и в этом случае предполагается что эти "лучшие практики" регулярно разрабатывает не сам конгресс, а утверждаются генеральным прокурором США и компании сертифицируются по этим "лучшим практикам". Это примерно как когда в России права на "немедленную блокировку" утверждаются не по судебной процедуре или законом, а на уровне прокуратуры/роскомнадзора и тд. Иначе говоря, это практика вывода оперативного регулирования интернет-сервисов из под судебной и законодательной власти, во власть правоохранительной системы. В данном случае, эта власть передаётся комиссии из 19 человек утверждающей эти "лучшие практики" и передающей Конгрессу США для утверждения или ветирования их.

В EFF однозначны, регулирование будет направлено на борьбу [3] со сквозным шифрованием, против которого высказывались уже неоднократно различные официальные лица включая, как раз, генерального прокурора США предполагаемого к вхождению в эту комиссию и именно прокуратура США с другими органами власти и разрабатывала бы эти лучшие практики и сертифицировала бы интернет платформы на их соблюдение.

Тут нельзя не напомнить что большинство крупнейших интернет платформ находятся в юрисдикции США и вводимые "лучшие практики" в защите детей, затронут не только жителей США, но почти всех интернет пользователей в мире.

Ссылки:
[1] https://act.eff.org/action/protect-our-speech-and-security-online-reject-the-graham-blumenthal-bill
[2] https://www.eff.org/document/earn-it-act-introduced
[3] https://www.eff.org/deeplinks/2020/03/graham-blumenthal-bill-attack-online-speech-and-security

#eff #laws #bills
Панель мониторинга, мобильная версия и все доступные сведения о коронавирусе на сайте здравоохранения Минздрава Италии
В специальном разделе Минздрава Италии [1] максимально оперативные и исчерпывающие сведения о коронавирусе. На раздел ведёт огромный баннер с главной страницы.
Подобные разделы есть на сайтах Правительств и Минздравов почти всех охваченных стран.

А что в России? Проверьте сами сайт Минздрава [2]

Ссылки:
[1] http://www.salute.gov.it/nuovocoronavirus
[2] https://www.rosminzdrav.ru/ru

#opengov #openness #minzdrav #coronavirus
Open Knowledge Foundation в этом году продолжает раздавать гранты до $5000 (370 тысяч рублей, по курсу $1=74Р) на создание инструментов для работы со стандартом Data Packages [1], это называется Frictionless Data tooling и в прошлом году они писали про успех предыдущего раунда такой микрогрантовой схемы [2]

Для профессиональных разработчиков работающих данными и умеющими писать хороший открытый код - это лёгкие деньги и работа на пользу общества. Лично я бы и сам поучаствовал, если бы не многочисленные обязательства и проекты которые сейчас веду.

Ссылки:
[1] https://blog.okfn.org/2020/03/02/announcing-the-2020-frictionless-data-tool-fund/
[2] https://blog.okfn.org/2019/07/04/meet-our-2019-frictionless-data-tool-fund-grantees/

#opendata #opengov #opensource
Уже больше года как Роспотребнадзор не публикует статистику инфекционных заболеваний в Российской Федерации [1].
Последняя публикация была в феврале 2019 года за 2018 год.

Ссылки:
[1] https://rospotrebnadzor.ru/activities/statistical-materials/

#opendata #russia
... Прозрачность и доверие к государству может и должно начинаться с правительства. Создание некоммерческих организаций и прямое их субсидирование — это вывод огромных бюджетных средств из-под общего регулирования. Если правительство не готово до сих пор к реформе системы государственного управления в целом и пользуется лайфхаками в виде создания НКО, то хотелось бы, чтобы этот инструмент работал по понятным правилам [1]

Вышла моя колонка в РБК о государственных НКО (в первую очередь АНО). Проблема гораздо глубже и шире чем удалось охватить в колонке, но надо же с чего-то начинать.

Я эту тему с 2012 года поднимаю, но, сдвинуть не получается. Наоборот в 2019 году всплеск регистрации государственных НКО. Они получают субсидии, контракты, гранты, не подпадают под законы о госслужбе, госзакупкам и, в принципе, непрозрачны за редким исключением.

Ссылки:
[1] https://www.rbc.ru/opinions/politics/13/03/2020/5e69e70a9a7947737fc79cf3

#opendata #opengov #ngo
Первый трансатлантический корабль ведомый искусственным интеллектом совершит своё путешествие в сентябре 2020 года [1]. Вместо капитана будет AI Captain на базе IBM Power AC922 с использованием IBM Power9 CPUs и NVIDIA V100 Tensor Core GPUs.

Корабль, тримаран, поплывёт без команды и будет способен действовать даже в сложных ситуациях. Подробнее в ролике о корабле на канале IBM News [2].

Честно говоря уже интересно узнать результат и прогноз того сколько моряков останутся без работы через 10-20 лет.

Ссылки:
[1] https://www.maritime-executive.com/article/sea-trials-begin-for-artificial-intelligence-captain
[2] https://www.youtube.com/watch?v=q7wBl3IPg08

#ai #ships
Сайт открытого правительства open.gov.ru, де-факто, перестал существовать. Теперь при его открытии выдаётся ошибка. Всем кому понадобятся материалы с их сайта и других ресурсов - все они у нас сохранены в Национальном цифровом архиве, скоро мы сделаем нормальный навигатор по ресурсам в архиве, пока же пишите если что-то понадобится
Много лет я пишу о том что в современном мире государства конкурируют не только и не столько между собой, сколько с другими институтами общества. Пример с коронавирусом и общественной паникой не первый и не последний. Не государства, а самые разные активисты, НКО, исследовательские центры создают сейчас мобильные приложения, онлайн сервисы и тд. для информирования граждан. Пример, приложение для iPhone вышедшее недавно [1], сделано небольшой ИТ компанией. А репозиторий с данными собираемыми в JHU CSSE уже давно доступен [2].

Если посмотреть на официальный канал оперативного штаба Москвы по коронавирусу [3], то он появился 2 марта, в то время как анонимные телеграм каналы начали "хайпожорить" на коронавирусе начиная со второй половины января.

В Российским Минздраве создали страничку про коронавирус 13 марта (вчера) [4] и поставили на главной странице его рядом с баннером нацпроектов. Однако данные по выявленным случаям не обновляли уже больше 27 часов (последнее обновление в 13 марта в 16:12), а также ни в коей мере не сделали информирование более наглядным.

Похожая страница есть на сайте российского Роспотребназдора [5], не синхронизованная со страницей на сайте Минздрава и не содержащая статсведений, они в других разделах сайта Роспотребнадзора.

В мире только проектов на открытом коде посвящённых коронавирусу несколько сотен [6]

Как должно быть организовано информирование граждан? Как государства(-о) должно заполнять информационный вакуум?

Ссылки:
[1] https://coronatracker.samabox.com/
[2] https://github.com/CSSEGISandData/COVID-19
[3] https://t.me/COVID2019_official
[4] https://www.rosminzdrav.ru/ministry/covid19
[5] https://rospotrebnadzor.ru/about/info/news_time/news_details.php?ELEMENT_ID=13566
[6] https://weileizeng.github.io/Open-Source-COVID-19/

#opengov #government #coronavirus
Тем временем у многие международных НКО занимающихся открытыми данными меняются и корректируются приоритеты. Например. Open Knowledge Foundation в этом году плавно подходит к теме ответственности искусственного интеллекта и алгоритмов. В посте в блоге OKF [1] приводятся основные направления: подотчётность, мониторинг и улучшение. Всё это с большим акцентом на просвещение.

В этом нет ничего удивительного, действительно эти темы, наряду с приватностью, становятся одними из ключевых в развитии "цифровой правозащиты".

Ссылки:
[1] https://blog.okfn.org/2020/03/13/open-knowledge-ai-and-algorithms/

#opendata #okf #ai #literacy
В Kaggle объявили конкурс для дата сайентистов по анализу статей по коронавирусу COVID-19 [1]. Для конкурса предоставили набор данных из 29 тысяч статей посвящённых коронавирусу из которых 13 тысяч статей с полным текстом [2]. Конкурс организован Белым домом в коалиции с ведущими исследовательскими центрами.

Вопросы на которые пытаются найти ответы в этом конкурсе (привожу их на английском языке):
What is known about transmission, incubation, and environmental stability?
What do we know about COVID-19 risk factors?
Sample task with sample submission
What do we know about virus genetics, origin, and evolution?
What do we know about vaccines and therapeutics?
What has been published about ethical and social science considerations?
What do we know about non-pharmaceutical interventions?
What do we know about diagnostics and surveillance?
What has been published about medical care?
What has been published about information sharing and inter-sectoral collaboration?

Ссылки:
[1] https://www.kaggle.com/allen-institute-for-ai/CORD-19-research-challenge
[2] https://pages.semanticscholar.org/coronavirus-research

#data #opendata #contest
В Коммерсанте вышла заметка "Очень нормативный русский" [1] про исследование Института государственного и муниципального управления НИУ ВШЭ [2] о сложности российских законов. Сам текст исследования найти не удалось, выводы в нём вполне очевидные, но подкрепленные сравнительными оценками о том что российские законы давно уже стали нечитаемыми/нечитабельными и, как следствие, создающими барьер к их пониманию не-юристами и особенно рядовыми гражданами.

Я напомню что это не первое подобное исследование. Денис Савельев из Европейского университета делал более масштабный анализ законодательства в 2018 году [3] где на ещё большей выборке законов показывал их усложнение.

Я писал об этом в декабре 2018 года [4], коллеги использовали наши наработки в оценки сложности языка [5]. В случае с НИУ ВШЭ интересен их "Индекс синтаксической сложности нормативно-правовых актов", новая методика оценки сложности текстов. Очень надеюсь что они опубликуют её и исходный код подсчёта сложности текстов на её основе.

К этим публикациям мне также есть что добавить. Помимо сложности текста проблема существует ещё и в общем числе принимаемых ежегодно законов и других НПА и в их объёме. Текст может быть простым, но огромным, законов в России принимается избыточно много и тексты их весьма раздуты. И это проще даже измерять чем сложность языка.

Я выложил как раз сегодня на data.world статистические цифры по результатам анализа "Федеральных законов", "Распоряжений Президента", "Указов Президента" на основе данных с kremlin.ru [6]. По ссылке можно увидеть их в виде наглядного графика с 1994 по 2019 годы [7] и там видно как всё менялось. Однако я заранее предупрежу что... не все указы, распоряжения Президента и федеральные законы публикуются на kremlin.ru. С 1994 года по 2019 там не были опубликованы 92 федеральных закона (они точно должны публиковаться) и многие указы и распоряжения. В основном потому что официальным сайтом для публикования является сайт publication.pravo.gov.ru, а всё что публикуется на сайтах Президента и Правительства никак не регламентировано.

Честно говоря за всей работой над проектами в Счетной палате не доходят руки до полномасштабного исследования, так что могу только по хорошему порадоваться за коллег проделавших такую интересную работу.

Ссылки:
[1] https://www.kommersant.ru/doc/4291932
[2] https://ipag.hse.ru/
[3] https://enforce.spb.ru/images/analit_zapiski/memo_readability_2018_web.pdf
[4] https://t.me/begtin/1218
[5] http://plainrussian.ru
[6] https://data.world/infoculture/lawstats/
[7] https://data.world/infoculture/lawstats/workspace/insight?insightid=97c6e0df-8cbe-4c91-a9f5-0005e12028bd

#laws #data