Ivan Begtin
9.09K subscribers
2.48K photos
4 videos
113 files
5.23K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

CTO&Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
В рубрике полезных наборов данных, набор данных для анализа простоты официального государственного языка созданный по результатам сбора новостей с официального сайта Правительства РФ [1]. В наборе 9823 текста новости, 558582 предложений за 9 лет (начиная с 2012 года), а по каждому тексту и по каждому предложению набор метрик измерения сложности текста. Для текстов есть расчёт показателей простоты текста, перечни сложных слов и лемм, частотности слов по числу слогов и так далее. Набор можно использовать для формирования словарей официальной лексики, анализа изменения официального языка с течением времени, измерения средней сложности официального языка и многого другого.

Например, 90.8% всех новостей на сайте правительства попадают в диапазон сложности текста от 10 до 24. Где цифра означает число необходимых лет обучения для понимания текста. 10 - это десять классов школы, а 24 - это аспирантура, второе высшее, иное узкоспециализированное знание.

А в целом сложность менее 18 (полное высшее образование) есть у 65% всех опубликованных текстов новостей.

И есть небольшое число текстов состоящих исключительно из длинных перечислений и сложность их текстов резко выше чем всех остальных.

В распакованном виде это 345 мегабайт, относительно небольшой объём. Для тех кто хочет поработать вначале с метриками, есть укороченные версии наборов данных, без текстов, но с метриками по каждому тексту и ссылке саму публикацию на официальном сайте Пр-ва.

Все метрики подсчитаны доработанной версией алгоритма с проекта Простой русский язык [2] и с помощью лемматизатора spacy добавлены уточнено определение предложений и также собираются не только комплексные слова, но и их леммы.

Ссылки:
[1] https://ngodata.ru/dataset/plainlang-gov-news
[2] http://plainrussian.ru

#opendata #plainlanguage #datasets
У ОЭСР вышел документ "Good Practice Principles for Data Ethics in the Public Sector" [1] о лучших практиках этического управления данными в госсекторе.

Там много разного полезного правильного разумного что стоит почитать нашим работникам госслужбы, я же сделаю акцент на рекомендации "Publish open data and open source", а там 4 рекомендации.
Привожу их на русском:
- Развивайте честные экосистемы данных через политики открытости государственных данных;
- Публикуйте дезагрегированные и гранулярные данные в соответствии с применимыми требованиями приватности, безопасности и владения
- Связываетй инициативы открытых данных в госсекторе с другими инициативами работы с данными;
- Открывайте исходный код для общественного анализа и аудита, особенно когда идёт работа с персональными и чувствительными данными

Впрочем, и по остальным блокам там достаточно чётко изложено и документ полезный.

Ссылки:
[1] https://www.oecd.org/gov/digital-government/good-practice-principles-for-data-ethics-in-the-public-sector.pdf


#opendata #privacy #oecd
Сегодня в 11:30 выступаю на конференции Adminka организуемой Теплицой социальных технологий[1], буду говорить об открытости исходного кода в мире и в России, в контексте того чем я занимаюсь, проектами про открытые данные и данные вообще.

Ссылки:
[1] https://te-st.ru/events/adminka/

#opendata #opensource #events
Моя презентация про открытый код в других странах [1] с сегодняшней конференции Админка.
В том числе про измерение открытости кода государств которое я делаю много лет, последний раз замерял в марте 2020 года [2]

Ссылки:
[1] https://www.beautiful.ai/player/-MWrutiZyI_MI-DNzzVF
[2] https://data.world/ibegtin/open-source-government-project/

#opensource #opendata #opengov
Вот уже давно я на разных площадках говорю о том что в России до сих пор нет Национальной стратегии данных. Это действительно так, НСУД такой стратегией не стал и теперь является лишь одной и государственных информационных систем, а других регуляторных инициатив даже не возникало.

Тем временем в мире всё больше инициатив на уровне отдельных органов власти по формированию их стратегий работы с данными. Обратите внимание, _не цифровых стратегий_ и _не стратегий цифровой трансформации_, а стратегий работы с данными (data strategy).

Вот несколько примеров:
- Департамент обороны США. DoD data strategy [1] короткий документ в 16 страниц опубликован в октябре 2020 года. Включает основные принципы работы с данными
- Департамент образования США. U.S. Department of Education Data Strategy [2]. 23 страницы основных принципов и целей.
- Департамент труда и малого бизнеса Австралии. Department of Jobs and Small Business Data Strategy [3] опубликовали стратегию ещё в апреле 2019 года
- Департамент здравоохранения Канады. Health Canada Data Strategy [4], относительно подробный документ учитывающий ещё и общий контекст работы с данными в Канаде.

Таких документов ещё несколько десятков в мире, я привожу в пример лишь англоязычные для простоты чтения. Можно назвать это одним из трендов последних нескольких лет в формировании национальных и ведомственных стратегий.

При этом:
1. Все эти стратегии - это очень короткие документы, максимум до 50 страниц.
2. Фокус в стратегиях на целях, принципах и инструментах.
3. Всегда с акцентом на отраслевую/ведомственную специфику.
4. Включают блок посвящённый открытости и прозрачности и реализации плана по открытию данных, который теперь строится от стратегии работы с данными.

В России, напомню, есть реестр документов стратегического планирования, но среди этих документов нет ничего про данные [4] (и осторожно, сертификат у ГАС Управление, gasu.gov.ru, протух)

Ссылки:
[1] https://media.defense.gov/2020/Oct/08/2002514180/-1/-1/0/DOD-DATA-STRATEGY.PDF
[2] https://www.ed.gov/sites/default/files/cdo/ed-data-strategy.pdf
[3] https://www.dese.gov.au/download/6959/2019-2021-data-strategy/18003/document/pdf
[4] https://gasu.gov.ru/stratdocuments

#strategies #government #data
Алексей Лукацкий проверил регуляторные документы по инфобезу через наш сервис Простой язык [1] и отметил наиболее сложную нормативку. А я со своей стороны расскажу что когда-то простой русский язык я сделал после того как потратил несколько месяцев на то чтобы адаптировать формулы английского языка под русский. Это было непросто и делал я это, Вы не поверите, брут-форсным перебором нескольких миллионов комбинаций коэффициентов.

Потому что самое главное в этих формулах - это привязка значений к годам обучения. Если формула выдаёт 10 - это означает что 10 лет надо учиться чтобы понять этот текст (примерно 9-11 классы школы), а сложность в 18 означает что учиться надо 18 лет (а то есть 11 классов школы + 5 лет ВУЗа + ещё чему-то, например, в аспирантуре) ну и так далее.

Дело в том что формулы читабельности основаны на нескольких параметрах сложности текста таких как:
- среднее число слов на предложение
- среднее число слогов в словах
- среднее число слогов на предложение
- число сложных слов на предложение
и так далее.

Есть корреляция между сложностью текста и этими и другими параметрами, но как эту корреляцию переложить в формулу? И вот для этого я собирал кучу текстов для внеклассного чтения где были рекомендации для возраста и адаптировал формулы под поиск наименьшего среднего отклонения и наименьшего максимального отклонения. Иначе говоря, если если коэффициенты у формулы должны давать результат при котором максимально допустимое отклонение в оценки сложности текста не более 2, то есть если текст для внеклассного чтения для 9-го класса то алгоритм не может ошибаться в его отношении в пределах 9-11, но не более. А среднее отклонение по всей обучающей выборке должно быть как можно ниже.

Дальше чтобы не вдаваться в сложную математику я просто перебрал все коэффициенты с шагом в 0.01 для всех формул и это заняло около месяца на нескольких домашних компьютерах.
Самой точной оказывалась формула SMOG (Simple Measure of Gobbledygook) с адаптированными коэффициентами поэтому она и является базовой в оценке plainrussian.ru.

Всё это было более 7 лет назад, сам код можно увидеть по ссылке на Github [2]. Сейчас его надо переработать чтобы лучше учитывать определение предложений, лучше понимать бюрократические тексты (нужна отдельная шкала) и ещё многое другое до чего постепенно "доходят руки".

Ссылки:
[1] https://plainrussian.ru
[2] https://github.com/infoculture/plainrussian

#plainlanguage #plainrussian
Математическая оценка качества и читабельности нормативно-правовых актов регуляторов - https://t.co/KI0QJtAQAJ
— Alexey Lukatsky (@alukatsky) March 29, 2021
Я, кстати, регулярно рассказываю что веду пока что наиболее полный реестр госдоменов, включая поддомены в России, он в специальном открытом репозитории доступен в виде дампов [1], а сам домен в базе в Airtable и там собираются и связываются:
- домены - всего 7602
- корневые домены - всего 191
- организации - всего 110
- информационные системы - всего 47
- субъекты федерации - все что имеются
- подсети (ASN) - 161 (включая все подсети хостингов, господрядчиков и тд)

При этом пока совершенно не охвачены власти субъектов федерации, бюджетные учреждения всех уровней да и на федеральном уровне далеко не всё, просто не с чем сравнивать, нет эталонной государственной базы.

Все размеченные и обогащённые доп. данными, например, по подсетям дополнительные сведения по стране и типу владельца, а по каждому домену тип домена, статус, уровень власти, поддержка http, https и ещё многое другое.

Так что на выходе это большая такая база которую я начинал вести только в целях мониторинга доменов для архивации, а сейчас она много для чего ещё годится.

Её можно оставить как есть, можно добавить к ней API, а можно сделать над этой базой веб интерфейс и дать возможность просматривать внесённые туда объекты. Сделать это можно двумя условными способами.
Способ 1: Сделать веб надстройку с поиском и просмотром над базой. Продолжать редактировать в Airtable
Способ 2: Сделать вики и в ней роботом создать веб страницы для каждого домена, каждой подсети и других объектов. А дальше переходить в Вики для редактирования и вести базу как базу знаний, в том числе другие могут пополнять эту базу знаний.

Ссылки:
[1] https://github.com/infoculture/govdomains/

#opendata #opengov #it #domains
Нужен ли веб интерфейс над базой государственных доменов?
anonymous poll

Да, нужен в виде поиска и просмотра сведений по объекту – 49
👍👍👍👍👍👍👍 60%

Нет, не нужен, лучше бы было API – 11
👍👍 13%

Да, нужен в виде вики которую можно было бы редактировать/пополнять – 10
👍 12%

Я просто хочу посмотреть результаты опроса – 7
👍 9%

Нет, не нужен, самое главное чтобы база была максимально полная – 5
👍 6%

👥 82 people voted so far.
Пока все обсуждают случайное открытие кода у подрядчика ФНС, я не могу не напомнить что в России есть ещё один ФОИВ который, уже видимо добровольно, публикует исходный код в Gitlab.

По адресу gitlab.rpn.gov.ru/explore [1] общедоступные репозитории Росприроднадзора, почему про про эскорт службу в Мумбаи. Вернее понятно почему, потому что админы оставили возможность регистрации пользователей ну вот спамеры и проснулись.

Даже не знаю что сказать. Молодцы ребята!

Ссылки:
[1] https://gitlab.rpn.gov.ru/explore

#oss #gitlab #rpn
То о чём говорили свершилось (с) итак, встречайте, неудаляемое отечественное преустановленное ПО на телефонах Самсунг
Почему необходимо архивировать государственные сайты? Потому что они исчезают. Например, архив ВАК существует за 2014-2019 годы [1]. А вот архив ВАК за 2004-2013 годы ранее располагался по адресу vak1.ed.gov.ru и уже недоступен [2] и неизвестно можно ли получить доступ к этим данным если сделать запрос в Минобрнауки РФ. И, конечно, нет какого-то централизованного официального архива выведенных из эксплуатации госсайтов и сайтов связанной с деятельностью госорганов и их подведов.

К счастью, конкретно этот сайт и ещё ряд сайтов из старой системы ВАКа были полностью нами заархивированы в 2017 году [3], но лежат они в виде WARC файлов в десятки гигабайт. Для поиска по этим материалам надо делать интерфейс на который в нашем цифровом архиве ruarxive.org [3] никогда не было достаточных ресурсов. И, по хорошему, вопрос долгосрочной доступности госданных должен быть государственной темой, а не общественной деятельностью.

А пока если Вам нужны архивные материалы ВАК с vak1.ed.gov.ru, то Вы знаете где их найти.

Ссылки:
[1] http://arhvak.minobrnauki.gov.ru/
[2] http://vak1.ed.gov.ru/
[3] https://hubofdata.ru/dataset?q=vak
[4] http://ruarxive.org

#archives #web #webarchive
CitizenLab, бельгийский стартап и разработчики платформы по вовлечению граждан, решили перевести её полностью в открытый код [1]. Код ядра платформы они выложили в открытый доступ [2]. Они публикуют код по модели open core [3], это когда код изначально ориентирован на монетизацию и, например, код платформы CitizenLab существует под двумя лицензиями - GNU Affero и CitizenLab Commercial License v1. Это не то чтобы признаётся сообществом и вообще такие лицензии часто отталкивают потенциальных контрибьюторов, но для аудита безопасности кода это само по себе неплохо.

Почему CitizenLab это делают? За кадром их доброй воли существование других полностью open source продуктов для электронного соучастия граждан. Например, Consul [4], доступно под лицензией GNU Affero [5], внедрено в 35 странах и 135 организациях с охватом в 90 миллионов человек. В первую очередь используется для Participatory budgeting (Партисипаторного бюджетирования), но не только. Много применений и для других задач оцифровизации демократии (голосования, сонаписания законов и так далее).

А я напомню что таких платформ в мире немало:
- Cap collectif [6] (Франция, закрытый код)
- Delib Citizen Space [7] (Великобритания, закрытый код)
- Decidim [8] (открытый код, GNU Affero License, наиболее активная альтернатива Consul)

и ещё около 20 других, с открытым кодом и коммерческих. Уже много лет большой бум их внедрения идёт в Испании и Франции, а далее в Латинскую Америку.

Ссылки:
[1] https://www.citizenlab.co/blog/civic-engagement/heres-why-we-are-going-open-source/
[2] https://github.com/CitizenLabDotCo/citizenlab
[3] https://en.wikipedia.org/wiki/Open-core_model
[4] https://consulproject.org/
[5] https://github.com/consul/consul/
[6] https://cap-collectif.com/
[7] https://www.delib.net/
[8] https://decidim.org/

#opensource #opendialog
Да, я давно хочу написать по поводу переноса госдоменов ФОИВов в зону .gov.ru. Цель, конечно, благая, локализовать домены органов власти и госучреждений в этой зоне правильно, но... Всегда есть но, и мне есть что сказать:
1. Перенесли не все ФОИВы. Пример, МВД, на сайте правительства указан mvd.gov.ru, а по факту мвд.рф [1]
2. Инфраструктура почты у большинства госорганов осталась на старых доменах
3. Большая часть информационных систем осталась на старых доменах (не у всех, но у многих). Пример, Росархив [2]
4. Огромное число госпроектов, госучреждений и тд. находятся в других доменах. Пример, системы Росприроднадзора [3]

И так ещё много всего, у меня в реестре госдоменов 192 корневых доменов и больше всего их в зонах msudrf.ru и sudrf.ru в ведении судебного департамента, там есть по сайту на каждый суд.

А пользуясь случаем не могу не напомнить что корневой сервер www.gov.ru [4] - это какой-то бесконечный позор: неполный, неактуальный, бессмысленный и с дизайном из середины 90-х годов

Ссылки:
[1] https://мвд.рф/
[2] http://statistika.archives.ru
[3] https://www.google.com/search?hl=ru&q=site%3A*.fsrpn.ru
[4] http://www.gov.ru/

#government #domains
Пример открытых данных, открытости науки и гражданской науки - это проект SatNOGS [1], сеть гражданских наземных станций мониторинга за движением спутников. Придумано изначально группой энтузиастов в Греции их Афинского hackerspace [2], командой которая позже создала Libre Space Foundation [3], фонда энтузиастов свободного космоса, участники которого успели создать множество устройств включая полностью открытый спутник Upsat [4] созданный по модели open hardware.

Так вот в SatNOGS сейчас 1500 станций (410 из них действуют прямо сейчас) [5] и собрано уже более 1 миллиона датафреймов записей наблюдений [6].

А этот проект и сотни других возникли в рамках NASA Space Apps Challenge [7], глобального всемирного ежегодного конкурса NASA. Из России там ежегодно участвует только Ивановский государственный химико-технологический университет [8].

На мой взгляд такие проекты как SatNOGS - это и есть пример проекта из хорошо состоявшегося конкурса. То чего очень нехватает практически во всех российских конкурсах и хакатонах.

Ссылки:
[1] https://satnogs.org
[2] https://www.hackerspace.gr/
[3] https://libre.space/
[4] https://upsat.gr/
[5] https://network.satnogs.org/stations/
[6] https://db.satnogs.org/stats
[7] https://www.spaceappschallenge.org/
[8] https://2019.spaceappschallenge.org/locations/ivanovo-ivanovskaya-obl

#opendata #openscience #citizenscience #space
Я тут много рассказываю про мониторинг госсайтов в России и репозиторий с их списком который я веду. Тем временем о том как это сделано в других странах на примере США.

В США есть репозиторий команды 18F под названием site-scanning [1] где собран код с помощью которого государственные сайты еженедельно проверяются по множеству критериев и о них собирается очень много всякой информации, от метаданных о ссылках на другие ресурсы, до проверки того какие версии TLS/SSL поддерживаются. Собранные данные доступны через API и для выгрузки [2]. Реестр всех госдоменов доступен на портале search.gov [3] и он же используется для поиска по всем госсайтам. Там даже логика похожая той же что я придерживаюсь - отдельно система редактрования реестра и отдельно списки сайтов в CSV формате.

Среди множества задач для которых такие реестры доменов нужны я выделю только несколько:
- определение что автор письма является госслужащий по домену и тем самым давать или не давать возможность регистрации в той или иной системе
- поиск по сайтам, например, с помощью Google Custom Search Engine или его аналогами
- архивация сайтов национальными архивами
- проверки безопасности и мониторинг обязательности применения HTTPS
- выявление зависимостей от третьих сторон (внешних компонентов)
и ещё много другого.

Ссылки:
[1] https://github.com/18F/site-scanning
[2] https://open.gsa.gov/api/site-scanning-api/#overview
[3] https://search.gov/developer/govt-urls.html

#opendata #api #domains #usa
Этот выпуск рассылки [5] я решил целиком и полностью посвятить совсем нешуточному регулированию о предустановке отечественного ПО, оно вступило в силу с 1-го апреля и уже начались публикации о том что производители предустанавливают приложения как неудаляемые (пример - Samsung) [1].

Если говорить про устройства на базе iPhone и Android, то список включает 16 приложений [2] и вот по ним всем мы и пройдёмся и разберемся что с ними так или не так. А нашим помощником будет база данных Exodus Privacy [3] с результатами выявления внешних трекеров в этих приложениях.

Краткие выводы
- Все коммерческие приложения обязательные к предустановке содержат трекеры используемые в рынке AdTech и передают сведения о действиях пользователей компаниям в других юрисдикциях.
- Приложения передают сведения компания в юрисдикциях таких стран как: США, Германия, Индия, Израиль, Норвегия, Китай
- Компании которым передаются сведения из приложения обязательных к предустановке включают: Google, Yahoo, Microsoft, Huawei, BitStadium, Facebook, InMobi, AppsFlyer, Schibsted, Upland, AOL, Unity, MixPanel, Adjust.
- Регулятором в лице Минцифры и законодателями в лице Правительства РФ (инициатор закона) и ГД РФ (федеральный законодательный орган) не установлены требования по передаче персональных данных и отслеживания третьим сторонам и в другие юрисдикции.
- В связи с тем что регулятор и законодатель обязали предустановку этих приложений на российские устройства и их установка не является добровольной, де-факто, они взяли на себя ответственность за передачу персональных данных граждан третьим лицам в юрисдикции других стран.

Я напомню наше предыдущее исследование [4] по приватности государственных мобильных приложений, там есть пояснения о том что такое внешние трекеры и как всё это устроено.

Подробности по каждому приложению в сегодняшней утренней рассылке [5].

P.S. Я долго думал не использовать ли какой-нибудь "жареный заголовок" типа "Минцифры обязало сливать данные россиян в Китай, США и Индию" или "Помощь отечественным производителям или зарубежным разведкам?" или "Отечественные приложения - это иностранные шпионы?" и ещё много такого.

А вместо этого, обратите внимание, пишу вот такой сдержанный, конструктивный, не циничный, а где-то даже полезный текст с обозначением недостаточного и незавершённого регулирования рынка AdTech со стороны российских законодателей и регуляторов которое и приводит к текущей, весьма плачевной ситуации.

Ссылки:
[1] https://www.rbc.ru/technology_and_media/31/03/2021/6064ae8c9a7947252d3e69d3
[2] https://habr.com/ru/news/t/536308/
[3] https://reports.exodus-privacy.eu.org/en/
[4] https://privacygosmobapps.infoculture.ru/
[5] https://begtin.substack.com/p/15

#privacy #government #apps #mobile
Для тех кто интересуется как идёт работа с открытыми данными в мире, в Евросоюзе проходит их ежегодный EU Datathon [1], марафон проектов на открытых данных, повторяющийся каждый год с 2017 года. Общий призовой фонд 99 тысяч евро (8.8 миллиона рублей) по трём номинациям, максимальный приз за первое место 18 тысяч евро (1.6 миллиона рублей).

Что характерно - это правильные акценты, в EU Datathon четко артикулируется что это ежегодное соревнование по открытым данным (annual open data competition), а не просто какой-то другой конкурс или хакатон. И то что главный смысл в использовании открытых данных Евросоюза, для новых приложений или для доработки существующих.

Но, самое интересное, это возможность участвовать в их Datathon'е из других стран, в правилах прописано что The competition is open worldwide to anyone, так что ничто не ограничивает ни физ. лиц ни юр. лиц из стран за пределами Евросоюза. До 21 мая можно подать заявки и войти в короткий список который будет анонсирован 11июня.

Тут, конечно, надо оговориться что не всё так замечательно, важно учитывать два фактора:
1. К российским проектам за пределами России сейчас очень предубеждённое отношение и нельзя быть уверенными что эта предубежденность тут не сработает.
2. Европейская бюрократия - ничуть не лучше всех остальных. Ну разьве что, в отличие от российской, куда меньше пиара, зато куда точнее и эффективнее целеполагание.
3. Конечно, надо учитывать всё это российское регулирование про инагентов, поэтому от российских НКО участвовать, конечно, странно.

С другой стороны - конкурсы на весь мир - это всегда возможность показать себя за пределами национальных границ и тусовок.

А заканчивается это соревнование EU Open Data Days [2], двумя данными конференции EU Data Viz, куда также можно направить заявку на выступление и EU представлением проектов финалистов.

P.S. Кстати, должен сказать что за время проведение конкурсов и хакатонов в России у нас было немало проектов которые значительно превосходили по проработке те же проекты-победители EU Datathon за прошлые годы, разница в том что в Евросоюзе куда больше соучастников/соорганизаторов таких мероприятий и у проектов/команд куда больше возможностей для последующего развития проектов, а почти все конкурсы и хакатоны в России что я знаю заканчивались, увы, тем что проекты "повисали в воздухе". И это системная проблема, о которой отдельный разговор необходим.

Ссылки:
[1] https://op.europa.eu/en/web/eudatathon
[2] https://op.europa.eu/en/web/euopendatadays

#opendata #eu #datathon #competition