Ivan Begtin
8.03K subscribers
1.75K photos
3 videos
101 files
4.45K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
В "кавычках" прекрасная новость, в законопроект об обеспечении устойчивого развития экономики и предотвращении последствий короновируса [1] во втором чтении впихнули поправку, которая обязывает удостоверяющие центры бесплатно перевыпустить на 3 месяца все сертификаты, которые кончаются до 1 августа.

Фактически это убивает все коммерческие удостоверяющие центры, потому что все сейчас живут на старых клиентах - новым особо неоткуда браться, а теперь выручка от старых отложится на 4-5 месяцев.

Всех спасают за счёт кого-то. Граждан за счёт бизнеса, бизнес чуть-чуть за счёт УЦ. Раз пошла такая пьянка, то может быть бизнес спасать за счёт банков? Отменить ставки по существующим кредитам, например.

Чувствую что в ближайшие дни много придётся писать и говорить про масштаб проблем с нормативными документами и не только.

Ссылки:
[1] https://sozd.duma.gov.ru/bill/953580-7
#policy #laws #government
То что мы наблюдаем сейчас с государственными мобильными приложениями вроде "Стопкоронавирус" или "Социальный мониторинг" - это, очень запоздалый, с задержкой более чем в 5 лет, но неизбежный приход государства в экосистему смартфонов. Также как когда-то с большим запозданием, крайне неумело и до сих пор не осознав до конца, государство приходило Интернет, так и сейчас мобильная экосистема переживает последствия осознания государством его осознания. Под "государством" здесь можно принимать разное, от метафизического Государства с большой буквы как ментальную модель в головах политической элиты, до руководства институционализированных и фактических структур власти.
...

Текст получился слишком большой чтобы целиком публиковать его в телеграм, полный текст у меня в блоге https://begtin.tech/govmobile/

#government #mobile #policy
Классика не стареет, я несколько таких комитетов и рабочих групп знаю и даже приходится в них участвовать.
Рубрика «Циничная мерфология»
С.Н.Паркинсон о жизненном цикле комитетов.
Жизненный цикл комитета состоит из нескольких стадий:
1. Идеальное число членов — пять человек. При таком численном составе комитет непременно приживётся. Два его члена смогут всегда отсутствовать по болезни или по иной причине. Пятерых легко собрать, а собравшись, они способны действовать быстро, умело и тихо. Четверым из них можно поручить финансы, иностранные дела, оборону и правосудие. Пятый, не сведущий в этих предметах, станет председателем или премьером.
2. Как ни удобно число пять, нередко в комитет входит семь, а то и девять человек. Так бывает почти везде и объясняется это тем, что областей управления не четыре, а больше. На самом деле есть и другая причина. В комитете из девяти человек трое вершат политику, двое поставляют сведения, один напоминает о финансах. Со свободным от дела председателем получается семь человек. Остальные двое, по-видимому, нужны для красоты. Мы практически ничего не знаем о назначении двух молчаливых членов, но у нас есть основания полагать, что на этой, второй, стадии комитет без них работать не может.
3. На третьей стадии в комитеты входят новые члены, иногда они вроде бы знают ещё что-то нужное, но чаще просто очень вредят, если их в комитет не ввести. Чтобы их утихомирить, приходится непрестанно с ними советоваться. По мере их включения число членов ползёт от десяти к двадцати. На этой третьей стадии дела идут много хуже.
o Прежде всего, очень трудно собрать столько народу.
o Лишь немногие из членов отбирались с расчётом на то, что они будут или могут приносить пользу. Большую часть скорее ввели, чтобы угодить какой-нибудь внешней группировке, и задача их — сообщать своим, как идут дела. С секретностью покончено.
o Чем крепче утверждаются ненужные члены, тем громче требуют обойдённые группы, чтобы ввели их представителей. Число членов переползает в третий десяток. И комитет вступает в четвёртую, последнюю стадию.
4. Четвёртая стадия. Когда в комитете от 20 до 22 членов, он внезапно претерпевает особое химическое или органическое превращение, природу которого нетрудно понять и описать. Пять полезных членов встречаются отдельно и что-то решают. Комитету практически делать нечего, тем самым в него можно ввести сколько угодно народу. Лишним членам не понадобится лишнее время, ибо все заседания теперь — пустая трата времени. Внешние группы довольны, их ставленников принимают всех беспрепятственно, и не скоро поймут они, что победа их призрачна. Двери открыты, число членов приближается к 40, растёт дальше. Может оно дорасти и до тысячи. Это уже не важно. Комитет больше не комитет, и прежние его функции выполняет другое, малое сообщество.
Новость ближе к хорошей - ДИТ Москвы в лице Эдуарда Лысенко начал диалог с гражданами, на хабре анонс [1] что завтра на YouTube в 17:30 [2] он будет отвечать на вопросы.

Вопросы можно направлять в ДИТ по адресу answer@it.mos.ru или комментариями на Хабре.

Я могу много ругать ДИТ Москвы, но поговорить - это всегда правильно и лучше поздно чем никогда. Поэтому не стесняйтесь, направьте Ваши вопросы и я тоже свои напишу.

А также напоминаю про нашу серию вебинаров по приватности. Ближайший 3-го июня в 15:00 по Москве [3]. На следующие вебинары мы будем звать, в том числе, и коллег из ДИТа Москвы, общественных и коммерческих компаний и экспертов в этой теме.

Ссылки:
[1] https://habr.com/ru/company/dit/blog/504482/
[2] https://youtu.be/kXd40iEUFrY
[3] https://www.facebook.com/events/634421640480973/?notif_t=event_aggregate&notif_id=1590985039690850

#privacy #data
Команда из 30 исследователей в OpenAI опубликовали статью о GPT-3 [1] языковой модели позволяющий решать не только задачи перевода, но и создания статей и отвечать на вопросы уровня экзамена SAT (это сложные вопросы).

В этой модели используется 175 миллиардов параметров, для сравнения в GPT-2 было 1.5 миллиардов параметров [2], а в наиболее сопоставимой модели от Microsoft всего 17 миллиардов параметров [3]

Что немаловажно, GPT-3 обучено на базе CommonCrawl, Википедии и других открытых данных с текстами, в общей сложности в триллион слов [4].

OpenAI создаёт не только возможности, но и масштабные страхи. После выпуска предыдущей модели GPT-2 были опасения что с помощью этой технологии можно завалить интернет фэйками которые бы звучали логично и разумно, а на практике создавалась бы ботами в бесконечном количестве [5].

Ссылки:
[1] https://arxiv.org/abs/2005.14165
[2] https://venturebeat.com/2019/08/20/openai-releases-curtailed-version-of-gpt-2-language-model/
[3] https://venturebeat.com/2020/05/19/microsofts-zero-2-with-deepspeed-trains-neural-networks-with-up-to-170-billion-parameters/
[4] https://venturebeat.com/2020/05/29/openai-debuts-gigantic-gpt-3-language-model-with-175-billion-parameters/
[5] https://www.theverge.com/2019/2/14/18224704/ai-machine-learning-language-models-read-write-openai-gpt2

#data #opendata #ai
18-21 октября 2020 года в Швейцарии пройдет виртуальный форум ООН про данные (UN Data Forum) [1]. Основные темы - данные и статистика, много выступление будет про госполитику в области данных, партнерства и многое другое. От России там никого нет, но будет интересно и послушать других участников, таких форумы хорошая возможность узнать о примерах других стран которые ранее не переводились на английский язык.

А тем временем организаторы опрашивают до 15 июня потенциальных участников о том как виртуальный форум лучше организовать [2].

Ссылки:
[1] https://unstats.un.org/unsd/undataforum/index.html
[2] https://efm.dfs.un.org/EFM/se/6C6639C01C303C60

#opendata #data #un
В ТАСС вышло интервью Сергея Собянина где, в том числе, о том что данные пропусков и социального мониторинга будут удалены [1].
Напрашиваются только два вопроса:
1. Почему с таким значительным запозданием? Можно было это сказать/пообещать с самого начала
2. Когда будет принят нормативно-правовой документ регламентирующий процедуру уничтожения данных и вывода систем из эксплуатации которые данные собирают?

Я ещё раз хочу сделать акцент что обещания политиков не закреплённые в нормативно-правовой базе имеют очень небольшие шансы на то что они будут исполнены.

P.S. Я в будущем постараюсь писать по этой теме поменьше, чтобы было больше писать про другие темы. Честно говоря про "качество" работы московских властей писать можно бесконечно, потому что я есть явные провалы и коммуникационные, и технические и этические. А самое главное глубокое непонимание что перенимать корейские или китайские инструменты воздействия на общество в России некорректно из-за значительно меньшего доверия граждан к государству чем в этих странах.

Ссылки:
[1] https://tass.ru/interviews/8641165

#covid19 #privacy #moscow
Slack, сервис корпоративных сообщений вступил в долгосрочное партнерство с Amazon [1] и будет улучшать свои возможности голосовой и видеосвязи с помощью Amazon Chime [2]. В первую очередь это связано с конкуренцией с Microsoft Teams.

На фоне этого всего у меня самый назревший вопрос - это почему Павел Дуров в Telegram до сих пор был занято исключительно массово потребительским продуктом. При наличии партнёрства или приобретения технологий на базе Telegram получился бы почти идеальный корпоративный мессенжер, механизмы его интеграции лишь немного уступают Slack'у (а может и превосходят) и это то за что компании реально были бы готовы платить.

При наличии у телеграма нормальной структуры управления, публичного юр. лица и так далее, конечно же.

Ссылки:
[1] https://www.theverge.com/2020/6/4/21280829/slack-amazon-aws-partnership-amazon-chime-voice-video-calls
[2] https://aws.amazon.com/ru/chime/

#messengers #slack #amazon #telegram
У меня на руках есть предварительные результаты анализа списка СОНКО который Минэкономразвития опубликовал 5 июня [1]

Это важный и нужный реестр, например, нам для проекта Открытые НКО [2] или для анализа госзакупок и субсидий для СОНКО в таких проектах как Госрасходы [3]

Если коротко, всё плохо, ошибки в наименованиях организаций, реквизитах, коды ИНН и ОГРН не проходят валидацию, числу ошибок даже хуже чем в реестром системообразующих предприятий поскольку сейчас ошибок много больше.

Я пока результаты анализа публиковать не буду, вдруг в Минэкономразвития захотят сами его проверить и исправить, до среды скажем.

В принципе, я вижу в этом даже пользу, мне нужны живые примеры по качеству данных, я на основе них сделаю учебный материал того как не надо делать;)

Ссылки:

[1] http://nko.economy.gov.ru/Public/NewsPage/Details.html
[2] http://openngo.ru
[3] http://clearspending.ru

#data #opendata #dataquality
В качестве обзора проектов основанных или основывающих среду работы с данными, система NARCIS (Нарцис/Наркис) в Нидерландах [1] существует с 2004 года и объединяет данные практически всех исследовательских центров страны.

Система изначально создавалась как система доступа к научным публикациям, сейчас является системой доступа к данным по результатам исследований.

Основная задача NARCIS - в предоставления доступа к исследованиям, данным по их результатам.

В экосистеме данных в Нидерландах, она обеспечивает возможности поиска и доступа, а вся экосистема состоит из 3-х основных сервисов:
- DataverseNL - публикация данных исследований
- EASY - сервис архивации исследований по их итогам
- NARCIS - поиск и доступ к данным в разрозненных репозиториях

В системе сейчас:
- 2 925 организаций
- 66 173 исследователей
- 71 750 научных исследований
- 266 947 наборов данных
- 2 097 121 публикаций

Проект является продуктом DANS (data archival and networked services) [2], они же создавали около 20 проектов по публикации научных данных в Евросоюзе [3].

Ссылки:
[1] https://www.narcis.nl/?Language=en
[2] https://dans.knaw.nl/en
[3] https://dans.knaw.nl/en/projects

#data #science #opendata
Государственная система или реестр без контроля качества данных - это помойка замедленного действия (с)

В который раз слушая сегодня о том как государство выделяет средства на очередную ФГИС, иную ИТ систему, реестр _чего-то там нового_, я не могу не отметить что без нормальной ИТ архитектуры всё это - это преумножение цифрового мусора.

Кроме тех историй о которых много лет, и я, и мои коллеги пишем, про качество данных в Минюсте или в Минэке, не стоит думать что во многих органах ситуация получше.
Вот лишь несколько примеров:
1. Минпросвещения публикует реестры по разным темам (12 файлов за 2 года) в виде PDF сканов и, реже, файлов MS Word. Только с названиями организаций и их адресами, без какой-либо дополнительной идентифицирующей информации.
2. Примерно у 5% организаций на портале ТрудВсем (trudvsem.ru) приведены недостоверные реквизиты в виде кодов ОГРН и ИНН.
3. Более чем у 500 организаций на портале госуслуг Gosuslugi.ru приведены неверные коды ИНН/ОГРН и у неизвестного (но значительного) числа организаций неверные или устаревшие контакты. Неверные реквизиты, в том числе у ФОИВ, например, Росводресурсов
4. Реестр аккредитованных ИТ компаний публикуется так что в поле ОГРН может быть как ОГРН организации, так и ОГРН включая текст о старом коде в случае реорганизации организации. В результате автоматическая загрузка в любую информационную систему потребует ручной/полуручной обработки. И да, около 100 организаций там просто внесены с неверными реквизитами. Интересно как они получают свои льготы?
5. Та же Минцифра не обновляет раздел Открытые данные уже почти 4 года. А какие-либо данные из их ГИСов вообще никогда не публиковались, даже статистика.
6. Похожие проблемы с данными Росздравнадзора и вообще всеми ведомствами.

Это всё помимо, уже привычных проблем, с элементарной доступностью данных которые должны быть доступны.

Главная беда в том что если процесс ведения той или иной базы выстроен неверно изначально, то исправлять это потом очень болезненно.

При этом, я большого секрета не открою, сделать типовое open source ПО для ведения практически любого реестра - несложно. Если реестр "плоский" то даже элементарно, но и даже если к нему привязано несколько понятий (документы, записи, понятия), то и в этом случае - очень просто. Казалось бы, всё это реестростроение, это вторая по популярности деятельность в госаппарате после нормопорождения, но нет, ничего подобного не существует.

Казалось бы такая нужна штука, так почему нет рыночных решений по ведению реестров?

Ситуация, во многом, от:
а) Недостаточной квалификации тех кто за ведение реестров отвечает (до сих пор руководители не понимают что это ИТ задачи).
б) Отсутствия внутренней планки качества во многих организациях.

Публиковать те или иные данные в режиме "и так сойдёт" очень сильно отличается от публиковать в режиме "мы не справляемся, у нас проблемы, помогите нам исправить".
Если первое это от недостатка культуры работы с информацией (к счастью это меняется), то второе это от уважения к аудитории. Этим похвастаться, увы, могут не все(

Ну а самое главное в том что главная причина в низком качестве, не только в государстве, но и в частных компаниях, возникает когда они собираются, но не используются.
Если нет системы поддержки принятия решений, то о качестве данных даже не вспоминают. Если данные портала ТрудВсем никому не нужны, то конечно там будут сплошные ошибки.
Если Минцифра не публикует открытые данные с портала Госуслуг, то конечно там будут ошибки.

Предполагать что данные которые не публикуют "в хорошем качестве и доступны только своим" - это также большое заблуждение. Реальность хуже, реальность прозаичнее.

#data #government
Спасибо Ксении Бабихиной и её коллегам из из Фонд Нужна помощь за их справку [1] по качеству данных в реестре социально ориентированных НКО опубликованном Минэкономразвития 5 июня.

Коллеги использовали наше API проекта "Открытые НКО" [2] которое создавалось какое-то время назад в КГИ, в начале 2020 года было передано и сейчас поддерживается командой Информационной культуры.

Мы используем данные о НКО в разных проектах. В общественных вроде Открытых НКО и в государственных таких как Госрасходы [3] и наша команда также отправила коллегам в Минэкономразвития результаты нашего предварительного анализа который где-то процентов на 70% пересекается с анализом проведённым Ксенией.

Очень хорошо что разные команды делают одно общее дело. Мне нравится в проекте "Если быть точным" [4] Фонда что они занимаются верификацией НКО, это важная и непростая работа и то что проверенные ими организации в реестре СО НКО не оказались, это не один, а сотни вопросов к работе Минэкономразвития.

Ссылки:
[1] https://drive.google.com/file/d/1EWRyzxgBpSqx3v9u82_KMM3HNB8-QZlM/view
[2] https://openngo.ru
[3] https://spending.gov.ru
[4] https://tochno.st/nko

#openngo #ngo #opendata #data
IBM отказались в будущем разрабатывать технологии распознавания по лицам, об этом в письме руководителя IBM Арвинда Кришна в адрес Сената США [1] . The Verge подробно разобрали ситуацию с применением [2] технологий распознавания лиц и, в том числе, "расовым предубеждением алгоритмов" и злоупотребление полиции использования этой технологии.

Тема слежки полиции за гражданами сейчас будет одной из важнейших в США точно. 12 июня, завтра выходит фильм "Запрограммированное предубеждение" (Coded Bias) [3] за авторством Joy Buolamwini которая когда и обнаружила и описала то что алгоритмы распознавания лиц плохо различают женщин и людей с темным цветом кожи.

На многое ли это повлияет в мире? Пока сложно предсказать. Этих шагов не возникло бы из-за стихийных митингов в США, обвинений полиции в использовании технологий и активизации НКО противодействующих неэтичному использованию ИИ, например, AI Justice United [4] и другие.


Ссылки:
[1] https://www.ibm.com/blogs/policy/facial-recognition-susset-racial-justice-reforms/
[2] https://www.theverge.com/2020/6/8/21284683/ibm-no-longer-general-purpose-facial-recognition-analysis-software
[3] https://www.hrwfilmfestivalstream.org/film/coded-bias/
[4] https://ajlunited.org/

#facialrecognition #ibm #bias #biometrics #ai
Кратко написал у себя в блоге о эталонных базах данных и золотых записях [1], кратко поскольку тема большая и многие случаи того как они создаются в государстве надо разбирать отдельно.

На самом деле из всех приводимых мной там примеров, по настоящему попытки эталонной базы данных предпринимались при создании реестра участников и неучастников бюджетного процесса и единый реестр населения. Это вот прям базы данных в которых сама логика их создания была в создании "золотой записи". Даже ЕГРЮЛ - это не совсем "золотые записи", а скорее справочные сведения.

Тема неисчерпаемая, есть большие области государства где эталонных данных нет в принципе.

Ссылки:
[1] https://begtin.tech/golden-record/

#data #mdm #goldenrecord #registry
Ну то есть в последний момент "реестр СО НКО" переименовали в реестр НКО наиболее пострадавших от коронавируса. И постановление правительства приняли, чтобы протащить эту новую мысль. [1]
Это не "нет слов, одни эмоции", а слова то есть.
Ну, хотя бы определен ответственный и требования к достоверности зафиксированы.
Это ж сколько обращений в прокуратуру можно написать, по каждой недостоверной записи буквально.
И вот эта часть:

3.Министерству экономического развития Российской Федерации:сформировать реестр;осуществлять методическое обеспечение деятельности федеральных органов исполнительной власти по подготовке и представлениюинформациио некоммерческих организациях, предусмотренной Положением, утвержденным настоящим постановлением, для включения в реестр; разместить реестр на официальном портале Министерства экономического развития Российской Федерациив информационно-телекоммуникационной сети "Интернет";

Давайте врать не будем, в Минэкономразвития некому осуществлять эту методическую работу.

Впрочем, я обо всём, очень подробно, ещё напишу

Ссылки:
[1] http://static.government.ru/media/files/JAZ9FWArAwVgNEjmFIkALqrPPb5FqPAD.pdf

#ngo #sonko #data
На Украине перезапустили законодательный портал страны при Верховной Раде zakon.rada.gov.ua [1], помимо того что он на 3-х языках: украинский, английский и русский [2], так ещё и все документы опубликованы под Creative Commons Attribution 4.0 International license, а все данные портала опубликованы на портале открытых данных Верховной Рады [3], включая всю базу украинского законодательства Нормативно-правова база України (База даних “Законодавство України”) [4]

На портале есть очень разумный раздел терминологии [5] привязанный к нормативно-правовым документам.

При том что я лично могу сказать что и система обеспечения законодательной деятельности Госдумы в России [6] не так уж плохо сделана, но открытых данных и некоторых других возможностей в ней давно не хватает.

Не рискну перехваливать украинских коллег, почти всегда люди знающие изнутри больше знают про проблемы и ограничения открытости на самом деле, но со стороны это выглядит как весьма неплохой портал прозрачности законодательной деятельности.

Ссылки:
[1] https://zakon.rada.gov.ua
[2] https://zakon.rada.gov.ua/laws?lang=ru
[3] https://data.rada.gov.ua/open
[4] https://data.rada.gov.ua/open/data/zak
[5] https://zakon.rada.gov.ua/laws/main/ru/termin
[6] https://sozd.duma.gov.ru

#opendata #ukraine #laws #data
Одна из наиболее сложных/трудоёмких задач в Data science - это подготовка и аннотирование данных. Компьютеры не начнут распознавать лица пока не будет базы лиц, пока не будет базы уличных объектов, "умные автомобили" не смогут распознавать их и так далее. Как правило работа по созданию таких наборов данных происходит вручную и она довольно дорогостоящая.

Стартап SuperAnnotate [1] умеет аннотировать наборы данных использую ИИ. У них это неплохо получается и 11 июня они привлекли финансирования на 3 миллиона USD. Это может показаться странным когда ИИ готовит данные для ИИ, но, на самом деле, это вполне ожидаемое развитие событий. ИИ не полностью, а лишь частично заменяет ручной труд, предоставляя подсказки и значительно ускоряя ручную работу.

Ссылки:
[1] https://www.superannotate.com/
[2] https://venturebeat.com/2020/06/11/superannotate-uses-ai-techniques-to-speed-up-data-labeling/

#data #datascience #labeling
Вы непопулярны в Instagram? Возможно Вы просто недостаточно обнажены

В современных социальных сетях не алгоритм подстраивается под Вас, а Вы под алгоритм. Европейская сеть дата-журналистов и Algorithm Watch провесли тестирование алгоритмов Instagram [1]. В тестировании участвовали 26 волонтеров и 37 профессионалов по созданию контента, были проанализированы 2400 фотографий.

Вывод из анализа - популярность и оголение тела оказались взаимосвязаны не только в головах тех кто смотрит, но и в алгоритмах Instagram. Чем больше в Ваших фотографиях обнажённого тела, тем больше вероятность что оно окажется в лентах других людей.
Подробнее в документе [2] исследования.
Ссылки:
[1] https://algorithmwatch.org/en/story/instagram-algorithm-nudity/
[2] https://docs.google.com/document/d/1L7A5hmskm3Y3huSXHNtIIoiVijHD3dkDqubff4Yvkg8/edit#

#instagram #ai #bias