Ivan Begtin
9.35K subscribers
2.12K photos
3 videos
103 files
4.85K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
Как я писал ранее, одно из направлений развития в инженерии данных и DataOps - это упаковка и доставка данных в виде контейнеров [1]. Наиболее активно развивающейся спецификацией для открытых данных является Frictionless Data [2], однако история про контейнеры с данными имеет куда более глубокие корни и направление "упаковки данных" давно существуют в научной среде.

ResearchObject [3] - это проект и набор спецификаций по описанию и упаковке данных в научной среде с ориентацией на воспроизведение результатов исследований. Наиболее актуальная спецификация RO-Crate [4] использует описание метаданных в формате связанных данных для описания как происхождения данных так и описания каждого включённого файла.

Одна из областей в которой давно уже активно идёт и используется стандартизация - это биоинформатика. Набор стандартов COMBINE (COmputational Modeling in BIology NEtwork) [5] включает как их моделирование, так и контейнеры для обмена данными и их преобразование, например, в контейнеры ResearchObject.

К другим спецификациям можно отнести Big data bag [6] объединяющие ResearchObject и спецификацию архивации данных BagIt [7].

У этой же инициативы есть ещё одно отражение, репозитории кода являются также результатами исследований и Mozilla Science Lab запустили инициативу Code as Research Object [8]

Другой заметный стандарт - это ReproZip [9], стандарт контейнер по упаковке данных и спецификации по воспроизведению исследований. Разрабатывается в инженерном подразделении New York University и основная его цель в том чтобы избежать замыкания в экосистеме одного вендора (да, в науке это повсеместно).

Применение подобных решений пока гораздо больше заточено под научные данные в биоинформатике, социологии, инженерных науках. Их внедрение требует, в первую очередь, готовность исследователей работать с техническими инструментами, наличия архивов и репозиториев поддерживающих подобные стандарты.

Ссылки:
[1] https://t.me/begtin/1925
[2] https://frictionlessdata.io
[3] http://www.researchobject.org/
[4] https://researchobject.github.io/ro-crate/1.0/
[5] http://co.mbine.org/
[6] https://github.com/fair-research/bdbag
[7] https://datatracker.ietf.org/doc/rfc8493/
[8] https://mozillascience.github.io/code-research-object/
[9] https://www.reprozip.org/

#opendata #data #standards
Тем временем мы запланировали серию вебинаров по приватности. Самый ближайший 3 июня. Регистрируйтесь и участвуйте!
Forwarded from Инфокультура
Инфокультура запускает серию вебинаров о приватности данных.

3 июня в 15:00 приглашаем вас на первый вебинар «Цифровой профиль россиянина: право на приватность». В программе: обсуждение принципов разработки платформы «Цифровой профиль», государственных супераппов и сервисов, созданных на основе личных данных граждан.

Эксперты обсудят режимы владения данными и право распоряжаться ими, а также кибербезопасность и риски централизации данных.

Спикеры:
- Иван Бегтин (@begtin), директор АНО «Инфокультура»;
- Светалана Белова, генеральный директор компании «Датамания»;
- Саркис Дарбинян, партнер Центра цифровых прав, адвокат в сфере киберправа;
- Василий Буров, соучредитель АНО «Инфокультура»;
- Олег Качанов, заместитель министра цифрового развития, связи и массовых коммуникаций Российской Федерации.

Для участия необходимо зарегистрироваться: https://infoculture.timepad.ru/event/1324757.

Всем зарегистрированным участникам придет ссылка для подключения в Zoom.
Медуза [1], Известия [2], РИА Новости [3] и другие издания пишут о экспертах МВД предлагающих создать мобильное приложение "Мигрант" и включить в него "рейтинг социального доверия". Иначе говоря, наработки приложений "Социальный мониторинг" и "Стопкоронавирус.РФ" МВД явно понравились и решили применить их на трудовых мигрантах.

К сожалению, за всеми этими публикациями нет ни фамилий экспертов, ни первоисточника, ни этого самого прогноза. Мне лично очень интересно как это приложение будут ставить тем у кого нет сотового телефона на Android или iPhone и как будут обязывать устанавливать приложения многочисленных топ-менеджеров европейских и американских компаний в России.

Всё таки они тоже "трудовые мигранты", но они же и граждане других стран. Вступятся ли за их права их правительства и посольства?

[1] https://meduza.io/news/2020/05/29/mvd-predlozhilo-sozdat-prilozhenie-migrant-ustanavlivat-kotoroe-obyazhut-vseh-priehavshih-na-rabotu-v-rossiyu
[2] https://iz.ru/1017094/2020-05-29/mvd-rossii-mozhet-sozdat-spetcialnoe-prilozhenie-dlia-migrantov
[3] https://ria.ru/20200529/1572150359.html

#mobile #apps #privacy
Буквально вдогонку материалам по методике анализа госполитики, вышла экспертная записка "Применение теории изменений для стратегического аудита и стратегического планирования в России" [1] подготовленная коллегами из Центра перспективных управленческих решений и Счетной палаты.

Записка похожа на то что делают исследователи в Великобритании, также воспроизводит последовательность и инструменты реализации госполитики. Всячески рекомендую к прочтению с акцентом на дискуссию. Как и все экспертные записки - эта записка является концентрированным мнением группы исследователей, комментарии, критика, дополнения в таком формате всегда уместны.


Ссылки:
[1] http://ach.gov.ru/upload/pdf/AuditInsights.pdf

#sprf #policy #methods
В "кавычках" прекрасная новость, в законопроект об обеспечении устойчивого развития экономики и предотвращении последствий короновируса [1] во втором чтении впихнули поправку, которая обязывает удостоверяющие центры бесплатно перевыпустить на 3 месяца все сертификаты, которые кончаются до 1 августа.

Фактически это убивает все коммерческие удостоверяющие центры, потому что все сейчас живут на старых клиентах - новым особо неоткуда браться, а теперь выручка от старых отложится на 4-5 месяцев.

Всех спасают за счёт кого-то. Граждан за счёт бизнеса, бизнес чуть-чуть за счёт УЦ. Раз пошла такая пьянка, то может быть бизнес спасать за счёт банков? Отменить ставки по существующим кредитам, например.

Чувствую что в ближайшие дни много придётся писать и говорить про масштаб проблем с нормативными документами и не только.

Ссылки:
[1] https://sozd.duma.gov.ru/bill/953580-7
#policy #laws #government
То что мы наблюдаем сейчас с государственными мобильными приложениями вроде "Стопкоронавирус" или "Социальный мониторинг" - это, очень запоздалый, с задержкой более чем в 5 лет, но неизбежный приход государства в экосистему смартфонов. Также как когда-то с большим запозданием, крайне неумело и до сих пор не осознав до конца, государство приходило Интернет, так и сейчас мобильная экосистема переживает последствия осознания государством его осознания. Под "государством" здесь можно принимать разное, от метафизического Государства с большой буквы как ментальную модель в головах политической элиты, до руководства институционализированных и фактических структур власти.
...

Текст получился слишком большой чтобы целиком публиковать его в телеграм, полный текст у меня в блоге https://begtin.tech/govmobile/

#government #mobile #policy
Классика не стареет, я несколько таких комитетов и рабочих групп знаю и даже приходится в них участвовать.
Рубрика «Циничная мерфология»
С.Н.Паркинсон о жизненном цикле комитетов.
Жизненный цикл комитета состоит из нескольких стадий:
1. Идеальное число членов — пять человек. При таком численном составе комитет непременно приживётся. Два его члена смогут всегда отсутствовать по болезни или по иной причине. Пятерых легко собрать, а собравшись, они способны действовать быстро, умело и тихо. Четверым из них можно поручить финансы, иностранные дела, оборону и правосудие. Пятый, не сведущий в этих предметах, станет председателем или премьером.
2. Как ни удобно число пять, нередко в комитет входит семь, а то и девять человек. Так бывает почти везде и объясняется это тем, что областей управления не четыре, а больше. На самом деле есть и другая причина. В комитете из девяти человек трое вершат политику, двое поставляют сведения, один напоминает о финансах. Со свободным от дела председателем получается семь человек. Остальные двое, по-видимому, нужны для красоты. Мы практически ничего не знаем о назначении двух молчаливых членов, но у нас есть основания полагать, что на этой, второй, стадии комитет без них работать не может.
3. На третьей стадии в комитеты входят новые члены, иногда они вроде бы знают ещё что-то нужное, но чаще просто очень вредят, если их в комитет не ввести. Чтобы их утихомирить, приходится непрестанно с ними советоваться. По мере их включения число членов ползёт от десяти к двадцати. На этой третьей стадии дела идут много хуже.
o Прежде всего, очень трудно собрать столько народу.
o Лишь немногие из членов отбирались с расчётом на то, что они будут или могут приносить пользу. Большую часть скорее ввели, чтобы угодить какой-нибудь внешней группировке, и задача их — сообщать своим, как идут дела. С секретностью покончено.
o Чем крепче утверждаются ненужные члены, тем громче требуют обойдённые группы, чтобы ввели их представителей. Число членов переползает в третий десяток. И комитет вступает в четвёртую, последнюю стадию.
4. Четвёртая стадия. Когда в комитете от 20 до 22 членов, он внезапно претерпевает особое химическое или органическое превращение, природу которого нетрудно понять и описать. Пять полезных членов встречаются отдельно и что-то решают. Комитету практически делать нечего, тем самым в него можно ввести сколько угодно народу. Лишним членам не понадобится лишнее время, ибо все заседания теперь — пустая трата времени. Внешние группы довольны, их ставленников принимают всех беспрепятственно, и не скоро поймут они, что победа их призрачна. Двери открыты, число членов приближается к 40, растёт дальше. Может оно дорасти и до тысячи. Это уже не важно. Комитет больше не комитет, и прежние его функции выполняет другое, малое сообщество.
Новость ближе к хорошей - ДИТ Москвы в лице Эдуарда Лысенко начал диалог с гражданами, на хабре анонс [1] что завтра на YouTube в 17:30 [2] он будет отвечать на вопросы.

Вопросы можно направлять в ДИТ по адресу answer@it.mos.ru или комментариями на Хабре.

Я могу много ругать ДИТ Москвы, но поговорить - это всегда правильно и лучше поздно чем никогда. Поэтому не стесняйтесь, направьте Ваши вопросы и я тоже свои напишу.

А также напоминаю про нашу серию вебинаров по приватности. Ближайший 3-го июня в 15:00 по Москве [3]. На следующие вебинары мы будем звать, в том числе, и коллег из ДИТа Москвы, общественных и коммерческих компаний и экспертов в этой теме.

Ссылки:
[1] https://habr.com/ru/company/dit/blog/504482/
[2] https://youtu.be/kXd40iEUFrY
[3] https://www.facebook.com/events/634421640480973/?notif_t=event_aggregate&notif_id=1590985039690850

#privacy #data
Команда из 30 исследователей в OpenAI опубликовали статью о GPT-3 [1] языковой модели позволяющий решать не только задачи перевода, но и создания статей и отвечать на вопросы уровня экзамена SAT (это сложные вопросы).

В этой модели используется 175 миллиардов параметров, для сравнения в GPT-2 было 1.5 миллиардов параметров [2], а в наиболее сопоставимой модели от Microsoft всего 17 миллиардов параметров [3]

Что немаловажно, GPT-3 обучено на базе CommonCrawl, Википедии и других открытых данных с текстами, в общей сложности в триллион слов [4].

OpenAI создаёт не только возможности, но и масштабные страхи. После выпуска предыдущей модели GPT-2 были опасения что с помощью этой технологии можно завалить интернет фэйками которые бы звучали логично и разумно, а на практике создавалась бы ботами в бесконечном количестве [5].

Ссылки:
[1] https://arxiv.org/abs/2005.14165
[2] https://venturebeat.com/2019/08/20/openai-releases-curtailed-version-of-gpt-2-language-model/
[3] https://venturebeat.com/2020/05/19/microsofts-zero-2-with-deepspeed-trains-neural-networks-with-up-to-170-billion-parameters/
[4] https://venturebeat.com/2020/05/29/openai-debuts-gigantic-gpt-3-language-model-with-175-billion-parameters/
[5] https://www.theverge.com/2019/2/14/18224704/ai-machine-learning-language-models-read-write-openai-gpt2

#data #opendata #ai
18-21 октября 2020 года в Швейцарии пройдет виртуальный форум ООН про данные (UN Data Forum) [1]. Основные темы - данные и статистика, много выступление будет про госполитику в области данных, партнерства и многое другое. От России там никого нет, но будет интересно и послушать других участников, таких форумы хорошая возможность узнать о примерах других стран которые ранее не переводились на английский язык.

А тем временем организаторы опрашивают до 15 июня потенциальных участников о том как виртуальный форум лучше организовать [2].

Ссылки:
[1] https://unstats.un.org/unsd/undataforum/index.html
[2] https://efm.dfs.un.org/EFM/se/6C6639C01C303C60

#opendata #data #un
В ТАСС вышло интервью Сергея Собянина где, в том числе, о том что данные пропусков и социального мониторинга будут удалены [1].
Напрашиваются только два вопроса:
1. Почему с таким значительным запозданием? Можно было это сказать/пообещать с самого начала
2. Когда будет принят нормативно-правовой документ регламентирующий процедуру уничтожения данных и вывода систем из эксплуатации которые данные собирают?

Я ещё раз хочу сделать акцент что обещания политиков не закреплённые в нормативно-правовой базе имеют очень небольшие шансы на то что они будут исполнены.

P.S. Я в будущем постараюсь писать по этой теме поменьше, чтобы было больше писать про другие темы. Честно говоря про "качество" работы московских властей писать можно бесконечно, потому что я есть явные провалы и коммуникационные, и технические и этические. А самое главное глубокое непонимание что перенимать корейские или китайские инструменты воздействия на общество в России некорректно из-за значительно меньшего доверия граждан к государству чем в этих странах.

Ссылки:
[1] https://tass.ru/interviews/8641165

#covid19 #privacy #moscow
Slack, сервис корпоративных сообщений вступил в долгосрочное партнерство с Amazon [1] и будет улучшать свои возможности голосовой и видеосвязи с помощью Amazon Chime [2]. В первую очередь это связано с конкуренцией с Microsoft Teams.

На фоне этого всего у меня самый назревший вопрос - это почему Павел Дуров в Telegram до сих пор был занято исключительно массово потребительским продуктом. При наличии партнёрства или приобретения технологий на базе Telegram получился бы почти идеальный корпоративный мессенжер, механизмы его интеграции лишь немного уступают Slack'у (а может и превосходят) и это то за что компании реально были бы готовы платить.

При наличии у телеграма нормальной структуры управления, публичного юр. лица и так далее, конечно же.

Ссылки:
[1] https://www.theverge.com/2020/6/4/21280829/slack-amazon-aws-partnership-amazon-chime-voice-video-calls
[2] https://aws.amazon.com/ru/chime/

#messengers #slack #amazon #telegram
У меня на руках есть предварительные результаты анализа списка СОНКО который Минэкономразвития опубликовал 5 июня [1]

Это важный и нужный реестр, например, нам для проекта Открытые НКО [2] или для анализа госзакупок и субсидий для СОНКО в таких проектах как Госрасходы [3]

Если коротко, всё плохо, ошибки в наименованиях организаций, реквизитах, коды ИНН и ОГРН не проходят валидацию, числу ошибок даже хуже чем в реестром системообразующих предприятий поскольку сейчас ошибок много больше.

Я пока результаты анализа публиковать не буду, вдруг в Минэкономразвития захотят сами его проверить и исправить, до среды скажем.

В принципе, я вижу в этом даже пользу, мне нужны живые примеры по качеству данных, я на основе них сделаю учебный материал того как не надо делать;)

Ссылки:

[1] http://nko.economy.gov.ru/Public/NewsPage/Details.html
[2] http://openngo.ru
[3] http://clearspending.ru

#data #opendata #dataquality
В качестве обзора проектов основанных или основывающих среду работы с данными, система NARCIS (Нарцис/Наркис) в Нидерландах [1] существует с 2004 года и объединяет данные практически всех исследовательских центров страны.

Система изначально создавалась как система доступа к научным публикациям, сейчас является системой доступа к данным по результатам исследований.

Основная задача NARCIS - в предоставления доступа к исследованиям, данным по их результатам.

В экосистеме данных в Нидерландах, она обеспечивает возможности поиска и доступа, а вся экосистема состоит из 3-х основных сервисов:
- DataverseNL - публикация данных исследований
- EASY - сервис архивации исследований по их итогам
- NARCIS - поиск и доступ к данным в разрозненных репозиториях

В системе сейчас:
- 2 925 организаций
- 66 173 исследователей
- 71 750 научных исследований
- 266 947 наборов данных
- 2 097 121 публикаций

Проект является продуктом DANS (data archival and networked services) [2], они же создавали около 20 проектов по публикации научных данных в Евросоюзе [3].

Ссылки:
[1] https://www.narcis.nl/?Language=en
[2] https://dans.knaw.nl/en
[3] https://dans.knaw.nl/en/projects

#data #science #opendata
Государственная система или реестр без контроля качества данных - это помойка замедленного действия (с)

В который раз слушая сегодня о том как государство выделяет средства на очередную ФГИС, иную ИТ систему, реестр _чего-то там нового_, я не могу не отметить что без нормальной ИТ архитектуры всё это - это преумножение цифрового мусора.

Кроме тех историй о которых много лет, и я, и мои коллеги пишем, про качество данных в Минюсте или в Минэке, не стоит думать что во многих органах ситуация получше.
Вот лишь несколько примеров:
1. Минпросвещения публикует реестры по разным темам (12 файлов за 2 года) в виде PDF сканов и, реже, файлов MS Word. Только с названиями организаций и их адресами, без какой-либо дополнительной идентифицирующей информации.
2. Примерно у 5% организаций на портале ТрудВсем (trudvsem.ru) приведены недостоверные реквизиты в виде кодов ОГРН и ИНН.
3. Более чем у 500 организаций на портале госуслуг Gosuslugi.ru приведены неверные коды ИНН/ОГРН и у неизвестного (но значительного) числа организаций неверные или устаревшие контакты. Неверные реквизиты, в том числе у ФОИВ, например, Росводресурсов
4. Реестр аккредитованных ИТ компаний публикуется так что в поле ОГРН может быть как ОГРН организации, так и ОГРН включая текст о старом коде в случае реорганизации организации. В результате автоматическая загрузка в любую информационную систему потребует ручной/полуручной обработки. И да, около 100 организаций там просто внесены с неверными реквизитами. Интересно как они получают свои льготы?
5. Та же Минцифра не обновляет раздел Открытые данные уже почти 4 года. А какие-либо данные из их ГИСов вообще никогда не публиковались, даже статистика.
6. Похожие проблемы с данными Росздравнадзора и вообще всеми ведомствами.

Это всё помимо, уже привычных проблем, с элементарной доступностью данных которые должны быть доступны.

Главная беда в том что если процесс ведения той или иной базы выстроен неверно изначально, то исправлять это потом очень болезненно.

При этом, я большого секрета не открою, сделать типовое open source ПО для ведения практически любого реестра - несложно. Если реестр "плоский" то даже элементарно, но и даже если к нему привязано несколько понятий (документы, записи, понятия), то и в этом случае - очень просто. Казалось бы, всё это реестростроение, это вторая по популярности деятельность в госаппарате после нормопорождения, но нет, ничего подобного не существует.

Казалось бы такая нужна штука, так почему нет рыночных решений по ведению реестров?

Ситуация, во многом, от:
а) Недостаточной квалификации тех кто за ведение реестров отвечает (до сих пор руководители не понимают что это ИТ задачи).
б) Отсутствия внутренней планки качества во многих организациях.

Публиковать те или иные данные в режиме "и так сойдёт" очень сильно отличается от публиковать в режиме "мы не справляемся, у нас проблемы, помогите нам исправить".
Если первое это от недостатка культуры работы с информацией (к счастью это меняется), то второе это от уважения к аудитории. Этим похвастаться, увы, могут не все(

Ну а самое главное в том что главная причина в низком качестве, не только в государстве, но и в частных компаниях, возникает когда они собираются, но не используются.
Если нет системы поддержки принятия решений, то о качестве данных даже не вспоминают. Если данные портала ТрудВсем никому не нужны, то конечно там будут сплошные ошибки.
Если Минцифра не публикует открытые данные с портала Госуслуг, то конечно там будут ошибки.

Предполагать что данные которые не публикуют "в хорошем качестве и доступны только своим" - это также большое заблуждение. Реальность хуже, реальность прозаичнее.

#data #government