Ivan Begtin
9.3K subscribers
2.07K photos
3 videos
102 files
4.8K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Что я могу сказать про электронное голосование? Которое нам уже обещают и эксперимент запланирован.

Положительное:
- электронное голосование долгосрочно дешевле бумажного
- больше возможностей охватить избирателей (не нужно никуда идти или ехать)
- подсчет голосов значительно упрощается

Отрицательное
- разработка, сопровождение и контроль над системой у органов исполнительной власти
- исходный код врядли будет открыт
- постоянные сомнения в легитимности голосования (правящая партия всегда под подозрением)
- утечки персональных данных могут быть фатальными
- процедуры общественного контроля непонятны, экзит полы должны меняться

Неизвестное
- полное внедрение электронных голосований должно также резко сократить стоимость референдумов. Но будет ли их больше?
- станет ли бумажный паспорт вторичным документом?
- станет ли похищение мобильного телефона другим уголовным преступлением?
- будут ли прописывать прописку в цифровом профиле


#elections #digital
Максут Шадаев на днях объявил что данные о цифровых пропусках в региональных системах будут удалены [1] и надо сказать что Максут выступает как человек весьма неглупый и видел уже решение Татарстана по удалению их базы цифровых пропусков.

Ключевых вопросов тут два:
1. У Минкомсвязи, на практике, не так много механизмов воздействия на региональные власти.
2. Чтобы удаление было гарантировано нужен нормативно правовой документ. Постановление Правительства или закон. Готовят ли его внутри Минкомсвязи?

Удалят ли в итоге данные жителей ответственные за это в Мэрии Москвы или желание рассылать гражданам рекламу ближайшие 10 лет для них несопоставимо важнее ? [2]

Ссылки:
[1] https://tass.ru/obschestvo/8563413
[2] https://habr.com/ru/company/analogbytes/blog/503552/

#privacy #moskva #shadaev #digital
Для тех кто интересуется качеством данных пост в блоге Uber Engineering о том как управление качеством данных организовано в Uber [1]. Особенность их работы в том что данные поступают непрерывно, в реальном времени, данные большого объёма и метрики для понимания общей ситуации также нужны максимально оперативно. Для чего они разработали собственную систему управления качеством данных, Argos [2].

В отличие от других ИТ продуктов Uber'а их платформа Argos не публиковалась никогда с открытым кодом и всё что мы можем узнать о ней, это посты в их блоге.

Однако Argos - это лишь одно из решений в том что называется data quality management (DQM) или управление качеством данных. В инженерии данных - это процесс (пайплайн) по анализу, очистке и корректировке данных. DQM продукты есть у IBM, SAP, Oracle и многих других крупных игроков в области хранилищ данных (data warehouse), но чаще DQM - это часть процессов DataOps.

Ссылки:
[1] https://eng.uber.com/monitoring-data-quality-at-scale/
[2] https://eng.uber.com/argos-real-time-alerts/

#dqm #dataops #uber #argos
Для того чтобы понять распространённость заболевания в популяции не обязательно проводить массовое тестирование. Альтернативные данные получаются при анализе проб из канализации и стартап Biobot Analytics [1] предоставляющий услуги анализа проб из канализационных систем на наличие в нём вируса COVID-19. Стартап изначально создавался для анализа уровня использования опиодов и успел поднять $6.7 миллионов долларов США.

Сейчас они анализируют 100 объектов в 30 штатах США [2] и расширяют число компаний операторов канализации как партнёров и клиентов.

В Европе аналогичную работу ведёт голландский KWR Water Institute уже много лет осуществляющий анализ фекалий в европейских канализациях и теперь исследующий их на наличие COVID-19 [3]

А 21 мая прошли слушания конгресса организованные The Water Research Foundation по организации повсеместного мониторинга окружающей среды на наличие COVID-19 [4] в канализации. Можно увидеть слайды с подробностями внедрения технологий [5] и проведённых исследований.


Ссылки:
[1] https://www.biobot.io/covid19
[2] https://www.theverge.com/2020/4/20/21227995/sewage-wastewater-poop-coronavirus-survellience-biobot
[3] https://www.forbes.com/sites/rachelsandler/2020/04/01/poop-provides-an-early-sign-coronavirus-cases-will-rise-study-says/
[4] https://www.waterrf.org/event/virtual-congressional-briefing-environmental-surveillance-genetic-fingerprint-covid-19
[5] https://www.waterrf.org/sites/default/files/file/2020-05/Congressional%20COVID-19%20Briefing_FINAL.pdf

#sewers #data #sensors
Как я писал ранее, одно из направлений развития в инженерии данных и DataOps - это упаковка и доставка данных в виде контейнеров [1]. Наиболее активно развивающейся спецификацией для открытых данных является Frictionless Data [2], однако история про контейнеры с данными имеет куда более глубокие корни и направление "упаковки данных" давно существуют в научной среде.

ResearchObject [3] - это проект и набор спецификаций по описанию и упаковке данных в научной среде с ориентацией на воспроизведение результатов исследований. Наиболее актуальная спецификация RO-Crate [4] использует описание метаданных в формате связанных данных для описания как происхождения данных так и описания каждого включённого файла.

Одна из областей в которой давно уже активно идёт и используется стандартизация - это биоинформатика. Набор стандартов COMBINE (COmputational Modeling in BIology NEtwork) [5] включает как их моделирование, так и контейнеры для обмена данными и их преобразование, например, в контейнеры ResearchObject.

К другим спецификациям можно отнести Big data bag [6] объединяющие ResearchObject и спецификацию архивации данных BagIt [7].

У этой же инициативы есть ещё одно отражение, репозитории кода являются также результатами исследований и Mozilla Science Lab запустили инициативу Code as Research Object [8]

Другой заметный стандарт - это ReproZip [9], стандарт контейнер по упаковке данных и спецификации по воспроизведению исследований. Разрабатывается в инженерном подразделении New York University и основная его цель в том чтобы избежать замыкания в экосистеме одного вендора (да, в науке это повсеместно).

Применение подобных решений пока гораздо больше заточено под научные данные в биоинформатике, социологии, инженерных науках. Их внедрение требует, в первую очередь, готовность исследователей работать с техническими инструментами, наличия архивов и репозиториев поддерживающих подобные стандарты.

Ссылки:
[1] https://t.me/begtin/1925
[2] https://frictionlessdata.io
[3] http://www.researchobject.org/
[4] https://researchobject.github.io/ro-crate/1.0/
[5] http://co.mbine.org/
[6] https://github.com/fair-research/bdbag
[7] https://datatracker.ietf.org/doc/rfc8493/
[8] https://mozillascience.github.io/code-research-object/
[9] https://www.reprozip.org/

#opendata #data #standards
Тем временем мы запланировали серию вебинаров по приватности. Самый ближайший 3 июня. Регистрируйтесь и участвуйте!
Forwarded from Инфокультура
Инфокультура запускает серию вебинаров о приватности данных.

3 июня в 15:00 приглашаем вас на первый вебинар «Цифровой профиль россиянина: право на приватность». В программе: обсуждение принципов разработки платформы «Цифровой профиль», государственных супераппов и сервисов, созданных на основе личных данных граждан.

Эксперты обсудят режимы владения данными и право распоряжаться ими, а также кибербезопасность и риски централизации данных.

Спикеры:
- Иван Бегтин (@begtin), директор АНО «Инфокультура»;
- Светалана Белова, генеральный директор компании «Датамания»;
- Саркис Дарбинян, партнер Центра цифровых прав, адвокат в сфере киберправа;
- Василий Буров, соучредитель АНО «Инфокультура»;
- Олег Качанов, заместитель министра цифрового развития, связи и массовых коммуникаций Российской Федерации.

Для участия необходимо зарегистрироваться: https://infoculture.timepad.ru/event/1324757.

Всем зарегистрированным участникам придет ссылка для подключения в Zoom.
Медуза [1], Известия [2], РИА Новости [3] и другие издания пишут о экспертах МВД предлагающих создать мобильное приложение "Мигрант" и включить в него "рейтинг социального доверия". Иначе говоря, наработки приложений "Социальный мониторинг" и "Стопкоронавирус.РФ" МВД явно понравились и решили применить их на трудовых мигрантах.

К сожалению, за всеми этими публикациями нет ни фамилий экспертов, ни первоисточника, ни этого самого прогноза. Мне лично очень интересно как это приложение будут ставить тем у кого нет сотового телефона на Android или iPhone и как будут обязывать устанавливать приложения многочисленных топ-менеджеров европейских и американских компаний в России.

Всё таки они тоже "трудовые мигранты", но они же и граждане других стран. Вступятся ли за их права их правительства и посольства?

[1] https://meduza.io/news/2020/05/29/mvd-predlozhilo-sozdat-prilozhenie-migrant-ustanavlivat-kotoroe-obyazhut-vseh-priehavshih-na-rabotu-v-rossiyu
[2] https://iz.ru/1017094/2020-05-29/mvd-rossii-mozhet-sozdat-spetcialnoe-prilozhenie-dlia-migrantov
[3] https://ria.ru/20200529/1572150359.html

#mobile #apps #privacy
Буквально вдогонку материалам по методике анализа госполитики, вышла экспертная записка "Применение теории изменений для стратегического аудита и стратегического планирования в России" [1] подготовленная коллегами из Центра перспективных управленческих решений и Счетной палаты.

Записка похожа на то что делают исследователи в Великобритании, также воспроизводит последовательность и инструменты реализации госполитики. Всячески рекомендую к прочтению с акцентом на дискуссию. Как и все экспертные записки - эта записка является концентрированным мнением группы исследователей, комментарии, критика, дополнения в таком формате всегда уместны.


Ссылки:
[1] http://ach.gov.ru/upload/pdf/AuditInsights.pdf

#sprf #policy #methods
В "кавычках" прекрасная новость, в законопроект об обеспечении устойчивого развития экономики и предотвращении последствий короновируса [1] во втором чтении впихнули поправку, которая обязывает удостоверяющие центры бесплатно перевыпустить на 3 месяца все сертификаты, которые кончаются до 1 августа.

Фактически это убивает все коммерческие удостоверяющие центры, потому что все сейчас живут на старых клиентах - новым особо неоткуда браться, а теперь выручка от старых отложится на 4-5 месяцев.

Всех спасают за счёт кого-то. Граждан за счёт бизнеса, бизнес чуть-чуть за счёт УЦ. Раз пошла такая пьянка, то может быть бизнес спасать за счёт банков? Отменить ставки по существующим кредитам, например.

Чувствую что в ближайшие дни много придётся писать и говорить про масштаб проблем с нормативными документами и не только.

Ссылки:
[1] https://sozd.duma.gov.ru/bill/953580-7
#policy #laws #government
То что мы наблюдаем сейчас с государственными мобильными приложениями вроде "Стопкоронавирус" или "Социальный мониторинг" - это, очень запоздалый, с задержкой более чем в 5 лет, но неизбежный приход государства в экосистему смартфонов. Также как когда-то с большим запозданием, крайне неумело и до сих пор не осознав до конца, государство приходило Интернет, так и сейчас мобильная экосистема переживает последствия осознания государством его осознания. Под "государством" здесь можно принимать разное, от метафизического Государства с большой буквы как ментальную модель в головах политической элиты, до руководства институционализированных и фактических структур власти.
...

Текст получился слишком большой чтобы целиком публиковать его в телеграм, полный текст у меня в блоге https://begtin.tech/govmobile/

#government #mobile #policy
Классика не стареет, я несколько таких комитетов и рабочих групп знаю и даже приходится в них участвовать.
Рубрика «Циничная мерфология»
С.Н.Паркинсон о жизненном цикле комитетов.
Жизненный цикл комитета состоит из нескольких стадий:
1. Идеальное число членов — пять человек. При таком численном составе комитет непременно приживётся. Два его члена смогут всегда отсутствовать по болезни или по иной причине. Пятерых легко собрать, а собравшись, они способны действовать быстро, умело и тихо. Четверым из них можно поручить финансы, иностранные дела, оборону и правосудие. Пятый, не сведущий в этих предметах, станет председателем или премьером.
2. Как ни удобно число пять, нередко в комитет входит семь, а то и девять человек. Так бывает почти везде и объясняется это тем, что областей управления не четыре, а больше. На самом деле есть и другая причина. В комитете из девяти человек трое вершат политику, двое поставляют сведения, один напоминает о финансах. Со свободным от дела председателем получается семь человек. Остальные двое, по-видимому, нужны для красоты. Мы практически ничего не знаем о назначении двух молчаливых членов, но у нас есть основания полагать, что на этой, второй, стадии комитет без них работать не может.
3. На третьей стадии в комитеты входят новые члены, иногда они вроде бы знают ещё что-то нужное, но чаще просто очень вредят, если их в комитет не ввести. Чтобы их утихомирить, приходится непрестанно с ними советоваться. По мере их включения число членов ползёт от десяти к двадцати. На этой третьей стадии дела идут много хуже.
o Прежде всего, очень трудно собрать столько народу.
o Лишь немногие из членов отбирались с расчётом на то, что они будут или могут приносить пользу. Большую часть скорее ввели, чтобы угодить какой-нибудь внешней группировке, и задача их — сообщать своим, как идут дела. С секретностью покончено.
o Чем крепче утверждаются ненужные члены, тем громче требуют обойдённые группы, чтобы ввели их представителей. Число членов переползает в третий десяток. И комитет вступает в четвёртую, последнюю стадию.
4. Четвёртая стадия. Когда в комитете от 20 до 22 членов, он внезапно претерпевает особое химическое или органическое превращение, природу которого нетрудно понять и описать. Пять полезных членов встречаются отдельно и что-то решают. Комитету практически делать нечего, тем самым в него можно ввести сколько угодно народу. Лишним членам не понадобится лишнее время, ибо все заседания теперь — пустая трата времени. Внешние группы довольны, их ставленников принимают всех беспрепятственно, и не скоро поймут они, что победа их призрачна. Двери открыты, число членов приближается к 40, растёт дальше. Может оно дорасти и до тысячи. Это уже не важно. Комитет больше не комитет, и прежние его функции выполняет другое, малое сообщество.
Новость ближе к хорошей - ДИТ Москвы в лице Эдуарда Лысенко начал диалог с гражданами, на хабре анонс [1] что завтра на YouTube в 17:30 [2] он будет отвечать на вопросы.

Вопросы можно направлять в ДИТ по адресу answer@it.mos.ru или комментариями на Хабре.

Я могу много ругать ДИТ Москвы, но поговорить - это всегда правильно и лучше поздно чем никогда. Поэтому не стесняйтесь, направьте Ваши вопросы и я тоже свои напишу.

А также напоминаю про нашу серию вебинаров по приватности. Ближайший 3-го июня в 15:00 по Москве [3]. На следующие вебинары мы будем звать, в том числе, и коллег из ДИТа Москвы, общественных и коммерческих компаний и экспертов в этой теме.

Ссылки:
[1] https://habr.com/ru/company/dit/blog/504482/
[2] https://youtu.be/kXd40iEUFrY
[3] https://www.facebook.com/events/634421640480973/?notif_t=event_aggregate&notif_id=1590985039690850

#privacy #data
Команда из 30 исследователей в OpenAI опубликовали статью о GPT-3 [1] языковой модели позволяющий решать не только задачи перевода, но и создания статей и отвечать на вопросы уровня экзамена SAT (это сложные вопросы).

В этой модели используется 175 миллиардов параметров, для сравнения в GPT-2 было 1.5 миллиардов параметров [2], а в наиболее сопоставимой модели от Microsoft всего 17 миллиардов параметров [3]

Что немаловажно, GPT-3 обучено на базе CommonCrawl, Википедии и других открытых данных с текстами, в общей сложности в триллион слов [4].

OpenAI создаёт не только возможности, но и масштабные страхи. После выпуска предыдущей модели GPT-2 были опасения что с помощью этой технологии можно завалить интернет фэйками которые бы звучали логично и разумно, а на практике создавалась бы ботами в бесконечном количестве [5].

Ссылки:
[1] https://arxiv.org/abs/2005.14165
[2] https://venturebeat.com/2019/08/20/openai-releases-curtailed-version-of-gpt-2-language-model/
[3] https://venturebeat.com/2020/05/19/microsofts-zero-2-with-deepspeed-trains-neural-networks-with-up-to-170-billion-parameters/
[4] https://venturebeat.com/2020/05/29/openai-debuts-gigantic-gpt-3-language-model-with-175-billion-parameters/
[5] https://www.theverge.com/2019/2/14/18224704/ai-machine-learning-language-models-read-write-openai-gpt2

#data #opendata #ai
18-21 октября 2020 года в Швейцарии пройдет виртуальный форум ООН про данные (UN Data Forum) [1]. Основные темы - данные и статистика, много выступление будет про госполитику в области данных, партнерства и многое другое. От России там никого нет, но будет интересно и послушать других участников, таких форумы хорошая возможность узнать о примерах других стран которые ранее не переводились на английский язык.

А тем временем организаторы опрашивают до 15 июня потенциальных участников о том как виртуальный форум лучше организовать [2].

Ссылки:
[1] https://unstats.un.org/unsd/undataforum/index.html
[2] https://efm.dfs.un.org/EFM/se/6C6639C01C303C60

#opendata #data #un
В ТАСС вышло интервью Сергея Собянина где, в том числе, о том что данные пропусков и социального мониторинга будут удалены [1].
Напрашиваются только два вопроса:
1. Почему с таким значительным запозданием? Можно было это сказать/пообещать с самого начала
2. Когда будет принят нормативно-правовой документ регламентирующий процедуру уничтожения данных и вывода систем из эксплуатации которые данные собирают?

Я ещё раз хочу сделать акцент что обещания политиков не закреплённые в нормативно-правовой базе имеют очень небольшие шансы на то что они будут исполнены.

P.S. Я в будущем постараюсь писать по этой теме поменьше, чтобы было больше писать про другие темы. Честно говоря про "качество" работы московских властей писать можно бесконечно, потому что я есть явные провалы и коммуникационные, и технические и этические. А самое главное глубокое непонимание что перенимать корейские или китайские инструменты воздействия на общество в России некорректно из-за значительно меньшего доверия граждан к государству чем в этих странах.

Ссылки:
[1] https://tass.ru/interviews/8641165

#covid19 #privacy #moscow