Ivan Begtin
9.32K subscribers
2.11K photos
3 videos
103 files
4.83K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
Под конец года очень много работы с текстами и я уже две недели не делал еженедельную рассылку будучи заваленным этой текстовой работой. Но планы к следующей рассылке уже есть (кстати напоминаю где её можно прочитать и подписаться https://begtin.substack.com ).

Поэтому выношу на голосование о том о чём прочитать было бы интереснее. Эту тему я приоритетно разберу максимально подробно
В блоге Airbnb Engineering & Data Science описание их процесса сертификации качества данных [1] любопытное их детальностью и фокусом на многоуровневую проверку: спецификаций, данных и кода.

Ссылки:
[1] https://medium.com/airbnb-engineering/data-quality-at-airbnb-870d03080469

#data #dataquality
Я регулярно пишу про такой класс инструментов как git для данных и про платформы претендующие стать аналогом Github'а для данных. Пока нет лидера ни в том ни в том, но есть хорошие попытки.

Новый-старый инструмент управлению версионностью данных для задач data science - это replicate [1] [2]
Утилита и библиотека на Python с открытым кодом, единственная фактическая альтернатива dvc [3] если говорить про применение к data science. А если говорить про другие dolt, quilt, noms, hub и sno, то практически все они работают с данными относительно небольшого объёма

Ссылки:
[1] https://github.com/replicate/replicate
[2] https://replicate.ai/
[3] https://github.com/iterative/dvc

#bigdata #data #data-science #data-version-control
У Счетной палаты РФ появился официальный телеграм канал @auditgov, обязательно подписывайтесь, читайте, делитесь и не стесняйтесь давать обратную связь о том чего не хватает и что хотелось бы видеть там чаще.

#accountingchamber
Немодерируемые сайты приводят к спаму и рекламе порнографии (с)

Росприроднадзор использует продукт Gitlab для работы с исходным кодом, но в виду кривых настроек портала общедоступная его часть общедоступна не только для просмотра, но и для регистрации. Как следствие, там уже создано около десятка репозиториев состоящих исключительно из спама [1].

Думаю все мы ждали совсем другого открытого кода от Росприроднадзора;)

P.S. Хочется добавить какую то мораль, но не могу придумать такую.

Ссылки:
[1] http://gitlab.rpn.gov.ru/explore/projects
#9. Экосистема государственной и негосударственной слежки через мобильные устройства и интернет вещей

Пандемия COVID-19 оказалась тем удивительным природным явлением когда следящие за потребителями корпорации big tech и государства выстраивающие инфраструктуру слежки за гражданами нашли веское основание того зачем они это делают.
При этом в обществе существуют очень разные мнения о происходящем. От убеждённости в скором появлении полноценного большого брата до мнения что государство и корпорации и так знают о нас столько, что новые знания не добавляют уже новых рисков.
В этом тексте я постарался описать экосистему государственной слежки основанной на уже сложившейся слежке за потребителями.

Текст полностью в рассылке https://begtin.substack.com/p/9-

#privacy #surveillance
Архивация сайтов институтов развития - это уже около 100 гигабайт в сжатом виде и не менее 100 гигабайт ещё осталось.
При этом нет 100% гарантии что выгружается всё, потому что в некоторых случаях действуют "поисковые ловушки", это когда при выгрузке сайта есть блоки которые могут выгружаться бесконечно, например, когда установлены ошибочные ссылки или когда есть календарь с бесконечным пролистыванием до скончания времен в прошлом и будущем.
Другая объективная проблема в том что многие данные и материалы могут не индексироваться поскольку отдаются через Ajax, закрыты каптчей или поисковой строкой.
Поэтому все задачи по фокусированной архивации сводятся к стадиям:
- discovery - идентификация ресурсов для архивации
- crawl - сбор данных через веб-краулер или специфические краулеры для API или соцсетей
- storage - складирование данных для долгосрочного сохранения, обычно с георезервированием
- access - предоставление доступа к архивам через веб-интерфейс или в виде файловых архивов

#archives
Forwarded from Roskomsvoboda
ОГФ’2020: «Умные люди занимаются не слежкой, а аналитикой»

28 ноября мы совместно с «Информационной культурой» @infoculture провели экспертную площадку «Право на приватность и открытость» в рамках Общероссийского гражданского форума.

Собрали в текст главные тезисы и экспертные комментарии из дискуссии «Открытость и приватность: дисбаланс между правами граждан и действиями государства в эпоху пандемии коронавируса».

Участники дискуссии поговорили об эффективности слежки государства за гражданами во время пандемии, шагах к доверию по отношению к государству, «вируспруденции», а также попытались ответить на два главных вопроса — есть ли баланс между интересами государства и общества и, если нет, как его достигнуть.

➡️ Читать на сайте
➡️ Смотреть на YouTube
А также все сессии с ОГФ можно просмотреть в записи
Forwarded from Инфокультура
Мы опубликовали видео и презентации всех мероприятий площадки «Право на приватность и открытость», которую проводили совместно с РосКомСвободой на ОГФ-2020.

Смотрите видео на нашем ютуб-канале:

🔹 Секция «Открытые данные как инструмент общественного контроля борьбы с пандемией»: https://youtu.be/W9HP2e2knog
🔹 Дискуссия «Открытость и приватность: дисбаланс между правами граждан и действиями государства в эпоху пандемии»: https://youtu.be/fKWkh3N2m9M
🔹 Дискуссия: «Ответственные алгоритмы: как открытость способна повлиять на легитимность технологий в обществе?»: https://youtu.be/OL-cUJ7rRkI
🔹 Секция «Гражданские инициативы по приватности и открытости в период пандемии коронавируса»: https://youtu.be/_V_3LeD6UXA

Времени было совсем немного, чтобы охватить всю глубину и масштабность этих проблем, поэтому мы обязательно продолжим их обсуждение в разных форматах и на разных площадках. Присоединяйтесь, подписывайтесь на наш ютуб-канал и следите за анонсами!
Вопрос к знатокам, а Яндекс точно российская компания, а не швейцарская? В форме заявлений о нарушении авторских прав в Яндекс Дзен вот такая вот замечательная пометка про
«Яндекс Сервисиз АГ» Верфтештрассе 4, CH 6005 Люцерн, Швейцария (Werftestrasse 4, CH 6005 Lucerne, Switzerland)

https://yandex.ru/support/abuse/troubleshooting/zen/personal.html

#yandex #notrussiancompany
Enslaved. Большой проект с данными и историческими материалами по рабовладению в США с базой всех кто был рабами, их родственниками, рабовладельцами и так далее [1]. Более 384 тысяч записей через веб интерфейс и как открытые данные и связанные данные [2], а также историями о судьбах отдельных людей.

Интересный проект, современная форма, акцент на повторном использовании данных. Если делать подобное в России то как бы его называли, "Закрепощённые?" или "Крепостные?"

Ссылки:
[1] https://enslaved.org/
[2] https://enslaved.org/data

#data #culture
Для тех кто интересуется открытостью статистических данных вышел свежий отчет от Open Data Watch за 2020 год [1]. В отчете приведено сравнение стран и оценка текущей открытости и покрытия статистических систем стран.
Россия на 58 месте из 187 с оценкой в 59 баллов [2]. Лучше всего у нас со статистикой финансов, балансов и госфинансов. Хуже всего со статистикой здравоохранения, образования, гендера и международной торговли.

Что характерно, исследователи ссылаются на данные в системе ЕМИСС [3] и на статсборники и публикации на сайте Росстата [4]. Все вперемешку потому что, нормальной систематизированной "библиографии" / каталога показателей у Росстата нет.

Интересен и контекст и рекомендации. Рекомендации Росстату там вполне конкретны [5], я бы даже сказал очевидны. А контекст указывает [6] ещё и на то что:
- у России нет государственной стратегии данных (и статистики)
- Россия не приняла хартию открытых данных
- Россия не является членом партнерства Открытых государств
- Россия предоставляет данные IMF в формате SDDS [7]

А по рейтингу, на первом месте, ожидаемо, Сингапур, а на последнем, неожиданно, Туркменистан [8]

Ссылки:
[1] https://odin.opendatawatch.com/Downloads/otherFiles/ODIN-2020-ExecutiveSummary.pdf
[2] https://odin.opendatawatch.com/Report/countryProfileUpdated/RUS?year=2020
[3] http://fedstat.ru
[4] http://gks.ru
[5] https://odin.opendatawatch.com/Report/countryProfileUpdated/RUS?year=2020
[6] https://odin.opendatawatch.com/Report/countryProfileUpdated/RUS?year=2020
[7] https://dsbb.imf.org/sdds/country/RUS/category
[8] https://odin.opendatawatch.com/Report/rankings

#opendata #data #statistics
ОЭСР выпустили третью редакцию обзора цифровой экономики OECD Digital Economy Outlook 2020 [1]

И, хотя Россия уже и не стремится в ОЭСР, и в обзор цифровой экономики не попадает, тем не менее там много интересного и необходимого для "сверки часов" того что происходит в мире

Ссылки:
[1] https://www.oecd.org/digital/oecd-digital-economy-outlook-2020-bb167041-en.htm

#digital #polict #oecd
В Бразилии масштабнейшая утечка персональных данных о гражданах [1], утекли сведения о доступе к информации о 243 миллионах бразильцев через систему e-SUS-Notificia [2]

А я хочу напомнить что в России сейчас параллельно существуют и создаются сразу несколько федеральных государственных информационных систем содержащих информацию о гражданах:
- Портал Госуслуг
- ЕГР ЗАГС
- Единая государственная информационная система в сфере здравоохранения
- Цифровой профиль
- Единый реестр населения

Главный критерий риска которых можно измерить в ответе на вопрос "О скольки гражданах в информационной системе сведения могут утечь одномоментно?". Можно даже индекс риска систем составлять по масштабу охвата граждан.

Ссылки:
[1] https://tjournal.ru/tech/244359-dannye-243-millionov-zhiteley-brazilii-popali-v-set-iz-za-parolya-v-ishodnom-kode-gosudarstvennogo-sayta
[2] https://notifica.saude.gov.br/

#privacy #leaks
Для тех кто ищет открытые данные и побольше, новые наборы данных большого объёма, большая часть про нормативные документы, основной продукт государственных органов.

- Метаданные нормативно-правовых документов с сайта publication.pravo.gov.ru [1] - 580 тысяч документов, с идентификаторами документа на pravo.gov.ru для последующей выгрузки
- Нормативные документы подписанные Президентом РФ [2] - 44 тысячи НПА подписанных Президентом РФ с сайта kremlin.ru и их полные тексты с pravo.gov.ru
- Документы стратегического планирования [3] - метаданные документов стратегического планирования из ГАС Управление. Более 68 тысяч документов , более 3ГБ метаданных. Через какое-то время там же появится ссылка на дамп копии всех документов
- Нормативно-правовые документы города Москвы на сентябрь 2020 года [4] - 39 тысяч документов НПА от Мэрии Москвы со всеми текстами и опубликованными документами. Ссылка на архив в 96Gb
- Метаданные всех официальных документов на сайте Мэрии Москвы [5] - метаданные более чем 238 тысяч документов опубликованных на сайте www.mos.ru включая НПА, письма, рекомендации и иные официально опубликованные документы

А также дополнительно:
- база организаций в подчинении Мэрии Москвы с сайта мэрии mos.ru [6] (более 2700 организаций)
- обработанные данные отчётов по переписи населения 2002 года [7]
- архивные данные по получателям президентских грантов за 2013 год [8] (до появления фонда президентских грантов)

Ссылки:
[1] https://ngodata.ru/dataset/ppgrmeta2020
[2] https://ngodata.ru/dataset/kremlinlaws
[3] https://ngodata.ru/dataset/gasustratdocs
[4] https://ngodata.ru/dataset/mosnormdocs
[5] https://ngodata.ru/dataset/mosdocs
[6] https://ngodata.ru/dataset/mosorgs
[7] https://ngodata.ru/dataset/refined-perepis-2002
[8] https://ngodata.ru/dataset/prgrants2013

#datasets #data
Я довольно много что могу сказать про проактивные госуслуги, говорят то о них давно, в некоторых странах мира они даже внедряются понемногу. Но главные вопросы в том что:
а) А готова ли нынешняя система госусправления к их внедрению? Ведь цифровой социализм патернализм создаст и доп. ответственность за судьбу гражданина. Есть ли осознание этого?
б) А есть ли деньги? Нефтегазовые доходы уже сжимаются, доходы федерального бюджета тоже. А оказание услуг проактивно расширяет число их получателей и совокупную стоимость поддержания одной цифровой услуги. Вопрос - за счёт чего?

#digital #government
Выходные лучшее время разбирать архивы данных.

Очередная подборка наборов данных из архивов:
- Архив аккаунтов органов власти в Twitter [1] 76 официальных аккаунтов органов власти в Twitter на сентябрь 2019 года. Собраны с помощью twint для Национального цифрового архива России (НЦАР)
- Архивы сайтов и Twitter'ов кандидатов Президенты РФ выборов 2018 года [2] Архив твиттера Ксения Собчак, Григория Явлинского, Алексея Навального и остальных кандидатов в Президенты РФ, а также архивы всех сайтов всех кандидатов в Президенты РФ на выборах 2018 года. Общий объём 8.5ГБ в сжатом виде
- Подсети Интернета относящиеся к Российской Федерации [3], а также дополнительная информация по подсетям: префиксы, связанные сети, пиры и так далее на 9 сентября 2019 года.

Я чувствую скоро надо будет завести рубрику ежедневные датасеты:)

Ссылки:
[1] http://ngodata.ru/dataset/govtwitters
[2] http://ngodata.ru/dataset/prescamp2018
[3] http://ngodata.ru/dataset/rusasn

#datasets #data #opendata
Тем временем исследователи, активисты и ещё многие подписывают письмо о том что все данные о вакцинах от COVID-19 должны быть открыты и прозрачны [1]. Инициаторы письма The GovLab и Federation of American Scientists.

Ранее об этом же писали The Washington Post [2] то что требованием для всех вакцин должна быть полная открытость данных о проведении испытаний.

Необходимо ли аналогичное требование в России? Я считаю что безусловно необходимо. Но пока есть проблемы даже с тем чтобы получить просто достоверные данные по заболеваемости и смертности, об этом мы говорили на секции про открытые данные при COVID-19 в России на ОГФ [3]

Ссылки:
[1] https://openvaccines.thegovlab.org/
[2] https://www.washingtonpost.com/opinions/2020/12/04/fda-should-condition-any-vaccine-approval-open-trial-data/
[3] https://www.youtube.com/watch?v=W9HP2e2knog

#opendata #covid19 #data
Я тут планировал написать про великое сожаление от того что в России всё таки активно движется эта тема с предустановкой отечественного ПО на смартфоны. По последним новостям Минцифры [1] ставить будут приложения Яндекса, Mail.ru и Касперского, Госуслуги и МИР как минимум.

Да, крупные экосистемные дата-корпорации те ещё монополисты, да, есть много фактов и свидетельств их манипуляции вендорами, поисковой выдачей в их магазинах приложений и ещё много чего про них можно сказать. Но проблема в том что с момента решения о предустановке, не пользователь, а государство в лице Минцифры РФ принимает решение за потребителя о том что тот должен иметь на своём устройстве. Это как если бы государство решало за гражданина что он должен носить, какую мебель использовать и что читать (одну такую страну многие из нас всё ещё помнят).

История про импортозамещение - она вообще не про граждан. Госполитика в пользу граждан - это демонополизация через выбор, выбор поисковой системы, картографического приложения и других сервисов. Такая модель регулирования применяется в Евросоюзе.

А когда решение о выборе за гражданина принимает государство, то если устройство потребителя не потянет весь этот "ворох отечественного ПО", то и виновато в этом будет Минцифры РФ, а не Яндекс или Mail.ru
При этом и отечественные производители ПО много лукавят. Когда им надо, у них российская юрисдикция, когда не надо швейцарская [2]. У многих отечественных ИТ компаний вот уже много лет стратегия "в разных театрах - разные роли" и я скорее понимаю патовость всей ситуации в которой они находятся, не имея возможности полностью избежать плохого регулирования,
и это совсем не в адрес Минцифры, они пытаются извлечь максимум выгоды при плохой игре. Но это игра неконкурентная, про то как помочь отечественным монополиям против международных монополий, малый и средний бизнес идет побоку.

Вся эта история с предустановкой отечественного ПО становится хуже на фоне того что сейчас происходит в Казахстане с государственным перехватом доступа к сайтам социальных сетей через навязывание пользователям государственного сертификата [3] в рамках "киберучений".

Такой сертификат установленный на пользовательское устройство позволяет реализовывать атаку MITM (Атака посредника) [4] и позволяет органам госбезопасности перехватывать трафик по протоколу HTTPS.

Можем ли мы быть уверены что подобное не начнет происходить в России?

Ссылки:
[1] https://digital.gov.ru/ru/events/40238/
[2] https://t.me/begtin/2312
[3] https://www.zdnet.com/article/kazakhstan-government-is-intercepting-https-traffic-in-its-capital/
[4] https://ru.wikipedia.org/wiki/%D0%90%D1%82%D0%B0%D0%BA%D0%B0_%D0%BF%D0%BE%D1%81%D1%80%D0%B5%D0%B4%D0%BD%D0%B8%D0%BA%D0%B0

#privacy