Ivan Begtin
9.09K subscribers
2.48K photos
4 videos
113 files
5.22K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

CTO&Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
Enslaved. Большой проект с данными и историческими материалами по рабовладению в США с базой всех кто был рабами, их родственниками, рабовладельцами и так далее [1]. Более 384 тысяч записей через веб интерфейс и как открытые данные и связанные данные [2], а также историями о судьбах отдельных людей.

Интересный проект, современная форма, акцент на повторном использовании данных. Если делать подобное в России то как бы его называли, "Закрепощённые?" или "Крепостные?"

Ссылки:
[1] https://enslaved.org/
[2] https://enslaved.org/data

#data #culture
Для тех кто интересуется открытостью статистических данных вышел свежий отчет от Open Data Watch за 2020 год [1]. В отчете приведено сравнение стран и оценка текущей открытости и покрытия статистических систем стран.
Россия на 58 месте из 187 с оценкой в 59 баллов [2]. Лучше всего у нас со статистикой финансов, балансов и госфинансов. Хуже всего со статистикой здравоохранения, образования, гендера и международной торговли.

Что характерно, исследователи ссылаются на данные в системе ЕМИСС [3] и на статсборники и публикации на сайте Росстата [4]. Все вперемешку потому что, нормальной систематизированной "библиографии" / каталога показателей у Росстата нет.

Интересен и контекст и рекомендации. Рекомендации Росстату там вполне конкретны [5], я бы даже сказал очевидны. А контекст указывает [6] ещё и на то что:
- у России нет государственной стратегии данных (и статистики)
- Россия не приняла хартию открытых данных
- Россия не является членом партнерства Открытых государств
- Россия предоставляет данные IMF в формате SDDS [7]

А по рейтингу, на первом месте, ожидаемо, Сингапур, а на последнем, неожиданно, Туркменистан [8]

Ссылки:
[1] https://odin.opendatawatch.com/Downloads/otherFiles/ODIN-2020-ExecutiveSummary.pdf
[2] https://odin.opendatawatch.com/Report/countryProfileUpdated/RUS?year=2020
[3] http://fedstat.ru
[4] http://gks.ru
[5] https://odin.opendatawatch.com/Report/countryProfileUpdated/RUS?year=2020
[6] https://odin.opendatawatch.com/Report/countryProfileUpdated/RUS?year=2020
[7] https://dsbb.imf.org/sdds/country/RUS/category
[8] https://odin.opendatawatch.com/Report/rankings

#opendata #data #statistics
ОЭСР выпустили третью редакцию обзора цифровой экономики OECD Digital Economy Outlook 2020 [1]

И, хотя Россия уже и не стремится в ОЭСР, и в обзор цифровой экономики не попадает, тем не менее там много интересного и необходимого для "сверки часов" того что происходит в мире

Ссылки:
[1] https://www.oecd.org/digital/oecd-digital-economy-outlook-2020-bb167041-en.htm

#digital #polict #oecd
В Бразилии масштабнейшая утечка персональных данных о гражданах [1], утекли сведения о доступе к информации о 243 миллионах бразильцев через систему e-SUS-Notificia [2]

А я хочу напомнить что в России сейчас параллельно существуют и создаются сразу несколько федеральных государственных информационных систем содержащих информацию о гражданах:
- Портал Госуслуг
- ЕГР ЗАГС
- Единая государственная информационная система в сфере здравоохранения
- Цифровой профиль
- Единый реестр населения

Главный критерий риска которых можно измерить в ответе на вопрос "О скольки гражданах в информационной системе сведения могут утечь одномоментно?". Можно даже индекс риска систем составлять по масштабу охвата граждан.

Ссылки:
[1] https://tjournal.ru/tech/244359-dannye-243-millionov-zhiteley-brazilii-popali-v-set-iz-za-parolya-v-ishodnom-kode-gosudarstvennogo-sayta
[2] https://notifica.saude.gov.br/

#privacy #leaks
Для тех кто ищет открытые данные и побольше, новые наборы данных большого объёма, большая часть про нормативные документы, основной продукт государственных органов.

- Метаданные нормативно-правовых документов с сайта publication.pravo.gov.ru [1] - 580 тысяч документов, с идентификаторами документа на pravo.gov.ru для последующей выгрузки
- Нормативные документы подписанные Президентом РФ [2] - 44 тысячи НПА подписанных Президентом РФ с сайта kremlin.ru и их полные тексты с pravo.gov.ru
- Документы стратегического планирования [3] - метаданные документов стратегического планирования из ГАС Управление. Более 68 тысяч документов , более 3ГБ метаданных. Через какое-то время там же появится ссылка на дамп копии всех документов
- Нормативно-правовые документы города Москвы на сентябрь 2020 года [4] - 39 тысяч документов НПА от Мэрии Москвы со всеми текстами и опубликованными документами. Ссылка на архив в 96Gb
- Метаданные всех официальных документов на сайте Мэрии Москвы [5] - метаданные более чем 238 тысяч документов опубликованных на сайте www.mos.ru включая НПА, письма, рекомендации и иные официально опубликованные документы

А также дополнительно:
- база организаций в подчинении Мэрии Москвы с сайта мэрии mos.ru [6] (более 2700 организаций)
- обработанные данные отчётов по переписи населения 2002 года [7]
- архивные данные по получателям президентских грантов за 2013 год [8] (до появления фонда президентских грантов)

Ссылки:
[1] https://ngodata.ru/dataset/ppgrmeta2020
[2] https://ngodata.ru/dataset/kremlinlaws
[3] https://ngodata.ru/dataset/gasustratdocs
[4] https://ngodata.ru/dataset/mosnormdocs
[5] https://ngodata.ru/dataset/mosdocs
[6] https://ngodata.ru/dataset/mosorgs
[7] https://ngodata.ru/dataset/refined-perepis-2002
[8] https://ngodata.ru/dataset/prgrants2013

#datasets #data
Я довольно много что могу сказать про проактивные госуслуги, говорят то о них давно, в некоторых странах мира они даже внедряются понемногу. Но главные вопросы в том что:
а) А готова ли нынешняя система госусправления к их внедрению? Ведь цифровой социализм патернализм создаст и доп. ответственность за судьбу гражданина. Есть ли осознание этого?
б) А есть ли деньги? Нефтегазовые доходы уже сжимаются, доходы федерального бюджета тоже. А оказание услуг проактивно расширяет число их получателей и совокупную стоимость поддержания одной цифровой услуги. Вопрос - за счёт чего?

#digital #government
Выходные лучшее время разбирать архивы данных.

Очередная подборка наборов данных из архивов:
- Архив аккаунтов органов власти в Twitter [1] 76 официальных аккаунтов органов власти в Twitter на сентябрь 2019 года. Собраны с помощью twint для Национального цифрового архива России (НЦАР)
- Архивы сайтов и Twitter'ов кандидатов Президенты РФ выборов 2018 года [2] Архив твиттера Ксения Собчак, Григория Явлинского, Алексея Навального и остальных кандидатов в Президенты РФ, а также архивы всех сайтов всех кандидатов в Президенты РФ на выборах 2018 года. Общий объём 8.5ГБ в сжатом виде
- Подсети Интернета относящиеся к Российской Федерации [3], а также дополнительная информация по подсетям: префиксы, связанные сети, пиры и так далее на 9 сентября 2019 года.

Я чувствую скоро надо будет завести рубрику ежедневные датасеты:)

Ссылки:
[1] http://ngodata.ru/dataset/govtwitters
[2] http://ngodata.ru/dataset/prescamp2018
[3] http://ngodata.ru/dataset/rusasn

#datasets #data #opendata
Тем временем исследователи, активисты и ещё многие подписывают письмо о том что все данные о вакцинах от COVID-19 должны быть открыты и прозрачны [1]. Инициаторы письма The GovLab и Federation of American Scientists.

Ранее об этом же писали The Washington Post [2] то что требованием для всех вакцин должна быть полная открытость данных о проведении испытаний.

Необходимо ли аналогичное требование в России? Я считаю что безусловно необходимо. Но пока есть проблемы даже с тем чтобы получить просто достоверные данные по заболеваемости и смертности, об этом мы говорили на секции про открытые данные при COVID-19 в России на ОГФ [3]

Ссылки:
[1] https://openvaccines.thegovlab.org/
[2] https://www.washingtonpost.com/opinions/2020/12/04/fda-should-condition-any-vaccine-approval-open-trial-data/
[3] https://www.youtube.com/watch?v=W9HP2e2knog

#opendata #covid19 #data
Я тут планировал написать про великое сожаление от того что в России всё таки активно движется эта тема с предустановкой отечественного ПО на смартфоны. По последним новостям Минцифры [1] ставить будут приложения Яндекса, Mail.ru и Касперского, Госуслуги и МИР как минимум.

Да, крупные экосистемные дата-корпорации те ещё монополисты, да, есть много фактов и свидетельств их манипуляции вендорами, поисковой выдачей в их магазинах приложений и ещё много чего про них можно сказать. Но проблема в том что с момента решения о предустановке, не пользователь, а государство в лице Минцифры РФ принимает решение за потребителя о том что тот должен иметь на своём устройстве. Это как если бы государство решало за гражданина что он должен носить, какую мебель использовать и что читать (одну такую страну многие из нас всё ещё помнят).

История про импортозамещение - она вообще не про граждан. Госполитика в пользу граждан - это демонополизация через выбор, выбор поисковой системы, картографического приложения и других сервисов. Такая модель регулирования применяется в Евросоюзе.

А когда решение о выборе за гражданина принимает государство, то если устройство потребителя не потянет весь этот "ворох отечественного ПО", то и виновато в этом будет Минцифры РФ, а не Яндекс или Mail.ru
При этом и отечественные производители ПО много лукавят. Когда им надо, у них российская юрисдикция, когда не надо швейцарская [2]. У многих отечественных ИТ компаний вот уже много лет стратегия "в разных театрах - разные роли" и я скорее понимаю патовость всей ситуации в которой они находятся, не имея возможности полностью избежать плохого регулирования,
и это совсем не в адрес Минцифры, они пытаются извлечь максимум выгоды при плохой игре. Но это игра неконкурентная, про то как помочь отечественным монополиям против международных монополий, малый и средний бизнес идет побоку.

Вся эта история с предустановкой отечественного ПО становится хуже на фоне того что сейчас происходит в Казахстане с государственным перехватом доступа к сайтам социальных сетей через навязывание пользователям государственного сертификата [3] в рамках "киберучений".

Такой сертификат установленный на пользовательское устройство позволяет реализовывать атаку MITM (Атака посредника) [4] и позволяет органам госбезопасности перехватывать трафик по протоколу HTTPS.

Можем ли мы быть уверены что подобное не начнет происходить в России?

Ссылки:
[1] https://digital.gov.ru/ru/events/40238/
[2] https://t.me/begtin/2312
[3] https://www.zdnet.com/article/kazakhstan-government-is-intercepting-https-traffic-in-its-capital/
[4] https://ru.wikipedia.org/wiki/%D0%90%D1%82%D0%B0%D0%BA%D0%B0_%D0%BF%D0%BE%D1%81%D1%80%D0%B5%D0%B4%D0%BD%D0%B8%D0%BA%D0%B0

#privacy
В блоге Евгения Яна хороший обзор платформ обнаружения данных (data discovery platforms) [1]. Их сейчас появилось много, в основном с открытым кодом и почти все от ведущих цифровых компаний. Nemo от Facebook, DataBook от Uber, DataHub от LinkedIn. Существуют и сильные внутрикорпоративные продукты, но ценник на них такой что вот эти проекты с открытым кодом особенно интересны.

Важная их особенность в том что они нужны уже зрелым организациям внутри которых есть несколько команд data science и проблемы с находимостью внутренних данных.

Но все такие корпоративные каталоги данных и платформы обнаружения данных - это уже зрелые продукты для зрелой систематизации данных и организации работы с ними.

Ссылки:
[1] https://eugeneyan.com/writing/data-discovery-platforms/

#data
Для тех кто интересуется вопросом "а как там у них с открытыми данными", а то есть международным опытом, приведу в пример французский проект "Обсерватория региональных данных" (Observatoire opendata des territoires) [1] это проект от ассоциации OpenDataFrance где собираются сведения о всех порталах открытых данных во Франции, по всем территориям.

Результаты публикуются в виде графиков [2], а также выкладываются на Github, Airtable и на портал открытых данных Франции data.gouv.fr

Все материалы только на французском языке, поэтому упоминаются редко в англозычных и русскоязычных материалах.

Ссылки:
[1] https://www.observatoire-opendata.fr
[2] https://www.observatoire-opendata.fr/resultats/

#opendata #france
Вопрос к знатокам, в июле появился очередной игрок на "поляне цифровой трансформации" АНО "Рт-Цифровая Трансформация" под Ростехом. Есть ли инсайды кто они, что они и что будут делать? Вписаны ли уже в какую-то нормативку?
Для тех кто ищет открытые данные данные для работы и не только, свежие датасет:
- Компании победители и участники конкурсов Фонда содействия инновациям - 5147 записей [1]
- Реестр производственных субъектов малого и среднего предпринимательства - потенциальных поставщиков крупнейших заказчиков - 31296 записей [2]

Оба набора данных собраны в рамках архивационной кампании по сохранению цифровых материалов институтов развития.
Следующим шагом будет полный архив сайтов этих организаций.

Со временем они будут интегрированы в такие проекты как Госрасходы [3], для учета всех расходов органов власти и государства в целом.

Ссылки:
[1] https://ngodata.ru/dataset/fasie-orgs
[2] https://ngodata.ru/dataset/reestrmp
[3] https://spending.gov.ru

#data #opendata #archives
Даже не знаю что сказать. Это, безусловно, очень хорошая новость, потому что ОЭСР - это одна из крупных международных организаций в повестке которой есть тема открытых данных. Теперь главное чтобы ответственные ФОИВы ответственно подходили к госполитике открытых данных, а не как одно ведомство, на которое сейчас не буду тыкать пальцем 👉
Forwarded from Майский указ
👍Михаил Мишустин попытается вернуть Российскую Федерацию в международный «элитный клуб» — Организацию экономического сотрудничества и развития (ОЭСР). Переговоры о вступлении в ОЭСР были приостановлены в 2014 году, когда экономическая организация отчего-то решила стать политической и осудила воссоединение России и Крыма.

Прошли годы, угасло напряжение, и наша страна вновь (теперь уже на официальном уровне) приступает к реализации плана по имплементации в национальное законодательство требований и стандартов ОЭСР — лучших мировых практик в сфере госуправления и борьбы с монополиями, устойчивого развития и экологии, налоговой и таможенной политик, etc. Первым перезагрузить переговорный процесс предложил экс-глава Минэкономразвития Максим Орешкин, с его уходом «знамя» подхватил вице-премьер Алексей Оверчук.

И вот премьер Мишустин утвердил весьма конкретный План работы по взаимодействию Российской Федерации с ОЭСР в 2021-2022 гг. Наряду с текущими мероприятиями ОЭСР, к участию в которых возвращаются российские чиновники, он содержит набор амбициозных и объемных задач. В частности, председатель Правительства поручил:

✔️Регулярное представление в ОЭСР данных об открытости и честности в государственном секторе экономики.

✔️Обеспечение сближения регуляторных подходов к обращению лекарственных средств в странах ОЭСР и ЕАЭС.

✔️Участие в исследовательских и аналитических программах ОЭСР по развитию технологий «искусственного интеллекта».

✔️Возврат России к участию в автоматизации программы обмена финансовых операций, в том числе для борьбы с размыванием налоговой базы.

✔️Имплементация в российское законодательство лучших практик ОЭСР по борьбе с незаконным промыслом биоресурсов.

✔️Представление Россией детальной информации для участия в стратегических для ОЭСР обзорах: от применения пестицидов и актуальных экологических данных в рамках проекта CIRCLE — до развития устойчивого производства, климатической нейтральности, образовательных программ.

✔️Отдельная тема — это поручение Мишустина об обязательном использовании опыта, наработанного странами ОЭСР, в реализации практической государственной политики управления почти по всем сферам регулирования.

Безусловно, российским топ-чиновникам (которые в последние пять лет были фактически оторваны от обсуждения вопросов в рабочих группах, комитетах и комиссиях ОЭСР) будет непросто исполнить план, утвержденный Правительством. Но «заявка на победу» от Мишустина (которая, безусловно, согласована с президентом Путиным) — амбициозна и крайне полезна как для экономики, так и для социальной сферы РФ.
В США опубликовали официальные данные по загрузке больниц во время эпидемии COVID-19 [1] с гранулярностью до каждой больницы и по неделям начиная с 31 июля 2020 года.

Также можно обратить внимание что на этом же портале HealthData.gov раскрывается 188 наборов данных связанных с COVID-19 [2] и 4634 по системе здравоохранения в целом [3], причём не менее половины данных поступает из систем здравоохранения отдельных штатов, а сам портал создан U.S. Department of Health которые также ведут HHS Protect Public Data Hub [4] где публикуются дашборды статистики, но сами данные, обязательно, публикуются на HealthData.gov, а уже оттуда транслируются на другие официальные государственные ресурсы.

Ссылки:
[1] https://healthdata.gov/dataset/covid-19-reported-patient-impact-and-hospital-capacity-facility
[2] https://healthdata.gov/search/type/dataset?query=covid-19&sort_by=changed&sort_order=DESC
[3] https://healthdata.gov/search/type/dataset
[4] https://protect-public.hhs.gov/

#opendata #data #covid19 #usa #health
Публикация данных о COVID-19 во Франции - 77 баз данных и 121 пример их использования в открытых проектах [1] на официальном портале data.gouv.fr.

Что дополнительно стоит отметить про французский опыт в открытых данных:
- их портал data.gouv.fr работает на их ПО udata [2] с открытым кодом, используется, похоже, мало где за пределами Франции
- у них опубликовано более 2447 примеров использования открытых данных [3], включая: 1132 визуализации, 667 приложений, 278 публикаций в блогах, 168 статей в СМИ и 131 API https://github.com/opendatateam/udata/
- всего 65 тысяч пользователей, 35 тысяч наборов данных с 195 тысячами ресурсов (файлов, ссылок и тд). [4]

Ссылки:
[1] https://www.data.gouv.fr/fr/search/?tag=covid19
[2] https://github.com/opendatateam/udata/
[3] https://www.data.gouv.fr/fr/reuses/
[4] https://www.data.gouv.fr/fr/dashboard/

#france #opendata
2020_Minsport_reg_survey.pdf
6.3 MB
Спортивная синкопа
Минспорт внезапно опубликовал "Индекс цифровой трансформации сферы физической культуры и спорта регионов РФ в 2020 году".
Очень прилично смотрится. Ну, и не удивительно - в Минспорте сильный CDTO, Андрей Сельский. Он, правда, по своей квалификации больше эйчар, чем айтишник, но на таком уровне важнее менеджерские компетенции, а не знание пяти языков программирования
Новость достаточно важная чтобы о ней написать, но недостаточная чтобы говорить только о ней. Утечка данных о заболевших COVID-19 в Москве - это не первая и не последняя такая утечка в мире. Недавно была куда большая по объёмам утечка данных в Бразилии. Но это не отменяет всего того безобразия того как реестр заболевших COVID'ом вели в Google Docs.

Слов нет, но эмоций много. Я сегодня отказывался комментировать это СМИ чтобы не ругаться матом в прямом эфире.

#leaks
Forwarded from Baza
Если вы переболели ковидом в Москве, у нас для вас плохие новости. Скорее всего ваши персональные данные попали в сеть — сейчас столичные власти расследуют крупнейшую утечку с начала пандемии.

По разным данным, в сеть могла попасть персональная информация 300 тысяч переболевших ковидом москвичей. В таблицах, которые гуляют по интернету, весь набор данных: ФИО, год рождения, адрес регистрации, мобильный номер. У некоторых видны даже паспортные данные.

Откуда произошла утечка, пока точно неясно — представители мэрии о ней знают и говорят, что разбираются: например, оперативно чистят чаты в телеграмм-каналах, где раскидываются базы. Инфу могли украсть с компьютера медицинского работника. Доступ к этой информации есть также у комитета госуслуг города Москвы.