Ivan Begtin
9.32K subscribers
2.1K photos
3 videos
102 files
4.83K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
Как устроено содержание типичного госсайта на примере сайта Россвязи (только что заархивированного в 16GB в сжатом виде и 28GB в распакованном).

Всего 97 тысяч файлов:
- около 40% - это HTML страницы общим объёмом 9.1GB (средний размер веб страницы 236 килобайт)
- более 50% файлов - это изображения в jpeg, объёмом в 9.7GB среднего размера в 186 килобайт.
- большая часть документов в форматах PDF и RTF, 164 Excel файла.
- примерно 16 тысяч веб страниц - это перечень всех таксофонов (совершенная идиотская идея, не понимаю зачем они его так публиковали)
- совсем немного файлов с данными - в форматах JSON, XML, практически ничего
- а вот Excel файлов более чем на 80 мегабайт, могли бы их преобразовать хотя бы в данные, что ли

Если говорить не про историческую, а про практическую ценность веб архивов, то это задачи data discovery, выкачивать всё, а потом автоматически анализировать то какие файлы можно превращать в наборы данных.

#webarchive #archive #datasets
ТАСС пишет что в ближайшие 3 года МВД создаст банк биометрических данных россиян [1]. Этот банк будет входить в ранее анонсированную систему ФИСБУ (Федеральная информационная система биометрических учетов) [2] созданной на базе пилотов системы Безопасный город в г. Москве.

При этом, в последней редакции открытой части плана информатизации МВД сведения об этой информационной системе отсутствуют [3].

Неизвестно будут ли туда вносится биометрические данные всех россиян и въезжающих в страну или же только в рамках существующих учётов.

Пока информации очень мало.

Ссылки:
[1] https://tass.ru/obschestvo/10067035
[2] https://www.vedomosti.ru/society/news/2020/02/24/823676-i
[3] https://мвд.рф/mvd/documents/20120328164545/item/21625373

#mvd #govsystems #gosit
Извините, но это очень смешно. Но не только то что это произошло, а то насколько упала планка в обеспечении безопасности в условиях пандемии.

#security #fun
Могут ли одни органы власти оказывать услуги другим органам власти? В США могут и делают это официально. Система управления сайтами Federalist [1] это продукт General Service Administration в составе Правительства США. В этом продукте любой орган власти или иная государственная структура может создавать неограниченное число сайтов в домене .gov платя всего лишь $24,949 долларов США в год. Очень немного, это около 1.9 миллионов рублей в год.

При этом сайты получают:
- соответствие всем официальным стандартам;
- автоматическое тестирование;
- сертификат HTTPS;
- отличный CDN;
- отсутствие платежей за хранение файлов и трафик.

Сейчас на базе этой системы работают 134 сайта 9 федеральных агентств США.

Ссылки:
[1] https://federalist.18f.gov

#website #digital #usa
Нужна ли возможность в России одним органам власти создавать платные продукты для других органов власти и взимать с них деньги?
anonymous poll

Да, обязательно нужна – 53
👍👍👍👍👍👍👍 31%

Нет, не нужна. Это же перебрасывание денег налогоплательщиков из кармана в карман – 41
👍👍👍👍👍 24%

Они и так оказывают через свои ФГБУ, ФГУПы и подчинённые АО – 35
👍👍👍👍👍 21%

Нечего государству делать в конкурентном коммерческом рынке – 25
👍👍👍 15%

Лучше пусть будет, может хоть клиентоориентированность появится – 16
👍👍 9%

👥 170 people voted so far. Poll closed.
РБК пишут про реформу институтов развития [1] , ликвидацией 8 из них и объединением остальных под ВЭБ.РФ.
Многие из этих институтов развития, действительно, много лет (десятилетие) друг друга дублировали и как они будут существовать теперь внутри ВЭБ.РФ - это интересно.

Ещё интереснее то что ВЭБ превращается в супер-мега госкорпорацию с многократно большими ресурсами, я пока не могу оценить всех изменений которые за этим последуют. Потому что очевидно что некоторые из старых команд институтов развития потеряют работу полностью, другие будут встроены в новую оргмодель. Непонятно какие из этих структур сохранят юрлица и какие нет.

Но вот что могу сказать точно это то что у всех этих институтов развития публиковалось довольно много данных и похоже пора делать архивные слепки их ресурсов. Честно говоря у меня не доходили руки чтобы инвентаризировать хотя бы их домены (а их много), но официальные сайты сохранить нужно как минимум.

Там есть много того что долгосрочно должно было попасть в базу Госрасходов [2], например, компании получившие господдержку и суммы предоставленных субсидий и ещё немало всего (РФРИТ, Фонд содействия инновациям, РНФ и и др.).

Ссылки:
[1] https://www.rbc.ru/ins/society/23/11/2020/5fbb360d9a79474d25c90e85?
[2] https://spending.gov.ru

#preservation #archives #government
Большинство проголосовало за то что официально органы власти должны иметь возможность оказывать услуги другим органам власти или констатировали факт что это и так происходит. И только 38% точно против (25% что это перебрасывание из кармана в карман и 13% тех кто считает что это рынок где не место государству).
Об архивации официальных сайтов и иных цифровых ресурсов институтов развития.
Я подготовил открытый список общедоступных ресурсов [1], там базовые метаданные по каждому сайту и стратегия архивации.

Обратите внимание что:
- есть не только официальные сайты, но и данные публикуемые как API. Стандартный подход к архивации их не возьмёт.
- нужно время чтобы собрать сведения о соцсетях и расставить приоритеты по сбору данных из них: из твиттера просто, из фэйсбука сложно, из Youtube требует очень много места
- сайт Фонда защиты прав участников долевого строительства https://фонд214.рф/ уже недоступен (быстро они)
- не все сайты проектов учтены, нужно их собирать
- учтены некоторые ресурсы в которых текущие институты развития были партнерами и которые могут исчезнуть

Если Вы знаете что-то относящееся к институтам развития:
- что имеет ценность
- может исчезнуть
- не безумно сложно собрать

То пишите мне тут или на ibegtin@infoculture.ru.

Итогом будет коллекция архивов сайтов, данных, публикаций в соцсетях доступных для всех заинтересованных.

Ссылки:
[1] https://docs.google.com/spreadsheets/d/1YIwLeSBJ3WqR4nvsPq50rLkX2Z_4uHpW2q9ni8hw8x0/edit?usp=sharing

#archives #preservation #datasets
Вышло Постановление Правительства Российской Федерации от 18.11.2020 № 1867 по предустановке отечественного софта [1].

Я лично не считаю эту затею сколь бы то ни было хорошей, но неизбежной. Проблема в том что это не решит ни проблемы монополий в цифре, ни снизит слежку зарубежными компаниями.

Достаточно вспомнить о том что браузер Chrome лидирует у потребителей несмотря на то что он не предустановлен на десктопах или то что многое из того что планируется предустанавливать никогда ранее не предустанавливалось производителями.

Ключевой вопрос в том можно ли будет удалять это ПО. Потому что некоторые вендоры давно уже играют в неудаляемые приложения.

Ссылки:
[1] http://publication.pravo.gov.ru/Document/View/0001202011230051?index=15&rangeSize=1

#government #it
Просто в качестве регулярного напоминания. ОАО "Большая российская энциклопедия" [1] получило субсидию федерального бюджета на 684 миллиона рублей [2] на создание и функционирование общенационального интерактивного энциклопедического портала.

Задача, несомненно, общественно полезная, значимая и важная, особенно если она хорошо сделана, материалы опубликованы под свободными лицензиями, есть данные и API и так далее

Только вот с 2015 года организация получатель субсидии не публикует на своём сайте финансовую отчетность, списки аффилированных лиц, изменения в уставе и состав совета директоров [3], а с 2017 года не публикует ту же информацию и в системе "Прайм Раскрытие" где сведения публиковались ранее [4].

Учитывая что данное ОАО потратило менее 100 миллионов за 2020 год на контракты с подрядчиками [5] (название подрядчиков более не раскрываются из-за изменений в 223-ФЗ), а число его сотрудников составляет лишь 30 человек (по данным ФНС на конце 2019 года) возникают вопросы

1. Где энциклопедический портал?
2. Кто ответственнен за то что ОАО принадлежащее Росимуществу (Правительству РФ) не выполняет требования законодательства по раскрытию информации?
2. Куда деньги то ушли и идут?

Кстати, в связи с ликвидацией Роспечати разбираться с этим теперь Минцифре России.

Очень хочу пожелать им в этом удачи;)

Ссылки:
[1] https://greatbook.ru
[2] https://spending.gov.ru/subsidies/subsidies_list/13520P0S000/
[3] https://greatbook.ru/oao-info.html
[4] https://disclosure.1prime.ru/Portal/Default.aspx?emId=7709654510
[5] https://spending.gov.ru/goscontracts/contracts/?customerinn=7709654510&customerkpp=770901001&sort=-signDate

#spending #encyclopedia #bigenc #digital
По поводу актуальных историй про то что Московское правительство создаёт очередную систему слежки за горожанами, МВД создаёт базу биометрических паспортов и нового приложения Минкомсвязи "Стопкоронавирус контакты" мне есть много что сказать, но я что-то так много и так часто комментировал это журналистам последнюю неделю и даже, перекрестившись, ходил на передачу на НТВ в качестве одного из экспертов за что меня уже троллят все коллеги что это видели.

Я сформулирую тезисно и сразу с нескольких точек зрения которые мне удаётся пока что удерживать одновременно в моей голове.

Общественная позиция
1. Новые инструменты слежки за гражданами неподотчетны, непрозрачны, неизмеримы поскольку закрыты и не предусматривают прав граждан на запрет слежки за собой. Да и даже на то чтобы узнать что о тебе собрано.
2. Сейчас отсутствуют публичные инструменты противодействия таким инициативам, они не согласуются с законодательными властями или же законодательные власти не прислушиваются к опасениям граждан.
3. Вместо регулирования big tech органы власти воспроизводят их худшие практики и сами пытаются стать цифровыми монополиями.

Государственная позиция
1. Создание информационных систем одними органами власти усиливает их в отношении других и создает возможности для злоупотреблений. Злоупотребления могут пресекаться ведением цифрового надзора за создаваемыми информационными системами.
2. Такой надзор должны осуществлять, и Роскомнадзор и Роспотребнадзор, которые активно проверяют коммерческие компании и почти полностью игнорируют государственные организации и органы власти.
3. Это также требует введение цифровой повестки в деятельность этих надзорных органов поскольку сейчас они всё ещё мыслят категориями физических объектов.
4. Основной надзор за государственными структурами в России осуществляют органы прокуратуры. Без возможности технической и кадровой по надзору за цифровой повесткой: информационными системами, мобильными приложениями и тд. нарушения там продолжаться.

Взгляд со стороны бизнеса
1. Практически все эти инициативы технологические, но происходят неконкурентным образом.
2. Бизнес давно имеет платформы для отслеживания потребителей с гораздо более серьёзным и широким охватом устройств/людей.
3. Бизнес хотя бы _пытается_ саморегулироваться и реагирует или понимает что будет реагировать в ближайшее время на запрос на этическое использование данных со стороны граждан.

#privacy #surveillance
Я продолжу цикл про государственные информационные системы о которых мало кто знает, несмотря на наличие там вполне полезных данных.

- ЕСИМО [1] Единая государственная система информации об обстановке в мировом океане. Разработана Минэкономразвития, участвуют в ней более десятка органов власти. Включает базу более чем 3300 показателей/наборов данных/цифровых материалов. Можно сказать что это был один из первых порталов данных.
- СГРИР «Автоматизированная информационная система государственной регистрации информационных ресурсов» [2] по логике своего существования должна была включить все сведения о базах данных (информационных ресурсах) регистрируемых государством, по факту это каталоги электронных изданий
- ГАС Управления, документы стратегического планирования в рамках [3] мало кому известных за пределами ряда органов власти реестр документов стратегического планирования. Для тех кто изучает работу муниципальных образований там есть немало интересного.

Ссылки:
[1] http://esimo.ru
[2] http://catalog.inforeg.ru/
[3] https://gasu.gov.ru/stratdocuments

#data #government #gis
Оказывается ещё в сентябре Bloomberg расширили их платформу альтернативных данных [1] и добавили туда предложения от 60 провайдеров данных [2] включая данные по отслеживанию судов, передаче нефти, цепочках поставок и так далее, ещё довольно много всего. Это чем-то напоминает ранее купленную Nasdaq платформу Quandl [3] чуть ли не главным достоинством которой было как раз огромное число источников альтернативных данных.

При этом модель, что Quandl, что сервиса альтернативных данных Bloomberg, что, например, маркетплейса данных внутри Factset [4] показывают что бизнес модель маркетплейса данных работает когда есть большой пул потребителей которые докупают их в добавление к основному продукту, по крайней мере в той части которая касается данных для анализа рынка, оценки компаний и их показателей.

Ссылки:
[1] https://www.tradersmagazine.com/am/bloomberg-expands-alt-data-offering/
[2] https://www.bloomberg.com/professional/product/alternative-data/
[3] https://www.quandl.com/
[4] https://www.factset.com/marketplace

#alternativedata
В Бразилии утечка данных о 16 миллионах пациентах с COVID-19 [1] причём не через взлом, а "криворукость" сотрудника госпиталя в Сан-Пауло. Затронуло президента страны и 17 губернаторов.

А в Intertrust выпустили отчёт о безопасности приложений используемых для слежки при COVID-19, у 85% есть риски утечки данных [2].

Не болейте, болезнь создает новые риски слежки.

Ссылки:
[1] https://www.zdnet.com/article/personal-data-of-16-million-brazilian-covid-19-patients-exposed-online/
[2] https://www.intertrust.com/news/intertrust-releases-2020-security-report-on-global-mhealth-app-threats/

#privacy #covid19
Я напоминаю что завтра Общероссийский гражданский форум [1] и совместно с @roskomsvoboda мы ведем большой блок по открытости и приватности.

В программе можно найти подробности [2].

Обязательно посмотрите трансляцию, а заодно не стесняйтесь подбросить интересные вопросы.

Ссылки:
[1] https://civil-forum.ru/
[2] https://2020.civil-forum.ru/#!/topics

#opendata #privacy
Forwarded from Екатерина Шульман (Ekaterina Schulmann)
Поговорили с Иваном Бегтиным, апостолом открытых данных, о заявленной административной реформе им. премьера Мишустина, о так называемых "институтах развития", лукавстве бюрократической статистики, сходстве и различии между Сколково и Сириусом, новой монополизации и иных увлекательных сторонах госуправления. Граждане комментирующие жалуются на ведущего, который мешает, и на частые рекламные паузы (не на моем канале, а в радиоэфире). Но, надо сказать, комментаторы хронически ругают любых ведущих, кроме всенародного любимца Максима Курникова, а этот ведущий зато после каждой паузы так вдохновенно рассказывает о подвигах Екатерины Енгалычевой в Мосгордуме, как будто у них взаимный договор о продвижении подписан (на самом деле нет). В общем, вышло живенько, мне лично удалось узнать кое-что новое о повадках бюрократии, её защитной окраске и меняющихся пищевых привычках.
С приближением конца года я всё более чувствую себя "медиаживотным", слишком много комментариев журналистам, публичных мероприятий и выступлений. Видимо, всё из-за пандемии, но вот же в продолжение повестки моё интервью для Znak.com [1]

В принципе, я там ничего нового не сказал, просто повторил то о чём говорю лет 10.

Ссылки:
[1] https://www.znak.com/2020-11-27/pochemu_gosudarstvo_skryvaet_vse_bolshe_dannyh_ot_grazhdan_i_chto_s_etim_delat_intervyu

#opendata #government
Forwarded from Roskomsvoboda
📌Прямо сейчас на нашей площадке «Право на приватность и открытость» дискуссия об ответственных алгоритмах.

Участники постараются выяснить и ответить на вопрос, как открытость информации способна повлиять на легитимность технологий в обществе.

Спикеры секции:
▪️Елена Брызгалина, заведующая кафедрой философии образования философского факультета МГУ, член локального этического комитета НЦЗД Минздрава РФ;
▪️Саркис Дарбинян, глава юридической практики РосКомСвободы и управляющий партнёр Digital Rights Center;
▪️Иван Бегтин, директор АНО «Инфокультура»;
▪️Алексей Раевский, генеральный директор Zecurion;
▪️Андрей Устюжанин, заведующий научно-учебной лабораторией LAMBDA Факультета компьютерных наук НИУ ВШЭ.

Модератор:
▪️Василий Буров, соучредитель АНО «Инфокультура», советник директора МИЭМ НИУ ВШЭ.

❗️Подключайтесь к трансляции и задавайте свои вопросы спикерам!
Британский The Open Data Institute раздаёт до 4-х грантов до 15 тысяч фунтов (примерно 1.5 миллиона рублей) [1] на инструменты с открытым кодом по работе с данными. Можно подавать как инструменты новые, так и доработку существующих, главное чтобы у него были пользователи и можно было бы подтвердить востребованность инструмента.

Что характерно, они дают 30% аванса и 70% после принятия работы в середине марта. Можно сказать что это грант по модели подтверждения результата. Или закупка со свободой творчества у исполнителя.

Ссылки:
[1] https://theodi.org/article/call-for-proposals-funding-to-develop-open-source-tools-for-data-institutions

#opendata #grants #tools