Ivan Begtin
8.07K subscribers
1.5K photos
3 videos
100 files
4.25K links
I write about Open Data, Data Engineering, Government, Privacy and Data Preservation and other gov and tech stuff
Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech

Contact @NMBabina for ads proposals
Download Telegram
Я за этот год очень много чего плохого (недоброжелательного) написал про Мэрию Москвы, особенно в части работы с данными, но это не значит что "всё плохо". Есть и то за что можно и нужно хвалить. Например, Главархив Москвы разместил у себя на сайте все церковные метрические книги [1] с 1726 года по 1932 год. Об этом есть новость на сайте Мэрии Москвы [2] и обещают в следующем году оцифровать ревизские сказки - переписи населения того времени.

В следующем году мы будем перезапускать наш проект Национального цифрового архива [3] и запускать его подпроекты и эти книги мы также обязательно будем интегрировать в наш архив.

В любом случае - это новость Мэрии Здорового Человека, хорошо что такая оцифровка идёт, хорошо что такие материалы доступны.

Ссылки:
[1] https://cgamos.ru/metric-books/
[2] https://www.mos.ru/news/item/84607073/
[3] http://ruarxive.org

#archives #digitalpreservation #moscow
Мэрия Москвы в лице ДИТ Москвы запланировала собирать больше данных о жителях города через создание новой системы сбора и хранения персональных данных. Об этом пишет Коммерсант [1] с указанием закупки на 185 миллионов рублей по инициативе властей города.

Более широкая картина
Система будет называться «Централизованное ведение профиля заявителя» (ГИС ЦВПЗ) и она очень похожа на аналогичную федеральную инициативу цифрового профиля который делают Минцифры РФ и ЦБ РФ. Интересно как в будущем эти системы будут интегрированы и будут ли, в принципе, власти Москвы склонны к созданию собственной, полузамкнутой экосистемы. Интересно также на основании каких соглашений с ФОИВами будут собираться сведения из федеральных баз данных, будут ли меняться федеральные законы и ещё много разных вопросов касательно среды в которой всё это происходит.

Последствия
Ключевое последствие - усиление Мэрии Москвы (ДИТ Москвы) на "административном рынке" слежки за гражданами. Москва не только крупнейший город страны и здесь не только около 80% денег банковской системы и все федеральные органы власти, но и крупнейший транспортный хаб.

Мои личные комментарии
Если сделать небольшое дополнение в политике регистрации сведений и на портале госуслуг Москвы могут обязать регистрироваться не только москвичей, но и всех тех кто пользуется московской транспортной инфраструктурой, участвует в госторгах, арендует помещения, снимает жильё и так далее. Иначе говоря значительная доля экономически активного населения уже находится под непрерывной слежкой и эта слежка будет всё полнее и шире.

Да, можно использовать собираемые данные для выдачи целевых субсидий, а можно использовать и для целевой модели выдачи льгот и лишения их десятков тысяч граждан которые власти города могут счесть "достаточно богатыми" чтобы их получать.

Ссылки:
[1] https://www.kommersant.ru/doc/4639641

#moscow #privacy
Новый жанр заметок в журналистике - это новые госприложения. РБК написали про TDM Messenger [1] выложенный и оперативно удалённый ГКУ Информационный город (юр. лицо от которого публикуются приложения Правительства Москвы, ДИТ Москвы и тд.).

Приложение оказалось разработанным ID Parterner Ltd. [2], ООО «Айди Партнер», московским крупным строительным подрядчиком, ранее не замеченном в наличии ИТ компетенций, зато с большим пакетом госконтрактов в разных регионах страны [3].

А вот контракт на разработку мессенжера найти не удалось и очень хочется понять основания на которых ГКУ Информационный город (ДИТ Москвы) его публиковало. Субконтрактом какого контракта является это приложение?

Хочется ещё провести анализ его приватности, но его слишком быстро удалили.

Ссылки:
[1] https://www.rbc.ru/technology_and_media/25/02/2021/6036607a9a7947295d9a9188
[2] https://www.id-partner.net/
[3] https://clearspending.ru/supplier/inn=7733668641&kpp=770301001

#it #government #moscow #privacy
Ко дню открытых данных завершилось голосование по Moscow Dataviz Awards 2021 [1] это ежегодная международная премия за достижения в области инфографики, визуализации данных и дата-арта.

Посмотрите на победителей, достойны не только они, но и огромное число других заявок. Лично я особенно рад что эта премия стала международной, много заявок было и из других стран.

О победителях подробнее в блоге Максима Осовского в Facebook [2]

Ссылки:
[1] https://moscowdatavizawards.com
[2] https://www.facebook.com/osovskiy/posts/10221955712660074

#opendata #dataviz #datajournalism #moscow #awards
К вопросу об актуализации технологий и в продолжение раскрытия государственного кода. Несколько лет назад ДИТ Москвы инициативно раскрыли исходный код нескольких проектов на блокчейн которые используются для голосования в Москве, для заявок в реестр ярмарок и так далее. Всё это подавалось как прозрачные проекты с раскрытием кода и с возможностью проверить записи в блокчейне. Но, не прошло и пары лет, а этот код уже не работает. Пример, код для проверки блокчейн записей о заявках на ярмарки в Москве [1] был основан на продукте Parity Shell, который уже устарен пару лет назад [2], больше не работает и не обновляется код проекта. Как результат не работает и код раскрытый ДИТ Москвы.

Почему? Потому что открытый код - это не однократное его раскрытие, а работа с сообществом над его улучшением. Вот они раскрыли тогда код - хорошо. На тот момент хорошо, а на сегодня уже неработает.

Ссылки:
[1] https://github.com/moscow-technologies/fairs-blockchain
[2] https://github.com/parity-js/shell/

#opensource #moscow
Объясните мне, знающие люди, зачем часть сайтов и, может быть, инфраструктуры Мэрии Москвы находится за пределами РФ? Например, хостится на серверах Hetzner, Германия. Это такой хостер-дискаунтер, хороший в своём классе, но далёкий от России.

Вот примеры:
- inno.mos.ru - IP: 78.46.71.197 (открывается пустая страница)
- cgrt.mos.ru - IP: 176.9.230.170 (не открывается)
- gk.tech.mos.ru - IP: 138.201.197.43 (заглушка на немецком языке)
- aupd-test.mos.ru - IP: 95.216.13.234 (тестовая страница Московской электронной школы)
- new.dit.mos.ru - IP: 176.9.230.170 (не открывается)

Я, конечно, всё понимаю, немецкое качество и всё такое, но как так можно случайно сделать?

Это не единственный зарубежный хостер на который указывают домены в зане mos.ru и этот список не финальный. Читающим меня сотрудникам ДИТ Москвы я бы посоветовал проверить тщательно, потому что нельзя так делать.

#privacy #security #internet #moscow
Forwarded from APICrafter
В каталог DataCrafter загружены свежие данные из нескольких крупных государственных каталогов данных. Это данные с портала открытых данных г. Москвы 874 набора собранные в одноименную группу г. Москва в каталоге, а также данные из системы справочников ФФОМС России, 91 наборов данных помещенных в группы Справочники и классификаторы и Медицина.

Все данные доступны как открытые данные, могут быть выгружены в виде цельных датасетов для MongoDB и с открытым API.

Из интересных данных, например:
- Единый реестр медицинских организаций - это чуть менее чем 20 тысяч организаций
- Адресный реестр города Москвы - 440 тысяч записей

Напомню, что все данные загружаемые в DataCrafter проходят преобразование из изначальных форматов в формат JSON/BSON, хранятся внутри MongoDB и доступны через унифицированные выгрузки и API.

На сегодня в Datacrafter'е собрано:
- 4392 набора данных с 4534 таблицами
- 408 миллионов записей
- 5258 файлов экспорта (сборок данных)
- 281.7 гигабайт структурированных данных в СУБД
- более 60 тысяч полей
- из которых недокументировано 25 тысяч, а классифицировано 9.7 тысяч

Вскоре в каталог DataCrafter'а будут загружены данные из других каталогов государственных данных, как федеральных, так и российских региональных. Это уже требует реорганизации интерфейса и выгрузок данных, как минимум, удобного поиска по всем наборам, а не только по их названиям как сейчас.

#data #classifiers #moscow #catalogs #datacatalog
В качестве того как устроена работа порталов открытых данных, найду место не только для критики в адрес органов власти.

Например, московский портал data.mos.ru про данные из которого я совсем недавно писал как загруженные в DataCrafter. Из порталов открытых данных которые в России эксплуатируются, он один из наиболее живых, хотя там и не обновляли новости с 2019 года на самом портале.

Почему? Потому что это один из немногих порталов со структурированным хранилищем внутри. Данные хранятся изначально в СУБД в табличном и иерархическом виде, а во внешний контур отдаются слепками с текущей версии и возможностью получения их в XML/JSON/CSV форматах. Таких порталов данных в России создавалось немного, они дороже в ведении чем файлоcборники, в них ведутся метаданные к базам данных и, в принципе, с точки зрения управления данными, это более зрелые продукты.

К таким же можно отнести портал открытых данных Санкт-Петербурга data.gov.spb.ru, портал НСИ ФФОМС РФ nsi.ffoms.ru, портал открытых данных Минкультуры РФ opendata.mkrf.ru и ещё несколько десятков, а также некоторые отраслевые системы такие как ЕСИМО esimo.ru тоже, факту, являются порталами данных, со своими системами метаданных, правилами регистрации баз данных, экспортом наборов данных и так далее.

Когда-то, я помню, что московский портал data.mos.ru появился ещё до федерального data.gov.ru и сейчас в нём несколько десятков гигабайт данных. 4 ГБ последних версий и точно не скажу, но больше 15 ГБ архивных слепков наборов данных.

Главная же беда всех порталов открытых данных в России без исключения в низкой актуальности публикуемых данных. Данные обновляются редко, наиболее чувствительные данные не обновляются. Я могу сказать что сейчас в DataCrafter'е количественно больше данных из каталогов данных, они составляют около 90% всех наборов данных, а после загрузки запланированных на этот год каталогов их будет 99%. Но объёмно, в числе записей и в гигабайтах, основные данные - это данные из государственных информационных систем. Они составляют более 70% всех хранимых данных, не считая данных о госзакупках и юрлицах, которые ведутся у нас отдельно.

Поэтому каталог открытых данных у Москвы не так уж плох, но, конечно, и он может быть лучше, сильно лучше.

#opendata #datacatalogs #moscow #nsi
О том как в России обстоит дело с открытыми данными, приведу пример в виде портала открытых данных Правительства Москвы data.mos.ru

Если зайти на портал то можно обратить внимание что там опубликовано 993 набора данных [1]. Причём новые данные публикуются, согласно цифрам на странице описания портала [2] в течение 2020 года было раскрыто 153 новых датасета и их общее количество достигло 1250. Куда делись 257 наборов данных непонятно, но предположим что где-то цифры не сходятся и ошиблись в подсчётах.

За 2021 год новые данные не публиковались, фильтр по статусу "Новые" [3], выдаёт пустой список, но существующие данные обновляются, если не все то многие. Например, Адресный реестр объектов недвижимости города Москвы [4] обновляется ежесуточно, автоматически, примерно с недельной задержкой. На 17-е января данные там на 12 января [4].

Другой раздел - новости, не обновлялись с декабря 2019 года [5], а план публикации открытых данных был по ссылке [6], но в 2020 году его просто удалили.

Итого:
- план публикации открытых данных удалён
- новости не обновляются с декабря 2019 г.
- новые данные не публикуются с 2020 г.
- как минимум часть текущих данных обновляется

Итого портал существует, в чём то обновляется, но с нулевым развитием и раскрытием чего-то нового. Можно сказать что он частично заморожен и существует по инерционному сценарию.

При этом если сравнить московский портал открытых данных с порталами открытых данных Нью-Йорка [7], Лондона [8], Парижа [9], Пекина [10] и десятков других крупнейших городов мира, то с точки зрения объёмов опубликованных данных московский портал всё ещё выглядит неплохо, а с точки зрения новых и актуальных данных стремительно устаревает.

При том что он создавался до федерального портала, у него есть разработанный стандарт публикации данных [11], что редкость и для России и в мире, а сами данные публиковались автоматизировано и доступны через API, тоже довольно неплохое.

Ссылки:
[1] https://data.mos.ru/opendata?categoryId=241&IsArchive=true&IsActual=true
[2] https://data.mos.ru/about
[3] https://data.mos.ru/opendata?categoryId=241&IsNew=true
[4] https://data.mos.ru/opendata/60562/passport?versionNumber=3&releaseNumber=698
[5] https://data.mos.ru/news
[6] http://data.mos.ru/about/publicationplan
[7] https://opendata.cityofnewyork.us/
[8] https://data.london.gov.uk/
[9] https://opendata.paris.fr
[10] http://data.beijing.gov.cn/
[11] https://data.mos.ru/about/standarts

#opendata #moscow #citydata
Forwarded from APICrafter
В каталог DataCrafter'а добавлен открытый набор данных Реестр обязательных требований для организаций в городе Москве [1] полученный с сайта Открытый контроль (knd.mos.ru). Набор данных включает 87 тысяч записей, общим объёмом 470 МБ в формате JSONL и в 20 МБ в сжатом виде. Данные содержат обязательные требования предъявляемые организациям в зависимости от вида их деятельности.

Данные доступны через:
- в виде пакета данных (ZIP архив)
- в виде JSON lines файла экспорта
- через API платформы

Набор данных можно использовать, например, для создания сервиса определения перечня требований к организации по виду деятельности. На его основе можно создать специальный телеграм бот, мобильное приложение или веб интерфейс отличный от того что уже реализовано на портале Открытый контроль.

Ссылки:
[1] https://data.apicrafter.ru/packages/mosknd

#opendata #moscow #data #knd
В продолжение темы открытых наборов данных лесе и заодно отвечая на вопрос о том что можно сделать в открытых данных. Например, петиция на Change.org [1] об открытии реестра зелёных насаждений в Москве. До петиции, её авторы запрашивали эти данные у властей города и получили ответ в стиле "граждане у нас малограмотные, а реестр только для нужд чиновников" [2].

Честно говоря, я такую позицию городских властей не могу понять, во многих городах реестры зелёных насаждений раскрываются как открытые данные, ссылки есть в тексте петиции, посмотрите обязательно.

Данные о зелёных насаждениях - это, также, данные о качестве жизни. Они необходимы для сохранения окружающей среды, для понимания где требуются большие общественные усилия, для выбора места для жизни, работы, воспитания детей и ещё много чего что мы делаем.

К вопросу о том как помогать движениям за открытость - запуская вот такие инициативы, придавая им широкую публичность, делая запросы в органы власти и так далее. Для этого не нужно ни с кем советоваться, надо просто делать никого не спрашивая и ни на кого не оглядываясь.

Авторы петиции также ведут канал в телеграме @openregistry [3] где можно узнать о её продвижении и результатах общения с городскими властями.

Я со своей стороны напомню что когда-то, 10 лет назад, Москва была лидером по открытости данных в России. Первый государственный портал открытых данных был сделан властями Москвы, они же публиковали наибольшие объёмы данных и сейчас уровень раскрытия данных довольно высок.

Может быть пора сделать московским властям следующий шаг и начать публиковать данные о качестве жизни? За это не осудят, а вот жители города точно оценят.

Ссылки:
[1] www.change.org/p/защити-деревья-в-городе-подпиши-петицию-за-открытый-реестр-зелёных-насаждений-mos-mossobyanin-ditmos-depmospriroda-dpioosmos-ivan-drobotov
[2] https://www.facebook.com/groups/za.travu/permalink/3670269526319188/?app=fbl
[3] https://t.me/openregistry

#opendata #petitions #moscow #ecology #lifequality
Я очень давно не писал на тему того как не надо публиковать данные хотя примеров таких было когда-то очень много. Я до сих пор помню как многие органы власти в России публиковали данные с расширением XML которые потом оказывались экспортированными файлами разметки презентаций или файлов MS Word. Эдакая симуляция машиночитаемости.

Но часто публикация материалов - это не только вопрос машиночитаемости, данные могут быть в Excel, и даже текстовые документы бывают редкостью когда вместо них публикуют сканы.

Сегодня на сцене чиновники Департамента городского имущества города Москвы публикующие таблицы с данными о приватизированных помещениях запихивая протоколы внутрь файлов Excel [2]. Причём файлы в формате PDF, просто перетащенные в Excel и открываемые только через Excel, только если установлен именно Adobe Acrobat Reader. Потому что открывается через внедрённый OLE Object (те кто не знает, не заморачивайтесь, в данном случае это просто Windows специфичный способ запуска документов)

Я, честно говоря, более всего в недоумении как я сам раньше не додумался о таком прекрасном, в кавычках, способе выполнять разного рода требования по раскрытию информации.

MS Office позволяет устраивать хранение данных объектов до любой глубины.
А значит можно как в сказке про кощея утка в зайце, яйцо в утке, игла в яйце. Вот точно также можно хоть градостроительные планы прятать гигабайтного размера։
1. Работать с этим будет крайне неудобно
2. Поисковики умеющие индексировать файлы MS Office не углубляются во вложенные объекты
3. При этом все законы и требования о раскрытии тех или иных сведений такие случаи не покрывают. Формально требования все соблюдены.

От этого спасает, опять же, в кавычках, только то что чаще когда каким-либо официальным лицам не хочется чтобы граждане или бизнес работали с теми или иными документами, то они просто публикуют сканы, в особенности кривоватые.

Ссылки։
[1] https://www.mos.ru/dgi/documents/view/233957220/

#opendata #idiotseverythere #data #moscow #government
Можно сказать что в продолжение платформы данных для ИИ, о доступности данных. Посмотрим на ещё один пример, Правительство Москвы публикует так называемые "Московские датасеты" для обучения ИИ алгоритмов[1].

Чтобы получить доступ к ним надо заполнить форму заявки [2], можно увидеть её на скриншоте, а саму форму отправить по email'у на сайте.

Так вот знаете что здесь особенно выделяется? Ни один из наборов данных перечисленных в заявке не является, не то что деперсонализированными данными, но и даже конфиденциальными.

Почему, к примеру, доступ к данным метеостанций или о загрязнений почвы необходимо просить? Почему эти данные не публикуются как открытые данные на обновлённом портале открытых данных [3] вот в чём вопрос.

При том что у Правительства Москвы и его подчинённых структур порталов с данными много. Например, на портале сервисов ИИ для лучевой диагностики (mosmed.ai) [4] тоже публикуются наборы данных и куда более чувствительные чем данные метеостанций. Там публикуются данные прошедшие деперсонализацию и для их получения достаточно указать свой email.

Эти наборы данных тоже не открытые данные, но их открытость выше чем на Портале ИИ Москвы.

Итого налицо непоследовательная политика городских властей, ложащаяся в общий тренд закрытости и ограничения доступа к данным.


Ссылки:
[1] https://ai.mos.ru
[2] https://ai.mos.ru/datasets-access-form.pdf
[3] https://data-new.mos.ru
[4] https://mosmed.ai

#opendata #closeddata #russia #ai #moscow