Ivan Begtin
9.09K subscribers
2.48K photos
4 videos
113 files
5.23K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

CTO&Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
Почему я в последнее время так много внимания обращаю на ДИТ Москвы и московскую информатизацию? Свежая статья в Коммерсанте [1] о том что Мэрия Москвы потратит 155 млн руб.[2] на систему мониторинга пассажиропотока на основе MAC адресов устройств. Даже с учётом того что только в iPhone 12 рандомизация MAC включена по умолчанию, система эта будет работать как минимум в части дешёвых устройств андроид. Фактически - это новый имущественный ценз по тому насколько за человеком можно следить и то, временно, поскольку неизвестно сколь много пройдет времени и на всех устройствах не появится рандомизация MAC.

Хуже этого, безусловно, очередная ситуация введения очередного элемента слежки за гражданами в КИС МП (попробуйте найти хоть где-то описание того как эти данные хранятся и обрабатываются).

Но я приведу другой пример, вот контракт ДИТ Москвы с ООО "Элар" [3] [4] от 2 октября этого года. Контракт длинный, на 860 дней, контракт по оцифровке архивных данных Главного следственного управления ГУ МВД России по г. Москве.

Там есть очень много вопросов и нюансов, начиная с того что оцифровка всего архива уголовных дел - это большой объём персональных данных и продолжая тем что региональные управления МВД давно уже как федерального подчинения, так как Мэрия Москвы (в лице ДИТа Москвы) может тратить средства бюджета Москвы на создание такого архива? В целом - это нарушение 11 принципа бюджетной системы "Подведомственность расходов бюджетов" [5]

Другой вопрос в обосновании этой закупки. В техническом задании указаны следующие основания:
- постановление Правительства Москвы от 09.08.2011 № 349-ПП «Об утверждении Государственной программы города Москвы «Умный город»;
- соглашение об информационном взаимодействии между Правительством Москвы и Министерством внутренних дел Российской Федерации от 15.05.2012 № 77-581;
- поручение Мэра Москвы от 24.01.2019 № 4-15-92/9;
- пункт 11.1 плана мероприятий по закупке, созданию, внедрению и эксплуатации средств информационных технологий, связи и защиты информации в интересах Главного управления МВД России по городу Москве на 2019-2022 годы от 23.08.2019 № 4-14-1100/9.

И тут по шагам:
1. № 349-ПП от 09.08.2011 - это изначально программа "Информационный город" и только в таком неактуальном виде опубликована на сайте Мэрии Москвы [6], в сети можно поискать в более полном и актуальном объёме.
2. Соглашение между МВД России и Мэрий Москвы предполагает только обмен данными и доступ МВД России к данным Мэрии, а не финансирование работы для УВД по городу Москве [7]
3. А вот и самое интересное "поручение Мэра Москвы от 24.01.2019 № 4-15-92/9" не только не является нормативно-правовым документом, но и отсутствует в открытом доступе. Последние поручения Мэра Москвы публиковались в 2018 году [8]
4. Про позицию плана мероприятий я вообще молчу, основание закупки не сама позиция, а документ который должен её утверждать.

Итого что у нас, ИТ работы для территориального управления федерального органа власти оплачиваемые из бюджета субъекта федерации, со ссылками на несуществующие в открытом доступе документы и устаревшие версии не относящихся к этим услугам НПА.

Сколько здесь нарушений законов/правил/регламентов я сейчас судить не буду. Но зачем мэрии оплачивать оцифровку архива уголовных дел кроме как для получения доступа к этой информации. А зачем Мэрии Москвы доступ к архивной информации о уголовных делах московского УВД? Вот над этим стоит поразмыслить.

Ссылки:
[1] https://www.kommersant.ru/doc/4539137
[2] https://zakupki.gov.ru/epz/order/notice/ea44/view/common-info.html?regNumber=0173200001420001132
[3] https://spending.gov.ru/goscontracts/contracts/2771087800020000119/
[4] https://zakupki.gov.ru/epz/contract/contractCard/document-info.html?reestrNumber=2771087800020000119
[5] http://budget.gov.ru/epbs/faces/p/Бюджетная система/Принципы бюджетной системы
[6] https://www.mos.ru/dit/documents/normativnye-pravovye-akty-goroda-moskvy/view/61220/
[7] http://docs.cntd.ru/document/537942874
[8] https://www.mos.ru/depnpol/documents/porucheniia-mera-moskvy/

#data #mvd #moscow #dit
Emerging Architectures for Modern Data Infrastructure [1] весьма интересно изложенный отчет от Andreessen Horowitz о том как устроена современная архитектура работы с данными в зависимости от задач для которых она проектируется.

По сути - это такой универсальный канвас который можно использовать в любом хорошем инструменте рисования диаграмм. Для типовых задач бизнеса или госструктур вполне подходит и весьма продуманно структурировано (не буду утверждать что идеально, надо смотреть более детально через призму своих задач). Особенно стоит обратить внимание на сдвиги в технологиях Например, Data Flow automation вместо Workflow Management и ELT вместо ETL, а также нового типа озёра данных вместо Hadoop.



Ссылки:
[1] https://a16z.com/2020/10/15/the-emerging-architectures-for-modern-data-infrastructure/

#data #bigdata #report
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
Минфин России убрал из открытого доступа реестр субсидий.

С 2015 года реестр субсидий из федерального бюджета публиковался на портале Электронного бюджета (budget.gov.ru), а с середины 2020 года в него были добавлены долгожданные и востребованные данные о региональных субсидиях.

Неприятно совпало, что мы как раз начали обновление раздела «Субсидии» на сайте проекта «Госзатраты». Доработки связаны с тем, что структуры данных реестра сильно изменились, и размер описания одной субсидии теперь занимает до 10МБ в виде JSON объекта. Мы были завязаны на данные и API Минфина, но мы работаем над тем, чтобы оперативно исправить ситуацию.
Для тех кто только подписался на мой канал опишу о чём он, чтобы не было неверных ожиданий.
Я пишу здесь много про работу с данными, архитектуру ПО по работе с данными, этику работы с данными и искусственного интеллекта, открытые данные, открытость государства и тд. Сиюминутных актуальных и острых тем тут немного, не считая вопросов связанных с доступностью данных и тех случаев когда государство (или корпорации) нарушают права граждан.

Мой основной канал здесь: https://t.me/begtin
Чат к каналу: https://t.me/begtinchat
Тексты в большом формате в еженедельной рассылке https://begtin.substack.com
Блог: https://begtin.tech

#data #opendata
В Коммерсанте вышла статья [1] "Фабрика-цифра"
Там есть и мой краткий комментарий, но на самом деле он был не краткий и я написал много тезисов, но журналисты сократили их и значительно.

Вот что я думаю про это:
1. На многие данные и механизмы взаимодействия с гражданами у государства есть безусловная монополия. Например, это данные о юридических лиц, или данные цифрового профиля гражданина или данные о платежах граждан в бюджет (ГИС ГМП) и ещё много другого. Бизнес ищет возможности как доступа к данным, так и возможности интеграции с сервисами государства для расширения возможностей их продуктов. Например, банки хотят оказывать госуслуги, а многие хотят пользоваться авторизацией в ЕСИА (Госуслуги) и так далее

2. Проблем довольно много и не последняя из них в отсутствии чётко сформулированной, последовательной и подкрепленной реальными полномочиями и инструментами их применения государственной политики в области данных. Единственная более-менее крупная инициатива в этой области о которой можно упомянуть - это НСУД (Национальная система управления данными) которая из большой регуляторной инициативы выродилась в модель для точечного применения корпоративных принципов управления данных к ограниченному число систем, относительно контролируемых правительством. При этом в остальном в России остаётся ситуация которую в западной прессе называют digital mandarins (цифровые "мандарины"), а в русской традиции правильнее называть "цифровыми царьками". Большинство органов власти существуют в своих полу-замкнутых отраслевых колодцев, а Минцифры было и остаётся лишь одним из органов власти с весьма куцыми полномочиями. В итоге в регуляторике очень много ограничений, у нас реально десятки "тайн" такие как: гостайна, служебная тайна, тайна следствия, адвокатская тайна, врачебная тайна, налоговая тайна, персональные данные и ещё много всего что ограничивает раскрытие и/или передачу данных из ГИС третьим лицам.

3. Я бы сказал что очень многое зависит от этих возможностей и проработанности предложений Ассоциации больших данных. Не видя их текста трудно сейчас сказать насколько они проходимы, но я как руководитель другой ассоциации АУРД, состоящей из игроков среднего и малого бизнеса считаю что здесь важно чтобы реакция государства учитывала что в стране существуют не только монополисты крупный цифровой бизнес, но и развитый средний и малый бизнес также желающий работать с ГИС и с данными государства.

И, конечно, больше открытых данных нужно всем.

Ссылки:
[1] https://www.kommersant.ru/doc/4539873

#data #opendata
Рабочие группы должны умирать (с)
В который раз я не могу не обратить внимание на такое свойство любой бюрократии как разрастание и такое свойство консультативных-обсуждательных органов как плодить свои подобия в их бесконечном видо- и многообразии.

Из последнего - это предложения в одной большой около[полу]государственной рабочей группе создать экспертные группы по направлениям. При том что у самой рабочей группы консультативно экспертный статус, при том что она де-факто смесь экспертов/внешних лоббистов/внутренних лоббистов и, в принципе, не то чтобы многозначащая структура в логике принятия решений (но и не настолько мало чтобы игнорировать).

Но и в ней активность выражают не более 10-15% участников, даже активность пассивную на уровне проголосовать за что бы то ни было, а не говоря уже об активной позиции.
Таким же образом устроено бесконечное число экспертных советов, общественных советов, рабочих групп, экспертных групп, подгрупп, подкомиссий, комиссий, комитетов, консультативных советов, подсоветов, секций и так далее.

Их просто _безумное_ количество. И у них вполне понятная природа:
1) Окологосударственный статус участникам этих бюрократических подструктур
2) Сужение списка вовлеченных в обсуждение
3) Попытка избежать бюрократии верхнеуровневой структуры и, иногда, избежать согласований с ней с сохранением её бренда
и ещё много чего, знающие люди меня дополнят.
Я когда-нибудь созрею до большого текста по этой теме, а пока сформулирую несколько очень коротких тезисов, для простоты я буду называть все эти структуры "рабочими группами", хотя реально их видов с пару десятков:
1. Рабочие группы должны иметь цель и задачи. Эти цель и задачи должны быть чётко сформулированы и определены.
2. Рабочие группы должны иметь регламент. Этот регламент должен быть типовым/унифицированным, с каким-то разными правилами в зависимости от культуры и привычек работы, но в остальном вполне определенным.
3. Рабочие группы должны иметь осмысливаемые и ощутимые результаты. Они должны быть описаны как понимаемые output или outcomes. Например, рабочая группа по подготовке доклада о перспективных планах развития яйценоскости утконосов в условиях Крайнего севера до 2089 года" - вполне понятный результат в итоге.
4. Рабочие группы должны умирать. Любые консультативные бюрократические структуры должны иметь график, регламент, правила, результаты и, самое главное, дату смерти. Дата после которой рабочая группа расформируется и формируется снова только если такое решение принимает вышестоящая структура. Обратите внимание, решение не о ликвидации, а о продлении. Если решение не принимается, группа автоматически перестаёт существовать.

Но как-нибудь я напишу об этом в подробнее.

#workinggroups #collective
Я регулярно пишу и выступаю о рынке "пробива информации" в России и неспособности силовых органов что-либо с этим поделать. А вот прилетают и последствия. Юра Синодов в FB пишет [1] про очередное расследование Bellingcat на основе данных по биллингу. А на сайте самих Bellingcat (его легко найти) в избытке информации собранной через пробив людей, их автомобилей и тд.

Даже не знаю что тут сказать. Многократный фэйспалм

Ссылки:
[1] https://www.facebook.com/sinodov/posts/10160272266922785

#data #darkmarket
На днях Сбербанк в лице Sberbank.AI выложили в открытый доступ языковую модель GPT-3 Large с 760 миллионами параметров о чём написали на Хабре [1], опубликовали открытый репозиторий кода [2] и примеры [3] как я понимаю всё это в контексте международного соревнования AI Journey [4]

Если рассматривать Сбербанк как продолжение государства, то всё это можно рассматривать, и как открытость кода, и как открытость данных создаваемых государством (хотя и не органами власти).

Ссылки:
[1] https://habr.com/ru/company/sberbank/blog/524522/
[2] https://github.com/sberbank-ai/ru-gpts
[3] https://github.com/sberbank-ai/ruGPT3_demos
[4] https://ai-journey.ru/

#data #ai #opendata #opensource
Очередная еженедельная рассылка. На этот раз тема #5. Экономика открытых данных и коммерческие проекты на их основе. [1]

1. Один из ключевых вызовов перед всеми движениями за открытость - это их экономическая обоснованность. При том что этих движений много: open knowledge, open source, open data, open hardware, в итоге оказывается что устойчивая экономически обоснованная модель существования пока существует только вокруг открытого кода (open source).
...

Ссылки:
[1] https://begtin.substack.com/p/5-

#opendata #data #economy
Digital Minilateralism: How governments cooperate on digital governance [1] публикация Института Беннета при Кэмбриджском университете о том как сейчас происходят многосторонние коммуникации/партерства (minilateralism) стран в цифровую эпоху. С полезным обзором того что такое D5, D7, D9 (Цифровая пятерка, семерка, девятка) и ещё многие другие межстрановые инициативы.

Документ короткий, читается легко, на некоторые мысли о дальнейшем развитии цифровизации в мире наводит.

Ссылки:
[1] https://www.bennettinstitute.cam.ac.uk/media/uploads/files/Digital_minilateralism_Digital.pdf

#digital #government
Банк России совместно с Ассоциацией ФинТех разработал стандарты открытых банковских интерфейсов (открытых API). О чём можно узнать из их пресс-релиза [1] и прочитать подробнее [2] в разделе правовых актов [2] в виде 4-х PDF документов объёмом чуть менее 300 страниц.

С одной стороны радует что Банк России разрабатывает и публикует стандарты которые, можно надеяться, рано или поздно будут применяться банками.

С другой стороны, всё таки Банк России не орган власти и не закован в кандалы ГОСТов по публикации документации. Открытые стандарты для API можно вполне публиковать в более наглядном виде как это делают монетарные власти других стран. Гонконга [3], например или общественного проекта в Великобритании [4] и не говоря уже о многочисленных сайтах для разработчиков создаваемых самими банками.

Всем этим я хочу сказать что если Банк России был бы, что ли, более вогонечным человечным, то никто его за это не осудил.

P.S. Отдельная тема - это UML графики в стандартах, об этом обсуждения комментариях к публикации у Максима Смирнова [5]

Ссылки:
[1] http://www.cbr.ru/press/event/?id=8223
[2] http://www.cbr.ru/fintech/acts/?la.search=&la.tagid=3&la.vidid=26&la.date.time=any&la.date.datefrom=&la.date.dateto=
[3] https://www.hkma.gov.hk/eng/key-functions/international-financial-centre/fintech/open-application-programming-interface-api-for-the-banking-sector/
[4] https://www.openbanking.org.uk/
[5] https://t.me/it_arch/938

#banking #cbr #api
В New York Times большая статья "Does Palantir See Too Much?" про Palantir [1], ту самую "мистическую" компанию создающие инструменты анализа данных которыми пользуются спецслужбы в США и в других странах. Статья большая, подробная, и весьма неплохо написанная.

Специально не буду приводить всех фактов и выводов, но почитать её будет полезно всем кто ими интересуются.

Ссылки:
[1] https://www.nytimes.com/interactive/2020/10/21/magazine/palantir-alex-karp.html

#data #intelligence #palantir
Для тех кто любит работать с данными, использует Jupyter Notebook и библиотеку для работы с данными Pandas, будет интересно посмотреть на PandasGUI [1] интерактивный инструмент для работы с Pandas DataFrame. Весьма полезный для задач проверки данных. Демо пример его работы можно посмотреть на видео [2]

Ссылки:
[1] https://github.com/adamerose/pandasgui
[2] https://www.youtube.com/watch?v=NKXdolMxW2Y

#data #pandas
Для тех кто читает и изучает ежегодно Gartner Hype Cycle появилась наглядная видеоинфографика изменений в технологических прогнозах за 25 лет [1], а также автор выложил данные на основе которых это видео создавалось [2].

25 лет хайпа, с выявлением технологий упомянутых единожды, категорий технологий и многое другое. Автор Mark Mine весьма дотошно подошёл к тому чтобы показать изменения более чем наглядно. На его данных Amelia Wattenberger также сделала интерактивную визуализацию [3] уже без видео, но в виде графика.

Ссылки:
[1] https://vimeo.com/464835556
[2] https://drive.google.com/file/d/1y_fzgknqRdPa0KfXiGq44blGqDN3NYv3/view
[3] https://wattenberger.com/hype-cycle

#visual #gartner #hype
В США полным ходом идёт не только подготовка в выборам Президента, но и моделирование их исхода. Свои модели выпустили 538 [1] и Economist [2], в том числе делая акцент на возможных сценариях развития и корреляциям между голосованием по отдельным штатам.

И там и там модели основаны на результатах опросов, а прогнозно обе модели показывают что:
- Байден станет президентом
- скорее всего контроль над сенатом будет у демократов
- совершенно точно контроль над палатой представителей будет у демократов

Впрочем политические прогнозы хотя и интересны, интересно развитие моделей предсказаний и их результатов.

Ссылки:
[1] https://projects.fivethirtyeight.com/2020-election-forecast/
[2] https://projects.economist.com/us-2020-forecast/president

#elections #data
Может ли искусственный интеллект заменить архитекторов и урбанистов или хотя бы помочь им в проектировании городов? Продукт Delve [1] от SideWalkLabs - это сервис для автоматического моделирования жилых кварталов по заданным параметрам с подбором наиболее оптимального варианта зависящего от этих параметров и территории. Всё это, конечно же, в облаке, с искусственным интеллектом (умными алгоритмами) и перебором множества вариантов.

В параметрах учитываются: плотность, комфортабельность, доступность дневного света, пешая доступность общественного транспорта, удобство прогулок

Ссылки:
[1] https://hello.delve.sidewalklabs.com/

#urban #ai