Ivan Begtin
9.08K subscribers
2.49K photos
4 videos
113 files
5.24K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

CTO&Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
О снижении порога технических навыков для получения данных о госконтрактах (расширение для браузера и телеграм-бот).

Данные о госконтрактах официально публикуются на портале zakupki.gov.ru (и на FTP-сервере ЕИС). Но формат, в котором предоставляются данные на FTP-сервере нельзя назвать удобным и оптимальным.

Проект "Госзатраты" (clearspending.ru) предоставляет еще несколько способов получения данных:

1. можно открыть поиск по контрактам на сайте и скачать контракты, попавшие в выборку (но их число ограничено 500 и в файле ограниченное количество полей).

2. программисты могут использовать API проекта, строить любые выборки и получать данные в режиме реального времени, но для этого нужны технические навыки, которых нет у аналитиков или журналистов.

3. можно скачать файлы с данными из раздела "Открытые данные", то они разбиты только по законам (44, 94 и 223) и годам. Полученные файлы очень большие и обычные программы с ними не справляются.

4. исследователи и НКО могут отправить запрос на получение нужной выборки контрактов (при условии упоминания проекта "Госзатраты" в качестве источника данных).

В этом месяце мы запустили еще три сервиса, снижающих порог технических навыков, требующихся для получения нужной выборки контрактов:

1. Телеграм-бот (@csdownloaderbot). Для получения выборки контрактов пользователю теперь нужно заполнить наш шаблон интересующими его параметрами (регион, ФЗ, даты, суммы, ...), отправить этот файл боту и указать почту, на которую ему придут данные (Подробнее: https://clearspending.ru/news/telegram-bot-dlya-polucheniya-dannyh-o-goskontraktah/).

2. Скрипт для выгрузки данных (преимущества и ссылки на документацию опубликованы тут: https://clearspending.ru/news/telegram-bot-dlya-polucheniya-dannyh-o-goskontraktah/).

3. Расширение для браузера. Если пользователь заходит на сайт организации, являющейся госзаказчиком, то при запуске расширения пользователю отобразится окно, содержащее статистику госзаказа для данной организации. В первой версии расширения содержится информация о 110 тыс. сайтов (bit.ly/clearspending_ext)
По поводу смены главы Росстата [1], я скажу так. Я ругал Росстат много лет за тому как плохо Росстат работал и работает с данными и, в особенности, формально подходит к их раскрытию, не использует внешние источники данных для проверки своих показателей и, в принципе, там много вопросов по цифрам переписи, доступности данных переписи и принятых ограничениях в статнаблюдении именно с их подачи по которым Росстат отказывался давать, например, муниципальные срезы по переписи.

Но ругать ушедших руководителей после увольнения и хвалить новых - это дурной российский тон которому лично я следовать не собираюсь.

Я бы сказал что у меня к Росстату здесь институциональные претензии, как к органу власти, который, по хорошему, и мог бы отвечать за открытость данных и должен был бы быть основным заказчиком и постановщиком задачи для Национальной системы управления данными.

Какие в итоге произойдут изменения в Росстате в ближайшие годы я не рискну сказать, но могу сформулировать то что я считаю важным и даже необходимым:
1. Формирование системы формирование статистики как часть НСУД или независимо с функцией сбора первичных данных и расчёта показателей на основе данных из государственных информационных систем.
2. Консолидация большого числа ведомственной статистики: Минздрав, МВД, Минобрнауки и всех остальных ведомств.
3. Исследование применимости внешних данных, собираемых не государством, для расчёта ключевых показателей.
4. Приведение в соответствие и достижение достоверности показателей статнаблюдения с показателями по нац. проектам и по госпрограммам.
5. Приведение в соответствие и достижение достоверности показателей статнаблюдения с показателями в программа стратегического планирования
6. Партнёрство с крупнейшими инфраструктурными монополиями по автоматизации и уточнения сбора статистики. Это партнёрство с:
- сотовыми операторами;
- интернет провайдерами;
- банками (и ЦБ);
и тд.
7. Запуск цикла исследований по масштабам, структуре, демографии и иных ключевых характеристиках теневого сектора.
8. Публикация данных переписи и иных показателей в форматах открытых данных. Включая ранее накопленные справочники и тома данных за прошлые годы.

Есть ли что-то из этого на повестке у нового главы Росстата - я не берусь гадать, но надеюсь что есть. Получится ли изменить Росстат и дать ему технологическую опору и при этом обеспечить его независимость и точность измерений? Этот вопрос, к сожалению, не к главе Росстата, а к политическому руководству страны и его готовности к тому чтобы видеть объективную картину.

P.S. В любом случае при смене руководителя ведомства мы в проекте Национальный цифровой архив России [2] проводим архивацию всех онлайн ресурсов этого органа власти и сайты Росстата и его территориальных управлений.

Ссылки:
[1] http://economy.gov.ru/minec/press/news/201824123
[2] https://ruarxive.org/

#opendata #data #rosstat
Вот этот бот (анонс в фэйсбук) [1] мы делали давно и наконец-то сделали к концу года. Он умеет структурировано давать информацию по участию организации в получении госконтрактов и использует только открытое API Госзатрат.

Его можно опробовать по ссылке [2]
А API Госзатрат здесь [3]

В нем немного наших наработок по РобоЖурналистике или РобоАналитике, как не назови. Это самое начальное представление, того как можно автоматически создавать тексты с описанием, например, организаций. Бот работает очень просто. Ему кидается ИНН и по ИНН он формирует текст рассказывающей о контракт организации. Очень рекомендую тем что ищет ответы на вопросы: "Ты чей?", "Они чьи?", "Она чья?", "А они при ком?" и так далее.

Ссылки:
[1] https://www.facebook.com/clearspending/photos/a.485640574881032/1777006529077757/?type=3&theater
[2] https://t.me/csParticipantStatsBot
[3] https://clearspending.ru/page/for-developers/

#opendata #clearspending #api #bots #telegram
Когда Рособрнадзор безумствовал и по политическим причинам отзывал лицензии у Шанинки и Европейского университета - это было очень неприятно, для многих оскорбительно и категорически неправильно. Но не было сомнений что решения политические.

Сейчас Рособрнадзор отозвал аккредитацию у ИТМО [1] по среднему образованию. Я даже не могу это решение политическим назвать, оно какое-то инопланетное.

Даже не знаю что хуже. Понятные упыри или безумные.

Ссылки:
[1] http://news.ifmo.ru/ru/education/official/news/8124/

#crazyrussia
tgstat.ru создали занимательную статистику по моему каналу. Можно сказать что таковы итоги года.
Так сложилось что в телеграме и в других соц сетях я мало что пишу про многие стороны моей работы. Например, мало пишу про то как идёт обучение чиновников по программам CDTO и CDO. Я бы даже сказал незаслуженно мало. Ещё меньше о том что я являюсь председателем экспертного совета по цифровой трансформации при Генеральной прокуратуре. Это общественная работа у которой одна, важнейшая цель, чтобы прокуратура была лидером того что называют цифровой трансформацией, как минимум среди правоохранительных органов, как максимум среди органов власти вообще.

И здесь я хочу обратить внимание на то что уже сейчас у Генеральной прокуратуры есть интерактивный медиа проект "Эфир" [1] где эксперты и сотрудники прокуратуры рассказывают о разных, самых разных темах. В следующем году в нём будет больше про цифровые технологии, про изменения которые переживают правоохранительные системы мира и России.

Если у Вас есть деятельные идеи как Генеральной прокуратуре лучше подавать свои новости/данные/экспертное мнение и есть темы для экспертов или другие идеи - не стесняйтесь пишите мне.

Ссылки:
[1] http://efir.genproc.gov.ru

#prokuratura
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
Данные о федеральных субсидиях, их распределителях и получателях теперь доступны в проекте "Госзатраты".

Госзаказ, данные о котором мы предоставляем с момента запуска проекта Госзатраты, - это лишь один из механизмов распределения бюджетных средств. Другим способом являются субсидии, в которых, в отличие от госзакупок, нет конкуренции, а лишь решение органа власти, Правительства или Президента.

Данные о субсидиях публикуются Минфином России и Федеральным Казначейством в виде “Реестра соглашений о предоставлении субсидий федерального бюджета” на Едином портале бюджетной системы. Открытые данные из этого реестра мы сопоставили с Реестром участников и неучастников бюджетного процесса и на их основе разработали базу данных, которая содержит информацию о субсидиях, распределителях субсидий и получателях. Сегодня мы запускаем бета-тестирование раздела “Субсидии” (https://sub.clearspending.ru) на портале проекта “Госзатраты”. Помимо веб-интерфейса, для журналистов, исследователей и программистов доступны обновляемые дампы базы и API.

На сегодняшний день раздел “Субсидии” содержит данные о: 92 961 субсидии из федерального бюджета; 188 распределителях субсидий; 7 511 получателях субсидий.

Общий объем распределенных субсидий - 15,4 триллиона рублей. Часть этих средств может быть перераспределена получателями в форме госзаказа. К тому же субсидии могут быть многолетними, поэтому часть этой суммы получателям может быть еще не выплачена. Например, Мариинскому театру в 2018 году распределили субсидию размером в 12,2 млрд руб., но только 4 млрд должны были быть выплачены в 2018 году (а фактически перечислено всего 2 млрд руб.).

По причине многолетности и их продления, самые ранние субсидии датированы 1991 и 1995 гг, хотя сам реестр публикуется с 2015 года. С учетом этих и других особенностей подготовка аналитики по субсидиям или их интерпретация требует аккуратности.

Всего (на день обновления базы данных) за 2018 год было распределено 16 826 субсидий, из них 1 611 соглашений о субсидиях на сумму 92,67 млрд руб. были заключены в декабре, а треть этой суммы (33 млрд) была распределена за три рабочих дня последней недели года (с 24 по 26 декабря).

С комментариями, сообщениями об ошибках и предложениями пишите на почту op@clearspending.ru.
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
ФНС снова запустила сервис Прозрачный бизнес https://pb.nalog.ru.

Первый запуск был около двух лет назад, тогда сайт проработал пару дней и был закрыт. Данные, на основе которых работает сервис, были опубликованы ФНС в прошлом году в три этапа (https://www.nalog.ru/rn77/news/activities_fts/8165638/). В них содержатся сведения о суммах недоимки и задолженности по налогам и сборам организаций, данные о наличии налоговых правонарушений, сведения о среднесписочной численности работников юр. лиц, данные о специальных налоговых режимах и др. Не все опубликованные в 2018 году наборы данных уже добавлены на сайт "Прозрачный бизнес".

Также на портале "Прозрачный бизнес" есть функция, с помощью которой представитель компании может сообщить об ошибке в данных своей компании, но для этого нужна Электронная подпись. Впрочем, ошибки в данных есть - после публикации данных журналисты и исследователи нашли организации, численность которых, согласно данным, превышает 600 тыс. чел. (https://www.rbc.ru/economics/02/08/2018/5b62c4659a79473c2cd07ae1). После сообщений СМИ об ошибках в данных, их обновления или исправления не последовало.

Интересно, что на сайте ФНС опубликован внутренний регламент работы с обращениями об ошибках в наборах данных (https://www.nalog.ru/opendata/reglod/) - подобный документ у ФОИВа встречаю впервые. Проверка его работоспособности будет одной из первых задач этого года :).
Европейская сеть дата журналистов опубликовала инструмент поиска по наборам данным [1] и там можно искать более чем 800 тысячам наборов данных из европейских порталов. Например, там есть и данные по России [2], в основном связанные с научными исследованиями.

Ссылки:
[1] https://edp.europeandatajournalism.eu/?language=en
[2] https://edp.europeandatajournalism.eu/?aut_lang=Russia&autocomp=&submit=Search
21 декабря в США через конгресс прошёл законопроект H.R. 4174 [1] Foundations for Evidence-Based Policymaking Act of 2017, частью которого является акт об открытых данных OPEN Government Data Act [2] устанавливающий требования об открытости данных для органов власти США

В законопроекте, кроме всего прочего, есть требования по обязательной инвентаризации данных [3], к назначению Chief Data Officers [4], к совету Chief Data Officers [5] и многое другое, включая разделы по обеспечению конфиденциальности информации в оговоренных случаях, по использованию данных в статистических целях.

Возможно и в России необходим отдельный закон об открытых данных?

Ссылки:
[1] https://www.govtrack.us/congress/bills/115/hr4174
[2] https://www.govtrack.us/congress/bills/115/hr4174/text/ih#link=II&nearest=H8D2D81AC6E884597A02AF3D20D8EAA36
[3] https://www.govtrack.us/congress/bills/115/hr4174/text/ih#link=II_202_d_1_~Q1&nearest=H783AD7BC00DA4CEBB4ED7B2045BCF233
[4] https://www.govtrack.us/congress/bills/115/hr4174/text/ih#link=II_202_e_1_~Q1_3520&nearest=H105FE45A522A481CB3194EE768B05B40
[5] https://www.govtrack.us/congress/bills/115/hr4174/text/ih#link=II_202_f_1_~Q1_3520A&nearest=H4352E953B5D54F8DBC8800DB30D19097

#opendata #opengov
Незаслуженно упущенный мной обзор Casting Light on Central Bank Digital Currencies [1] о цифровых валютах создаваемых центральными банками, CBDC (Central Bank Digital Currency) с обзором инициатив, возможностей и ограничений введения цифровых валют центральными банками и сравнения использования цифровых валют с наличными, криптовалютами, банковскими счетами и другими формами денег.

На что стоит обратить внимание - это то что блокчейн хайп уже закончился. В обзоре криптовалюты хотя и упоминаются, но практически все инициативы по цифрововым валютам - это не криптовалюты, а валюты существующие исключительно в цифровой фонде. Для них также нужна сильная криптография, но они по прежнему неотделимы от центральных банков как и финансовые инструменты до криптовалют.

Цифровые валюты - это куда больше "цифровая экономика" чем что бы то ни было иное. Но требуют они не коллосальных финансовых влияний, а готовности регуляторов к их осмыслению и внедрению.

Ссылки:
[1] https://www.imf.org/en/Publications/Staff-Discussion-Notes/Issues/2018/11/13/Casting-Light-on-Central-Bank-Digital-Currencies-46233

#digital
В Сингапуре общественный активист Jolovan Wham был задержан полиции за организацию нелегального собрания в ... Skype [1]. В собрании приняло участие 121 человек, оно шло 2 часа и транслировалось в Facebook вживую [2]. Надо отдать должное властям Сингапура, столь широкой трактовки регулирования общественного собрания до сих пор в действиях полиции по всему миру не было. Полиция Сингапура опубликовало заявление что предупреждало активиста и что проведение публичных собраний без разрешения полиции является преступлением [3].

Сингапурский закон требует обязательного разрешения если событие является публичным, "имеет основание" и при этом есть зарубежный спикер.
Этой новостью мне никак не хотелось бы появления нового закона или трактовки имеющихся из-за чего аналогичные полномочия на ограничения появились бы у какого-либо ведомства в России. Важно не забывать что тренд на перенос практик из офлайн мира в онлайн мир является не редким.

Ссылки:
[1] https://techcrunch.com/2019/01/03/singapore-activist-found-guilty-of-hosting-illegal-assembly-via-skype/
[2] https://www.facebook.com/theonlinecitizen/videos/10154814857156383/
[3] https://www.police.gov.sg/news-and-publications/media-releases/20171128_arrest_man_to_be_charged_in_court

#tech
Forwarded from Городские данные (Andrey Karmatsky)
Николас Бельмонте — руководитель команды визуализации Uber написал обзор 2018го для его команды: https://eng.uber.com/uber-visualization-2018/

Убер по части инструментов визуализации городских данных очень продвинулись за год, очень много интересного ребята сделали.

Наиболее важное для сообщества стал релиз Kepler — команда обернула свои технологии визуализации данных в инструмент, с помощью которого за считанные минуты можно создавать интересные и полезные визуализации и карты: http://kepler.gl

Примеры визуализаций, сделанных в Kepler:
https://twitter.com/i/moments/1069327247830630401

Во-вторых, после приобритения JUMP bikes Uber Movement дополнился специальным дэшбордом про велики и скутеры JUMP:
https://medium.com/uber-movement/newsroom-post-new-mobility-dashboard-for-jump-electric-bikes-4965af05b6dc?lang=en-US

В-третьих, беспилотные автомобили развиваются, чтобы запустить машину на дорогу, нужно детально готовиться, в том числе собирать картографические данные и данные лидарной съёмки. Опять же, чтобы понимать как устроено пространство, нужны инструменты: http://eng.uber.com/atg-dataviz/

И в четвёртых, Uber Movment пополнился данными о скоростях движения (что-то очень похожее на привычный слой пробок на карте с возможностью анализировать разные периоды):
https://medium.com/uber-under-the-hood/bringing-more-data-to-uber-movement-with-street-speeds-79e84be0fe83

Но тут интересно кое-что ещё, эти данные были опубликованы в открытом формате, который разработали SharedStreets. Для этого Убер выделил грант $250,000 на разработку стандарта

Подробнее о формате:
https://github.com/sharedstreets/sharedstreets-ref-system

Про SharedStreets стоит упомянуть отдельно — начавшаяся как общественная инциатива, эта некоммерческая организация разрабатывает форматы данных, с помощью которых можно оцифровать городское простраство и создавать полезные приложения: https://sharedstreets.io/
Многие умные люди прекрасно помимают, что без стандартизации форматов обмена данными, ничего не будет возможным.
США не представили обновлённый National Action Plan (Национальный план действий) для Партнерства Открытых Правительств (OGP) и пропустили вот уже 3-й дедлайн, что ставит под рассмотрение их дальнейшее в OGP участие [1] если в течение нескольких месяцев план не будет опубликован [2]. Именно так предполагалось [3] ещё в августе когда США пропустили другой дедлайн в OGP [4]

Учитывая что Open Government Partnership создавалось изначально при активном участии прошлой администрации, то неудивительно что Трамп пытается дистанцироваться, но в целом это может привести если не к развалу OGP, то к сильной его перестройке.

Напомню что Россия членом OGP не является и отозвало свою заявку на членство в OGP в мае 2013 года [5] хотя и соответствовала всем критериям и саму заявку подавало в 2012 году [6].

Ссылки:
[1] https://e-pluribusunum.org/2019/01/08/open-government-partnership-puts-united-states-under-review/
[2] https://twitter.com/Integrilicious/status/1080850462574825477
[3] https://twitter.com/opengovpart/status/1037424386339471365
[4] https://fcw.com/articles/2018/08/29/howard-open-gov-under-trump.aspx
[5] https://www.opengovpartnership.org/stories/russia-withdraws-open-government-partnership-too-much-transparency
[6] https://www.opengovpartnership.org/stories/update-on-russia
#opendata #opengov
European Intelligence Unit опубликовал Индекс демократий 2018 года [1], где Россия с Казахстаном делят 144 место, а Беларусь находится на 137 месте. Россия отстаёт от Беларуси, на мой взгляд, в главном, в качестве функционирования государства с 1,79 баллами. Чтобы было понятно наглядно - у Северной Кореи функционирование государства оценено в 2.5 балла. Хуже чем в России оно оценивается в Сирии , Туркменистане, Таджикистане и десятке африканских стран.

США расположились на 25-м месте и подпадают под группу "Flawed Democracies", а в лидерах, как всегда, Норвегия и скандинавские страны в первой десятке.

Ссылки:
[1] https://www.eiu.com/public/topical_report.aspx?campaignid=Democracy2018

#opengov
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
Онлайн-курс «Использование открытых данных для цифрового бизнеса» теперь доступен на сайте https://www.futurelearn.com/courses/open-data-business.

Онлайн-курс поможет узнать, как зарабатывать на открытых данных и как их использовать для трансформации вашей организации. Авторы курса обещают создать новое понимание истории открытых данных, плюсов и минусов их использования, рассказать о бизнес-кейсах и бизнес-моделях, связанных с публикацией и использованием открытых данных.

Курс длится три недели и потребует от слушателей 2 свободных часа в неделю. Участие бесплатно (без получения сертификата).
Открытые данные - это не всегда государственные данные. Часто и чаще это данные собранные из открытых источников или же данные как результат научной деятельности. Далее подборка источников данных которые не являются государственными:

- re3data.org - реестр порталов данных научных репозиториев, более 2000 репозиториев в реестре
- dataverse.harvard.edu - один из крупнейших репозиториев данных в мире, в Гарварде. Более 81 тысячи наборов данных
- data.occrp.org - банк данных расследователей OCCRP. 194 миллиона документов включая файлы документов, наборы данных, утечки писем и многое другое.
- offshoreleaks.icij.org - базы утечек данных об оффшорах от ICIJ
- opendata.cern.ch - открытые данные адронного коллайдера и других проектов CERN. Огромного объёма, но применимы только физиками.
- dumps.wikimedia.org - дампы проектов фонда Викимедия, таких как Wikipedia, Wiktionary, Wikibooks, Wikidata и другие
- archive.org - крупнейший в мире архив наборов данных: веб-страниц, баз данных, результатов работы веб-краулеров, архивы FTP серверов и многое другое
- registry.opendata.aws - большие объёмы данных доступных через Amazon AWS. Много данных реального огромного объёма (несколько петабайт)
- scans.io - совместный проект нескольких компаний и групп по кибербезопасности выкладывающих результаты сканирования сетей

Это не исчерпывающий список и огромные объёмы данных публикуются без участия государств/правительств или же доступны исследователям.

#opendata #data