Ivan Begtin
9.32K subscribers
2.11K photos
3 videos
103 files
4.83K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
Когда Рособрнадзор безумствовал и по политическим причинам отзывал лицензии у Шанинки и Европейского университета - это было очень неприятно, для многих оскорбительно и категорически неправильно. Но не было сомнений что решения политические.

Сейчас Рособрнадзор отозвал аккредитацию у ИТМО [1] по среднему образованию. Я даже не могу это решение политическим назвать, оно какое-то инопланетное.

Даже не знаю что хуже. Понятные упыри или безумные.

Ссылки:
[1] http://news.ifmo.ru/ru/education/official/news/8124/

#crazyrussia
tgstat.ru создали занимательную статистику по моему каналу. Можно сказать что таковы итоги года.
Так сложилось что в телеграме и в других соц сетях я мало что пишу про многие стороны моей работы. Например, мало пишу про то как идёт обучение чиновников по программам CDTO и CDO. Я бы даже сказал незаслуженно мало. Ещё меньше о том что я являюсь председателем экспертного совета по цифровой трансформации при Генеральной прокуратуре. Это общественная работа у которой одна, важнейшая цель, чтобы прокуратура была лидером того что называют цифровой трансформацией, как минимум среди правоохранительных органов, как максимум среди органов власти вообще.

И здесь я хочу обратить внимание на то что уже сейчас у Генеральной прокуратуры есть интерактивный медиа проект "Эфир" [1] где эксперты и сотрудники прокуратуры рассказывают о разных, самых разных темах. В следующем году в нём будет больше про цифровые технологии, про изменения которые переживают правоохранительные системы мира и России.

Если у Вас есть деятельные идеи как Генеральной прокуратуре лучше подавать свои новости/данные/экспертное мнение и есть темы для экспертов или другие идеи - не стесняйтесь пишите мне.

Ссылки:
[1] http://efir.genproc.gov.ru

#prokuratura
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
Данные о федеральных субсидиях, их распределителях и получателях теперь доступны в проекте "Госзатраты".

Госзаказ, данные о котором мы предоставляем с момента запуска проекта Госзатраты, - это лишь один из механизмов распределения бюджетных средств. Другим способом являются субсидии, в которых, в отличие от госзакупок, нет конкуренции, а лишь решение органа власти, Правительства или Президента.

Данные о субсидиях публикуются Минфином России и Федеральным Казначейством в виде “Реестра соглашений о предоставлении субсидий федерального бюджета” на Едином портале бюджетной системы. Открытые данные из этого реестра мы сопоставили с Реестром участников и неучастников бюджетного процесса и на их основе разработали базу данных, которая содержит информацию о субсидиях, распределителях субсидий и получателях. Сегодня мы запускаем бета-тестирование раздела “Субсидии” (https://sub.clearspending.ru) на портале проекта “Госзатраты”. Помимо веб-интерфейса, для журналистов, исследователей и программистов доступны обновляемые дампы базы и API.

На сегодняшний день раздел “Субсидии” содержит данные о: 92 961 субсидии из федерального бюджета; 188 распределителях субсидий; 7 511 получателях субсидий.

Общий объем распределенных субсидий - 15,4 триллиона рублей. Часть этих средств может быть перераспределена получателями в форме госзаказа. К тому же субсидии могут быть многолетними, поэтому часть этой суммы получателям может быть еще не выплачена. Например, Мариинскому театру в 2018 году распределили субсидию размером в 12,2 млрд руб., но только 4 млрд должны были быть выплачены в 2018 году (а фактически перечислено всего 2 млрд руб.).

По причине многолетности и их продления, самые ранние субсидии датированы 1991 и 1995 гг, хотя сам реестр публикуется с 2015 года. С учетом этих и других особенностей подготовка аналитики по субсидиям или их интерпретация требует аккуратности.

Всего (на день обновления базы данных) за 2018 год было распределено 16 826 субсидий, из них 1 611 соглашений о субсидиях на сумму 92,67 млрд руб. были заключены в декабре, а треть этой суммы (33 млрд) была распределена за три рабочих дня последней недели года (с 24 по 26 декабря).

С комментариями, сообщениями об ошибках и предложениями пишите на почту op@clearspending.ru.
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
ФНС снова запустила сервис Прозрачный бизнес https://pb.nalog.ru.

Первый запуск был около двух лет назад, тогда сайт проработал пару дней и был закрыт. Данные, на основе которых работает сервис, были опубликованы ФНС в прошлом году в три этапа (https://www.nalog.ru/rn77/news/activities_fts/8165638/). В них содержатся сведения о суммах недоимки и задолженности по налогам и сборам организаций, данные о наличии налоговых правонарушений, сведения о среднесписочной численности работников юр. лиц, данные о специальных налоговых режимах и др. Не все опубликованные в 2018 году наборы данных уже добавлены на сайт "Прозрачный бизнес".

Также на портале "Прозрачный бизнес" есть функция, с помощью которой представитель компании может сообщить об ошибке в данных своей компании, но для этого нужна Электронная подпись. Впрочем, ошибки в данных есть - после публикации данных журналисты и исследователи нашли организации, численность которых, согласно данным, превышает 600 тыс. чел. (https://www.rbc.ru/economics/02/08/2018/5b62c4659a79473c2cd07ae1). После сообщений СМИ об ошибках в данных, их обновления или исправления не последовало.

Интересно, что на сайте ФНС опубликован внутренний регламент работы с обращениями об ошибках в наборах данных (https://www.nalog.ru/opendata/reglod/) - подобный документ у ФОИВа встречаю впервые. Проверка его работоспособности будет одной из первых задач этого года :).
Европейская сеть дата журналистов опубликовала инструмент поиска по наборам данным [1] и там можно искать более чем 800 тысячам наборов данных из европейских порталов. Например, там есть и данные по России [2], в основном связанные с научными исследованиями.

Ссылки:
[1] https://edp.europeandatajournalism.eu/?language=en
[2] https://edp.europeandatajournalism.eu/?aut_lang=Russia&autocomp=&submit=Search
21 декабря в США через конгресс прошёл законопроект H.R. 4174 [1] Foundations for Evidence-Based Policymaking Act of 2017, частью которого является акт об открытых данных OPEN Government Data Act [2] устанавливающий требования об открытости данных для органов власти США

В законопроекте, кроме всего прочего, есть требования по обязательной инвентаризации данных [3], к назначению Chief Data Officers [4], к совету Chief Data Officers [5] и многое другое, включая разделы по обеспечению конфиденциальности информации в оговоренных случаях, по использованию данных в статистических целях.

Возможно и в России необходим отдельный закон об открытых данных?

Ссылки:
[1] https://www.govtrack.us/congress/bills/115/hr4174
[2] https://www.govtrack.us/congress/bills/115/hr4174/text/ih#link=II&nearest=H8D2D81AC6E884597A02AF3D20D8EAA36
[3] https://www.govtrack.us/congress/bills/115/hr4174/text/ih#link=II_202_d_1_~Q1&nearest=H783AD7BC00DA4CEBB4ED7B2045BCF233
[4] https://www.govtrack.us/congress/bills/115/hr4174/text/ih#link=II_202_e_1_~Q1_3520&nearest=H105FE45A522A481CB3194EE768B05B40
[5] https://www.govtrack.us/congress/bills/115/hr4174/text/ih#link=II_202_f_1_~Q1_3520A&nearest=H4352E953B5D54F8DBC8800DB30D19097

#opendata #opengov
Незаслуженно упущенный мной обзор Casting Light on Central Bank Digital Currencies [1] о цифровых валютах создаваемых центральными банками, CBDC (Central Bank Digital Currency) с обзором инициатив, возможностей и ограничений введения цифровых валют центральными банками и сравнения использования цифровых валют с наличными, криптовалютами, банковскими счетами и другими формами денег.

На что стоит обратить внимание - это то что блокчейн хайп уже закончился. В обзоре криптовалюты хотя и упоминаются, но практически все инициативы по цифрововым валютам - это не криптовалюты, а валюты существующие исключительно в цифровой фонде. Для них также нужна сильная криптография, но они по прежнему неотделимы от центральных банков как и финансовые инструменты до криптовалют.

Цифровые валюты - это куда больше "цифровая экономика" чем что бы то ни было иное. Но требуют они не коллосальных финансовых влияний, а готовности регуляторов к их осмыслению и внедрению.

Ссылки:
[1] https://www.imf.org/en/Publications/Staff-Discussion-Notes/Issues/2018/11/13/Casting-Light-on-Central-Bank-Digital-Currencies-46233

#digital
В Сингапуре общественный активист Jolovan Wham был задержан полиции за организацию нелегального собрания в ... Skype [1]. В собрании приняло участие 121 человек, оно шло 2 часа и транслировалось в Facebook вживую [2]. Надо отдать должное властям Сингапура, столь широкой трактовки регулирования общественного собрания до сих пор в действиях полиции по всему миру не было. Полиция Сингапура опубликовало заявление что предупреждало активиста и что проведение публичных собраний без разрешения полиции является преступлением [3].

Сингапурский закон требует обязательного разрешения если событие является публичным, "имеет основание" и при этом есть зарубежный спикер.
Этой новостью мне никак не хотелось бы появления нового закона или трактовки имеющихся из-за чего аналогичные полномочия на ограничения появились бы у какого-либо ведомства в России. Важно не забывать что тренд на перенос практик из офлайн мира в онлайн мир является не редким.

Ссылки:
[1] https://techcrunch.com/2019/01/03/singapore-activist-found-guilty-of-hosting-illegal-assembly-via-skype/
[2] https://www.facebook.com/theonlinecitizen/videos/10154814857156383/
[3] https://www.police.gov.sg/news-and-publications/media-releases/20171128_arrest_man_to_be_charged_in_court

#tech
Forwarded from Городские данные (Andrey Karmatsky)
Николас Бельмонте — руководитель команды визуализации Uber написал обзор 2018го для его команды: https://eng.uber.com/uber-visualization-2018/

Убер по части инструментов визуализации городских данных очень продвинулись за год, очень много интересного ребята сделали.

Наиболее важное для сообщества стал релиз Kepler — команда обернула свои технологии визуализации данных в инструмент, с помощью которого за считанные минуты можно создавать интересные и полезные визуализации и карты: http://kepler.gl

Примеры визуализаций, сделанных в Kepler:
https://twitter.com/i/moments/1069327247830630401

Во-вторых, после приобритения JUMP bikes Uber Movement дополнился специальным дэшбордом про велики и скутеры JUMP:
https://medium.com/uber-movement/newsroom-post-new-mobility-dashboard-for-jump-electric-bikes-4965af05b6dc?lang=en-US

В-третьих, беспилотные автомобили развиваются, чтобы запустить машину на дорогу, нужно детально готовиться, в том числе собирать картографические данные и данные лидарной съёмки. Опять же, чтобы понимать как устроено пространство, нужны инструменты: http://eng.uber.com/atg-dataviz/

И в четвёртых, Uber Movment пополнился данными о скоростях движения (что-то очень похожее на привычный слой пробок на карте с возможностью анализировать разные периоды):
https://medium.com/uber-under-the-hood/bringing-more-data-to-uber-movement-with-street-speeds-79e84be0fe83

Но тут интересно кое-что ещё, эти данные были опубликованы в открытом формате, который разработали SharedStreets. Для этого Убер выделил грант $250,000 на разработку стандарта

Подробнее о формате:
https://github.com/sharedstreets/sharedstreets-ref-system

Про SharedStreets стоит упомянуть отдельно — начавшаяся как общественная инциатива, эта некоммерческая организация разрабатывает форматы данных, с помощью которых можно оцифровать городское простраство и создавать полезные приложения: https://sharedstreets.io/
Многие умные люди прекрасно помимают, что без стандартизации форматов обмена данными, ничего не будет возможным.
США не представили обновлённый National Action Plan (Национальный план действий) для Партнерства Открытых Правительств (OGP) и пропустили вот уже 3-й дедлайн, что ставит под рассмотрение их дальнейшее в OGP участие [1] если в течение нескольких месяцев план не будет опубликован [2]. Именно так предполагалось [3] ещё в августе когда США пропустили другой дедлайн в OGP [4]

Учитывая что Open Government Partnership создавалось изначально при активном участии прошлой администрации, то неудивительно что Трамп пытается дистанцироваться, но в целом это может привести если не к развалу OGP, то к сильной его перестройке.

Напомню что Россия членом OGP не является и отозвало свою заявку на членство в OGP в мае 2013 года [5] хотя и соответствовала всем критериям и саму заявку подавало в 2012 году [6].

Ссылки:
[1] https://e-pluribusunum.org/2019/01/08/open-government-partnership-puts-united-states-under-review/
[2] https://twitter.com/Integrilicious/status/1080850462574825477
[3] https://twitter.com/opengovpart/status/1037424386339471365
[4] https://fcw.com/articles/2018/08/29/howard-open-gov-under-trump.aspx
[5] https://www.opengovpartnership.org/stories/russia-withdraws-open-government-partnership-too-much-transparency
[6] https://www.opengovpartnership.org/stories/update-on-russia
#opendata #opengov
European Intelligence Unit опубликовал Индекс демократий 2018 года [1], где Россия с Казахстаном делят 144 место, а Беларусь находится на 137 месте. Россия отстаёт от Беларуси, на мой взгляд, в главном, в качестве функционирования государства с 1,79 баллами. Чтобы было понятно наглядно - у Северной Кореи функционирование государства оценено в 2.5 балла. Хуже чем в России оно оценивается в Сирии , Туркменистане, Таджикистане и десятке африканских стран.

США расположились на 25-м месте и подпадают под группу "Flawed Democracies", а в лидерах, как всегда, Норвегия и скандинавские страны в первой десятке.

Ссылки:
[1] https://www.eiu.com/public/topical_report.aspx?campaignid=Democracy2018

#opengov
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
Онлайн-курс «Использование открытых данных для цифрового бизнеса» теперь доступен на сайте https://www.futurelearn.com/courses/open-data-business.

Онлайн-курс поможет узнать, как зарабатывать на открытых данных и как их использовать для трансформации вашей организации. Авторы курса обещают создать новое понимание истории открытых данных, плюсов и минусов их использования, рассказать о бизнес-кейсах и бизнес-моделях, связанных с публикацией и использованием открытых данных.

Курс длится три недели и потребует от слушателей 2 свободных часа в неделю. Участие бесплатно (без получения сертификата).
Открытые данные - это не всегда государственные данные. Часто и чаще это данные собранные из открытых источников или же данные как результат научной деятельности. Далее подборка источников данных которые не являются государственными:

- re3data.org - реестр порталов данных научных репозиториев, более 2000 репозиториев в реестре
- dataverse.harvard.edu - один из крупнейших репозиториев данных в мире, в Гарварде. Более 81 тысячи наборов данных
- data.occrp.org - банк данных расследователей OCCRP. 194 миллиона документов включая файлы документов, наборы данных, утечки писем и многое другое.
- offshoreleaks.icij.org - базы утечек данных об оффшорах от ICIJ
- opendata.cern.ch - открытые данные адронного коллайдера и других проектов CERN. Огромного объёма, но применимы только физиками.
- dumps.wikimedia.org - дампы проектов фонда Викимедия, таких как Wikipedia, Wiktionary, Wikibooks, Wikidata и другие
- archive.org - крупнейший в мире архив наборов данных: веб-страниц, баз данных, результатов работы веб-краулеров, архивы FTP серверов и многое другое
- registry.opendata.aws - большие объёмы данных доступных через Amazon AWS. Много данных реального огромного объёма (несколько петабайт)
- scans.io - совместный проект нескольких компаний и групп по кибербезопасности выкладывающих результаты сканирования сетей

Это не исчерпывающий список и огромные объёмы данных публикуются без участия государств/правительств или же доступны исследователям.

#opendata #data
На хабре подробный, по шагам расписанный пост, о том как беларус "хакнул" госуслуги чтобы ввести туда данные своего паспорта [1]. Это безусловно не тот хакинг который про несанкционированный доступ к информации, но определенно про ошибки в реализации проверок на портале Госуслуг.
Повторять описанное там я никоим образом не рекомендую, это может оказаться уголовным деянием. А вот над вопросом о том проходят ли государственные информационные системы аудит безопасности - давно пора поднять.

А то ведь и одной утечки будет достаточно чтобы все полетело в тар-тарары.

Ссылки:
[1] https://habr.com/post/435548/

#privacy
Вопросы:
1. Сколько исследований ИТ рынка в России Правительство РФ и Минкомсвязи РФ провело за последние 5 лет?
2. Сколько исследований ИТ рынка в России предусмотрено на ближайшие 5 лет?
3. Проводились ли и кем и когда предметные исследования рынков оборудования, специализированного и общесистемного ПО, мобильных устройств и приложений к ним?
4. Что будет с ранее аккредитованными программами повышения квалификации государственных гражданских служащих для продуктов подлежащих импортозамещению (общесистемное и офисное ПО)? Будет ли аккредитация этих программ отозвана? Будет ли требование по их замещению на курсы ДПО и повышения квалификации на базе импортозамещаемых продуктов?
5. Аналогичный вопрос по аккредитованным программам не только для госслужащих, но и для всех остальных студентов
6. Будет ли сформирован компенсационных фонд ИТ компаниям на переобучение сотрудников импортозамещающим технологиям и продуктам?
7. Готово ли финансово-экономическое обоснование по каждой из государственных информационных систем по переходу на импортозамещаемое ПО? Если нет, то где можно увидеть дорожную карту и предварительные оценки стоимости миграции?
8. Распространяются ли требования по импортозамещению на сервисную и облачную модели предоставления ПО? Например, орган власти использует систему документооборота по сервисной модели. Обязан ли поставщик сервиса использовать отечественное ПО?

Источник вдохновения: http://government.ru/news/35323/

#questions
Db.nomics.world [1] - это открытая база макроэкономических показателей по всему миру от французских исследователей-экономистов из Cepremap [2]. Он часть проекта их инструментария для экономистов Macro.nomics.world [3] включающего:
- DbNomics - базу индикаторов экономик мира
- Dynare [4] - программный продукт для Mathlab по построению моделей на основе этих данных
- Policy - воспроизводимые результаты исследований

Для DbNomics данные собираются из 50 официальных источников, все данные отдаются через REST API, дампами, через библиотеки кода для R, Python, Stata, а также специализированые приложения для эконометрического анализа вроде Gretl [5].

Проект разработан полностью с открытым исходным кодом [6], основного сайта, сборки данных, библиотек и даже первичных собранных данных [7].


Сссылки:
[1] https://db.nomics.world/
[2] https://www.cepremap.fr/
[3] https://macro.nomics.world/
[4] http://www.dynare.org/
[5] http://gretl.sourceforge.net/
[6] https://git.nomics.world
[7] https://git.nomics.world/dbnomics-source-data

#opendata #opensource #economy
Тем временем в мире открытых данных данных всегда была и есть тема которой много в научном мире за пределами России и мало у нас. Это тема связанных данных (Linked Data).

На LOD Cloud [1] собрана большая база всех наборов данных превращенных в связанные данные. Задача эта трудоёмкая, но успешно решаемая теми кто создает открытые данные как результат научной деятельности или как результат общественной ценности. На январь 2019 год в LOD Cloud 1,234 набора данных в центре которых находится DBPedia [2] и другие проекты фонда Wikimedia.

Несмотря на высокий порог входа на использование данных в связанной форме и несмотря на сложности с публикацией - число наборов данных растёт.

От себя добавлю что лично я много лет занимался этой темой и отошел от неё только по той причине что не вижу прямого (быстрого) применения связанных данных в бизнесе и общественных проектах. Но в науке они являются стандартом-де-факто во многих областях: биология, лингвистика и др.

Ссылки:
[1] http://lod-cloud.net
[2] http://dbpedia.org

#opendata #linkeddata