Ivan Begtin
8.07K subscribers
1.49K photos
3 videos
99 files
4.23K links
I write about Open Data, Data Engineering, Government, Privacy and Data Preservation and other gov and tech stuff
Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech

Contact @NMBabina for ads proposals
Download Telegram
Множество полезных ссылок на английском про данные вместо одной новости.

Дайджест по данным:
- гайд по тому как извлечь данные из PDF отчёта мексиканского правительства, обработать, проанализировать и визуализировать с помощью инструментария на Python. [1]
- Амазон начал подкручивать алгоритмы поиска для большей видимости его собственных продуктов [2] (вот и доверяй после этого большим платформам, ага)
- Lectures in Quantitative Economicswith Python [3] свежая книга более в 1100 страниц о том как использовать Python в экономических расчётах. Студентам экономистам на заметку
- Умные телевизоры передают чувствительную информацию Netflix и Facebook [4]. Имеются в виду умные телевизоры в США в первую очередь, но смысл не меняется (статья Financial Times за пэйволлом).
- The Global Expansion of AI Surveillance [5] исследование от Carnegie Endowment for International Peace о том как глобальные системы слежки с искусственным интеллектом стремительно распространяются. Немного про Россию и много про Китай. В России упомянуты ключевые компании: Analytical Business Solutions, Cisco, Huawei, NtechLab, Speech Technology Center [6]. Даже не знаю порадоваться или опечалиться. А вот Huawei повсюду

Ссылки:
[1] https://github.com/PhantomInsights/mexican-government-report
[2] https://www.wsj.com/articles/amazon-changed-search-algorithm-in-ways-that-boost-its-own-products-11568645345
[3] https://lectures.quantecon.org/_downloads/pdf/py/Quantitative%20Economics%20with%20Python.pdf
[4] https://www.ft.com/content/23ab2f68-d957-11e9-8f9b-77216ebe1f17
[5] https://carnegieendowment.org/2019/09/17/global-expansion-of-ai-surveillance-pub-79847
[6] https://carnegieendowment.org/files/AI_Global_Surveillance_Index1.pdf

#digest #data #news
Многие базы данных имеют природу отнюдь не государственную, но общественную и исследовательскую. Иногда при господдержке, но часто за счёт частных и исследовательских фондов.

Например, сектор добычи полезных ископаемых, в первую очередь нефтегазовый сектор является объектом общественного интереса. И множество проектов в этой области создаются совсем не органами власти:
- Corporate Mapping Project [1] совместный проект нескольких канадских университетов и общественных организаций о том как устроено управление нефтегазовыми компаниями.
- National Oil Company Database [2] проект от NRGI с базой индикаторов по деятельности нефтегазовых компаний с высокой детализацией до компании.
- EITI [3] - стандарт раскрытия информации о добывающих компаниях. Применяется во многих станах, на постсоветском пространстве это: Казахастан, Киргизия, Таджикистан, Украина
- PWYP (Publish what you pay) [4] - международная НКО пропагандирующая прозрачность объектов общественного достояния - недр.
- Resource Contracts [5] база данных контрактов с добывающими компаниями сделанный совместно NRGI, Всемирным банком и рядом других организаций.
- Resouce Data [6] ещё один проект от NRGI с базой в виде наборов данных по добывающим отраслм
- Нигерийский проект по мониторингу разливов нефти [7]
- каталог проектов создающих и использующих данные в добывающем секторе [8]
- ResourceProjects [9] база платежей компаний странам за проекты в добывающей сфере. Налоги, роялти и иные платежи - всё здесь. Кстати данные по России там есть [10]

Ссылки:
[1] https://www.corporatemapping.ca/
[2] https://www.nationaloilcompanydata.org
[3] https://eiti.org/homepage
[4] https://www.pwyp.org/
[5] https://resourcecontracts.org/
[6] https://www.resourcedata.org/
[7] https://oilspillmonitor.ng/
[8] http://apps.resourcegovernance.org/use-ecosystem/
[9] http://www.resourceprojects.org/
[10] http://www.resourceprojects.org/country/Russian%20Federation

#data #oilgas #russia #un-digitaleconomy
19-20 октября пройдет хакатон Счетной палаты [1] с кучей интересных задач, полезных для понимания не только данных по госфинансам, но и работы с госданными в принципе.

Я же не могу не напомнить хорошее правило что когда Вы смотрите на подготовленные идеи проектов - не ограничивайтесь только ими. Часто какую-то идею вынашиваешь месяцами и годами и тут возможность её качественно представить.

Ссылки:
[1] https://web.facebook.com/events/804055623342930/

#opendata #data #hackahon #sprf
Для разнообразия не ссылки и новости, а размышления

У меня на руках сейчас довольно много подсчитанной аналитики по госрасходам (и доходам) по куче разных направлений, причём подсчитанной самостоятельно, а пока считаешь то и видишь, подтверждаешь знания, о том как всё на самом деле устроено на самых разных рынках.

Вот к примеру рынок дорожного строительства. Крупнейший по доле в госрасходах и в госзаказе. Прозрачность - минимальная, большая часть компаний малоизвестна кому-либо за пределами узкого круга, требований к раскрытию информации минимум. Во многих случаях информация отсутствует в принципе за исключением сведений в ЕГРЮЛ и ряде реестров.

Другой рынок фармацевтика. По факту 5-6 крупных производителей контролируют рынок, при этом есть пул крупных и средних дистрибьюторов, опять же, с минимальной прозрачностью через которых проходит львиная доля заказа. А во многих субъектах есть ещё и бывшие и действующие ГУПы областных фармаций через которых идёт централизованная закупка. Все истории про более-менее разумное регулирование - это регулирование на уровне самых верхнеуровневых договорённостей правительства с производителями, а вот эти все игры с текущим госрегулированием этой области - ох сколько там лукавства. И ведь нет ни одного публичного доступного документа описывающего текущую ситуацию сверху до низу - кто и как является маркет-мейкером, на что влияет даже минимальное регулирование и так далее.

В принципе видно что размер поставщика никак не влияет на прозрчность его деятельности. Только наличие лицензий, но и то слабо. При этом более половины годового госзаказа идёт на юрлица в форме ООО, около 25% идёт на бывшие ЗАО, а ныне непубличные АО и только всё остальное на все остальные предприятия. В зависимости от года на ПАО может приходится от 5 до 10% средств по госзаказу. В основном это ПАО в рамках энергохолдинов, нефтяных корпораций и ограниченного числа других ПАО.

Доля госкорпораций не так велика в целом только по причине того что они не представлены на рынке стройки зданий и стройки дорог. Если начать резать бюджет секторально, то можно даже предсказать направления развития дальнейшего регулирования и распространения госкорпораций.

Это, например:
- замещение дистрибьюторов медтехники и фармы под эгидой импортозамещения
- замещение значительной части ИТ интеграторов, сейчас ограничивает только то что трудно отстраивать компетенции и скоростью изменения технологий. Но тренд более чем явный

Все разговоры про результат - это разговоры про стройку. Но что же все стесняются говорить что без спутникового мониторинга здесь не обойтись.

Процедурность госзакупок вообще никак не влияет на то кто и как получает контракты. На распределение контрактов примерно с 10 миллионов рублей влияет только административный ресурс. Чаще легальный - переговоры с потенциальными подрядчиками до объявления торгов.

У меня ещё много рефлексии есть про ГЧП, государственные информационные системы, организации контроля результата и не только. Как-нибудь соберусь дописать

#thoughts #goszakaz
Буквально на днях вышло исследование Transparency International Russia по лоббизму в Госдуме в виде сайта [1] и в виде доклада [2]. Доклад довольно обстоятельный, скорее контентный чем технический, хотя и визуализация вполне хороша. А контентный потому что явно много материалов переработано для создания справки на каждого депутата.

Плюсы минусы и комментарии.
1. Конечно в России депутаты являются лоббистами в гораздо меньшей степени чем, например, члены советов и комиссий при Правительстве или при Президенте РФ. Не говоря уже о внутренних лоббистах внутри органов власти.
2. Лоббизм - это хорошо или плохо? В принципе, это как проституция. Можно с ней бороться, но сбор налогов и регистрация окажутся эффективнее. Лоббизм неизбежен, исследования его интересны многим, в первую очередь самим лоббистам.
3. Очень хочется увидеть результаты исследования и в виде открытых данных, там есть с чем поработать на хакатонах и не только.

Ссылки:
[1] https://dumabingo.ru/
[2] https://dumabingo.ru/%D0%9B%D0%BE%D0%B1%D0%B1%D0%B8%D0%B7%D0%BC%20%D0%B2%20%D0%93%D0%BE%D1%81%D0%B4%D1%83%D0%BC%D0%B5.pdf

#opengov #lobbying
Новость явно требует комментариев. Но краткий комментарий мой звучит так - товарищи журналисты, поднимите же наконец материалы по приоритетным национальным проектам 2006-2009 годов и сомнений в том как устроены и чем закончатся эти национальные проекты у вас никаких не будет.
Forwarded from Нецифровая экономика (Oleg Salmanov)
Две трети года позади, а министерству цифрового развития удалось раскассировать только 10,6% средств. И цифры за август показывают, что программа "Цифровая экономика" продолжает отставать - за месяц удалось исполнить ее бюджет на 1,5% (!!!). Такими темпами министерству понадобится 66 месяцев (5,5 лет), чтобы исполнить бюджет 2019 года!
8 октября будет моя лекция в Шанинке про дата расследования. Будет не только про старые расследования, но и про многое менее известное и новое. Не только про госзакупки, но и про поиск персональных данных и про пиратское ПО в госорганах
Forwarded from Инфокультура (Ksenija V. Orlova)
Приглашаем на открытую лекцию Ивана Бегтина «Дата-расследования: тысячи иголок с миллионах стогов сена», которая состоится 8 октября в библиотеке Шанинки.

Иван расскажет про три кейса по работе с открытыми данными и электронными документами госучреждений и информационных систем:

- «Слепые закупки» — что это? Латиница и другие способы искажения информации о государственных и муниципальных закупках в целях ограничения конкуренции и поиска сведений.
- Утечка персональных данных с сайтов государственных информационных систем — как более двух миллионов записей с данными россиян оказались в открытом доступе.
- Пиратский софт — использование пиратского программного обеспечения в российских госорганах. На сайте какого органа исполнительной власти не было найдено ни одного документа с признакам нелицензионного ПО?

Необходима предварительная регистрация: http://msses.ru/about/news/4434/?
Майкрософт убрали возможность ставить Windows 10 без интернета как пишут на Reddit [1]. На самом деле это не совсем так, и теперь установка с локальным аккаунтом возможна только если у компьютера нет доступа в Интернет или если несколько раз неправильно ввести телефон. Но суть остаётся прежней, Microsoft загоняет пользователей в онлайн и завязывает в свою экосистему.

Ссылки:
[1] https://www.reddit.com/r/Windows10/comments/daim1y/ms_has_removed_the_use_offline_account_option/

#microsoft
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
Проект федерального бюджета на 2020 год опубликован на портале Электронного бюджета (budget.gov.ru). Что мы о нем знаем:

- Это бюджет Шредингера - данные по нему то есть, то их нет;
- нововведение этого года - коды госпрограмм, разделов и подразделов стали однозначными вместо двухзначных, коды ГРБС - двухзначные вместо трехзначных;
- столбцы отображаются рандомно: ГРБС после ЦСР и разделов/подразделов, а видам расходов еще больше повезло - их отображают даже после сумм;
- перечень главных администраторов ИФДБ через минуту после открытия страницы полностью пропал;
- целевым статьям расходов пожалели нулей.

Федеральный бюджет уже второй год вносится в Госдуму в электронном виде, но сомневаюсь, что по таким данным можно какие-то решения принять.
Вдогонку о том как приложения следят за пользователями вышел очень познавательный материал в The Bell о том как приложения смартфонов за нами шпионят [1]. Хорошая работа и весьма неплохо сделанный материал в виде проекта по дата-журналистике. Обратите внимание на многочисленные примеры того как злоупотребляют разрешениями на телефоне мобильные приложения российских "национальных чемпионов".

Такие материалы и исследования важны со всех сторон. Для пользователей в том чтобы понимать и использовать приложения осознанно, выбирая те которые обеспечивают качественный баланс приватности и сбора данных. А для бизнеса в том что интерес граждан к теме слежки за ними растёт очень резко. Важно не упустить того момента когда можно получить массовый отток клиентов из-за того что разработчики "забыли" отключить трекеры слежки.

Ссылки:
[1] https://thebell.io/shpion-iz-smartfona-top-10-prilozhenij-sobirayushhih-vashi-dannye/

#privacy
И снова о неприятном. В блоге компании Comparitech публикация об утечке данных о 20 миллионах российских налогоплательщиках [1]. Особой изюминкой является то что данные обнаружились на серверах на базе Elasticsearch на Украине.

Я добавлю что на сером и черном рынке торговли данными в России - данные с Украины и по Украине встречаются сейчас особенно часто. Сложно ли удивляться тому что на Украине собирается немало особо значимых данных о России и из России.

В любом случае новость безрадостная для рядовых россиян. А вскрывшийся факт утечки перс данных на Украину и в открытый доступ поднимает немало вопросов о том как такое возможно и всё ли в порядке в российском ФНС.

Ссылки:
[1] https://www.comparitech.com/blog/vpn-privacy/russian-tax-records-exposed-online/

#privacу #dataleaks
Есть такой эффект в распространении информации - эффект англосферного пузыря, когда, поскольку большинство обычно знают английский язык как второй после родного, то и большая часть примеров и опыта идёт со ссылкой на США, Великобританию, Австралию, Новую Зеландию, и, реже, Индию.

Для разнообразия, я приведу примеры разных интересных общественных проектов в других странах.

- Quién cobra la obra (Кому заплатили за работу?) [1] - монитор строительных контрактов от Civio (Испания), включая поиск по контрактам [2]. Фокус на объяснениях, расследованиях и статьях дополняемых собранными данными.
- Quién manda (Кто правит?) [3] - другой проект от Civio о связях тех кто владеет деньгами, теми кто руководит (депутатами, министрами и тд). На основе общедоступной информации и в виде навигатора [4] по более чем 7200 проверенным связям.
- Handlingar [5] проект от шведской группы активистов в CivicTech по автоматизации запросов в госорганы на получение информации. Создан на базе открытыого код проекта Alavetelli [6] используемого НКО во многих странах для создания порталов для запросов информации у органов власти.
- OpenCoesione [7] итальянский государственный проект который можно первести как "Открытое развитие", по факту это портал раскрытия по госпрограммам и госрасходам с детализацией до каждого муниципалитета.
- abgeordnetenwatch.de - германский портал мониторинга за парламентом и депутатами включая возможность направлять петиции

Большая часть общественных проектов в мире, как правило, сфокусированы на:
- лоббизме и прозрачности принятия решений
- госрасходах
- качестве управления общественными ресурсами (землей, полезными ископаемыми и тд.)
- общественных и социальных проблемах таких как экология, миграция и так далее.


Ссылки:
[1] https://civio.es/quien-cobra-la-obra/
[2] https://quiencobralaobra.es/
[3] https://civio.es/quien-manda/
[4] https://quienmanda.es/
[5] https://handlingar.se/sv
[6] https://alaveteli.org/
[7] https://opencoesione.gov.it
[8] https://www.abgeordnetenwatch.de

#civicprojects #opengov #opendata
Для тех кто ищет какие новые/старые продукты по работе с данными потестить и посмотреть рекомендую победителей Data Management Insight Award [1] рейтинг продуктов где встречаются и те продукты которые, я, к примеру, не знал.

Там же до 8 октября можно проголосовать за продукты 2019 года [2] и к 6 декабря будет известен продукт.
Кстати, сами рейтинги - это хороший продукт консалтинговой компании A-Team Insight. Потому что чтобы проголосовать надо заполнить на себя анкету и вообще много чего о себе сообщить. Какие молодцы! Надо брать с них пример.

Ссылки:
[1] https://a-teaminsight.com/awards/data-management-insight-awards/
[2] https://a-teaminsight.com/awards/data-management-insight-awards/?page=vote_now

#data #datamanagement
Почему данные компаний должны быть общественным благом ? (Why data from companies should be a common good?) [1] статья от члена французского парламента Паулы Фортеза и её советника Марианны Биллард о том что частные компании должны делиться данными с государством и другими компаниями. Они призывают к принятию Европейского закона о частных данных (European Private Data Act) в котором закрепить условия обмена данными / data sharing. При это подчёркивается что обмен данными не является синонимом открытости данных, а частные интересы компаний учитываются.

Пока рано говорить о том что такой закон появится в этом или в следующем году, но если он будет принят то однозначно будет создан по модели GDPR с экстерриториальностью подпадающих под него компаний. И первыми кто под него попадёт будут международные дата-корпорации которых могут захотеть понудить делиться данными с их европейскими партнёрами.

Что это означает? Я бы в ближайшие годы ждал активности в запуске частных data-sharing инициатив от крупнейших дата игроков в целях максимально отсрочить, ослабить или ограничить подобное регулирование.

Ссылки:
[1] https://apolitical.co/solution_article/why-companies-should-share-their-data-with-government/

#opendata #datasharing #data
Должны ли частные компании делиться накопленными ими данными с государством и с другими компаниями?
public poll

Только добровольно – 92
👍👍👍👍👍👍👍 59%

Да – 37
👍👍👍 24%

Нет – 26
👍👍 17%

👥 155 people voted so far.
Итоги голосования по добровольности обмена данными для частных компаний
Прошлый опрос показал что большинство считает что если бизнес и должен делиться данными, то только добровольно. Результат в каком-то смысле ожидаемый. Так что предлагаю второй вопрос с уточнением
Должны ли компании монополисты делиться своими данными с государством и другими компаниями на их рынках в целях антимонопольного регулирования?
anonymous poll

Да, должны – 101
👍👍👍👍👍👍👍 79%

Нет, не должны – 27
👍👍 21%

👥 128 people voted so far.