Ivan Begtin
8.08K subscribers
1.45K photos
3 videos
98 files
4.18K links
I write about Open Data, Data Engineering, Government, Privacy and Data Preservation and other gov and tech stuff
Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech

Contact @NMBabina for ads proposals
Download Telegram
Forwarded from Нецифровая экономика (Oleg Salmanov)
Добрые прихожане прислали нам отчет об исполнении бюджета нацпроектами на 1 августа. Можем констатировать - Цифровая экономика не только продолжает отставать (9,1% - на конец ИЮЛЯ!!!), но и хуже всех наращивает темпы исполнения бюджета (+0,8 п.п. за месяц). А вот нацпроект "Культура" за один только июль "освоил" 19% всего годового бюджета!
Больше конференций в ленту.

9 октября я участвую в IT Government Day 2019 [1]. Речь пойдёт и про НСУД и про Единую технологическую архитектуру и про состояние открытости данных и многое другое.

Ссылки:
[1] http://www.tadviser.ru/index.php/Конференция:IT_Government_DAY_2019

#opendata #data #govtech #government
Одна из наиболее актуальных тем в современной цифровой криминалистике - это облачная криминалистика. Она заключается в сборе всей информации о человеке из облачных хранилищ Google, iCloud, Dropbox, OneDrive и многих других. В первую очередь, конечно, облака компаний Google и Apple.

При этом организации проводящие подобные цифровые расследования далеко не всегда могут получить доступ к данным непосредственно от владельца облака и более распространённой процедурой является извлечение данных из облачных аккаунтов используя реквизиты пользователя сохранённые в мобильном телефоне или компьютере.

Так, например, Elcomsoft cloud eXplorer [1] умеет извлекать практически всё что возможно из сервисов Google. Обещают что умеют собирать данных больше чем то что Google отдаёт в Takeout [2]. Другой продукт Oxygen Forensic Cloud Extractor [3] умеет собирать из более чем 30 разных онлайн сервисов, не так детально, но гораздо шире. Из облака умеют собирать данные Magnet Axiom [4] и многие другие продукты.

Облачная криминалистика имеет прямое отношение к мобильной криминалистике которая существует уже не один десяток лет. Но, в последние годы, с развитием облаков и облачных сервисов она стала гораздо более востребованной и актуальной. На основе данных из устройств и из облака не просто можно получить дополнительные доказательства виновности или невиновности, можно также выявить подозрительное поведение или попытки сокрытия информации.

Другая область которую отчасти можно отнести к облачной криминалистике - это криминалистика интернета вещей. Например, голосовые помощники Amazon Alexa установлены уже более чем в 25% домохозяйств в США. При расследовании ряда преступлений полиция в США пыталась запросить у Amazon'а данные голосовых помощников и получали отказ. Вот уже несколько лет специалисты по цифровой криминалистике изучают как извлекать данные из облака Amazon с помощью недокументированного API и достигают успеха [5] [6]. Но бывают и случаи когда Amazon передаёт данные, в случае судебного запроса [7].

Всё вместе, инструменты сбора облачных данных, ранее существующая компьютерная криминалистика и устройства интернета вещей не только дают больше возможности официальным, государственным криминалистам, но и корпоративным службам безопасности, пограничным службам и многим иным получающим возможность получать дополнительные данные о пользователях.

Ссылки:
[1] https://www.elcomsoft.com/ecx.html
[2] https://takeout.google.com/settings/takeout
[3] https://www.oxygen-forensic.com/en/products/oxygen-forensic-detective/detective/cloud-data-extraction
[4] https://www.magnetforensics.com/products/magnet-axiom/
[5] https://www.sans.org/cyber-security-summit/archives/file/summit-archive-1498230402.pdf
[6] https://www.dfrws.org/sites/default/files/session-files/pres_digital_forensic_approaches_for_amazon_alexa_ecosystem.pdf
[7] https://www.theverge.com/2017/1/6/14189384/amazon-echo-murder-evidence-surveillance-data

#data #forensics #privacy #clouds #iot
В NYT статья об огромном, не самом публичном, и довольно скрытом от публики бизнесе разметки данных (data labeling) [1]. До сих пор часто и очень часто выгоднее нанять сотни низкоооплачиваемых сотрудников которые вручную проверят данные по очень базовым правилам чем разрабатывать алгоритмы которые будут делать это автоматически. Да и алгоритмы надо на чём-то тренировать, здесь никак не обойтись без ручной работы.

Основной рынок разметки данных связан с английским языком поэтому неудивительно что он развивается в Индии, где с одной стороны английский на базовом уровне знают многие, а с другой найм людей обходится недорого. Впрочем для других задач, связанной с разметкой изображений, возможно подобное и в других странах.

Подобная разметка также актуальна для тех задач которые не требуют реального времени в принятии решений. Например, разметка объектов на спутниковых снимках или же, расшифровка аудиозаписей.

Ссылки:
[1] https://www.nytimes.com/2019/08/16/technology/ai-humans.html

#data #datalabeling #datamarket
Forwarded from Инфокультура (Ksenija V. Orlova)
Что такое цифровая архивация? Это сохранение архивов, библиотек, веб-сайтов и иных форм информации и знаний в электронном виде.

Зачем это нужно? Прежде всего, чтобы сохранить память о объектах культурного наследия, а также оставить цифровые свидетельства, которые имеют общественную значимость, но могут исчезнуть в любой момент.

Может ли цифровая архивация может войти в повестку национальной стратегии по развитию искусственного интеллекта и стать частью программы «Цифровая экономика»?

4 сентября состоится дата-среда, посвященная архивной деятельности и сохранению данных в эпоху развития новых технологий.

Иван Бегтин (Информационная культура), Сергей Волков (Умный архив) и другие приглашенные эксперты расскажут о собственных проектах и международных инициативах, а также обсудят особенности и пути развития цифрового сохранения и архивации в России.

Дата-среда — это открытый просветительский проект, который формирует среду для обмена знаниями и опытом по работе с данными. Регистрация: http://datasreda.ru.
Итоги заседания G7 в виде декларации прозрачности с госзакупках и противодействии коррупции [1]. Помимо прочих действий там явно прописана поддержка открытых данных, поддержка EITI [2], международной инициативы по раскрытию данных добывающими индустриями и инструменты открытой контрактации.

Дословно это всё звучит так:
We strongly support existing initiatives that promote our common goals, such as the Extractive Industries TransparencyInitiative (EITI)as well as other initiatives such as
2the Open Government Partnership (OGP). We recognise the role of open data in enhancingcompliance with integrity standards in the performance of major public contracts, as well as in ensuringstrong involvement by the different actors of civil society. We encourage open contracting tools and practices as an efficient innovative solution to the challenge of making procurement more effective, fairer and more transparentand fully taking into account the different levels of development of countries.

Ссылки:
[1] https://www.elysee.fr/admin/upload/default/0001/05/4cc3ad52f529ccc54483768425e61bef8ed4ac9c.pdf
[2] https://eiti.org/

#opendata #opengov #data #opencontracting
Россия на 29м месте в Government Artificial Intelligence Readiness Index 2019 [1] публикуемом Oxford Insights. Это чуть меньше чем у Исландии и чуть больше чем у Португалии. Пятёрка лидеров: Сингапур, Великобритания, Германия, США и Финляндия.
Индекс можно скачать в виде отчёта [2] и в виде данных [3]

Что немаловажно, это композитный индекс учитывающий следующие индикаторы:
- Data protection/privacy laws
- National AI strategy
- Data availability
- Government procurement of advanced technology products
- Data/AI capability (in government)
- Technology skills
- Private sector innovation capability
- Number of AI startups
- Digital public services
- Effectiveness of government
- Importance of IT to government’s vision of the future

В основу берутся индексы и подиндексы из отчетов к World Economic Forum, а Data Availability, например, рассчитывается на основе Open Knowledge Foundation Data Index [4]

Ссылки:
[1] https://www.oxfordinsights.com/ai-readiness2019
[2] https://ai4d.ai/wp-content/uploads/2019/05/ai-gov-readiness-report_v08.pdf
[3] https://docs.google.com/spreadsheets/d/1SuPCkaQsin1MsUYOn48bSQApfnTjfOVh7-rL94KZWsQ/edit#gid=15836467
[4] https://index.okfn.org/

#opendata #data #opengov #government #ai
В качестве регулярных напоминаний, о том чем я занимаюсь и где об этом можно узнавать.

Кроме аффиляции с проектами в Счетной палате я хоть и в меньшей степени, но вовлечен в дела 2-х НКО
- Инфокультура - про открытые данные, цифровые архив и многое другое
- Ассоциация участников рынка данных - защита прав бизнеса в регулировании данных

Телеграм каналы
- Мой основной телеграм канал - @begtin [1]
- Телеграм Инфокультуры - @infoculture [2]

Рассылки
- Рассылка АНО Инфокультура про данные открытые и персональные [3], прошлые выпуски рассылки [4] (письма не чаще чем раз в неделю)

Страницы в фэйсбуке
- Информационная культура [5]
- Ассоциация участников рынка данных [6]
- Госзатраты [7]

Открытый код
- Счетная палата [8]
- Инфокультура [9]
- Национальный цифровой архив [10]

Что-то наверняка упустил, это только то что самое что не на есть на поверхности

Ссылки:
[1] https://t.me/begtin
[2] https://t.me/infoculture
[3] https://infoculture.us7.list-manage.com/subscribe?u=2e38b8af0d8a547b51427dc9b&id=dadb533f05
[4] https://us7.campaign-archive.com/home/?u=2e38b8af0d8a547b51427dc9b&id=dadb533f05
[5] https://www.facebook.com/InformationCulture/
[6] https://www.facebook.com/AURDataCommunity/
[7] https://www.facebook.com/clearspending/
[8] http://code.ach.gov.ru
[9] http://github.com/infoculture
[10] http://github.com/ruarxive

#opendata #opengov #data
Почему я с 2005 года читаю все бюллетени Счетной палаты? Потому что узнаю много нового о том как идет информатизация и цифровизация в России.

Вот выдержка из отчета о результатах контрольного мероприятия «Проверка использования средств займа Международного банка реконструкции и развития на реализацию проекта № 4867-RU «Развитие системы государственной статистики – 2» в 2008–2018 годах» в бюллетень Счетной палаты №8 (август) 2019 г. [1]
...
В соответствии с пунктом 2 раздела B технических требований в результате выполнения работ в рамках контракта от 28 июля 2017 года ST2/1/B.13.2 «Совершенствование ИВС (информационно‑вычислительной системы) Росстата в части инструментария распространения результатов» должны были быть достигнуты в том числе следующие результаты: обновление дизайна сайта http://gks.ru и кольца сайтов; внедрение единой системы управления контентом; создание мобильного приложения сайта для платформ iOS и Android общей стоимостью 64 566,7 тыс. рублей.Согласно пункту 9 раздела А «Используемые термины и сокращения» технических требований (включая график реализации) контракта сокращение «Сайт (основной сайт, Интернет‑портал)» в рамках контракта означает – официальный Интернет‑сайт (портал) Федеральной службы государственной статистики, доступный в сети Интернет по адресу: http://gks.ru.В нарушение подпунктов 9, 10, 11 пункта 1 раздела В технических требований контракта и абзацев 7, 8, 9, 10 пункта 2 раздела В технических требований контракта на момент проверки дизайн официального Интернет‑сайта (портала) Росстата и кольца сайтов, размещенные по адресу http://gks.ru, не были обновлены.Кроме того, по адресу сети Интернет: http://gks.ru не внедрена обновленная единая система управления контентом. Необходимо отметить, что в соответствии с пунктом 5.2.6.6 «Требования к мобильному приложению» технических требований контракта ЗАО «ЛАНИТ» в том числе должно обеспечить размещение разработанных приложений на площадках App Store и Google Play. При этом фактически на момент проверки мобильное приложение Росстата на площадках App Store и Google Play отсутствовало. Таким образом, Росстатом приняты и оплачены работы, не в полной мере соответствующие техническим требованиям контракта No ST2/1/B.13.2, на сумму 64 566,7 тыс. рублей, что не соответствует статье 309 Гражданского кодекса Российской Федерации, согласно которой обязательства по договорам должны исполняться 198No8(260)І2019 5 МАНУЙЛОВА
надлежащим образом в соответствии с условиями обязательства и требованиями закона.Срок ввода в промышленную эксплуатацию новой версии Интернет‑портала определен в перечне поручений руководителя Росстата от 12 марта 2019 года No ПМ‑15/5060‑ВД – 30 апреля 2019 года. Однако по состоянию на 7 мая 2019 года новая версия Интернет‑портала по адресу в сети Интернет:
http://gks.ru не была введена в промышленную эксплуатацию.
...

Ссылки:
[1] http://audit.gov.ru/activities/bulleten/965/38333/

#budget #it #sprf #lanit
Стали известны итоги интересной и странной закупки Министерства цифрового развития РФ по теме " Выполнение работ по созданию Генеральной схемы развития сетей связи и инфраструктуры хранения и обработки данных Российской Федерации на период 2019-2024 годов " [1]

В открытом конкурсе победил со снижением на чуть менее 10% от начальной максимальной цены [2] ФГУП НТС "Система [3].
Интересно то что подобные работы никогда не были профилем деятельности этого ФГУПа, а до сих пор он занимался исключительно внедрением и сопровождением поисковых систем по законодательству таких как pravo.gov.ru [4]. Профиль его контрактов можно увидеть на Госзатратах [5].

Но интересно не только это, среди участников:
- Воронежский АО НВП ПРОТЕК [6] (сайт на реконструкции) не был допущен по причине отсутствия лицензии ФСБ.
- ЦНИИ Связи [7] получил нулевые баллы по квалификации
- БизнесАвтоматика заняла второе место (в прошло году они делали НИР 'Выполнение работ по развитию информационно-аналитической системы "Реестр услуг связи"' [8]), итогов его, увы, не знаю.

В общем при всех раскладах очень необычный победитель у этого конкурса. Судя по высоко оцененной квалификации заявки, в России появился новый центр компетенций в области связи. Интересно, продолжит ли этот ФГУП заниматься ведением правовых баз данных? Уж очень различаются эти два вида деятельности и интересно кто в персоналиях будет там делать эту работу.

Правда, очень интересно. Лично мне небезразлична инфраструктура обработки данных внутри государства.

Ссылки:
[1] http://zakupki.gov.ru/epz/order/notice/ok504/view/common-info.html?regNumber=0173100007519000108
[2] http://zakupki.gov.ru/epz/order/notice/ok504/view/supplier-results.html?regNumber=0173100007519000108
[3] http://www.systema.ru
[4] http://pravo.gov.ru
[5] https://clearspending.ru/supplier/inn=7701006532&kpp=770101001
[6] http://www.protek-vrn.ru/
[7] https://zniis.ru/
[8] https://clearspending.ru/contract/1771047437518000067/

#procurement #competition
Для тех кто любит интересные технические штуки с экскурсом в историю связи и шифрования - онлайн реализация [1] машины шифрования Enigma. Замечательная визуализация, настраиваемый интерфейс. Такую бы визуализацию многим современным алгоритмам в автоматических системах принятия решений.

Ссылки:
[1] https://observablehq.com/@tmcw/enigma-machine

#algorithm #dataviz
Кстати, очень интересная тема остановки ключевых функций продуктов зависящих от подключения к серверу. Например, что будет если Роскомнадзор в очередном безумном порыве заблокирует подсеть с серверами Tesla? Или что будет если и другие автопроизводители тоже начнут подсаживать клиентов на работу софтверной начинки только при наличии сервера?

Вообще вся ситуация с устройствами "online only" (работающими только при наличии интернета) - это ситуация идеального шторма. Каким он будет - вирусы шифровальщики для интернета-вещей, шпионское ПО в недиагностируемых участках ПО и оборудования таких устройств, сбои электричества, безумства локальных регуляторов и тд. Но мир определенно становится более хрупким, стоит ли получаемый комфорт такой хрупкости? Вот это вопрос пока без ответа.

#futurenow #iot
Forwarded from Zavtracast (Dmitriy Zombak)
О, дивный мир будущего!

На серверах компании Tesla случился небольшой факап, они легли и пользователей разлогинило из мобильного приложения, которое позволяет смотреть настройки, характеристики ну и открыть автомобиль. Некоторые водители так и не смогли уехать на своей Model 3.

https://thenextweb.com/cars/2019/09/03/tesla-owners-reportedly-got-locked-out-of-their-cars-because-the-app-was-down/
В New York Times статья о том как устроена конкуренция в Apple App Store [1]. Сразу заспойлю содержание, там о том что Apple подыгрывало и подыгрывает своим приложениям за счёт манипуляции поисковой выдачей и несколько раз попадало в судебные разбирательства.

Журналисты в NYT масштабно провели расследование использовав историю мониторинга поисковых запросов от стартапа Sensor Tower [2] которые много лет следит за Apple App Store для своего маркетингового продукта.

Ситуация в которой Apple оказывается - это ситуация вечного спора про монополиста с его экосистемой. App Store, в отличие от публичных ресурсов таких как радиочастоты, добыча полезных ископаемых, космос или воздушное пространство, - это личная вотчина Apple. Такой уже немаленький микрокосмос в котором доступны приложения создающие миллиарды долларов выручки тысячам компаний. Где пределы того что Apple может задать как общие правила? В каких случаях и кто имеет право на вмешательство?

И, конечно, не стоит полагать что кто-либо ещё из новых/старых технологических лидеров ведёт себя иначе.

Ссылки:
[1] https://www.nytimes.com/interactive/2019/09/09/technology/apple-app-store-competition.html
[2] https://sensortower.com/
Архивация общедоступных ресурсов очень близко пересекается с OSINT, извлечением значимой информации из общедоступных источников. Во всяком случае инструментарий пересекается очень сильно. Например, для соцсетей инструменты сбора данных для OSINT это чуть ли не единственный способ архивировать активность отдельных пользователей.

Для некоторых соцсетей вроде Facebook'а до сих пор нет инструмента архивации, Facebook крайне жёстко блокирует любые попытки выгрузки контента. Для других соцсетей такие инструменты бывают или возможны. Например один из лучших инструментов для Twitter'а - это twint [1], позволяет выгружать все твиты аккаунта без ограничений.

Нам это позволит в рамках Национальный цифровой архив России [2] сделать, наконец-то, обновляемый архив твитов политиков/чиновников/значимых лиц.

Очень нехватает такой утилиты для Telegram'а для архивации каналов. От неё нужно уметь принимать имя пользователя, формат сохранения (json, csv, sqlite), тип сохранения - выгрузить с нуля или обновить.

В итоге очень похоже на twint, но для телеграма. Есть ли уже готовые инструменты? Есть ли коммунити разработчиков умеющих выкачивать данные из телеграма и где можно заказать такой инструмент?

Ссылки:
[1] https://github.com/twintproject/twint
[2] http://ruarxive.org

#digitalpreservation
Дата-журналистам на заметку, если захочется сделать материал о том как следят за россиянами, то могу описать это по шагам. На примере приложений для Android.

1. Собираете топ 100 приложений наиболее популярных в России, например из AppBrain [1]. Минимально - общий список топ-100. Максимально - по каждой предметной категории.
2. Проверить каждое приложение через AppCensus [2] и Exodus [3]. AppCensus даёт сведения по динамическому анализу передаваемой информации, а Exodus даёт сведения по результатам статического анализа приложений.
3. Пример популярного приложения с трекерами - Read books online от Литрес. Трекеры в нем можно увидеть тут [4] [5]
4. Всё это можно собрать и обработать в единую базу и сгруппировать по компаниям-разработчикам приложений

Как итог - карта того кто и как следит за россиянами через мобильные приложения.

Странно что до сих пор никто такое не сделал.

Ссылки:
[1] https://www.appbrain.com/apps/country-russia/
[2] https://search.appcensus.io
[3] https://reports.exodus-privacy.eu.org/en/
[4] https://search.appcensus.io/app/ru.litres.android/720190604
[5] https://reports.exodus-privacy.eu.org/en/reports/73793/

#privacy #digitalrights
Сегодня утром я был на Московском финансовом форуме, регулярно всё то же - секция по госзакупкам. Мне много есть что прокомментировать то о чём говорили выступающие, большие планы по развитию ЕИС (zakupki.gov.ru) описывала Анна Катамадзе. Не считая Сергея Габестро который, как хочется надеяться, отрезвил участников секции, всё было на позитивной ноте. Что, на самом деле, конечно же, совсем не так.

Я расскажу о том о чём не выступают и не говорят представители Казначейства в разговорах про ЕИС - это качество данных.

Вот лишь несколько примеров:
1. Контракт [1] между БУ СО ВО "РЦ"ПРЕОДОЛЕНИЕ" и ... барабанная дробь Минспорта России. При этом в договоре указано совершенно другое юрлицо, хотя и подведомственное Минспорту, но с другими ИНН/КПП и реквизитами.

2. В 2011 году администрация Чойского района Республики Алтай заключила контракт на 224 миллиарда рублей с ПМК [2], местной алтайской компанией. Тогда не публиковали документы договоров, и сейчас проверить были ли там 224 миллиарда можно, но надо поднимать немало документов чтобы в этом убедиться.

Мы давно не проверяли достоверность данных внесённых в ЕИС. Но проверим рано или поздно и я скажу Вам там будет не всё гладко.

Так вот как оказалось что казначейство регистрирует такие договора? Почему нет процедуры исправления данных? Потому что мало кого интересует их анализ? Нет это не так. На данных системы закупок принимается множество решений, но мы не придаём этому должного значения. Общий масштаб искажений до сих пор трудно оценить. Эти единичные случаи лишь иллюстрация.

Ссылки:
[1] http://zakupki.gov.ru/epz/contract/contractCard/common-info.html?reestrNumber=2352806047616000019
[2] http://zakupki.gov.ru/epz/contract/contractCard/common-info.html?reestrNumber=0377300000511000005&source=epz

#procurement #government #contracting
Сервис Trifacta получил $100 миллионов инвестиций на создание системы очистки и обработки данных для AI и облачных сервисов. С одной стороны хорошая новость, а с другой - все сервисы очистки данных мигрируют в облака, а использование зарубежных облаков с российскими данными - это та ещё проблема с законодательством.