Ivan Begtin
8.08K subscribers
1.46K photos
3 videos
98 files
4.19K links
I write about Open Data, Data Engineering, Government, Privacy and Data Preservation and other gov and tech stuff
Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech

Contact @NMBabina for ads proposals
Download Telegram
ФГБУ «Центр геодезии, картографии и инфраструктуры пространственных данных», подвед Росреестра, станет ответственным за создание государственной информационной системы ведения единой электронной картографической основы и за федеральный портал пространственных данных.

Подробнее: http://d-russia.ru/rosreestr-ofitsialno-naznachil-otvetstvennogo-za-edinuyu-elektronnuyu-kartograficheskuyu-osnovu.html
То что называют "мягким искусственным интеллектом" (soft AI) вляется подвидом ADM, Automated decision making (автоматизированное принятие решений). ADM системы могут быть очень простыми и базироваться на цепочках правил, а могут и достигать высокой сложности и использовать нейросети, быть построенными на алгоритмах глубокого обучения и так далее. Для конечного пользователя ситуация не меняется - он видит чёрный ящик получающий данные и выдающий решения.

AlgorithmWatch, германская НКО специализирующаяся на мониторинге этичности применения алгоритмов создали Atlas of Automation [1] где собрали 125 примеров применения алгоритмов принимающих решения без участия человека. Это и системы скоринга, и предсказания преступности, и профилирование потенциально социально-опасных персон и многое другое. Эта база является частью их доклада, доступного и на английском языке [2] .

Даже такой доклад по одной стране очень показателен. ADM системы применяются повсеместно и чем больше их будет в будущем, тем сильнее будет общественное давление против их применения.

Ссылки:
[1] https://atlas.algorithmwatch.org/en
[2] https://atlas.algorithmwatch.org/wp-content/uploads/2019/04/Atlas_of_Automation_by_AlgorithmWatch.pdf

#germany #adm #data
В продолжение идеи создания единой архитектуры, на встрече в аналитическом центре Ирина Сиренко явным образом упоминала про про то что такой подход с архитектурой не взлетел в Москве, а я не просто так спрашивал про страны на которые ориентировались представлявшие подход к архитектуре.

В США Federal Enterprise Architecture не взлетела рассматривается сейчас как негативный опыт. На сайте совета CIO [1] органов власти не найти ни одного документа по ней кроме как в архиве сайта OMB [2].

Большое исследование о причинах провала FEA вышло в 2010 году [3]

Ссылки:
[1] http://www.cio.gov
[2] https://web.archive.org/web/20090130021108/http://www.whitehouse.gov/omb/e-gov/fea/
[3] http://www.ech-bpm.ch/sites/default/files/articles/why_doesnt_the_federal_enterprise_architecture_work.pdf

#government #usa
На рынке данных, как и на многих других рынках, те кто реально зарабатывают на них стараются поменьше говорить о своих бизнес моделях и успешности/неуспешности бизнеса, если только это не разговор с инвесторами. Одной из такой, с одной стороны малоизвестных, а с другой стороны хорошо известной в узких кругах нишей является рынок поставки альтернативных данных.

Альтернативные данные - это данные которые, в отличие от официальной статистики, могут собираться чуть ли не ежедневно, обладать высокой детализацией и точностью и охватывать те показатели бизнеса и экономической активности которые ранее было невозможно получить. Примером таких данных являются данные стартапа RSMetal [1] которые регулярно делают спутниковые снимки хранилищ стали, алюминия, меди, цинка и других товаров для автоматического измерения их объёма. Данные собираются ежедневно, в течение 48 часов обрабатываются и дополняются данными прогнозов. И таких сервисов распознавания и трекинга много. Стартап Kler [2] отслеживает по снимкам перемещение грузов, а TerraQuanta [3] в Китае следит за китайским агрорынком с помощью спутников, дроной и интернета вещей.

Один из крупнейших агрегаторов альтернативных данных, Quandl [4] был приобретён NASDAQ [5] в 2018 году после того как число клиентов Quandl превысило 300 тысяч.

Таких компаний десятки на рынке данных спутников и сотни во многих других областях. Большой каталог провайдеров таких данных собран на портале Alternative Data [6] как и общее описание этого рынка [7].

Потребители этих данных - это представители компаний на рынке, в первую очередь представители глобальных корпораций. А также трейдеры, аналитики, участники рынка, крупнейшие потребители и инвесторы. И конечно же, их используют для автоматической биржевой торговли.

Альтернативные данные - это данные всё более заменяющие официальную статистику и этот рынок огромен и в нём огромное количество ниш и возможностей.

Ссылки:
[1] https://rsmetrics.com/
[2] https://www.kpler.com/
[3] https://www.terraqt.com/
[4] http://quandl.com
[5] https://business.nasdaq.com/mediacenter/pressreleases/1855930/nasdaq-acquires-quandl-to-advance-the-use-of-alternative-data
[6] https://alternativedata.org/data-providers/
[7] https://alternativedata.org/alternative-data/

#data #alternativedata
Через месяц клуб 4CIO проведёт в Подмосковье свой ежегодный конгресс [1], обычно там обсуждают технологические тренды и темы, волнующие ИТ-директоров.
В этом году у них в списке тем разные взгляды на цифровую трансформацию, есть секция про искусственный интеллект, а есть целое пленарное заседание про работу с инновациями.
Я там ещё не бывал, но вообще спикеры подобрались интересные [2].

Я также обещаю публиковать больше анонсов содержательных конференций про ИТ и данные, в будущем.

Ссылки:
1. https://pv2019.4cio.ru/
2. https://pv2019.4cio.ru/program/2

#data #events
Картина не то чтобы даже печальная, удручающая картина.
Forwarded from Нецифровая экономика (Oleg Salmanov)
Добрые прихожане прислали нам отчет об исполнении бюджета нацпроектами на 1 августа. Можем констатировать - Цифровая экономика не только продолжает отставать (9,1% - на конец ИЮЛЯ!!!), но и хуже всех наращивает темпы исполнения бюджета (+0,8 п.п. за месяц). А вот нацпроект "Культура" за один только июль "освоил" 19% всего годового бюджета!
Больше конференций в ленту.

9 октября я участвую в IT Government Day 2019 [1]. Речь пойдёт и про НСУД и про Единую технологическую архитектуру и про состояние открытости данных и многое другое.

Ссылки:
[1] http://www.tadviser.ru/index.php/Конференция:IT_Government_DAY_2019

#opendata #data #govtech #government
Одна из наиболее актуальных тем в современной цифровой криминалистике - это облачная криминалистика. Она заключается в сборе всей информации о человеке из облачных хранилищ Google, iCloud, Dropbox, OneDrive и многих других. В первую очередь, конечно, облака компаний Google и Apple.

При этом организации проводящие подобные цифровые расследования далеко не всегда могут получить доступ к данным непосредственно от владельца облака и более распространённой процедурой является извлечение данных из облачных аккаунтов используя реквизиты пользователя сохранённые в мобильном телефоне или компьютере.

Так, например, Elcomsoft cloud eXplorer [1] умеет извлекать практически всё что возможно из сервисов Google. Обещают что умеют собирать данных больше чем то что Google отдаёт в Takeout [2]. Другой продукт Oxygen Forensic Cloud Extractor [3] умеет собирать из более чем 30 разных онлайн сервисов, не так детально, но гораздо шире. Из облака умеют собирать данные Magnet Axiom [4] и многие другие продукты.

Облачная криминалистика имеет прямое отношение к мобильной криминалистике которая существует уже не один десяток лет. Но, в последние годы, с развитием облаков и облачных сервисов она стала гораздо более востребованной и актуальной. На основе данных из устройств и из облака не просто можно получить дополнительные доказательства виновности или невиновности, можно также выявить подозрительное поведение или попытки сокрытия информации.

Другая область которую отчасти можно отнести к облачной криминалистике - это криминалистика интернета вещей. Например, голосовые помощники Amazon Alexa установлены уже более чем в 25% домохозяйств в США. При расследовании ряда преступлений полиция в США пыталась запросить у Amazon'а данные голосовых помощников и получали отказ. Вот уже несколько лет специалисты по цифровой криминалистике изучают как извлекать данные из облака Amazon с помощью недокументированного API и достигают успеха [5] [6]. Но бывают и случаи когда Amazon передаёт данные, в случае судебного запроса [7].

Всё вместе, инструменты сбора облачных данных, ранее существующая компьютерная криминалистика и устройства интернета вещей не только дают больше возможности официальным, государственным криминалистам, но и корпоративным службам безопасности, пограничным службам и многим иным получающим возможность получать дополнительные данные о пользователях.

Ссылки:
[1] https://www.elcomsoft.com/ecx.html
[2] https://takeout.google.com/settings/takeout
[3] https://www.oxygen-forensic.com/en/products/oxygen-forensic-detective/detective/cloud-data-extraction
[4] https://www.magnetforensics.com/products/magnet-axiom/
[5] https://www.sans.org/cyber-security-summit/archives/file/summit-archive-1498230402.pdf
[6] https://www.dfrws.org/sites/default/files/session-files/pres_digital_forensic_approaches_for_amazon_alexa_ecosystem.pdf
[7] https://www.theverge.com/2017/1/6/14189384/amazon-echo-murder-evidence-surveillance-data

#data #forensics #privacy #clouds #iot
В NYT статья об огромном, не самом публичном, и довольно скрытом от публики бизнесе разметки данных (data labeling) [1]. До сих пор часто и очень часто выгоднее нанять сотни низкоооплачиваемых сотрудников которые вручную проверят данные по очень базовым правилам чем разрабатывать алгоритмы которые будут делать это автоматически. Да и алгоритмы надо на чём-то тренировать, здесь никак не обойтись без ручной работы.

Основной рынок разметки данных связан с английским языком поэтому неудивительно что он развивается в Индии, где с одной стороны английский на базовом уровне знают многие, а с другой найм людей обходится недорого. Впрочем для других задач, связанной с разметкой изображений, возможно подобное и в других странах.

Подобная разметка также актуальна для тех задач которые не требуют реального времени в принятии решений. Например, разметка объектов на спутниковых снимках или же, расшифровка аудиозаписей.

Ссылки:
[1] https://www.nytimes.com/2019/08/16/technology/ai-humans.html

#data #datalabeling #datamarket
Forwarded from Инфокультура (Ksenija V. Orlova)
Что такое цифровая архивация? Это сохранение архивов, библиотек, веб-сайтов и иных форм информации и знаний в электронном виде.

Зачем это нужно? Прежде всего, чтобы сохранить память о объектах культурного наследия, а также оставить цифровые свидетельства, которые имеют общественную значимость, но могут исчезнуть в любой момент.

Может ли цифровая архивация может войти в повестку национальной стратегии по развитию искусственного интеллекта и стать частью программы «Цифровая экономика»?

4 сентября состоится дата-среда, посвященная архивной деятельности и сохранению данных в эпоху развития новых технологий.

Иван Бегтин (Информационная культура), Сергей Волков (Умный архив) и другие приглашенные эксперты расскажут о собственных проектах и международных инициативах, а также обсудят особенности и пути развития цифрового сохранения и архивации в России.

Дата-среда — это открытый просветительский проект, который формирует среду для обмена знаниями и опытом по работе с данными. Регистрация: http://datasreda.ru.
Итоги заседания G7 в виде декларации прозрачности с госзакупках и противодействии коррупции [1]. Помимо прочих действий там явно прописана поддержка открытых данных, поддержка EITI [2], международной инициативы по раскрытию данных добывающими индустриями и инструменты открытой контрактации.

Дословно это всё звучит так:
We strongly support existing initiatives that promote our common goals, such as the Extractive Industries TransparencyInitiative (EITI)as well as other initiatives such as
2the Open Government Partnership (OGP). We recognise the role of open data in enhancingcompliance with integrity standards in the performance of major public contracts, as well as in ensuringstrong involvement by the different actors of civil society. We encourage open contracting tools and practices as an efficient innovative solution to the challenge of making procurement more effective, fairer and more transparentand fully taking into account the different levels of development of countries.

Ссылки:
[1] https://www.elysee.fr/admin/upload/default/0001/05/4cc3ad52f529ccc54483768425e61bef8ed4ac9c.pdf
[2] https://eiti.org/

#opendata #opengov #data #opencontracting
Россия на 29м месте в Government Artificial Intelligence Readiness Index 2019 [1] публикуемом Oxford Insights. Это чуть меньше чем у Исландии и чуть больше чем у Португалии. Пятёрка лидеров: Сингапур, Великобритания, Германия, США и Финляндия.
Индекс можно скачать в виде отчёта [2] и в виде данных [3]

Что немаловажно, это композитный индекс учитывающий следующие индикаторы:
- Data protection/privacy laws
- National AI strategy
- Data availability
- Government procurement of advanced technology products
- Data/AI capability (in government)
- Technology skills
- Private sector innovation capability
- Number of AI startups
- Digital public services
- Effectiveness of government
- Importance of IT to government’s vision of the future

В основу берутся индексы и подиндексы из отчетов к World Economic Forum, а Data Availability, например, рассчитывается на основе Open Knowledge Foundation Data Index [4]

Ссылки:
[1] https://www.oxfordinsights.com/ai-readiness2019
[2] https://ai4d.ai/wp-content/uploads/2019/05/ai-gov-readiness-report_v08.pdf
[3] https://docs.google.com/spreadsheets/d/1SuPCkaQsin1MsUYOn48bSQApfnTjfOVh7-rL94KZWsQ/edit#gid=15836467
[4] https://index.okfn.org/

#opendata #data #opengov #government #ai
В качестве регулярных напоминаний, о том чем я занимаюсь и где об этом можно узнавать.

Кроме аффиляции с проектами в Счетной палате я хоть и в меньшей степени, но вовлечен в дела 2-х НКО
- Инфокультура - про открытые данные, цифровые архив и многое другое
- Ассоциация участников рынка данных - защита прав бизнеса в регулировании данных

Телеграм каналы
- Мой основной телеграм канал - @begtin [1]
- Телеграм Инфокультуры - @infoculture [2]

Рассылки
- Рассылка АНО Инфокультура про данные открытые и персональные [3], прошлые выпуски рассылки [4] (письма не чаще чем раз в неделю)

Страницы в фэйсбуке
- Информационная культура [5]
- Ассоциация участников рынка данных [6]
- Госзатраты [7]

Открытый код
- Счетная палата [8]
- Инфокультура [9]
- Национальный цифровой архив [10]

Что-то наверняка упустил, это только то что самое что не на есть на поверхности

Ссылки:
[1] https://t.me/begtin
[2] https://t.me/infoculture
[3] https://infoculture.us7.list-manage.com/subscribe?u=2e38b8af0d8a547b51427dc9b&id=dadb533f05
[4] https://us7.campaign-archive.com/home/?u=2e38b8af0d8a547b51427dc9b&id=dadb533f05
[5] https://www.facebook.com/InformationCulture/
[6] https://www.facebook.com/AURDataCommunity/
[7] https://www.facebook.com/clearspending/
[8] http://code.ach.gov.ru
[9] http://github.com/infoculture
[10] http://github.com/ruarxive

#opendata #opengov #data
Почему я с 2005 года читаю все бюллетени Счетной палаты? Потому что узнаю много нового о том как идет информатизация и цифровизация в России.

Вот выдержка из отчета о результатах контрольного мероприятия «Проверка использования средств займа Международного банка реконструкции и развития на реализацию проекта № 4867-RU «Развитие системы государственной статистики – 2» в 2008–2018 годах» в бюллетень Счетной палаты №8 (август) 2019 г. [1]
...
В соответствии с пунктом 2 раздела B технических требований в результате выполнения работ в рамках контракта от 28 июля 2017 года ST2/1/B.13.2 «Совершенствование ИВС (информационно‑вычислительной системы) Росстата в части инструментария распространения результатов» должны были быть достигнуты в том числе следующие результаты: обновление дизайна сайта http://gks.ru и кольца сайтов; внедрение единой системы управления контентом; создание мобильного приложения сайта для платформ iOS и Android общей стоимостью 64 566,7 тыс. рублей.Согласно пункту 9 раздела А «Используемые термины и сокращения» технических требований (включая график реализации) контракта сокращение «Сайт (основной сайт, Интернет‑портал)» в рамках контракта означает – официальный Интернет‑сайт (портал) Федеральной службы государственной статистики, доступный в сети Интернет по адресу: http://gks.ru.В нарушение подпунктов 9, 10, 11 пункта 1 раздела В технических требований контракта и абзацев 7, 8, 9, 10 пункта 2 раздела В технических требований контракта на момент проверки дизайн официального Интернет‑сайта (портала) Росстата и кольца сайтов, размещенные по адресу http://gks.ru, не были обновлены.Кроме того, по адресу сети Интернет: http://gks.ru не внедрена обновленная единая система управления контентом. Необходимо отметить, что в соответствии с пунктом 5.2.6.6 «Требования к мобильному приложению» технических требований контракта ЗАО «ЛАНИТ» в том числе должно обеспечить размещение разработанных приложений на площадках App Store и Google Play. При этом фактически на момент проверки мобильное приложение Росстата на площадках App Store и Google Play отсутствовало. Таким образом, Росстатом приняты и оплачены работы, не в полной мере соответствующие техническим требованиям контракта No ST2/1/B.13.2, на сумму 64 566,7 тыс. рублей, что не соответствует статье 309 Гражданского кодекса Российской Федерации, согласно которой обязательства по договорам должны исполняться 198No8(260)І2019 5 МАНУЙЛОВА
надлежащим образом в соответствии с условиями обязательства и требованиями закона.Срок ввода в промышленную эксплуатацию новой версии Интернет‑портала определен в перечне поручений руководителя Росстата от 12 марта 2019 года No ПМ‑15/5060‑ВД – 30 апреля 2019 года. Однако по состоянию на 7 мая 2019 года новая версия Интернет‑портала по адресу в сети Интернет:
http://gks.ru не была введена в промышленную эксплуатацию.
...

Ссылки:
[1] http://audit.gov.ru/activities/bulleten/965/38333/

#budget #it #sprf #lanit
Стали известны итоги интересной и странной закупки Министерства цифрового развития РФ по теме " Выполнение работ по созданию Генеральной схемы развития сетей связи и инфраструктуры хранения и обработки данных Российской Федерации на период 2019-2024 годов " [1]

В открытом конкурсе победил со снижением на чуть менее 10% от начальной максимальной цены [2] ФГУП НТС "Система [3].
Интересно то что подобные работы никогда не были профилем деятельности этого ФГУПа, а до сих пор он занимался исключительно внедрением и сопровождением поисковых систем по законодательству таких как pravo.gov.ru [4]. Профиль его контрактов можно увидеть на Госзатратах [5].

Но интересно не только это, среди участников:
- Воронежский АО НВП ПРОТЕК [6] (сайт на реконструкции) не был допущен по причине отсутствия лицензии ФСБ.
- ЦНИИ Связи [7] получил нулевые баллы по квалификации
- БизнесАвтоматика заняла второе место (в прошло году они делали НИР 'Выполнение работ по развитию информационно-аналитической системы "Реестр услуг связи"' [8]), итогов его, увы, не знаю.

В общем при всех раскладах очень необычный победитель у этого конкурса. Судя по высоко оцененной квалификации заявки, в России появился новый центр компетенций в области связи. Интересно, продолжит ли этот ФГУП заниматься ведением правовых баз данных? Уж очень различаются эти два вида деятельности и интересно кто в персоналиях будет там делать эту работу.

Правда, очень интересно. Лично мне небезразлична инфраструктура обработки данных внутри государства.

Ссылки:
[1] http://zakupki.gov.ru/epz/order/notice/ok504/view/common-info.html?regNumber=0173100007519000108
[2] http://zakupki.gov.ru/epz/order/notice/ok504/view/supplier-results.html?regNumber=0173100007519000108
[3] http://www.systema.ru
[4] http://pravo.gov.ru
[5] https://clearspending.ru/supplier/inn=7701006532&kpp=770101001
[6] http://www.protek-vrn.ru/
[7] https://zniis.ru/
[8] https://clearspending.ru/contract/1771047437518000067/

#procurement #competition
Для тех кто любит интересные технические штуки с экскурсом в историю связи и шифрования - онлайн реализация [1] машины шифрования Enigma. Замечательная визуализация, настраиваемый интерфейс. Такую бы визуализацию многим современным алгоритмам в автоматических системах принятия решений.

Ссылки:
[1] https://observablehq.com/@tmcw/enigma-machine

#algorithm #dataviz
Кстати, очень интересная тема остановки ключевых функций продуктов зависящих от подключения к серверу. Например, что будет если Роскомнадзор в очередном безумном порыве заблокирует подсеть с серверами Tesla? Или что будет если и другие автопроизводители тоже начнут подсаживать клиентов на работу софтверной начинки только при наличии сервера?

Вообще вся ситуация с устройствами "online only" (работающими только при наличии интернета) - это ситуация идеального шторма. Каким он будет - вирусы шифровальщики для интернета-вещей, шпионское ПО в недиагностируемых участках ПО и оборудования таких устройств, сбои электричества, безумства локальных регуляторов и тд. Но мир определенно становится более хрупким, стоит ли получаемый комфорт такой хрупкости? Вот это вопрос пока без ответа.

#futurenow #iot
Forwarded from Zavtracast (Dmitriy Zombak)
О, дивный мир будущего!

На серверах компании Tesla случился небольшой факап, они легли и пользователей разлогинило из мобильного приложения, которое позволяет смотреть настройки, характеристики ну и открыть автомобиль. Некоторые водители так и не смогли уехать на своей Model 3.

https://thenextweb.com/cars/2019/09/03/tesla-owners-reportedly-got-locked-out-of-their-cars-because-the-app-was-down/