Ivan Begtin
8.07K subscribers
1.47K photos
3 videos
99 files
4.21K links
I write about Open Data, Data Engineering, Government, Privacy and Data Preservation and other gov and tech stuff
Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech

Contact @NMBabina for ads proposals
Download Telegram
Для тех кто интересуется и впервые подписался на мой блог, я напомню о прошлых докладах и публикациях:
- Ежегодные доклады по открытости государства (совместно со Счетной палатой) и доклад по открытости ГИС
- Работа с открытыми данными: особенности публикации и использования в российском правовом поле
- Утечки персональных данных из государственных информационных систем (я публиковал его от себя лично в 2018 году, поскольку он был даже скорее про безопасность чем про приватность)
- Использование электронной почты в государственной инфраструктуре РФ

На самом деле их было куда больше, какие-то "пласты" моей жизни были посвящены тематике госзакупок и ещё в 2009 году я вскрывал и публиковал истории связанные именно с ними, далее было несколько проектов когда наша команда анализировала госсайты органов власти, это было около 2010 года.

Доклады - это большая и трудоёмкая работа, иногда удаётся её сделать быстро и дешево, например, доклад про утечки персональных данных из ГИС я лично готовил ещё в 2018 году и передавал чиновникам в Минцифре, Роскомнадзора и Генпрокуратуры, но эффект у него возник только после того как передал журналистам. Да, даже передача прокурорам не работает (а я тогда был председателем экспертного совета по цифре при Генпрокуратуре).

С другими документами та же история. Обратная связь от госорганов возникает только от докладов Счетной палаты, но она идет уже в режиме "Вы нам скажите как правильно и мы сделаем". И, наконец, самое "тяжёлое" ведомство это ДИТ Москвы. Содержательной реакции от них нет практически никогда.

В последнем докладе про 44 государственных мобильных приложения у нас многое не отражено. Чтобы провести тщательный анализ надо делать тестовую лабораторию, перехватывать все запросы приложений к сайтам, отслеживать каждый IP адрес и домен, идентифицировать какие из них каким компаниям, подсетям и юрисдикциям относятся, декомпилировать Java код приложений (предварительно проговорив такую юридическую возможность), провести интервью с разработчиками и тд. Это добавило бы/добавит гораздо больше содержания. Но проблема в том что на реакцию российских органов власти это _не влияет_ и это системная проблема. Работают только "медиадубинка" и "дубинка госконтроля/госаудита", позитивная мотивация не проглядывается. Хотя и с большим удовольствием хотелось бы исследовать и писать о хорошем - том какие замечательные кейсы использования открытых данных существуют и тому подобное.

Я вскоре напишу об этой проблеме лонгрид в begtin.substack.com и попробую поразмышлять о том как подобное преодолевать, подписывайтесь.

#opendata #research #reports
State of ... / Состояние в области ... - это большой жанр отчетов/докладов/обзоров состояний в отраслях который стал довольно популярен у исследовательских и коммерческих компаний в последние несколько лет. Я регулярно пишу со ссылками на подобные обзоры за 2020 годи собрал их в одну публикацию:

- State of CSS - состояние CSS фреймворков за 2020 год
- State of JS - состояние движков для Javascript за 2020 год
- State of devops - состояние технологий development operations от Puppet
- State of remote work - состояние дистанционной работы от Buffer
- State of AI 2020 - состояние технологий искусственного интеллекта
- State of profession - состояние профессий от GreenBiz
- State of work - состояние труда от Workfront
- State of European Tech - состояние технологий в Евросоюзе
- State of Application Service - состояние рынка приложений от F5
- State of Enterprise open source - состояние корпоративного рынка открытого кода от Redhat
- State of software supply chain - состояние рынка цепочки поставок ПО от Sonatype
- State of API - состояние рынка API от Postman

Не привожу примеры State of data science, их ежегодно публикуют пара десятков организаций

Все эти обзоры разного качества, но примерно одного жанра. Хотя они и составляются с оглядкой на рыночное позиционирование компаний, но имеют ценность в отличие от большей части маркетинговых материалов. Лично я отслеживаю пару десятков источников таких отчетов поскольку часто в них проскакивают тренды которые по другому не найдешь и не заметишь.

В принципе же такого жанра не хватает во многих отраслях в России.

#reports #data #tech
Вышел большой доклад ФАО (Продовольственная и сельскохозяйственная организация ООН) о продовольственной безопасности на фоне COVID-19 "The impact of disasters and crises on agriculture and food security: 2021" [1]

В докладе много примеров того что происходит по миру в последние десятилетие и что нас ждёт к 2030 году. Пожалуй, важнейший вывод - это рост числа происшествий и критических ситуаций затрагивающих сельское хозяйство.

При составлении доклада авторы использовали базу FAO и базу EM-DAT [2] The International Disaster Database. Для некоммерческого использовалия эта база доступна и сейчас, например, для исследователей работающих с данными о чрезвычайных происшествиях.

Ссылки:
[1] http://www.fao.org/documents/card/ru/c/cb3673en/
[2] https://emdat.be/

#opendata #FAO #reports #data #disasters
Вышел отчет Всемирного экономического форума Developing a Responsible and Well-designed Governance Structure for Data Marketplaces [1] об инициативе Data for Common Purpose Initiative [2] и фокусе на Data Marketplace
Service Providers (DMSPs) (новый термин характеризующий сервисы каталогов и рынков данных).

Заход интересен в акценте именно на Data Marketplaces, с фактически, рекомендациями регулировать именно их, в каком-то смысле, подходами близкими к регулированию бирж. Подход вполне понятный, но что-то мне подсказывает что маловероятно что он приживётся.

Ссылки:
[1] https://www.weforum.org/reports/developing-a-responsible-and-well-designed-governance-structure-for-data-marketplaces
[2] http://www3.weforum.org/docs/WEF_WP_DCPI_2021.pdf

#data #regulation #reports
Postman опубликовали свежий отчет The State of API 2021 [1], отчет они проводили на своей платформе, поэтому неудивительно что в нём они фигурируют как лидер инструментария по работе с API, но даже несмотря на это искажение, вполне возможно что они правы. Удивительно малое присутствие другие API инструментов и сервисов, например, RapidAPI, маркетплейс для API родом из Израиля, оказывается малопопулярен среди разработчиков, а вот корпоративные продукты от Microsoft, Google, Oracle, IBM вполне интересны (почти все они это купленные стартапы). Как всегда интересное чтение, Postman, действительно, один из лучших коммерческих инструментов проектирования и тестирования API, но, конечно, далеко не единственный и не универсальный. Например, для GraphQL или проектирования SOAP есть альтернативы (хотя кому придёт в голову проектировать SOAP API в наше то время? ).

Как бы то ни было рынок API сейчас на подъёме в мире и это уже неплохой мотиватор делать продукты изначально ориентированные на предоставление API.

Ссылки:
[1] https://www.postman.com/state-of-api

#API #reports
Вышел AI Index Report 2022 [1] с оценкой развития ИИ по странам. Отчет большой, более 230 страниц, а также к нему много сопутствующих материалов. Россия там тоже упоминается, как именно рассказывать не буду, вся эта тема не про сравнение стран, а про развитие и эффективность регулирования.

Честно скажу, сравнивать развитие ИИ в России с любой другой страной я бы не стал, поскольку режим изоляции/самоизоляции науки в России сейчас будет крайне высок. Мониторить надо отток специалистов, если ещё не все уехали

Ссылки:
[1] https://aiindex.stanford.edu/report/

#ai #reports
Свежее исследование ОЭСР The Strategic and Responsible Use of Artificial Intelligence in the Public Sector of Latin America and the Caribbean [1]
о том как ИИ используются в Южной Америке и на Карибах и о том какая реакция на такое использование возникает.

Много кейсов и сравнений, в соответствии с принципами ОЭСР для ИИ, принципами ИИ для G20 и ещё много чего. Множество примеров и, забегая вперед, в лидерах там Колумбия, Мексика, Уругвай и кое-где Аргентина.

От наших реалий это кажется далёким, но не стоит забывать что внедрение ИИ никуда не делось, и социальное неравенство от несправедливого его применения тоже никуда не исчезает.

Ссылки:
[1] https://www.oecd-ilibrary.org/governance/the-strategic-and-responsible-use-of-artificial-intelligence-in-the-public-sector-of-latin-america-and-the-caribbean_1f334543-en

#ai #oecd #reports
The right to privacy in the digital age

Свежий доклад представителя по правам человека ООН [1]. Документ короткий, на 17 страниц. Там про всё, взломы телефонов правительствами (спецслужбами), массовую слежку, ограничения в использовании шифрования, нарушениях прав человека и так далее.

То о чём писали многие, но изложено сжато и в докладе ООН.

Ссылки:
[1] https://documents-dds-ny.un.org/doc/UNDOC/GEN/G22/442/29/PDF/G2244229.pdf?OpenElement

#privacy #reports
Команда авторов ежегодного доклада State of AI выпустила очередной доклад State of AI 2022 [1], его удобнее сразу смотреть в Google Slides [2] и скачать оттуда же.

Приводить все факты и предсказания оттуда очень долго, там 110+ слайдов на темы технологий, индустрии, исследований, политики и тд и интересного и важного немало. Для меня интересным был блок Safety поскольку он про состояние отношений учёных к развитию ИИ и ряда госстратегий вроде UK National Strategy for AI.

Но это то на что я обратил внимание, а так там очень много всего. При чтении важно помнить кто основной адресат этого обзора и кто его составляет. Он готовится людьми погруженными в венчурную индустрию для тех кто ищет финансирование, дает финансирование или думает о том или другом. Поэтому далеко не все примеры harmful AI приводятся, но примеры полезного применения многочисленны. Что, в любом случае, не обесценивает этот замечательный отчет.

Ссылки:
[1] https://www.stateof.ai/
[2] https://docs.google.com/presentation/d/1WrkeJ9-CjuotTXoa4ZZlB3UPBXpxe4B3FMs9R9tn34I/edit?usp=sharing

#ai #regulation #reports
Вышел доклад/исследование State of Frontend [1] по технологиям фронтэнд разработки основанный на опросе 3703 разработчиков и с комментариями нескольких экспертов. Хотя я лично и далёк от темы фронтэнда, но тут большой любопытный текст с интересными результатами.

Вот подборка фактов:
- большинство прошедших опрос работают дистанционно: 59.7%, ещё 35.3% в гибридном формате
- в безусловных лидерах фреймворки Angular (51%) и React (25%), наиболее перспективные Svelte и Next.js
- самые популярные дизайн системы Material UI, Tailwind UI и Bootstrap
- Typescript используют 84% разработчиков и большинство (43%) считают что он заменит Javascript однажды
- большинство используют сервера AWS (Amazon) или свои собственные
- подавляющее большинство используют Visual Studio Code: 74.4%

И там ещё много всего, что-то кажется очевидным, что-то совсем нет. Например, про VS Code или про Typescript.

Ссылки:
[1] https://tsh.io/state-of-frontend/

#reports #research #frontend #javascript #development
Свежий доклад Open Data Maturity Report 2022 Европейского союза [1].

Лучше всего госполитика и порталы открытых данных во Франции, хуже всего в Боснии и Герцеговине. Сравнение тут вполне объективное поскольку сравнение идёт по странам где примерно сравнимы подходы и госполитика открытости.

Доклад интересный, рекомендации в нём в основном про обмен практиками, коллаборацию и сообщества. Можно также обратить внимание на большом акценте на стандартизацию порталов данных и использование стандарта DCAP-AP и измерение качества данных как качества метаданных

Ссылки։
[1] https://data.europa.eu/en/publications/datastories/assessing-open-data-developments-across-europe-discover-open-data-maturity

#opendata #policy #reports #europe
Свежий обзор платформ для соревнований в машинном обучении The State of Competitive Machine Learning 2022 Edition [1] в форме подробного сравнения и отчета за год. Авторы сравнивали Kaggle, Tianchi, CodaLab, Zindi и других, всего 11 платформ.

Самое любопытное։
- безусловная лидирующая платформа это Kaggle с более чем 10+ миллионами участников и общим годовым призовым фондом за 2022 год в 1.7 миллиона долларов
- конкурсы академических структур менее популярные чем от коммерческих компаний и самих платформ
- Python - язык победителей. Почти все кто выигрывал соревнования писали на Python, за редким исключением соревнований где использовался C++
- авторы выявили так называемый winning toolkit [2] технологический стек которым преимущественно пользуются победители соревнований
- примерно 50% победителей в конкурсах - это одиночки
- некоторые участники серьёзно вкладываются в оборудование для победы, но, при этом, многие до сих пор выигрывают даже за счёт бесплатных или очень дешёвых онлайн серверов.

Ссылки:
[1] https://mlcontests.com/state-of-competitive-machine-learning-2022/
[2] https://mlcontests.com/winning-toolkit/

#machinelearning #stateof #reports #readings
Вышел стенфордский доклад 2023 AI Index Report [1] о состоянии ИИ за 2022 год и немного за 2023, доклад подробный и интересный, я о его содержании ещё попозже напишу подробностей, а пока 14 графиков на основе этого доклада [2].

В основном про США, но не только.

Графики неплохо передают состояние развития технологий, но, конечно, текст доклада важнее.

На одном лишь я сделаю особый акцент. В США лишь 0.67% выпускников с PhD по ИИ работают на государство. А 65.4% на корпорации и 28.2% в исследовательских центрах.

Не только роль государства, но и и компетенции отсутствуют в системе госуправления, в данном случае США, но думаю что это справедливо для всех стран.

Ссылки:
[1] https://aiindex.stanford.edu/report/
[2] https://hai.stanford.edu/news/2023-state-ai-14-charts

#ai #reports
Свежий State of Data Engineering report 2023 от LakeFS [1].

Не очень детальный, на мой взгляд, не тянущий на полноценный State of ... доклад, но содержащий полезные факты и тезисы и упоминания некоторых продуктов про которые я лично не слышал или когда-то видел, но не впечатлившись отложил на потом.

Отчет короткий поэтому прочитать его несложно в любом случае.

Ссылки:
[1] https://lakefs.io/blog/the-state-of-data-engineering-2023

#dataengineering #startups #reports
На фоне всё усиливающегося государственного регулирования в области персональных данных в России я не могу не вспомнить как 5 лет назад в 2018 году я проводил исследование "легализованных утечек персональных данных". Это когда персональные данные не хакеры крадут, а когда государственные органы по причине непонимания последствий хренового регулирования и несоблюдения базовых требований разработки информационных систем делают эти данные доступными. Я писал об этом у себя в блоге [1] и были публикации в РБК и не только в 2919 году. А ещё до этого в 2018 году я эти материалы отправлял в Роскомнадзор, одному, не буду называть кому, зам. министру цифрового развития и тд.

Полный текст того исследования я никогда не публиковал и даже убрал его публичную версию, без инструкций по воспроизведению, из открытого доступа, но вот что я вам скажу. Мало что изменилось с тех пор. Исчезли некоторые самые одиозные случаи, вроде того как УЦ Миноброны светил внутренние контакты/email'ы, а также некоторые особо вопиющие случаи раскрытия паспортных данных.

Но, исправили далеко не все!🤦‍♂️Особенно в части утечек связки ФИО + СНИЛС + email. Это не так подгорает по сравнению с хакерскими утечками, но не так уже мало количественно.

По многим причинам я далее не публиковал обновления того исследования, в первую очередь поскольку не было никакого желания чтобы закрывали некоторые важные публичные источники данных, а также с тем что нет желания давать хакерам наводки.

Но... увы, не могу не констатировать что российское государство довольно плохой регулятор персональных данных. Фактически, сапожник без сапог.

Ссылки:
[1] https://beta.begtin.tech/pdleaks-p3-govsys/
[2] https://www.rbc.ru/politics/15/05/2019/5cdac8469a79479a27bd4eca

#privacy #reports #readings #personaldata #regulation
Вышел свежий доклад Open Data Maturity 2023 [1] посвящённый целиком зрелости открытых данных в Европейском союзе, странах EFTA и ряде стран кандидатов. Наилучшие оценки в Франции, Польши и Эстонии, далее Украина, Испания и Кипр.

У доклада весьма продуманная методология учитывающая не только и не столько объёмы опубликованных данных, сколько регуляторный фреймворк, измерение востребованности, наличие продуманной стратегии и контроль качества данных. Лично я не удивлён что лидируют французы потому что у них реально портал открытых данных data.gouv.fr лежит в основе их госполитики управления данными, с внятной дорожной картой и инициативами в открытости науки и доступности геоданных как часть общей стратегии и этого портала.

Отдельно интересно что Великобританию в этих докладах более не рассматривают, даже для сравнения со странами ЕС. В профилях стран вместо UK пустое место, что выглядит немного забавно, словно Великобритания исчезла с карт.

В отчёте большой акцент на качестве данных и нему приложены файлы методологии и подробных ответов в опроснике где многое можно узнать о политике стран по открытости. Я, например, узнал что у Черногории таки есть геопортал с экспортом метаданных по стандарту INSPIRE, хотя он и оказался сейчас недоступен.

Ссылки։
[1] https://data.europa.eu/en/publications/open-data-maturity/2023

#opendata #reports #europe
Европейский доклад о гомогенизации особо ценных наборов данных (Report on Data Homogenisation for High- value Datasets) [1] вышел ещё 5 декабря. Небольшой по объёму и посвящён тому как в странах ЕС публикуют реестры компаний, данные по мобильности населения и официальную статистику. А также о том как можно было бы унифицировать публикацию таких данных. Можно уже ожидать что в 2024 году, или отдельно, или как часть существующего, но будет рейтинг/индекс/сравнение стран ЕС именно по публикации данных особой ценности.

Если кто-то пропустил, то эти наборы данных должны публиковаться в ЕС в рамках директивы 2023/138 [2] и, в принципе, европейское регулирование открытости данных идёт в направлении не только "открытости по умолчанию", но и гарантированной доступности данных по которым подтверждён общественный и коммерческий запрос. В частности - это данные реестров компаний, статистики, геоданные, метеоданные и многое другое.

Ссылки:
[1] https://data.europa.eu/en/doc/report-data-homogenisation-high-value-datasets
[2] https://eur-lex.europa.eu/eli/reg_impl/2023/138/oj

#opendata #eu #readings #reports
25 recommandations pour l'IA en France или, по русски, 25 рекомендаций для ИИ выпустила французская Комиссия по искусственному интеллекту.

Вот 7 наиболее приоритетных, в моём вольном переводе:

1. Создать условия для коллективного освоения ИИ и его проблем, запустив план по повышению осведомленности и обучению нации.
2. Вложить значительные средства в цифровые компании и трансформацию бизнеса, чтобы поддержать французскую экосистему ИИ и сделать ее одним из мировых лидеров.
3. Сделать Францию и Европу крупным центром вычислительных мощностей в краткосрочной и среднесрочной перспективе.
4. Изменить наш подход к персональным данным, чтобы продолжать защищать их и в то же время способствовать инновациям для удовлетворения наших потребностей.
5. Обеспечить влияние французской культуры путем предоставления доступа к культурному контенту при соблюдая прав интеллектуальной собственности.
6. Применять принцип экспериментирования в государственных исследованиях в области ИИ для повышения их привлекательности.
7. Разработать последовательную и конкретную дипломатическую инициативу, направленную на создание глобального управления ИИ.

По ссылке есть документ на французском языке и краткое изложение на английском. Если есть возможность, я рекомендую читать именно на французском, например, а автопереводом. Там гораздо больше рассказывается, в том числе про открытость данных и значимость для открытой экосистемы.

Ссылки"
[1] https://www.gouvernement.fr/actualite/25-recommandations-pour-lia-en-france

#opendata #ai #france #strategies #reports #readings
Свежий 2024 AI Index Report [1] много полезных материалов, и основные выводы:

1. ИИ превосходит человека в некоторых задачах, но не во всех.
2. Промышленность продолжает доминировать в исследованиях передового ИИ.
3. Пограничные (Frontier) модели становятся все дороже.
4. США опережают Китай, ЕС и Великобританию в качестве ведущего источника лучших моделей ИИ.
5. Надежных и стандартизированных оценок ответственности LLM очень не хватает.
6. Инвестиции в генеративный ИИ стремительно растут.
7. Данные получены: ИИ делает работников более продуктивными и приводит к повышению качества работы.
8. Научный прогресс еще больше ускорится благодаря ИИ.
9. В США резко увеличивается количество нормативных актов, касающихся ИИ.
10. Люди по всему миру больше осознают потенциальное влияние ИИ и больше нервничают.


Ссылки:
[1] https://aiindex.stanford.edu/report/

#ai #reports #readings
The OpenDataLab выпустили доклад по использованию открытых данных в генеративном ИИ [1] Выводы в нём все довольно общие и соответствуют общим трендам развития порталов открытых данных, но хорошо систематизированы так что прочитать стоит. Доклад достаточно короткий, интересный примерами которые там разбираются когда на основе данных строят разного рода системы вопросов и ответов.

Например, оттуда я впервые узнал про Wobby [2] систему смешивания открытых госданных и собственных датасетов и построения анализа данных и систем вопросов и ответов, чатботов на основе этого микса.

Другие примеры тоже весьма любопытны.

Ссылки:
[1] http://www.genai.opendatapolicylab.org/
[2] https://wobby.ai/

#opendata #datasets #data #reports #thegovlab #opendatalab