Ivan Begtin
7.98K subscribers
1.8K photos
3 videos
101 files
4.52K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Свежий доклад Open Data Maturity Report 2022 Европейского союза [1].

Лучше всего госполитика и порталы открытых данных во Франции, хуже всего в Боснии и Герцеговине. Сравнение тут вполне объективное поскольку сравнение идёт по странам где примерно сравнимы подходы и госполитика открытости.

Доклад интересный, рекомендации в нём в основном про обмен практиками, коллаборацию и сообщества. Можно также обратить внимание на большом акценте на стандартизацию порталов данных и использование стандарта DCAP-AP и измерение качества данных как качества метаданных

Ссылки։
[1] https://data.europa.eu/en/publications/datastories/assessing-open-data-developments-across-europe-discover-open-data-maturity

#opendata #policy #reports #europe
Свежий обзор платформ для соревнований в машинном обучении The State of Competitive Machine Learning 2022 Edition [1] в форме подробного сравнения и отчета за год. Авторы сравнивали Kaggle, Tianchi, CodaLab, Zindi и других, всего 11 платформ.

Самое любопытное։
- безусловная лидирующая платформа это Kaggle с более чем 10+ миллионами участников и общим годовым призовым фондом за 2022 год в 1.7 миллиона долларов
- конкурсы академических структур менее популярные чем от коммерческих компаний и самих платформ
- Python - язык победителей. Почти все кто выигрывал соревнования писали на Python, за редким исключением соревнований где использовался C++
- авторы выявили так называемый winning toolkit [2] технологический стек которым преимущественно пользуются победители соревнований
- примерно 50% победителей в конкурсах - это одиночки
- некоторые участники серьёзно вкладываются в оборудование для победы, но, при этом, многие до сих пор выигрывают даже за счёт бесплатных или очень дешёвых онлайн серверов.

Ссылки:
[1] https://mlcontests.com/state-of-competitive-machine-learning-2022/
[2] https://mlcontests.com/winning-toolkit/

#machinelearning #stateof #reports #readings
Вышел стенфордский доклад 2023 AI Index Report [1] о состоянии ИИ за 2022 год и немного за 2023, доклад подробный и интересный, я о его содержании ещё попозже напишу подробностей, а пока 14 графиков на основе этого доклада [2].

В основном про США, но не только.

Графики неплохо передают состояние развития технологий, но, конечно, текст доклада важнее.

На одном лишь я сделаю особый акцент. В США лишь 0.67% выпускников с PhD по ИИ работают на государство. А 65.4% на корпорации и 28.2% в исследовательских центрах.

Не только роль государства, но и и компетенции отсутствуют в системе госуправления, в данном случае США, но думаю что это справедливо для всех стран.

Ссылки:
[1] https://aiindex.stanford.edu/report/
[2] https://hai.stanford.edu/news/2023-state-ai-14-charts

#ai #reports
Свежий State of Data Engineering report 2023 от LakeFS [1].

Не очень детальный, на мой взгляд, не тянущий на полноценный State of ... доклад, но содержащий полезные факты и тезисы и упоминания некоторых продуктов про которые я лично не слышал или когда-то видел, но не впечатлившись отложил на потом.

Отчет короткий поэтому прочитать его несложно в любом случае.

Ссылки:
[1] https://lakefs.io/blog/the-state-of-data-engineering-2023

#dataengineering #startups #reports
На фоне всё усиливающегося государственного регулирования в области персональных данных в России я не могу не вспомнить как 5 лет назад в 2018 году я проводил исследование "легализованных утечек персональных данных". Это когда персональные данные не хакеры крадут, а когда государственные органы по причине непонимания последствий хренового регулирования и несоблюдения базовых требований разработки информационных систем делают эти данные доступными. Я писал об этом у себя в блоге [1] и были публикации в РБК и не только в 2919 году. А ещё до этого в 2018 году я эти материалы отправлял в Роскомнадзор, одному, не буду называть кому, зам. министру цифрового развития и тд.

Полный текст того исследования я никогда не публиковал и даже убрал его публичную версию, без инструкций по воспроизведению, из открытого доступа, но вот что я вам скажу. Мало что изменилось с тех пор. Исчезли некоторые самые одиозные случаи, вроде того как УЦ Миноброны светил внутренние контакты/email'ы, а также некоторые особо вопиющие случаи раскрытия паспортных данных.

Но, исправили далеко не все!🤦‍♂️Особенно в части утечек связки ФИО + СНИЛС + email. Это не так подгорает по сравнению с хакерскими утечками, но не так уже мало количественно.

По многим причинам я далее не публиковал обновления того исследования, в первую очередь поскольку не было никакого желания чтобы закрывали некоторые важные публичные источники данных, а также с тем что нет желания давать хакерам наводки.

Но... увы, не могу не констатировать что российское государство довольно плохой регулятор персональных данных. Фактически, сапожник без сапог.

Ссылки:
[1] https://beta.begtin.tech/pdleaks-p3-govsys/
[2] https://www.rbc.ru/politics/15/05/2019/5cdac8469a79479a27bd4eca

#privacy #reports #readings #personaldata #regulation
Вышел свежий доклад Open Data Maturity 2023 [1] посвящённый целиком зрелости открытых данных в Европейском союзе, странах EFTA и ряде стран кандидатов. Наилучшие оценки в Франции, Польши и Эстонии, далее Украина, Испания и Кипр.

У доклада весьма продуманная методология учитывающая не только и не столько объёмы опубликованных данных, сколько регуляторный фреймворк, измерение востребованности, наличие продуманной стратегии и контроль качества данных. Лично я не удивлён что лидируют французы потому что у них реально портал открытых данных data.gouv.fr лежит в основе их госполитики управления данными, с внятной дорожной картой и инициативами в открытости науки и доступности геоданных как часть общей стратегии и этого портала.

Отдельно интересно что Великобританию в этих докладах более не рассматривают, даже для сравнения со странами ЕС. В профилях стран вместо UK пустое место, что выглядит немного забавно, словно Великобритания исчезла с карт.

В отчёте большой акцент на качестве данных и нему приложены файлы методологии и подробных ответов в опроснике где многое можно узнать о политике стран по открытости. Я, например, узнал что у Черногории таки есть геопортал с экспортом метаданных по стандарту INSPIRE, хотя он и оказался сейчас недоступен.

Ссылки։
[1] https://data.europa.eu/en/publications/open-data-maturity/2023

#opendata #reports #europe
Европейский доклад о гомогенизации особо ценных наборов данных (Report on Data Homogenisation for High- value Datasets) [1] вышел ещё 5 декабря. Небольшой по объёму и посвящён тому как в странах ЕС публикуют реестры компаний, данные по мобильности населения и официальную статистику. А также о том как можно было бы унифицировать публикацию таких данных. Можно уже ожидать что в 2024 году, или отдельно, или как часть существующего, но будет рейтинг/индекс/сравнение стран ЕС именно по публикации данных особой ценности.

Если кто-то пропустил, то эти наборы данных должны публиковаться в ЕС в рамках директивы 2023/138 [2] и, в принципе, европейское регулирование открытости данных идёт в направлении не только "открытости по умолчанию", но и гарантированной доступности данных по которым подтверждён общественный и коммерческий запрос. В частности - это данные реестров компаний, статистики, геоданные, метеоданные и многое другое.

Ссылки:
[1] https://data.europa.eu/en/doc/report-data-homogenisation-high-value-datasets
[2] https://eur-lex.europa.eu/eli/reg_impl/2023/138/oj

#opendata #eu #readings #reports
25 recommandations pour l'IA en France или, по русски, 25 рекомендаций для ИИ выпустила французская Комиссия по искусственному интеллекту.

Вот 7 наиболее приоритетных, в моём вольном переводе:

1. Создать условия для коллективного освоения ИИ и его проблем, запустив план по повышению осведомленности и обучению нации.
2. Вложить значительные средства в цифровые компании и трансформацию бизнеса, чтобы поддержать французскую экосистему ИИ и сделать ее одним из мировых лидеров.
3. Сделать Францию и Европу крупным центром вычислительных мощностей в краткосрочной и среднесрочной перспективе.
4. Изменить наш подход к персональным данным, чтобы продолжать защищать их и в то же время способствовать инновациям для удовлетворения наших потребностей.
5. Обеспечить влияние французской культуры путем предоставления доступа к культурному контенту при соблюдая прав интеллектуальной собственности.
6. Применять принцип экспериментирования в государственных исследованиях в области ИИ для повышения их привлекательности.
7. Разработать последовательную и конкретную дипломатическую инициативу, направленную на создание глобального управления ИИ.

По ссылке есть документ на французском языке и краткое изложение на английском. Если есть возможность, я рекомендую читать именно на французском, например, а автопереводом. Там гораздо больше рассказывается, в том числе про открытость данных и значимость для открытой экосистемы.

Ссылки"
[1] https://www.gouvernement.fr/actualite/25-recommandations-pour-lia-en-france

#opendata #ai #france #strategies #reports #readings
Свежий 2024 AI Index Report [1] много полезных материалов, и основные выводы:

1. ИИ превосходит человека в некоторых задачах, но не во всех.
2. Промышленность продолжает доминировать в исследованиях передового ИИ.
3. Пограничные (Frontier) модели становятся все дороже.
4. США опережают Китай, ЕС и Великобританию в качестве ведущего источника лучших моделей ИИ.
5. Надежных и стандартизированных оценок ответственности LLM очень не хватает.
6. Инвестиции в генеративный ИИ стремительно растут.
7. Данные получены: ИИ делает работников более продуктивными и приводит к повышению качества работы.
8. Научный прогресс еще больше ускорится благодаря ИИ.
9. В США резко увеличивается количество нормативных актов, касающихся ИИ.
10. Люди по всему миру больше осознают потенциальное влияние ИИ и больше нервничают.


Ссылки:
[1] https://aiindex.stanford.edu/report/

#ai #reports #readings
The OpenDataLab выпустили доклад по использованию открытых данных в генеративном ИИ [1] Выводы в нём все довольно общие и соответствуют общим трендам развития порталов открытых данных, но хорошо систематизированы так что прочитать стоит. Доклад достаточно короткий, интересный примерами которые там разбираются когда на основе данных строят разного рода системы вопросов и ответов.

Например, оттуда я впервые узнал про Wobby [2] систему смешивания открытых госданных и собственных датасетов и построения анализа данных и систем вопросов и ответов, чатботов на основе этого микса.

Другие примеры тоже весьма любопытны.

Ссылки:
[1] http://www.genai.opendatapolicylab.org/
[2] https://wobby.ai/

#opendata #datasets #data #reports #thegovlab #opendatalab
Свежий доклад ООН по Индикаторам устойчивого развития (SDG) [1]. Это те самые цели устойчивого развития которые являются одним из приоритетов ООН и по которым большинство стран публикуют свои показатели.

Из доклада можно узнать что:
- большая часть показателей не достигается
- всё ещё много проблем с тем что не по всем странам публикуются данные индикаторов и не всегда актуально

И, кстати, но это уже отдельная тема, много международных инициатив сейчас началось по достижению целей SDG в развивающихся странах и туда активно вовлечены бигтехи, которые или спонсируют такое, или даже помогают данными.

Ссылки:
[1] https://hlpf.un.org/sites/default/files/2024-05/SG%20SDG%20Progress%20Report%202024.pdf

#opendata #un #sdg #indicators #reports
В качестве полезного чтения свежий доклад State of AI report 2024 [1]. Много любопытного не только про ИИ, но и про датасеты для машинного обучения и прогресс в исследованиях с помощью ИИ.

Ссылки:
[1] https://www.stateof.ai/2024-report-launch

#ai #reports #readings
Свежий доклад The value of corporate transparency in tackling crime [1] от британского Department for Business and Trade (DBT) о ценности сведений о регистре компаний для рынка после реформы ведения реестра. Что интересно, в докладе упоминаются оценки рынка пользователей информации о прозрачности реестра компаний, сравнивается измерение ценности этих сведений до и после реформ.

А реформы, напомню были вызваны Economic Crime and Corporate Transparency Act 2023 [2], законом в соответствии с которым изменились требования к верификации сведений в реестре компаний в Великобритании, началась чистка реестра от недостоверных сведений и появились новые принципы раскрытия данных, в том числе в машиночитаемой форме.

Собственно этот отчёт - это продолжение внедрения этого закона и оценка экономического эффекта от доступности данных.

Текст полезный, в первую очередь, тем кто оценивает экономические эффекты от доступности данных.

Ссылки:
[1] https://www.gov.uk/government/publications/the-value-of-corporate-transparency-in-tackling-crime
[2] https://www.gov.uk/government/publications/economic-crime-and-corporate-transparency-act-outline-transition-plan-for-companies-house/economic-crime-and-corporate-transparency-act-outline-transition-plan-for-companies-house

#opendata #uk #reports #laws #aml