Ivan Begtin
8.08K subscribers
1.46K photos
3 videos
98 files
4.19K links
I write about Open Data, Data Engineering, Government, Privacy and Data Preservation and other gov and tech stuff
Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech

Contact @NMBabina for ads proposals
Download Telegram
Data Provenance Explorer [1] большая инициатива по анализу, систематизации и аудиту наборов данных используемых для обучения больших языковых моделей.

В общей сложности более 1800 наборов данных с указанием их происхождения, лицензий, создателей, источников и других метаданных.

Проект является результатом написания одноимённой научной статьи The Data Provenance Initiative:
A Large Scale Audit of Dataset Licensing & Attribution in
AI
[2] коллективом 18 авторов из разных академических и коммерческих организаций.

Статья не менее интересная и полезная и сама идея кажется очень правильной, заглянуть на то чём обучаются языковые модели и исправлять там где надо исправлять.

Ссылки:
[1] https://dataprovenance.org
[2] https://www.dataprovenance.org/paper.pdf

#opendata #datasets #ai #research #data
Можно сказать что в продолжение платформы данных для ИИ, о доступности данных. Посмотрим на ещё один пример, Правительство Москвы публикует так называемые "Московские датасеты" для обучения ИИ алгоритмов[1].

Чтобы получить доступ к ним надо заполнить форму заявки [2], можно увидеть её на скриншоте, а саму форму отправить по email'у на сайте.

Так вот знаете что здесь особенно выделяется? Ни один из наборов данных перечисленных в заявке не является, не то что деперсонализированными данными, но и даже конфиденциальными.

Почему, к примеру, доступ к данным метеостанций или о загрязнений почвы необходимо просить? Почему эти данные не публикуются как открытые данные на обновлённом портале открытых данных [3] вот в чём вопрос.

При том что у Правительства Москвы и его подчинённых структур порталов с данными много. Например, на портале сервисов ИИ для лучевой диагностики (mosmed.ai) [4] тоже публикуются наборы данных и куда более чувствительные чем данные метеостанций. Там публикуются данные прошедшие деперсонализацию и для их получения достаточно указать свой email.

Эти наборы данных тоже не открытые данные, но их открытость выше чем на Портале ИИ Москвы.

Итого налицо непоследовательная политика городских властей, ложащаяся в общий тренд закрытости и ограничения доступа к данным.


Ссылки:
[1] https://ai.mos.ru
[2] https://ai.mos.ru/datasets-access-form.pdf
[3] https://data-new.mos.ru
[4] https://mosmed.ai

#opendata #closeddata #russia #ai #moscow
Многие сейчас пишут о том что страны G7 приняли кодекс для разработчиков ИИ, не читайте советских газет (с), читайте первоисточники. Документ G7 это результат так называемого [1] the Hiroshima AI Process и оригиналы текстов на английском и японском языках на сайте МИД Японии [1]. Почему на японском языке? Потому что в 2023 году председателем G7 является Япония, у G8 изначально, и у G7 в итоге никогда не было отдельного сайта. Это неформальное объединение стран с ежегодной сменой председательства и под каждый год и каждое председательство создают отдельные сайты и публикуют анонсы на сайтах МИДов и Правительств входящих стран.

Полезно, также, почитать текст на сайте Еврокомиссии приветствующей это соглашение [2] и упоминающий что завершается подготовка EU AI Act [3].

Ссылки:
[1] https://www.mofa.go.jp/ecm/ec/page5e_000076.html
[2] https://ec.europa.eu/commission/presscorner/detail/en/ip_23_5379
[3] https://eur-lex.europa.eu/legal-content/EN/TXT/?uri=CELEX:52021PC0206

#ai #regulation #g7 #laws #ethics
Из любопытного на стыке приватности и ИИ, анализатор политик приватности, сервис Make Privacy Policies Understandable with the power of AI [1] на вход получает ссылку на политику приватности на английском языке, на выходе декомпозированные пункты того что в ней содержится.

Там есть некоторое число примеров, Tinder, Twitter, Vimeo, Github и другие, можно посмотреть их прямо на сайте.

Визуально выглядит пока что не очень и полнота разбора / перевода политик в понятный вид, тем не менее сервис даёт надежду на то что в будущем можно автоматизировать создание аналога ToSDR [2] с ИИ внутри.

Сам проект можно отнести к тем проектам LegalTech которые нацелены на то чтобы сократить потребность в юристах.


Ссылки:
[1] https://parsepolicy.com
[2] https://tosdr.org

#privacy #ai
В рубрике регулярного чтения про данные, технологии и не только:

Приватность
- В Канаде запретили установку WeChat и продуктов Kaspersky на всех государственных устройствах [1], а также со всех государственных устройств удаляют принудительно уже установленные их продукты. Поскольку, дословно, CIO Канады определил что WeChat и Kaspersky suit создают неприемлемые риски для безопасности и приватности. (!). С другой стороны, а могли же и сразу санкции вводить или что похуже, а тут только ограничения на госдевайсах.

Данные
- OpenMetadata 1.2.0 [2] новая версия опенсорс корпоративного каталога для ведения данных/метаданных. Обещают много всего, в частности много новых плагинов для импорта данных из Greenplum, Elasticsearch и тд.
- Data Visualization Guide [3] на Европейском портале открытых данных, лично по мне так всё безобразно-единообразно. Не стоит воспринимать это как обучающий курс, а скорее это эдакий справочник.
- Marimo [4] ещё один продукт по превращению тетрадок на Python в интерактивные приложения
- Quarto Dashboards [5] свежий инструмент с открытым кодом для построения дашбордов с помощью Python R, Julia или Observable.
- GeoParquet 1.0 [6] расширение стандарта Parquet для работы с геоданными. Всем кто сейчас работает с шэйпфайлами и GeoPackage

Искусственный интеллект
- Executive Order on the Safe, Secure, and Trustworthy Development and Use of Artificial Intelligence [7] указ Президента США регулирующий компании создающие ИИ. Затрагивает, в первую очередь, то что компании должны предоставлять результаты тестирования безопасности их ИИ продуктов и разработку национальных стандартов безопасности государственными агентствами. Иначе говоря, в первую очередь это техническое регулирование. А также там же анонс ai.gov [8] госпортала США по поиску ИИ талантов.
- With its New M3 Chips, Apple joins the AI party. [9] новые чипы от Apple обещают значительное лучшую работу с ML задачами. Для тех кто обсчитывает большие объёмы данных и преимущественно техникой и ПО Apple может быть особенно полезно.

Другое
- European Drug Report 2023: Trends and Developments [10] отчёт/доклад о ситуации с наркотиками в Евросоюзе. Сразу много на что можно обратить внимание: доклад сверстан под интернет публикацию, к нему приложены интерактивные визуализации, все таблицы из текста выделены и представлены для выгрузки в CSV и Excel, у доклада есть DOI.


Ссылки:
[1] https://www.canada.ca/en/treasury-board-secretariat/news/2023/10/minister-anand-announces-a-ban-on-the-use-of-wechat-and-kaspersky-suite-of-applications-on-government-mobile-devices.html
[2] https://open-metadata.org/
[3] https://data.europa.eu/apps/data-visualisation-guide
[4] https://marimo.io/
[5] https://quarto.org/docs/dashboards/
[6] https://geoparquet.org/releases/v1.0.0-beta.1/
[7] https://www.whitehouse.gov/briefing-room/presidential-actions/2023/10/30/executive-order-on-the-safe-secure-and-trustworthy-development-and-use-of-artificial-intelligence/
[8] https://ai.gov
[9] https://om.co/2023/10/30/apple-launches-m3-chips-with-ai/
[10] https://www.emcdda.europa.eu/publications/european-drug-report/2023_en

#readings #opensource #data #datatools #ai #privacy
Любопытная статья [1] и связанные с ней наборы данных [2] про WikiWebQuestions, набор данных SPARQL аннотированных данных из Wikidata и о том что большие языковые модели вроде LLaMa меньше галлюцинируют и точность их ответов повышается. Всячески полезное чтение и возвращение к вопросу о том насколько и как структурированные и качественно аннотированные базы данных могут повлиять на качество ИИ-инструментов. До сих пор в основе больших языковых моделей были очень большие базы текстов, а тут базы фактов. При всей неидеальности и неполноте Wikidata баз таких объёмов и такой структуризации одновременно очень мало.

Ссылки:
[1] https://arxiv.org/abs/2305.14202
[2] https://github.com/stanford-oval/wikidata-emnlp23

#ai #opendata #wikidata #datasets #research #readings
Я ничего не писал про увольнение Сэма Альтмана из OpenAI ожидая когда станут известны подробности и подробности уже прозвучали, он переходит в Microsoft, что, для Microsoft, несомненно большой выигрыш. Тем временем просто интереса ради почитать обзор того как менялся состав правления OpenAI за 6 лет [2], там немало любопытного и непрозрачного было.

Почему это важно?
OpenAI сейчас лидер рынка генеративного ИИ и изменения в связи с уходом Альтмана могут отразится на рынке в целом. Например, то что Microsoft сейчас наберёт компетенций и откажется от финансовой поддержки OpenAI.

Ссылки:
[1] https://twitter.com/satyanadella/status/1726509045803336122
[2] https://loeber.substack.com/p/a-timeline-of-the-openai-board

#ai #microsoft
Китайская компания HKVision выиграла тендер в Китае на систему "Умный кампус" умеющую отслеживать что представители национальных меньшинств соблюдают пост в Рамадан [1].

Даже не знаю как это прокомментировать. Подозреваю лишь что Китаем такие внедрения не ограничатся.

Только в Китае следят за мусульманами, а за кем будут следить в России ? Правильно, за социальной жизнью студентов ЛГБТ. Научат камеры распознавать то что девушки или юноши ходят по коридорам и двору за ручку и сразу будут камеры стучать в профильный Департамент социального позора Министерства раздувания национального достояния.

Думаете фантастический сценарий?

Ссылки:
[1] https://ipvm.com/reports/hikvision-fasting

#privacy #china #algorithms #ai
Я тут хотел было прокомментировать проходивший недавно AI Journey, и ещё слайд который, по слухам, Максут Шадаев показывал в "Бункере" про структуру нацпроекта "Экономика данных", но вместо этого покажу вам 2 скриншота сайта ai.gov.ru.
1-й от 9-го сентября 2022 года
2-й сегодняшнего дня

Можно увидеть как сайт где был какой-то но контент, с регуляторикой, стратегией и тд. превратили в пиарный одностраничник. И раньше то было куцо, а теперь просто выжжено, только новостной мониторинг.

Это всё к вопросу о том почему надо архивировать госсайты, да всё по тому же. Уж больно любят российские чиновники удалять да прятать несделанное и недоделанное.

#ai #russia #government
Кстати, у меня вот тут накопилось какое-то количество вопросов к залу применительно к регулированию ИИ в России. Может кто-то знает ответы? Спрашиваю, без иронии на предмет "всё у них плохо", скорее интересуюсь с лёгким удивлением, потому что сам такого не наблюдаю.

Такие вот вопросы:
1. Есть ли примеры отчётов по оценке воздействия внедрения ИИ ? Корпоративных или государственных, не так важно, важнее публичных отчётов. Например, в Москве уже несколько лет идёт эксперимент по применению ИИ, при этом нигде отчётов/докладов/протоколов работы вовлечённых сторон об этом не наблюдается. Есть ли что-то подобное?
2. Остались ли ещё какие-либо организации гражданского общества с публично заявленной позицией по внедрению и рискам создания и применения ИИ? Как я понимаю правозащитных организаций настоящих которые, а не GONGO, почти не осталось. Но может я кого-то упустил или пропустил?
3. Есть ли примеры внедрения ИИ с независимым человеческим контролем/надзором за ним?
4. Есть ли какие-либо стандарты/руководства/критерии проверки соответствия компаний/продуктов/внедрений согласно российскому этическому ИИ кодексу?
5. Являются ли обязательными технические стандарты ИИ при внедрении в государственном секторе? в корпоративном секторе?
6. Можно ли считать российский кодекс ИИ всё ещё частной инициативой после присоединения к нему государственных агентств и промоутирования его на государственном уровне?

#ai #questions