Ivan Begtin
8.07K subscribers
1.5K photos
3 videos
100 files
4.25K links
I write about Open Data, Data Engineering, Government, Privacy and Data Preservation and other gov and tech stuff
Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech

Contact @NMBabina for ads proposals
Download Telegram
25 recommandations pour l'IA en France или, по русски, 25 рекомендаций для ИИ выпустила французская Комиссия по искусственному интеллекту.

Вот 7 наиболее приоритетных, в моём вольном переводе:

1. Создать условия для коллективного освоения ИИ и его проблем, запустив план по повышению осведомленности и обучению нации.
2. Вложить значительные средства в цифровые компании и трансформацию бизнеса, чтобы поддержать французскую экосистему ИИ и сделать ее одним из мировых лидеров.
3. Сделать Францию и Европу крупным центром вычислительных мощностей в краткосрочной и среднесрочной перспективе.
4. Изменить наш подход к персональным данным, чтобы продолжать защищать их и в то же время способствовать инновациям для удовлетворения наших потребностей.
5. Обеспечить влияние французской культуры путем предоставления доступа к культурному контенту при соблюдая прав интеллектуальной собственности.
6. Применять принцип экспериментирования в государственных исследованиях в области ИИ для повышения их привлекательности.
7. Разработать последовательную и конкретную дипломатическую инициативу, направленную на создание глобального управления ИИ.

По ссылке есть документ на французском языке и краткое изложение на английском. Если есть возможность, я рекомендую читать именно на французском, например, а автопереводом. Там гораздо больше рассказывается, в том числе про открытость данных и значимость для открытой экосистемы.

Ссылки"
[1] https://www.gouvernement.fr/actualite/25-recommandations-pour-lia-en-france

#opendata #ai #france #strategies #reports #readings
Полезные ссылки про данные, технологии и не только:
- Про автоматизированное видеонаблюдение на олимпиаде в Париже [1]. Под пэйволом, но в общем-то и так понятно что использует положение об экспериментах в законе об Олимпийских играх во Франции [2]
- Devin, the first AI software engineer [3] AI помощник для программистов от Cognition. Ключевая фишка - он лучше умеет самостоятельно решать Github Issues, успешно около 13.86%. Не учитесь дети на программистов, скоро они останутся без работы! Шутка, а не шутка то что джуниорам придётся нелегко.
- Grok от X.AI (Элон Маск) в открытом коде [4] пока оставлю без комментариев, пусть его потестят и расскажут те кто тестят GPT-подобные модели на регулярной основе
- Croissant: a metadata format for ML-ready datasets [5] стандарт метаданных для ML датасетов. Теперь поддерживается основными платформами Kaggle, HuggingFace и OpenML. Google обещают поддерживать его в Google Dataset Search. Подробнее в спецификации тут [6]


Ссылки:
[1] https://www.lemonde.fr/en/pixels/article/2024/03/03/paris-olympics-2024-testing-on-algorithmic-video-surveillance-of-the-games-begins_6580505_13.html
[2] https://www.lemonde.fr/en/sports/article/2023/04/13/paris-2024-french-parliament-approves-the-olympic-bill-and-its-video-surveillance-flagship-project_6022755_9.html
[3] https://twitter.com/cognition_labs/status/1767548763134964000
[4] https://github.com/xai-org/grok-1
[5] https://blog.research.google/2024/03/croissant-metadata-format-for-ml-ready.html
[6] https://mlcommons.org/working-groups/data/croissant/

#data #datatools #privacy #ml #opendata #ai
Кстати, пока без выводов, но наблюдаю что некоторые издатели научных материалов стали явным образом запрещать их использование для обучение ИИ. Пример - Elsevier в их условиях использования на всех их продуктах и сайтах что они управляют.

Интересно наблюдает ли кто-либо за изменениями в TOS именно относительно ИИ и запретов на его применение на контент?

#openaccess #ai
Свежий 2024 AI Index Report [1] много полезных материалов, и основные выводы:

1. ИИ превосходит человека в некоторых задачах, но не во всех.
2. Промышленность продолжает доминировать в исследованиях передового ИИ.
3. Пограничные (Frontier) модели становятся все дороже.
4. США опережают Китай, ЕС и Великобританию в качестве ведущего источника лучших моделей ИИ.
5. Надежных и стандартизированных оценок ответственности LLM очень не хватает.
6. Инвестиции в генеративный ИИ стремительно растут.
7. Данные получены: ИИ делает работников более продуктивными и приводит к повышению качества работы.
8. Научный прогресс еще больше ускорится благодаря ИИ.
9. В США резко увеличивается количество нормативных актов, касающихся ИИ.
10. Люди по всему миру больше осознают потенциальное влияние ИИ и больше нервничают.


Ссылки:
[1] https://aiindex.stanford.edu/report/

#ai #reports #readings
Я, в последнее время, реже пишу про тему приватности, но актуальности тема не теряет. Для тех кто интересуется этой темой в РФ, команда из Regional Privacy Professional Association (RPPA.pro) с мая месяца запускают курс по AI Governance [1] с акцентом на юридические аспекты разработки и применения AI решений.

Тем кто этой проблематикой интересуется, всячески рекомендую.

Ссылки:
[1] https://rppa.pro/training/aigovernance

#ai #privacy
В прошедшую субботу я потерял потратил несколько часов на просмотр выступлений зам министров Минцифры про нацпроект "Экономика данных". Хорошая новость в том что экономики там нет, плохая в том что данных тоже нет. В общем-то я лично так и не понял жанра выпихивания неподготовленных спикеров выступления зам. министров на сцене, без предварительного насильственных тренировок ораторским навыкам продумывания речей. Если это было для демонстрации открытости министерства, то лучше бы документы и данные вовремя и в полноценно публиковали. Что в итоге войдет в этот нацпроект до сих пор непонятно, но судя по интенциям впихнуть туда капиталку на сети связи, квантовые технологии и ИБ, то не пора ли переименовать нацпроект во что-то более экстравагантное? Лично у меня фантазии не хватает. Хорошо хоть Гостех не упоминали.

Параллельно с этим читаю дорожную карту комитета по Сенатского по ИИ в США. Вот это больше выглядит как нац. проект, дорожная карта там включена в отчет этого комитета. Там в дорожной карте очень много про регулирование, не только запретительное и ограничивающее, но и про участие в международных исследованиях и корректировке технологической политики.

В целом всё что я вижу по зарубежному регулированию, там это происходит со звериной серьёзностью без шоу и пиара. А сдвиг российской госполитики в пиар и шоу никакими санкциями не оправдать.

#government #russia #policy #showoff #ai #regulation
Firecrawl [1] любопытный новый инструмент по работе с данными с помощью LLM. Обещает что умеет отдавать команды LLM по извлечению данных по определенным схемам.

Плюс публикуют исходный код, но только клиентской библиотеки к своему сервису.
Всё это выглядит любопытно и какие то простые схемы действительно удалось с его помощью извлечь. Пока выглядит, конечно, не суперпродвинуто, но и в такой простоте есть плюсы для тех кто не хочет писать тысячи парсеров для бесконечного числа сайтов.

Я когда-то много времени посвятил теме преобразованию сайтов в данные, но остановился когда написал алгоритм превращения в RSS любой вебстраницы со списками чего-то.

Полноценно превращать сайты в базы данных осложнено тем что надо их вначале краулить, потом анализировать и уже по итогам идентифицировать характер хранимой информации и превращения её в данные. Тем не менее задача не невозможная.

Ссылки:
[1] https://firecrawl.dev

#data #datatools #ai
К лекции о безопасности и необходимости регулировать ИИ. В X пользователь делится рецептом пиццы в которую ИИ рекомендует добавить клея, немного, 1/8 стакана и нетоксичного😜. А всё потому что некий пользователь fucksmith когда-то написал в Reddit'е такой коммент.

Регулирование ИИ неизбежно, как обязательное тестирование на безопасность, а разработчики не могут не избегать юридических последствий.

Но что будет с open source LLM ?

#ai #safety #regulation
Два интересных и противоположных текста. В NYTimes о том как Марк Цукерберг поднабрал кармы и репутации выбрав open-source путь для развития AI в Meta. И, в целом, текст про пользу от открытия кода LLAMA.

Второй текст авторский от John Luttig из фонда Founders Fund, финансирующего многие AI стартапы что у нас на слуху, о том что фундаментальные модели ИИ будут с закрытым кодом. Потому что дорого, потому что национальная безопасность и много разных соображений.

Где правда? Я бы предположил что правда в будущих прецедентах. Если кто-то из недружественных для США стран попадётся на применении open-source LLM в каком-нибудь военном непотребстве конфликте, то open source LLM пришибут очень быстро.

Как бы то ни было тема важная, забывать про неё нельзя.

#opensource #ai #LLM
В рубрике полезного чтения:
- Science in the age of AI [1] доклад британского королевского общества о трансформации и вызовах перед наукой в контексте AI. Много примеров и полезное чтение. Для тех кто давно изучает эту тему ничего нового, но авторитетный источник старого.
- Exploring the Impact of ChatGPT on Wikipedia Engagement [2] препринт статьи о влиянии ChatGPT на вовлечение в Википедию. Выводы пока что не влияет, но полезно почитать о том как измеряют.
- Vulnerabilities across keyboard apps reveal keystrokes to network eavesdroppers [3] большой лонгрид от CitizenLab о том как они анализировали перехват набираемых текстов в приложениях клавиатур, для Android и IoS, с акцентом на китайских вендоров и китайский язык. Детальное, хорошо проработанное техническое расследование
- The Simple Macroeconomics of AI [4] работа по влиянию ИИ на макроэкономику. Текст полезный всем кто считает AI impact в конкретных отраслях. Я его ещё не дочитал, но отложил до ближайшего свободного времени.
- A New National Purpose: Harnessing Data for Health [5] доклад института Тони Блэра про создание National Data Trust по управлению данными в сфере здравоохранения в Великобритании. Открытые данные не упоминается и предполагается научное примененеи и коммерциализация в среднесрочной перспективе и то что данные могут быть персональными. Если говорить про экономику данных настоящую, то это вот так, и очень непросто в реализации.


Ссылки:
[1] https://royalsociety.org/news-resources/projects/science-in-the-age-of-ai/
[2] https://www.arxiv.org/abs/2405.10205
[3] https://citizenlab.ca/2024/04/vulnerabilities-across-keyboard-apps-reveal-keystrokes-to-network-eavesdroppers/
[4] https://www.nber.org/papers/w32487
[5] https://www.institute.global/insights/politics-and-governance/a-new-national-purpose-harnessing-data-for-health

#readings #ai #data #privacy
Полезное чтение про данные технологии и не только:
- AI Doesn’t Kill Jobs? Tell That to Freelancers [1] статья в WSJ о том что рынок фрилансеров резко проседает с 2022 года (появления ChatGPT) и у людей делавших рутинную цифровую работу теперь задача найти себе новый заработок.
- AI Is Already Wreaking Havoc on Global Power Systems [2] лонгрид в Блумберг о том как AI влияет на энергопотребление. Большой интерактивный продукт, приятно смотреть. И тема актуальная
- The Rise of Medium Code[3] в блоге Dagster про восхождение среднего кода (medium code). О том что с разработкой ПО не всё так плохо, просто по другому.
- Governing with Artificial Intelligence [4] свежая статья от ОЭСР про госуправление с помощью ИИ. Как раз актуально, много разговоров на эту тему и больше хайпа чем смысла, а тут сжато и с примерами
- How to optimize the systematic review process using AI tools [5] об использовании ИИ для систематического обзора тематических статей/публикаций. Полезно учёным и исследователям в самых разных областях.

Ссылки:
[1] https://www.wsj.com/tech/ai/ai-replace-freelance-jobs-51807bc7
[2] https://www.bloomberg.com/graphics/2024-ai-data-centers-power-grids/
[3] https://dagster.io/blog/the-rise-of-medium-code
[4] https://www.oecd-ilibrary.org/science-and-technology/governing-with-artificial-intelligence_26324bc2-en
[5] https://acamh.onlinelibrary.wiley.com/doi/full/10.1002/jcv2.12234

#readings #software #ai
This media is not supported in your browser
VIEW IN TELEGRAM
Свежий любопытный инструмент для автоматизации работы аналитика: Thread [1], автоматизирует Jupyter Notebook с помощью API OpenAI, позволяет автозаполнять таблицы, генерировать код и визуализацию.

Выглядит симпатично, для многих задач это просто полезно. Как минимум хорошо ускоряет работу опытных аналитиков.

Автор явно создал движок под облачный стартап где такое будет из коробки.

И да, открытый код под лицензией AGPL3. Кстати явный видный тренд применения GPL/AGPL в современном исходном коде, но не от идеалов FSF, а именно для того чтобы не ограничивать себя в создании стартапа и бизнеса, но ограничивать в этом всех остальных.

Ссылки:
[1] https://github.com/squaredtechnologies/thread

#opensource #ai #analytics #dataviz #jupyter
Оказывается НИУ ВШЭ опубликовали Декларацию этических принципов использования ИИ [1]. Я бы сказал что полезный документ и всё такое, но у этого удивительного документа нет вообще никаких ссылок на то что могло бы быть его основой. Ни на глобальные принципы ООН, ни на принципы ОЭСР, ни на даже на российский кодекс этики в сфере ИИ [2]. Не говоря уже про принципы научной этики.

Удивительная вещь в себе, зато со ссылкой на указ президента.

Кто ещё его читал? Какие ещё косяки там есть?

Ссылки:
[1] https://www.hse.ru/news/expertise/937054242.html
[2] https://ethics.a-ai.ru/

#ai #russia #readings