XX2 век
2.15K subscribers
3.73K photos
17 videos
4.18K links
Официальный канал журнала «XX2 век» http://22century.ru
Download Telegram
Попытался прикинуть в режиме блиц, что такого важного и интересного произошло в AI в этом году. Ниже результат примерно десятиминутного размышления, что быстро всплыло из памяти. Плюс ещё полчаса-час на то, чтобы это раскрыть. Наверняка что-то важное забыл и если бы я потратил больше test time compute, наверное, результат был бы точнее, но в таком режиме тоже интересно.

Итак, мой список, не то чтобы по важности, просто по порядку вспоминания.

1. Test-time compute

Примерно с o1 (https://openai.com/index/learning-to-reason-with-llms/) открылась эра test-time compute, появилось новое измерение, по которому можно скейлить модели.

Ну как появилось, в принципе его следы и раньше можно найти. Те же варианты прогнать CNN на нескольких аугментациях и усреднить результат, или там Tailoring (https://t.me/gonzo_ML/392), оно тоже сюда. Но сейчас прям sputnik moment, особенно с o3 (https://t.me/gonzo_ML/3104). Есть и у других игроков что-то из этой серии, Gemini 2.0 Flash Thinking Mode (https://ai.google.dev/gemini-api/docs/thinking-mode) или QwQ (https://qwenlm.github.io/blog/qwq-32b-preview/).

Следующий год будет сильно про это.

2. SSM идут в массы.

За год появилось много новых SSM и SSM-Transformer гибридов (https://t.me/gonzo_ML/2919), и история продолжает развиваться. Из свежего, например, Bamba (https://huggingface.co/blog/bamba) или Falcon3-Mamba (https://huggingface.co/blog/falcon3).

3. Реальная конкуренция в мире LLM

Если год-два назад была примерно одна лучшая LLM -- от OpenAI, то теперь есть как минимум три топовых коммерческих: от Anthropic, OpenAI, Google, и несколько хороших открытых: Llama, Gemma, Qwen, да и ещё что-то наверное можно добавить. В повседневных делах у меня моделью #1 стал Claude 3.5 Sonnet, он вытеснил модели OpenAI как точку входа.

4. LLM теперь мультимодальные

Большинство топовых LLM уже вовсю мультимодальные, принимают на вход не только текст, но и звук с картинками. GPT, Gemini, Claude, Llama, ... все умеют что-то кроме текста. Тихо и без революций это просто стало реальностью.

5. LLM для написания кода стали реально полезны

Генерация кода за последний год очень прокачалась, с помощью моделей можно написать код гораздо быстрее. Я активно пользуюсь этим для генерации разного типового кода, например, для визуализации или обработки данных, это экономит мне кучу времени. Ради эксперимента также написал Flutter приложение с питоновским бэкендом за выходные, флаттера я перед этим не знал вообще. Без Claude/Copilot/Gemini хз сколько бы я это делал, точно не выходные.

Неидеально, в некоторых случаях не срабатывает, как мне нужно, но во многих срабатывает. После VSCode + Copilot или Colab со встроенным Gemini работать в Kaggle ноутбуке без этого вообще уныло, как без руки, начинаешь остро чувствовать потерянное время.

В 2017-м написал статью в Форбс про то, что "программисты в опасносте" (https://www.forbes.ru/tehnologii/341535-mashiny-vmesto-inzhenerov-pochemu-iskusstvennyy-intellekt-doberetsya-i-do), ну вот мы приближаемся.

С другой стороны прямо сейчас происходит большое разделение. Кто умел программировать, становится в разы и на порядки продуктивнее, а кто не умел -- имеет шансы и не стать вообще. "Богатые богатеют".

6. Генерация видео на подходе

Sora очень долго ехала от анонса до доступности, но зато за это время появилось сколько-то альтернативных наработок. Если в момент анонса OpenAI был примерно одним и единственным лидером, то сейчас уже это не так и мир многополярен.

7. Нобели за нейросети

Приятно.

Кроме того, нейросети уже вовсю меняют науку. Не то, чтобы это только в последний год происходило, но, кажется, количество понемногу переходит в качество.

8. Открытые модели рулят

Мне всегда казалось, что опенсорс примерно года на полтора отстаёт от коммерческих LLM, ну и в принципе, наверное, оно где-то так и есть, если смотреть на доступные способности там и там. Но всё равно, всё то, что появилось в опенсорсе (или просто в опен) продолжает удивлять -- новые ламы, джеммы и прочее разное намного лучше, чем всё что было ранее.

9. World models
Не могу сказать, что прямо какой-то суперпрорыв (тема развивается давно, со Шмидхубера :), когда-то писали тут например https://t.me/gonzo_ML/186), но развитие продолжается, модели генерации видео по факту являются и world models (https://openai.com/index/video-generation-models-as-world-simulators/), а кейс от Oasis про генерацию майнкрафт мира (https://oasis-model.github.io/) очень хорош как PoC, интересно какое влияние это будет иметь на игровую индустрию. Точно какое-то будет. Может, появится нейродвижок? Там, наверное, сложно всё, условный Unreal Engine так просто не заменишь, в играх нужно много всего rule-based и детерминированного, но с другой стороны почему нет, ну будет гибрид world model с чем-то ещё. Были игры локальные, появился стриминг и cloud gaming (типа GeForce Now), появится и neuro streaming какой-нибудь.

Кстати, Danijar Hafner, автор Dreamer, PlaNet и прочего, сделал PhD по теме "Embodied Intelligence Through World Models", Хинтон и Лекун в борде (https://tspace.library.utoronto.ca/bitstream/1807/140956/2/Hafner_Danijar_202411_PhD_thesis.pdf). Хорошая тема!

10. Highlight of the year -- KAN

KAN: Kolmogorov-Arnold Networks (https://t.me/gonzo_ML/2598) неплохо бомбанули в моменте, тема быстро развивается (https://github.com/mintisan/awesome-kan), хотя про какое-то супер-применение на текущий момент пока не знаю. Но интересно.

11. ИИ Агенты

Агенты везде и тема про агентов очень многоплановая.

Генеративных агентов (https://t.me/gonzo_ML/1481) прошлого года отскейлили до симуляции 1000 человек (https://arxiv.org/abs/2411.10109), мультиагентные фреймворки (https://t.me/gonzo_ML/2897) активно эволюционируют, и вообще мультиагентные воркфлоу в разных смыслах хорошо ложатся на реальные процессы (но это не значит, что не могут быть более эффективные воркфлоу, для которых аналогов в реальном мире нет).

Агенты и мультиагенты -- это продолжение спектра от голой LLM с промпт-инжинирингом к аугментированной LLM (RAG, тулы и прочее) и далее к новым горизонтам. Какая бы ни была крутая LLM, всё равно у неё есть ограничения -- контекст не бесконечный (особенно эффективный контекст), количество голов внимания ограничено, сложный и развесистый промпт с кучей инструкций работает не так хорошо как хотелось бы, разные и тем более противоречивые роли одновременно в одну LLM пихать вообще не работает, и так далее. Зато если это распилить на отдельные модули, то становится работоспособно. Это отчасти та же история про test-time compute, мы теперь можем провести больше времени в обработке, но не одной LLM, а системой агентов, и трейдоффы здесь те же самые: меняем качество на деньги+время.

Всегда есть вопрос, а почему GPT-48 не заменит всех этих мультиагентов? Ну в чём-то она безусловно станет лучше, но separation of concerns же в целом идейно хорошая тема, философия Юникс про Write programs that do one thing and do it well. Помимо всего прочего закрывает кучу иных требований про ownership, change management, более простую отладку и observability и далее. Думаю, и с GPT-48 тоже будут мультисуперагенты.

---

Пока всё.

Какой топ у вас? Что бы вы добавили или убрали?

Всех с Новым Годом!
Палеонтология: что мы нарыли в 2024-м

https://22century.ru/scientific-and-technological-activities/paleo-2024
«Астрофизические итоги 2024 года»

https://22century.ru/scientific-and-technological-activities/astro-popov-2024
«Микробиологические итоги 2024 года»

https://22century.ru/scientific-and-technological-activities/microbiologiy-2024
Комета C/2024 G3 — первое астрономическое событие 2025 года

https://22century.ru/space/120804
Миллионы смартфонов помогают составить карты земной ионосферы

https://22century.ru/chemistry-physics-matter/120388
Алексей Водовозов. Медицинские итоги 2024 года

https://22century.ru/scientific-and-technological-activities/med-itogi-2024
Индия стала четвёртой страной, состыковавшей спутники на орбите

https://22century.ru/space/120844
Радиотелескоп ALMA изучает облака пыли — место рождения будущих экзопланет

https://22century.ru/space/120777
«Свободность Полоцкая або Венеция»: о «независимости» Полоцка от Древней Руси

https://22century.ru/popular-science-publications/svobodnost-polockaya
Антропологические итоги 2024 года со Станиславом Дробышевским

https://22century.ru/scientific-and-technological-activities/antropologicheskie-itogi-2024
Цикл лекций Владимира Сурдина «Космонавтика будущего»

https://22century.ru/scientific-and-technological-activities/surdin-2025
10+5: космические успехи и провалы 2024 года

https://22century.ru/popular-science-publications/2024-astronomy-events
Курс Александра Бутягина «Искусство Боспорского царства»

https://22century.ru/scientific-and-technological-activities/bospor-spb-2025
«Медицинские итоги 2024 года» с Алексеем Водовозовым

https://22century.ru/scientific-and-technological-activities/med-itogi-2024-av
Космическая обсерватория Gaia заканчивает наблюдения за Млечным Путём

https://22century.ru/space/120986
Мини-спутник «Пандора» будет наблюдать за атмосферой экзопланет

https://22century.ru/space/121026