XX2 век
2.09K subscribers
3.82K photos
18 videos
4.27K links
Официальный канал журнала «XX2 век» http://22century.ru
Download Telegram
А знаете, какая нейросеть сейчас самая большая по числу параметров? Да, в 2023 году мы все знаем, что с точки зрения способностей модели важно не только число параметров, но и то, как долго и на чём именно модель учили. И что сравнительно скромные модели могут легко обходить по метрикам более крупные. Например Qwen-7B с 7 млрд параметров, которая видела при обучении 2,2 млрд токенов (словарь у неё размером >150K, так что токены ещё и длинные в среднем), на MMLU обходит, скажем, LLAMA 2 с 13 млрд параметров. Это мы всё понимаем, но всё же?
С монолитными сетками всё просто — лидер не менялся уже довольно давно. Это Megatron-Turing NLG с 530 млрд параметров.
А что там в мире MoE? Помните шум, которые понаделали Switch-трансформеры, перешагнувшие через 1 трлн параметров? Кто-то слышал про M6-10T от Alibaba, но в целом появление модели с 10 трлн параметров прошло почти незаметно. А что дальше?
Так вот. В апреле 2022 года группа китайских исследователей из DAMO, Университета Синьхуа, Пекинской академии искусственного интеллекта и Лаборатории Чжэцзян (之江实验室) (Научно-исследовательского учреждения, созданного совместно правительством провинции Чжэцзян, Чжэцзянским университетом и Alibaba Group) сообщила о создании MoE-модели MoDa-174T (от MoE и Data — название отсылает к гибридной стратегии параллелизма MoE и данных) со 173,9 трлн параметров, в состав которой входят целых 96000 сетей-экспертов. Для обучения модели использовался фреймворк BaGuaLu и суперкомпьютер Sunway последнего поколения.
BaGuaLu (八卦炉) — печь восьми триграмм (восьми гуа), волшебная печь из древнекитайской мифологии, позволяющая создавать эффективные лекарства. Восемь триграмм гуа используются в даосской космологии, чтобы представить фундаментальные принципы бытия. Модель обучали на самом большом китайском мультимодальном датасете M6-Corpus, содержащем 1,9Тб изображений и 292Гб текстов.
К сожалению, авторы не приводят информации о результатах решения моделью различных тестовых задач, поэтому о способностях MoDa-174T мы пока что можем лишь догадываться.
🔥13👍5🤔1
Forwarded from GigaChat
GigaChat теперь в Telegram!

Повашиммногочисленнымзапросам...

Нейросетевая модель GigaChat теперь доступна всем желающим прямо в Telegram-боте! Просто откройте его, нажмите «Начать» и вступайте в диалог. Сбер ID для активации не нужен 😉

Способность генерировать изображения с помощью нейросети Kandinsky также перекочевала в наш бот!

Пообщаться с GigaChat можно по ссылке 🤗
👎5🔥5👍3
Forwarded from Kandinsky 2.2 VIP
Изображение было сгенерировано по запросу "The Giant Pikachu of Kandahar circa 1902, black and white photo", стиль: 4k
👍11👎5😁5
Forwarded from Complete AI (Andrey Kuznetsov)
🏆Сегодня мы официально запускаем новый AIJ Contest, в котором заявлено 5 крутых задач с общим призовым фондом 11+ млн. рублей!!!

1) Strong Intelligence — создать мультимодальную модель, которая обыгрывает знатоков интеллектуальных викторин и показывает суперуровень эрудиции

2) Unique RecSys — обучить ИИ-алгоритм подбирать наиболее релевантный контент

3) Personal AI — создать человекоцентричного ИИ-помощника

4) Equal AI — сделать сервисы доступными каждому — обучить модель распознавать русский жестовый язык по видео

5) Rescue AI — разработать новый способ расшифровки генома

Обо всех задачах подробно можно прочитать здесь

Первая же задача Strong Intelligence (самая сложная и на повестке современных мультимодальных исследований) разрабатывалась нашей командой AIRI + Sber AI — очень хочется получить много интересных крутых решений. Готов отвечать на вопросы, если будут возникать!

Скоро откроем гитхаб и в ближайшее время проведём вебинар, где расскажем подробно про задачи и ответим на возникающие вопросы, а пока желаю всем продуктивного погружения в контекст задач🦾

Следите за информацией)
👍3
https://awards.highload.ru/vote

Открытое голосование за номинантов на премию HighLoad++
Тут можно проголосовать за GigaChat, Kandinsky и даже просто за меня :)
У каждого есть три голоса, распорядитесь ими мудро!)))
👍6👎4
Нобелевская премия по физике—2023: лазерная физика и аттосекундные импульсы

https://22century.ru/chemistry-physics-matter/116640
8👍3🔥1
Нобелевская премия по химии—2023: квантовые точки и нанотехнологии

https://22century.ru/chemistry-physics-matter/116694
👍31🔥1
А мы сделали SOTA-решение для коррекции орфографии для русского языка

SAGE (Spelling correction via Augmentation and Generative distribution Emulation) — это проект, целью которого является изучение и решение проблемы коррекции правописания. На текущий момент мы представляем:

Семейство открытых предобученных генеративных моделей для коррекции правописания на русском и на английском языках:

ruM2M100-1.2B;
ruM2M100-418M;
FredT5-large-spell;
T5-large-spell (для английского языка);

Хаб с вручную размеченными параллельными датасетами для задачи коррекции правописания с естественными (сделанными человеком) ошибками, покрывающие в общей сложности около десяти текстовых источников (далее по тексту мы также можем называть их «доменами»);

Библиотеку SAGE с открытым исходным кодом, в которой реализованы два метода аугментации текстовых данных на основе намеренного искажения правописания, доступ к нашим открытым моделям и датасетам, а также механизм валидации моделей спеллчека;

Наше лучшее решение на основе модели ruM2M100-1.2B доступно в виде Cloud AI Service , оно опережает по качеству открытые решения (Yandex.Speller, HunSpell, JamSpell) и проприетарные (на момент проведения экспериментов) модели OpenAI (gpt-3.5-turbo-0301, gpt-4-0314, text-davinci-003).

Статья на Хабре: https://habr.com/ru/companies/sberdevices/articles/763932/
🔥7👍5