AbstractDL

🔥

Llama 4 — Scout, Maverick и Behemoth

Все модели мультимодальные — нативно воспринимают текст, изображения и видео. Тренировали на 30 триллионах токенов, причём токенов с других языков теперь в 10x больше по сравнению с Llama 3. Идёт в трёх размерах:

Scout (109B)— модель с 10 миллионами токенов контекста, что рекорд для релизнутой модели. По бенчам бьёт Gemma 3 и Gemini 2.0 Flash Lite, слегка не дотягивая до полноценной Flash 2.0. Это MoE модель с 16 экспертами, 109B параметров при 17B активных. С квантизацией влезает в одну GPU.

Maverick (400B)— лучше Gemini 2.0 Flash с GPT 4o, примерно на одном уровне с обновлённым DeepSeek V3, но при этом модель мультимодальная и заметно меньше в размерах. Контекст — 1 миллион токенов, меньше чем у Scout, но сильно лучше чем у других конкурентов. Активных параметров всё те же 17B, но экспертов уже 128, поэтому и 400B параметров, Модель можно запустить в fp8 на одной ноде с 8xH100.

Behemoth — гигантская модель на два триллиона параметров (288B активных, 16 экспертов). Бьёт вообщё все Instruct модели с заметным отрывом. Бегемота ещё тренируют, но его ранние версии уже были дистиллированы в Scout и Maverick, что сильно бустануло их перформанс.

Это всё ещё Instruct релиз, но Llama 4 Reasoning тоже скоро будет.

Веса

@ai_newz

Please open Telegram to view this post

VIEW IN TELEGRAM

4.1K views21:04

AbstractDL

Впервые в прямом эфире на радио рассказал о своих исследованиях! Обсудили вместе с Александром Пушным как пунктуация влияет на точность LLM.
⠀

smotrim.ru

Физики и лирики. Исследования. Почему для ИИ важна пунктуация: слушать аудио на Smotrim

Ученые Института AIRI обнаружили, что знаки препинания и артикли – элементы языка, которые часто воспринимаются пользователями как малозначимые, играют ключевую роль в обработке информации языковыми моделями. Об исследовании рассказал Антон Разжигаев, руководитель…

2.9K views13:09

AbstractDL

Сколько информации реально хранит в себе один эмбеддинг LLM?

Вы когда-нибудь задумывались, сколько информации можно запихнуть в один вектор языковой модели? Мои знакомые недавно поставили рекорд — 1568 токенов в ОДНОМ эмбеддинге! И это при том, что другие методы компрессии еле-еле выдают сжатие в 10 раз.

Метод до безумия прост: берём [mem] вектор, добавляем его в начало инпута, а затем просто оптимизируем его, чтобы LLM могла по нему восстановить исходный текст. Никаких сложных энкодеров — просто SGD по входному эмбеддингу. Вот капасити некоторых моделей:
- Llama-3.1-8B: 1568 токенов
- Llama-3.2-1B: 512 токенов
- Pythia-160M: жалкие 80 токенов

Самое интересное, что всё упирается не в длину текста, а в его сложность. Если энтропия текста ниже определённого порога — модель восстановит его идеально, если выше — то уже с ошибками. А если добавить больше [mem] векторов, то ёмкость растёт почти линейно. Например Llama-3.2-1B может упаковать весь "Хоббит" в ~200 векторов.

И при всём этом модели используют только 10-30% теоретической ёмкости своих эмбеддингов. Причём новые модели (Llama, OLMo) гораздо эффективнее старых (Pythia, OPT).

Статья, GitHub

3.0K views13:44

2025/04/12 02:31:14

❌Photos not found?❌Click here to update cache.

HTML Embed Code:

<iframe width="100%" src="https://www.bootg.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>