Forwarded from эйай ньюз
Все модели мультимодальные — нативно воспринимают текст, изображения и видео. Тренировали на 30 триллионах токенов, причём токенов с других языков теперь в 10x больше по сравнению с Llama 3. Идёт в трёх размерах:
Scout (109B)— модель с 10 миллионами токенов контекста, что рекорд для релизнутой модели. По бенчам бьёт Gemma 3 и Gemini 2.0 Flash Lite, слегка не дотягивая до полноценной Flash 2.0. Это MoE модель с 16 экспертами, 109B параметров при 17B активных. С квантизацией влезает в одну GPU.
Maverick (400B)— лучше Gemini 2.0 Flash с GPT 4o, примерно на одном уровне с обновлённым DeepSeek V3, но при этом модель мультимодальная и заметно меньше в размерах. Контекст — 1 миллион токенов, меньше чем у Scout, но сильно лучше чем у других конкурентов. Активных параметров всё те же 17B, но экспертов уже 128, поэтому и 400B параметров, Модель можно запустить в fp8 на одной ноде с 8xH100.
Behemoth — гигантская модель на два триллиона параметров (288B активных, 16 экспертов). Бьёт вообщё все Instruct модели с заметным отрывом. Бегемота ещё тренируют, но его ранние версии уже были дистиллированы в Scout и Maverick, что сильно бустануло их перформанс.
Это всё ещё Instruct релиз, но Llama 4 Reasoning тоже скоро будет.
Веса
@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Впервые в прямом эфире на радио рассказал о своих исследованиях! Обсудили вместе с Александром Пушным как пунктуация влияет на точность LLM.
⠀
⠀
smotrim.ru
Физики и лирики. Исследования. Почему для ИИ важна пунктуация: слушать аудио на Smotrim
Ученые Института AIRI обнаружили, что знаки препинания и артикли – элементы языка, которые часто воспринимаются пользователями как малозначимые, играют ключевую роль в обработке информации языковыми моделями. Об исследовании рассказал Антон Разжигаев, руководитель…
Сколько информации реально хранит в себе один эмбеддинг LLM?
Вы когда-нибудь задумывались, сколько информации можно запихнуть в один вектор языковой модели? Мои знакомые недавно поставили рекорд — 1568 токенов в ОДНОМ эмбеддинге! И это при том, что другие методы компрессии еле-еле выдают сжатие в 10 раз.
Метод до безумия прост: берём [mem] вектор, добавляем его в начало инпута, а затем просто оптимизируем его, чтобы LLM могла по нему восстановить исходный текст. Никаких сложных энкодеров — просто SGD по входному эмбеддингу. Вот капасити некоторых моделей:
- Llama-3.1-8B: 1568 токенов
- Llama-3.2-1B: 512 токенов
- Pythia-160M: жалкие 80 токенов
Самое интересное, что всё упирается не в длину текста, а в его сложность. Если энтропия текста ниже определённого порога — модель восстановит его идеально, если выше — то уже с ошибками. А если добавить больше [mem] векторов, то ёмкость растёт почти линейно. Например Llama-3.2-1B может упаковать весь "Хоббит" в ~200 векторов.
И при всём этом модели используют только 10-30% теоретической ёмкости своих эмбеддингов. Причём новые модели (Llama, OLMo) гораздо эффективнее старых (Pythia, OPT).
Статья, GitHub
Вы когда-нибудь задумывались, сколько информации можно запихнуть в один вектор языковой модели? Мои знакомые недавно поставили рекорд — 1568 токенов в ОДНОМ эмбеддинге! И это при том, что другие методы компрессии еле-еле выдают сжатие в 10 раз.
Метод до безумия прост: берём [mem] вектор, добавляем его в начало инпута, а затем просто оптимизируем его, чтобы LLM могла по нему восстановить исходный текст. Никаких сложных энкодеров — просто SGD по входному эмбеддингу. Вот капасити некоторых моделей:
- Llama-3.1-8B: 1568 токенов
- Llama-3.2-1B: 512 токенов
- Pythia-160M: жалкие 80 токенов
Самое интересное, что всё упирается не в длину текста, а в его сложность. Если энтропия текста ниже определённого порога — модель восстановит его идеально, если выше — то уже с ошибками. А если добавить больше [mem] векторов, то ёмкость растёт почти линейно. Например Llama-3.2-1B может упаковать весь "Хоббит" в ~200 векторов.
И при всём этом модели используют только 10-30% теоретической ёмкости своих эмбеддингов. Причём новые модели (Llama, OLMo) гораздо эффективнее старых (Pythia, OPT).
Статья, GitHub