Telegram Web Link
🔥 Вайб-кодинг — хайп или инструмент будущего?

Программирование с помощью ИИ-агентов — главный тех-тренд последних месяцев.

Одни говорят: «Это лучший опыт в моей жизни».

Другие: «Я только и делаю, что дебажу то, чего сам не писал».

Хочешь по-настоящему разобраться, как использовать ИИ ?

14 апреля в 17:00 — онлайн-лекция от Школы Высшей Математики.

📌 Спикеры: 👨‍🏫 Александр Лыков, к.ф.-м.н., руководитель ШВМ

🟡 Богдан Печёнкин, фаундер Vibe AI

Расскажут и покажут:
Как внедрять Copilot, ChatGPT, Cursor и других агентов в работу уже сейчас
Что агенты реально умеют (и где они сыпятся)
Как ускорить разработку в 10 раз, не потеряв контроль над кодом

Не пропусти. Это будет 🔥

🗓 14 апреля, 17:00
📍 Онлайн

🟡 Регистрация

Реклама: ООО «Школа высшей математики»
ИНН: 9728100991 Erid: 2VtzqwE7sw7
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 SmolVLM — маленький, но мощный мультимодальный прорыв.

Сегодня вышел технический отчёт о SmolVLM — ультра-компактной VLM-модели (всего 256M параметров), которая работает в менее чем 1 ГБ ОЗУ и обходит старые модели 80B, выпущенные полтора года назад!

📏 Контекст — это наше всё: Увеличение длины контекста с 2K до 16K дало +60% к качеству. Даже маленькие модели выигрывают от увелечения памяти.

🔬 SigLIP: меньше — лучше: Вместо классического 400M SigLIP авторы использовали базовую 80M версию — и получили тот же результат при 20% размера.

🧩 Pixel shuffling : Аggressive pixel shuffling помог сократить длину последовательностей в 16 раз без потери качества.

📍 Learnable positional tokens > raw tokens: В маленьких моделях обучаемые позиционные токены дали значительный прирост точности.

🎬 Спец-токены: Специальные "intro/outro" токены и системные промпты дали буст особенно для задач работы видео.

🧠 CoT — с умом: Слишком много Chain-of-Thought данных ухудшает результаты маленьких моделей. Меньше = умнее.

📽 Длиннее видео = лучше: Увеличение длины видео во время обучения улучшило понимание и изображений, и видео.

🚀 SmolVLM — это:
Три версии: 256M, 500M, 2.2B — каждая задаёт новую планку для low-resource inference.

Real-time inference на iPhone 15 — прямо с камеры, без серверов.

В браузере? Да! 40–80 токенов/сек — напрямую в вебе, без ухищрений.

📄 Подробности в репорте

#SmolVLM #EfficientAI #Multimodal #VLM #EdgeAI #SigLIP #AIonMobile
⚡️Как Docker упрощает жизнь аналитиков и инженеров данных

Когда вы работаете с данными, анализируете их или строите модели машинного обучения, Docker позволяет сосредоточиться на самой работе, не отвлекаясь на настройку окружения.

На бесплатном вебинаре вы научитесь упаковывать приложения вместе со всеми зависимостями, избегать проблем с несовместимостью, а значит и повысите эффективность работы и сэкономите время на настройку окружения.

Что будем делать на вебинаре:
🟠Разберём основы Docker и как контейнеры упрощают работу;
🟠Выполним анализ данных, запустив Python прямо внутри контейнера;
🟠Автоматизируем окружение с помощью Docker Compose (Python + PostgreSQL);
🟠Настроим удобный доступ к результатам анализа;
🟠Организуем ускоренную обработку больших данных.

😶Зарегистрироваться на бесплатный вебинар
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
✔️ LAM: Official Pytorch Implementation

LAM (Large Avatar Model) — это новая методика для восстановления анимируемой «Гауссовой» 3D-модели головы по одной-единственной фотографии.

В отличие от предыдущих подходов, которые либо требуют долгого обучения на видео, либо задействуют вспомогательные нейросети на этапе анимации и рендеринга, LAM позволяет получить готовую к анимации и модель визуализации головы за один проход сети, без дополнительной постобработки и внешних модулей.

В основе метода лежит генератор «гауссовых атрибутов» для канонического пространства, который использует ключевые точки FLAME (модель лица) в качестве запросов. Эти точки проходят через Транспортеров, взаимодействуя с многомасштабными признаками исходного изображения, чтобы точно определить параметры «Гауссовых» элементов модели.

Дальше 3D-модель головы анимируется стандартным Linear Blend Skinning (LBS) с корректирующими blendshape-функциями — как в оригинальной FLAME-модели — и может рендериться в реальном времени практически на любых устройствах, вплоть до мобильных телефонов.

Эксперименты показывают, что LAM превосходит существующие методы на ряде публичных бенчмарков, обеспечивая точное восстановление, высокую реалистичность анимации и удобную интеграцию в существующие конвейеры рендеринга.

Github
Project

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
🌟 Deep Cogito представила серию языковых моделей с открытым исходным кодом.

Deep Cogito выпустила семейство языковых моделей размером 3B, 8B, 14B, 32B и 70B параметров, которые уже доступны для загрузки.

По заявлению разработчиков, их модели превосходят аналогичные открытые решения от LLaMA, DeepSeek и Qwen в большинстве стандартных бенчмарков. Например, 70B-версия обходит новую 109B MoE-модель Llama 4, несмотря на меньший размер.

Все модели обучены с помощью метода Iterated Distillation and Amplification (IDA) — стратегии, которая сочетает итеративное самоулучшение и «сжатие» интеллекта для преодоления ограничений, накладываемых человеческим контролем.

Суть IDA проста: сначала модель «усиливает» свои способности, тратя больше вычислительных ресурсов на поиск решений через CoT, а затем «дистиллирует» эти улучшения в свои параметры. Такой цикл повторяется, создавая петлю обратной связи — каждая итерация делает модель умнее, а её мышление эффективнее. По словам команды, этот подход не только масштабируем, но и быстрее, чем RLHF.

Семейство поддерживает 2 режима работы: стандартный (прямой ответ) и «рефлексивный», где система сначала обдумывает запрос, как это реализовано в Claude 3.7. Они оптимизированы для программирования, вызова функций и агентских сценариев, но без акцента на CoT — разработчики считают, что короткие шаги эффективнее в реальных задачах.

Уже в ближайшие месяцы ожидаются версии на 109B, 400B и 671B параметров и вариации с MoE-архитектурой.

Модели доступны на Hugging Face, Ollama и через API Fireworks AI/Together AI.

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Хотите разбираться в Big Data так, как это делают специалисты Яндекса? Тогда присоединяйтесь к бесплатному интенсиву ШАДа Big DWH Week!

Вас ждёт 8 онлайн-занятий, на которых вы познакомитесь с YTsaurus — платформой для распределённого хранения и обработки данных. Вы разберётесь в её архитектуре и масштабировании, а также научитесь настраивать систему под свои задачи.

Интенсив открытый, поэтому зарегистрироваться может каждый. Однако интереснее всего программа будет тем, кто уже работает с данными: опытным бэкенд-разработчикам и разработчикам баз данных, инженерам и аналитикам данных, а также студентам технических направлений.

Регистрируйтесь до 25 апреля и прокачивайтесь в Big Data вместе с экспертами Яндекса и ШАДа! Все подробности — по ссылке.
✔️ Nomic Embed Multimodal 7B: новая мультимодальная модель эмбедингов с открытым исходным кодом для текста, изображений, PDF-файлов и графиков.

- SOTA визуального поиска документов
- Два варианта ((Colbert + dense models)
- Открытые веса, код и данные
- Лицензия Apache 2.0

🟡Models: https://huggingface.co/collections/nomic-ai/nomic-embed-multimodal-67e5ddc1a890a19ff0d5807
🟡Docs: https://docs.nomic.ai/atlas/embeddings-and-retrieval/guides/pdf-rag-with-nomic-embed-multimodal
🟡Colab: https://colab.research.google.com/github/nomic-ai/cookbook/blob/main/guides/pdf-rag-nomic-embed-multimodal.ipynb
🟡Code & training data: https://github.com/nomic-ai/contrastors/
Please open Telegram to view this post
VIEW IN TELEGRAM
Только посмотрите, кто у нас тут на подходе! 🐐

https://github.com/ggml-org/llama.cpp/pull/12828

@data_analysis_ml
Летняя школа аналитиков-разработчиков Яндекса: набор открыт

В этом году впервые можно выбрать направление для углубленного изучения — Data Engineering или Data Science. В течение всего лета вы сможете изучать инструменты анализа данных и научитесь применять их на практике.

Со 2 июня по 27 июля участников ждут занятия в онлайне, а с 28 июля по 24 августа — работа в фулстек-командах офлайн в офисах Яндекса или онлайн.

Что нужно знать?

Основы программирования на Python
Как решать прикладные задачи с использованием любого диалекта SQL или Pandas
Базу теории вероятностей и математической статистики

По итогам прохождения интенсива, вы сможете попасть на стажировку или получить оффер. По статистике, более половины стажеров переходят в штат компании.

Не откладывайте — регистрация открыта до 27 апреля. Подать заявку можно здесь.
📦 Skops — проект, предлагающий альтернативу стандартному pickle для работы с моделями scikit-learn.

Skops позволяет безопасно сохранять и загружать ML-модели, избегая рисков, связанных с выполнением произвольного кода.

Особый интерес представляет встроенный функционал для создания model cards — документов, объясняющих назначение и особенности моделей.

🤖 GitHub
Forwarded from Machinelearning
🌟 Kimi-VL: VLM с MoE, ризонингом и контекстом 128K.

Moonshot AI опубликовала веса Kimi-VL — открытой VLM, которая объединяет обработку текста, изображений и видео. Благодаря архитектуре MoE модель активирует всего 2.8 млрд. параметров в языковом декодере, обеспечивая скорость, сопоставимую с компактными аналогами, и результативность флагманских решений.

Главное преимущество Kimi-VL — способность анализировать длинные контексты до 128 тыс. токенов, что делает её идеальной для работы с объемными документами, длинными видео или сложными мультимедийными задачами.

Основу модели составляет визуальный энкодер MoonViT, оптимизированный для нативной обработки изображений любого разрешения без необходимости разбивать их на части. Это позволяет точно распознавать текст, графики или UI-интерфейсы даже в высокодетализированных скриншотах.

Например, на бенчмарке InfoVQA модель показывает точность 83.2%, обходя даже GPT-4o. В задачах OCR Kimi-VL достигает 86.7% на OCRBench, что ставит её в ряд лучших в индустрии.

Разработчики также представили Kimi-VL-Thinking — версию с расширенными возможностями CoT. Благодаря использованным RL и длительному CoT-тюнингу она демонстрирует впечатляющие результаты в математических и академических задачах: на MathVista точность составила 71.3%, а на MMMU — до 61.7%, что лучше, чем у Gemma-3-12B-IT.

В тестах Kimi-VL превосходит конкурентов в работе с агентами: на OSWorld её результат 8.22% выше, чем у GPT-4o (5.03%), а на WindowsAgentArena — 10.4%. Для длинных видео модель набирает 64.5% на LongVideoBench, подтверждая способность анализировать часовые записи без потери ключевых деталей.

Модели доступны на Hugging Face в двух вариантах:

🟢Kimi-VL-A3B-Instruct для стандартных задач;

🟠Kimi-VL-Thinking для сложных рассуждений.

▶️ Инференс через Transformers занимает несколько строк кода — достаточно загрузить изображение, задать запрос и получить подробный ответ.


📌Лицензирование: MIT License.


🟡Набор моделей
🟡Техотчет
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #VLM #KimiAI #MoonShotAI
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🎥 ReCamMaster — это передовая система генеративного рендеринга видео, разработанная центром визуальной генерации и взаимодействия компании Kuaishou (KwaiVGI). Она позволяет изменять траектории камеры в существующих видеороликах, создавая новые ракурсы сцены без необходимости повторной съемки. ​

Основные особенности ReCamMaster:

Изменение траектории камеры: Система позволяет перегенерировать видео с новыми движениями камеры, сохраняя исходное содержание и динамику сцены.​

Использование предварительно обученных моделей: ReCamMaster использует возможности предварительно обученных текст-видео диффузионных моделей, что обеспечивает высокое качество генерируемых видео.​

Создание обучающего набора данных:
Для обучения модели был создан крупномасштабный синхронизированный видеодатасет с использованием Unreal Engine 5, включающий разнообразные сцены и движения камеры. ​

Применения ReCamMaster:
- Стабилизация видео: Система может сглаживать дрожание камеры в видеороликах, создавая более плавные и стабильные кадры.​

- Суперразрешение и расширение сцены: ReCamMaster способна повышать разрешение видео и расширять границы сцены за пределы исходного кадра.​

- Дополнение данных для ИИ: Система может генерировать видео с различными ракурсами, что полезно для обучения моделей искусственного интеллекта, особенно в области робототехники и автономного вождения. ​

🟡Github: https://github.com/KwaiVGI/ReCamMaster
🟡Paper: https://arxiv.org/abs/2503.11647
🟡Project: https://jianhongbai.github.io/ReCamMaster/
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Оптимизируем работу со Spark и строим рекомендательные системы

Многие рекомендательные системы строятся на Spark, но при обработке больших данных с ним часто возникают проблемы. Кроме этого, это недешевое решение.

На бесплатном вебинаре 15 апреля в 17:00 расскажем, как оптимизировать работу со Spark, и в реальном времени обучим модель, чтобы показать эффективность нашего подхода.

Что еще обсудим

🔹 Как выстроить архитектуру для рекомендательных систем в облаке, On-premise или гибриде.
🔹 Как оптимизировать расходы и работу со Spark.
🔹 Workshop: как в облачном Spark сделать рекомендательную систему для определения степени рисков ишемической болезни сердца.

Кому будет полезен вебинар

⚫️ML-инженерам.
⚫️Архитекторам, Data-инженерам, Data-аналитикам.
⚫️Руководителям ML-направлений и Data-офисов.

Зарегистрироваться
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
🚀 OmniSVG: Унифицированная модель для генерации сложных векторных графиков​

OmniSVG — новая модель, использующая предварительно обученные модели Vision-Language Models (VLMs) для энд-ту-энд генерации сложных и детализированных векторных изображений в формате SVG. ​

Ключевые особенности OmniSVG:

- Мультимодальность: Способность генерировать SVG на основе текстовых описаний, изображений или их комбинации.​

- Эффективность: Преобразование команд и координат SVG в дискретные токены позволяет отделить структурную логику от геометрии, что обеспечивает более эффективное обучение.​

- Гибкость: Генерация изображений различной сложности — от простых иконок до детализированных аниме-персонажей.​

Вместе с моделью представлен MMSVG-2M — мультимодальный датасет, содержащий 2 миллиона богато аннотированных SVG-объектов, предназначенный для обучения и оценки моделей генерации векторной графики. ​

🟡Проект: omnisvg.github.io
🟡Репозиторий: github.com/OmniSVG/OmniSVG
🟡Датасет: huggingface.co/OmniSVG

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Приглашаем вас на вебинар, посвящённый возможностям решения "Экстрактор 1С", системы Гларус BI, совместных задач.

Основные темы мероприятия:
✔️ Основные инструменты и технологии для выгрузки данных из 1С;
✔️ В чем минусы различных подходов и методов выгрузки данных;
✔️ Экстрактор 1С: эффективное и универсальное решение.
✔️ Зачем нужна BI аналитика бизнесу?
✔️ Разбираем разные мифы, сложившиеся вокруг BI.
✔️ Разбираем как в Glarus BI создать понятный и полезный дашборд за несколько минут.
✔️ С чего начать внедрения BI небольшим компаниям, чтобы избежать лишних потерь времени и денег?
✔️ Разбираем экономику внедрения и эксплуатации BI системы.
✔️ Ответы на вопросы.

Спикеры мероприятия:
📢 Пыстин Степан (технический директор в компании “Денвик Аналитика”)
📢 Козырев Игорь (сооснователь компании "Glarus Digital")

Зарегистрируйтесь на мероприятие по ссылке:
https://pruffme.com/landing/u1257797/tmp1742980942

С нетерпением ждем вас 11 апреля в 13:00 по Мск!

Реклама: ООО "Денвик Аналитика"
ИНН: 1101178666. Erid= 2VtzqusphAh
2025/04/16 11:24:16
Back to Top
HTML Embed Code: