Forwarded from Machinelearning
Moonshot AI опубликовала веса Kimi-VL — открытой VLM, которая объединяет обработку текста, изображений и видео. Благодаря архитектуре MoE модель активирует всего 2.8 млрд. параметров в языковом декодере, обеспечивая скорость, сопоставимую с компактными аналогами, и результативность флагманских решений.
Главное преимущество Kimi-VL — способность анализировать длинные контексты до 128 тыс. токенов, что делает её идеальной для работы с объемными документами, длинными видео или сложными мультимедийными задачами.
Основу модели составляет визуальный энкодер MoonViT, оптимизированный для нативной обработки изображений любого разрешения без необходимости разбивать их на части. Это позволяет точно распознавать текст, графики или UI-интерфейсы даже в высокодетализированных скриншотах.
Например, на бенчмарке InfoVQA модель показывает точность 83.2%, обходя даже GPT-4o. В задачах OCR Kimi-VL достигает 86.7% на OCRBench, что ставит её в ряд лучших в индустрии.
Разработчики также представили Kimi-VL-Thinking — версию с расширенными возможностями CoT. Благодаря использованным RL и длительному CoT-тюнингу она демонстрирует впечатляющие результаты в математических и академических задачах: на MathVista точность составила 71.3%, а на MMMU — до 61.7%, что лучше, чем у Gemma-3-12B-IT.
В тестах Kimi-VL превосходит конкурентов в работе с агентами: на OSWorld её результат 8.22% выше, чем у GPT-4o (5.03%), а на WindowsAgentArena — 10.4%. Для длинных видео модель набирает 64.5% на LongVideoBench, подтверждая способность анализировать часовые записи без потери ключевых деталей.
Модели доступны на Hugging Face в двух вариантах:
@ai_machinelearning_big_data
#AI #ML #VLM #KimiAI #MoonShotAI
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🎥 ReCamMaster — это передовая система генеративного рендеринга видео, разработанная центром визуальной генерации и взаимодействия компании Kuaishou (KwaiVGI). Она позволяет изменять траектории камеры в существующих видеороликах, создавая новые ракурсы сцены без необходимости повторной съемки.
Основные особенности ReCamMaster:
Изменение траектории камеры: Система позволяет перегенерировать видео с новыми движениями камеры, сохраняя исходное содержание и динамику сцены.
Использование предварительно обученных моделей: ReCamMaster использует возможности предварительно обученных текст-видео диффузионных моделей, что обеспечивает высокое качество генерируемых видео.
Создание обучающего набора данных: Для обучения модели был создан крупномасштабный синхронизированный видеодатасет с использованием Unreal Engine 5, включающий разнообразные сцены и движения камеры.
Применения ReCamMaster:
- Стабилизация видео: Система может сглаживать дрожание камеры в видеороликах, создавая более плавные и стабильные кадры.
- Суперразрешение и расширение сцены: ReCamMaster способна повышать разрешение видео и расширять границы сцены за пределы исходного кадра.
- Дополнение данных для ИИ: Система может генерировать видео с различными ракурсами, что полезно для обучения моделей искусственного интеллекта, особенно в области робототехники и автономного вождения.
🟡 Github: https://github.com/KwaiVGI/ReCamMaster
🟡 Paper: https://arxiv.org/abs/2503.11647
🟡 Project: https://jianhongbai.github.io/ReCamMaster/
Основные особенности ReCamMaster:
Изменение траектории камеры: Система позволяет перегенерировать видео с новыми движениями камеры, сохраняя исходное содержание и динамику сцены.
Использование предварительно обученных моделей: ReCamMaster использует возможности предварительно обученных текст-видео диффузионных моделей, что обеспечивает высокое качество генерируемых видео.
Создание обучающего набора данных: Для обучения модели был создан крупномасштабный синхронизированный видеодатасет с использованием Unreal Engine 5, включающий разнообразные сцены и движения камеры.
Применения ReCamMaster:
- Стабилизация видео: Система может сглаживать дрожание камеры в видеороликах, создавая более плавные и стабильные кадры.
- Суперразрешение и расширение сцены: ReCamMaster способна повышать разрешение видео и расширять границы сцены за пределы исходного кадра.
- Дополнение данных для ИИ: Система может генерировать видео с различными ракурсами, что полезно для обучения моделей искусственного интеллекта, особенно в области робототехники и автономного вождения.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Оптимизируем работу со Spark и строим рекомендательные системы
Многие рекомендательные системы строятся на Spark, но при обработке больших данных с ним часто возникают проблемы. Кроме этого, это недешевое решение.
На бесплатном вебинаре 15 апреля в 17:00 расскажем, как оптимизировать работу со Spark, и в реальном времени обучим модель, чтобы показать эффективность нашего подхода.
Что еще обсудим
🔹 Как выстроить архитектуру для рекомендательных систем в облаке, On-premise или гибриде.
🔹 Как оптимизировать расходы и работу со Spark.
🔹 Workshop: как в облачном Spark сделать рекомендательную систему для определения степени рисков ишемической болезни сердца.
Кому будет полезен вебинар
⚫️ ML-инженерам.
⚫️ Архитекторам, Data-инженерам, Data-аналитикам.
⚫️ Руководителям ML-направлений и Data-офисов.
Зарегистрироваться
Многие рекомендательные системы строятся на Spark, но при обработке больших данных с ним часто возникают проблемы. Кроме этого, это недешевое решение.
На бесплатном вебинаре 15 апреля в 17:00 расскажем, как оптимизировать работу со Spark, и в реальном времени обучим модель, чтобы показать эффективность нашего подхода.
Что еще обсудим
🔹 Как выстроить архитектуру для рекомендательных систем в облаке, On-premise или гибриде.
🔹 Как оптимизировать расходы и работу со Spark.
🔹 Workshop: как в облачном Spark сделать рекомендательную систему для определения степени рисков ишемической болезни сердца.
Кому будет полезен вебинар
Зарегистрироваться
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
🚀 OmniSVG: Унифицированная модель для генерации сложных векторных графиков
OmniSVG — новая модель, использующая предварительно обученные модели Vision-Language Models (VLMs) для энд-ту-энд генерации сложных и детализированных векторных изображений в формате SVG.
Ключевые особенности OmniSVG:
- Мультимодальность: Способность генерировать SVG на основе текстовых описаний, изображений или их комбинации.
- Эффективность: Преобразование команд и координат SVG в дискретные токены позволяет отделить структурную логику от геометрии, что обеспечивает более эффективное обучение.
- Гибкость: Генерация изображений различной сложности — от простых иконок до детализированных аниме-персонажей.
Вместе с моделью представлен MMSVG-2M — мультимодальный датасет, содержащий 2 миллиона богато аннотированных SVG-объектов, предназначенный для обучения и оценки моделей генерации векторной графики.
🟡 Проект: omnisvg.github.io
🟡 Репозиторий: github.com/OmniSVG/OmniSVG
🟡 Датасет: huggingface.co/OmniSVG
@data_analysis_ml
OmniSVG — новая модель, использующая предварительно обученные модели Vision-Language Models (VLMs) для энд-ту-энд генерации сложных и детализированных векторных изображений в формате SVG.
Ключевые особенности OmniSVG:
- Мультимодальность: Способность генерировать SVG на основе текстовых описаний, изображений или их комбинации.
- Эффективность: Преобразование команд и координат SVG в дискретные токены позволяет отделить структурную логику от геометрии, что обеспечивает более эффективное обучение.
- Гибкость: Генерация изображений различной сложности — от простых иконок до детализированных аниме-персонажей.
Вместе с моделью представлен MMSVG-2M — мультимодальный датасет, содержащий 2 миллиона богато аннотированных SVG-объектов, предназначенный для обучения и оценки моделей генерации векторной графики.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Приглашаем вас на вебинар, посвящённый возможностям решения "Экстрактор 1С", системы Гларус BI, совместных задач.
Основные темы мероприятия:
✔️ Основные инструменты и технологии для выгрузки данных из 1С;
✔️ В чем минусы различных подходов и методов выгрузки данных;
✔️ Экстрактор 1С: эффективное и универсальное решение.
✔️ Зачем нужна BI аналитика бизнесу?
✔️ Разбираем разные мифы, сложившиеся вокруг BI.
✔️ Разбираем как в Glarus BI создать понятный и полезный дашборд за несколько минут.
✔️ С чего начать внедрения BI небольшим компаниям, чтобы избежать лишних потерь времени и денег?
✔️ Разбираем экономику внедрения и эксплуатации BI системы.
✔️ Ответы на вопросы.
Спикеры мероприятия:
📢 Пыстин Степан (технический директор в компании “Денвик Аналитика”)
📢 Козырев Игорь (сооснователь компании "Glarus Digital")
Зарегистрируйтесь на мероприятие по ссылке:
https://pruffme.com/landing/u1257797/tmp1742980942
С нетерпением ждем вас 11 апреля в 13:00 по Мск!
Реклама: ООО "Денвик Аналитика"
ИНН: 1101178666. Erid= 2VtzqusphAh
Основные темы мероприятия:
✔️ Основные инструменты и технологии для выгрузки данных из 1С;
✔️ В чем минусы различных подходов и методов выгрузки данных;
✔️ Экстрактор 1С: эффективное и универсальное решение.
✔️ Зачем нужна BI аналитика бизнесу?
✔️ Разбираем разные мифы, сложившиеся вокруг BI.
✔️ Разбираем как в Glarus BI создать понятный и полезный дашборд за несколько минут.
✔️ С чего начать внедрения BI небольшим компаниям, чтобы избежать лишних потерь времени и денег?
✔️ Разбираем экономику внедрения и эксплуатации BI системы.
✔️ Ответы на вопросы.
Спикеры мероприятия:
📢 Пыстин Степан (технический директор в компании “Денвик Аналитика”)
📢 Козырев Игорь (сооснователь компании "Glarus Digital")
Зарегистрируйтесь на мероприятие по ссылке:
https://pruffme.com/landing/u1257797/tmp1742980942
С нетерпением ждем вас 11 апреля в 13:00 по Мск!
Реклама: ООО "Денвик Аналитика"
ИНН: 1101178666. Erid= 2VtzqusphAh
🔭 Katib — облачное AutoML-решение для Kubernetes. Этот инструмент позволяет автоматизировать подбор гиперпараметров, раннюю остановку обучения и даже поиск нейросетевых архитектур, работая с любыми ML-фреймворками от TensorFlow и PyTorch до XGBoost.
Особенность проекта — интеграция с экосистемой Kubeflow и поддержка различных механизмов оркестрации, включая Argo Workflows и Tekton Pipelines. Проект активно развивается сообществом и уже используется в продакшн-средах.
🤖 GitHub
@data_analysis_ml
Особенность проекта — интеграция с экосистемой Kubeflow и поддержка различных механизмов оркестрации, включая Argo Workflows и Tekton Pipelines. Проект активно развивается сообществом и уже используется в продакшн-средах.
🤖 GitHub
@data_analysis_ml
This media is not supported in your browser
VIEW IN TELEGRAM
Записка на двери: ушёл на One Day Offer для NLP-специалистов — буду поздно и, возможно, с оффером мечты!
19 апреля Сбер приглашает амбициозных спецов стать частью команды стратегии и развития Сбера, чтобы создавать инновации.
Хочешь сказать: «Да, я тот самый автор GigaChat/Llama/Falcon/AI-помощника»?
Велком на One Day Offer!
19 апреля Сбер приглашает амбициозных спецов стать частью команды стратегии и развития Сбера, чтобы создавать инновации.
Хочешь сказать: «Да, я тот самый автор GigaChat/Llama/Falcon/AI-помощника»?
Велком на One Day Offer!
🌟 LMDeploy — высокооптимизированный инструментарий для работы с большими языковыми моделями.
Разработанный командами MMRazor и MMDeploy, LMDeploy проект предлагает комплексный подход к сжатию, развертыванию и обслуживанию LLM.
Благодаря персистентному батчингу, оптимизированным CUDA-ядрам и квантованию KV Cache, сервис демонстрирует до 1.8x более высокую пропускную способность по сравнению с vLLM.
Поддерживаются десятки моделей, включая Llama 3, Qwen, InternLM и Mixtral, а также мультимодальные решения (LLaVA, CogVLM).
🤖 GitHub
@bigdatai
Разработанный командами MMRazor и MMDeploy, LMDeploy проект предлагает комплексный подход к сжатию, развертыванию и обслуживанию LLM.
Благодаря персистентному батчингу, оптимизированным CUDA-ядрам и квантованию KV Cache, сервис демонстрирует до 1.8x более высокую пропускную способность по сравнению с vLLM.
Поддерживаются десятки моделей, включая Llama 3, Qwen, InternLM и Mixtral, а также мультимодальные решения (LLaVA, CogVLM).
🤖 GitHub
@bigdatai
✔️ Проверьте свои знания: пройдите тест по продвинутому инструментарию работы с данными
Успешно ответите на 20 вопросов за 25 минут — сможете поступить на курс «Data Warehouse Analyst» от Otus.
На курсе вы освоите:
- Навыки построения ELT-pipelines: Airflow, Nifi, Airbyte
- Принципы работы аналитических СУБД: Redshift, Greenplum, Clickhouse
- Лучшие практики моделирования данных: dbt, Data Vault
- Визуализацию и BI: Metabase, Superset, DataLens
- Продвинутую аналитику: KPI, Funnels, Marketing Attribution, Cohort, RFM
- DevOps-практики: Continuous Integration, Github Actions
➡️ Начать тестирование: https://otus.pw/74Wgc/?erid=2W5zFH7SvQG
#реклама
О рекламодателе
Успешно ответите на 20 вопросов за 25 минут — сможете поступить на курс «Data Warehouse Analyst» от Otus.
На курсе вы освоите:
- Навыки построения ELT-pipelines: Airflow, Nifi, Airbyte
- Принципы работы аналитических СУБД: Redshift, Greenplum, Clickhouse
- Лучшие практики моделирования данных: dbt, Data Vault
- Визуализацию и BI: Metabase, Superset, DataLens
- Продвинутую аналитику: KPI, Funnels, Marketing Attribution, Cohort, RFM
- DevOps-практики: Continuous Integration, Github Actions
➡️ Начать тестирование: https://otus.pw/74Wgc/?erid=2W5zFH7SvQG
#реклама
О рекламодателе
🤖 Google запускает A2A — новый протокол общения между ИИ-агентами
Google представил Agent2Agent (A2A) — открытый стандарт для обмена задачами между ИИ-агентами в разных сервисах и компаниях.
Это что-то вроде MCP, но с упором на безопасность, мультимодальность и совместимость с корпоративной инфраструктурой.
🔑 Главное:
▪ A2A — task-first: агенты обмениваются не сообщениями, а задачами с жизненным циклом (create, update, cancel, complete).
▪ Автоопределение возможностей: каждый агент публикует JSON-«визитку» с описанием своих способностей (capability discovery).
▪ HTTP, SSE, JSON-RPC — всё работает на веб-стеке, легко встраивается в существующие API.
▪ Поддержка текста, аудио и видео — мультимодальность встроена по умолчанию.
▪ Security-first: в отличие от ранних протоколов (как MCP), здесь продумана авторизация и защита данных.
В теории — это мощный инструмент для автоматизации бизнес-процессов.
На практике — уже критикуют за перегруз и неясные перспективы. Но с ресурсами Google — у проекта есть шанс стать отраслевым стандартом.
📌 Отличие между MCP и A2A:
🧠 MCP (Multi-Agent Communication Protocol) — это:
➡️ Протокол, придуманный, чтобы LLM-агенты могли "болтать" друг с другом.
💬 Основан на сообщениях — один агент пишет другому что-то вроде чата, и тот отвечает.
⚙️ Подходит для простых сценариев: «Скажи это», «Спроси у другого», «Придумай план».
Но:
– Без жёсткой структуры
– Нет встроенной безопасности
– Не поддерживает длинные сложные процессы (например, запланировать и потом отчитаться)
– Не заточен под задачи типа "запусти и следи"
🧠 A2A (Agent2Agent) — это:
➡️ Google-версия MCP, но с упором на бизнес и инфраструктуру.
📦 Вместо чатов — структурированные задачи, у которых есть статусы: created, accepted, completed, failed, cancelled.
📛 Поддерживает авторизацию, описание возможностей агента, обратную связь, долгие процессы, аудио и видео.
Проще говоря:
– MCP — это «чат между ИИ»
– A2A — это «Jira для агентов» — задачи, статусы, ролевая модель, безопасность.
google.github.io/A2A
#Google #A2A #agents #AI #protocols #interop #infrastructure
Google представил Agent2Agent (A2A) — открытый стандарт для обмена задачами между ИИ-агентами в разных сервисах и компаниях.
Это что-то вроде MCP, но с упором на безопасность, мультимодальность и совместимость с корпоративной инфраструктурой.
🔑 Главное:
▪ A2A — task-first: агенты обмениваются не сообщениями, а задачами с жизненным циклом (create, update, cancel, complete).
▪ Автоопределение возможностей: каждый агент публикует JSON-«визитку» с описанием своих способностей (capability discovery).
▪ HTTP, SSE, JSON-RPC — всё работает на веб-стеке, легко встраивается в существующие API.
▪ Поддержка текста, аудио и видео — мультимодальность встроена по умолчанию.
▪ Security-first: в отличие от ранних протоколов (как MCP), здесь продумана авторизация и защита данных.
В теории — это мощный инструмент для автоматизации бизнес-процессов.
На практике — уже критикуют за перегруз и неясные перспективы. Но с ресурсами Google — у проекта есть шанс стать отраслевым стандартом.
📌 Отличие между MCP и A2A:
🧠 MCP (Multi-Agent Communication Protocol) — это:
➡️ Протокол, придуманный, чтобы LLM-агенты могли "болтать" друг с другом.
💬 Основан на сообщениях — один агент пишет другому что-то вроде чата, и тот отвечает.
⚙️ Подходит для простых сценариев: «Скажи это», «Спроси у другого», «Придумай план».
Но:
– Без жёсткой структуры
– Нет встроенной безопасности
– Не поддерживает длинные сложные процессы (например, запланировать и потом отчитаться)
– Не заточен под задачи типа "запусти и следи"
🧠 A2A (Agent2Agent) — это:
➡️ Google-версия MCP, но с упором на бизнес и инфраструктуру.
📦 Вместо чатов — структурированные задачи, у которых есть статусы: created, accepted, completed, failed, cancelled.
📛 Поддерживает авторизацию, описание возможностей агента, обратную связь, долгие процессы, аудио и видео.
Проще говоря:
– MCP — это «чат между ИИ»
– A2A — это «Jira для агентов» — задачи, статусы, ролевая модель, безопасность.
google.github.io/A2A
#Google #A2A #agents #AI #protocols #interop #infrastructure
Дружелюбная встреча для аналитиков от команды Международных проектов Яндекс Поиска.
Приходите в штаб-квартиру Яндекса "Красная Роза" 13 апреля — мы расскажем, как устроена команда Международных проектов Поиска, из чего в ней состоит аналитика и каким образом с этим связаны Яндекс Игры.
В финале встречи эксперты из Яндекса проведут для участников диагностику навыков аналитики и математической статистики — если пройдете успешно, мы засчитаем это как успешную техническую секцию при собеседовании в Яндекс.
Зарегистрироваться на Welcome Time для аналитиков можно здесь до 12 апреля
Приходите в штаб-квартиру Яндекса "Красная Роза" 13 апреля — мы расскажем, как устроена команда Международных проектов Поиска, из чего в ней состоит аналитика и каким образом с этим связаны Яндекс Игры.
В финале встречи эксперты из Яндекса проведут для участников диагностику навыков аналитики и математической статистики — если пройдете успешно, мы засчитаем это как успешную техническую секцию при собеседовании в Яндекс.
Зарегистрироваться на Welcome Time для аналитиков можно здесь до 12 апреля
This media is not supported in your browser
VIEW IN TELEGRAM
reTermAI — это умный ассистент для zsh и bash, который подсказывает команды прямо в терминале на основе вашей истории.
Полезно, если часто забываешь синтаксис или хочешь ускорить работу с CLI.
🚀 Что умеет:
▪ ИИ-рекомендации команд по истории
▪ Поддержка частичного ввода
▪ Выбор LLM (можно подключить свой)
▪ Гибкая адаптация под рабочий процесс
▪ Совместим с zsh и bash
📦 Установил — и терминал стал умнее.
Отличный инструмент для девелоперов, админов и всех, кто живёт в консоли.
pip install reterm-ai
🔗 Github
#terminal #cli #bash #zsh #LLM #opensource #reTermAI #ai
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🤖 InternVL 3 — новый мощный мульти-модальный ИИ от OpenGVLab!
✨ Доступны размеры 1B / 2B / 8B / 9B / 14B / 28B / 38B
📌 Что нового:
- Улучшено восприятие и логика по сравнению с InternVL 2.5
- Нативное мультимодальное обучение улучшает язык
- Построен на InternViT encoder + Qwen2.5VL decoder
- Улучшает даже Qwen2.5VL
🧠 Что умеет:
- Рассуждение в мультимодальном виде
- Работа с документами
- Поддержка ИИ агентов
🔓 MIT License
🔗 Подробнее
✨ Доступны размеры 1B / 2B / 8B / 9B / 14B / 28B / 38B
📌 Что нового:
- Улучшено восприятие и логика по сравнению с InternVL 2.5
- Нативное мультимодальное обучение улучшает язык
- Построен на InternViT encoder + Qwen2.5VL decoder
- Улучшает даже Qwen2.5VL
🧠 Что умеет:
- Рассуждение в мультимодальном виде
- Работа с документами
- Поддержка ИИ агентов
🔓 MIT License
🔗 Подробнее
🚀 Нативная поддержка Python в CUDA от NVIDIA!
Теперь можно писать CUDA-код напрямую на Python — без C++ и сторонних обёрток.
▪ Новый API от NVIDIA позволяет взять полный контроль над GPU из Python
▪ Поддержка cuNumeric, RAPIDS, Modulus, и др.
▪ Основано на CPython API — без прослоек
🎯 Что это меняет:
- Снижает барьер входа в GPU-разработку
- Упрощает создание ML и Data Science-проектов
- Открывает возможности для оптимизации
🧠 Python на GPU теперь без компромиссов!
🔗 Подробнее
Теперь можно писать CUDA-код напрямую на Python — без C++ и сторонних обёрток.
▪ Новый API от NVIDIA позволяет взять полный контроль над GPU из Python
▪ Поддержка cuNumeric, RAPIDS, Modulus, и др.
▪ Основано на CPython API — без прослоек
🎯 Что это меняет:
- Снижает барьер входа в GPU-разработку
- Упрощает создание ML и Data Science-проектов
- Открывает возможности для оптимизации
🧠 Python на GPU теперь без компромиссов!
🔗 Подробнее