Telegram Web Link
Когда потратил 3 часа на отладку сгенерированного кода, который написал бы за час.

@data_analysis_ml
⚡️ Pydoll — это библиотека на Python, предназначенная для автоматизации браузеров на движке Chromium (Chrome и Microsoft Edge) без использования WebDriver.

Инструмент имитирует «реальные» действия пользователя и обеспечивает гибкость при работе с элементами интерфейса и сетевыми запросами.

🔗 Ключевые особенности
- Асинхронная автоматизация без WebDriver

- Позволяет обойтись без установки и настройки драйверов WebDriver, что упрощает процесс интеграции и обслуживания.

- Реализована на базе asyncio, поэтому поддерживает запуск нескольких задач одновременно.

- Обход Cloudflare Turnstile

- Имеется встроенный механизм для автоматического прохождения CAPTCHA:

- Синхронная блокировка (context manager), когда выполнение кода приостанавливается до момента решения задачи.

- Фоновый режим (non-blocking), когда автоматизация продолжает работу, пока CAPTCHA решается в фоне.

- Поддерживает «человеко-подобный» набор текста (имитация пауз, скорости).

- Распознаёт специальные клавиши и сочетания клавиш (нажатия SHIFT, CTRL, ALT и т.д.).

- Подключение к существующим сессиям

- Можно подсоединяться к уже запущенным экземплярам Chrome или Edge, что удобно для отладки или интеграции с имеющимися сессиями пользователя.

Благодаря отсутствию необходимости в WebDriver и возможности имитировать взаимодействие «как настоящий пользователь», Pydoll будет полезен в проектах, где требуется гибкая и реалистичная автоматизация.

📌 Github


@data_analysis_ml
🎥 Минутное видео по тексту? Новый подход к генерации от исследователей!

Генерация длинных видео — всё ещё вызов для ИИ. Self-attention не тянет по скорости, Mamba — по сложности сюжета. Но тут на сцену выходят TTT-слои (Test-Time Training) — и делают шаг вперёд.

🧠 В чём суть: — TTT-слои умеют использовать выразительные скрытые состояния, которые сами являются нейросетями.
— Их добавляют в уже обученный трансформер — и он начинает генерировать минутные видео по текстовому сценарию с плавным движением и логичной историей.
— Проверяли на мультстиле Tom & Jerry — и получили +34 Elo-балла в человеческой оценке по сравнению с Mamba 2 и другими сильными базовыми методами.

ИИ уже близок к тому, чтобы полностью воспроизводить стили старых мультфильмов или аниме. Это может кардинально изменить производство анимации — вместо создания вручную, студии смогут "дообучать" модель и просто писать сценарии.

Прикрепленное минутное видео, было создано с помощью промпта и обучено на сотнях часов Тома и Джерри.

Вот его полный промпт.

⚠️ Да, пока есть артефакты и ограничения — модель на 5B параметров и только минутные ролики. Но подход уже выглядит перспективным.

Следим за развитием.

📌Demos: http://test-time-training.github.io/video-dit/
📌Paper: http://test-time-training.github.io/video-dit/assets/ttt_cvpr_2025.pdf
📌Github: https://github.com/test-time-training/ttt-video-dit

@data_analysis_ml
📊Бесплатный вебинар: «Построение эффективных дашбордов с помощью Power BI» 

💡На вебинаре вы узнаете:
+ Как загрузить данные в Power BI Desktop из различных источников 

+ Построение наглядных дашбордов для анализа данных 

+ Интерактивные возможности в Power BI - взаимодействие с визуальными элементами 

+ Применение базовых визуальных элементов и их настройка для лучшего понимания данных 

+ На практике вместе построим дашборд в Power BI

Кому будет полезен вебинар:
- Аналитикам данных
- Маркетологам
- Продуктовым менеджерам
- Всем, кто хочет визуализировать данные для принятия решений

16 апреля(среда) в 20:00 мск

Вебинар в рамках курса «BI-аналитика»
🎁После вебинара для вас активен промо-код со скидкой 5% до 18 мая: BI_04

👉Регистрация на вебинар: OTUS.RU

Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576

#реклама
О рекламодателе
🕊️ Namsor - это ИИ для анализа имен собственных с лингвистическим интеллектом. Причем это не просто классификатор, а инструмент с глубоким пониманием культурных и лингвистических контекстов.

Проект удивляет точностью: он различает, является ли "Mercedes фамилией человека, названием города или автомобильным брендом, учитывая страну происхождения.

Технология особенно востребована в CRM-системах, соцсетях и базах данных, где критична корректная интерпретация имен.

🔗 Ссылка - *клик*
Forwarded from Machinelearning
📌 SPCT: масштабируемость моделей вознаграждения в реальном времени.

DeepSeek-AI и Университет Цинхуа опубликовали исследование о методе Self-Principled Critique Tuning (SPCT), который значительно повышает эффективность генеративных моделей вознаграждения (GRM) для больших языковых моделей. SPCT решает ключевую проблему RL-обучения — получение точных сигналов вознаграждения в условиях разных и неоднозначных задач, где нет четких правил или эталонов.

SPCT — это комбинация rejective fine-tuning и обучения с подкреплением на основе правил. Rejective fine-tuning учит модель генерировать принципы и критические оценки, адаптируясь к разным типам входных данных, а rule-based RL — оптимизирует процесс через систему поощрений, которая штрафует за ошибки в ранжировании ответов.

Это позволяет GRM самостоятельно создавать критерии оценки и точнее определять лучшие ответы в сложных сценариях, например, при работе с математическими задачами или этическими дилеммами.

Главное преимущество SPCT — масштабируемость инференса. Вместо увеличения размера модели авторы предлагают параллельно генерировать множество вариантов принципов и оценок, а затем агрегировать их через голосование. Чтобы фильтровать «шумные» варианты используется мета-модель вознаграждения, которая отбирает только качественные сэмплы.

По результатам тестов, DeepSeek-GRM с 27 млрд. параметров при 32 параллельных сэмплах превзошла 671B модель, демонстрируя, что вычислительные ресурсы можно эффективно распределять во время инференса, а не обучения.

Эксперименты на бенчмарках Reward Bench, PPE и RMB показали, что SPCT снижает предвзятость моделей. Например, в задачах на рассуждение точность выросла на 12%, а в оценке безопасности — на 9%. При этом метод сохраняет гибкость: одна и та же модель может оценивать одиночные ответы, пары или целые наборы, что критично для реальных приложений вроде чат-ботов или автономных систем.

К сожалению, идеальных решений не бывает и у метода есть существенное ограничение - GRM требуют больше вычислительных ресурсов, чем классические скалярные модели, а в узкоспециализированных областях (например, верификация кода) их точность пока уступает конкурентам.


🟡Arxiv


@ai_machinelearning_big_data

#AI #ML #LLM #GRM #DeepSeekAI
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 Вайб-кодинг — хайп или инструмент будущего?

Программирование с помощью ИИ-агентов — главный тех-тренд последних месяцев.

Одни говорят: «Это лучший опыт в моей жизни».

Другие: «Я только и делаю, что дебажу то, чего сам не писал».

Хочешь по-настоящему разобраться, как использовать ИИ ?

14 апреля в 17:00 — онлайн-лекция от Школы Высшей Математики.

📌 Спикеры: 👨‍🏫 Александр Лыков, к.ф.-м.н., руководитель ШВМ

🟡 Богдан Печёнкин, фаундер Vibe AI

Расскажут и покажут:
Как внедрять Copilot, ChatGPT, Cursor и других агентов в работу уже сейчас
Что агенты реально умеют (и где они сыпятся)
Как ускорить разработку в 10 раз, не потеряв контроль над кодом

Не пропусти. Это будет 🔥

🗓 14 апреля, 17:00
📍 Онлайн

🟡 Регистрация

Реклама: ООО «Школа высшей математики»
ИНН: 9728100991 Erid: 2VtzqwE7sw7
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 SmolVLM — маленький, но мощный мультимодальный прорыв.

Сегодня вышел технический отчёт о SmolVLM — ультра-компактной VLM-модели (всего 256M параметров), которая работает в менее чем 1 ГБ ОЗУ и обходит старые модели 80B, выпущенные полтора года назад!

📏 Контекст — это наше всё: Увеличение длины контекста с 2K до 16K дало +60% к качеству. Даже маленькие модели выигрывают от увелечения памяти.

🔬 SigLIP: меньше — лучше: Вместо классического 400M SigLIP авторы использовали базовую 80M версию — и получили тот же результат при 20% размера.

🧩 Pixel shuffling : Аggressive pixel shuffling помог сократить длину последовательностей в 16 раз без потери качества.

📍 Learnable positional tokens > raw tokens: В маленьких моделях обучаемые позиционные токены дали значительный прирост точности.

🎬 Спец-токены: Специальные "intro/outro" токены и системные промпты дали буст особенно для задач работы видео.

🧠 CoT — с умом: Слишком много Chain-of-Thought данных ухудшает результаты маленьких моделей. Меньше = умнее.

📽 Длиннее видео = лучше: Увеличение длины видео во время обучения улучшило понимание и изображений, и видео.

🚀 SmolVLM — это:
Три версии: 256M, 500M, 2.2B — каждая задаёт новую планку для low-resource inference.

Real-time inference на iPhone 15 — прямо с камеры, без серверов.

В браузере? Да! 40–80 токенов/сек — напрямую в вебе, без ухищрений.

📄 Подробности в репорте

#SmolVLM #EfficientAI #Multimodal #VLM #EdgeAI #SigLIP #AIonMobile
⚡️Как Docker упрощает жизнь аналитиков и инженеров данных

Когда вы работаете с данными, анализируете их или строите модели машинного обучения, Docker позволяет сосредоточиться на самой работе, не отвлекаясь на настройку окружения.

На бесплатном вебинаре вы научитесь упаковывать приложения вместе со всеми зависимостями, избегать проблем с несовместимостью, а значит и повысите эффективность работы и сэкономите время на настройку окружения.

Что будем делать на вебинаре:
🟠Разберём основы Docker и как контейнеры упрощают работу;
🟠Выполним анализ данных, запустив Python прямо внутри контейнера;
🟠Автоматизируем окружение с помощью Docker Compose (Python + PostgreSQL);
🟠Настроим удобный доступ к результатам анализа;
🟠Организуем ускоренную обработку больших данных.

😶Зарегистрироваться на бесплатный вебинар
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
✔️ LAM: Official Pytorch Implementation

LAM (Large Avatar Model) — это новая методика для восстановления анимируемой «Гауссовой» 3D-модели головы по одной-единственной фотографии.

В отличие от предыдущих подходов, которые либо требуют долгого обучения на видео, либо задействуют вспомогательные нейросети на этапе анимации и рендеринга, LAM позволяет получить готовую к анимации и модель визуализации головы за один проход сети, без дополнительной постобработки и внешних модулей.

В основе метода лежит генератор «гауссовых атрибутов» для канонического пространства, который использует ключевые точки FLAME (модель лица) в качестве запросов. Эти точки проходят через Транспортеров, взаимодействуя с многомасштабными признаками исходного изображения, чтобы точно определить параметры «Гауссовых» элементов модели.

Дальше 3D-модель головы анимируется стандартным Linear Blend Skinning (LBS) с корректирующими blendshape-функциями — как в оригинальной FLAME-модели — и может рендериться в реальном времени практически на любых устройствах, вплоть до мобильных телефонов.

Эксперименты показывают, что LAM превосходит существующие методы на ряде публичных бенчмарков, обеспечивая точное восстановление, высокую реалистичность анимации и удобную интеграцию в существующие конвейеры рендеринга.

Github
Project

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
🌟 Deep Cogito представила серию языковых моделей с открытым исходным кодом.

Deep Cogito выпустила семейство языковых моделей размером 3B, 8B, 14B, 32B и 70B параметров, которые уже доступны для загрузки.

По заявлению разработчиков, их модели превосходят аналогичные открытые решения от LLaMA, DeepSeek и Qwen в большинстве стандартных бенчмарков. Например, 70B-версия обходит новую 109B MoE-модель Llama 4, несмотря на меньший размер.

Все модели обучены с помощью метода Iterated Distillation and Amplification (IDA) — стратегии, которая сочетает итеративное самоулучшение и «сжатие» интеллекта для преодоления ограничений, накладываемых человеческим контролем.

Суть IDA проста: сначала модель «усиливает» свои способности, тратя больше вычислительных ресурсов на поиск решений через CoT, а затем «дистиллирует» эти улучшения в свои параметры. Такой цикл повторяется, создавая петлю обратной связи — каждая итерация делает модель умнее, а её мышление эффективнее. По словам команды, этот подход не только масштабируем, но и быстрее, чем RLHF.

Семейство поддерживает 2 режима работы: стандартный (прямой ответ) и «рефлексивный», где система сначала обдумывает запрос, как это реализовано в Claude 3.7. Они оптимизированы для программирования, вызова функций и агентских сценариев, но без акцента на CoT — разработчики считают, что короткие шаги эффективнее в реальных задачах.

Уже в ближайшие месяцы ожидаются версии на 109B, 400B и 671B параметров и вариации с MoE-архитектурой.

Модели доступны на Hugging Face, Ollama и через API Fireworks AI/Together AI.

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Хотите разбираться в Big Data так, как это делают специалисты Яндекса? Тогда присоединяйтесь к бесплатному интенсиву ШАДа Big DWH Week!

Вас ждёт 8 онлайн-занятий, на которых вы познакомитесь с YTsaurus — платформой для распределённого хранения и обработки данных. Вы разберётесь в её архитектуре и масштабировании, а также научитесь настраивать систему под свои задачи.

Интенсив открытый, поэтому зарегистрироваться может каждый. Однако интереснее всего программа будет тем, кто уже работает с данными: опытным бэкенд-разработчикам и разработчикам баз данных, инженерам и аналитикам данных, а также студентам технических направлений.

Регистрируйтесь до 25 апреля и прокачивайтесь в Big Data вместе с экспертами Яндекса и ШАДа! Все подробности — по ссылке.
✔️ Nomic Embed Multimodal 7B: новая мультимодальная модель эмбедингов с открытым исходным кодом для текста, изображений, PDF-файлов и графиков.

- SOTA визуального поиска документов
- Два варианта ((Colbert + dense models)
- Открытые веса, код и данные
- Лицензия Apache 2.0

🟡Models: https://huggingface.co/collections/nomic-ai/nomic-embed-multimodal-67e5ddc1a890a19ff0d5807
🟡Docs: https://docs.nomic.ai/atlas/embeddings-and-retrieval/guides/pdf-rag-with-nomic-embed-multimodal
🟡Colab: https://colab.research.google.com/github/nomic-ai/cookbook/blob/main/guides/pdf-rag-nomic-embed-multimodal.ipynb
🟡Code & training data: https://github.com/nomic-ai/contrastors/
Please open Telegram to view this post
VIEW IN TELEGRAM
Только посмотрите, кто у нас тут на подходе! 🐐

https://github.com/ggml-org/llama.cpp/pull/12828

@data_analysis_ml
Летняя школа аналитиков-разработчиков Яндекса: набор открыт

В этом году впервые можно выбрать направление для углубленного изучения — Data Engineering или Data Science. В течение всего лета вы сможете изучать инструменты анализа данных и научитесь применять их на практике.

Со 2 июня по 27 июля участников ждут занятия в онлайне, а с 28 июля по 24 августа — работа в фулстек-командах офлайн в офисах Яндекса или онлайн.

Что нужно знать?

Основы программирования на Python
Как решать прикладные задачи с использованием любого диалекта SQL или Pandas
Базу теории вероятностей и математической статистики

По итогам прохождения интенсива, вы сможете попасть на стажировку или получить оффер. По статистике, более половины стажеров переходят в штат компании.

Не откладывайте — регистрация открыта до 27 апреля. Подать заявку можно здесь.
📦 Skops — проект, предлагающий альтернативу стандартному pickle для работы с моделями scikit-learn.

Skops позволяет безопасно сохранять и загружать ML-модели, избегая рисков, связанных с выполнением произвольного кода.

Особый интерес представляет встроенный функционал для создания model cards — документов, объясняющих назначение и особенности моделей.

🤖 GitHub
2025/04/15 02:24:40
Back to Top
HTML Embed Code: