Telegram Web Link
Почему модель, обученная с L1-регуляризацией, может приводить к более интерпретируемым результатам по сравнению с L2-регуляризацией?

🔹 L1-регуляризация (Lasso) добавляет к функции потерь сумму модулей весов, что способствует обнулению некоторых из них. Это приводит к разреженности модели — многие параметры становятся нулевыми, оставляя только значимые признаки. В результате модель становится проще и легче интерпретируется.

🔹 L2-регуляризация (Ridge) добавляет сумму квадратов весов, но не зануляет их, а только уменьшает. Это делает модель более устойчивой к шуму, но не позволяет выявить наименее значимые признаки.

📌 L1-регуляризация действует как механизм автоматического отбора признаков, что упрощает интерпретацию модели. L2, в свою очередь, помогает сглаживать веса, но не делает модель разреженной.
Почему глубокие нейросети могут переобучаться, даже если количество данных огромное

🔹 Избыточная параметризация — современные нейросети содержат миллионы (или даже миллиарды) параметров, что позволяет им запоминать данные вместо обобщения.

🔹 Коррелированные признаки — если данные содержат мало информативных или избыточных признаков, модель может подстроиться под шум, а не выделить полезные закономерности.

🔹 Смещение в данных — если тренировочные данные недостаточно разнообразны или не представляют реальный мир, сеть может слишком хорошо подстроиться под них, но плохо работать на новых примерах.

🔹 Отсутствие регуляризации — методы вроде L1/L2-регуляризации, dropout и batch normalization помогают бороться с переобучением, но если они не используются, сеть может переобучиться даже на больших данных.
Какая функция потерь используется в процессе обучения сети на изображении

В процессе обучения используется комбинированная функция потерь, которая представляет собой взвешенное среднее из:

🔹 Style loss (потеря стиля) — оценивает, насколько хорошо сгенерированное изображение соответствует стилю эталонного изображения.

🔹 Content loss (потеря содержимого) — следит за тем, чтобы сгенерированное изображение сохраняло ключевые структуры оригинального контента.
🐳 DeepSeek-R1 — очередной значительный шаг в развитии ИИ. Для сообщества ML-разработчиков и исследователей этот релиз важен по двум причинам:

👉 Это модель с открытыми весами, имеющая уменьшенные, дистиллированные версии.
👉 Она использует и анализирует метод обучения, который позволяет воспроизвести модель рассуждений, подобную OpenAI o1.

Разберемся, как происходило обучение DeepSeek-R1: https://proglib.io/sh/SwVUWXrFN3
Как классическая классификация ML помогает в реальном мире

🤖 Классификация в ML — это метод обучения, в котором модель обучается на размеченных данных и предсказывает, к какому классу относится новый объект.

Фильтрация спама – чтобы в почте оставалось только важное.
Рекомендации фильмов – Netflix знает, что ты любишь!
Кредитный скоринг – банки решают, дать ли тебе займ.
Предсказание мэтчей – как на нашем вебинаре по speed dating.

14 февраля мы разберём на практике задачу классификации:

- Как выбрать оптимальные признаки

- Что делать с несбалансированными данными

- Как интерпретировать результаты модели

🔥 Если уже работаешь с ML или только начинающий программист – приходи на наш вебинар, в котором мы разберем «как предсказывать мэтч на speed dating» .

Приходи!
Правда или Ложь: высокий информационный выигрыш при разбиении ухудшает точность модели (дерева решений)?

Ответ: Правда. Хотя высокий информационный выигрыш означает значительное уменьшение неопределенности, он также может привести к переобучению. В этом случае дерево слишком точно подстраивается под обучающую выборку, теряя способность обобщать закономерности на новых данных.
Почему в глубоких нейросетях используют функции активации, такие как ReLU, вместо линейных

Если в каждой нейронной связи использовать только линейные преобразования, вся сеть сводится к одной линейной функции, независимо от количества слоев. Это делает нейросеть неспособной моделировать сложные нелинейные зависимости.

🔹 ReLU (Rectified Linear Unit) и другие нелинейные функции помогают сети изучать сложные представления и разделять данные в многомерном пространстве.
Каковы преимущества и ограничения метода SVM с использованием нелинейных ядер

В отличие от линейного SVM, использование ядра позволяет проекцировать данные в пространство более высокой размерности, где они могут стать линейно разделимыми.

Преимущества:
Обработка нелинейных данных: ядра позволяют эффективно решать задачи, где данные не могут быть разделены линейно.
Гибкость: разнообразие ядер делает SVM универсальным инструментом для различных типов задач.

Ограничения:
🚫 Выбор ядра и параметров: требует тщательной настройки, что может быть трудоемким процессом.
🚫 Вычислительные затраты: для большИх данных SVM с ядром может быть медленным и требовать бОльших вычислительных ресурсов.
Почему уменьшение ошибки на обучающей выборке не всегда приводит к лучшей обобщающей способности модели

Это может быть признаком переобучения. Когда модель слишком хорошо подстраивается под обучающие данные, она начинает запоминать их, а не учиться выделять общие закономерности. В результате на тестовой выборке её точность падает.

🔍 Как избежать? Используйте регуляризацию (L1/L2), кросс-валидацию, добавляйте больше данных или применяйте техники увеличения данных (data augmentation).
Как изменить предобученную нейросеть с классификации на регрессию

Ответ: используем transfer learning — перенос знаний с одной задачи на другую.

Что делаем?
🔹 Заменяем последний полносвязный слой и Softmax (отвечающий за классификацию) на один нейрон (или новый полносвязный слой) для регрессии.
🔹 Опционально замораживаем первые слои, если данных мало или нужна быстрая сходимость.
🔹 Обучаем сеть на новых данных с функцией потерь для регрессии.

Таким образом, мы сохраняем мощные фичи первых слоев, обученные на огромных датасетах, но адаптируем выход под задачу регрессии.
🐳 Делаем конкурента DeepSeek R1-Zero на домашней пекарне: метод GRPO в Unsloth

Обычно LLM требуют мощных GPU, но теперь даже на видеокарте с ограниченной памятью можно обучать модели логического рассуждения.

💡 Фишка — новый алгоритм GRPO, который позволяет моделям развивать логическое мышление без вмешательства человека.

Подробнее в нашей статье: https://proglib.io/sh/MyBCbq9is5
Можно ли использовать CNN для классификации 1D-сигнала

Да, но есть нюансы.
Для временных рядов чаще применяют рекуррентные сети (RNN), так как они учитывают последовательность данных. Однако сверточные сети (CNN) тоже могут быть полезны, особенно если важны повторяющиеся шаблоны в сигнале.

🔹 CNN — хорошо распознают локальные закономерности через скользящие окна.
🔹 RNN — учитывают временную зависимость между значениями.
🔹 QRNN — гибридный подход, объединяющий преимущества CNN и RNN.

Выбор зависит от задачи и структуры данных!
Правда или ложь: градиентный спуск гарантированно найдёт локальный минимум, если шаг обучения уменьшается правильно, а минимум конечен.

💡 Ответ: правда

Но есть нюанс: градиентный спуск не гарантирует нахождение глобального минимума. В сложных функциях он может застрять в локальных минимумах или седловых точках.
Самые полезные каналы для программистов в одной подборке!

Сохраняйте себе, чтобы не потерять 💾

🔥Для всех

Библиотека программиста — новости, статьи, досуг, фундаментальные темы
Книги для программистов
IT-мемы
Proglib Academy — тут мы рассказываем про обучение и курсы
Азбука айтишника — здесь мы познаем азы из мира программирования

🤖Про нейросети
Библиотека робототехники и беспилотников | Роботы, ИИ, интернет вещей
Библиотека нейрозвука | Транскрибация, синтез речи, ИИ-музыка
Библиотека нейротекста | ChatGPT, Gemini, Bing
Библиотека нейровидео | Sora AI, Runway ML, дипфейки
Библиотека нейрокартинок | Midjourney, DALL-E, Stable Diffusion

#️⃣C#

Книги для шарпистов | C#, .NET, F#
Библиотека шарписта — полезные статьи, новости и обучающие материалы по C#
Библиотека задач по C# — код, квизы и тесты
Библиотека собеса по C# — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Вакансии по C#, .NET, Unity Вакансии по PHP, Symfony, Laravel

☁️DevOps

Библиотека devops’а — полезные статьи, новости и обучающие материалы по DevOps
Вакансии по DevOps & SRE
Библиотека задач по DevOps — код, квизы и тесты
Библиотека собеса по DevOps — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования

🐘PHP

Библиотека пхпшника — полезные статьи, новости и обучающие материалы по PHP
Вакансии по PHP, Symfony, Laravel
Библиотека PHP для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по PHP — код, квизы и тесты

🐍Python

Библиотека питониста — полезные статьи, новости и обучающие материалы по Python
Вакансии по питону, Django, Flask
Библиотека Python для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Python — код, квизы и тесты

Java

Книги для джавистов | Java
Библиотека джависта — полезные статьи по Java, новости и обучающие материалы
Библиотека Java для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Java — код, квизы и тесты
Вакансии для java-разработчиков

👾Data Science

Книги для дата сайентистов | Data Science
Библиотека Data Science — полезные статьи, новости и обучающие материалы по Data Science
Библиотека Data Science для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Data Science — код, квизы и тесты
Вакансии по Data Science, анализу данных, аналитике, искусственному интеллекту

🦫Go

Книги для Go разработчиков
Библиотека Go разработчика — полезные статьи, новости и обучающие материалы по Go
Библиотека Go для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Go — код, квизы и тесты
Вакансии по Go

🧠C++

Книги для C/C++ разработчиков
Библиотека C/C++ разработчика — полезные статьи, новости и обучающие материалы по C++
Библиотека C++ для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по C++ — код, квизы и тесты
Вакансии по C++

💻Другие каналы

Библиотека фронтендера
Библиотека мобильного разработчика
Библиотека хакера
Библиотека тестировщика
Библиотека разработчика игр | Gamedev, Unity, Unreal Engine
Вакансии по фронтенду, джаваскрипт, React, Angular, Vue
Вакансии для мобильных разработчиков
Вакансии по QA тестированию
InfoSec Jobs — вакансии по информационной безопасности

📁Чтобы добавить папку с нашими каналами, нажмите 👉сюда👈

Также у нас есть боты:
Бот с IT-вакансиями
Бот с мероприятиями в сфере IT

Мы в других соцсетях:
🔸VK
🔸YouTube
🔸Дзен
🔸Facebook *
🔸Instagram *

* Организация Meta запрещена на территории РФ
⚠️ В машинном обучении, как в любви: слишком идеальные предсказания – это подозрительно!

Когда модель слишком прилипчива к тренировочным данным, результат оказывается… ну, как в отношениях, когда всё кажется идеальным, но реальность ломает сердце.

Оверфиттинг (Overfitting) – модель так хорошо запомнила тренировочные данные, что на реальных данных начинает путаться.
💔 В любви: «Я выбрал идеального партнёра по профилю, а в жизни выяснилось, что его «идеальность» – всего лишь иллюзия!»

Андерфиттинг (Underfitting) – модель обучена настолько поверхностно, что предсказывает мэтчи случайным образом.
💔 В любви: «Мне нравятся только люди с именем Александр, а всех остальных я даже не замечаю – бедный фильтр!»

Неправильный выбор фичей (Feature Selection Fail) – если модель опирается на неважные признаки, она предсказывает мэтчи хуже случайности.
💔 В любви: «Ты любишь авокадо? Значит, мы созданы друг для друга!» – а потом оказывается, что это вовсе не про важное.

🎯 На вебинаре мы разобрали, как избежать этих ошибок и создать работающую модель для speed dating, которая на самом деле помогает находить любовь! Вчера мы не просто говорили о любви – мы её предсказывали!

🔥 Спасибо всем, кто был с нами и участвовал!

💘 Как же это было?

Если ты пропустил вебинар или хочешь пересмотреть запись – просто перейди по [ссылке] и получи видео 😉
Почему RMSE и MAE могут давать разную оценку качества модели

RMSE (Root Mean Squared Error) и MAE (Mean Absolute Error) — это две популярные метрики регрессии, но они ведут себя по-разному при наличии выбросов.

🔹 MAE — это средняя абсолютная ошибка, измеряет среднее отклонение предсказаний от истинных значений. Она линейно реагирует на ошибки, то есть один большой выброс не окажет значительного влияния.
🔹 RMSE — это корень из среднеквадратичной ошибки, которая квадратично увеличивает вклад больших ошибок. Это значит, что RMSE сильнее наказывает за крупные выбросы, чем MAE.

📊 Пример:
Если у вас есть предсказания: [2, 3, 4, 5, 100] при истинных значениях [2, 3, 4, 5, 6],
то MAE ≈ 18, а RMSE ≈ 40. RMSE выросло сильнее из-за большого выброса в 100.
Как работает градиентный бустинг, и в чем его преимущества перед классическим бустингом

Ответ:
Градиентный бустинг (Gradient Boosting) — это ансамблевый метод, в котором слабые модели (обычно деревья решений) обучаются последовательно, и каждая следующая модель корректирует ошибки предыдущей. В отличие от классического бустинга (AdaBoost), градиентный бустинг минимизирует функцию потерь с помощью градиентного спуска.

Как работает:
▪️ Первая модель обучается на исходных данных.
▪️ Далее вычисляется остаточная ошибка (разница между предсказанными и реальными значениями).
▪️ Следующая модель обучается на этой ошибке, пытаясь её минимизировать.
▪️ Процесс повторяется, и все модели комбинируются для финального предсказания.
Что такое трансформеры (Transformers) в машинном обучении, и чем они отличаются от рекуррентных нейронных сетей (RNN)

✔️ Трансформеры — это архитектура нейросетей, основанная на механизме само внимания (self-attention), которая эффективно обрабатывает последовательности данных, такие как текст. Они стали основой моделей NLP, включая BERT и GPT.

Отличия от RNN:
1. Параллелизм — в отличие от RNN, трансформеры могут обрабатывать все токены одновременно, а не последовательно, что ускоряет обучение.
2. Долгосрочные зависимости — механизм само внимания позволяет учитывать контекст из любых частей последовательности, тогда как RNN страдают от проблемы затухающих градиентов.
2025/02/23 21:33:00
Back to Top
HTML Embed Code: