Telegram Web Link
Объясните, как работает градиентный бустинг на примере задачи регрессии?

Градиентный бустинг — это мощный ансамблевый метод, который комбинирует предсказания нескольких моделей, обучая их последовательно. Часто в качестве базовых моделей выступают деревья решений. Суть метода в том, что каждая новая модель пытается исправить ошибки предыдущих, приближаясь к идеальному результату шаг за шагом.

▪️Сначала строится базовая модель, дающая простое предсказание целевой переменной. На этом этапе, конечно, модель далека от идеала. Мы измеряем, насколько предсказания модели отличаются от настоящих значений, используя функцию потерь.

▪️Если модель предсказала на 5 больше, чем реальное значение, идеальная поправка для неё была бы -5. Новая модель обучается предсказывать именно этот антиградиент (то есть разницу между предсказанным и истинным значением) для текущей функции потерь. Затем к предсказаниям базовой модели добавляется результат новой модели, корректируя их в нужную сторону.

▪️На каждом следующем шаге очередная модель будет пытаться предсказать антиградиент функции потерь, чтобы улучшить общее предсказание. Это добавление моделей продолжается до тех пор, пока не достигается нужное качество.

▪️В результате предсказание целевой переменной представляет собой взвешенную сумму всех построенных моделей.

#машинное_обучение
📊 8 паттернов проектирования, которые должен знать каждый ML-разработчик

Паттерны проектирования предлагают комплексные решения проблем, с которыми разработчики сталкиваются каждый день. В этой статье мы рассмотрим 8 паттернов проектирования с примерами кода на Python.

Забираем статью:
🔗 Ссылка
Please open Telegram to view this post
VIEW IN TELEGRAM
Что такое эффект насыщения (saturation) нейрона?

В контексте нейронных сетей феномен насыщения относится к ситуации, когда выход нейрона чаще всего близок к максимальному или минимальному значению функции активации.

Поясним на примере сигмоидальной функции активации. Она ограничена двумя горизонтальными асимптотами, к которым стремится при стремлении аргумента к бесконечности. Этими асимптотами могут быть 1 и 0. Если нейрон насыщен, то его аутпут будет почти всегда близок к единице или нулю.

К чему это приведёт? Градиент этой функции активации становится очень малым. Это приводит к эффекту затухающих градиентов, когда обновления весов практически прекращаются, и сеть перестает эффективно обучаться.

#глубокое_обучение
Топ неожиданных концовок возглавляет👆

#memes
Что вы знаете про метод t-SNE?

t-SNE можно расшифровать как t-Distributed Stochastic Neighbor Embedding. Если коротко, это метод нелинейного снижения размерности и визуализации многомерных данных.

t-SNE преобразует данные в пространство меньшей размерности (обычно в 2D или 3D), сохраняя информацию о близости точек, которые находятся рядом друг с другом в исходном пространстве. Это делает его особенно полезным для визуализации сложных данных, таких как текстовые эмбеддинги, где важно увидеть кластеры и локальные группы объектов.

😎 Как метод добивается сохранения этой информации? t-SNE конвертирует евклидовы расстояния между точками в условные вероятности. То есть указывается вероятность того, что некая точка x_i будет иметь в качестве соседа точку x_j.

#машинное_обучение
🧑‍💻 Статьи для IT: как объяснять и распространять значимые идеи

Напоминаем, что у нас есть бесплатный курс для всех, кто хочет научиться интересно писать — о программировании и в целом.

Что: семь модулей, посвященных написанию, редактированию, иллюстрированию и распространению публикаций.

Для кого: для авторов, копирайтеров и просто программистов, которые хотят научиться интересно рассказывать о своих проектах.

👉Материалы регулярно дополняются, обновляются и корректируются. А еще мы отвечаем на все учебные вопросы в комментариях курса.
Как бы вы объяснили отличия глубокого обучения от обычного (машинного обучения)?

Глубокое обучение и машинное обучение — это подвиды методов искусственного интеллекта. Вот какие различия между ними можно назвать:

▪️Структура моделей
В глубоких нейронных сетях используются многослойные архитектуры.

▪️Объём данных
Глубокое обучение требует больших объёмов данных для эффективного обучения.

▪️Аппаратные требования
Из-за сложности нейронных сетей глубокое обучение обычно требует больше вычислительных ресурсов. Хорошо подходят графические процессоры (GPU), способные к параллелизации.

▪️Автоматизация извлечения признаков
В глубоких сетях слои автоматически находят иерархию признаков в данных, что снижает необходимость в ручной обработке данных.

#глубокое_обучение
Какой из следующих методов кросс-валидации может не подойти для очень больших наборов данных, содержащих сотни тысяч образцов?
Anonymous Quiz
16%
k-fold кросс-валидация
53%
Кросс-валидация с исключением одного элемента (Leave-one-out)
12%
Hold-out
19%
Все вышеперечисленные
Что вы знаете про обучение с подкреплением (reinforcement learning)?

Суть обучения с подкреплением заключается в том, чтобы смоделировать процесс обучения методом проб и ошибок. Такой алгоритм не использует готовую обучающую выборку. Вместо этого он взаимодействует с окружающей средой (environment), совершая различные действия (actions). За каждое действие алгоритм получает награду (reward) или штраф (penalty) — скалярные значения, которые добавляются к функции вознаграждения (reward function).

Цель алгоритма — научиться действовать так, чтобы максимизировать кумулятивную награду, достигая наилучшего результата в долгосрочной перспективе.

#машинное_обучение
#глубокое обучение
📊 Путеводитель по Big Data для начинающих: методы и техники анализа больших данных

Методы и техники анализа Big Data: Machine Learning, Data mining, краудсорсинг, нейросети, предиктивный и статистический анализ, визуализация, смешение и интеграция данных, имитационные модели. Как разобраться во множестве названий и аббревиатур? Читайте наш путеводитель в статье по ссылке.

🔗 Ссылка
Please open Telegram to view this post
VIEW IN TELEGRAM
Какой метод перекрёстной проверки лучше использовать для временных рядов?

Для временных рядов стандартный метод k-fold перекрёстной проверки (кросс-валидации) может быть проблематичным, так как он нарушает порядок последовательности данных, что критично для временной зависимости.

Наиболее подходящий подход для временных рядов — это метод последовательного расширяющегося окна (expanding window) или прямой цепочки. Процедура выглядит так:

1. обучение на данных [1], тестирование на данных [2]
2. обучение на данных [1, 2], тестирование на данных [3]
3. обучение на данных [1, 2, 3], тестирование на данных [4] и т.д.

#машинное_обучение
📊 ТОП-10 необходимых для специалиста по Big Data навыков

Рассказываем о необходимом наборе технических и карьерных навыков для специалиста по Big Data.

✍️ Big Data — это термин, используемый для обозначения значительного объема как структурированных, так и неструктурированных данных, который слишком велик для обработки традиционными методами.

👉 Читать все подробности в статье
🤖 Напоминаем, что у нас есть еженедельная email-рассылка, посвященная последним новостям и тенденциям в мире искусственного интеллекта.

В ней:
● Новости о прорывных исследованиях в области машинного обучения и нейросетей
● Материалы о применении ИИ в разных сферах
● Статьи об этических аспектах развития технологий
● Подборки лучших онлайн-курсов и лекций по машинному обучению
● Обзоры инструментов и библиотек для разработки нейронных сетей
● Ссылки на репозитории с открытым исходным кодом ИИ-проектов
● Фильмы, сериалы и книги

👉Подписаться👈
Как можно оценить модель, предсказывающую показатель кликабельности (click-through rate, CTR), и в оффлайн, и в режиме реального времени?

▪️Оффлайн-оценка

Для оффлайн-оценки модели предсказания CTR часто используется кросс-энтропия. Она позволяет сравнивать предсказанные значения CTR с фактическими результатами кликов. Обычно модель тестируется на отложенном наборе данных, который не участвовал в обучении.

▪️Оценка в реальном времени

В режиме реального времени кросс-энтропия также может рассчитываться, используя данные онлайн-трафика. Этот подход позволяет следить за производительностью модели «на лету» и быстро выявлять её сильные и слабые стороны.

Проблемы при оценке

🔹Селективное смещение
Онлайн-трафик может быть смещён в сторону высоковероятных кликов, что может исказить оценку модели.

🔹Задержка кликов
Клики не всегда происходят мгновенно после показа объявления. Задержка между показом и кликом может повлиять на расчёты метрик.

🔹Утечка данных
Чтобы избежать искажения результатов, важно обеспечить независимость тестовых данных от обучающих. Утечка тестовых данных в обучающие может привести к завышенной оценке качества модели.

#машинное_обучение
В каких сценариях используются конфигурации «один к одному», «один ко многим» и «многие ко многим» на входных и выходных слоях рекуррентной нейронной сети?

Рекуррентные нейронные сети (RNN) эффективны для работы с последовательностями. Вот основные сценарии:

▪️Один к одному — редко используется для RNN. Такие задачи, как классификация изображений, не требуют обработки последовательностей, поэтому чаще решаются свёрточными сетями (CNN). Но иногда RNN применяются для классификации фиксированных последовательностей.

▪️Один ко многим — применимо в задачах генерации последовательностей на основе одного входа, например, при преобразовании изображения в текст. CNN извлекает признаки изображения, а RNN генерирует описание на выходе.

▪️Многие ко многим — классический пример RNN. Это может быть перевод текста, где входная последовательность на одном языке преобразуется в выходную на другом.

#глубокое_обучение
2025/02/24 15:03:23
Back to Top
HTML Embed Code: