Telegram Web Link
Что произойдет с нашей моделью линейной регрессии, если у нас есть три столбца в наших данных: x, y, z  —  и z является суммой x и y?

Мы не смогли бы выполнить регрессию. Поскольку z линейно зависит от x и y, поэтому при выполнении регрессии будет сингулярная (не обратимая) матрица.
Что такое оверфиттинг (переобучение)?

Когда ваша модель очень хорошо работает на вашем тренировочном наборе, но не может обобщить тестовый набор, потому что она сильно адаптирована к тренировочному набору.
Какие методы регуляризации применимы к линейным моделям? ‍

AIC/BIC, Ридж-регрессия, Лассо, Эластичная сеть, Basis pursuit denoising, модель Рудина – Ошера – Фатеми, модель Поттса, RLAD, селектор Данцига, SLOPE.
Чем временные ряды отличаются от обычной задачи регрессии?

Принцип причинного прогнозирования заключается в том, что значение, которое необходимо спрогнозировать, зависит от входных характеристик (причинных факторов). Ожидается, что при прогнозировании временных рядов прогнозируемое значение будет следовать определенной закономерности с течением времени.
Как регуляризация L2 влияет на веса линейной модели? ‍

Регуляризация L2 более сильно влияет на большие веса (из-за квадрата), что способствует уменьшению значений веса к нулю.
Каковы основные параметры в модели повышения градиента? ‍

Существует множество параметров, но ниже приведены несколько ключевых значений по умолчанию.
learning_rate=0.1.
n_estimators=100 (количество деревьев).
max_depth=3.
min_samples_split=2.
min_samples_leaf=1.
subsample=1.0.
Зачем нам нужны функции активации?

Основная идея использования нейронных сетей — обучение сложных нелинейных функций. Если мы не используем функцию активации между различными уровнями нейронной сети, мы просто накладываем несколько линейных слоев один на другой, и это приводит к обучению линейной функции. Нелинейность присутствует только в функции активации.
Как работает обычная полносвязная нейронная сеть прямого распространения?

В обычной полносвязной сети прямого распространения каждый нейрон получает входные данные от каждого элемента предыдущего слоя, и, таким образом, рецептивным полем нейрона является весь предыдущий слой. Они обычно используются для представления векторов признаков для входных данных в задачах классификации, но их обучение может быть дорогостоящим из-за количества задействованных вычислений.
Как выбрать количество деревьев в модели повышения градиента?

Большинство реализаций повышения градиента по умолчанию настраиваются с относительно небольшим количеством деревьев, например сотнями или тысячами. Используя scikit-learn, мы можем выполнить поиск по сетке параметра модели n_estimators.
Можно ли распараллелить обучение модели повышения градиента? Как это сделать?

Да, разные платформы предоставляют разные варианты ускорения обучения, используя графические процессоры для ускорения процесса за счет высокой степени распараллеливания. Например, для XGBoost параметр Tree_method = 'gpu_hist' ускоряет обучение за счет использования графических процессоров.
Хотим ли мы иметь постоянную скорость обучения или лучше менять ее в ходе обучения?

Как правило, рекомендуется начинать скорость обучения с относительно высокого значения, а затем постепенно уменьшать скорость обучения, чтобы модель не превышала минимальные значения, и в то же время мы не хотим начинать с очень низкой скорости обучения, поскольку обучение модели займет слишком много времени.

Существует множество доступных методов снижения скорости обучения. Например, в PyTorch вы можете использовать функцию под названием StepLR, которая снижает скорость обучения каждого параметра на значение гаммы, которое мы должны передать через аргумент, после n числа эпох, которое вы также можете установить через аргумент функции с именем epoch_size.
Как мы можем использовать нейронные сети для компьютерного зрения?

Нейронные сети, используемые в области компьютерного зрения, обычно представляют собой сверточные нейронные сети (CNN). Они весьма эффективны при работе с изображениями и видео благодаря их способности извлекать и изучать сложные фичи. Таким образом, CNN являются подходящим методом решения любой проблемы компьютерного зрения.
Как работает механизм self attention в трансформерах и за что отвечает?

Self-attention в трансформерах — это способ обращения модели на важные слова в предложении. Для каждого слова (входного вектора) генерируется Query, Key и Value. Модель вычисляет соотношения между Query и Key, используя метрику близости. Затем взвешенно суммирует Value, чтобы создать представление слова. Это помогает модели лучше понимать зависимости между словами. Механизм отвечает за моделирование зависимостей между словами в предложении. Он позволяет модели определить, какие слова взаимодействуют друг с другом и как важны они для понимания контекста.
Пробовали ли вы обучить LLM или любой другой генератор текста на своих данных и что у вас выходило?
Какие методы и техники вы бы использовали для решения проблемы затухающего градиента при обучении модели seq2seq, особенно когда входная последовательность длиннее, чем выходная, и какие меры предприняли бы, чтобы справиться с потерей информации на начальных этапах декодирования?

1. Архитектурные модификации: использование архитектур, которые способствуют передаче информации на большие расстояния, таких как архитектуры с аттеншн-механизмами (например, Transformer). Аттеншн-механизм позволяет модели фокусироваться на разных частях входной последовательности в процессе декодирования, что уменьшает вероятность затухания градиента.
2. Skip Connections: Включение пропускающих соединений в архитектуру, чтобы градиент мог путешествовать на более длинные расстояния между входом и выходом.
3. Residual Connections: Аналогично skip connections, но с добавлением остаточных соединений, что позволяет сети изучать разницу между текущим состоянием и предыдущим, помогая справляться с затухающим градиентом.
4. Layer Normalization и Batch Normalization: Нормализация слоев и батчей может помочь уменьшить влияние затухания градиента на обучение.
5. Scheduled Sampling: Использование стратегии постепенного внедрения сгенерированных токенов в качестве входа вместо реальных токенов для учебных данных. Это может помочь модели привыкнуть к собственным предсказаниям.
6. Gradient Clipping: Ограничение нормы градиента, чтобы избежать роста градиента.
Различные этапы аналитического проекта

🔸 Понимание бизнес-проблемы
🔸 Изучение данных и ознакомление с ними
🔸 Подготовка данных к моделированию посредством обнаружения резко отклоняющихся значений, преобразования переменных, обработки пропущенных значений и т. Д.
🔸 Запуск модели и анализ результата для внесения соответствующих изменений или модификаций в модель (итеративный шаг, который повторяется до достижения наилучшего возможного результата)
🔸 Проверка модели с использованием нового набора данных
🔸 Внедрение модели и отслеживание результата для анализа производительности одного и того же
Что такое выбросы и как с ними обращаться?

Значения выбросов или просто выбросы - это точки данных в статистике, которые не принадлежат определенной совокупности. Значение выброса - это ненормальное наблюдение, которое очень сильно отличается от других значений, принадлежащих набору.

Идентификация выбросов значений может быть произведена с помощью одномерного или другого метода графического анализа. Немногочисленные значения выбросов можно оценить индивидуально, но для оценки большого набора значений выбросов требуется их замена 99-м или 1-м процентилем.

Есть два популярных способа обработки выбросов:
🔸 Чтобы изменить значение так, чтобы его можно было привести в диапазон
🔸 Чтобы просто удалить значение
Как следует поддерживать развернутую модель?

Шаги по поддержанию развернутой модели:

🟠 Мониторинг
Необходим постоянный мониторинг всех моделей для определения точности их работы. Когда вы что-то меняете, вы хотите выяснить, как изменения повлияют на ситуацию.

🟠 Оценка
Метрики оценки текущей модели рассчитываются, чтобы определить, нужен ли новый алгоритм.

🟠 Сравнение
Новые модели сравниваются друг с другом, чтобы определить, какая модель работает лучше.

🟠 Перезапуск
Наиболее эффективная модель дообучается на новых данных.
Подходы к задаче ранжирования

🔸 Pointwise, он же поточечный. Мы будем рассматривать релевантность как абсолютное мерило и будем штрафовать модель за абсолютную разность между предсказанной релевантностью и той, которую мы знаем по обучающей выборке. Например, асессор поставил документу оценку 3, а мы бы сказали 2, поэтому штрафуем модель на 1.
🔸 Pairwise, попарный. Мы будем сравнивать документы друг с другом. Например, в обучающей выборке есть два документа, и нам известно, какой из них более релевантный по данному запроса. Тогда мы будем штрафовать модель, если она более релевантному поставила прогноз ниже, чем менее релевантному, то есть неправильно сранжировала пару.
🔸 Listwise. Он тоже основан на относительных релевантностях, но уже не внутри пар: мы ранжируем моделью всю выдачу и оцениваем результат — если на первом месте оказался не самый релевантный документ, то получаем большой штраф.
Что такое CI/CD в контексте MLOps и как это работает?

CI (Continuous Integration) и CD (Continuous Deployment) в MLOps означают непрерывную интеграцию и непрерывное развертывание. Это практики автоматической сборки, тестирования и развертывания моделей машинного обучения при каждом изменении кода или данных.
2024/10/01 07:47:18
Back to Top
HTML Embed Code: