bootg.com »
United States »
Библиотека собеса по Data Science | вопросы с собеседований » Telegram Web
➕ Какой ансамблевый метод используется
На изображении показана схема, в которой модели x1, x2...xk называются базовыми обучающими моделями (Base Learners), а над ними находится дополнительный уровень — x3 Generalizer.
Ответ: На изображении показанпервый этап метода Stacking.
✔️ Фаза 0: Несколько базовых моделей (Base Learners) делают предсказания.
✔️ Фаза 1: Генерализатор (Generalizer) обучается на предсказаниях базовых моделей, чтобы улучшить результат.
На изображении показана схема, в которой модели x1, x2...xk называются базовыми обучающими моделями (Base Learners), а над ними находится дополнительный уровень — x3 Generalizer.
Ответ: На изображении показан
Какой метод ансамблирования здесь применяется?
Anonymous Quiz
23%
Bootstrap Aggregation (Bagging)
9%
Snapshot Ensembling
68%
Stacking
📢 Ты уже пробовал пройти AI-собеседование? Если нет, вот ещё одно напоминание от нас 🤗
Сейчас на рынке много вакансий, но как найти ту самую, которая идеально подойдёт тебе по навыкам, условиям и зарплате?
✅ Просто загрузи своё резюме
✅ Пройди интервью с нейро-рекрутером от Сбера (всего 15 минут!)
✅ Получай лучшие предложения без бесконечных звонков и ожидания откликов
💡 Алгоритмы анализируют твой опыт и подбирают вакансии, которые подходят на 98% — так что ты точно не потратишь время зря.
Работа мечты может быть на расстоянии одного клика. Попробуешь? 😉
🔗 https://clc.to/GkOTTA
Сейчас на рынке много вакансий, но как найти ту самую, которая идеально подойдёт тебе по навыкам, условиям и зарплате?
✅ Просто загрузи своё резюме
✅ Пройди интервью с нейро-рекрутером от Сбера (всего 15 минут!)
✅ Получай лучшие предложения без бесконечных звонков и ожидания откликов
💡 Алгоритмы анализируют твой опыт и подбирают вакансии, которые подходят на 98% — так что ты точно не потратишь время зря.
Работа мечты может быть на расстоянии одного клика. Попробуешь? 😉
🔗 https://clc.to/GkOTTA
В чем разница между Grid Search и Random Search в оптимизации гиперпараметров
▪️ Grid Search — метод, при котором пользователь заранее задает набор возможных значений для каждого гиперпараметра. Затем алгоритм перебирает все возможные комбинации этих значений.
✅ Гарантированно находит лучшее значение среди заданных.
🚫 Число комбинаций растет экспоненциально с увеличением числа параметров, что делает метод медленным.
▪️ Random Search — метод, который случайным образом выбирает точки в пространстве гиперпараметров.
✅ Быстрее, так как не нужно проверять все комбинации. Иногда случайный поиск находит лучшие параметры, чем Grid Search.
🚫 Не гарантирует, что будут рассмотрены все возможные хорошие комбинации.
▪️ Grid Search — метод, при котором пользователь заранее задает набор возможных значений для каждого гиперпараметра. Затем алгоритм перебирает все возможные комбинации этих значений.
✅ Гарантированно находит лучшее значение среди заданных.
🚫 Число комбинаций растет экспоненциально с увеличением числа параметров, что делает метод медленным.
▪️ Random Search — метод, который случайным образом выбирает точки в пространстве гиперпараметров.
✅ Быстрее, так как не нужно проверять все комбинации. Иногда случайный поиск находит лучшие параметры, чем Grid Search.
🚫 Не гарантирует, что будут рассмотрены все возможные хорошие комбинации.
Какой метод лучше оценивает неопределенность модели: deep ensembles или Monte-Carlo (MC) dropout
Deep ensembles чаще дают более точную оценку неопределенности, особенно на данных вне распределения (OOD).
Ключевые различия:
✔️ Deep ensembles — обучают несколько независимых моделей и усредняют их предсказания. Это улучшает устойчивость к OOD-данным и повышает точность вероятностных оценок.
✔️ MC-dropout — использует дропаут во время инференса для моделирования неопределенности, что дешевле вычислительно, но менее эффективно в сложных сценариях.
Deep ensembles чаще дают более точную оценку неопределенности, особенно на данных вне распределения (OOD).
Ключевые различия:
✔️ Deep ensembles — обучают несколько независимых моделей и усредняют их предсказания. Это улучшает устойчивость к OOD-данным и повышает точность вероятностных оценок.
✔️ MC-dropout — использует дропаут во время инференса для моделирования неопределенности, что дешевле вычислительно, но менее эффективно в сложных сценариях.
Forwarded from Proglib.academy | IT-курсы
🔥 Какие навыки нужны Data Scientist'у и как их освоить
Чтобы стать успешным Data Scientist и уверенно чувствовать себя на рынке труда, важно владеть широким спектром навыков.
➡️ Что внутри статьи:
▪️ Книги, курсы и статьи, чтобы прокачать каждый навык.
▪️ Бесплатные материалы для быстрого старта.
▪️ Задачи для практики.
🔗 Читать статью
🔵 А чтобы подготовиться к собесам для Data Science, забирайте наш курс «Алгоритмы и структуры данных»
Чтобы стать успешным Data Scientist и уверенно чувствовать себя на рынке труда, важно владеть широким спектром навыков.
▪️ Книги, курсы и статьи, чтобы прокачать каждый навык.
▪️ Бесплатные материалы для быстрого старта.
▪️ Задачи для практики.
Please open Telegram to view this post
VIEW IN TELEGRAM
Swipe right or swipe left
Что делать, если твои мэтчи в жизни не такие точные, как твой код?
Спокойно, 14 февраля в 19:00 по МСК мы разберём, как ML анализирует speed dating и предсказывает match.
📌 Мы возьмем реальные данные со speed dating.
📌 Обучим модель, которая скажет: match или swipe left.
📌 Разберём, какие признаки реально важны (спойлер: работа в IT — не прям гарантия успеха (наши маркетологи подтверждают 😥).
💡 Приходи, если хочешь прокачать свой Python, ML и, возможно, станешь идеальной парой, как самый стильные форсы.
👉 Записаться
Что делать, если твои мэтчи в жизни не такие точные, как твой код?
Спокойно, 14 февраля в 19:00 по МСК мы разберём, как ML анализирует speed dating и предсказывает match.
📌 Мы возьмем реальные данные со speed dating.
📌 Обучим модель, которая скажет: match или swipe left.
📌 Разберём, какие признаки реально важны (спойлер: работа в IT — не прям гарантия успеха (наши маркетологи подтверждают 😥).
💡 Приходи, если хочешь прокачать свой Python, ML и, возможно, станешь идеальной парой, как самый стильные форсы.
👉 Записаться
Почему модель, обученная с L1-регуляризацией, может приводить к более интерпретируемым результатам по сравнению с L2-регуляризацией?
🔹 L1-регуляризация (Lasso) добавляет к функции потерь сумму модулей весов, что способствует обнулению некоторых из них. Это приводит к разреженности модели — многие параметры становятся нулевыми, оставляя только значимые признаки. В результате модель становится проще и легче интерпретируется.
🔹 L2-регуляризация (Ridge) добавляет сумму квадратов весов, но не зануляет их, а только уменьшает. Это делает модель более устойчивой к шуму, но не позволяет выявить наименее значимые признаки.
📌 L1-регуляризация действует как механизм автоматического отбора признаков, что упрощает интерпретацию модели. L2, в свою очередь, помогает сглаживать веса, но не делает модель разреженной.
🔹 L1-регуляризация (Lasso) добавляет к функции потерь сумму модулей весов, что способствует обнулению некоторых из них. Это приводит к разреженности модели — многие параметры становятся нулевыми, оставляя только значимые признаки. В результате модель становится проще и легче интерпретируется.
🔹 L2-регуляризация (Ridge) добавляет сумму квадратов весов, но не зануляет их, а только уменьшает. Это делает модель более устойчивой к шуму, но не позволяет выявить наименее значимые признаки.
📌 L1-регуляризация действует как механизм автоматического отбора признаков, что упрощает интерпретацию модели. L2, в свою очередь, помогает сглаживать веса, но не делает модель разреженной.
Почему глубокие нейросети могут переобучаться, даже если количество данных огромное
🔹 Избыточная параметризация — современные нейросети содержат миллионы (или даже миллиарды) параметров, что позволяет им запоминать данные вместо обобщения.
🔹 Коррелированные признаки — если данные содержат мало информативных или избыточных признаков, модель может подстроиться под шум, а не выделить полезные закономерности.
🔹 Смещение в данных — если тренировочные данные недостаточно разнообразны или не представляют реальный мир, сеть может слишком хорошо подстроиться под них, но плохо работать на новых примерах.
🔹 Отсутствие регуляризации — методы вроде L1/L2-регуляризации, dropout и batch normalization помогают бороться с переобучением, но если они не используются, сеть может переобучиться даже на больших данных.
🔹 Избыточная параметризация — современные нейросети содержат миллионы (или даже миллиарды) параметров, что позволяет им запоминать данные вместо обобщения.
🔹 Коррелированные признаки — если данные содержат мало информативных или избыточных признаков, модель может подстроиться под шум, а не выделить полезные закономерности.
🔹 Смещение в данных — если тренировочные данные недостаточно разнообразны или не представляют реальный мир, сеть может слишком хорошо подстроиться под них, но плохо работать на новых примерах.
🔹 Отсутствие регуляризации — методы вроде L1/L2-регуляризации, dropout и batch normalization помогают бороться с переобучением, но если они не используются, сеть может переобучиться даже на больших данных.
Какая функция потерь используется в процессе обучения сети на изображении
В процессе обучения используется комбинированная функция потерь, которая представляет собой взвешенное среднее из:
🔹 Style loss (потеря стиля) — оценивает, насколько хорошо сгенерированное изображение соответствует стилю эталонного изображения.
🔹 Content loss (потеря содержимого) — следит за тем, чтобы сгенерированное изображение сохраняло ключевые структуры оригинального контента.
В процессе обучения используется комбинированная функция потерь, которая представляет собой взвешенное среднее из:
🔹 Style loss (потеря стиля) — оценивает, насколько хорошо сгенерированное изображение соответствует стилю эталонного изображения.
🔹 Content loss (потеря содержимого) — следит за тем, чтобы сгенерированное изображение сохраняло ключевые структуры оригинального контента.
Forwarded from Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
🐳 DeepSeek-R1 — очередной значительный шаг в развитии ИИ. Для сообщества ML-разработчиков и исследователей этот релиз важен по двум причинам:
👉 Это модель с открытыми весами, имеющая уменьшенные, дистиллированные версии.
👉 Она использует и анализирует метод обучения, который позволяет воспроизвести модель рассуждений, подобную OpenAI o1.
Разберемся, как происходило обучение DeepSeek-R1: https://proglib.io/sh/SwVUWXrFN3
👉 Это модель с открытыми весами, имеющая уменьшенные, дистиллированные версии.
👉 Она использует и анализирует метод обучения, который позволяет воспроизвести модель рассуждений, подобную OpenAI o1.
Разберемся, как происходило обучение DeepSeek-R1: https://proglib.io/sh/SwVUWXrFN3
Как классическая классификация ML помогает в реальном мире
🤖 Классификация в ML — это метод обучения, в котором модель обучается на размеченных данных и предсказывает, к какому классу относится новый объект.
✅ Фильтрация спама – чтобы в почте оставалось только важное.
✅ Рекомендации фильмов – Netflix знает, что ты любишь!
✅ Кредитный скоринг – банки решают, дать ли тебе займ.
✅ Предсказание мэтчей – как на нашем вебинаре по speed dating.
14 февраля мы разберём на практике задачу классификации:
- Как выбрать оптимальные признаки
- Что делать с несбалансированными данными
- Как интерпретировать результаты модели
🔥 Если уже работаешь с ML или только начинающий программист – приходи на наш вебинар, в котором мы разберем «как предсказывать мэтч на speed dating» .
Приходи!
🤖 Классификация в ML — это метод обучения, в котором модель обучается на размеченных данных и предсказывает, к какому классу относится новый объект.
✅ Фильтрация спама – чтобы в почте оставалось только важное.
✅ Рекомендации фильмов – Netflix знает, что ты любишь!
✅ Кредитный скоринг – банки решают, дать ли тебе займ.
✅ Предсказание мэтчей – как на нашем вебинаре по speed dating.
14 февраля мы разберём на практике задачу классификации:
- Как выбрать оптимальные признаки
- Что делать с несбалансированными данными
- Как интерпретировать результаты модели
🔥 Если уже работаешь с ML или только начинающий программист – приходи на наш вебинар, в котором мы разберем «как предсказывать мэтч на speed dating» .
Приходи!
Правда или Ложь: высокий информационный выигрыш при разбиении ухудшает точность модели (дерева решений)?
Ответ:✅ Правда. Хотя высокий информационный выигрыш означает значительное уменьшение неопределенности, он также может привести к переобучению. В этом случае дерево слишком точно подстраивается под обучающую выборку, теряя способность обобщать закономерности на новых данных.
Ответ:
Почему в глубоких нейросетях используют функции активации, такие как ReLU, вместо линейных
Если в каждой нейронной связи использовать только линейные преобразования, вся сеть сводится к одной линейной функции, независимо от количества слоев. Это делает нейросеть неспособной моделировать сложные нелинейные зависимости.
🔹 ReLU (Rectified Linear Unit) и другие нелинейные функции помогают сети изучать сложные представления и разделять данные в многомерном пространстве.
Если в каждой нейронной связи использовать только линейные преобразования, вся сеть сводится к одной линейной функции, независимо от количества слоев. Это делает нейросеть неспособной моделировать сложные нелинейные зависимости.
🔹 ReLU (Rectified Linear Unit) и другие нелинейные функции помогают сети изучать сложные представления и разделять данные в многомерном пространстве.
Каковы преимущества и ограничения метода SVM с использованием нелинейных ядер
В отличие от линейного SVM, использование ядра позволяет проекцировать данные в пространство более высокой размерности, где они могут стать линейно разделимыми.
Преимущества:
✅ Обработка нелинейных данных: ядра позволяют эффективно решать задачи, где данные не могут быть разделены линейно.
✅ Гибкость: разнообразие ядер делает SVM универсальным инструментом для различных типов задач.
Ограничения:
🚫 Выбор ядра и параметров: требует тщательной настройки, что может быть трудоемким процессом.
🚫 Вычислительные затраты: для большИх данных SVM с ядром может быть медленным и требовать бОльших вычислительных ресурсов.
В отличие от линейного SVM, использование ядра позволяет проекцировать данные в пространство более высокой размерности, где они могут стать линейно разделимыми.
Преимущества:
✅ Обработка нелинейных данных: ядра позволяют эффективно решать задачи, где данные не могут быть разделены линейно.
✅ Гибкость: разнообразие ядер делает SVM универсальным инструментом для различных типов задач.
Ограничения:
🚫 Выбор ядра и параметров: требует тщательной настройки, что может быть трудоемким процессом.
🚫 Вычислительные затраты: для большИх данных SVM с ядром может быть медленным и требовать бОльших вычислительных ресурсов.
Почему уменьшение ошибки на обучающей выборке не всегда приводит к лучшей обобщающей способности модели
✅ Это может быть признаком переобучения. Когда модель слишком хорошо подстраивается под обучающие данные, она начинает запоминать их, а не учиться выделять общие закономерности. В результате на тестовой выборке её точность падает.
🔍 Как избежать? Используйте регуляризацию (L1/L2), кросс-валидацию, добавляйте больше данных или применяйте техники увеличения данных (data augmentation).
✅ Это может быть признаком переобучения. Когда модель слишком хорошо подстраивается под обучающие данные, она начинает запоминать их, а не учиться выделять общие закономерности. В результате на тестовой выборке её точность падает.
🔍 Как избежать? Используйте регуляризацию (L1/L2), кросс-валидацию, добавляйте больше данных или применяйте техники увеличения данных (data augmentation).
Как изменить предобученную нейросеть с классификации на регрессию
✅ Ответ: используем transfer learning — перенос знаний с одной задачи на другую.
Что делаем?
🔹 Заменяем последний полносвязный слой и Softmax (отвечающий за классификацию) на один нейрон (или новый полносвязный слой) для регрессии.
🔹 Опционально замораживаем первые слои, если данных мало или нужна быстрая сходимость.
🔹 Обучаем сеть на новых данных с функцией потерь для регрессии.
Таким образом, мы сохраняем мощные фичи первых слоев, обученные на огромных датасетах, но адаптируем выход под задачу регрессии.
✅ Ответ: используем transfer learning — перенос знаний с одной задачи на другую.
Что делаем?
🔹 Заменяем последний полносвязный слой и Softmax (отвечающий за классификацию) на один нейрон (или новый полносвязный слой) для регрессии.
🔹 Опционально замораживаем первые слои, если данных мало или нужна быстрая сходимость.
🔹 Обучаем сеть на новых данных с функцией потерь для регрессии.
Таким образом, мы сохраняем мощные фичи первых слоев, обученные на огромных датасетах, но адаптируем выход под задачу регрессии.
Forwarded from Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
🐳 Делаем конкурента DeepSeek R1-Zero на домашней пекарне: метод GRPO в Unsloth
Обычно LLM требуют мощных GPU, но теперь даже на видеокарте с ограниченной памятью можно обучать модели логического рассуждения.
💡 Фишка — новый алгоритм GRPO, который позволяет моделям развивать логическое мышление без вмешательства человека.
Подробнее в нашей статье: https://proglib.io/sh/MyBCbq9is5
Обычно LLM требуют мощных GPU, но теперь даже на видеокарте с ограниченной памятью можно обучать модели логического рассуждения.
💡 Фишка — новый алгоритм GRPO, который позволяет моделям развивать логическое мышление без вмешательства человека.
Подробнее в нашей статье: https://proglib.io/sh/MyBCbq9is5
Можно ли использовать CNN для классификации 1D-сигнала
✅ Да, но есть нюансы.
Для временных рядов чаще применяют рекуррентные сети (RNN), так как они учитывают последовательность данных. Однако сверточные сети (CNN) тоже могут быть полезны, особенно если важны повторяющиеся шаблоны в сигнале.
🔹 CNN — хорошо распознают локальные закономерности через скользящие окна.
🔹 RNN — учитывают временную зависимость между значениями.
🔹 QRNN — гибридный подход, объединяющий преимущества CNN и RNN.
Выбор зависит от задачи и структуры данных!
✅ Да, но есть нюансы.
Для временных рядов чаще применяют рекуррентные сети (RNN), так как они учитывают последовательность данных. Однако сверточные сети (CNN) тоже могут быть полезны, особенно если важны повторяющиеся шаблоны в сигнале.
🔹 CNN — хорошо распознают локальные закономерности через скользящие окна.
🔹 RNN — учитывают временную зависимость между значениями.
🔹 QRNN — гибридный подход, объединяющий преимущества CNN и RNN.
Выбор зависит от задачи и структуры данных!