bootg.com »
United States »
Библиотека собеса по Data Science | вопросы с собеседований » Telegram Web
Forwarded from Библиотека питониста | Python, Django, Flask
🖼 ТОП-5 структур данных для обработки изображений
Хотите разобраться, как обрабатывать изображения в компьютерном зрении или графике?
Всё начинается с правильных структур данных. Они помогают хранить и анализировать пиксели, их связи и расположение.
👉 В этой статье — подборка топ решений и советы, как их использовать.
Библиотека питониста
Хотите разобраться, как обрабатывать изображения в компьютерном зрении или графике?
Всё начинается с правильных структур данных. Они помогают хранить и анализировать пиксели, их связи и расположение.
Библиотека питониста
Please open Telegram to view this post
VIEW IN TELEGRAM
🆚 Как сравниваются методы перерасчёта градиента и focal loss при работе с несбалансированными классами
🔘 Focal loss добавляет коэффициент, который уменьшает вклад уже хорошо классифицированных примеров, тем самым фокусируя обучение на сложных, часто ошибочно классифицируемых объектах . Это особенно полезно, когда модель быстро обучается на «лёгких» примерах и игнорирует «трудные» .
🔘 Gradient re-scaling (пересчёт градиента с учётом частоты классов) нацелен на устранение дисбаланса между классами, регулируя вклад каждого класса в градиент . Часто это реализуется как взвешивание классов .
📍 Сравнение:
— Focal loss фокусируется насложности примеров, а не на частоте классов .
— Gradient re-scaling напрямую учитываетчастоту классов, но не различает лёгкие и трудные примеры внутри одного класса.
В задачах с сильным дисбалансом имеет смыслкомбинировать оба метода — использовать пересчёт градиентов по классам и применять focal loss, чтобы дополнительно усилить обучение на сложных примерах.
Библиотека собеса по Data Science
— Focal loss фокусируется на
— Gradient re-scaling напрямую учитывает
В задачах с сильным дисбалансом имеет смысл
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4❤1
Для временных рядов тестовый набор обычно относится к более
⚠️ Подводный камень
Некоторые методы очистки могут
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2👍2
Media is too big
VIEW IN TELEGRAM
Что объединяет успешный собес и продвинутый анализ данных? Оба требуют способности выделять главное из информационного шума!
В мире данных этот суперскилл называется методом главных компонент (PCA) — это как рентген для ваших данных, который мгновенно показывает всю суть, отбрасывая неважные детали.
Например, мы проанализировали 453 акции компаний из списка S&P 500 и выяснили, что всего одна главная компонента объясняет 38% всей динамики рынка. Как такое возможно?
Вы будете работать с реальными данными, научитесь выявлять скрытые закономерности и применять эти инсайты в своих проектах.
Стоимость: 3990 ₽
Не беспокойтесь, если теоретическая база пока хромает — вы можете заранее посмотреть запись нашего вебинара по основам по ссылке ниже.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2👍1🤔1
Стандартный автоэнкодер (AE) и вариационный автоэнкодер (VAE) оба используют нейросети для
— Детерминированный:
— Цель —
— Применения:
— Ограничения:
— Стохастический:
— Цель —
— Плюсы:
— Применения:
—
—
—
—
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3
Forwarded from Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
🧮 Как избежать ловушки округления в Power BI
Твой отчет показывает разные цифры при одинаковой логике? Не спеши винить систему – это классический кейс с округлением в Power BI.
👊 Разбираемся, как типы данных влияют на точность и почему Currency может стать твоим врагом.
➡️ Подробнее в статье: https://proglib.io/sh/TcGmatdgNV
Библиотека дата-сайентиста
Твой отчет показывает разные цифры при одинаковой логике? Не спеши винить систему – это классический кейс с округлением в Power BI.
Библиотека дата-сайентиста
Please open Telegram to view this post
VIEW IN TELEGRAM
Подходы вроде Xavier (Glorot) и Ге специально подбирают начальные веса так, чтобы
Идея в том, чтобы избежать
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5👍1
🚀 Приручи алгоритмы: из формул в код за один воркшоп
Готовы превратить сложную теорию машинного обучения в практические навыки? Тогда приходите на наш воркшоп, который пройдет 21 апреля.
Что вас ждет на воркшопе:
🟢 Работа с реальными данными — никаких учебных датасетов, только то, что встречается в настоящих проектах.
🟢Снижение размерности с PCA — научитесь выделять главное из информационного шума.
🟢Случайный лес vs градиентный бустинг — разберемся, в чём ключевое различие и когда какой алгоритм эффективнее.
🟢Мастерство гиперпараметров — освоите тонкую настройку моделей для максимальной точности.
На нашем воркшопе вы не просто слушаете — вы делаете сами! Вы будете писать код на Python, применять популярные библиотеки и сразу видеть результат своей работы.
А самое ценное: каждый участник получит персональный code review от Марии Горденко — инженера-программиста, старшего преподавателя НИУ ВШЭ, руководителя магистратуры от ГК Самолет и Альфа-Банка.
⏰ Когда: 21 апреля
💸Стоимость: всего 3990₽
Только сегодня, до конца дня: 10 мест по промокоду kulich → 2 990 ₽.
➡️ Записаться на воркшоп: https://proglib.io/w/d295220d
Готовы превратить сложную теорию машинного обучения в практические навыки? Тогда приходите на наш воркшоп, который пройдет 21 апреля.
Что вас ждет на воркшопе:
🟢 Работа с реальными данными — никаких учебных датасетов, только то, что встречается в настоящих проектах.
🟢Снижение размерности с PCA — научитесь выделять главное из информационного шума.
🟢Случайный лес vs градиентный бустинг — разберемся, в чём ключевое различие и когда какой алгоритм эффективнее.
🟢Мастерство гиперпараметров — освоите тонкую настройку моделей для максимальной точности.
На нашем воркшопе вы не просто слушаете — вы делаете сами! Вы будете писать код на Python, применять популярные библиотеки и сразу видеть результат своей работы.
А самое ценное: каждый участник получит персональный code review от Марии Горденко — инженера-программиста, старшего преподавателя НИУ ВШЭ, руководителя магистратуры от ГК Самолет и Альфа-Банка.
⏰ Когда: 21 апреля
💸Стоимость: всего 3990₽
Только сегодня, до конца дня: 10 мест по промокоду kulich → 2 990 ₽.
➡️ Записаться на воркшоп: https://proglib.io/w/d295220d
Если метрики перестают расти, возможны несколько причин:
В таких случаях лучше поработать над
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3
❓Как выбрать между filter, wrapper и embedded методами отбора признаков
⏩ Filter-методы — быстрые и простые . Подходят для предварительного отбора признаков, особенно когда нужно быстро уменьшить размерность до дальнейшего анализа .
⏩ Wrapper-методы — более точные , но затратные по вычислениям . Используются, когда важна максимальная производительность модели, и есть ресурсы на перебор комбинаций признаков .
⏩ Embedded-методы — работают вместе с обучением модели . Удобны, если модель поддерживает регуляризацию (например, Lasso, Decision Trees), так как отбор признаков происходит прямо во время обучения .
На практике часто применяюткомбинацию : сначала отфильтровывают явно нерелевантные признаки (filter) , потом wrapper или embedded на отобранных признаках .
Библиотека собеса по Data Science
На практике часто применяют
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3
Forwarded from Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
Дисперсия — ключевой статистический показатель, который помогает оценить изменчивость данных. Для дата-сайентистов она критична при:
В этой статье разберём, как правильно использовать дисперсию в Data Science и как она влияет на работу алгоритмов, например, в модели Random Forest.
👉 Читайте, чтобы понять, как измерять и учитывать дисперсию: https://proglib.io/sh/GDKYJQdAI2
Библиотека дата-сайентиста
Please open Telegram to view this post
VIEW IN TELEGRAM
Сильные колебания валидационной метрики могут ввести алгоритм
Вот несколько подходов:
Важно не
В реальных условиях нужно
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3
🔥 Завтра запускаем ML-ракету: последние места на борту
Уже завтра, 21 апреля, состоится наш воркшоп «Математика машинного обучения на практике», где теория ML превращается в практические навыки.
Что вас ждет:
📍 Работа с реальными данными — табличные датасеты и изображения
📍 Снижение размерности через PCA — научитесь отделять важное от второстепенного
📍 Обучение моделей — Random Forest и градиентный бустинг в действии
📍 Разбор метрик и гиперпараметров — как настроить модель на максимальную эффективность
📍 Написание кода на Python — прямо как реальных проектах
📍 Персональный code review от эксперта — бесценный фидбек для вашего роста
📍 Доступ в закрытый чат участников — нетворкинг и обмен опытом
Кто проводит воркшоп:
Мария Горденко — инженер-программист, старший преподаватель НИУ ВШЭ и Proglib Academy, руководитель магистратуры от ГК Самолет и Альфа-Банка.
Стоимость участия: 3990₽
Когда: завтра, 21 апреля
👉 Забронировать место на воркшопе: https://proglib.io/w/d295220d
Уже завтра, 21 апреля, состоится наш воркшоп «Математика машинного обучения на практике», где теория ML превращается в практические навыки.
Что вас ждет:
Кто проводит воркшоп:
Мария Горденко — инженер-программист, старший преподаватель НИУ ВШЭ и Proglib Academy, руководитель магистратуры от ГК Самолет и Альфа-Банка.
Стоимость участия: 3990₽
Когда: завтра, 21 апреля
👉 Забронировать место на воркшопе: https://proglib.io/w/d295220d
Please open Telegram to view this post
VIEW IN TELEGRAM
При использовании слоёв Batch Normalization среднее значение и дисперсия обычно вычисляются
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5❤4😢1
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7❤2
Grid Search требует заранее задать набор значений для каждого гиперпараметра, поэтому важно
Обычно значения выбираются на основе:
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4👍3
🕵️♂️ Как обнаружить мошеннические транзакции с помощью GMM
В основе — Gaussian Mixture Model: она моделируетраспределение данных как смесь нескольких многомерных нормальных распределений . У каждого — своё среднее значение и ковариационная матрица .
⚙️ Модель обучается с помощью алгоритмаEM (Expectation-Maximization) . После обучения она рассчитывает апостериорные вероятности — насколько транзакция вписывается в каждый из компонентов смеси .
📉 Если транзакция имеет низкуювероятность по всем компонентам , GMM считает её аномальной — потенциально мошеннической .
🎯 Подход особенно полезен в условиях, где труднособрать размеченные данные, но важно ловить аномалии: финтех, страхование, кибербезопасность .
Библиотека собеса по Data Science
В основе — Gaussian Mixture Model: она моделирует
⚙️ Модель обучается с помощью алгоритма
📉 Если транзакция имеет низкую
🎯 Подход особенно полезен в условиях, где трудно
Библиотека собеса по Data Science
👍7
❓ Как объяснить коэффициенты логистической регрессии без технических деталей
💡 Представим так:
У нас есть модель, которая помогает понять — произойдёт ли какое-то событие. Например: купит ли человек товар, кликнет ли на рекламу или подпишется на рассылку.
Каждый признак (фактор) — это как один из аргументов «за» или «против» исхода. У каждого есть своя «весомость» — коэффициент:
➡️ Если коэффициент положительный — этот фактор повышает шанс, что событие произойдёт.
➡️ Если отрицательный — наоборот, снижает вероятность.
⭐ Чем больше по модулю число — тем сильнее влияние этого фактора.
Чтобы понять, насколько фактор влияет, можно посмотреть наэто показывает, во сколько раз увеличиваются шансы.
▶️ Например:
Есликаждый дополнительный «балл» этого признака повышает шансы на 50%.
Библиотека собеса по Data Science
💡 Представим так:
У нас есть модель, которая помогает понять — произойдёт ли какое-то событие. Например: купит ли человек товар, кликнет ли на рекламу или подпишется на рассылку.
Каждый признак (фактор) — это как один из аргументов «за» или «против» исхода. У каждого есть своя «весомость» — коэффициент:
Чтобы понять, насколько фактор влияет, можно посмотреть на
exp(коэффициент)
— ▶️ Например:
Если
exp(коэффициент) = 1.5
, это значит: Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4
👌 Как правильно инициализировать центроиды в k-means, чтобы не застрять в плохом локальном минимуме
Простая случайная инициализация (выборк плохому результату, особенно если точки окажутся слишком близко друг к другу или не отражают структуру данных .
🔥 Лучшее решение —использовать алгоритм k-means++
Он работает так:
1. Сначала выбираетсяодна случайная точка из данных.
2. Далее каждыйследующий центр выбирается с вероятностью, пропорциональной квадрату расстояния до ближайшего уже выбранного центра.
Такой подходравномерно распределяет центры и уменьшает риск плохой сходимости. В большинстве случаев он ещё и ускоряет обучение.
💡 В сложных случаях (например, потоковые данные или неустойчивое распределение) можно использовать:
— Инициализацию на основе иерархической кластеризации.
— Несколько прогонов с разными начальными условиями и выбор лучшего результата по ошибке.
Библиотека собеса по Data Science
Простая случайная инициализация (выбор
k
случайных точек из данных) может привести 🔥 Лучшее решение —
Он работает так:
1. Сначала выбирается
2. Далее каждый
Такой подход
💡 В сложных случаях (например, потоковые данные или неустойчивое распределение) можно использовать:
— Инициализацию на основе иерархической кластеризации.
— Несколько прогонов с разными начальными условиями и выбор лучшего результата по ошибке.
Библиотека собеса по Data Science
👍3