bootg.com »
United States »
Библиотека собеса по Data Science | вопросы с собеседований » Telegram Web
Совет на 2025-й — будьте осторожнее с выбором работы.
IT-рынок штормит: массовые сокращения, заморозка найма, снижение зарплат. В такое время особенно важно отличать стоящие офферы от проходных.
Знакомо? Открываешь вакансию, а там: «Ищем middle-разработчика с опытом 10 лет, знанием 15 языков и готовностью работать за печеньки. Офис в Челябинске, релокация за ваш счет» 🤦♂️
Чтобы не тратить время на сотни сомнительных предложений, подпишитесь на IT Job Hub. Там мы отфильтровываем весь мусор и публикуем только избранные вакансии в стабильных компаниях:
— Зарплаты на уровне рынка, а не на уровне голодного студента
— Никаких «мы молодая и дружная семья» — только адекватные условия
— Проверенные работодатели, а не стартапы из сомнительных сфер
Вакансии удобно разбиты по тегам: #python #java #go #data #devops и по другим направлениям. Без воды и лишнего спама — только проверенные вакансии в знакомых компаниях.
Подписывайтесь, если не хотите упустить работу мечты → @proglib_jobs
IT-рынок штормит: массовые сокращения, заморозка найма, снижение зарплат. В такое время особенно важно отличать стоящие офферы от проходных.
Знакомо? Открываешь вакансию, а там: «Ищем middle-разработчика с опытом 10 лет, знанием 15 языков и готовностью работать за печеньки. Офис в Челябинске, релокация за ваш счет» 🤦♂️
Чтобы не тратить время на сотни сомнительных предложений, подпишитесь на IT Job Hub. Там мы отфильтровываем весь мусор и публикуем только избранные вакансии в стабильных компаниях:
— Зарплаты на уровне рынка, а не на уровне голодного студента
— Никаких «мы молодая и дружная семья» — только адекватные условия
— Проверенные работодатели, а не стартапы из сомнительных сфер
Вакансии удобно разбиты по тегам: #python #java #go #data #devops и по другим направлениям. Без воды и лишнего спама — только проверенные вакансии в знакомых компаниях.
Подписывайтесь, если не хотите упустить работу мечты → @proglib_jobs
Forwarded from Proglib.academy | IT-курсы
Big Data и Data Science применяются не только в IT-гигантах, но и в некоммерческом секторе, где технологии анализа данных помогают оптимизировать работу организаций, собирать средства и оказывать помощь эффективнее.
▪️ Как некоммерческие организации используют Data Science.
▪️ Оптимизация фондов и финансирования с помощью аналитики.
▪️ Роль прогнозных моделей в благотворительности.
▪️ Кейсы Amnesty International, Khan Academy и DataKind.
Please open Telegram to view this post
VIEW IN TELEGRAM
Градиентный бустинг: почему слишком много деревьев ухудшает модель
🔸 Переобучение (overfitting) — каждое новое дерево минимизирует ошибку, но если деревьев слишком много, модель начинает подстраиваться под шум данных, теряя обобщающую способность.
🔸 Снижение прироста качества — на первых итерациях каждое дерево значительно улучшает предсказания. Однако после определенного количества итераций добавление новых деревьев практически не влияет на качество.
🔸 Рост вычислительной сложности — больше деревьев → выше время инференса и потребление памяти.
🔸 Переобучение (overfitting) — каждое новое дерево минимизирует ошибку, но если деревьев слишком много, модель начинает подстраиваться под шум данных, теряя обобщающую способность.
🔸 Снижение прироста качества — на первых итерациях каждое дерево значительно улучшает предсказания. Однако после определенного количества итераций добавление новых деревьев практически не влияет на качество.
🔸 Рост вычислительной сложности — больше деревьев → выше время инференса и потребление памяти.
Проверьте свои знания, ответив на 8 вопросов – https://proglib.io/w/b72093d4
🧐 Кому подойдет?
Разработчикам, которые знают любой объектно-ориентированный язык программирования и хотят углубиться в архитектурные паттерны.
🎮 Как проходит обучение?
В течение всего интенсива вы будете создавать игру «Звездные войны» и применять ключевые архитектурные паттерны. В процессе изучите:
– Как строить гибкую архитектуру, которая не замедляет разработку
– Как применять IoC-контейнеры и писать модульные тесты
– Как использовать SOLID за пределами ООП
– Как внедрять CI/CD и снижать технический долг
👉 Подробная программа обучения
А по промокоду
Please open Telegram to view this post
VIEW IN TELEGRAM
Почему AUC-ROC может вводить в заблуждение при несбалансированных данных
🔸 Не учитывает реальное соотношение классов — AUC-ROC показывает, насколько хорошо модель различает классы, но не отражает точность предсказаний для каждого из них. Если 99% данных — класс 0, модель может почти всегда предсказывать 0 и все равно получить высокий AUC.
🔸 Проблемы с интерпретацией — высокая AUC-ROC не всегда означает, что модель полезна. Например, если интересен именно редкий класс, важно понимать precision, recall и F1-score.
🔸 Не учитывает реальное соотношение классов — AUC-ROC показывает, насколько хорошо модель различает классы, но не отражает точность предсказаний для каждого из них. Если 99% данных — класс 0, модель может почти всегда предсказывать 0 и все равно получить высокий AUC.
🔸 Проблемы с интерпретацией — высокая AUC-ROC не всегда означает, что модель полезна. Например, если интересен именно редкий класс, важно понимать precision, recall и F1-score.
Как улучшить производительность модели с помощью отбора признаков
Отбор признаков (feature selection) — это процесс выбора наиболее значимых признаков для построения модели. Это помогает улучшить её производительность и снизить сложность.
❗ Слишком много признаков может привести к переобучению и увеличению времени обучения.
❗ Неинформативные или шумные признаки могут ухудшить результаты модели.
🔧 Методы отбора признаков:
- Использование методов фильтрации (например, корреляция, тесты на значимость).
- Применение методов обертывания (например, рекурсивный отбор признаков).
- Использование методов вложений (например, Lasso или дерево решений).
Отбор признаков (feature selection) — это процесс выбора наиболее значимых признаков для построения модели. Это помогает улучшить её производительность и снизить сложность.
❗ Слишком много признаков может привести к переобучению и увеличению времени обучения.
❗ Неинформативные или шумные признаки могут ухудшить результаты модели.
🔧 Методы отбора признаков:
- Использование методов фильтрации (например, корреляция, тесты на значимость).
- Применение методов обертывания (например, рекурсивный отбор признаков).
- Использование методов вложений (например, Lasso или дерево решений).
Почему корреляция не означает причинно-следственную связь
В анализе данных часто встречаются коррелирующие признаки, но это не значит, что один из них вызывает другой.
⚠️ Пример ловушки:
В жаркие дни продажи мороженого и количество утоплений растут одновременно. Их корреляция может быть высокой, но одно не вызывает другое — причиной является погода.
🔍 Как проверить причинность?
✅ Использовать эксперименты (A/B-тестирование).
✅ Применять каузальный анализ (например, метод двойных разностей).
✅ Изучать графовые модели зависимостей.
В анализе данных часто встречаются коррелирующие признаки, но это не значит, что один из них вызывает другой.
⚠️ Пример ловушки:
В жаркие дни продажи мороженого и количество утоплений растут одновременно. Их корреляция может быть высокой, но одно не вызывает другое — причиной является погода.
🔍 Как проверить причинность?
✅ Использовать эксперименты (A/B-тестирование).
✅ Применять каузальный анализ (например, метод двойных разностей).
✅ Изучать графовые модели зависимостей.
🤔 Основы математики в Machine Learning / Deep Learning
🗓 6 марта приглашаем вас на прямой эфир, где мы подробно разберем ряд Тейлора, собственные векторы и другие ключевые понятия в ML.
(ссылка)
🌟 Спикер: *Мария Горденко* – Старший преподаватель ФКН НИУ ВШЭ, НИТУ МИСИС, аспирант департамента анализа данных и искусственного интеллекта ФКН НИУ ВШЭ, а также преподаватель на курсе Алгоритмы и структуры данных в proglib academy.
Место работы: Инженер-программист, ведущий эксперт НИУ ВШЭ, цифровой ассистент и цифровой консультант НИУ ВШЭ.
😮 На вебинаре вы узнаете:
🔵 Теорию вероятностей: обсудим случайные величины, вероятность, математическое ожидание и дисперсию.
🔵 Линейную алгебру: изучим векторы, матрицы, собственные векторы и собственные значения.
🔵 Математический анализ: разберем производные и разложение функций в ряд Тейлора.
🔵 Практику: применим полученные знания на реальных кейсах из области Machine Learning и Deep Learning.
🎯 Почему это важно?
Понимание математических основ помогает глубже разобраться в работающих под капотом алгоритмах ML/DL и эффективно применять их на практике.
👉 Присоединяйтесь к нам и совершенствуйте свои навыки в машинном обучении!
📌 Регистрация по ссылке: https://proglib.io/w/98cb734d
🗓 6 марта приглашаем вас на прямой эфир, где мы подробно разберем ряд Тейлора, собственные векторы и другие ключевые понятия в ML.
(ссылка)
🌟 Спикер: *Мария Горденко* – Старший преподаватель ФКН НИУ ВШЭ, НИТУ МИСИС, аспирант департамента анализа данных и искусственного интеллекта ФКН НИУ ВШЭ, а также преподаватель на курсе Алгоритмы и структуры данных в proglib academy.
Место работы: Инженер-программист, ведущий эксперт НИУ ВШЭ, цифровой ассистент и цифровой консультант НИУ ВШЭ.
😮 На вебинаре вы узнаете:
🔵 Теорию вероятностей: обсудим случайные величины, вероятность, математическое ожидание и дисперсию.
🔵 Линейную алгебру: изучим векторы, матрицы, собственные векторы и собственные значения.
🔵 Математический анализ: разберем производные и разложение функций в ряд Тейлора.
🔵 Практику: применим полученные знания на реальных кейсах из области Machine Learning и Deep Learning.
🎯 Почему это важно?
Понимание математических основ помогает глубже разобраться в работающих под капотом алгоритмах ML/DL и эффективно применять их на практике.
👉 Присоединяйтесь к нам и совершенствуйте свои навыки в машинном обучении!
📌 Регистрация по ссылке: https://proglib.io/w/98cb734d
Почему среднее значение не всегда отражает суть данных
Среднее (mean) — одна из самых распространённых метрик в анализе данных, но его использование может привести к неверным выводам.
⚠️ Когда среднее вводит в заблуждение?
1. Выбросы сильно искажают результат (например, средняя зарплата в компании с одним миллиардером).
2. Смещение распределения — в асимметричных данных среднее может не отражать «типичное» значение.
3. Категориальные данные — нельзя усреднять, например, номера телефонов или географические координаты.
🔍 Что делать?
✅ Использовать медиану для устойчивости к выбросам.
✅ Смотреть на разброс данных (стандартное отклонение, IQR).
✅ Визуализировать распределение, а не полагаться только на одно число.
Среднее (mean) — одна из самых распространённых метрик в анализе данных, но его использование может привести к неверным выводам.
⚠️ Когда среднее вводит в заблуждение?
1. Выбросы сильно искажают результат (например, средняя зарплата в компании с одним миллиардером).
2. Смещение распределения — в асимметричных данных среднее может не отражать «типичное» значение.
3. Категориальные данные — нельзя усреднять, например, номера телефонов или географические координаты.
🔍 Что делать?
✅ Использовать медиану для устойчивости к выбросам.
✅ Смотреть на разброс данных (стандартное отклонение, IQR).
✅ Визуализировать распределение, а не полагаться только на одно число.
Forwarded from Библиотека питониста | Python, Django, Flask
💾 10 способов работы с большими файлами в Python, о которых ты не знал
Годнота для всех, кто работает с данными. Статья раскрывает разные подходы к обработке больших файлов — от простых итераторов до распределенных вычислений.
👍 Сохраняй себе, точно пригодится в работе: https://proglib.io/sh/VOcgo7w0W1
Годнота для всех, кто работает с данными. Статья раскрывает разные подходы к обработке больших файлов — от простых итераторов до распределенных вычислений.
👍 Сохраняй себе, точно пригодится в работе: https://proglib.io/sh/VOcgo7w0W1
Почему перемешивание данных может сломать модель
В машинном обучении перемешивание (shuffling) данных перед обучением модели часто считается хорошей практикой. Но в некоторых случаях это может привести к неожиданным ошибкам и ухудшению качества модели.
❗ Временные ряды → Если модель предсказывает будущее, перемешивание разрушит временную структуру. Решение: использовать time-based split.
❗ Группированные данные → Например, если данные по одному пользователю оказываются в train и test, это приведёт к утечке данных. Решение: делать групповую валидацию.
❗Последовательные зависимости → В задачах NLP или рекомендательных систем порядок данных может быть критичен.
В машинном обучении перемешивание (shuffling) данных перед обучением модели часто считается хорошей практикой. Но в некоторых случаях это может привести к неожиданным ошибкам и ухудшению качества модели.
❗ Временные ряды → Если модель предсказывает будущее, перемешивание разрушит временную структуру. Решение: использовать time-based split.
❗ Группированные данные → Например, если данные по одному пользователю оказываются в train и test, это приведёт к утечке данных. Решение: делать групповую валидацию.
❗Последовательные зависимости → В задачах NLP или рекомендательных систем порядок данных может быть критичен.
🧑💻 Статьи для IT: как объяснять и распространять значимые идеи
Напоминаем, что у нас есть бесплатный курс для всех, кто хочет научиться интересно писать — о программировании и в целом.
Что: семь модулей, посвященных написанию, редактированию, иллюстрированию и распространению публикаций.
Для кого: для авторов, копирайтеров и просто программистов, которые хотят научиться интересно рассказывать о своих проектах.
👉Материалы регулярно дополняются, обновляются и корректируются. А еще мы отвечаем на все учебные вопросы в комментариях курса.
Напоминаем, что у нас есть бесплатный курс для всех, кто хочет научиться интересно писать — о программировании и в целом.
Что: семь модулей, посвященных написанию, редактированию, иллюстрированию и распространению публикаций.
Для кого: для авторов, копирайтеров и просто программистов, которые хотят научиться интересно рассказывать о своих проектах.
👉Материалы регулярно дополняются, обновляются и корректируются. А еще мы отвечаем на все учебные вопросы в комментариях курса.
Forwarded from Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
Офер от Сбера за один клик 💼
Мечтаешь работать в Сбере, теперь это проще, чем когда-либо!
💡 AI-интервью за 15 минут – и ты уже на шаг ближе к своей новой работе.
Как получить офер?
📌 Зарегистрируйся
📌 Пройди AI-интервью
📌 Получи обратную связь сразу же!
После прохождения твои ответы получат рекрутеры и свяжутся с тобой в течение нескольких дней! 🚀
Реклама. ПАО СБЕРБАНК, ИНН 7707083893. Erid 2VtzqxS96Na
Мечтаешь работать в Сбере, теперь это проще, чем когда-либо!
💡 AI-интервью за 15 минут – и ты уже на шаг ближе к своей новой работе.
Как получить офер?
📌 Зарегистрируйся
📌 Пройди AI-интервью
📌 Получи обратную связь сразу же!
После прохождения твои ответы получат рекрутеры и свяжутся с тобой в течение нескольких дней! 🚀
Реклама. ПАО СБЕРБАНК, ИНН 7707083893. Erid 2VtzqxS96Na
Как избежать чрезмерной оптимизации гиперпараметров (hyperparameter tuning)
Часто на этапе настройки гиперпараметров (например, с помощью Grid Search или Random Search) можно столкнуться с перенастройкой модели, что приведет к плохой её обобщающей способности на новых данных.
Как избежать переоптимизации гиперпараметров?
✅ Использовать кросс-валидацию для оценки производительности модели на разных поднаборах данных.
✅ Применять рандомизированный поиск вместо полного перебора всех вариантов гиперпараметров, чтобы ускорить процесс.
✅ Настроить ограничения на количество итераций или время оптимизации.
Часто на этапе настройки гиперпараметров (например, с помощью Grid Search или Random Search) можно столкнуться с перенастройкой модели, что приведет к плохой её обобщающей способности на новых данных.
Как избежать переоптимизации гиперпараметров?
✅ Использовать кросс-валидацию для оценки производительности модели на разных поднаборах данных.
✅ Применять рандомизированный поиск вместо полного перебора всех вариантов гиперпараметров, чтобы ускорить процесс.
✅ Настроить ограничения на количество итераций или время оптимизации.
Как бы вы объяснили байесовский вывод человеку, который не знаком со статистикой
На собеседованиях по машинному обучению важно не только знать алгоритмы, но и уметь объяснять их простым языком.
Ключевые идеи байесовского вывода:
✔️ Мы начинаем с предварительных знаний о каком-то явлении (априорная вероятность).
✔️ Затем получаем новые данные, которые обновляют наше мнение.
✔️ Используем формулу Байеса для пересчёта вероятностей.
Представьте, что у вас есть зонт. Утром вы смотрите в окно: если идёт дождь, вероятность, что он продолжится, высокая. Но если в прогнозе написано, что дождь маловероятен, вы пересматриваете свою уверенность. Вы комбинируете предыдущие знания (погоду в это время года) и новые данные (прогноз, вид за окном), чтобы принять решение.
На собеседованиях по машинному обучению важно не только знать алгоритмы, но и уметь объяснять их простым языком.
Ключевые идеи байесовского вывода:
✔️ Мы начинаем с предварительных знаний о каком-то явлении (априорная вероятность).
✔️ Затем получаем новые данные, которые обновляют наше мнение.
✔️ Используем формулу Байеса для пересчёта вероятностей.
Представьте, что у вас есть зонт. Утром вы смотрите в окно: если идёт дождь, вероятность, что он продолжится, высокая. Но если в прогнозе написано, что дождь маловероятен, вы пересматриваете свою уверенность. Вы комбинируете предыдущие знания (погоду в это время года) и новые данные (прогноз, вид за окном), чтобы принять решение.
Что такое катастрофическое забывание (catastrophic forgetting) в нейронных сетях
Катастрофическое забывание — это явление, при котором нейронная сеть, обучаясь на новых данных, теряет знания, полученные из предыдущих данных. Это особенно критично для задач, где модель должна адаптироваться к изменяющимся условиям, например, в автономных системах, голосовых помощниках или адаптивных рекомендательных системах.
🔍 Причина проблемы:
Когда модель обучается на новых данных, её веса обновляются таким образом, что они начинают лучше соответствовать новым примерам, но при этом могут «перезаписать» ранее полученные знания, если нет механизма их сохранения.
Катастрофическое забывание — это явление, при котором нейронная сеть, обучаясь на новых данных, теряет знания, полученные из предыдущих данных. Это особенно критично для задач, где модель должна адаптироваться к изменяющимся условиям, например, в автономных системах, голосовых помощниках или адаптивных рекомендательных системах.
🔍 Причина проблемы:
Когда модель обучается на новых данных, её веса обновляются таким образом, что они начинают лучше соответствовать новым примерам, но при этом могут «перезаписать» ранее полученные знания, если нет механизма их сохранения.
Чем отличается std::vector::size() от std::vector::capacity()?
Anonymous Quiz
21%
size возвращает размер в байтах, capacity - количество элементов
63%
size возвращает количество элементов, capacity - максимально возможное количество без переаллокации
12%
size возвращает максимально возможное количество элементов, capacity - текущее количество
4%
Это одно и то же, просто разные названия для совместимости
Какие существуют атаки на модели машинного обучения?
🔹 Атаки с изменением входных данных (Adversarial Attacks) — небольшие изменения в данных, которые заставляют модель ошибаться (например, изменение пикселей на изображении может заставить нейросеть принять панду за гиббона).
🔹 Атаки с отравлением данных (Data Poisoning) — внесение вредоносных примеров в обучающий набор, чтобы модель училась неправильно.
🔹 Извлечение модели (Model Extraction) — злоумышленник создаёт копию вашей модели, отправляя ей множество запросов и анализируя ответы.
🔹 Атаки на конфиденциальность (Membership Inference) — попытка определить, использовались ли конкретные данные в обучении модели, что угрожает приватности пользователей.
🔹 Атаки с изменением входных данных (Adversarial Attacks) — небольшие изменения в данных, которые заставляют модель ошибаться (например, изменение пикселей на изображении может заставить нейросеть принять панду за гиббона).
🔹 Атаки с отравлением данных (Data Poisoning) — внесение вредоносных примеров в обучающий набор, чтобы модель училась неправильно.
🔹 Извлечение модели (Model Extraction) — злоумышленник создаёт копию вашей модели, отправляя ей множество запросов и анализируя ответы.
🔹 Атаки на конфиденциальность (Membership Inference) — попытка определить, использовались ли конкретные данные в обучении модели, что угрожает приватности пользователей.
В чем разница между Data Scientist и Machine Learning Engineer?
🔹 Data Scientist в первую очередь фокусируется на преобразовании бизнес-задач в задачи, основанные на данных, предлагает и прототипирует решения.
🔹 Machine Learning Engineer берет эти решения, превращает их в работающие алгоритмы и модели, развертывает и поддерживает их в продакшене.
🔹 Data Scientist в первую очередь фокусируется на преобразовании бизнес-задач в задачи, основанные на данных, предлагает и прототипирует решения.
🔹 Machine Learning Engineer берет эти решения, превращает их в работающие алгоритмы и модели, развертывает и поддерживает их в продакшене.
Forwarded from Proglib.academy | IT-курсы
🧮🔠 Математика в действии: решаем хитрые задачи по прогнозированию, оптимизации и логике
Статья, которая поможет развить навыки решения задач с помощью математики.
➡️ Вот что вас ждет
1️⃣ Прогнозирование численности населения — используем цепи Маркова для предсказания миграций между городом и пригородами.
2️⃣ Минимизация затрат — находим минимальное скалярное произведение векторов для оптимального распределения задач между работниками.
3️⃣ Машина времени — решаем задачу максимального числа пересекающихся временных интервалов с помощью заметающей прямой.
4️⃣ Алгоритм Целлера — вычисляем день недели по дате. Проверка на практике.
🔵 Хочешь прокачаться в математике для ML? Тогда разбирайся с этими задачами и не упусти вебинар: «Математика для ML: от теории к практике».
👉 Читать статью
Статья, которая поможет развить навыки решения задач с помощью математики.
👉 Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM