Библиотека собеса по Data Science | вопросы с собеседований

❗ В чем недостатки методов обнаружения аномалий на основе плотности

Методы, такие как Local Outlier Factor (LOF), определяют аномалии по плотности данных, но сталкиваются с рядом проблем:

🔹 Проклятие размерности — в многомерных данных плотность теряет смысл.

🔹 Чувствительность к параметрам — требуется точная настройка гиперпараметров.

🔹 Сложности с разными кластерами — могут ошибаться при разной плотности данных.

🔹 Высокая вычислительная сложность — плохо масштабируются на больших данных.

🔹 Ограниченная интерпретируемость — трудно объяснить, почему точка считается выбросом.

Библиотека собеса по Data Science

840 views18:02

Библиотека собеса по Data Science | вопросы с собеседований

Как получить эмбеддинги предложений из эмбеддингов слов

Для формирования эмбеддингов предложений используются следующие методы:

▪️ Среднее по словам — усреднение эмбеддингов всех слов в предложении.

▪️ Взвешенное усреднение — учет значимости слов с помощью весов (например, TF-IDF).

▪️ Модели для предложений — использование специализированных нейросетей, таких как Sentence-BERT или Sentence Transformers.

💡 Лучший подход зависит от задачи — простые методы подходят для базовых приложений, а нейросетевые модели обеспечивают более точное представление смысла.

Библиотека собеса по Data Science

854 views18:02

Библиотека собеса по Data Science | вопросы с собеседований

Forwarded from Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🤖 IT-выживание 2025: как не вылететь с рынка труда в эпоху LLM

В 2025-м айтишникам приходится несладко: старые скиллы уже не в цене, LLM наступают на пятки, а работодатели хотят все и сразу.

👍 Делимся инсайдами, как выжить в новой реальности и не потерять работу в эпоху тотальной оптимизации.

👉 Ссылка на статью: https://proglib.io/sh/zEruLHxYno

Библиотека дата-сайентиста

599 views10:16

Библиотека собеса по Data Science | вопросы с собеседований

Что такое токен в NLP и какие существуют методы токенизации

🔹 Токен — это наименьшая единица текста, которая может быть словом, подсловом (например, «un-», «friend») или знаком препинания.

🔹 Популярные методы токенизации:

1. Токенизация на уровне слов — делит текст на отдельные слова.

2. Токенизация на уровне подслов — разбивает слова на более мелкие единицы (например, BPE, WordPiece).

3. Токенизация на уровне символов — превращает текст в последовательность отдельных символов.

⚡ Выбор метода зависит от задачи: для морфологически сложных языков часто используют подсловную токенизацию, а для обработки именованных сущностей — посимвольную.

Библиотека собеса по Data Science

2.4K views18:44

Библиотека собеса по Data Science | вопросы с собеседований

💬

Как оставлять комментарии в чате нашего канала

В нашем чате работает бот Shieldy — он защищает от спама, запрашивая у новых участников решение простой капчи.

⚠️ Проблема, с которой сталкиваются многие: вы нажимаете под постом «Прокомментировать», пишете что-то, а потом получаете бан и не можете писать комментарии.

❓Почему так: Shieldy отправляет капчу в сам чат, а не в комментарии под конкретный пост. Из-за этого капчу можно не увидеть, не отправить ответ на нее, и бот автоматически заблокирует вас.

✅

Как присоединиться к чату, чтобы бот вас не забанил

— Зайдите в описание канала с телефона и нажмите кнопку Discuss / Чат
— Нажмите Join / Присоединиться
— Сразу обратите внимание на сообщение от бота Shieldy
— Решите простой пример и отправьте ответ в чат

После этого бот отправит приветственное сообщение и вы сможете оставлять комментарии. Эту проверку нужно пройти только один раз при вступлении в чат.

❗️ Если вас все-таки забанили

— Это временная блокировка на несколько минут
— Подождите и попробуйте зайти позже, бот снова отправит вам капчу

Админы канала никак не могут ускорить процесс, бот автоматически снимает с вас блокировку через пару минут. Мы понимаем, что эта система неидеальна, и ищем более удобное решение.

👾 Спасибо, что активно участвуете в обсуждении наших постов!

Please open Telegram to view this post

VIEW IN TELEGRAM

822 viewsedited 10:44

Библиотека собеса по Data Science | вопросы с собеседований

Что такое аккумулирование градиентов и как оно влияет на Batch Normalization

🔹 Gradient Accumulation — это метод, при котором градиенты суммируются в течение нескольких шагов перед обновлением весов. Он полезен, когда память ограничена и нельзя использовать большие батчи.

Преимущества:

▪️ Позволяет эффективно обучать модели на малом объеме памяти.

▪️ Увеличивает эффективный размер батча, что стабилизирует градиенты.

Влияние на Batch Normalization:

▪️ Batch Normalization рассчитывает статистики (среднее и дисперсию) внутри одного батча. При аккумулировании градиентов батчи становятся меньше, что может привести к менее стабильному обучению.

Как решить проблему?
▪️

Использовать Layer Normalization, которая нормализует данные внутри каждого отдельного примера, а не по батчу.

Библиотека собеса по Data Science

901 views18:01

Библиотека собеса по Data Science | вопросы с собеседований

📊 Собес по Data Science: 10 вопросов, которые разделяют джунов от мидлов

Готовишься к интервью? Мы собрали 10 каверзных вопросов, которые любят задавать тимлиды. Здесь нет банальных задач — только те, на которых спотыкаются 80% кандидатов. Проверь себя и узнай, готов ли ты к следующему собесу!

👌 Пройти тест

Библиотека собеса по Data #свежак

813 viewsedited 11:01

Библиотека собеса по Data Science | вопросы с собеседований

Подходит ли алгоритм K-Nearest Neighbors (KNN) для работы с большими данными

Проблемы KNN на больших данных:
🔹

Высокая вычислительная сложность: поиск ближайших соседей требует сравнения нового объекта со всеми точками обучающего набора, что занимает O(N m) операций (N — количество образцов, m — число признаков).

🔹 Большое потребление памяти: модель хранит весь обучающий набор, что создает проблемы со storage и обработкой.

Оптимизации для ускорения KNN:

🔹 Приближенный поиск (ANN) — использование KD-деревьев, Ball Tree или других структур данных для ускорения поиска.

🔹 Снижение размерности — применение PCA или автоэнкодеров для уменьшения числа признаков.

🔹 Гибридные методы — предварительная кластеризация перед применением KNN или сочетание с деревьями решений.

Альтернатива:
🔹

В продакшене чаще выбирают Random Forest, XGBoost или нейросети, которые после обучения работают быстрее.

Библиотека собеса по Data Science

893 views17:59

Библиотека собеса по Data Science | вопросы с собеседований

Как DBSCAN справляется с разной плотностью кластеров

🔹 Проблема:

DBSCAN предполагает, что плотность кластеров относительно равномерна. Если кластеры имеют различную плотность, единое значение eps (радиус окрестности) может не подойти ко всем группам.

🔹 Решение:

1. Hierarchical DBSCAN — расширяет DBSCAN, позволяя находить кластеры с разной плотностью.

2. OPTICS — сортирует точки по плотности, выявляя структуру кластеров с разными масштабами.

🔹 Вывод:

Для данных с сильно различающейся плотностью DBSCAN можно заменить или дополнить OPTICS/Hierarchical DBSCAN.

Библиотека собеса по Data Science

806 views18:05

Библиотека собеса по Data Science | вопросы с собеседований

Зимний режим OFF. Весна начинается с апгрейда.

Если чувствуешь, что за зиму навыки подзастыли — пора их разморозить.

📦 Включили весеннюю распродажу: скидка –35% на курсы до конца марта.

Выбирай направление и выходи из спячки:

— Алгоритмы и структуры данных — чтобы собеседования в Яндекс, Ozon и другие были как уровень easy

— Математика для Data Science — для тех, кто не хочет просто «жать на кнопки», а понимать, что под капотом

— Архитектуры и шаблоны — если хочется мыслить как senior и прокачать системное мышление

— Python, Frontend, основы IT — для тех, кто стартует путь в разработке

👾 Proglib Academy — это как старая добрая 8-битная игра, но вместо врагов — практические задачи и собеседования.

Мы просто упаковали сложное обучение в пиксельную обёртку, чтобы тебе было чуть веселее прокачиваться.

🧠 Отогревай мозги, прокачивай скиллы и хватай свой power-up до конца марта.

👉 Выбрать курс

683 views07:11

Библиотека собеса по Data Science | вопросы с собеседований

Всегда ли проклятие размерности влияет на высокоразмерные данные

🔹 Проклятие размерности обычно проявляется в данных, которые не являются разреженными или не имеют структуры в виде низкоразмерного многообразия.

🔹 Если данные лежат на низкоразмерном многообразии или содержат взаимосвязанные признаки, методы вроде отбора признаков или обучения многообразий могут уменьшить его влияние.

🔹 Однако, если все измерения значимы и некоррелированы, задачи анализа данных, такие как кластеризация, становятся значительно сложнее.

Библиотека собеса по Data Science

690 views18:04

Библиотека собеса по Data Science | вопросы с собеседований

Как учесть дисбаланс классов в функции потерь

В задачах классификации с сильным дисбалансом стандартные функции потерь, такие как кросс-энтропия, могут приводить к тому, что модель преимущественно предсказывает большинство классов. Чтобы исправить это, применяют:

🔹 Взвешивание функции потерь — ошибки на редких классах штрафуются сильнее, например, с помощью весовой кросс-энтропии.

🔹 Focal Loss — модификация кросс-энтропии, которая уменьшает вклад легко классифицируемых примеров и фокусируется на сложных.

🔹 Манипуляции с данными — увеличение числа примеров редкого класса (oversampling) или уменьшение числа примеров частого класса (undersampling) для выравнивания распределения.

Библиотека собеса по Data Science

632 views18:03

Библиотека собеса по Data Science | вопросы с собеседований

Forwarded from Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

💪 Прокачай Power BI: создаем bullet-chart для наглядного сравнения данных

🎯 Устали от вопросов типа «Ну и что это значит для бизнеса?» после презентации отчетов?

Bullet-chart — мощный инструмент, который сразу показывает, насколько фактические показатели соответствуют целевым. В этой статье разберем, как правильно читать такой график и шаг за шагом создадим его в Power BI.

Готовы визуализировать данные так, чтобы они говорили сами за себя?

🔗 Тогда поехали, ссылка на статью: https://proglib.io/sh/hcrRdAuqT5

Библиотека дата-сайентиста

Please open Telegram to view this post

VIEW IN TELEGRAM

403 views14:35

Библиотека собеса по Data Science | вопросы с собеседований

Как label smoothing изменяет ландшафт функции кросс-энтропии и почему это улучшает обобщающую способность модели

Label smoothing заменяет строгое one-hot представление меток, уменьшая вероятность правильного класса с 1.0 до (1 — epsilon) (например, 0.9) и равномерно распределяя (epsilon) между остальными классами. Это снижает излишнюю уверенность модели в предсказаниях, что улучшает ее способность к обобщению и уменьшает переобучение.

Основные эффекты label smoothing:

🔹 Смягчение штрафа за ошибки — градиенты становятся более стабильными, что предотвращает резкие скачки обучения.

🔹 Снижение переуверенности модели — уменьшает вероятность резких предсказаний (например, 0.99 vs. 0.01).

🔹 Улучшение обобщающей способности — модель не запоминает данные, а учится выявлять более общие закономерности.

Label smoothing активно используется в передовых моделях для обработки изображений и текста (например, в Transformers) и является простой, но эффективной техникой регуляризации.

Библиотека собеса по Data Science

745 views18:01

Библиотека собеса по Data Science | вопросы с собеседований

Какие ограничения можно добавить в функцию стоимости на практике

В реальных задачах можно учитывать различные ограничения:

▪️ Физические ограничения — например, в моделях физических процессов можно добавить штраф за нарушение законов сохранения энергии или массы.
▪️ Ресурсные ограничения — в рекомендательных системах можно ограничивать бюджет рекомендаций или обеспечивать справедливость, штрафуя за отклонения от заданных метрик.
▪️ Чувствительность к риску — в финансовых моделях можно добавить штраф за высокие риски, например, используя Value at Risk (VaR) или Conditional Value at Risk (CVaR).

Библиотека собеса по Data Science

746 views19:31

Библиотека собеса по Data Science | вопросы с собеседований

Как выбрать подходящие коэффициенты веса для многозадачных функций потерь

В большинстве случаев коэффициенты веса для многозадачных функций потерь подбираются с помощью эмпирической настройки гиперпараметров. Однако существуют и автоматизированные подходы, такие как:

🔹 GradNorm, который автоматически обучает веса, балансируя величины градиентов для каждой задачи.

🔹 Веса на основе неопределенности, где вес каждой задачи обратно пропорционален оценке ее шума или неопределенности.

Модели могут итеративно настраивать эти веса в процессе обучения. Лучший подход часто зависит от конкретных задач, объема данных и вычислительных ограничений.

Библиотека собеса по Data Science

809 views18:02

Библиотека собеса по Data Science | вопросы с собеседований

удалил(-а) Вас из группы

775 views10:27

Библиотека собеса по Data Science | вопросы с собеседований

Как обеспечить устойчивость модели при появлении новых неизвестных признаков

▪️ Мониторинг данных — отслеживайте распределение признаков в продакшене, чтобы выявлять новые категории или признаки. Автоматические проверки помогут зафиксировать изменения.

▪️ Регулярное переобучение — настройте процесс периодического обновления модели, если новые признаки становятся значимой частью данных.

▪️ Эмбеддинги и хеширование — используйте методы, которые позволяют корректно обрабатывать ранее неизвестные категории.

▪️ Резервные представления — для неизвестных признаков можно использовать «unknown embedding» или специальный индекс, пока модель не будет обновлена.

Библиотека задач по Data Science

473 views18:03

Библиотека собеса по Data Science | вопросы с собеседований

Forwarded from Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🪄 Визуальные вычисления в Power BI: прокачиваем условное форматирование

Теперь настраивать условное форматирование в Power BI можно без сложных DAX-формул!

Разбираем, как новые визуальные вычисления помогают создавать динамичные, адаптивные и стильные отчеты, которые мгновенно реагируют на изменения данных.

⭐️ Пора сделать отчеты действительно интерактивными!

🔗

Ссылка на статью: https://proglib.io/sh/lsb0fEuYSv

Библиотека дата-сайентиста

Please open Telegram to view this post

VIEW IN TELEGRAM

219 views08:43

Библиотека собеса по Data Science | вопросы с собеседований

Как снижение размерности влияет на One-vs-Rest и One-vs-One

🔹 One-vs-Rest (OVR):

— Чувствителен к выбору признаков, так как каждый классификатор выделяет один класс против всех остальных.

— Если убрать важные признаки, отличающие класс, модель может ухудшить предсказания.

— Глобальное снижение размерности (например, PCA) может потерять информацию, важную для отдельных классов.

🔹 One-vs-One (OVO):

— Каждый классификатор фокусируется только на двух классах, поэтому локальный отбор признаков может дать лучшее разделение.

— Разные классификаторы могут использовать разные наборы признаков, что требует сложного управления.

— При большом числе классов возможно переобучение из-за небольших выборок для каждой пары.

⚡ Итог:

При OVR полезно использовать глобальное снижение размерности, но с осторожностью. При OVO можно применять локальный отбор признаков, но важно избегать переобучения.

Библиотека собеса по Data Science

234 views18:52

2025/04/03 01:03:50
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.bootg.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>