Библиотека собеса по Data Science | вопросы с собеседований

Почему обычная k-fold кросс-валидация не подходит для временных рядов?

Anonymous Quiz

Она слишком медленная

Временные ряды не имеют признаков

Она работает только для линейных моделей

84%

Разбиение на случайные фолды может вызвать утечку информации

👍2

201 voters683 views09:06

Библиотека собеса по Data Science | вопросы с собеседований

Модель была идеально откалибрована с помощью temperature scaling на исходном распределении. После дрейфа данных калибровка резко ухудшается, хотя ROC-AUC остаётся прежним. Почему это возможно?

Anonymous Quiz

89%

ROC-AUC не чувствителен к сдвигу вероятностей, а только к ранжированию

Temperature scaling автоматически адаптируется к дрейфу

Калибровка и AUC всегда ухудшаются одновременно

ROC-AUC ухудшается раньше, чем калибровка

❤2

149 voters657 views18:58

Библиотека собеса по Data Science | вопросы с собеседований

🤖 Раньше в AI мог попасть любой, кто осилил пару туториалов.

Теперь нужны те, кто может объяснить:

→ почему эта архитектура сработает, а та — нет;
→ что происходит внутри модели, когда она не сходится;
→ как найти решение, а не перебирать гиперпараметры наугад.

Все эти навыки требуют понимания того, как и почему работают модели. А это чистая математика.

🔥 Proglib Academy запускает курс «Математика для разработки AI-моделей». Ведут эксперты из SberAI, ВШЭ, Т-Банк, Wildberries.

📝 Что внутри?

→ 2 месяца живых занятий с возможностью задавать вопросы напрямую.
→ Практика на Python. Не теория в вакууме, а применение.
→ 3 домашних задания + финальный проект с детальным разбором.

⏰ Старт 4 декабря

⌛ Только до конца ноября:
→ Скидка 40%;
→ Курс «Школьная математика» в подарок;
→ Тест на определение уровня математики.

🎄 Сделай себе подарок на Новый год

717 views15:01

Библиотека собеса по Data Science | вопросы с собеседований

Почему Adam может переобучаться быстрее, чем SGD, на шумных данных при одинаковой архитектуре?

Anonymous Quiz

Adam использует глобальный шаг обучения

75%

Adam увеличивает шаги в шумных направлениях благодаря перпараметризованной адаптации

SGD всегда уходит в плоские минимумы

11%

Adam не использует нормализацию градиента

❤3

193 voters768 views19:04

Библиотека собеса по Data Science | вопросы с собеседований

Почему даже rolling-window CV может давать leakage?

Anonymous Quiz

Это невозможно

18%

Rolling-window использует слишком маленькие тестовые окна

12%

CV всегда даёт leakage

68%

Если target leakage скрыт в engineered features (например, future-based statistics)

❤1

339 voters2.13K views18:35

Библиотека собеса по Data Science | вопросы с собеседований

Почему MAE более устойчива к шуму меток, чем MSE, но часто обучается медленнее?

Anonymous Quiz

83%

MAE имеет константный градиент и не усиливает большие ошибки

MSE не выпукла

MAE зависит от Learning Rate

MSE автоматически игнорирует шум

❤2👍1

254 voters743 views18:49

Библиотека собеса по Data Science | вопросы с собеседований

Почему Bayesian Neural Networks могут по-прежнему быть плохо откалиброваны?

Anonymous Quiz

Байесовские модели всегда идеальны

46%

VI и Laplace-аппроксимации дают слишком узкие апостериоры

16%

Байесовские методы запрещают регуляризацию

32%

Байесовская неопределённость = aleatoric uncertainty

142 voters672 views18:20

Библиотека собеса по Data Science | вопросы с собеседований

🔬 Вы когда-нибудь смотрели на код и думали: «Работает, но почему?»

А теперь представьте, что вы:

→ понимаете, почему модель учится слишком медленно или слишком быстро;
→ видите, какие данные реально влияют на предсказание, а какие — шум;
→ знаете, что происходит внутри нейронки.

4 декабря стартует курс «Математика для разработки AI-моделей».

Линал, оптимизация, матан, статистика — всё, что происходит внутри модели между input и output. Практика на Python. Живые разборы с экспертами из SberAI, ВШЭ, Wildberries&Russ.

3 задания + финальный проект. Без теории ради теории — только то, что реально используется в моделях.

🎁 Бонус: курс по школьной математике + тест уровня математики

👉 Записаться

736 views19:00

Библиотека собеса по Data Science | вопросы с собеседований

Площадь под ROC-кривой (AUC-ROC) для классификатора равна 0.50. Что это означает?

Anonymous Quiz

Модель является идеальным классификатором.

Модель работает лучше, чем случайное угадывание.

10%

Это означает, что Precision и Recall равны 0.50.

86%

Модель работает не лучше, чем случайное угадывание.

❤1

258 voters680 views18:18

Библиотека собеса по Data Science | вопросы с собеседований

В задаче бинарной классификации, что произойдет с метрикой Recall (Полнота) модели, если мы значительно понизим порог классификации (threshold)?

Anonymous Quiz

19%

Recall уменьшится, Precision (Точность) увеличится.

Обе метрики (Recall и Precision) увеличатся.

71%

Recall увеличится, Precision (Точность) уменьшится.

Обе метрики (Recall и Precision) уменьшатся.

❤1

207 voters602 views18:27

Библиотека собеса по Data Science | вопросы с собеседований

Вы работаете с категориальным признаком City (Город), который содержит более 1000 уникальных значений. Какой из перечисленных методов кодирования чаще всего используется в Data Science для работы с высококардинальными категориальными признаками

Anonymous Quiz

22%

Label Encoding

30%

Target Encoding (Mean Encoding)

33%

Frequency Encoding (Count Encoding)

16%

One-Hot Encoding

👍3

227 voters580 views16:59

Библиотека собеса по Data Science | вопросы с собеседований

Какой из перечисленных ниже сценариев наиболее явно указывает на то, что ваша модель машинного обучения страдает от сильного переобучения (overfitting)?

Anonymous Quiz

Высокая точность (95%) на обучающей выборке и высокая точность (93%) на тестовой выборке.

Низкая точность (60%) на обучающей выборке и низкая точность (58%) на тестовой выборке.

95%

Высокая точность (98%) на обучающей выборке и низкая точность (65%) на тестовой выборке.

Низкая точность (65%) на обучающей выборке и высокая точность (98%) на тестовой выборке.

👍3

222 voters543 views19:40

Библиотека собеса по Data Science | вопросы с собеседований

Почему вас валят на собесах по ML?

Чаще всего не из-за незнания fit/predict , а из-за непонимания математики, которая стоит за этими методами.

Мы перезапустили курс с живыми вебинарами, чтобы закрыть эти пробелы. Глубокое погружение в линейную алгебру.

Ближайшие темы (Hard Skills):

— Матрицы: ранг, обратимость, линейные преобразования и решение СЛАУ.

— Линейная регрессия: реализация МНК с нуля в NumPy vs scikit-learn , интерпретация коэффициентов.

— SVD и Eigenvalues: смысл собственных векторов, снижение размерности и построение рек. систем.

Вы научитесь не просто «тюнить параметры», а понимать физический смысл операций.

Вход в поток до 9 декабря.
https://clc.to/LojFzw

545 views12:38

Библиотека собеса по Data Science | вопросы с собеседований

Вы обучаете модель Логистической регрессии, и она показывает низкую точность как на обучающей, так и на тестовой выборках. Вы решаете добавить L2. Какого результата следует ожидать?

Anonymous Quiz

17%

Точность модели на обеих выборках увеличится, так как регуляризация борется с недообучением.

67%

Точность, скорее всего, уменьшится или останется прежней, т.к. модель уже страдает от смещения.

Разрыв между точностью на обучающей и тестовой выборках увеличится, указывая на переобучение.

Модель начнет использовать только самые важные признаки (Feature Selection), что не связано с L2.

👍1

222 voters529 views19:17

Библиотека собеса по Data Science | вопросы с собеседований

Вы используете алгоритм K-Means. Вы визуализировали результат и заметили, что два ваших кластера перекрываются в форме полумесяцев.

Какова наиболее вероятная причина такого поведения?

Anonymous Quiz

15%

K-Means чувствителен к наличию категориальных признаков.

K-Means страдает от проблемы исчезающего градиента.

51%

K-Means предполагает, что кластеры имеют выпуклую форму.

27%

K-Means требует ручного указания количества кластеров ($k$).

👍1

171 voters453 views18:44

Библиотека собеса по Data Science | вопросы с собеседований

Готовитесь к собеседованию в AI?

Вопросы по математической базе — стандартный этап отбора на позиции Data Scientist и ML Engineer. Вас спросят не только про код, но и про то, как работают алгоритмы «под капотом».

Прокачайте хард-скиллы на обновленном курсе «Математика для разработки AI-моделей».

Важный апдейт:

— теперь обучение включает живые вебинары;

— первый прошел, но второй стартует сегодня, 9 декабря;

— это шанс разобрать сложные вопросы с экспертами в прямом эфире.

Что внутри:

— линейная алгебра;

— матанализ;

— теория вероятностей.

Успейте присоединиться к потоку

444 views11:59

Библиотека собеса по Data Science | вопросы с собеседований

Какая проблема возникает, когда распределение входных данных (признаков X) в тестовой среде отличается от распределения, на котором обучалась модель, но при этом связь между входными данными и целевой переменной (P(Y∣X)) остается неизменной?

Anonymous Quiz

18%

Дисперсионный сдвиг (Variance Shift)

25%

Дисперсионный сдвиг (Variance Shift)

18%

Сдвиг метки (Label Shift)

38%

Ковариатный сдвиг (Covariate Shift)

👍1

142 voters436 views18:54

Библиотека собеса по Data Science | вопросы с собеседований

Вы обучаете глубокую нейронную сеть, которая показывает 99% точности на обучающей выборке, но всего 70% на тестовой. Какое из следующих действий, скорее всего, поможет снизить переобучение (overfitting), не требуя сбора новых данных?

Anonymous Quiz

77%

Применить Dropout к скрытым слоям нейронной сети.

Использовать более простую функцию активации, например, сигмоиду вместо ReLU.

Уменьшить степень регуляризации $\lambda$ в функции потерь.

Удалить все признаки с низкой дисперсией (Low Variance).

179 voters409 views18:26

Библиотека собеса по Data Science | вопросы с собеседований

Вы строите модель и обнаруживаете, что хотя общая метрика производительности высока, индивидуальные p-значения большинства ваших переменных незначимы, а коэффициенты (weights) модели демонстрируют высокую чувствительность к небольшим изменениям в данных.

Anonymous Quiz

32%

Гетероскедастичность (Heteroscedasticity)

Недообучение (Underfitting)

49%

Мультиколлинеарность (Multicollinearity)

11%

Автокорреляция остатков (Autocorrelation of Residuals)

❤2

114 voters338 views17:48

Библиотека собеса по Data Science | вопросы с собеседований

Вы используете SVM для классификации, но обнаружили, что данные не являются линейно разделимыми в исходном пространстве признаков.

Какая техника позволяет SVM классифицировать нелинейные данные, не увеличивая явно размерность пространства?

Anonymous Quiz

61%

Ядерный трюк (Kernel Trick)

11%

Эластичная сеть (Elastic Net Regularization)

24%

Снижение размерности с помощью PCA

Случайная подвыборка признаков (Random Subspace)

❤1

82 voters194 views16:52

2025/12/12 23:21:30
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.bootg.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>