Библиотека собеса по Data Science | вопросы с собеседований 1051

Библиотека собеса по Data Science | вопросы с собеседований

👇

Зачем в машинном обучении иногда специально нарушают симметрию

Во многих моделях, особенно нейронных сетях, изначальная симметрия (одинаковая инициализация весов, одинаковая структура путей) может привести к тому, что все нейроны начинают учиться одинаково — и, по сути, дублируют друг друга. Это мешает сети извлекать разнообразные признаки и тормозит обучение.

Чтобы этого избежать, симметрию намеренно ломают — например, инициализируя веса случайными значениями, даже если структура одинаковая. Этот маленький хаос позволяет разным частям модели начать «думать» по-разному с самого старта и постепенно развивать разные специализации.

Симметрия красива в математике, но в обучении может быть смертельна: без разнообразия начальных состояний — нет разнообразия решений.

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2

579 views18:16

Библиотека собеса по Data Science | вопросы с собеседований

🧠 «Поиграйся с LLM, почитай про агентов — и сам поймёшь, как это работает»

Это один из самых бесполезных советов, который мы слышали в адрес тех, кто хочет разобраться в AI-агентах.

Поиграйся — это как?
Потыкать пару промптов в ChatGPT и решить, что теперь ты можешь строить мультиагентные системы? 🤡 Ну-ну.

AI-агенты — это не «очередная обёртка над GPT». Это архитектура. Состояния, инструменты, цепочки вызовов, память, оценка качества и адекватность поведения.

➡️ Чтобы разобраться, нужно:
— понимать, как устроен LLM под капотом
— уметь подключать внешние данные (RAG, retrievers, rerankers)
— уметь масштабировать и дебажить поведение агентов
— разбираться в фреймворках вроде AutoGen, CrewAI, LangChain
— знать, как всё это тащится в прод

Если вы реально хотите не «поиграться», а научиться собирать рабочие агентные системы — у нас стартует курс по разработке ИИ-агентов 5го июля

P.S: не упусти свой шанс, промокод: LASTCALL на 10.000₽

533 views19:00

Библиотека собеса по Data Science | вопросы с собеседований

😤 Пока вы думаете — остальные уже учатся строить системы, которые работают за них

⚡24 часа до старта курса по AI-агентам. Самое время задуматься о прокачке скиллов, потому что места ограничены!

Если вы до сих пор думаете, что LLM — это просто «вызов через API», то вы рискуете очень скоро оказаться за бортом индустрии.

Модели больше не в центре. Решают те, кто умеет собирать интеллектуальные системы, а не просто «дообучать модельку».

➡️ Что вы потеряете, если не впишетесь:
— навык, который уже востребован на рынке
— понимание, как из GPT сделать полноценного помощника, агента или продукт
— шанс догнать тех, кто уже перешёл на следующий уровень

📌 Курс стартует уже завтра
— 5 вебинаров, живая практика, код, разборы, продовые кейсы
— без «посмотрите статью», только то, что реально нужно

Спикеры: Никита Зелинский (МТС), Диана Павликова, Макс Пташник, Дима Фомин — те, кто реально собирает агентные системы, а не просто про них пишет.

❗Старт уже завтра — забронируйте место на курсе сейчас

504 views09:00

Библиотека собеса по Data Science | вопросы с собеседований

😎 Почему иногда используют «обманчиво плохую» loss-функцию на этапе обучения

Иногда для обучения выбирают лосс-функцию, которая не совпадает с целевой метрикой — и даже, на первый взгляд, плохо её отражает.

Это делается не по ошибке, а потому что:
— Целевая метрика негладкая или недифференцируемая, например, F1-score, Precision\@K, Accuracy. Их нельзя напрямую оптимизировать с помощью градиентного спуска.
— Взамен используют surrogate loss — «замещающую» функцию, которую можно эффективно минимизировать.
Например:

✔️

log-loss для классификации,

✔️

hinge loss для SVM,

✔️

MSE вместо MAE в регрессии.

Иногда surrogate loss вообще не похож на целевую метрику — и всё равно работает. Это парадокс: модель учится не по той метрике, которую мы хотим улучшить, но всё равно её улучшает.

Такой выбор — компромисс между математической удобством и практической целью. И это одна из причин, почему хорошие метрики ≠ хорошие loss-функции, и наоборот.

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1👍1

479 views18:04

Библиотека собеса по Data Science | вопросы с собеседований

🔥 Сегодня стартует курс по AI-агентам!

Онбординг уже сегодня, но ещё можно вписаться — ПОСЛЕДНИЙ ШАНС это сделать.

Мы больше года собирали мультиагентные системы: экспериментировали, переделывали и в итоге — оформили всё в 5 плотных вебинаров.

😤 «А можно ли вообще научиться чему-то за 5 вебинаров?!»

Если вы хотите просто послушать — нет
Если хотите разбираться и делать — да

➡️ На курсе:
— мы не читаем слайдики, а работаем в коде в реальном времени
— можно задавать вопросы прямо на вебинаре
— после каждого вебинара есть домашка и поддержка в чате

И главное — вы получаете системное понимание, а не набор хаотичных туториалов.

⚡️Если вы думаете, что успеете потом — не успеете.
Старт сегодня:
— а те, кто вписался сейчас, будут вас опережать — в проектах, на грейде и в зарплате

Знакомьтесь, эксперт нашего курса:
Никита Зелинский — Chief Data Scientist МТС, Head of ML Platforms, руководитель центра компетенций по Data Science.

❗Стартуем сегодня — забронируй свое место

546 views10:00

Библиотека собеса по Data Science | вопросы с собеседований

👉 Может ли модель машинного обучения быть «неправильно правой»

Да — и это довольно опасный случай. Модель может выдавать правильный результат, но по неправильной причине.

Примеры:
— Классическая история: модель для распознавания танков «научилась» отличать их от леса, но не по форме техники — а по погоде (все фото с танками были при пасмурной погоде, а без — в солнечную).
— Модель предсказывает болезнь, но оказывается, что она просто запомнила, в каких больницах делались анализы, а не сами медицинские показатели.

Это называется «shortcut learning» — когда модель ищет кратчайший путь к правильному ответу, даже если он бессмыслен с точки зрения задачи.

Почему это плохо:
— Модель может работать «правильно» на тесте, но провалиться в реальной жизни, когда нарушатся скрытые зависимости.
— В критичных сферах (медицина, право, финансы) это может привести к опасным решениям.

Библиотека собеса по Data Science

❤4👍3🌚1

606 views17:47

Библиотека собеса по Data Science | вопросы с собеседований

🔮 Можно ли считать, что модель, которая хорошо работает на данных прошлого, «понимает» будущее

Не совсем. Модель учится на исторических данных и выявляет в них закономерности. Но будущее может отличаться из-за новых факторов, изменений среды, смещения данных или неожиданных событий — это называется сдвигом распределения (data drift).

Поэтому даже высокая точность на старых данных не гарантирует успех в будущем. Модель «понимает» прошлое, но не обладает настоящим «интеллектом» или «прозрением». Чтобы быть надёжной, её нужно регулярно переобучать и тестировать на свежих данных.

Библиотека собеса по Data Science

❤2👍1

525 views17:43

Библиотека собеса по Data Science | вопросы с собеседований

🤔 Может ли модель машинного обучения «обмануть» нас, даже если метрики говорят, что всё хорошо

Да — и делает это довольно часто. Модель может демонстрировать отличные метрики, но при этом решать не ту задачу, которую мы ей на самом деле поставили.

Примеры:

1️⃣

Модель для автоматического отбора резюме может использовать косвенные признаки, связанные не с квалификацией, а с демографией — например, местом жительства или формулировками, типичными для определённых групп.

2️⃣

Модель для детекции токсичных комментариев может научиться просто игнорировать сленг или грамматические ошибки, если их нет в тренировке, и при этом «наказывать» культурные диалекты.

3️⃣

Модель детектирует трещины на снимках труб, но в обучающих данных почти все трещины были сфотографированы в солнечную погоду — и модель на самом деле распознаёт освещение, а не дефекты.

Формально — всё отлично: log-loss низкий, ROC-AUC высокий. Но по сути — модель научилась «читерить». Это называют спурием-корреляциями (spurious correlations) и data leakage.

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3👍2

505 views18:04

Библиотека собеса по Data Science | вопросы с собеседований

⏯

Зачем использовать функции потерь, нечувствительные к масштабу ошибки, например Huber loss, вместо стандартной MSE в регрессии

Среднеквадратичная ошибка (MSE) сильно штрафует большие отклонения, из-за чего становится очень чувствительной к выбросам. Один аномальный объект может доминировать в градиентах и «утащить» всю модель.

Huber loss — это гибрид MSE и MAE:

❇️

При малых ошибках она ведёт себя как MSE — гладко и удобно для градиентных методов.

❇️

При больших — как MAE, линейно, не позволяя выбросам слишком сильно влиять на обучение.

Это особенно полезно, когда:

❇️

Данные содержат редкие, но сильные шумы (например, сенсоры, человеческие ошибки, аномалии).

❇️

Вы хотите получить модель, устойчивую к искажениям, но всё ещё удобную для оптимизации.

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4

449 views17:49

Библиотека собеса по Data Science | вопросы с собеседований

❗ Первый вебинар нашего курса по AI-агентам уже прошёл!

Запись уже выложили на обучающей платформе — можно влетать и догонять с комфортом.

Первые слушатели уже оставили фидбэки — и, кажется, мы попали в точку:
— «теперь наконец понял, как выбирать модели под задачу — раньше брал первую попавшуюся»
— «без лишнего, по делу, в лайве — кайф»
— «огонь, ожидания 100% оправданы лично у меня»

Если хотели вписаться, но сомневались — ещё не поздно. Вебинары идут вживую, записи сохраняются, чат работает, материалы открыты.

⏳ Ещё можно догнать и пройти всё вместе с потоком.

👉 Залетай на курс

386 views16:42

Библиотека собеса по Data Science | вопросы с собеседований

❓ Зачем в задачах классификации можно использовать регрессию перед классификацией

Иногда полезно предсказать непрерывную «оценку» или счёт, а потом превратить её в классы. Это особенно актуально, когда границы между классами нечёткие или имеют порядок.

Примеры:

▶️

В задаче определения уровня токсичности (0 — «нейтрально», 1 — «слегка агрессивно», 2 — «очень токсично») можно сначала регрессировать «степень токсичности», а затем порогами разделить на классы. Это называется ordinal regression.

▶️

В медицинской диагностике — если заболевание имеет стадии, и они близки по смыслу, а не просто «класс 0/1», регрессия может дать более тонкие различия, чем жёсткая классификация.

Иногда модель классификации может быть уверена на 51% в одном классе и 49% в другом — и потерять важную информацию. Регрессионный подход позволяет сохранить нюансы.

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

👍7❤1🔥1

405 views18:07

Библиотека собеса по Data Science | вопросы с собеседований

👇 Зачем обучать модель на синтетически сгенерированных данных, если есть реальные

Синтетические данные могут показаться искусственными, но в некоторых ситуациях они становятся незаменимым инструментом, особенно когда:

➡️

Реальных данных мало, и модель склонна к переобучению. Синтетика помогает обобщить.

➡️

Некоторые сценарии в реальности редки, но критичны. Например, аварии в автономном вождении или сбои в медицине — их просто нет в нужном количестве в реальных логах.

➡️

Конфиденциальность или юридические ограничения. В здравоохранении, банках, телекомах реальные данные недоступны для открытой разработки — синтетические клоны могут сохранить статистику без утечки персональных данных.

➡️

Анализ worst-case behavior. Можно сгенерировать «провокационные» примеры, чтобы проверить, как модель реагирует на сложные случаи.

Важно: хорошие синтетические данные должны сохранять структуру, шум и вариативность реального мира, иначе они приведут к модели-иллюзии.

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3❤1

348 views18:02

Библиотека собеса по Data Science | вопросы с собеседований

🤔 Почему иногда стоит использовать заведомо переобученную модель, несмотря на риски

На первый взгляд, переобучение — это зло. Но в некоторых ситуациях сознательное переобучение может быть оправдано, если:

✅

Качество важнее обобщения. Например, если модель работает только на строго ограниченном наборе данных (внутри одной компании, устройства, клиента), и обобщение на внешний мир не требуется.

✅

Переобученная модель используется как слабый компонент в ансамбле. Boosting часто строит переобученные деревья, которые в совокупности дают устойчивую модель.

✅

Нужно вытянуть максимум информации из сложных и «богатых» данных. Иногда регуляризация отрезает важные высокоуровневые зависимости. Переобученная модель может их уловить — главное, вовремя остановиться.

✅

Переобученная модель как инструмент анализа. Например, чтобы изучить, какие признаки «зашумлены», какие корреляции неустойчивы — переобучение может показать слабые места в данных.

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

👍1

215 views18:01

2025/07/12 10:42:53
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.bootg.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>