bootg.com »
United States »
Библиотека собеса по Data Science | вопросы с собеседований » Telegram Web
Во многих моделях, особенно нейронных сетях, изначальная симметрия
Чтобы этого избежать,
Симметрия красива в математике, но в обучении может быть
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2
🧠 «Поиграйся с LLM, почитай про агентов — и сам поймёшь, как это работает»
Это один из самых бесполезных советов, который мы слышали в адрес тех, кто хочет разобраться в AI-агентах.
Поиграйся — это как?
Потыкать пару промптов в ChatGPT и решить, что теперь ты можешь строить мультиагентные системы? 🤡 Ну-ну.
AI-агенты — это не «очередная обёртка над GPT». Это архитектура. Состояния, инструменты, цепочки вызовов, память, оценка качества и адекватность поведения.
➡️ Чтобы разобраться, нужно:
— понимать, как устроен LLM под капотом
— уметь подключать внешние данные (RAG, retrievers, rerankers)
— уметь масштабировать и дебажить поведение агентов
— разбираться в фреймворках вроде AutoGen, CrewAI, LangChain
— знать, как всё это тащится в прод
Если вы реально хотите не «поиграться», а научиться собирать рабочие агентные системы — у нас стартует курс по разработке ИИ-агентов 5го июля
P.S: не упусти свой шанс, промокод:LASTCALL на 10.000₽
Это один из самых бесполезных советов, который мы слышали в адрес тех, кто хочет разобраться в AI-агентах.
Поиграйся — это как?
Потыкать пару промптов в ChatGPT и решить, что теперь ты можешь строить мультиагентные системы? 🤡 Ну-ну.
AI-агенты — это не «очередная обёртка над GPT». Это архитектура. Состояния, инструменты, цепочки вызовов, память, оценка качества и адекватность поведения.
➡️ Чтобы разобраться, нужно:
— понимать, как устроен LLM под капотом
— уметь подключать внешние данные (RAG, retrievers, rerankers)
— уметь масштабировать и дебажить поведение агентов
— разбираться в фреймворках вроде AutoGen, CrewAI, LangChain
— знать, как всё это тащится в прод
Если вы реально хотите не «поиграться», а научиться собирать рабочие агентные системы — у нас стартует курс по разработке ИИ-агентов 5го июля
P.S: не упусти свой шанс, промокод:
😤 Пока вы думаете — остальные уже учатся строить системы, которые работают за них
⚡24 часа до старта курса по AI-агентам. Самое время задуматься о прокачке скиллов, потому что места ограничены!
Если вы до сих пор думаете, что LLM — это просто «вызов через API», то вы рискуете очень скоро оказаться за бортом индустрии.
Модели больше не в центре. Решают те, кто умеет собирать интеллектуальные системы, а не просто «дообучать модельку».
➡️ Что вы потеряете, если не впишетесь:
— навык, который уже востребован на рынке
— понимание, как из GPT сделать полноценного помощника, агента или продукт
— шанс догнать тех, кто уже перешёл на следующий уровень
📌 Курс стартует уже завтра
— 5 вебинаров, живая практика, код, разборы, продовые кейсы
— без «посмотрите статью», только то, что реально нужно
Спикеры: Никита Зелинский (МТС), Диана Павликова, Макс Пташник, Дима Фомин — те, кто реально собирает агентные системы, а не просто про них пишет.
❗Старт уже завтра — забронируйте место на курсе сейчас
⚡24 часа до старта курса по AI-агентам. Самое время задуматься о прокачке скиллов, потому что места ограничены!
Если вы до сих пор думаете, что LLM — это просто «вызов через API», то вы рискуете очень скоро оказаться за бортом индустрии.
Модели больше не в центре. Решают те, кто умеет собирать интеллектуальные системы, а не просто «дообучать модельку».
➡️ Что вы потеряете, если не впишетесь:
— навык, который уже востребован на рынке
— понимание, как из GPT сделать полноценного помощника, агента или продукт
— шанс догнать тех, кто уже перешёл на следующий уровень
📌 Курс стартует уже завтра
— 5 вебинаров, живая практика, код, разборы, продовые кейсы
— без «посмотрите статью», только то, что реально нужно
Спикеры: Никита Зелинский (МТС), Диана Павликова, Макс Пташник, Дима Фомин — те, кто реально собирает агентные системы, а не просто про них пишет.
❗Старт уже завтра — забронируйте место на курсе сейчас
😎 Почему иногда используют «обманчиво плохую» loss-функцию на этапе обучения
Иногда для обучения выбирают лосс-функцию, котораяне совпадает с целевой метрикой — и даже, на первый взгляд, плохо её отражает.
Это делается не по ошибке, а потому что:
—Целевая метрика негладкая или недифференцируемая, например, F1-score, Precision\@K, Accuracy. Их нельзя напрямую оптимизировать с помощью градиентного спуска.
—Взамен используют surrogate loss — «замещающую» функцию, которую можно эффективно минимизировать.
Например:
✔️ log-loss для классификации,
✔️ hinge loss для SVM,
✔️ MSE вместо MAE в регрессии.
Иногда surrogate loss вообще не похож нацелевую метрику — и всё равно работает. Это парадокс: модель учится не по той метрике, которую мы хотим улучшить, но всё равно её улучшает.
Такой выбор — компромисс междуматематической удобством и практической целью. И это одна из причин, почему хорошие метрики ≠ хорошие loss-функции, и наоборот.
Библиотека собеса по Data Science
Иногда для обучения выбирают лосс-функцию, которая
—
—
Например:
Иногда surrogate loss вообще не похож на
Такой выбор — компромисс между
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
❤1👍1
🔥 Сегодня стартует курс по AI-агентам!
Онбординг уже сегодня, но ещё можно вписаться — ПОСЛЕДНИЙ ШАНС это сделать.
Мы больше года собирали мультиагентные системы: экспериментировали, переделывали и в итоге — оформили всё в 5 плотных вебинаров.
😤 «А можно ли вообще научиться чему-то за 5 вебинаров?!»
Если вы хотите просто послушать — нет
Если хотите разбираться и делать — да
➡️ На курсе:
— мы не читаем слайдики, а работаем в коде в реальном времени
— можно задавать вопросы прямо на вебинаре
— после каждого вебинара есть домашка и поддержка в чате
И главное — вы получаете системное понимание, а не набор хаотичных туториалов.
⚡️Если вы думаете, что успеете потом — не успеете.
Старт сегодня:
— а те, кто вписался сейчас, будут вас опережать — в проектах, на грейде и в зарплате
Знакомьтесь, эксперт нашего курса:
Никита Зелинский — Chief Data Scientist МТС, Head of ML Platforms, руководитель центра компетенций по Data Science.
❗Стартуем сегодня — забронируй свое место
Онбординг уже сегодня, но ещё можно вписаться — ПОСЛЕДНИЙ ШАНС это сделать.
Мы больше года собирали мультиагентные системы: экспериментировали, переделывали и в итоге — оформили всё в 5 плотных вебинаров.
😤 «А можно ли вообще научиться чему-то за 5 вебинаров?!»
Если вы хотите просто послушать — нет
Если хотите разбираться и делать — да
➡️ На курсе:
— мы не читаем слайдики, а работаем в коде в реальном времени
— можно задавать вопросы прямо на вебинаре
— после каждого вебинара есть домашка и поддержка в чате
И главное — вы получаете системное понимание, а не набор хаотичных туториалов.
⚡️Если вы думаете, что успеете потом — не успеете.
Старт сегодня:
— а те, кто вписался сейчас, будут вас опережать — в проектах, на грейде и в зарплате
Знакомьтесь, эксперт нашего курса:
Никита Зелинский — Chief Data Scientist МТС, Head of ML Platforms, руководитель центра компетенций по Data Science.
❗Стартуем сегодня — забронируй свое место
👉 Может ли модель машинного обучения быть «неправильно правой»
Да — и это довольно опасный случай. Модель может выдавать правильный результат, но по неправильной причине.
Примеры:
— Классическая история: модель для распознавания танков «научилась» отличать их от леса, но не по форме техники — а по погоде (все фото с танками были при пасмурной погоде, а без — в солнечную).
— Модель предсказывает болезнь, но оказывается, что она просто запомнила, в каких больницах делались анализы, а не сами медицинские показатели.
Это называется «shortcut learning» — когда модель ищет кратчайший путь к правильному ответу, даже если он бессмыслен с точки зрения задачи.
Почему это плохо:
—Модель может работать «правильно» на тесте, но провалиться в реальной жизни, когда нарушатся скрытые зависимости.
—В критичных сферах (медицина, право, финансы) это может привести к опасным решениям.
Библиотека собеса по Data Science
— Классическая история: модель для распознавания танков «научилась» отличать их от леса, но не по форме техники — а по погоде (все фото с танками были при пасмурной погоде, а без — в солнечную).
— Модель предсказывает болезнь, но оказывается, что она просто запомнила, в каких больницах делались анализы, а не сами медицинские показатели.
Почему это плохо:
—
—
Библиотека собеса по Data Science
❤4👍3🌚1
🔮 Можно ли считать, что модель, которая хорошо работает на данных прошлого, «понимает» будущее
Не совсем. Модель учится на исторических данных и выявляет в них закономерности. Но будущее может отличаться из-за новых факторов, изменений среды, смещения данных или неожиданных событий — это называется сдвигом распределения (data drift).
Поэтому даже высокая точность на старых данных не гарантирует успех в будущем. Модель «понимает» прошлое, но не обладает настоящим «интеллектом» или «прозрением». Чтобы быть надёжной, её нужно регулярно переобучать и тестировать на свежих данных.
Библиотека собеса по Data Science
Библиотека собеса по Data Science
❤2👍1
🤔 Может ли модель машинного обучения «обмануть» нас, даже если метрики говорят, что всё хорошо
Да — и делает это довольно часто. Модель может демонстрировать отличные метрики, но при этом решать не ту задачу, которую мы ей на самом деле поставили.
Примеры:
1️⃣ Модель для автоматического отбора резюме может использовать косвенные признаки, связанные не с квалификацией, а с демографией — например, местом жительства или формулировками, типичными для определённых групп.
2️⃣ Модель для детекции токсичных комментариев может научиться просто игнорировать сленг или грамматические ошибки, если их нет в тренировке, и при этом «наказывать» культурные диалекты.
3️⃣ Модель детектирует трещины на снимках труб, но в обучающих данных почти все трещины были сфотографированы в солнечную погоду — и модель на самом деле распознаёт освещение, а не дефекты.
Формально — всё отлично: log-loss низкий, ROC-AUC высокий. Но по сути — модель научилась «читерить». Это называют спурием-корреляциями (spurious correlations) и data leakage.
Библиотека собеса по Data Science
Примеры:
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3👍2
Среднеквадратичная ошибка (MSE) сильно
Huber loss — это гибрид MSE и MAE:
Это особенно полезно, когда:
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4
❗ Первый вебинар нашего курса по AI-агентам уже прошёл!
Запись уже выложили на обучающей платформе — можно влетать и догонять с комфортом.
Первые слушатели уже оставили фидбэки — и, кажется, мы попали в точку:
— «теперь наконец понял, как выбирать модели под задачу — раньше брал первую попавшуюся»
— «без лишнего, по делу, в лайве — кайф»
— «огонь, ожидания 100% оправданы лично у меня»
Если хотели вписаться, но сомневались — ещё не поздно. Вебинары идут вживую, записи сохраняются, чат работает, материалы открыты.
⏳ Ещё можно догнать и пройти всё вместе с потоком.
👉 Залетай на курс
Запись уже выложили на обучающей платформе — можно влетать и догонять с комфортом.
Первые слушатели уже оставили фидбэки — и, кажется, мы попали в точку:
— «теперь наконец понял, как выбирать модели под задачу — раньше брал первую попавшуюся»
— «без лишнего, по делу, в лайве — кайф»
— «огонь, ожидания 100% оправданы лично у меня»
Если хотели вписаться, но сомневались — ещё не поздно. Вебинары идут вживую, записи сохраняются, чат работает, материалы открыты.
⏳ Ещё можно догнать и пройти всё вместе с потоком.
👉 Залетай на курс
Иногда полезно предсказать
Примеры:
Иногда модель классификации может быть
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7❤1🔥1
Синтетические данные могут показаться искусственными, но в некоторых ситуациях они становятся незаменимым инструментом, особенно когда:
Важно:
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3❤1
🤔 Почему иногда стоит использовать заведомо переобученную модель, несмотря на риски
На первый взгляд, переобучение — это зло. Но в некоторых ситуациях сознательное переобучение может быть оправдано, если:
✅ Качество важнее обобщения. Например, если модель работает только на строго ограниченном наборе данных (внутри одной компании, устройства, клиента), и обобщение на внешний мир не требуется.
✅ Переобученная модель используется как слабый компонент в ансамбле. Boosting часто строит переобученные деревья, которые в совокупности дают устойчивую модель.
✅ Нужно вытянуть максимум информации из сложных и «богатых» данных. Иногда регуляризация отрезает важные высокоуровневые зависимости. Переобученная модель может их уловить — главное, вовремя остановиться.
✅ Переобученная модель как инструмент анализа. Например, чтобы изучить, какие признаки «зашумлены», какие корреляции неустойчивы — переобучение может показать слабые места в данных.
Библиотека собеса по Data Science
На первый взгляд, переобучение — это зло. Но в некоторых ситуациях сознательное переобучение может быть оправдано, если:
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1