Библиотека собеса по Data Science | вопросы с собеседований 126

Библиотека собеса по Data Science | вопросы с собеседований

Какие метрики классификации вы знаете?

🔸 Accuracy (иногда, «точность»). Это доля объектов, для которых модель правильно предсказала класс. Есть обратная ей метрика — доля ошибочных классификаций (error rate). Считается как 1 — accuracy.
🔸 Precision (тоже переводят как «точность»). Это доля правильно предсказанных положительных объектов среди всех объектов, которые модель сочла положительным классом.
🔸 Recall («полнота»). Доля правильно предсказанных положительных объектов среди всех настоящих объектов положительного класса.
🔸 F1-мера. Это среднее гармоническое пары Precision-Recall.
🔸 AUC (Area Under Curve). Чем лучше классификатор разделяет два класса, тем больше площадь под кривой (её ещё называют ROC-кривой). Эта метрика показывает соотношение между долей истинно положительных результатов и долей ложноположительных результатов при разных порогах классификации.

❤5👍3

1.2K views11:30

Библиотека собеса по Data Science | вопросы с собеседований

Какие основные рекомендательные модели вы знаете?

👤 Коллаборативная фильтрация. Метод строит рекомендации для пользователя, используя известные предпочтения (чаще всего оценки) других пользователей. То есть отталкиваемся от идеи, что похожим пользователям нравятся похожие объекты.
- User-based и item-based алгоритмы:
В первом случае строим предположение, что объект понравится пользователю, если он понравился похожим пользователям. Во втором случае предполагаем, что объект понравится пользователю, если ему понравились похожие объекты.
👤 Алгоритм SVD (сингулярное разложение). Делаем разложение матрицы оценок. Помимо предсказания оценок, алгоритм позволяет выявить скрытые признаки объектов и интересы пользователей.

💯5

1.19K views12:00

Библиотека собеса по Data Science | вопросы с собеседований

Как вы бы проверили вес каждого признака в дереве решений?

Если вы строили дерево решений с помощью библиотеки scikit-learn, то можно использовать атрибут feature_importances_. Он возвращает вектор «важностей» признаков. Индекс элемента в векторе соответствует индексу признака в данных. Эти «важности» вычисляются на базе того, как признак уменьшает меру неопределённости в каждом дереве.

🔥5👍3

1.17K views12:00

Библиотека собеса по Data Science | вопросы с собеседований

Forwarded from Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🔈16+ лучших нейронок для синтеза речи

Предлагаем подборку платных, бесплатных и опенсорсных инструментов для озвучивания текста, клонирования голоса и дублированного перевода подкастов и видео.

Читать статью

👍3

1.25K views10:01

Библиотека собеса по Data Science | вопросы с собеседований

Вопросы для собеседований на какой грейд вы хотели бы видеть чаще?

Anonymous Poll

375 voters1.42K views11:01

Библиотека собеса по Data Science | вопросы с собеседований

Как изменится ROC-AUC, если к вероятностям принадлежности к первому классу применить логарифм?

ROC-AUC показывает, насколько хорошо модель сортирует (ранжирует) объекты класса. От абсолютных значений вероятностей метрика не зависит. Следовательно, применение логарифма не изменит значение ROC-AUC. Логарифмическая функция является монотонной, то есть она сохраняет порядок чисел: если одно число больше другого, то и его логарифм также будет больше.

👍15

1.35K views12:00

Библиотека собеса по Data Science | вопросы с собеседований

🧑‍💻 Статьи для IT: как объяснять и распространять значимые идеи

Напоминаем, что у нас есть бесплатный курс для всех, кто хочет научиться интересно писать — о программировании и в целом.

Что: семь модулей, посвященных написанию, редактированию, иллюстрированию и распространению публикаций.

Для кого: для авторов, копирайтеров и просто программистов, которые хотят научиться интересно рассказывать о своих проектах.

👉Материалы регулярно дополняются, обновляются и корректируются. А еще мы отвечаем на все учебные вопросы в комментариях курса.

👍1

1.42K views20:01

Библиотека собеса по Data Science | вопросы с собеседований

Чем логистическая регрессия отличается от линейной?

Если линейная регрессия предсказывает само значение целевой переменной, то логистическая используется для предсказания вероятности того, что объект принадлежит к определённому классу. Своё название логистическая регрессия берёт из того, что изначально прогнозирует логит (logit или log odd), логарифм отношения вероятности положительного события к отрицательному. Логит можно преобразовать в вероятность, например, через сигмоиду (если мы говорим о бинарной классификации).

Что касается оптимизации, то линейная регрессия использует метод наименьших квадратов, а в логистической регрессии может применяться оценка максимального правдоподобия.

#junior

👍9🔥4

1.56K views12:10

Библиотека собеса по Data Science | вопросы с собеседований

Для чего используют batch normalization?

Это метод, который нормализует входы нейросети. На специальном слое batch normalization текущий батч (пакет данных) приводится к нулевому среднему и единичной дисперсии.

Это позволяет:
⚫ быстрее обучаться, так как все числа получаются одного порядка;
⚫ улучшить сходимость нейросети;
⚫ сделать сеть менее чувствительной к выбору начальных значений весов;
⚫ даже бороться с переобучением.

Стоит отметить, что до сих пор идут дискуссии о причинах эффективной работы batch normalization.

#junior
#middle

❤6

1.5K views12:02

Библиотека собеса по Data Science | вопросы с собеседований

Какие метрики качества ранжирования вы знаете?

Такие метрики используются для оценки эффективности алгоритмов ранжирования, часто применяемых в рекомендательных системах.

🟠 Precision at K (p@K). Это метрика качества ранжирования для одного объекта. Измеряет долю релевантных элементов среди первых k элементов в ранжированном списке.
🟠 Mean average precision at K (map@K). Чаще всего мы имеем дело со множеством объектов, а не с одним, например с сотнями тысяч пользователей. Идея map@K заключается в том, чтобы сначала вычислить среднее precision at K для каждого объекта, а затем усреднить итог.
🟠 Normalized Discounted Cumulative Gain (NDCG). Здесь разберём поэтапно:
- Сначала рассмотрим один объект и k наиболее релевантных элементов. Это будет Cumulative gain at K (CG@K), метрика, которая использует простую идею: чем более релевантные элементы в этом топе, тем лучше.
- Далее введём Discounted cumulative gain at K (DCG@K). Это модификация CG@K, учитывающая порядок элементов в списке. Необходимо домножить показатель релевантности элемента на вес равный обратному логарифму номера позиции.
- В конце концов придём к normalized discounted cumulative gain at K (nDCG@K). Это нормализованная версия DCG@K. Данная метрика принимает значения в диапазоне от 0 до 1.
🟠 Mean Reciprocal Rank (MRR). Метрика усредняет обратные ранги первых правильно угаданных элементов по всем объектам.

Формулы можно найти в этой статье

#middle

👍8

1.53K views13:00

Библиотека собеса по Data Science | вопросы с собеседований

👨‍💼С точки зрения бизнес-процессов в чём разница между метрикой качества и функцией потерь?

Метрика качества напрямую связана с бизнес-целями. Она должна отвечать заказчику на вопрос: как построенная модель улучшает работу сервиса/компании? Например, бизнесу может быть интересна медианная длина сессии пользователя на сайте.

Если коротко:
✔️функция потерь возникает, когда мы сводим задачу построения модели к задаче оптимизации. Поэтому нам важно, чтобы она имела некоторые свойства, в частности была дифференцируемой;
✔️метрика же является объективным критерием качества, зачастую зависит только от предсказанных результатов.

Иногда метрика может совпадать с функцией потерь. Такое случается, например, при решении задачи регрессии, когда мы используем среднеквадратическую ошибку (MSE). А вот в задаче бинарной классификации чаще всего метрика и функция потерь не совпадают. В качестве первой может выступать число верно угаданных меток (accuracy), а в качестве второй — кросс-энтропия.

#junior
#middle

👍8❤1

1.4K views12:00

Библиотека собеса по Data Science | вопросы с собеседований

Как работает KNN (k-ближайших соседей, или k-nearest neighbors)?

Этот метод обычно используется для классификации объектов на основе ближайших к нему примеров. Вот основные шаги алгоритма:
🔷 Выбирается число k — параметр, определяющий количество соседей, по которым будет приниматься решение о классификации нового объекта.
🔷 Вычисляется расстояние между новым объектом и каждым из обучающих примеров. Обычно используется евклидово расстояние, но могут быть и другие метрики.
🔷 Алгоритм находит k обучающих примеров, самых близких к новому объекту.
🔷 Новому объекту назначают иаиболее часто встречающийся класс среди k соседей.

Стоит отметить, что KNN можно довольно легко обобщить и на задачу регрессии. Например, можно брать среднее по k соседям.

#junior

🔥4👍3👏1🎉1

1.41K views12:00

Библиотека собеса по Data Science | вопросы с собеседований

👩‍💻 Решение задачи на Python про сумму диагоналей матрицы

Задача: Дана матрица mat. Напишите функцию, которая возвращает сумму элементов диагоналей матрицы.

Первым делом следует уточнить у интервьюера, какие есть ограничения. Например, он сказал, что на вход мы получаем только квадратную матрицу, элементы на пересечении диагоналей считаются только один раз, элементы могут принимать значения от 1 до 100.

Тогда решение может выглядеть так:
🧩 Мы будем проходиться в цикле и сразу прибавлять к результату значения матрицы по индексам i (mat[i][i]). Дальше будем смотреть: если i не равно n-i-1, где n — размер матрицы, значит мы прибавляем к результату mat[i][n-i-1]. Эта проверка позволит нам избежать повторного прибавления к сумме элементов, которые стоят на пересечении диагоналей.

Это будет решение за O(n), так как мы один раз проходимся в цикле по элементам матрицы.

#junior
#middle

👍12👏2❤1😢1

1.39K viewsedited 10:10

Библиотека собеса по Data Science | вопросы с собеседований

🤖 Напоминаем, что у нас есть еженедельная email-рассылка, посвященная последним новостям и тенденциям в мире искусственного интеллекта.

В ней:
● Новости о прорывных исследованиях в области машинного обучения и нейросетей
● Материалы о применении ИИ в разных сферах
● Статьи об этических аспектах развития технологий
● Подборки лучших онлайн-курсов и лекций по машинному обучению
● Обзоры инструментов и библиотек для разработки нейронных сетей
● Ссылки на репозитории с открытым исходным кодом ИИ-проектов
● Фильмы, сериалы и книги

👉Подписаться👈

👍1

1.36K views06:05

2025/07/12 20:36:56
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.bootg.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>