Библиотека собеса по Data Science | вопросы с собеседований 635

Библиотека собеса по Data Science | вопросы с собеседований

Please open Telegram to view this post

966 views07:11

Библиотека собеса по Data Science | вопросы с собеседований

Опишите формы решающих деревьев у LightGBM, XGBoost и CatBoost

▪️LightGBM строит деревья по принципу: «На каждом шаге делим вершину с наилучшей оценкой». Основным же критерием остановки выступает максимально допустимое количество вершин в дереве. Из-за этого деревья получаются несимметричными.

▪️XGBoost строит деревья по принципу: «Строим дерево последовательно по уровням до достижения максимальной глубины». Так, деревья «стремятся» быть симметричными по глубине. В идеальном случае получается полное бинарное дерево.

▪️CatBoost строит деревья по принципу: «Все вершины одного уровня имеют одинаковый предикат». Это приводит к более стабильному обучению, особенно при наличии категориальных признаков, благодаря внутренним механизмам работы с ними. Деревья CatBoost стремятся быть более сбалансированными.

#машинное_обучение

973 views13:00

Библиотека собеса по Data Science | вопросы с собеседований

Forwarded from Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

👾🛡️🤖 42 секунды и 5 запросов: как взламывают генеративные ИИ-модели

Ты знал, что злоумышленникам для взлома генеративных ИИ достаточно всего 42 секунды и пяти запросов? В этой статье мы разберём, как это происходит, какие уязвимости существуют и как защитить свои системы от подобных атак.

👉 Читать здесь

680 views12:02

Библиотека собеса по Data Science | вопросы с собеседований

Какие вы знаете автоматические способы обнаружения выбросов в датасете?

Вот несколько подходов:

▪️Isolation forest

Метод базируется на алгоритме случайного леса. Его основная идея заключается в том, что выбросы легче изолировать от остальных данных, чем нормальные объекты. В процессе работы алгоритм строит деревья, случайно разделяя данные. Выбросы, как правило, изолируются за меньшее число шагов. В результате каждому объекту присваивается скор от 0 до 1, где значения, близкие к 1, указывают на возможные выбросы, а значения, близкие к 0, означают нормальные данные.

▪️Local Outlier Factor (LOF)

Этот метод оценивает, насколько плотно объект окружен своими соседями по сравнению с плотностью соседей вокруг других объектов. Если плотность точки значительно меньше, чем у её соседей, то точка считается выбросом.

▪️Расстояние Махаланобиса

Этот метод измеряет расстояние между точкой и средним значением распределения, принимая во внимание ковариацию данных. Точки, находящиеся далеко от центра распределения, но с учётом их корреляции с другими признаками, могут быть идентифицированы как выбросы.

#машинное_обучение
#данные

1.7K views13:02

Библиотека собеса по Data Science | вопросы с собеседований

Forwarded from Библиотека питониста | Python, Django, Flask

🧩 Реализация паттерна «Одиночка» на Python

Мечтаешь о коде, который работает как швейцарские часы? Паттерн «Одиночка» может стать тем самым механизмом, который заставит все шестерёнки крутиться идеально.

👉 Читать в статье

950 views13:00

Библиотека собеса по Data Science | вопросы с собеседований

Что даёт вам понять F1-мера?

Это метрика, которая комбинирует Precision и Recall. Для расчёта берётся среднее гармоническое этих показателей. Таким образом, F1-мера предполагает одинаковую важность Precision и Recall.

Вот её формула:

TP / (TP + (FP + FN) / 2),

где TP — это количество истинно положительных предсказаний, FP — ложно положительных, а FN — ложно отрицательных.

Высокая F1-мера говорит о том, что модель хорошо справляется с предсказаниями и ошибок мало как среди ложноположительных, так и среди ложноотрицательных примеров.

#машинное_обучение

1.1K views12:01

Библиотека собеса по Data Science | вопросы с собеседований

Forwarded from Proglib.academy | IT-курсы

🤼 Генеративно-состязательная нейросеть: ваша первая GAN-модель на PyTorch

Подробная инструкция построения генеративно-состязательных нейросетей (GAN) на примере двух моделей, реализованных с помощью фреймворка глубокого обучения PyTorch в нашей статье. 👇

🔗 Статья

У нас есть курс как для начинающих программистов, так и для тех, кто уже шарит:

🔵

Алгоритмы и структуры данных

Please open Telegram to view this post

VIEW IN TELEGRAM

636 views12:01

Библиотека собеса по Data Science | вопросы с собеседований

❗Вакансии «Библиотеки программиста» — ждем вас в команде!

Мы постоянно растем и развиваемся, поэтому создали отдельную страницу, на которой будут размещены наши актуальные вакансии. Сейчас мы ищем:
👉контент-менеджеров для ведения телеграм-каналов
👉Переводчик и автор оригинальных статей

Подробности тут

Мы предлагаем частичную занятость и полностью удаленный формат работы — можно совмещать с основной и находиться в любом месте🌴

Ждем ваших откликов 👾

job.proglib.io

Вакансии в медиа «Библиотека программиста»‎

Количество проектов в редакции постоянно растет, так что нам всегда нужны специалисты

897 views06:00

Библиотека собеса по Data Science | вопросы с собеседований

Что такое кросс-энтропия?

Это одна из функций потерь, используемых в машинном обучении. Её ещё называют перекрёстной энтропией или log loss.

Кросс-энтропия измеряет разницу между фактическими метками и предсказанными вероятностями модели. Она широко используется в задачах классификации, особенно в нейронных сетях. Чем больше разница между предсказанной моделью вероятностью и истинным значением, тем выше значение кросс-энтропии.

👆График выше показывает диапазон возможных значений потерь, когда истинная метка равна единице (isDog = 1). По мере приближения предсказанной вероятности к 1 логарифмическая потеря медленно уменьшается. Однако при снижении предсказанной вероятности логарифмическая потеря резко возрастает. Логарифмическая потеря штрафует оба типа ошибок, но особенно те предсказания, которые уверенные, но ошибочные.

#машинное_обучение

996 views13:00

Библиотека собеса по Data Science | вопросы с собеседований

🧑‍💻 Статьи для IT: как объяснять и распространять значимые идеи

Напоминаем, что у нас есть бесплатный курс для всех, кто хочет научиться интересно писать — о программировании и в целом.

Что: семь модулей, посвященных написанию, редактированию, иллюстрированию и распространению публикаций.

Для кого: для авторов, копирайтеров и просто программистов, которые хотят научиться интересно рассказывать о своих проектах.

👉Материалы регулярно дополняются, обновляются и корректируются. А еще мы отвечаем на все учебные вопросы в комментариях курса.

941 views20:03

Библиотека собеса по Data Science | вопросы с собеседований

Какова цель разделения набора данных на обучающую и валидационную выборки?

Основная цель — оставить часть данных, на которых модель не обучалась, чтобы можно было оценить её производительность после обучения. Также иногда валидационный набор данных используется для выбора среди нескольких моделей машинного обучения. Например, сначала мы обучаем несколько алгоритмов, таких как логистическая регрессия, XGBoost и другие, затем тестируем их производительность на валидационных данных и выбираем модель, у которой наименьшая разница между точностью на валидационных и обучающих данных.

#машинное_обучение

952 views13:01

Библиотека собеса по Data Science | вопросы с собеседований

Перечислите гиперапараметры, которые можно настроить у классического многослойного перцептрона

▪️Количество скрытых слоёв
Это напрямую влияет на сложность модели. Большее количество слоёв может улучшить способность модели к изучению сложных зависимостей, но это также увеличивает риск переобучения.

▪️Количество нейронов в каждом слое
Чем больше нейронов, тем больше информации может обрабатываться, но это также увеличивает количество параметров, которые необходимо обучить.

▪️Функция активации
Можно использовать, например, ReLU.

▪️Скорость обучения (learning rate)
Один из ключевых гиперпараметров, определяющий, насколько быстро обновляются веса на каждом шаге обучения.

▪️Число эпох (epochs)
Определяет, сколько раз модель пройдёт по всему набору данных во время обучения.

▪️Размер батча (batch size)
Определяет, сколько примеров из обучающего набора данных используется для обновления весов за один раз.

▪️Оптимизатор
Классические MLP могут использовать такие оптимизаторы, как Stochastic Gradient Descent (SGD) или более продвинутые, например, Adam или RMSprop.

#глубокое_обучение

1.1K views15:30

Библиотека собеса по Data Science | вопросы с собеседований

Forwarded from Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🚀⬆️ Оптимизируй свой AI: разоблачение 6 мифов о работе с векторами в Pgvector

Шесть заблуждений, которые мешают тебе использовать всю мощь векторных баз данных в AI. Развенчав эти мифы, ты сможешь раскрыть истинный потенциал векторов и значительно повысить эффективность твоих AI-проектов.

👉

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

733 views13:36

2025/07/04 09:49:11
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.bootg.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>