Библиотека собеса по Data Science | вопросы с собеседований 814

Библиотека собеса по Data Science | вопросы с собеседований

📊 Параметрические и непараметрические модели: в чем разница

🔗 Параметрические модели предполагают заранее заданную форму зависимости между входными и выходными данными. Это упрощает процесс обучения, но ограничивает гибкость модели.

🤖 Непараметрические модели, напротив, не предполагают фиксированной формы зависимости и могут адаптироваться к большему количеству шаблонов в данных. Это делает их более гибкими, но требует большего количества данных для точных прогнозов.

Параметрические модели подходят для задач, где важна скорость обучения, а непараметрические лучше работают с более сложными и разнообразными данными.

❤6

974 views18:03

Библиотека собеса по Data Science | вопросы с собеседований

⤵️ Чем отличается метод градиентного спуска от стохастического градиентного спуска?

▪️ Метод градиентного спуска (Gradient Descent) — это оптимизационный алгоритм, который используется для минимизации функции потерь, обновляя параметры модели в направлении отрицательного градиента функции потерь. В каждом шаге используется весь обучающий набор данных для вычисления градиента.

▪️ Стохастический градиентный спуск (SGD) — это модификация, в которой градиент вычисляется только по одному случайно выбранному примеру данных на каждом шаге. Это делает процесс обучения быстрее, но более шумным.

Основное различие: градиентный спуск использует все данные, что делает его более точным, но медленным, а стохастический градиентный спуск быстрее, но может колебаться вокруг минимума из-за случайных обновлений.

👍5❤2

1.01K views18:04

Библиотека собеса по Data Science | вопросы с собеседований

📍 Объясните разницу между параметрами модели и гиперпараметрами

🔸 Параметры модели
Автоматически настраиваются: Параметры модели определяются в процессе обучения на основе данных.
Внутреннее состояние модели: Они представляют собой внутреннее состояние модели, которое позволяет ей делать прогнозы.
Примеры: веса в нейронных сетях, коэффициенты линейной регрессии, опорные векторы в SVM.

🔸 Гиперпараметры
Задаются вручную: Гиперпараметры устанавливаются до начала обучения и влияют на процесс обучения.
Контроль обучения: Они определяют, как модель будет обучаться, а не то, что она будет предсказывать.
Примеры: скорость обучения в нейронных сетях, количество соседей в KNN, параметры ядра в SVM.

❤‍🔥3🔥2

928 views18:04

Библиотека собеса по Data Science | вопросы с собеседований

👀 Что такое эффект мультиколлинеарности и как он может повлиять на модель линейной регрессии?

Мультиколлинеарность — это ситуация, когда два или более признака в модели линейной регрессии сильно коррелируют между собой. Это затрудняет оценку их индивидуального влияния на зависимую переменную, поскольку изменения в одном признаке могут быть связаны с изменениями в другом.

В результате мультиколлинеарности коэффициенты модели могут быть нестабильными и иметь большие стандартные ошибки, что снижает точность прогнозов и интерпретацию модели.

✅ Чтобы избежать этого, можно использовать методы, такие как удаление коррелирующих признаков, регуляризация (Lasso, Ridge) или главные компоненты (PCA) для уменьшения корреляции между признаками.

👍7❤2

985 views18:02

Библиотека собеса по Data Science | вопросы с собеседований

Модель показывает высокое качество на тесте, но проваливается в реальном мире. Какие шаги помогут исправить ситуацию?

✅ Сравнение распределений данных: анализируется различие между данными обучения и реальными данными для выявления distribution shift. Это помогает понять, видела ли модель похожие примеры.

✅ Анализ feature importance: определяется, какие признаки модель считает важными. Возможно, модель излишне полагается на шумовые или незначимые признаки, отсутствующие в реальных данных.

✅ Сбор реальных данных: организуется процесс сбора данных из продакшена для дообучения модели, чтобы учесть новые паттерны.

👍7❤1

964 views18:05

Библиотека собеса по Data Science | вопросы с собеседований

Forwarded from Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

💡 Как получить от нейросети код, работающий в 100 раз быстрее

Интересный эксперимент провели с Claude 3.5 Sonnet: попытались улучшить простой алгоритм на Python, раз за разом прося ИИ «написать код лучше». Задача была несложная — найти разницу между максимальным и минимальным числами в массиве, сумма цифр которых равна 30.

Казалось бы, что тут можно улучшать?
👉 Подробнее в нашей статье

#CodeOptimization

❤1🔥1

635 views08:15

Библиотека собеса по Data Science | вопросы с собеседований

Forwarded from Proglib.academy | IT-курсы

🤖 📈 Data Science в 2025 году: 7 главных трендов

Разработчики JetBrains и Python Software Foundation рассказали, как изменится Data Science в ближайшие годы.

➡️

В статье:

▪️ Почему доля Python в анализе данных снижается
▪️ Какие библиотеки набирают популярность вместо pandas
▪️ Что происходит с AutoML, MLOps и визуализацией данных
▪️ И почему Rust и Julia наступают Python на пятки

Подробный разбор, новые инструменты и прогнозы на будущее — всё это читай в нашей статье.

🔵 Тренды меняются, но основы остаются — укрепи базу с нашим курсом «Математика для Data Science»

Please open Telegram to view this post

VIEW IN TELEGRAM

👏2❤1

585 views17:02

Библиотека собеса по Data Science | вопросы с собеседований

Разница между символическим и коннекционистским ИИ

Разница между символическим и коннекционистским ИИ заключается в подходах к обработке информации.

📍 Символический ИИ работает на основе чётко заданных правил и логики, где информация представляется в виде символов, связанных между собой через логические операции. Этот подход используется в экспертных системах и решении задач, где важна строгая последовательность шагов.

📍 Коннекционистский ИИ (нейросети) учится на данных, выявляя паттерны и закономерности без явных заранее заданных правил. Он адаптируется через обучение, что делает его подходящим для задач, таких как распознавание изображений, речи и классификация.

В современных системах часто используется комбинация обоих подходов для достижения лучших результатов.

❤2

955 views18:03

Библиотека собеса по Data Science | вопросы с собеседований

⚖️ Какова цель масштабирования признаков (feature scaling) в машинном обучении

Цель масштабирования признаков — привести значения всех признаков к единому масштабу.

Это особенно важно для алгоритмов, чувствительных к величине признаков, таких как модели, основанные на градиентном спуске (например, логистическая регрессия) или на расстояниях (k-ближайших соседей, SVM).

Масштабирование улучшает производительность модели и ускоряет её обучение, предотвращая ситуацию, когда признаки с большими значениями доминируют над другими.

👍4❤2

1.29K viewsedited 18:05

Библиотека собеса по Data Science | вопросы с собеседований

🧑‍💻 Статьи для IT: как объяснять и распространять значимые идеи

Напоминаем, что у нас есть бесплатный курс для всех, кто хочет научиться интересно писать — о программировании и в целом.

Что: семь модулей, посвященных написанию, редактированию, иллюстрированию и распространению публикаций.

Для кого: для авторов, копирайтеров и просто программистов, которые хотят научиться интересно рассказывать о своих проектах.

👉Материалы регулярно дополняются, обновляются и корректируются. А еще мы отвечаем на все учебные вопросы в комментариях курса.

987 views20:02

Библиотека собеса по Data Science | вопросы с собеседований

Почему CNN, обученная на ImageNet, считается отличным выбором в качестве базовой модели

Существует две основные причины:

✅ Огромное количество изображений в наборе данных ImageNet обеспечивает генерализацию модели CNN для других доменов, таких как гистопатология, которая значительно отличается от исходного домена, на котором модель была изначально обучена (например, изображения кошек и собак).

✅ Обученная на ImageNet CNN создает массив разнообразных визуальных паттернов, так как этот набор данных включает 1 000 различных категорий.

👍2❤1

1.05K views18:04

Библиотека собеса по Data Science | вопросы с собеседований

Ответ: Верно.

Метод bagging (Bootstrap Aggregating) предполагает случайный выбор K объектов из исходного обучающего набора с заменой, где K равно размеру исходного набора данных.

Это означает, что одни экземпляры могут встречаться несколько раз, а другие могут не попасть в выборку вовсе.

Такой подход позволяет создать несколько различных обучающих подмножеств, что снижает дисперсию модели и повышает её устойчивость.

❤6🔥4

2.93K views18:55

Библиотека собеса по Data Science | вопросы с собеседований

Ответ

Anonymous Quiz

193 voters2.8K views18:55

Библиотека собеса по Data Science | вопросы с собеседований

Forwarded from Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🗺️ Как стать ИИ-разработчиком в 2025 году: дорожная карта и ресурсы

В 2025 году профессия ИИ-разработчика остается одной из самых востребованных и перспективных.

👀 Как начать свой путь в этой увлекательной, но сложной области?

Мы собрали подробную дорожную карту и полезные ресурсы, которые помогут вам шаг за шагом освоить ключевые навыки и технологии.

670 views13:28

Библиотека собеса по Data Science | вопросы с собеседований

👀 Какие три наиболее часто используемые меры для оптимального разбиения атрибутов в дереве решений

1. Энтропия: позволяет измерить степень неопределённости или «разнородности» данных.

2. Индекс Джини (Gini impurity): оценивает вероятность того, что случайно выбранный элемент будет классифицирован неправильно.

3. Ошибка классификации: простая метрика, показывающая долю неверных классификаций в узле.

Какой метод выбрать
✅ Энтропия и индекс Gini чаще используются, так как они чувствительнее к изменениям в распределении данных.
✅ Ошибка классификации проще, но менее информативна для построения дерева решений.

❤3👍1

998 views18:05

Библиотека собеса по Data Science | вопросы с собеседований

Что такое valid convolution в нейросетях

Если при convolution не используется padding, значит, это valid convolution. В этом случае фильтр скользит только по тем позициям, где полностью помещается на входные данные, а выходной тензор получается меньше исходного.

Такой метод экономит вычисления, но «съедает» границы данных. Поэтому иногда используют same convolution, добавляя padding, чтобы сохранить размер.

❤3

1K views18:02

Библиотека собеса по Data Science | вопросы с собеседований

Как работает моментум и какую роль играет экспоненциальное затухание в правиле обновления градиентного спуска

✅ Моментум учитывает прошлые градиенты, создавая эффект ускорения за счет скользящего среднего. Это приводит к экспоненциальному затуханию старых градиентов, снижая колебания и стабилизируя обновления весов.

✅ Такой подход ускоряет обучение, помогая модели быстрее сходиться и уменьшая количество эпох, необходимых для достижения оптимума.

👍9❤4

982 views18:55

Библиотека собеса по Data Science | вопросы с собеседований

➕ Какой ансамблевый метод используется

На изображении показана схема, в которой модели x1, x2...xk называются базовыми обучающими моделями (Base Learners), а над ними находится дополнительный уровень — x3 Generalizer.

Ответ: На изображении показан первый этап метода Stacking.

✔️ Фаза 0: Несколько базовых моделей (Base Learners) делают предсказания.

✔️ Фаза 1: Генерализатор (Generalizer) обучается на предсказаниях базовых моделей, чтобы улучшить результат.

👍2

1.01K views18:07

Библиотека собеса по Data Science | вопросы с собеседований

Какой метод ансамблирования здесь применяется?

Anonymous Quiz

24%

Bootstrap Aggregation (Bagging)

Snapshot Ensembling

67%

Stacking

❤1👍1

170 voters987 views18:07

Библиотека собеса по Data Science | вопросы с собеседований

📢 Ты уже пробовал пройти AI-собеседование? Если нет, вот ещё одно напоминание от нас 🤗

Сейчас на рынке много вакансий, но как найти ту самую, которая идеально подойдёт тебе по навыкам, условиям и зарплате?

✅ Просто загрузи своё резюме
✅ Пройди интервью с нейро-рекрутером от Сбера (всего 15 минут!)
✅ Получай лучшие предложения без бесконечных звонков и ожидания откликов

💡 Алгоритмы анализируют твой опыт и подбирают вакансии, которые подходят на 98% — так что ты точно не потратишь время зря.

Работа мечты может быть на расстоянии одного клика. Попробуешь? 😉

🔗 https://clc.to/GkOTTA

👍1🥱1

935 views09:01

2025/07/08 13:11:26
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.bootg.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>