Библиотека собеса по Data Science | вопросы с собеседований 722

Библиотека собеса по Data Science | вопросы с собеседований

Forwarded from Proglib.academy | IT-курсы

📈 Почему Big data так быстро развивается?

Хотите получить востребованную и высокооплачиваемую профессию. Начните с понимания, куда движется индустрия. В нашей статье поговорим о Big Data — одном из самых горячих и перспективных направлений в IT.

🔗 Ссылка

716 views12:01

Библиотека собеса по Data Science | вопросы с собеседований

В чём отличие одностороннего критерия от двустороннего?

Чтобы ответить на этот вопрос, нужно коротко описать этапы построения статистического теста.

▪️Формулировка гипотез
Так, нулевая гипотеза утверждает отсутствие эффекта или различий, а альтернативная — наличие эффекта.

▪️Определение критического множества
Это набор значений статистики теста, при попадании в который нулевая гипотеза отвергается. Выбор критического множества зависит от типа теста.
— Односторонний критерий
В этом случае критическое множество располагается с одной стороны распределения.
— Двусторонний критерий
В этом случае критическое множество делится на две области в «хвостах» распределения.

▪️Расчёт критического значения
Уровень значимости определяет, какую долю распределения займёт критическое множество. Для двустороннего теста эта доля делится поровну между двумя хвостами.

▪️Проверка значения статистики
Рассчитывается значение тестовой статистики и проверяется, попадает ли оно в критическое множество.

✅ Пример
Если мы проверяем, выросли ли продажи после внедрения нового продукта, используется односторонний критерий. Если просто хотим узнать, изменились ли продажи в принципе (в любую сторону), подходит двусторонний.

#статистика

948 views13:00

Библиотека собеса по Data Science | вопросы с собеседований

0:12

This media is not supported in your browser

VIEW IN TELEGRAM

👆Как ощущаются последние часы перед собеседованием

971 views12:01

Библиотека собеса по Data Science | вопросы с собеседований

В классификации есть метрика Precision. Но слышали ли вы про Average Precision? Знаете, зачем она используется?

Average Precision (AP) — это метрика, которая оценивает баланс между точностью (precision) и полнотой (recall) на всех возможных порогах классификации.

Как это работает:
▪️Модель начинает с высокого порога, где она «уверена» в своих предсказаниях, и постепенно снижает его, увеличивая полноту (recall).
▪️Для каждого порога вычисляется точность и строится кривая зависимости Precision-Recall.
▪️Average Precision — это площадь под этой кривой.

Почему это важно?
AP дает более полную картину качества модели, чем точность или полнота, так как учитывает все пороги вероятностей. Она особенно полезна:
✅ В задачах с несбалансированными данными (где положительных примеров мало).
✅ В задачах ранжирования (например, поиск, детекция объектов).
✅ Для оценки модели в условиях, когда важен не только один порог, но и общее поведение модели.

#машинное_обучение

893 views18:07

Библиотека собеса по Data Science | вопросы с собеседований

Forwarded from DIGITALRAZOR

Что будет, если DigitalRazor объединится с Proglib Academy? Правильно! Новый розыгрыш.

Условия:

Подпишитесь на DigitalRazor;
Подпишитесь на «Библиотеку программиста»;
Нажмите кнопку «Участвовать» под этим постом.

Призы:

1-е место: 27-дюймовый монитор;
2, 3 и 4-е место: сертификат номиналом 20 000 рублей на ИТ-курсы от Proglib Academy;
5-е место: геймерская клавиатура + коврик на выбор.

Призы разыграем 1 декабря в 20:00 (МСК).

Доставка призов возможна только по городам России и Белоруссии.

Proglib Academy создаёт онлайн-курсы для программистов, помогает получить востребованные навыки и построить успешную карьеру в IT.

Игровые компьютеры и рабочие станции DigitalRazor — это качественная сборка, топовое железо и эффектный дизайн.

Регламент розыгрыша

498 views10:16

Участвовать (761)

Библиотека собеса по Data Science | вопросы с собеседований

Что вы знаете о тесте Хи-квадрат?

Тест Хи-квадрат — это мощный инструмент, который применяется для анализа взаимосвязей между двумя категориальными переменными. Он позволяет оценить, существует ли статистически значимое различие между наблюдаемыми и ожидаемыми частотами событий.

Хи-квадрат применяется, если есть гипотеза о связи двух переменных, выраженных через категориальные шкалы.

Например, вы хотите выяснить, влияет ли гимнастика для глаз на вероятность головной боли. Собираем данные, составляем таблицу наблюдений и рассчитываем ожидаемые значения, которые предполагали бы отсутствие влияния гимнастики.

Как рассчитывается Хи-квадрат:
▪️Для каждой ячейки таблицы считаем разницу между наблюдаемым и ожидаемым значением.
▪️Возводим эту разницу в квадрат.
▪️Делим на ожидаемое значение.
▪️Суммируем эти результаты по всем ячейкам.

Итоговый показатель сравнивается с табличным значением, чтобы определить, значимы ли различия.

#статистика

912 views13:00

Библиотека собеса по Data Science | вопросы с собеседований

Forwarded from Книги для программистов

🎅 Какой подарок вы бы хотели на НГ? Пишите в комментариях👇

Админ на НГ не отказался бы от вашей активности. Реакции, комментарии, конструктивные предложения будем ждать под ёлкой 🎄

665 views12:08

Библиотека собеса по Data Science | вопросы с собеседований

0:29

This media is not supported in your browser

VIEW IN TELEGRAM

⚡️ Напоминаем: у нас можно (и нужно) купить рекламу

→ Более 60 телеграм-каналов по всем направлениям IT
→ Почти 1,2 миллиона аудитории
→ Собственное медиа и сайт с DAU 25 000 — можем усилить продвижение
→ Классные email-рассылки
→ И, конечно же, крутые контент-менеджеры, которые сделают нативную интеграцию/придумают виральный пост/реализуют любые контентные предпочтения

Для заказа пишите сюда: @proglib_adv

911 views12:14

Библиотека собеса по Data Science | вопросы с собеседований

Что вы можете рассказать про факторный анализ?

Факторный анализ — это метод, который помогает выявить скрытые закономерности в данных и упростить их интерпретацию. Вместо анализа множества исходных переменных (наблюдаемых) мы создаём новые, скрытые переменные, которые объясняют основные взаимосвязи.

✅ Основной способ выполнения факторного анализа — это метод главных компонент (PCA). Он находит направления (компоненты), которые лучше всего объясняют изменчивость данных.

#анализ_данных

923 views13:00

Библиотека собеса по Data Science | вопросы с собеседований

🎉 Розыгрыш от Proglib Academy и DigitalRazor!

С 27 ноября по 27 декабря у вас есть шанс не только прокачать свои навыки, но и выиграть ПК при покупке любого курса Академии!

🎁 Призы для участников акции:

– Игровой ПК DigitalRazor ProGaming
– VIP-пакет курса Proglib Academy

💡 Как принять участие?
Купите любой курс Proglib Academy с 27 ноября по 27 декабря и получите шанс выиграть мощный ПК.

Приобретите технику DigitalRazor — участвуйте в розыгрыше VIP курса.

📅 Вместе с DigitalRazor мы создали спецпредложение -50% на курсы до 30 ноября, чтобы вы могли начать обучение на более выгодных условиях.

Выбрать курс

932 views13:55

Библиотека собеса по Data Science | вопросы с собеседований

Можно ли считать функцию потерь метрикой качества?

Нет, ставить знак равенства здесь нельзя.

✅ Функция потерь — это математическое выражение, используемое для измерения ошибки модели при её обучении. Она показывает, насколько сильно предсказания модели отличаются от реальных значений. Функция потерь служит основой для оптимизации: обучение модели заключается в минимизации значения этой функции.

Примеры:

▪️Среднеквадратичная ошибка (Mean Squared Error, MSE) для регрессии.

▪️Кросс-энтропия (Cross-Entropy Loss) для классификации.

✅ Метрика — это внешний, объективный критерий качества. Он не зависит напрямую от параметров модели — только от предсказанных и фактических меток.

Примеры:

▪️Точность (Accuracy) для классификации.

▪️F1-мера для задач с несбалансированными классами.

#машинное_обучение

971 views18:11

Библиотека собеса по Data Science | вопросы с собеседований

Что показывает квантильный график?

Квантильный график, или Q-Q plot, используется для сравнения распределения данных с теоретическим распределением (например, нормальным). То есть это инструмент, позволяющий визуально определить нормальность распределения.

✅ Если точки на графике ложатся близко к диагональной линии, значит, распределение соответствует нормальному.

Квантиль — это значение переменной, соответствующее определённому проценту данных в упорядоченной выборке. Например:

▪️ 25-й процентиль (или первый квартиль) — это значение, ниже которого лежит 25% данных.

▪️ Медиана (50-й процентиль) — это значение, делящее выборку пополам.

▪️ 75-й процентиль (или третий квартиль) — значение, ниже которого находится 75% данных.

Квантильный график создается функцией qqplot из пакета statsmodels.

#статистика
#анализ_данных

932 views13:01

Библиотека собеса по Data Science | вопросы с собеседований

Какие существуют области видимости функций в Python?

В Python переменные имеют две основные области видимости: локальную и глобальную.

▪️Локальная

Переменные, объявленные внутри функции, существуют только в её пределах и недоступны за её пределами. Аргументы функции также относятся к локальной области и исчезают после завершения функции.

▪️Глобальная

Переменные, объявленные вне функций, доступны в любой части программы. Однако, если внутри функции пытаться присвоить значение глобальной переменной, Python создаст новую локальную переменную с тем же именем.

#python

986 views12:00

Библиотека собеса по Data Science | вопросы с собеседований

Forwarded from Proglib.academy | IT-курсы

📊 Системный и бизнес-аналитик: пошаговый гайд к востребованной профессии

Пару слов о еще одном безумном разделении во вселенной IT-специальностей: системный и бизнес-аналитик. Рассказываем в нашей статье, чем занимаются представители профессии, сколько зарабатывают и как войти в эту сферу деятельности.

🔗 Ссылка

Хочешь стать бизнес-аналитиком? У нас есть отличный курс, который поможет подтянуть математику:

🔵

Математика для Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

547 views12:01

Библиотека собеса по Data Science | вопросы с собеседований

Какие табличные форматы хранения данных вы знаете?

▪️csv

Простой текстовый формат, где данные хранятся в виде таблицы, разделённой запятыми или другим разделителем.

▪️parquet

Бинарный формат, оптимизированный для хранения и обработки больших объёмов данных. Использует сжатие и хранение данных в колонках, что ускоряет выборку и уменьшает размер файлов. Особенно популярен в экосистеме Apache Spark.

▪️pickle

Формат сериализации данных в Python. Позволяет сохранять объекты (например, DataFrame из pandas) в удобном для языка виде.

#анализ_данных

920 views12:00

Библиотека собеса по Data Science | вопросы с собеседований

Forwarded from Proglib.academy | IT-курсы

🔵

Математика для Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

370 views18:10

Библиотека собеса по Data Science | вопросы с собеседований

🧑‍💻 Статьи для IT: как объяснять и распространять значимые идеи

Напоминаем, что у нас есть бесплатный курс для всех, кто хочет научиться интересно писать — о программировании и в целом.

Что: семь модулей, посвященных написанию, редактированию, иллюстрированию и распространению публикаций.

Для кого: для авторов, копирайтеров и просто программистов, которые хотят научиться интересно рассказывать о своих проектах.

👉Материалы регулярно дополняются, обновляются и корректируются. А еще мы отвечаем на все учебные вопросы в комментариях курса.

888 views20:03

Библиотека собеса по Data Science | вопросы с собеседований

Что такое Named Entity Recognition (NER)?

Named Entity Recognition — распознавание именованных сущностей. Это задача из области обработки естественного языка (NLP), цель которой — найти и классифицировать ключевые сущности в тексте.

Эти сущности могут относиться к определённым категориям, например:
- Имена людей;
- Географические объекты;
- Даты и время;
- Денежные суммы;
- Названия организаций.

▪️Как это работает?

Алгоритмы NER анализируют текст и на основе обученных моделей выделяют слова или фразы, относящиеся к этим категориям. Для обучения используются аннотированные данные, где сущности уже отмечены.

▪️Где применяется?

- Автоматическое извлечение данных из документов;
- Улучшение поисковых систем;
- Обработка запросов в службах поддержки;
- Анализ социальных сетей;
- Классификация новостей;
- Работа с резюме.

#машинное_обучение #NLP

1.1K views12:01

Библиотека собеса по Data Science | вопросы с собеседований

Что такое shallow copy в Python и как используется?

Shallow copy — это создание нового объекта путем копирования ссылки на вложенный объект, вместо создания полной копии вложенного объекта.

Если мы копируем список, который содержит другие списки, при shallow copy будут скопированы только внешние списки.

Если изменить внутренний список в копии, то это отразится и на оригинале.

Основное отличие от deep copy в том, что при полном копировании создаются копии всех вложенных объектов до самого нижнего уровня.

1.1K views20:53

Библиотека собеса по Data Science | вопросы с собеседований

Опишите распределение Бернулли.

Дискретное распределение вероятностей, распределение Бернулли, фокусируется на дискретных случайных величинах. Количество орлов, которые вы получаете при подбрасывании трех монет одновременно, или количество учеников в классе являются примерами дискретных случайных величин, которые имеют конечное или счетное число потенциальных значений.

1.1K views18:29

2025/02/23 17:23:44
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.bootg.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>