Библиотека собеса по Data Science | вопросы с собеседований 720

Библиотека собеса по Data Science | вопросы с собеседований

❗Вакансии «Библиотеки программиста» — ждем вас в команде!

Мы постоянно растем и развиваемся, поэтому создали отдельную страницу, на которой будут размещены наши актуальные вакансии. Сейчас мы ищем:
👉контент-менеджеров для ведения телеграм-каналов

Подробности тут

Мы предлагаем частичную занятость и полностью удаленный формат работы — можно совмещать с основной и находиться в любом месте🌴

Ждем ваших откликов 👾

job.proglib.io

Вакансии в медиа «Библиотека программиста»‎

Количество проектов в редакции постоянно растет, так что нам всегда нужны специалисты

957 views06:00

Библиотека собеса по Data Science | вопросы с собеседований

Что вы знаете про Sparse Linear Methods (SLIM)?

Sparse Linear Methods (SLIM) — это метод моделирования рекомендаций, который основывается на разреженных линейных моделях. Такие рекомендательные системы учитывают схожесть между элементами на основе линейных отношений в матрице пользователь-объект.

Главная идея SLIM заключается в обучении матрицы весов W, которая описывает взаимосвязь между элементами. Эти веса используются для предсказания пользовательских предпочтений через линейную комбинацию взаимодействий с другими элементами.

К преимуществам SLIM относятся:

▪️Интерпретируемость
Полученные веса позволяют понять, как объекты связаны друг с другом.
▪️Адаптивность
Хорошо справляется как с большим, так и с малым количеством данных.

#машинное_обучение

1.03K views12:00

Библиотека собеса по Data Science | вопросы с собеседований

Forwarded from Proglib.academy | IT-курсы

📈 Почему Big data так быстро развивается?

Хотите получить востребованную и высокооплачиваемую профессию. Начните с понимания, куда движется индустрия. В нашей статье поговорим о Big Data — одном из самых горячих и перспективных направлений в IT.

🔗 Ссылка

762 views12:01

Библиотека собеса по Data Science | вопросы с собеседований

В чём отличие одностороннего критерия от двустороннего?

Чтобы ответить на этот вопрос, нужно коротко описать этапы построения статистического теста.

▪️Формулировка гипотез
Так, нулевая гипотеза утверждает отсутствие эффекта или различий, а альтернативная — наличие эффекта.

▪️Определение критического множества
Это набор значений статистики теста, при попадании в который нулевая гипотеза отвергается. Выбор критического множества зависит от типа теста.
— Односторонний критерий
В этом случае критическое множество располагается с одной стороны распределения.
— Двусторонний критерий
В этом случае критическое множество делится на две области в «хвостах» распределения.

▪️Расчёт критического значения
Уровень значимости определяет, какую долю распределения займёт критическое множество. Для двустороннего теста эта доля делится поровну между двумя хвостами.

▪️Проверка значения статистики
Рассчитывается значение тестовой статистики и проверяется, попадает ли оно в критическое множество.

✅ Пример
Если мы проверяем, выросли ли продажи после внедрения нового продукта, используется односторонний критерий. Если просто хотим узнать, изменились ли продажи в принципе (в любую сторону), подходит двусторонний.

#статистика

👍5

1.01K views13:00

Библиотека собеса по Data Science | вопросы с собеседований

0:11

This media is not supported in your browser

VIEW IN TELEGRAM

👆Как ощущаются последние часы перед собеседованием

💯13😁1

1.02K views12:01

Библиотека собеса по Data Science | вопросы с собеседований

В классификации есть метрика Precision. Но слышали ли вы про Average Precision? Знаете, зачем она используется?

Average Precision (AP) — это метрика, которая оценивает баланс между точностью (precision) и полнотой (recall) на всех возможных порогах классификации.

Как это работает:
▪️Модель начинает с высокого порога, где она «уверена» в своих предсказаниях, и постепенно снижает его, увеличивая полноту (recall).
▪️Для каждого порога вычисляется точность и строится кривая зависимости Precision-Recall.
▪️Average Precision — это площадь под этой кривой.

Почему это важно?
AP дает более полную картину качества модели, чем точность или полнота, так как учитывает все пороги вероятностей. Она особенно полезна:
✅ В задачах с несбалансированными данными (где положительных примеров мало).
✅ В задачах ранжирования (например, поиск, детекция объектов).
✅ Для оценки модели в условиях, когда важен не только один порог, но и общее поведение модели.

#машинное_обучение

952 views18:07

Библиотека собеса по Data Science | вопросы с собеседований

Forwarded from DIGITALRAZOR

Что будет, если DigitalRazor объединится с Proglib Academy? Правильно! Новый розыгрыш.

Условия:

Подпишитесь на DigitalRazor;
Подпишитесь на «Библиотеку программиста»;
Нажмите кнопку «Участвовать» под этим постом.

Призы:

1-е место: 27-дюймовый монитор;
2, 3 и 4-е место: сертификат номиналом 20 000 рублей на ИТ-курсы от Proglib Academy;
5-е место: геймерская клавиатура + коврик на выбор.

Призы разыграем 1 декабря в 20:00 (МСК).

Доставка призов возможна только по городам России и Белоруссии.

Proglib Academy создаёт онлайн-курсы для программистов, помогает получить востребованные навыки и построить успешную карьеру в IT.

Игровые компьютеры и рабочие станции DigitalRazor — это качественная сборка, топовое железо и эффектный дизайн.

Регламент розыгрыша

❤1

547 views10:16

Участвовать (761)

Библиотека собеса по Data Science | вопросы с собеседований

Что вы знаете о тесте Хи-квадрат?

Тест Хи-квадрат — это мощный инструмент, который применяется для анализа взаимосвязей между двумя категориальными переменными. Он позволяет оценить, существует ли статистически значимое различие между наблюдаемыми и ожидаемыми частотами событий.

Хи-квадрат применяется, если есть гипотеза о связи двух переменных, выраженных через категориальные шкалы.

Например, вы хотите выяснить, влияет ли гимнастика для глаз на вероятность головной боли. Собираем данные, составляем таблицу наблюдений и рассчитываем ожидаемые значения, которые предполагали бы отсутствие влияния гимнастики.

Как рассчитывается Хи-квадрат:
▪️Для каждой ячейки таблицы считаем разницу между наблюдаемым и ожидаемым значением.
▪️Возводим эту разницу в квадрат.
▪️Делим на ожидаемое значение.
▪️Суммируем эти результаты по всем ячейкам.

Итоговый показатель сравнивается с табличным значением, чтобы определить, значимы ли различия.

#статистика

👍5

971 views13:00

Библиотека собеса по Data Science | вопросы с собеседований

Forwarded from Книги для программистов

🎅 Какой подарок вы бы хотели на НГ? Пишите в комментариях👇

Админ на НГ не отказался бы от вашей активности. Реакции, комментарии, конструктивные предложения будем ждать под ёлкой 🎄

😁3👾2

712 views12:08

Библиотека собеса по Data Science | вопросы с собеседований

0:28

This media is not supported in your browser

VIEW IN TELEGRAM

⚡️ Напоминаем: у нас можно (и нужно) купить рекламу

→ Более 60 телеграм-каналов по всем направлениям IT
→ Почти 1,2 миллиона аудитории
→ Собственное медиа и сайт с DAU 25 000 — можем усилить продвижение
→ Классные email-рассылки
→ И, конечно же, крутые контент-менеджеры, которые сделают нативную интеграцию/придумают виральный пост/реализуют любые контентные предпочтения

Для заказа пишите сюда: @proglib_adv

977 views12:14

Библиотека собеса по Data Science | вопросы с собеседований

Что вы можете рассказать про факторный анализ?

Факторный анализ — это метод, который помогает выявить скрытые закономерности в данных и упростить их интерпретацию. Вместо анализа множества исходных переменных (наблюдаемых) мы создаём новые, скрытые переменные, которые объясняют основные взаимосвязи.

✅ Основной способ выполнения факторного анализа — это метод главных компонент (PCA). Он находит направления (компоненты), которые лучше всего объясняют изменчивость данных.

#анализ_данных

👍2

984 views13:00

Библиотека собеса по Data Science | вопросы с собеседований

🎉 Розыгрыш от Proglib Academy и DigitalRazor!

С 27 ноября по 27 декабря у вас есть шанс не только прокачать свои навыки, но и выиграть ПК при покупке любого курса Академии!

🎁 Призы для участников акции:

– Игровой ПК DigitalRazor ProGaming
– VIP-пакет курса Proglib Academy

💡 Как принять участие?
Купите любой курс Proglib Academy с 27 ноября по 27 декабря и получите шанс выиграть мощный ПК.

Приобретите технику DigitalRazor — участвуйте в розыгрыше VIP курса.

📅 Вместе с DigitalRazor мы создали спецпредложение -50% на курсы до 30 ноября, чтобы вы могли начать обучение на более выгодных условиях.

Выбрать курс

983 views13:55

Библиотека собеса по Data Science | вопросы с собеседований

Можно ли считать функцию потерь метрикой качества?

Нет, ставить знак равенства здесь нельзя.

✅ Функция потерь — это математическое выражение, используемое для измерения ошибки модели при её обучении. Она показывает, насколько сильно предсказания модели отличаются от реальных значений. Функция потерь служит основой для оптимизации: обучение модели заключается в минимизации значения этой функции.

Примеры:

▪️Среднеквадратичная ошибка (Mean Squared Error, MSE) для регрессии.

▪️Кросс-энтропия (Cross-Entropy Loss) для классификации.

✅ Метрика — это внешний, объективный критерий качества. Он не зависит напрямую от параметров модели — только от предсказанных и фактических меток.

Примеры:

▪️Точность (Accuracy) для классификации.

▪️F1-мера для задач с несбалансированными классами.

#машинное_обучение

👍7🥱1

1.02K views18:11

Библиотека собеса по Data Science | вопросы с собеседований

Что показывает квантильный график?

Квантильный график, или Q-Q plot, используется для сравнения распределения данных с теоретическим распределением (например, нормальным). То есть это инструмент, позволяющий визуально определить нормальность распределения.

✅ Если точки на графике ложатся близко к диагональной линии, значит, распределение соответствует нормальному.

Квантиль — это значение переменной, соответствующее определённому проценту данных в упорядоченной выборке. Например:

▪️ 25-й процентиль (или первый квартиль) — это значение, ниже которого лежит 25% данных.

▪️ Медиана (50-й процентиль) — это значение, делящее выборку пополам.

▪️ 75-й процентиль (или третий квартиль) — значение, ниже которого находится 75% данных.

Квантильный график создается функцией qqplot из пакета statsmodels.

#статистика
#анализ_данных

👍3❤1

992 views13:01

Библиотека собеса по Data Science | вопросы с собеседований

Какие существуют области видимости функций в Python?

В Python переменные имеют две основные области видимости: локальную и глобальную.

▪️Локальная

Переменные, объявленные внутри функции, существуют только в её пределах и недоступны за её пределами. Аргументы функции также относятся к локальной области и исчезают после завершения функции.

▪️Глобальная

Переменные, объявленные вне функций, доступны в любой части программы. Однако, если внутри функции пытаться присвоить значение глобальной переменной, Python создаст новую локальную переменную с тем же именем.

#python

❤5👍1

1.03K views12:00

Библиотека собеса по Data Science | вопросы с собеседований

Forwarded from Proglib.academy | IT-курсы

📊 Системный и бизнес-аналитик: пошаговый гайд к востребованной профессии

Пару слов о еще одном безумном разделении во вселенной IT-специальностей: системный и бизнес-аналитик. Рассказываем в нашей статье, чем занимаются представители профессии, сколько зарабатывают и как войти в эту сферу деятельности.

🔗 Ссылка

Хочешь стать бизнес-аналитиком? У нас есть отличный курс, который поможет подтянуть математику:

🔵

Математика для Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

595 views12:01

Библиотека собеса по Data Science | вопросы с собеседований

Какие табличные форматы хранения данных вы знаете?

▪️csv

Простой текстовый формат, где данные хранятся в виде таблицы, разделённой запятыми или другим разделителем.

▪️parquet

Бинарный формат, оптимизированный для хранения и обработки больших объёмов данных. Использует сжатие и хранение данных в колонках, что ускоряет выборку и уменьшает размер файлов. Особенно популярен в экосистеме Apache Spark.

▪️pickle

Формат сериализации данных в Python. Позволяет сохранять объекты (например, DataFrame из pandas) в удобном для языка виде.

#анализ_данных

👍2

974 views12:00

Библиотека собеса по Data Science | вопросы с собеседований

Forwarded from Proglib.academy | IT-курсы

🔵

Математика для Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

393 views18:10

Библиотека собеса по Data Science | вопросы с собеседований

🧑‍💻 Статьи для IT: как объяснять и распространять значимые идеи

Напоминаем, что у нас есть бесплатный курс для всех, кто хочет научиться интересно писать — о программировании и в целом.

Что: семь модулей, посвященных написанию, редактированию, иллюстрированию и распространению публикаций.

Для кого: для авторов, копирайтеров и просто программистов, которые хотят научиться интересно рассказывать о своих проектах.

👉Материалы регулярно дополняются, обновляются и корректируются. А еще мы отвечаем на все учебные вопросы в комментариях курса.

931 views20:03

Библиотека собеса по Data Science | вопросы с собеседований

Что такое Named Entity Recognition (NER)?

Named Entity Recognition — распознавание именованных сущностей. Это задача из области обработки естественного языка (NLP), цель которой — найти и классифицировать ключевые сущности в тексте.

Эти сущности могут относиться к определённым категориям, например:
- Имена людей;
- Географические объекты;
- Даты и время;
- Денежные суммы;
- Названия организаций.

▪️Как это работает?

Алгоритмы NER анализируют текст и на основе обученных моделей выделяют слова или фразы, относящиеся к этим категориям. Для обучения используются аннотированные данные, где сущности уже отмечены.

▪️Где применяется?

- Автоматическое извлечение данных из документов;
- Улучшение поисковых систем;
- Обработка запросов в службах поддержки;
- Анализ социальных сетей;
- Классификация новостей;
- Работа с резюме.

#машинное_обучение #NLP

👍9

1.11K views12:01

2025/09/21 15:25:26
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.bootg.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>