Библиотека собеса по Data Science | вопросы с собеседований 525

Библиотека собеса по Data Science | вопросы с собеседований

💵

⚡️ДАРИМ 40 000₽ ЗА ВИДЕО

Конкурс года в «Библиотеке программиста»: смонтируйте короткий вертикальный ролик формата Shorts/Reels* на тему программирования и разработки — лучший автор получит 40 тысяч рублей 🤑

Подробные условия:
➡️смонтируйте короткий смешной вертикальный ролик (можно и нужно использовать мемы)
➡️отправьте нам в бота @ProglibContest_bot
➡️лучшие ролики (по мнению редакции) мы будем выкладывать в канал и в наш инстаграм*
➡️тот, чей ролик соберет больше всего просмотров в инстаграм*, получит приз — 40 тысяч рублей

Какие ролики мы не принимаем:
😟не вашего авторства (проверим!)
😟длинные, невертикальные, несмешные

Таймлайн:
2 августа — заканчиваем принимать видео
⬇️
3 августа — начинаем загружать лучшие видео в инстаграм
⬇️
9 августа — подводим итоги

*Организация Meta признана экстремистской в РФ

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥1

974 views11:22

Библиотека собеса по Data Science | вопросы с собеседований

Какие события можно назвать независимыми?

Если говорить неформально, то событие A не зависит от события B, если знание о B не даёт нам информации об A. Иными словами, знание о том, произошло ли событие B, никак не меняет прогнозы о том, произойдёт ли событие A.

Более формально, два события A и B считаются независимыми, если вероятность их совместного наступления равна произведению вероятностей этих событий.

Примером независимых событий могут служить два броска честной монеты. Результат первого броска (орёл или решка) никак не влияет на результат второго броска.

#теория_вероятностей

👍4

1.01K views13:00

Библиотека собеса по Data Science | вопросы с собеседований

Forwarded from Proglib.academy | IT-курсы

📊 Kaggle за 30 минут: практическое руководство для начинающих

Начинающему дата-сайентисту необходима практика, а Kaggle решает эту проблему. Из статьи вы узнаете, как лучше всего начать работу с популярным сервисом.

🔗 Статья

838 views12:00

Библиотека собеса по Data Science | вопросы с собеседований

✍️ «Библиотека программиста» находится в поиске автора на написание книжных рецензий

Кто нужен?
● Энтузиасты (джуны и выше), которые которые разбираются в IT
● Любители книг, которые хотели бы получать деньги за чтение и написание рецензий
● Работаем с самозанятыми (компенсируем налог), ИП

Мы предлагаем частичную занятость и полностью удаленный формат работы — можно совмещать с основной и находиться в любом месте🌴

✉️ Станьте частью нашей команды — присылайте резюме и примеры работ [email protected]

1.09K views07:44

Библиотека собеса по Data Science | вопросы с собеседований

Что вы знаете об эмпирическом правиле в нормальном распределении?

Эмпирическое правило, также известное как правило 68-95-99.7, описывает, как данные распределяются в нормальном распределении. Согласно этому правилу:

▪️Около 68% данных находятся в пределах одного стандартного отклонения от среднего.
▪️Около 95% данных находятся в пределах двух стандартных отклонений от среднего.
▪️Около 99.7% данных находятся в пределах трёх стандартных отклонений от среднего.

#статистика

👍10

1.17K views12:00

Библиотека собеса по Data Science | вопросы с собеседований

А как у вас с английским языком?

Anonymous Poll

Не знаю английский/элементарный уровень 👶

43%

Средний — немного говорю, могу смотреть и читать несложные материалы 🧑‍💻

33%

Высокий — читаю, смотрю сериалы и уроки, всё понимаю 🧑‍🎓

14%

Идеальный — могу работать на английском и свободно говорю 🤠

❤2

272 voters1.13K views12:01

Библиотека собеса по Data Science | вопросы с собеседований

Как можно приспособить SVM под данные, которые не являются линейно разделимыми?

Основая идея SVM, или метода опорных векторов, заключается в построении гиперплоскости, разделяющей объекты выборки оптимальным способом. Алгоритм работает в предположении, что чем больше расстояние между разделяющей гиперплоскостью и объектами разделяемых классов, тем меньше будет средняя ошибка классификатора.

Однако на практике многие данные не являются линейно разделимыми. Чтобы приспособить SVM под такие данные, можно использовать, например, ядерный трюк.

В это случае скалярное произведение трансформированных векторов n-й степени заменяется на их произведение в степени n. Такой подход позволяет получить такие же результаты, как и в случае с добавлением большого количества полиномиальных признаков без их фактического добавления.

#машинное_обучение

👍7❤1

1.1K views12:02

Библиотека собеса по Data Science | вопросы с собеседований

🧑‍💻 Статьи для IT: как объяснять и распространять значимые идеи

Напоминаем, что у нас есть бесплатный курс для всех, кто хочет научиться интересно писать — о программировании и в целом.

Что: семь модулей, посвященных написанию, редактированию, иллюстрированию и распространению публикаций.

Для кого: для авторов, копирайтеров и просто программистов, которые хотят научиться интересно рассказывать о своих проектах.

👉Материалы регулярно дополняются, обновляются и корректируются. А еще мы отвечаем на все учебные вопросы в комментариях курса.

1.08K views20:02

Библиотека собеса по Data Science | вопросы с собеседований

Forwarded from Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

👨‍🎓️ Кто есть кто в команде data science: путеводитель по профессии

О data scientist часто говорят, будто это одна профессия, хотя в науке о данных существуют и другие специализации. Расскажем, из каких направлений можно выбирать и что потребуется для их изучения.

🔗 Читать статью

👏3😁2

797 views12:00

Библиотека собеса по Data Science | вопросы с собеседований

Как использовать матрицу ошибок (confusion matrix), чтобы определить производительность модели?

В задаче классификации принято называть положительным класс, который представляет для нас интерес, и отрицательным класс, который нас не интересует (условно). С учётом этого можем описать для каждого объекта в выборке четыре возможных ситуации:

▪️Модель предсказала положительную метку и угадала. Такие объекты будут относиться к true positive (TP).
▪️Модель предсказала положительную метку и ошиблась. Такие объекты будут относиться к false positive (FP).
▪️Модель предсказала отрицательную метку и угадала. Такие объекты будут относиться к true negative (TN).
▪️Модель предсказала отрицательную метку и ошиблась. Такие объекты будут относиться к false negative (FN).

Все эти четыре группы изображают в виде таблицы, которую называют confusion matrix (матрицей ошибок). Она помогает рассчитать следующие метрики, которые могут нам что-то сказать о производительности модели:

▪️Accuracy (Точность): (TP + TN) / (TP + TN + FP + FN) — общая точность модели.
▪️Precision (Точность): TP / (TP + FP) — доля правильно предсказанных положительных объектов среди всех объектов, предсказанных положительным классом.
▪️Recall (Полнота): TP / (TP + FN) — доля правильно найденных положительных объектов среди всех объектов положительного класса.
▪️F1-score: 2 * (Precision * Recall) / (Precision + Recall) — гармоническое среднее между Precision и Recall.

#машинное_обучение

👍14

1.2K views12:02

Библиотека собеса по Data Science | вопросы с собеседований

Forwarded from Proglib.academy | IT-курсы

🔢 Математика для Data Science: необходимый минимум

Данные стали новой нефтью, а науку о данных Harvard Business Review назвал самой перспективной профессией 21 века. Для работы в сфере Data Science необходима математика: она позволяет извлекать смысл из огромных массивов информации и принимать обоснованные решения.

Расскажем, какие разделы математики нужно знать для успешного старта в нашей статье:

🔗 Ссылка на статью

908 views11:05

Библиотека собеса по Data Science | вопросы с собеседований

В каких случаях стоит использовать SVM с ядерным трюком?

Есть несколько ситуаций, в которых это будет хорошим решением:

▪️Нелинейно разделимые данные.

▪️Сложные пространственные структуры.
Ядра позволяют преобразовать сложные структуры данных в более высокоразмерное пространство, где они могут быть линейно разделимы.

▪️Малая размерность пространства признаков.
При небольшом количестве признаков использование ядерного трюка помогает создать более сложные разделяющие поверхности без явного добавления новых признаков.

#машинное_обучение

👍1

1.15K views15:01

Библиотека собеса по Data Science | вопросы с собеседований

Что такое elastic net в контексте регуляризации?

Этот метод переводят как эластичная сеть. Суть его заключается в комбинации двух видов регуляризации: L1 (Lasso) и L2 (Ridge). Это позволяет использовать преимущества обеих техник, уменьшая коэффициенты моделей и предотвращая переобучение. Elastic net особенно полезен при работе с данными, где существует сильная корреляция между признаками, так как он может автоматически выбирать важные признаки и отбрасывать незначительные.

#машинное_обучение

👍6

1.26K views12:06

Библиотека собеса по Data Science | вопросы с собеседований

💬 Опрос для тех, кто уже проходил собеседования.

Задавали ли вам вопросы, на которые вы не смогли ответить? Если вы помните такие вопросы, то делитесь ими в комментариях👇

1.12K views12:11

Библиотека собеса по Data Science | вопросы с собеседований

🤖 Напоминаем, что у нас есть еженедельная email-рассылка, посвященная последним новостям и тенденциям в мире искусственного интеллекта.

В ней:
● Новости о прорывных исследованиях в области машинного обучения и нейросетей
● Материалы о применении ИИ в разных сферах
● Статьи об этических аспектах развития технологий
● Подборки лучших онлайн-курсов и лекций по машинному обучению
● Обзоры инструментов и библиотек для разработки нейронных сетей
● Ссылки на репозитории с открытым исходным кодом ИИ-проектов
● Фильмы, сериалы и книги

👉Подписаться👈

1.13K views06:03

Библиотека собеса по Data Science | вопросы с собеседований

Как выбрать порог для модели классификации?

Выбор порога для модели классификации зависит от конкретной задачи. Можно перечислить следующие используемые методы:

▪️Самое простое решение — взять в качестве порогового значения 0.5. Это будет означать, что если вероятность принадлежности объекта к положительному классу выше 50%, то объект будет классифицирован как положительный.

▪️Использовать ROC-кривую (Receiver Operating Characteristic) и значение AUC (Area Under the Curve), чтобы выбрать порог, который оптимизирует соотношение между истинно положительными и ложноположительными результатами.

▪️Оптимизировать порог на основе Precision-Recall кривой. Это особенно полезно для несбалансированных наборов данных, где важен баланс между точностью (Precision) и полнотой (Recall).

▪️Рассмотреть специфические бизнес-требования и контекст задачи. Например, в задачах медицинской диагностики может быть важно минимизировать ложноотрицательные результаты, а в задачах обнаружения мошенничества — ложноположительные.

▪️Проводить тестирование на валидационной выборке, чтобы понять, как различные пороги влияют на производительность модели в условиях, близких к реальным.

#машинное_обучение

👍12🥰3

1.23K views13:00

Библиотека собеса по Data Science | вопросы с собеседований

В чём разница между первичным (primary) и внешним (foreign) ключами в SQL?

▪️ Первичный ключ (primary key) — это уникальный идентификатор каждой записи в таблице. В таблице может быть только один первичный ключ, но он может состоять из нескольких столбцов (составной ключ). Значения в первичном ключе не могут быть NULL, и они должны быть уникальными.

▪️ Внешний ключ (foreign key) — это столбец или группа столбцов, которые создают связь между двумя таблицами. Внешний ключ в одной таблице ссылается на первичный ключ в другой таблице, обеспечивая целостность данных. В таблице может быть несколько внешних ключей.

#sql

👍11❤1

1.24K views13:00

Библиотека собеса по Data Science | вопросы с собеседований

Какие разновидности градиентного спуска вы знаете?

Можно перечислить три разновидности.

1️⃣ Пакетный градиентный спуск (Batch Gradient Descent)
При таком подходе градиенты рассчитываются на основе всей обучающей выборки. Пакетный градиентный спуск гарантирует движение в направлении истинного градиента, но может быть очень медленным для больших наборов данных.

2️⃣ Стохастический градиентный спуск (Stochastic Gradient Descent, SGD)
Этот метод использует только один случайный пример из обучающей выборки для расчёта градиента на каждом шаге. Это делает процесс обучения более шумным, но также значительно ускоряет его и позволяет выходить из локальных минимумов.

3️⃣ Мини-пакетный градиентный спуск (Mini-Batch Gradient Descent)
Этот метод представляет собой компромисс между пакетным и стохастическим градиентным спуском. Он использует небольшую случайную подвыборку данных (мини-пакет) для расчёта градиента на каждом шаге. Это позволяет ускорить обучение, сохраняя при этом устойчивость.

#машинное_обучение

👍11

1.34K views12:02

Библиотека собеса по Data Science | вопросы с собеседований

Forwarded from Proglib.academy | IT-курсы

✏️ Разбор задачи с экзамена ШАД

Условие: Подбрасываются 16 симметричных монет (вероятности орла и решки совпадают).
Найдите вероятность того, что:

1. На всех монетах выпадут орлы
2. На 6 монетах выпадут орлы, а на 10 — решки
3. Орлы выпадут хотя бы на двух монетах

Решение: Пусть 1️⃣ — число орлов после n бросков монет с вероятностью выпадения орла равной p. Тогда перед нами схема Бернулли с n=16, p=1/2. Имеем: 2️⃣

#задачи_шад

👍8

1.14K views11:05

Библиотека собеса по Data Science | вопросы с собеседований

Что такое смещение выборки в статистике и какие виды смещения выборки существуют?

Это смещение, при котором выборка собирается таким образом, что некоторые члены целевой популяции имеют более низкую или более высокую вероятность быть отобранными по сравнению с другими.

Можно перечислить несколько видов смещения выборки:

▪️Выборка из определённой реальной области.
Например, данные опроса старшеклассников для измерения употребления подростками незаконных веществ будут смещённой выборкой, поскольку они не включает данные учеников, обучающихся на дому.

▪️Смещение при самоотборе.
Это возможно, когда группа испытуемых самостоятельно отказывается от участия в исследовании.

▪️Эффект здорового рабочего.
Возникает, когда исследуемая выборка вероятно более здорова, чем общая популяция. Например, человек в плохом состоянии здоровья вряд ли будет заниматься физических трудом.

▪️Парадокс Берксона.
Это проблема, обратная эффекту здорового рабочего. Происходит, когда исследуемая выборка отбирается из больницы и, следовательно, менее здорова, чем общая популяция.

▪️Систематическая ошибка выжившего.
Это когда отбираются только «выжившие» субъекты, и при этом игнорируются те, кто выпал из поля зрения. Например, использование данных текущих компаний для оценки делового климата игнорирует компании, которые прекратили своё существование.

#статистика

❤5👍4

1.2K views12:05

2025/09/21 15:25:26
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.bootg.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>