Библиотека собеса по Data Science | вопросы с собеседований 798

Библиотека собеса по Data Science | вопросы с собеседований

В чём разница между обнаружением объектов (object detection) и сегментацией изображения?

И то, и другое — задачи компьютерного зрения, которые предполагают анализ и понимание содержания изображений. Однако разница между ними есть.

▪️Обнаружение объектов.

Цель заключается в идентификации и локализации объектов и представлении их в виде ограничивающих рамок с соответствующими метками. Используется, например, в бесплотных автомобилях для обнаружения пешеходов и транспортных средств.

▪️Сегментация изображений.

Здесь цель — разделить изображение на несколько областей, или сегментов. Обеспечивает постановку меток на уровне пикселей для всего изображения. Используется в задачах, требующих анализа на уровне пикселей, таких как диагностика по медицинским изображениям.

922 views18:11

Библиотека собеса по Data Science | вопросы с собеседований

❓ Что такое компромисс между bias и variance

Ответ:

Высокий bias возникает, когда модель слишком проста (мало параметров). Она упрощает данные, что приводит к большим систематическим ошибкам и плохой точности. Однако такая модель имеет низкий variance, то есть остаётся устойчивой к изменениям данных.

Высокий variance встречается в сложных моделях (много параметров), которые слишком точно подстраиваются под обучающие данные. Это снижает систематические ошибки (низкий bias), но делает модель чувствительной к шуму и новым данным, что ведёт к переобучению.

👉 Баланс между bias и variance — ключ к созданию модели, которая не переобучается и не упрощает данные слишком сильно.

909 views18:02

Библиотека собеса по Data Science | вопросы с собеседований

🧑‍💻 Статьи для IT: как объяснять и распространять значимые идеи

Напоминаем, что у нас есть бесплатный курс для всех, кто хочет научиться интересно писать — о программировании и в целом.

Что: семь модулей, посвященных написанию, редактированию, иллюстрированию и распространению публикаций.

Для кого: для авторов, копирайтеров и просто программистов, которые хотят научиться интересно рассказывать о своих проектах.

👉Материалы регулярно дополняются, обновляются и корректируются. А еще мы отвечаем на все учебные вопросы в комментариях курса.

842 views20:02

Библиотека собеса по Data Science | вопросы с собеседований

❓ Как бороться с проклятием размерности

Проклятие размерности возникает, когда у вас слишком много признаков (размерностей) в данных, что усложняет их анализ и моделирование. Вот как с этим справиться:

1️⃣ Выбор признаков
Отбор только наиболее значимых признаков для вашей модели.
Как помогает: Уменьшает шум и сложность, удаляя нерелевантные или избыточные признаки.

2️⃣ Анализ главных компонент (PCA)
Метод, который преобразует данные с высокой размерностью в данные с меньшей размерностью.
Как помогает: Сжимает данные, сохраняя как можно больше информации.

3️⃣ Многомерное масштабирование
Метод визуализации сходства или различия данных в низких размерностях.
Как помогает: Помогает понять отношения между точками данных в более интерпретируемом виде.

4️⃣ Локально-линейные эмбеддинги (LLE)
Нелинейная техника уменьшения размерности, сохраняющая локальные взаимосвязи между точками данных.
Как помогает: Лучше сохраняет структуру данных, чем линейные методы, особенно для сложных данных.

812 views18:01

Библиотека собеса по Data Science | вопросы с собеседований

Самые полезные каналы для программистов в одной подборке!

Сохраняйте себе, чтобы не потерять 💾

🔥Для всех

Библиотека программиста — новости, статьи, досуг, фундаментальные темы
Книги для программистов
IT-мемы
Proglib Academy — тут мы рассказываем про обучение и курсы
Азбука айтишника — здесь мы познаем азы из мира программирования

🤖Про нейросети
Библиотека робототехники и беспилотников | Роботы, ИИ, интернет вещей
Библиотека нейрозвука | Транскрибация, синтез речи, ИИ-музыка
Библиотека нейротекста | ChatGPT, Gemini, Bing
Библиотека нейровидео | Sora AI, Runway ML, дипфейки
Библиотека нейрокартинок | Midjourney, DALL-E, Stable Diffusion

#️⃣C#

Книги для шарпистов | C#, .NET, F#
Библиотека шарписта — полезные статьи, новости и обучающие материалы по C#
Библиотека задач по C# — код, квизы и тесты
Библиотека собеса по C# — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Вакансии по C#, .NET, Unity Вакансии по PHP, Symfony, Laravel

☁️DevOps

Библиотека devops’а — полезные статьи, новости и обучающие материалы по DevOps
Вакансии по DevOps & SRE
Библиотека задач по DevOps — код, квизы и тесты
Библиотека собеса по DevOps — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования

🐘PHP

Библиотека пхпшника — полезные статьи, новости и обучающие материалы по PHP
Вакансии по PHP, Symfony, Laravel
Библиотека PHP для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по PHP — код, квизы и тесты

🐍Python

Библиотека питониста — полезные статьи, новости и обучающие материалы по Python
Вакансии по питону, Django, Flask
Библиотека Python для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Python — код, квизы и тесты

☕Java

Книги для джавистов | Java
Библиотека джависта — полезные статьи по Java, новости и обучающие материалы
Библиотека Java для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Java — код, квизы и тесты
Вакансии для java-разработчиков

👾Data Science

Книги для дата сайентистов | Data Science
Библиотека Data Science — полезные статьи, новости и обучающие материалы по Data Science
Библиотека Data Science для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Data Science — код, квизы и тесты
Вакансии по Data Science, анализу данных, аналитике, искусственному интеллекту

🦫Go

Книги для Go разработчиков
Библиотека Go разработчика — полезные статьи, новости и обучающие материалы по Go
Библиотека Go для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Go — код, квизы и тесты
Вакансии по Go

🧠C++

Книги для C/C++ разработчиков
Библиотека C/C++ разработчика — полезные статьи, новости и обучающие материалы по C++
Библиотека C++ для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по C++ — код, квизы и тесты
Вакансии по C++

💻Другие каналы

Библиотека фронтендера
Библиотека мобильного разработчика
Библиотека хакера
Библиотека тестировщика
Библиотека разработчика игр | Gamedev, Unity, Unreal Engine
Вакансии по фронтенду, джаваскрипт, React, Angular, Vue
Вакансии для мобильных разработчиков
Вакансии по QA тестированию
InfoSec Jobs — вакансии по информационной безопасности

📁Чтобы добавить папку с нашими каналами, нажмите 👉сюда👈

Также у нас есть боты:
Бот с IT-вакансиями
Бот с мероприятиями в сфере IT

Мы в других соцсетях:
🔸VK
🔸YouTube
🔸Дзен
🔸Facebook *
🔸Instagram *

* Организация Meta запрещена на территории РФ

796 views06:02

Библиотека собеса по Data Science | вопросы с собеседований

❓ Что такое регуляризация, зачем она нужна и какие есть методы

Регуляризация — это метод, который предотвращает переобучение модели, ограничивая её способность к запоминанию избыточно сложных или гибких зависимостей в данных. Это помогает моделям лучше обобщать новые данные.

🔧 Основные методы регуляризации
Ridge-регрессия (L2-норма):
Добавляет штраф за большие значения коэффициентов. Ridge уменьшает значения коэффициентов, делая их близкими к нулю, но не равными нулю.
🟢 Преимущество: уменьшает сложность модели.
🔴 Недостаток: модель остаётся сложной, так как все признаки остаются в финальной версии.

Lasso-регрессия (L1-норма):
Добавляет штраф за абсолютное значение коэффициентов. Lasso может занулять коэффициенты совсем, исключая неважные признаки.
🟢 Преимущество: выполняет отбор признаков и создаёт более простые модели.
🔴 Недостаток: может игнорировать слабые, но полезные признаки.

879 views18:03

Библиотека собеса по Data Science | вопросы с собеседований

Forwarded from Библиотека питониста | Python, Django, Flask

🐍🃏 Как написать пасьянс на Python

Пасьянс «Косынка» — одна из самых популярных карточных игр.

👍 В этой статье мы разберем, как реализовать «Косынку» с использованием библиотеки Tkinter: детально рассмотрим логику игры, настройки интерфейса, а также визуализацию и обработку перемещений карт.

🤓 Статья

#игрынаPython

602 views13:56

Библиотека собеса по Data Science | вопросы с собеседований

В чем разница между ошибкой первого рода (Type I) и ошибкой второго рода (Type II)

🔴 Ошибка первого рода (Type I): Модель ошибочно классифицирует объект как положительный, хотя на самом деле он относится к отрицательному классу. Например, алгоритм распознавания спама пометил обычное письмо как спам.
🔵 Ошибка второго рода (Type II): Модель не распознает объект положительного класса и относит его к отрицательному. Например, спам-письмо не было обнаружено и осталось в папке «Входящие».

💡 Простая метафора:
🔴 Ошибка первого рода — сказать мужчине, что он беременен.
🔵 Ошибка второго рода — сказать беременной женщине, что она не ждет ребенка.

⚙️ Почему это важно
Баланс между этими ошибками критичен в задачах классификации, таких как медицинская диагностика или обнаружение мошенничества. Метрики (например, точность, полнота, F1-мера) помогают определить, какой тип ошибки важнее минимизировать в зависимости от задачи.

916 views18:03

Библиотека собеса по Data Science | вопросы с собеседований

🔍 Разница между LDA и PCA для уменьшения размерности

LDA (Линейный дискриминантный анализ) и PCA (Метод главных компонент) — это линейные техники преобразования для уменьшения размерности, но у них разные цели и методы работы:

🧑‍🏫 LDA — это контролируемая техника, которая учитывает метки классов при преобразовании. LDA стремится найти подпространство признаков, которое максимально разделяет классы.
🔄 PCA — это бесконтрольная техника, которая игнорирует метки классов. PCA ищет направления максимальной дисперсии в данных, не учитывая, к какому классу принадлежит объект.

📊 Применение:
- LDA используется для улучшения разделимости классов в задачах классификации.
- PCA используется для уменьшения размерности и улучшения вычислительной эффективности.

909 views18:08

Библиотека собеса по Data Science | вопросы с собеседований

Forwarded from Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🐜 Как создавать ИИ-агентов, которые реально работают: опыт Anthropic

В лабораториях Anthropic в 2025 году создают новое поколение ИИ-агентов. Они не просто следуют командам — они принимают решения.

🤖 Как написать работающего ИИ-агента? Делимся практическими советами от команды, создавшей Claude.

👉 Статья

#агентыИИ #Claude

647 views09:29

Библиотека собеса по Data Science | вопросы с собеседований

🚀 Реализуйте Non-Maximum Suppression (NMS) максимально эффективно

NMS — это техника, используемая для устранения нескольких детекций одного и того же объекта на изображении.

1. Чтобы решить эту задачу, нужно сначала отсортировать детекции по их оценкам (O(N log N)). 2. Начинаем с детекции с наивысшей оценкой и удаляем те детекции, чье перекрытие (метрика IoU) с текущей детекцией больше заданного порога (O(N^2)).

⚙️ Для оптимизации этого решения можно использовать специальные структуры данных, такие как R-дерево или KD-дерево, для быстрого поиска пересекающихся детекций (O(N log N)).

846 views18:04

Библиотека собеса по Data Science | вопросы с собеседований

Что такое методы выбора признаков и какие они бывают

Существует два основных метода для выбора признаков: фильтровые и обертки.

1. Фильтровые методы:
🔹 Линейный дискриминантный анализ (LDA)
🔹 ANOVA (дисперсионный анализ)
🔹 Хи-квадрат

Эти методы направлены на выбор признаков на основе статистических тестов, таких как анализ различий между группами данных.

2. Методы обертки:
🔸 Прямой отбор (Forward Selection): тестируем каждый признак по очереди и добавляем их до тех пор, пока не получим хорошую модель.
🔸 Обратный отбор (Backward Selection): начинаем с всех признаков и последовательно исключаем их, чтобы найти оптимальный набор.
🔸 Рекурсивное исключение признаков (Recursive Feature Elimination): анализирует взаимодействие признаков и исключает наименее важные.

Методы обертки требуют больше вычислительных ресурсов, так как они предполагают многократные прогоны модели с разными наборами признаков.

803 views18:02

Библиотека собеса по Data Science | вопросы с собеседований

Forwarded from Proglib.academy | IT-курсы

📊 Что такое большие данные, как их классифицируют и какими характеристиками обладают

Рассказываем об основных терминах, методах и инструментах, которые используются при анализе больших данных.

🔗 Читать статью

🔵 А чтобы еще больше погрузиться в Big Data, забирайте наш курс «Базовые модели ML и приложения»

Please open Telegram to view this post

VIEW IN TELEGRAM

624 views19:15

Библиотека собеса по Data Science | вопросы с собеседований

❓ Как можно объявить временной ряд стационарным

Временной ряд считается стационарным, когда его дисперсия и среднее значение остаются постоянными во времени.

📈 Пример визуализации:
1️⃣ На первом графике дисперсия постоянна во времени. X — это временной фактор, а Y — переменная. Значение Y проходит через одни и те же точки на графике, что означает, что ряд стационарен.
2️⃣ Графики 2-4 отображают нестационарные ряды. Наблюдается либо возрастающая амплитуда колебаний (дисперсия), либо явный тренд.

📉 Вывод
Если дисперсия и среднее значение остаются стабильными, то временной ряд стационарен. Если они изменяются, то ряд нестационарен.

868 views18:08

Библиотека собеса по Data Science | вопросы с собеседований

❗Вакансии «Библиотеки программиста» — ждем вас в команде!

Мы постоянно растем и развиваемся, поэтому создали отдельную страницу, на которой будут размещены наши актуальные вакансии. Сейчас мы ищем:
👉контент-менеджеров для ведения телеграм-каналов

Подробности тут

Мы предлагаем частичную занятость и полностью удаленный формат работы — можно совмещать с основной и находиться в любом месте🌴

Ждем ваших откликов 👾

job.proglib.io

Вакансии в медиа «Библиотека программиста»‎

Количество проектов в редакции постоянно растет, так что нам всегда нужны специалисты

877 views06:02

Библиотека собеса по Data Science | вопросы с собеседований

📊 Параметрические и непараметрические модели: в чем разница

🔗 Параметрические модели предполагают заранее заданную форму зависимости между входными и выходными данными. Это упрощает процесс обучения, но ограничивает гибкость модели.

🤖 Непараметрические модели, напротив, не предполагают фиксированной формы зависимости и могут адаптироваться к большему количеству шаблонов в данных. Это делает их более гибкими, но требует большего количества данных для точных прогнозов.

Параметрические модели подходят для задач, где важна скорость обучения, а непараметрические лучше работают с более сложными и разнообразными данными.

895 views18:03

Библиотека собеса по Data Science | вопросы с собеседований

Хочешь уверенно проходить IT-интервью?

Мы понимаем, как сложно подготовиться: стресс, алгоритмы, вопросы, от которых голова идёт кругом. Но с AI тренажёром всё гораздо проще.

💡 Почему Т1 тренажёр — это мастхэв?

• Получишь настоящую обратную связь: где затык, что подтянуть и как стать лучше.
• Научишься не только решать задачи, но и объяснять своё решение так, чтобы интервьюер сказал: "Вау!".
• Освоишь все этапы собеседования, от вопросов по алгоритмам до диалога о твоих целях.

Зачем листать миллион туториалов? Просто зайди в Т1 тренажёр, потренируйся и уверенно удиви интервьюеров. Мы не обещаем лёгкой прогулки, но обещаем, что будешь готов!

Реклама. ООО «Смарт Гико», ИНН 7743264341. Erid 2VtzqwP8vqy

#Айти #Собеседование #Т1

795 views15:00

Библиотека собеса по Data Science | вопросы с собеседований

⤵️ Чем отличается метод градиентного спуска от стохастического градиентного спуска?

▪️ Метод градиентного спуска (Gradient Descent) — это оптимизационный алгоритм, который используется для минимизации функции потерь, обновляя параметры модели в направлении отрицательного градиента функции потерь. В каждом шаге используется весь обучающий набор данных для вычисления градиента.

▪️ Стохастический градиентный спуск (SGD) — это модификация, в которой градиент вычисляется только по одному случайно выбранному примеру данных на каждом шаге. Это делает процесс обучения быстрее, но более шумным.

Основное различие: градиентный спуск использует все данные, что делает его более точным, но медленным, а стохастический градиентный спуск быстрее, но может колебаться вокруг минимума из-за случайных обновлений.

916 views18:04

Библиотека собеса по Data Science | вопросы с собеседований

📍 Объясните разницу между параметрами модели и гиперпараметрами

🔸 Параметры модели
Автоматически настраиваются: Параметры модели определяются в процессе обучения на основе данных.
Внутреннее состояние модели: Они представляют собой внутреннее состояние модели, которое позволяет ей делать прогнозы.
Примеры: веса в нейронных сетях, коэффициенты линейной регрессии, опорные векторы в SVM.

🔸 Гиперпараметры
Задаются вручную: Гиперпараметры устанавливаются до начала обучения и влияют на процесс обучения.
Контроль обучения: Они определяют, как модель будет обучаться, а не то, что она будет предсказывать.
Примеры: скорость обучения в нейронных сетях, количество соседей в KNN, параметры ядра в SVM.

848 views18:04

Библиотека собеса по Data Science | вопросы с собеседований

👀 Что такое эффект мультиколлинеарности и как он может повлиять на модель линейной регрессии?

Мультиколлинеарность — это ситуация, когда два или более признака в модели линейной регрессии сильно коррелируют между собой. Это затрудняет оценку их индивидуального влияния на зависимую переменную, поскольку изменения в одном признаке могут быть связаны с изменениями в другом.

В результате мультиколлинеарности коэффициенты модели могут быть нестабильными и иметь большие стандартные ошибки, что снижает точность прогнозов и интерпретацию модели.

✅ Чтобы избежать этого, можно использовать методы, такие как удаление коррелирующих признаков, регуляризация (Lasso, Ridge) или главные компоненты (PCA) для уменьшения корреляции между признаками.

901 views18:02

2025/02/23 21:32:20
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.bootg.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>