Telegram Web Link
Как можно приспособить SVM под данные, которые не являются линейно разделимыми?

Основая идея SVM, или метода опорных векторов, заключается в построении гиперплоскости, разделяющей объекты выборки оптимальным способом. Алгоритм работает в предположении, что чем больше расстояние между разделяющей гиперплоскостью и объектами разделяемых классов, тем меньше будет средняя ошибка классификатора.

Однако на практике многие данные не являются линейно разделимыми. Чтобы приспособить SVM под такие данные, можно использовать, например, ядерный трюк.

В это случае скалярное произведение трансформированных векторов n-й степени заменяется на их произведение в степени n. Такой подход позволяет получить такие же результаты, как и в случае с добавлением большого количества полиномиальных признаков без их фактического добавления.

#машинное_обучение
🧑‍💻 Статьи для IT: как объяснять и распространять значимые идеи

Напоминаем, что у нас есть бесплатный курс для всех, кто хочет научиться интересно писать — о программировании и в целом.

Что: семь модулей, посвященных написанию, редактированию, иллюстрированию и распространению публикаций.

Для кого: для авторов, копирайтеров и просто программистов, которые хотят научиться интересно рассказывать о своих проектах.

👉Материалы регулярно дополняются, обновляются и корректируются. А еще мы отвечаем на все учебные вопросы в комментариях курса.
👨‍🎓️ Кто есть кто в команде data science: путеводитель по профессии

О data scientist часто говорят, будто это одна профессия, хотя в науке о данных существуют и другие специализации. Расскажем, из каких направлений можно выбирать и что потребуется для их изучения.

🔗 Читать статью
Как использовать матрицу ошибок (confusion matrix), чтобы определить производительность модели?

В задаче классификации принято называть положительным класс, который представляет для нас интерес, и отрицательным класс, который нас не интересует (условно). С учётом этого можем описать для каждого объекта в выборке четыре возможных ситуации:

▪️Модель предсказала положительную метку и угадала. Такие объекты будут относиться к true positive (TP).
▪️Модель предсказала положительную метку и ошиблась. Такие объекты будут относиться к false positive (FP).
▪️Модель предсказала отрицательную метку и угадала. Такие объекты будут относиться к true negative (TN).
▪️Модель предсказала отрицательную метку и ошиблась. Такие объекты будут относиться к false negative (FN).

Все эти четыре группы изображают в виде таблицы, которую называют confusion matrix (матрицей ошибок). Она помогает рассчитать следующие метрики, которые могут нам что-то сказать о производительности модели:

▪️Accuracy (Точность): (TP + TN) / (TP + TN + FP + FN) — общая точность модели.
▪️Precision (Точность): TP / (TP + FP) — доля правильно предсказанных положительных объектов среди всех объектов, предсказанных положительным классом.
▪️Recall (Полнота): TP / (TP + FN) — доля правильно найденных положительных объектов среди всех объектов положительного класса.
▪️F1-score: 2 * (Precision * Recall) / (Precision + Recall) — гармоническое среднее между Precision и Recall.

#машинное_обучение
🔢 Математика для Data Science: необходимый минимум

Данные стали новой нефтью, а науку о данных Harvard Business Review назвал самой перспективной профессией 21 века. Для работы в сфере Data Science необходима математика: она позволяет извлекать смысл из огромных массивов информации и принимать обоснованные решения.

Расскажем, какие разделы математики нужно знать для успешного старта в нашей статье:

🔗 Ссылка на статью
В каких случаях стоит использовать SVM с ядерным трюком?

Есть несколько ситуаций, в которых это будет хорошим решением:

▪️Нелинейно разделимые данные.

▪️Сложные пространственные структуры.
Ядра позволяют преобразовать сложные структуры данных в более высокоразмерное пространство, где они могут быть линейно разделимы.

▪️Малая размерность пространства признаков.
При небольшом количестве признаков использование ядерного трюка помогает создать более сложные разделяющие поверхности без явного добавления новых признаков.

#машинное_обучение
Что такое elastic net в контексте регуляризации?

Этот метод переводят как эластичная сеть. Суть его заключается в комбинации двух видов регуляризации: L1 (Lasso) и L2 (Ridge). Это позволяет использовать преимущества обеих техник, уменьшая коэффициенты моделей и предотвращая переобучение. Elastic net особенно полезен при работе с данными, где существует сильная корреляция между признаками, так как он может автоматически выбирать важные признаки и отбрасывать незначительные.

#машинное_обучение
💬 Опрос для тех, кто уже проходил собеседования.

Задавали ли вам вопросы, на которые вы не смогли ответить? Если вы помните такие вопросы, то делитесь ими в комментариях👇
🤖 Напоминаем, что у нас есть еженедельная email-рассылка, посвященная последним новостям и тенденциям в мире искусственного интеллекта.

В ней:
● Новости о прорывных исследованиях в области машинного обучения и нейросетей
● Материалы о применении ИИ в разных сферах
● Статьи об этических аспектах развития технологий
● Подборки лучших онлайн-курсов и лекций по машинному обучению
● Обзоры инструментов и библиотек для разработки нейронных сетей
● Ссылки на репозитории с открытым исходным кодом ИИ-проектов
● Фильмы, сериалы и книги

👉Подписаться👈
Как выбрать порог для модели классификации?

Выбор порога для модели классификации зависит от конкретной задачи. Можно перечислить следующие используемые методы:

▪️Самое простое решение — взять в качестве порогового значения 0.5. Это будет означать, что если вероятность принадлежности объекта к положительному классу выше 50%, то объект будет классифицирован как положительный.

▪️Использовать ROC-кривую (Receiver Operating Characteristic) и значение AUC (Area Under the Curve), чтобы выбрать порог, который оптимизирует соотношение между истинно положительными и ложноположительными результатами.

▪️Оптимизировать порог на основе Precision-Recall кривой. Это особенно полезно для несбалансированных наборов данных, где важен баланс между точностью (Precision) и полнотой (Recall).

▪️Рассмотреть специфические бизнес-требования и контекст задачи. Например, в задачах медицинской диагностики может быть важно минимизировать ложноотрицательные результаты, а в задачах обнаружения мошенничества — ложноположительные.

▪️Проводить тестирование на валидационной выборке, чтобы понять, как различные пороги влияют на производительность модели в условиях, близких к реальным.

#машинное_обучение
В чём разница между первичным (primary) и внешним (foreign) ключами в SQL?

▪️ Первичный ключ (primary key) — это уникальный идентификатор каждой записи в таблице. В таблице может быть только один первичный ключ, но он может состоять из нескольких столбцов (составной ключ). Значения в первичном ключе не могут быть NULL, и они должны быть уникальными.

▪️ Внешний ключ (foreign key) — это столбец или группа столбцов, которые создают связь между двумя таблицами. Внешний ключ в одной таблице ссылается на первичный ключ в другой таблице, обеспечивая целостность данных. В таблице может быть несколько внешних ключей.

#sql
Какие разновидности градиентного спуска вы знаете?

Можно перечислить три разновидности.

1️⃣ Пакетный градиентный спуск (Batch Gradient Descent)
При таком подходе градиенты рассчитываются на основе всей обучающей выборки. Пакетный градиентный спуск гарантирует движение в направлении истинного градиента, но может быть очень медленным для больших наборов данных.

2️⃣ Стохастический градиентный спуск (Stochastic Gradient Descent, SGD)
Этот метод использует только один случайный пример из обучающей выборки для расчёта градиента на каждом шаге. Это делает процесс обучения более шумным, но также значительно ускоряет его и позволяет выходить из локальных минимумов.

3️⃣ Мини-пакетный градиентный спуск (Mini-Batch Gradient Descent)
Этот метод представляет собой компромисс между пакетным и стохастическим градиентным спуском. Он использует небольшую случайную подвыборку данных (мини-пакет) для расчёта градиента на каждом шаге. Это позволяет ускорить обучение, сохраняя при этом устойчивость.

#машинное_обучение
✏️ Разбор задачи с экзамена ШАД

Условие: Подбрасываются 16 симметричных монет (вероятности орла и решки совпадают).
Найдите вероятность того, что:

1. На всех монетах выпадут орлы
2. На 6 монетах выпадут орлы, а на 10 — решки
3. Орлы выпадут хотя бы на двух монетах

Решение: Пусть 1️⃣ — число орлов после n бросков монет с вероятностью выпадения орла равной p. Тогда перед нами схема Бернулли с n=16, p=1/2. Имеем: 2️⃣

#задачи_шад
Что такое смещение выборки в статистике и какие виды смещения выборки существуют?

Это смещение, при котором выборка собирается таким образом, что некоторые члены целевой популяции имеют более низкую или более высокую вероятность быть отобранными по сравнению с другими.

Можно перечислить несколько видов смещения выборки:

▪️Выборка из определённой реальной области.
Например, данные опроса старшеклассников для измерения употребления подростками незаконных веществ будут смещённой выборкой, поскольку они не включает данные учеников, обучающихся на дому.

▪️Смещение при самоотборе.
Это возможно, когда группа испытуемых самостоятельно отказывается от участия в исследовании.

▪️Эффект здорового рабочего.
Возникает, когда исследуемая выборка вероятно более здорова, чем общая популяция. Например, человек в плохом состоянии здоровья вряд ли будет заниматься физических трудом.

▪️Парадокс Берксона.
Это проблема, обратная эффекту здорового рабочего. Происходит, когда исследуемая выборка отбирается из больницы и, следовательно, менее здорова, чем общая популяция.

▪️Систематическая ошибка выжившего.
Это когда отбираются только «выжившие» субъекты, и при этом игнорируются те, кто выпал из поля зрения. Например, использование данных текущих компаний для оценки делового климата игнорирует компании, которые прекратили своё существование.

#статистика
Какова разница между == и is в Python?

🔘== проверяет равенство значений двух объектов. Он возвращает True, если объекты имеют одинаковые значения, даже если они занимают разные места в памяти.

🔘is проверяет, указывают ли две переменные на один и тот же объект в памяти.

Рассмотрим пример:
lst = [10, 20, 20]
print(lst == lst[:]) # True
print(lst is lst[:]) # False


В первом случае lst == lst[:] возвращает True, потому что срез lst[:] создаёт новый список с теми же значениями, что и у оригинального списка lst.

Во втором случае lst is lst[:] возвращает False, так как lst[:] создает новый объект в памяти, который имеет те же значения, но является другим объектом.

#python
#программирование
Please open Telegram to view this post
VIEW IN TELEGRAM
👀 Попробуйте угадать, что изображено на этом графике?

Не спешите заглядывать в ответ.

Ответ:

Ответ: Время цветения вишни (Prunus jamasakura) в разные годы в Киото (Япония).
Для чего может быть нужно снижение размерности?

Поскольку в многомерном пространстве каждый признак представляет собой одно из измерений, снижение размерности можно трактовать как уменьшение числа признаков. Для чего нам может пригодиться такое упрощение?

▪️Сокращение времени обучения.
С меньшим количеством признаков модель обучается быстрее, так как ей нужно обрабатывать меньше данных.

▪️Улучшение интерпретируемости.
Упрощённая модель с меньшим числом признаков легче поддаётся интерпретации. Это помогает лучше понять, какие именно признаки вносят основной вклад в предсказания модели.

▪️Повышение эффективности модели.
Наличие в наборе данных признаков избыточных, неинформативных или слабо информативных может понизить эффективность модели.

▪️Уменьшение вероятности переобучения.
Меньшее количество признаков снижает вероятность того, что модель будет слишком хорошо подстраиваться под тренировочные данные.

#машинное_обучение
🧑‍💻 Статьи для IT: как объяснять и распространять значимые идеи

Напоминаем, что у нас есть бесплатный курс для всех, кто хочет научиться интересно писать — о программировании и в целом.

Что: семь модулей, посвященных написанию, редактированию, иллюстрированию и распространению публикаций.

Для кого: для авторов, копирайтеров и просто программистов, которые хотят научиться интересно рассказывать о своих проектах.

👉Материалы регулярно дополняются, обновляются и корректируются. А еще мы отвечаем на все учебные вопросы в комментариях курса.
Какие критерии качества рекомендательных систем вы знаете?

▪️Полнота (Coverage)
Эта метрика показывает долю рекомендованных объектов среди всех доступных объектов. Полноту имеет смысл оценивать в различных временных интервалах, чтобы понимать, как система справляется с задачей на разных этапах своей работы.

▪️Новизна (Novelty)
Новизна измеряет, насколько новые и неизвестные объекты система предлагает пользователю. Метрика помогает избежать ситуации, когда пользователю постоянно предлагаются одни и те же или слишком популярные объекты.

▪️Разнообразие (Diversity)
Это свойство системы показывает, насколько различны объекты, которые она предлагает. Высокое разнообразие способствует долгосрочной удовлетворенности пользователей, так как они получают больше разных и интересных рекомендаций.

▪️Serendipity
Это одна из самых сложных для формализации и измерения метрик. Serendipity отражает способность системы предлагать пользователю неожиданные, но релевантные рекомендации. Оптимизация этой метрики требует тонкой настройки модели, чтобы она могла учитывать необычные предпочтения пользователя.

#машинное_обучение
2024/09/29 08:25:05
Back to Top
HTML Embed Code: