Telegram Web Link
Что такое TF-IDF?

TF-IDF (Term Frequency-Inverse Document Frequency) — это статистическая мера, используемая для оценки значимости слова в документе относительно всех других документов в коллекции или корпусе. TF-IDF сочетает два значения:

🔷 TF (Частота слова)
Это число, показывающее, сколько раз слово встречается в документе. Чем чаще, тем слово важнее в контексте этого документа.
🔷 IDF (Обратная частота документа)
Это мера, которая уменьшает вес слов, часто встречающихся во всём корпусе документов. Чем реже слово встречается во всём корпусе, тем больше его вклад в IDF.

Значение TF-IDF рассчитывается как произведение TF и IDF. На основе TF-IDF значений слов можно построить векторы документов.

#NLP
Что такое токенизация?

Токенизация в контексте обработки естественного языка — это процесс разделения текста на составные части. Такими составными частями могут быть слова, небольшие словосочетания или даже слоги.

Зачем нам это нужно? Токенизация позволяет перевести текст в формат, удобный для дальнейшего анализа и обработки. Токены можно преобразовать в числовые векторы, что необходимо для моделей машинного обучения. Примеры таких методов — мешок слов (Bag of Words), TF-IDF и векторные представления слов (word embeddings).

Кроме того, токенизация помогает выделить основу слова и его морфологические признаки (окончания, префиксы и т.д.), что полезно для задач, связанных с морфологическим анализом.

#NLP
🤖 Напоминаем, что у нас есть еженедельная email-рассылка, посвященная последним новостям и тенденциям в мире искусственного интеллекта.

В ней:
● Новости о прорывных исследованиях в области машинного обучения и нейросетей
● Материалы о применении ИИ в разных сферах
● Статьи об этических аспектах развития технологий
● Подборки лучших онлайн-курсов и лекций по машинному обучению
● Обзоры инструментов и библиотек для разработки нейронных сетей
● Ссылки на репозитории с открытым исходным кодом ИИ-проектов
● Фильмы, сериалы и книги

👉Подписаться👈
Что такое мультиколлинеарность?

Мультиколлинеарность возникает, когда две или более независимые переменные в модели сильно коррелированы между собой. Это означает, что между ними велика степень линейной связи.

Наличие мультиколлинеарности может приводить к проблемам:

▪️Коэффициенты регрессии становятся нестабильны. То есть небольшие изменения в данных могут сильно изменить значения коэффициентов.
▪️Коэффициенты становится сложнее интерпретировать.
▪️Могут увеличиваться стандартные ошибки оценок коэффициентов, что снижает точность и статистическую значимость предсказаний модели.

#машинное_обучение
Что бы вы стали делать с пропусками во временных рядах?

На выбор метода заполнения пропусков будет влиять такая характеристика ряда, как стационарность. Соответственно, это первое, что мы должны определить.

В целом, подходов к заполнению пропусков несколько:

▪️Заполнение средним и медианой.
Это простые методы, которые позволяют быстро и эффективно заполнить пропуски, но могут внести искажения, особенно если ряд имеет тренд или сезонность.

▪️Заполнение предыдущим и последующим значениями.
Метод last observation carried forward (LOCF) заполняет пропуски предыдущими значениями, а метод next observation carried backward (NOCB) — последующими.

▪️ Заполнение скользящим средним и медианой.
В этом методе используются несколько предыдущих и последующих значений для вычисления среднего или медианы. Это позволяет сгладить данные и уменьшить влияние случайных выбросов.

▪️Интерполяция.
Этот метод подходит для рядов с трендом. Существует несколько способов интерполяции:
- Линейная, когда строится прямая линия между двумя соседними точками.
- Полиномиальная, когда используется полином для прохождения через все известные точки.
- Сплайн, когда применяется кусочно-заданная функция из нескольких полиномов.

▪️Заполнение с сезонной корректировкой.
Этот метод используется для нестационарных рядов. Временной ряд разлагается на компоненты, интерполяция применяется к тренду и случайным колебаниям, после чего добавляется сезонность.

#машинное_обучение
Какие бывают типы данных?

Классификацию можно начать с того, чтобы выделить две большие группы: категориальные данные и количественные данные.

▪️Категориальные данные
Они описывают принадлежность объекта к определённой группе. В свою очередь делятся на два вида: номинальные и порядковые.
▫️Номинальные.
Такие данные не могут быть упорядочены, поэтому их сравнение не имеет смысла. В качестве примера могут служить цвета, города, пол и т.д.
▫️Порядковые.
Таким данным свойственна внутренняя иерархия, их можно проранжировать. Это могут быть оценки (плохо, удовлетворительно, хорошо, отлично), позиции в соревнованиях (первое место, второе место, третье место), уровень образования (начальное, среднее, высшее).

▪️Количественные данные
Их также называют числовыми. Могут быть дискретными и непрерывными.
▫️Дискретные.
Принимают строго определённые значения. Это может быть количество бракованных деталей в произведённой партии.
▫️Непрерывные.
Эти данные могут принимать любое значение в пределах определённого диапазона и не имеют конечной точности измерений. В качестве примера могут служить рост человека (170.5 см, 182.3 см, 165.2 см), время выполнения задачи (2.5 часа, 3.7 часа, 1.2 часа).

#анализ_данных
👾 Дуэт для старта в Data Science

Когда все казалось потерянным и надежда на карьеру в DS и аналитики исчезала. Он часами изучал возможности, но так и не находил выхода.

Но появилась она, с предложением, которое изменит всё…

...до 30 июня курс по математике за полцены и курс по Machine Learning в подарок

🛍14 990 ₽ (вместо 29 990 ₽)🛍

Что ждёт вас на курсе:

⭐️Полугодовая программа от преподавателей ВМК МГУ

⭐️47 видеолекций и 150 практических заданий

⭐️Бессрочный доступ ко всем материалам курса

⭐️Развернутая обратная связь по всем домашним заданиям и ссылки на полезные дополнительные материалы

🫶 Воспользуйтесь шансом, чтобы начать свой путь в Data Science – https://proglib.io/w/2cb0a5bd
Please open Telegram to view this post
VIEW IN TELEGRAM
Что вы знаете про правило цепи (chain rule)? Как оно используется в машинном обучении?

Как известно, во время градиентного спуска используется градиент, то есть вектор частных производных. Допустим, в этом векторе у нас есть производная функции логистической ошибки, производная сигмоиды и производная линейной функции. Что нужно, чтобы найти полную производную сложной функции?

Для этого применяется правило цепи, которое позволяет выразить производную сложной функции через произведение производных её составных частей. Отметим также, что этот процесс идёт в обратном от прямого распространения порядке: сначала производная ошибки, потом сигмоиды третьего слоя, затем линейной функции второго. Именно поэтому процесс называется обратным распространением ошибки (error back propagation).

#математика
#машинное_обучение
Вы можете коротко рассказать, как онлайн-кинотеатры подбирают нам кино на вечер?

Онлайн-кинотеатры используют рекомендательные системы для подбора фильмов на основе предпочтений пользователей. Существует три основных типа рекомендательных систем:

▪️Фильтрация по популярности.
В такой системе рекомендуются фильмы с высоким рейтингом, без учета индивидуальных предпочтений.

▪️Фильтрация на основе содержания.
Система анализирует фильмы, которые пользователь смотрел ранее, и предлагает похожие фильмы (например, по жанру или актерам).

▪️Коллаборативная фильтрация.
Система находит пользователей с похожими вкусами и рекомендует фильмы, которые понравились им. Существует два вида коллаборативной фильтрации:
▫️User-based — рекомендации на основе предпочтений похожих пользователей.
▫️Item-based — рекомендации на основе сходства фильмов. Сходство определяется на базе предпочтений всех пользователей, которые оставили свои оценки.

Для коллаборативной фильтрации часто используется алгоритм k-ближайших соседей (KNN) для определения сходства между фильмами или пользователями.

🔹Пример работы системы:

▪️Создаётся матрица предпочтений пользователей и фильмов.
▪️Используется алгоритм KNN для нахождения ближайших соседей.
▪️Подбираются фильмы с наибольшим сходством с уже просмотренными фильмами.

Так, если вы посмотрели фильм «Матрица», система может порекомендовать другие фильмы с Киану Ривзом или в жанре научной фантастики.

#машинное_обучение
Можете ли вы объяснить вероятностную модель регрессии?

В задачах классификации и регрессии нам, по сути, нужно найти зависимость между исходными данными X и целевыми значениями Y. Обычно модель имеет параметры, которые подбираются в ходе обучения, поэтому модель можно записывать как функцию от входных данных x и некоторых параметров θ. Поскольку параметров обычно много, то θ, чаще всего, представляет собой некий массив чисел.

Общая идея вероятностного моделирования заключается в том, что вместо одного числа модель должна предсказывать распределение вероятностей на множестве Y при заданном значении x из множества X. То есть мы ищем вероятность наблюдать y при таком x и таких параметрах θ.

В регрессионной задаче, это можно записать как P(Y|X, θ). Далее, с помощью метода максимального правдоподобия или других методов оптимизации, мы подбираем параметры θ, которые максимизируют правдоподобие наблюдаемых данных.

#машинное_обучение
#теория_вероятностей
Вы подбрасываете честную монетку 576 раз. Без использования калькулятора вычислите вероятность того, что выпадет как минимум 312 орлов

На первый взгляд мы можем сделать предположение, что задачу следует решать через биномиальное распределение. Следовательно, у нас n испытаний и вероятность успеха p в каждом испытании. Мы также знаем, как вычислить среднее, дисперсию и стандартное отклонение.

Итак, ожидаемое число выпавших орлов равно n*p или 576*0.5 = 288. Давайте также вычислим стандартное отклонение. Для этого нужно извлечь квадратный корень из следующего выражения: n*p*(1 — p). Подставим все числа: 576*0.5*0.5. Получается 144. А квадратный корень из 144 — это 12.

Затем можно догадаться, что 312 — это 288 + 12*2, то есть среднее + два стандартных отклонения. Поэтому, исходя из приближения к нормальному распределению, мы знаем, что на ±2 стандартных отклонениях находятся 5% распределения. Так, вероятность того, что выпадет 312 или больше орлов, будет равна 2.5%.

#теория_вероятностей
🧑‍💻 Статьи для IT: как объяснять и распространять значимые идеи

Напоминаем, что у нас есть бесплатный курс для всех, кто хочет научиться интересно писать — о программировании и в целом.

Что: семь модулей, посвященных написанию, редактированию, иллюстрированию и распространению публикаций.

Для кого: для авторов, копирайтеров и просто программистов, которые хотят научиться интересно рассказывать о своих проектах.

👉Материалы регулярно дополняются, обновляются и корректируются. А еще мы отвечаем на все учебные вопросы в комментариях курса.
Что такое mutual Information (взаимная информация)?

Взаимная информация (mutual information) — это величина, измеряющая количество информации, которую одна случайная величина содержит о другой. Это способ оценить степень зависимости между двумя величинами. Если величины независимы, их взаимная информация равна нулю. Чем больше зависимость, тем больше взаимная информация.

Возьмём пример с весом и ростом человека. Пусть у нас есть совместное распределение этих величин, которое показывает, как значения веса и роста распределены вместе. Совместное распределение можно представить как таблицу или график, где каждой паре значений веса и роста соответствует определённая вероятность.

Теперь представим, что мы рассматриваем только распределение веса, игнорируя рост, и только распределение роста, игнорируя вес. Эти распределения называются маржинальными. Они дают нам информацию о том, как часто встречаются определённые значения веса и роста независимо друг от друга.

Взаимная информация измеряет разницу между совместным распределением и маржинальными распределениями. Если величины совершенно независимы, их совместное распределение будет просто произведением их маржинальных распределений, и взаимная информация будет равна нулю. Если же существует зависимость, совместное распределение будет отличаться от произведения маржинальных, и взаимная информация будет положительной.

#машинное_обучение
Что такое дендрограмма и как она используется в иерархической кластеризации?

Дендрограмма — это деревообразная диаграмма, которая используется для визуализации результатов иерархической кластеризации. Она отображает иерархическую структуру кластеров, показывая, как данные объединяются на разных уровнях вложенности.

Дендрограмма состоит из узлов и ветвей, где каждый узел представляет кластер, а ветви показывают объединение или разделение кластеров. По вертикальной оси дендрограммы откладывается мера расстояния или схожести между кластерами, а по горизонтальной оси — сами кластеры или объекты данных.

#машинное_обучение
Что называют сильным искусственным интеллектом, а что — слабым?

По традиции системы искусственного интеллекта делят на два вида. Первый — «слабый», а также «специализированный» или «прикладной». Такие системы ИИ предназначены для решения какой-то одной задачи или их небольшого множества. Второй вид — «сильный» или «универсальный» искусственный интеллект. К этому виду относят системы гипотетические, способные, подобно человеческому интеллекту, решать неопределённо широкий спектр задач.

Для последнего в английском языке применяется термин artificial general intelligence, AGI.

#машинное_обучение
❗️Вакансии «Библиотеки программиста» — ждем вас в команде!

Мы постоянно растем и развиваемся, поэтому создали отдельную страницу, на которой будут размещены наши актуальные вакансии. Сейчас мы ищем:
👉авторов в наше медиа proglib.io
👉контент-менеджеров для ведения телеграм-каналов

Подробности тут.

Мы предлагаем частичную занятость и полностью удаленный формат работы — можно совмещать с основной и находиться в любом месте🌴

Ждем ваших откликов 👾
Please open Telegram to view this post
VIEW IN TELEGRAM
Назовите ключевые гиперпараметры нейронной сети

Гиперпараметры — это конфигурационные настройки нейросети, которые задаются ещё до начала обучения. Вот ключевые:

▪️Способ инициализации весов
Это довольно сильно может повлиять на сходимость модели.

▪️Количество скрытых слоёв
Также характеризуется глубиной нейросети.

▪️Количество нейронов на слой
Этот параметр позволяет регулировать то, насколько сложные паттерны способна захватывать нейросеть.

▪️Функция активации
Привносит нелинейность в модель.

▪️Функция потерь
Определяет, насколько хорошо модель обучается, измеряя разницу между предсказанными и фактическими значениями.

▪️Оптимизационный алгоритм
Алгоритм, который используется для настройки весов нейросети во время обучения.

▪️Learning rate (скорость обучения)
Устанавливает размер шага при обновлении весов нейросети. Очень высокий или низкий learning rate может замедлить или даже остановить обучение модели.

#глубокое_обучение
Допустим, вам надо предсказать доход человека. У вас есть все необходимые признаки, а данных достаточно. После построения модели как вы определите, что она получилась хорошей?

Чтобы оценить, что построенная модель для предсказания доходов человека получилась хорошей, нужно сделать следующее:

▪️Выбрать метрику качества модели: MAE (Mean Absolute Error), MSE (Mean Squared Error) или RMSE (Root Mean Squared Error). Она поможет понять, насколько точно модель предсказывает целевую переменную.

▪️Разделить имеющиеся данные на две части — обучающую и тестовую выборки. Обучающая выборка используется для построения модели, а тестовая — для оценки её качества. Это необходимо для предотвращения переобучения, когда модель хорошо работает на обучающих данных, но плохо на новых примерах.

▪️После построения модели на обучающих данных следует проверить её качество на тестовых данных. Если значения метрик на обучающей и тестовой выборках не сильно различаются, это указывает на то, что модель не переобучилась и способна давать хорошие предсказания.

▪️Дополнительно можно использовать кросс-валидацию для более точной оценки стабильности модели. Это поможет удостовериться, что модель демонстрирует хорошие результаты на различных подвыборках данных.

#машинное_обучение
2024/09/29 14:15:29
Back to Top
HTML Embed Code: