Telegram Web Link
Вакансии «Библиотеки программиста» — ждем вас в команде!

Мы постоянно растем и развиваемся, поэтому создали отдельную страницу, на которой будут размещены наши актуальные вакансии. Сейчас мы ищем:
👉контент-менеджеров для ведения телеграм-каналов

Подробности тут

Мы предлагаем частичную занятость и полностью удаленный формат работы — можно совмещать с основной и находиться в любом месте🌴

Ждем ваших откликов 👾
Что вы знаете про Sparse Linear Methods (SLIM)?

Sparse Linear Methods (SLIM) — это метод моделирования рекомендаций, который основывается на разреженных линейных моделях. Такие рекомендательные системы учитывают схожесть между элементами на основе линейных отношений в матрице пользователь-объект.

Главная идея SLIM заключается в обучении матрицы весов W, которая описывает взаимосвязь между элементами. Эти веса используются для предсказания пользовательских предпочтений через линейную комбинацию взаимодействий с другими элементами.

К преимуществам SLIM относятся:

▪️Интерпретируемость
Полученные веса позволяют понять, как объекты связаны друг с другом.
▪️Адаптивность
Хорошо справляется как с большим, так и с малым количеством данных.

#машинное_обучение
📈 Почему Big data так быстро развивается?

Хотите получить востребованную и высокооплачиваемую профессию. Начните с понимания, куда движется индустрия. В нашей статье поговорим о Big Data — одном из самых горячих и перспективных направлений в IT.

🔗 Ссылка
В чём отличие одностороннего критерия от двустороннего?

Чтобы ответить на этот вопрос, нужно коротко описать этапы построения статистического теста.

▪️Формулировка гипотез
Так, нулевая гипотеза утверждает отсутствие эффекта или различий, а альтернативная — наличие эффекта.

▪️Определение критического множества
Это набор значений статистики теста, при попадании в который нулевая гипотеза отвергается. Выбор критического множества зависит от типа теста.
— Односторонний критерий
В этом случае критическое множество располагается с одной стороны распределения.
— Двусторонний критерий
В этом случае критическое множество делится на две области в «хвостах» распределения.

▪️Расчёт критического значения
Уровень значимости определяет, какую долю распределения займёт критическое множество. Для двустороннего теста эта доля делится поровну между двумя хвостами.

▪️Проверка значения статистики
Рассчитывается значение тестовой статистики и проверяется, попадает ли оно в критическое множество.

Пример
Если мы проверяем, выросли ли продажи после внедрения нового продукта, используется односторонний критерий. Если просто хотим узнать, изменились ли продажи в принципе (в любую сторону), подходит двусторонний.

#статистика
В классификации есть метрика Precision. Но слышали ли вы про Average Precision? Знаете, зачем она используется?

Average Precision (AP) — это метрика, которая оценивает баланс между точностью (precision) и полнотой (recall) на всех возможных порогах классификации.

Как это работает:
▪️Модель начинает с высокого порога, где она «уверена» в своих предсказаниях, и постепенно снижает его, увеличивая полноту (recall).
▪️Для каждого порога вычисляется точность и строится кривая зависимости Precision-Recall.
▪️Average Precision — это площадь под этой кривой.

Почему это важно?
AP дает более полную картину качества модели, чем точность или полнота, так как учитывает все пороги вероятностей. Она особенно полезна:
В задачах с несбалансированными данными (где положительных примеров мало).
В задачах ранжирования (например, поиск, детекция объектов).
Для оценки модели в условиях, когда важен не только один порог, но и общее поведение модели.

#машинное_обучение
Forwarded from DIGITALRAZOR
Что будет, если DigitalRazor объединится с Proglib Academy? Правильно! Новый розыгрыш.

Условия:

Подпишитесь на DigitalRazor;
Подпишитесь на «Библиотеку программиста»;
Нажмите кнопку «Участвовать» под этим постом.

Призы:

1-е место: 27-дюймовый монитор;
2, 3 и 4-е место: сертификат номиналом 20 000 рублей на ИТ-курсы от Proglib Academy;
5-е место: геймерская клавиатура + коврик на выбор.

Призы разыграем 1 декабря в 20:00 (МСК).

Доставка призов возможна только по городам России и Белоруссии.

Proglib Academy создаёт онлайн-курсы для программистов, помогает получить востребованные навыки и построить успешную карьеру в IT.

Игровые компьютеры и рабочие станции DigitalRazor — это качественная сборка, топовое железо и эффектный дизайн.

Регламент розыгрыша
Что вы знаете о тесте Хи-квадрат?

Тест Хи-квадрат — это мощный инструмент, который применяется для анализа взаимосвязей между двумя категориальными переменными. Он позволяет оценить, существует ли статистически значимое различие между наблюдаемыми и ожидаемыми частотами событий.

Хи-квадрат применяется, если есть гипотеза о связи двух переменных, выраженных через категориальные шкалы.

Например, вы хотите выяснить, влияет ли гимнастика для глаз на вероятность головной боли. Собираем данные, составляем таблицу наблюдений и рассчитываем ожидаемые значения, которые предполагали бы отсутствие влияния гимнастики.

Как рассчитывается Хи-квадрат:
▪️Для каждой ячейки таблицы считаем разницу между наблюдаемым и ожидаемым значением.
▪️Возводим эту разницу в квадрат.
▪️Делим на ожидаемое значение.
▪️Суммируем эти результаты по всем ячейкам.

Итоговый показатель сравнивается с табличным значением, чтобы определить, значимы ли различия.

#статистика
🎅 Какой подарок вы бы хотели на НГ? Пишите в комментариях👇

Админ на НГ не отказался бы от вашей активности. Реакции, комментарии, конструктивные предложения будем ждать под ёлкой 🎄
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ Напоминаем: у нас можно (и нужно) купить рекламу

→ Более 60 телеграм-каналов по всем направлениям IT
→ Почти 1,2 миллиона аудитории
→ Собственное медиа и сайт с DAU 25 000 — можем усилить продвижение
→ Классные email-рассылки
→ И, конечно же, крутые контент-менеджеры, которые сделают нативную интеграцию/придумают виральный пост/реализуют любые контентные предпочтения

Для заказа пишите сюда: @proglib_adv
Что вы можете рассказать про факторный анализ?

Факторный анализ — это метод, который помогает выявить скрытые закономерности в данных и упростить их интерпретацию. Вместо анализа множества исходных переменных (наблюдаемых) мы создаём новые, скрытые переменные, которые объясняют основные взаимосвязи.

Основной способ выполнения факторного анализа — это метод главных компонент (PCA). Он находит направления (компоненты), которые лучше всего объясняют изменчивость данных.

#анализ_данных
🎉 Розыгрыш от Proglib Academy и DigitalRazor!

С 27 ноября по 27 декабря у вас есть шанс не только прокачать свои навыки, но и выиграть ПК при покупке любого курса Академии!

🎁 Призы для участников акции:

Игровой ПК DigitalRazor ProGaming
VIP-пакет курса Proglib Academy

💡 Как принять участие?
Купите любой курс Proglib Academy с 27 ноября по 27 декабря и получите шанс выиграть мощный ПК.

Приобретите технику DigitalRazor — участвуйте в розыгрыше VIP курса.

📅 Вместе с DigitalRazor мы создали спецпредложение -50% на курсы до 30 ноября, чтобы вы могли начать обучение на более выгодных условиях.

Выбрать курс
Можно ли считать функцию потерь метрикой качества?

Нет, ставить знак равенства здесь нельзя.

Функция потерь — это математическое выражение, используемое для измерения ошибки модели при её обучении. Она показывает, насколько сильно предсказания модели отличаются от реальных значений. Функция потерь служит основой для оптимизации: обучение модели заключается в минимизации значения этой функции.

Примеры:
▪️Среднеквадратичная ошибка (Mean Squared Error, MSE) для регрессии.
▪️Кросс-энтропия (Cross-Entropy Loss) для классификации.

Метрика — это внешний, объективный критерий качества. Он не зависит напрямую от параметров модели — только от предсказанных и фактических меток.

Примеры:
▪️Точность (Accuracy) для классификации.
▪️F1-мера для задач с несбалансированными классами.

#машинное_обучение
Что показывает квантильный график?

Квантильный график, или Q-Q plot, используется для сравнения распределения данных с теоретическим распределением (например, нормальным). То есть это инструмент, позволяющий визуально определить нормальность распределения.

Если точки на графике ложатся близко к диагональной линии, значит, распределение соответствует нормальному.

Квантиль — это значение переменной, соответствующее определённому проценту данных в упорядоченной выборке. Например:
▪️ 25-й процентиль (или первый квартиль) — это значение, ниже которого лежит 25% данных.
▪️ Медиана (50-й процентиль) — это значение, делящее выборку пополам.
▪️ 75-й процентиль (или третий квартиль) — значение, ниже которого находится 75% данных.

Квантильный график создается функцией qqplot из пакета statsmodels.

#статистика
#анализ_данных
Какие существуют области видимости функций в Python?

В Python переменные имеют две основные области видимости: локальную и глобальную.

▪️Локальная
Переменные, объявленные внутри функции, существуют только в её пределах и недоступны за её пределами. Аргументы функции также относятся к локальной области и исчезают после завершения функции.

▪️Глобальная
Переменные, объявленные вне функций, доступны в любой части программы. Однако, если внутри функции пытаться присвоить значение глобальной переменной, Python создаст новую локальную переменную с тем же именем.

#python
📊 Системный и бизнес-аналитик: пошаговый гайд к востребованной профессии

Пару слов о еще одном безумном разделении во вселенной IT-специальностей: системный и бизнес-аналитик. Рассказываем в нашей статье, чем занимаются представители профессии, сколько зарабатывают и как войти в эту сферу деятельности.

🔗 Ссылка

Хочешь стать бизнес-аналитиком? У нас есть отличный курс, который поможет подтянуть математику:
🔵 Математика для Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
Какие табличные форматы хранения данных вы знаете?

▪️csv
Простой текстовый формат, где данные хранятся в виде таблицы, разделённой запятыми или другим разделителем.

▪️parquet
Бинарный формат, оптимизированный для хранения и обработки больших объёмов данных. Использует сжатие и хранение данных в колонках, что ускоряет выборку и уменьшает размер файлов. Особенно популярен в экосистеме Apache Spark.

▪️pickle
Формат сериализации данных в Python. Позволяет сохранять объекты (например, DataFrame из pandas) в удобном для языка виде.

#анализ_данных
📊 Системный и бизнес-аналитик: пошаговый гайд к востребованной профессии

Пару слов о еще одном безумном разделении во вселенной IT-специальностей: системный и бизнес-аналитик. Рассказываем в нашей статье, чем занимаются представители профессии, сколько зарабатывают и как войти в эту сферу деятельности.

🔗 Ссылка

Хочешь стать бизнес-аналитиком? У нас есть отличный курс, который поможет подтянуть математику:
🔵 Математика для Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
🧑‍💻 Статьи для IT: как объяснять и распространять значимые идеи

Напоминаем, что у нас есть бесплатный курс для всех, кто хочет научиться интересно писать — о программировании и в целом.

Что: семь модулей, посвященных написанию, редактированию, иллюстрированию и распространению публикаций.

Для кого: для авторов, копирайтеров и просто программистов, которые хотят научиться интересно рассказывать о своих проектах.

👉Материалы регулярно дополняются, обновляются и корректируются. А еще мы отвечаем на все учебные вопросы в комментариях курса.
Что такое Named Entity Recognition (NER)?

Named Entity Recognition — распознавание именованных сущностей. Это задача из области обработки естественного языка (NLP), цель которой — найти и классифицировать ключевые сущности в тексте.

Эти сущности могут относиться к определённым категориям, например:
- Имена людей;
- Географические объекты;
- Даты и время;
- Денежные суммы;
- Названия организаций.

▪️Как это работает?

Алгоритмы NER анализируют текст и на основе обученных моделей выделяют слова или фразы, относящиеся к этим категориям. Для обучения используются аннотированные данные, где сущности уже отмечены.

▪️Где применяется?

- Автоматическое извлечение данных из документов;
- Улучшение поисковых систем;
- Обработка запросов в службах поддержки;
- Анализ социальных сетей;
- Классификация новостей;
- Работа с резюме.


#машинное_обучение #NLP
2025/02/24 05:01:40
Back to Top
HTML Embed Code: