Telegram Web Link
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ Напоминаем: у нас можно (и нужно) купить рекламу

→ Более 60 телеграм-каналов по всем направлениям IT
→ Почти 1,2 миллиона аудитории
→ Собственное медиа и сайт с DAU 25 000 — можем усилить продвижение
→ Классные email-рассылки
→ И, конечно же, крутые контент-менеджеры, которые сделают нативную интеграцию/придумают виральный пост/реализуют любые контентные предпочтения

Для заказа пишите сюда: @proglib_adv
Что вы можете рассказать про факторный анализ?

Факторный анализ — это метод, который помогает выявить скрытые закономерности в данных и упростить их интерпретацию. Вместо анализа множества исходных переменных (наблюдаемых) мы создаём новые, скрытые переменные, которые объясняют основные взаимосвязи.

Основной способ выполнения факторного анализа — это метод главных компонент (PCA). Он находит направления (компоненты), которые лучше всего объясняют изменчивость данных.

#анализ_данных
🎉 Розыгрыш от Proglib Academy и DigitalRazor!

С 27 ноября по 27 декабря у вас есть шанс не только прокачать свои навыки, но и выиграть ПК при покупке любого курса Академии!

🎁 Призы для участников акции:

Игровой ПК DigitalRazor ProGaming
VIP-пакет курса Proglib Academy

💡 Как принять участие?
Купите любой курс Proglib Academy с 27 ноября по 27 декабря и получите шанс выиграть мощный ПК.

Приобретите технику DigitalRazor — участвуйте в розыгрыше VIP курса.

📅 Вместе с DigitalRazor мы создали спецпредложение -50% на курсы до 30 ноября, чтобы вы могли начать обучение на более выгодных условиях.

Выбрать курс
Можно ли считать функцию потерь метрикой качества?

Нет, ставить знак равенства здесь нельзя.

Функция потерь — это математическое выражение, используемое для измерения ошибки модели при её обучении. Она показывает, насколько сильно предсказания модели отличаются от реальных значений. Функция потерь служит основой для оптимизации: обучение модели заключается в минимизации значения этой функции.

Примеры:
▪️Среднеквадратичная ошибка (Mean Squared Error, MSE) для регрессии.
▪️Кросс-энтропия (Cross-Entropy Loss) для классификации.

Метрика — это внешний, объективный критерий качества. Он не зависит напрямую от параметров модели — только от предсказанных и фактических меток.

Примеры:
▪️Точность (Accuracy) для классификации.
▪️F1-мера для задач с несбалансированными классами.

#машинное_обучение
Что показывает квантильный график?

Квантильный график, или Q-Q plot, используется для сравнения распределения данных с теоретическим распределением (например, нормальным). То есть это инструмент, позволяющий визуально определить нормальность распределения.

Если точки на графике ложатся близко к диагональной линии, значит, распределение соответствует нормальному.

Квантиль — это значение переменной, соответствующее определённому проценту данных в упорядоченной выборке. Например:
▪️ 25-й процентиль (или первый квартиль) — это значение, ниже которого лежит 25% данных.
▪️ Медиана (50-й процентиль) — это значение, делящее выборку пополам.
▪️ 75-й процентиль (или третий квартиль) — значение, ниже которого находится 75% данных.

Квантильный график создается функцией qqplot из пакета statsmodels.

#статистика
#анализ_данных
Какие существуют области видимости функций в Python?

В Python переменные имеют две основные области видимости: локальную и глобальную.

▪️Локальная
Переменные, объявленные внутри функции, существуют только в её пределах и недоступны за её пределами. Аргументы функции также относятся к локальной области и исчезают после завершения функции.

▪️Глобальная
Переменные, объявленные вне функций, доступны в любой части программы. Однако, если внутри функции пытаться присвоить значение глобальной переменной, Python создаст новую локальную переменную с тем же именем.

#python
📊 Системный и бизнес-аналитик: пошаговый гайд к востребованной профессии

Пару слов о еще одном безумном разделении во вселенной IT-специальностей: системный и бизнес-аналитик. Рассказываем в нашей статье, чем занимаются представители профессии, сколько зарабатывают и как войти в эту сферу деятельности.

🔗 Ссылка

Хочешь стать бизнес-аналитиком? У нас есть отличный курс, который поможет подтянуть математику:
🔵 Математика для Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
Какие табличные форматы хранения данных вы знаете?

▪️csv
Простой текстовый формат, где данные хранятся в виде таблицы, разделённой запятыми или другим разделителем.

▪️parquet
Бинарный формат, оптимизированный для хранения и обработки больших объёмов данных. Использует сжатие и хранение данных в колонках, что ускоряет выборку и уменьшает размер файлов. Особенно популярен в экосистеме Apache Spark.

▪️pickle
Формат сериализации данных в Python. Позволяет сохранять объекты (например, DataFrame из pandas) в удобном для языка виде.

#анализ_данных
📊 Системный и бизнес-аналитик: пошаговый гайд к востребованной профессии

Пару слов о еще одном безумном разделении во вселенной IT-специальностей: системный и бизнес-аналитик. Рассказываем в нашей статье, чем занимаются представители профессии, сколько зарабатывают и как войти в эту сферу деятельности.

🔗 Ссылка

Хочешь стать бизнес-аналитиком? У нас есть отличный курс, который поможет подтянуть математику:
🔵 Математика для Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
🧑‍💻 Статьи для IT: как объяснять и распространять значимые идеи

Напоминаем, что у нас есть бесплатный курс для всех, кто хочет научиться интересно писать — о программировании и в целом.

Что: семь модулей, посвященных написанию, редактированию, иллюстрированию и распространению публикаций.

Для кого: для авторов, копирайтеров и просто программистов, которые хотят научиться интересно рассказывать о своих проектах.

👉Материалы регулярно дополняются, обновляются и корректируются. А еще мы отвечаем на все учебные вопросы в комментариях курса.
Что такое Named Entity Recognition (NER)?

Named Entity Recognition — распознавание именованных сущностей. Это задача из области обработки естественного языка (NLP), цель которой — найти и классифицировать ключевые сущности в тексте.

Эти сущности могут относиться к определённым категориям, например:
- Имена людей;
- Географические объекты;
- Даты и время;
- Денежные суммы;
- Названия организаций.

▪️Как это работает?

Алгоритмы NER анализируют текст и на основе обученных моделей выделяют слова или фразы, относящиеся к этим категориям. Для обучения используются аннотированные данные, где сущности уже отмечены.

▪️Где применяется?

- Автоматическое извлечение данных из документов;
- Улучшение поисковых систем;
- Обработка запросов в службах поддержки;
- Анализ социальных сетей;
- Классификация новостей;
- Работа с резюме.


#машинное_обучение #NLP
Что такое shallow copy в Python и как используется?

Shallow copy — это создание нового объекта путем копирования ссылки на вложенный объект, вместо создания полной копии вложенного объекта.

Если мы копируем список, который содержит другие списки, при shallow copy будут скопированы только внешние списки.

Если изменить внутренний список в копии, то это отразится и на оригинале.

Основное отличие от deep copy в том, что при полном копировании создаются копии всех вложенных объектов до самого нижнего уровня.
Опишите распределение Бернулли.

Дискретное распределение вероятностей, распределение Бернулли, фокусируется на дискретных случайных величинах. Количество орлов, которые вы получаете при подбрасывании трех монет одновременно, или количество учеников в классе являются примерами дискретных случайных величин, которые имеют конечное или счетное число потенциальных значений.
Объясните, как в Python осуществляется управление памятью.

В Python объекты и структуры данных data structures находятся в закрытой динамически выделяемой области private heap, которая управляется менеджером памяти Python. Он делегирует часть работы программам распределения ресурсов allocators, закрепленным за конкретными объектами, и одновременно с этим следит, чтобы они не выходили за пределы динамически выделяемой области.

По факту данной областью управляет интерпретатор interpreter. Пользователь никак не контролирует данный процесс, даже когда манипулирует ссылками объектов на блоки памяти внутри динамической области. Менеджер памяти Python распределяет пространство динамической области среди объектов и другие внутренние буферы по требованию.
Перечислите этапы построения дерева решений

Взять весь набор входных данных.

Вычислить энтропию целевой переменной, а также прогнозные атрибуты.

Рассчитать прирост информации по всем атрибутам (информацию о том, как отсортировать разные объекты друг от друга).

Выбрать атрибут с наибольшим объёмом информации в качестве корневого узла.

Повторить ту же процедуру для каждой ветви, пока узел решения каждой ветви не будет завершён.
Media is too big
VIEW IN TELEGRAM
💪Вредные (или нет) советы по кодинг-интервью

Источник
Please open Telegram to view this post
VIEW IN TELEGRAM
Подготовься к собеседованию на позицию Data Scientist!

Профессия Data Scientist становится все более востребованной, и компании ищут специалистов, способных превращать данные в ценные инсайты. Но как успешно пройти техническое собеседование?

Мы собрали 10 типичных задач, которые могут встретиться на собеседовании, и эффективные подходы к их решению:

1. Внешнее и тензорное произведение

2. One-hot кодировка

3. Мониторинг осадков

4. Симуляция бросков кубиков в «Монополии»

5. Бурение скважин для добычи золота

6. Вычисление свертки

7. Бэктестинг торговой стратегии

8. Прогноз оттока клиентов с помощью логистической регрессии

9. Обнаружение спама с использованием дерева решений

10. Предсказание цен на квартиры с помощью линейной регрессии

Чтобы начать решать задачи, достаточно ответить на четыре простых вопроса по этой ссылке и получить доступ к вводным занятиям курса Математика для Data Science и 10 задачам.Подготовься к собеседованию на позицию Data Scientist!

Профессия Data Scientist становится все более востребованной, и компании ищут специалистов, способных превращать данные в ценные инсайты. Но как успешно пройти техническое собеседование?

Мы собрали 10 типичных задач, которые могут встретиться на собеседовании, и эффективные подходы к их решению:

1. Внешнее и тензорное произведение

2. One-hot кодировка

3. Мониторинг осадков

4. Симуляция бросков кубиков в «Монополии»

5. Бурение скважин для добычи золота

6. Вычисление свертки

7. Бэктестинг торговой стратегии

8. Прогноз оттока клиентов с помощью логистической регрессии

9. Обнаружение спама с использованием дерева решений

10. Предсказание цен на квартиры с помощью линейной регрессии

Чтобы начать решать задачи, достаточно ответить на четыре простых вопроса по этой ссылке и получить доступ к вводным занятиям курса Математика для Data Science и 10 задачам.
📈 Четыре примера работы аналитиков: кейсы IT-компаний

Читайте нашу статью. В ней: аналитики крупных компаний рассказали Proglib о самых интересных кейсах, над которыми им приходилось работать.

🔗 Ссылка
Please open Telegram to view this post
VIEW IN TELEGRAM
2025/02/24 15:40:09
Back to Top
HTML Embed Code: