bootg.com »
United States »
Библиотека собеса по Data Science | вопросы с собеседований » Telegram Web
❗Вакансии «Библиотеки программиста» — ждем вас в команде!
Мы постоянно растем и развиваемся, поэтому создали отдельную страницу, на которой будут размещены наши актуальные вакансии. Сейчас мы ищем:
👉контент-менеджеров для ведения телеграм-каналов
Подробности тут
Мы предлагаем частичную занятость и полностью удаленный формат работы — можно совмещать с основной и находиться в любом месте🌴
Ждем ваших откликов 👾
Мы постоянно растем и развиваемся, поэтому создали отдельную страницу, на которой будут размещены наши актуальные вакансии. Сейчас мы ищем:
👉контент-менеджеров для ведения телеграм-каналов
Подробности тут
Мы предлагаем частичную занятость и полностью удаленный формат работы — можно совмещать с основной и находиться в любом месте🌴
Ждем ваших откликов 👾
job.proglib.io
Вакансии в медиа «Библиотека программиста»
Количество проектов в редакции постоянно растет, так что нам всегда нужны специалисты
Что вы знаете про Sparse Linear Methods (SLIM)?
Sparse Linear Methods (SLIM) — это метод моделирования рекомендаций, который основывается на разреженных линейных моделях. Такие рекомендательные системы учитывают схожесть между элементами на основе линейных отношений в матрице пользователь-объект.
Главная идея SLIM заключается в обучении матрицы весов W, которая описывает взаимосвязь между элементами. Эти веса используются для предсказания пользовательских предпочтений через линейную комбинацию взаимодействий с другими элементами.
К преимуществам SLIM относятся:
▪️Интерпретируемость
Полученные веса позволяют понять, как объекты связаны друг с другом.
▪️Адаптивность
Хорошо справляется как с большим, так и с малым количеством данных.
#машинное_обучение
Sparse Linear Methods (SLIM) — это метод моделирования рекомендаций, который основывается на разреженных линейных моделях. Такие рекомендательные системы учитывают схожесть между элементами на основе линейных отношений в матрице пользователь-объект.
Главная идея SLIM заключается в обучении матрицы весов W, которая описывает взаимосвязь между элементами. Эти веса используются для предсказания пользовательских предпочтений через линейную комбинацию взаимодействий с другими элементами.
К преимуществам SLIM относятся:
▪️Интерпретируемость
Полученные веса позволяют понять, как объекты связаны друг с другом.
▪️Адаптивность
Хорошо справляется как с большим, так и с малым количеством данных.
#машинное_обучение
Forwarded from Proglib.academy | IT-курсы
📈 Почему Big data так быстро развивается?
Хотите получить востребованную и высокооплачиваемую профессию. Начните с понимания, куда движется индустрия. В нашей статье поговорим о Big Data — одном из самых горячих и перспективных направлений в IT.
🔗 Ссылка
Хотите получить востребованную и высокооплачиваемую профессию. Начните с понимания, куда движется индустрия. В нашей статье поговорим о Big Data — одном из самых горячих и перспективных направлений в IT.
🔗 Ссылка
В чём отличие одностороннего критерия от двустороннего?
Чтобы ответить на этот вопрос, нужно коротко описать этапы построения статистического теста.
▪️Формулировка гипотез
Так, нулевая гипотеза утверждает отсутствие эффекта или различий, а альтернативная — наличие эффекта.
▪️Определение критического множества
Это набор значений статистики теста, при попадании в который нулевая гипотеза отвергается. Выбор критического множества зависит от типа теста.
— Односторонний критерий
В этом случае критическое множество располагается с одной стороны распределения.
— Двусторонний критерий
В этом случае критическое множество делится на две области в «хвостах» распределения.
▪️Расчёт критического значения
Уровень значимости определяет, какую долю распределения займёт критическое множество. Для двустороннего теста эта доля делится поровну между двумя хвостами.
▪️Проверка значения статистики
Рассчитывается значение тестовой статистики и проверяется, попадает ли оно в критическое множество.
✅ Пример
Если мы проверяем, выросли ли продажи после внедрения нового продукта, используется односторонний критерий. Если просто хотим узнать, изменились ли продажи в принципе (в любую сторону), подходит двусторонний.
#статистика
Чтобы ответить на этот вопрос, нужно коротко описать этапы построения статистического теста.
▪️Формулировка гипотез
Так, нулевая гипотеза утверждает отсутствие эффекта или различий, а альтернативная — наличие эффекта.
▪️Определение критического множества
Это набор значений статистики теста, при попадании в который нулевая гипотеза отвергается. Выбор критического множества зависит от типа теста.
— Односторонний критерий
В этом случае критическое множество располагается с одной стороны распределения.
— Двусторонний критерий
В этом случае критическое множество делится на две области в «хвостах» распределения.
▪️Расчёт критического значения
Уровень значимости определяет, какую долю распределения займёт критическое множество. Для двустороннего теста эта доля делится поровну между двумя хвостами.
▪️Проверка значения статистики
Рассчитывается значение тестовой статистики и проверяется, попадает ли оно в критическое множество.
✅ Пример
Если мы проверяем, выросли ли продажи после внедрения нового продукта, используется односторонний критерий. Если просто хотим узнать, изменились ли продажи в принципе (в любую сторону), подходит двусторонний.
#статистика
This media is not supported in your browser
VIEW IN TELEGRAM
👆Как ощущаются последние часы перед собеседованием
В классификации есть метрика Precision. Но слышали ли вы про Average Precision? Знаете, зачем она используется?
Average Precision (AP) — это метрика, которая оценивает баланс между точностью (precision) и полнотой (recall) на всех возможных порогах классификации.
Как это работает:
▪️Модель начинает с высокого порога, где она «уверена» в своих предсказаниях, и постепенно снижает его, увеличивая полноту (recall).
▪️Для каждого порога вычисляется точность и строится кривая зависимости Precision-Recall.
▪️Average Precision — это площадь под этой кривой.
Почему это важно?
AP дает более полную картину качества модели, чем точность или полнота, так как учитывает все пороги вероятностей. Она особенно полезна:
✅ В задачах с несбалансированными данными (где положительных примеров мало).
✅ В задачах ранжирования (например, поиск, детекция объектов).
✅ Для оценки модели в условиях, когда важен не только один порог, но и общее поведение модели.
#машинное_обучение
Average Precision (AP) — это метрика, которая оценивает баланс между точностью (precision) и полнотой (recall) на всех возможных порогах классификации.
Как это работает:
▪️Модель начинает с высокого порога, где она «уверена» в своих предсказаниях, и постепенно снижает его, увеличивая полноту (recall).
▪️Для каждого порога вычисляется точность и строится кривая зависимости Precision-Recall.
▪️Average Precision — это площадь под этой кривой.
Почему это важно?
AP дает более полную картину качества модели, чем точность или полнота, так как учитывает все пороги вероятностей. Она особенно полезна:
✅ В задачах с несбалансированными данными (где положительных примеров мало).
✅ В задачах ранжирования (например, поиск, детекция объектов).
✅ Для оценки модели в условиях, когда важен не только один порог, но и общее поведение модели.
#машинное_обучение
Forwarded from DIGITALRAZOR
Что будет, если DigitalRazor объединится с Proglib Academy? Правильно! Новый розыгрыш.
Условия:
Подпишитесь на DigitalRazor;
Подпишитесь на «Библиотеку программиста»;
Нажмите кнопку «Участвовать» под этим постом.
Призы:
1-е место: 27-дюймовый монитор;
2, 3 и 4-е место: сертификат номиналом 20 000 рублей на ИТ-курсы от Proglib Academy;
5-е место: геймерская клавиатура + коврик на выбор.
Призы разыграем 1 декабря в 20:00 (МСК).
Доставка призов возможна только по городам России и Белоруссии.
Proglib Academy создаёт онлайн-курсы для программистов, помогает получить востребованные навыки и построить успешную карьеру в IT.
Игровые компьютеры и рабочие станции DigitalRazor — это качественная сборка, топовое железо и эффектный дизайн.
Регламент розыгрыша
Условия:
Подпишитесь на DigitalRazor;
Подпишитесь на «Библиотеку программиста»;
Нажмите кнопку «Участвовать» под этим постом.
Призы:
1-е место: 27-дюймовый монитор;
2, 3 и 4-е место: сертификат номиналом 20 000 рублей на ИТ-курсы от Proglib Academy;
5-е место: геймерская клавиатура + коврик на выбор.
Призы разыграем 1 декабря в 20:00 (МСК).
Доставка призов возможна только по городам России и Белоруссии.
Proglib Academy создаёт онлайн-курсы для программистов, помогает получить востребованные навыки и построить успешную карьеру в IT.
Игровые компьютеры и рабочие станции DigitalRazor — это качественная сборка, топовое железо и эффектный дизайн.
Регламент розыгрыша
Что вы знаете о тесте Хи-квадрат?
Тест Хи-квадрат — это мощный инструмент, который применяется для анализа взаимосвязей между двумя категориальными переменными. Он позволяет оценить, существует ли статистически значимое различие между наблюдаемыми и ожидаемыми частотами событий.
Хи-квадрат применяется, если есть гипотеза о связи двух переменных, выраженных через категориальные шкалы.
Например, вы хотите выяснить, влияет ли гимнастика для глаз на вероятность головной боли. Собираем данные, составляем таблицу наблюдений и рассчитываем ожидаемые значения, которые предполагали бы отсутствие влияния гимнастики.
Как рассчитывается Хи-квадрат:
▪️Для каждой ячейки таблицы считаем разницу между наблюдаемым и ожидаемым значением.
▪️Возводим эту разницу в квадрат.
▪️Делим на ожидаемое значение.
▪️Суммируем эти результаты по всем ячейкам.
Итоговый показатель сравнивается с табличным значением, чтобы определить, значимы ли различия.
#статистика
Тест Хи-квадрат — это мощный инструмент, который применяется для анализа взаимосвязей между двумя категориальными переменными. Он позволяет оценить, существует ли статистически значимое различие между наблюдаемыми и ожидаемыми частотами событий.
Хи-квадрат применяется, если есть гипотеза о связи двух переменных, выраженных через категориальные шкалы.
Например, вы хотите выяснить, влияет ли гимнастика для глаз на вероятность головной боли. Собираем данные, составляем таблицу наблюдений и рассчитываем ожидаемые значения, которые предполагали бы отсутствие влияния гимнастики.
Как рассчитывается Хи-квадрат:
▪️Для каждой ячейки таблицы считаем разницу между наблюдаемым и ожидаемым значением.
▪️Возводим эту разницу в квадрат.
▪️Делим на ожидаемое значение.
▪️Суммируем эти результаты по всем ячейкам.
Итоговый показатель сравнивается с табличным значением, чтобы определить, значимы ли различия.
#статистика
Forwarded from Книги для программистов
🎅 Какой подарок вы бы хотели на НГ? Пишите в комментариях👇
Админ на НГ не отказался бы от вашей активности. Реакции, комментарии, конструктивные предложения будем ждать под ёлкой 🎄
Админ на НГ не отказался бы от вашей активности. Реакции, комментарии, конструктивные предложения будем ждать под ёлкой 🎄
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ Напоминаем: у нас можно (и нужно) купить рекламу
→ Более 60 телеграм-каналов по всем направлениям IT
→ Почти 1,2 миллиона аудитории
→ Собственное медиа и сайт с DAU 25 000 — можем усилить продвижение
→ Классные email-рассылки
→ И, конечно же, крутые контент-менеджеры, которые сделают нативную интеграцию/придумают виральный пост/реализуют любые контентные предпочтения
Для заказа пишите сюда: @proglib_adv
→ Более 60 телеграм-каналов по всем направлениям IT
→ Почти 1,2 миллиона аудитории
→ Собственное медиа и сайт с DAU 25 000 — можем усилить продвижение
→ Классные email-рассылки
→ И, конечно же, крутые контент-менеджеры, которые сделают нативную интеграцию/придумают виральный пост/реализуют любые контентные предпочтения
Для заказа пишите сюда: @proglib_adv
Что вы можете рассказать про факторный анализ?
Факторный анализ — это метод, который помогает выявить скрытые закономерности в данных и упростить их интерпретацию. Вместо анализа множества исходных переменных (наблюдаемых) мы создаём новые, скрытые переменные, которые объясняют основные взаимосвязи.
✅ Основной способ выполнения факторного анализа — это метод главных компонент (PCA). Он находит направления (компоненты), которые лучше всего объясняют изменчивость данных.
#анализ_данных
#анализ_данных
🎉 Розыгрыш от Proglib Academy и DigitalRazor!
С 27 ноября по 27 декабря у вас есть шанс не только прокачать свои навыки, но и выиграть ПК при покупке любого курса Академии!
🎁 Призы для участников акции:
– Игровой ПК DigitalRazor ProGaming
– VIP-пакет курса Proglib Academy
💡 Как принять участие?
Купите любой курс Proglib Academy с 27 ноября по 27 декабря и получите шанс выиграть мощный ПК.
Приобретите технику DigitalRazor — участвуйте в розыгрыше VIP курса.
📅 Вместе с DigitalRazor мы создали спецпредложение -50% на курсы до 30 ноября, чтобы вы могли начать обучение на более выгодных условиях.
Выбрать курс
С 27 ноября по 27 декабря у вас есть шанс не только прокачать свои навыки, но и выиграть ПК при покупке любого курса Академии!
🎁 Призы для участников акции:
– Игровой ПК DigitalRazor ProGaming
– VIP-пакет курса Proglib Academy
💡 Как принять участие?
Купите любой курс Proglib Academy с 27 ноября по 27 декабря и получите шанс выиграть мощный ПК.
Приобретите технику DigitalRazor — участвуйте в розыгрыше VIP курса.
📅 Вместе с DigitalRazor мы создали спецпредложение -50% на курсы до 30 ноября, чтобы вы могли начать обучение на более выгодных условиях.
Выбрать курс
Можно ли считать функцию потерь метрикой качества?
Нет, ставить знак равенства здесь нельзя.
✅ Функция потерь — это математическое выражение, используемое для измерения ошибки модели при её обучении. Она показывает, насколько сильно предсказания модели отличаются от реальных значений. Функция потерь служит основой для оптимизации: обучение модели заключается в минимизации значения этой функции.
Примеры:
▪️Среднеквадратичная ошибка (Mean Squared Error, MSE) для регрессии.
▪️Кросс-энтропия (Cross-Entropy Loss) для классификации.
✅ Метрика — это внешний, объективный критерий качества. Он не зависит напрямую от параметров модели — только от предсказанных и фактических меток.
Примеры:
▪️Точность (Accuracy) для классификации.
▪️F1-мера для задач с несбалансированными классами.
#машинное_обучение
#машинное_обучение
Что показывает квантильный график?
Квантильный график, или Q-Q plot, используется для сравнения распределения данных с теоретическим распределением (например, нормальным). То есть это инструмент, позволяющий визуально определить нормальность распределения.
✅ Если точки на графике ложатся близко к диагональной линии, значит, распределение соответствует нормальному.
Квантиль — это значение переменной, соответствующее определённому проценту данных в упорядоченной выборке. Например:
▪️ 25-й процентиль (или первый квартиль) — это значение, ниже которого лежит 25% данных.
▪️ Медиана (50-й процентиль) — это значение, делящее выборку пополам.
▪️ 75-й процентиль (или третий квартиль) — значение, ниже которого находится 75% данных.
Квантильный график создается функцией qqplot из пакета statsmodels.
#статистика
#анализ_данных
Квантильный график, или Q-Q plot, используется для сравнения распределения данных с теоретическим распределением (например, нормальным). То есть это инструмент, позволяющий визуально определить нормальность распределения.
✅ Если точки на графике ложатся близко к диагональной линии, значит, распределение соответствует нормальному.
Квантильный график создается функцией qqplot из пакета statsmodels.
#статистика
#анализ_данных
Какие существуют области видимости функций в Python?
В Python переменные имеют две основные области видимости: локальную и глобальную.
▪️Локальная
Переменные, объявленные внутри функции, существуют только в её пределах и недоступны за её пределами. Аргументы функции также относятся к локальной области и исчезают после завершения функции.
▪️Глобальная
Переменные, объявленные вне функций, доступны в любой части программы. Однако, если внутри функции пытаться присвоить значение глобальной переменной, Python создаст новую локальную переменную с тем же именем.
#python
#python
Forwarded from Proglib.academy | IT-курсы
📊 Системный и бизнес-аналитик: пошаговый гайд к востребованной профессии
Пару слов о еще одном безумном разделении во вселенной IT-специальностей: системный и бизнес-аналитик. Рассказываем в нашей статье, чем занимаются представители профессии, сколько зарабатывают и как войти в эту сферу деятельности.
🔗 Ссылка
Хочешь стать бизнес-аналитиком? У нас есть отличный курс, который поможет подтянуть математику:
🔵 Математика для Data Science
Пару слов о еще одном безумном разделении во вселенной IT-специальностей: системный и бизнес-аналитик. Рассказываем в нашей статье, чем занимаются представители профессии, сколько зарабатывают и как войти в эту сферу деятельности.
🔗 Ссылка
Хочешь стать бизнес-аналитиком? У нас есть отличный курс, который поможет подтянуть математику:
Please open Telegram to view this post
VIEW IN TELEGRAM
Какие табличные форматы хранения данных вы знаете?
▪️csv
Простой текстовый формат, где данные хранятся в виде таблицы, разделённой запятыми или другим разделителем.
▪️parquet
Бинарный формат, оптимизированный для хранения и обработки больших объёмов данных. Использует сжатие и хранение данных в колонках, что ускоряет выборку и уменьшает размер файлов. Особенно популярен в экосистеме Apache Spark.
▪️pickle
Формат сериализации данных в Python. Позволяет сохранять объекты (например, DataFrame из pandas) в удобном для языка виде.
#анализ_данных
#анализ_данных
Forwarded from Proglib.academy | IT-курсы
📊 Системный и бизнес-аналитик: пошаговый гайд к востребованной профессии
Пару слов о еще одном безумном разделении во вселенной IT-специальностей: системный и бизнес-аналитик. Рассказываем в нашей статье, чем занимаются представители профессии, сколько зарабатывают и как войти в эту сферу деятельности.
🔗 Ссылка
Хочешь стать бизнес-аналитиком? У нас есть отличный курс, который поможет подтянуть математику:
🔵 Математика для Data Science
Пару слов о еще одном безумном разделении во вселенной IT-специальностей: системный и бизнес-аналитик. Рассказываем в нашей статье, чем занимаются представители профессии, сколько зарабатывают и как войти в эту сферу деятельности.
🔗 Ссылка
Хочешь стать бизнес-аналитиком? У нас есть отличный курс, который поможет подтянуть математику:
Please open Telegram to view this post
VIEW IN TELEGRAM
🧑💻 Статьи для IT: как объяснять и распространять значимые идеи
Напоминаем, что у нас есть бесплатный курс для всех, кто хочет научиться интересно писать — о программировании и в целом.
Что: семь модулей, посвященных написанию, редактированию, иллюстрированию и распространению публикаций.
Для кого: для авторов, копирайтеров и просто программистов, которые хотят научиться интересно рассказывать о своих проектах.
👉Материалы регулярно дополняются, обновляются и корректируются. А еще мы отвечаем на все учебные вопросы в комментариях курса.
Напоминаем, что у нас есть бесплатный курс для всех, кто хочет научиться интересно писать — о программировании и в целом.
Что: семь модулей, посвященных написанию, редактированию, иллюстрированию и распространению публикаций.
Для кого: для авторов, копирайтеров и просто программистов, которые хотят научиться интересно рассказывать о своих проектах.
👉Материалы регулярно дополняются, обновляются и корректируются. А еще мы отвечаем на все учебные вопросы в комментариях курса.
Что такое Named Entity Recognition (NER)?
Named Entity Recognition — распознавание именованных сущностей. Это задача из области обработки естественного языка (NLP), цель которой — найти и классифицировать ключевые сущности в тексте.
Эти сущности могут относиться к определённым категориям, например:
- Имена людей;
- Географические объекты;
- Даты и время;
- Денежные суммы;
- Названия организаций.
▪️Как это работает?
Алгоритмы NER анализируют текст и на основе обученных моделей выделяют слова или фразы, относящиеся к этим категориям. Для обучения используются аннотированные данные, где сущности уже отмечены.
▪️Где применяется?
- Автоматическое извлечение данных из документов;
- Улучшение поисковых систем;
- Обработка запросов в службах поддержки;
- Анализ социальных сетей;
- Классификация новостей;
- Работа с резюме.
#машинное_обучение #NLP
Named Entity Recognition — распознавание именованных сущностей. Это задача из области обработки естественного языка (NLP), цель которой — найти и классифицировать ключевые сущности в тексте.
Эти сущности могут относиться к определённым категориям, например:
- Имена людей;
- Географические объекты;
- Даты и время;
- Денежные суммы;
- Названия организаций.
▪️Как это работает?
Алгоритмы NER анализируют текст и на основе обученных моделей выделяют слова или фразы, относящиеся к этим категориям. Для обучения используются аннотированные данные, где сущности уже отмечены.
▪️Где применяется?
- Автоматическое извлечение данных из документов;
- Улучшение поисковых систем;
- Обработка запросов в службах поддержки;
- Анализ социальных сетей;
- Классификация новостей;
- Работа с резюме.
#машинное_обучение #NLP