bootg.com »
United States »
Библиотека собеса по Data Science | вопросы с собеседований » Telegram Web
🧑💻 Статьи для IT: как объяснять и распространять значимые идеи
Напоминаем, что у нас есть бесплатный курс для всех, кто хочет научиться интересно писать — о программировании и в целом.
Что: семь модулей, посвященных написанию, редактированию, иллюстрированию и распространению публикаций.
Для кого: для авторов, копирайтеров и просто программистов, которые хотят научиться интересно рассказывать о своих проектах.
👉Материалы регулярно дополняются, обновляются и корректируются. А еще мы отвечаем на все учебные вопросы в комментариях курса.
Напоминаем, что у нас есть бесплатный курс для всех, кто хочет научиться интересно писать — о программировании и в целом.
Что: семь модулей, посвященных написанию, редактированию, иллюстрированию и распространению публикаций.
Для кого: для авторов, копирайтеров и просто программистов, которые хотят научиться интересно рассказывать о своих проектах.
👉Материалы регулярно дополняются, обновляются и корректируются. А еще мы отвечаем на все учебные вопросы в комментариях курса.
python_cheatsheets.pdf
1.3 MB
✍️ Шпаргалка: Python для Data Science
Охватывает:
▪️основы языка;
▪️Jupyter Notebook;
▪️NumPy;
▪️Matplotlib;
▪️Pandas.
🔗 Ссылка на шпаргалку
Охватывает:
▪️основы языка;
▪️Jupyter Notebook;
▪️NumPy;
▪️Matplotlib;
▪️Pandas.
🔗 Ссылка на шпаргалку
Что такое темп обучения в градиентном бустинге?
Градиентный бустинг может переобучиться. Если, например, базовые алгоритмы слишком сложные (предположим, решающие деревья слишком глубокие), то при обучении ошибка на обучающей выборке может приблизиться к нулю.
Чтобы смягчить этот эффект, можно ввести темп обучения (learning rate). Это параметр, лежащий в диапазон от нуля (не включая его) до единицы (включая её). Темп обучения позволяет добиться того, чтобы каждый базовый алгоритм вносил относительно небольшой вклад во всю композицию.
Значение параметра обычно определяется эмпирически по входным данным.
#машинное_обучение
Градиентный бустинг может переобучиться. Если, например, базовые алгоритмы слишком сложные (предположим, решающие деревья слишком глубокие), то при обучении ошибка на обучающей выборке может приблизиться к нулю.
Чтобы смягчить этот эффект, можно ввести темп обучения (learning rate). Это параметр, лежащий в диапазон от нуля (не включая его) до единицы (включая её). Темп обучения позволяет добиться того, чтобы каждый базовый алгоритм вносил относительно небольшой вклад во всю композицию.
Значение параметра обычно определяется эмпирически по входным данным.
#машинное_обучение
В чём разница между модулем, пакетом и библиотекой в Python?
▪️Модуль
Это файл с расширением .py, содержащий код Python (функции, классы, переменные). Он используется для структурирования и повторного использования кода. Модуль можно импортировать.
▪️Пакет
Это директория, содержащая набор модулей и файл , который указывает, что эта директория является пакетом. Пакеты позволяют группировать модули по логике или функциональности.
▪️Библиотека
Это набор модулей и/или пакетов, предназначенных для решения определённого класса задач. Обычно библиотека распространяется как единое целое, например, через PyPI.
#python
#программирование
__init__.py
#python
#программирование
Что такое доверительный интервал?
Доверительный интервал (confidence interval) — это интервал, который с заданной вероятностью (или надёжностью) содержит истинное значение оцениваемого параметра.
Иными словами, доверительный интервал позволяет сказать: если бы мы многократно брали выборки и рассчитывали для каждой интервал, то в заданном проценте случаев (например, 95%) этот интервал содержал бы истинное значение параметра.
▪️Доверительный интервал говорит о параметре (например, среднее или доля), а не о самих наблюдениях.
Пример: доверительный интервал для среднего веса населения указывает диапазон значений, в котором, с вероятностью 95%, лежит средний вес всей популяции, а не вес отдельных людей.
#статистика
Доверительный интервал (confidence interval) — это интервал, который с заданной вероятностью (или надёжностью) содержит истинное значение оцениваемого параметра.
Иными словами, доверительный интервал позволяет сказать: если бы мы многократно брали выборки и рассчитывали для каждой интервал, то в заданном проценте случаев (например, 95%) этот интервал содержал бы истинное значение параметра.
▪️Доверительный интервал говорит о параметре (например, среднее или доля), а не о самих наблюдениях.
Пример: доверительный интервал для среднего веса населения указывает диапазон значений, в котором, с вероятностью 95%, лежит средний вес всей популяции, а не вес отдельных людей.
#статистика
❗Вакансии «Библиотеки программиста» — ждем вас в команде!
Мы постоянно растем и развиваемся, поэтому создали отдельную страницу, на которой будут размещены наши актуальные вакансии. Сейчас мы ищем:
👉контент-менеджеров для ведения телеграм-каналов
Подробности тут
Мы предлагаем частичную занятость и полностью удаленный формат работы — можно совмещать с основной и находиться в любом месте🌴
Ждем ваших откликов 👾
Мы постоянно растем и развиваемся, поэтому создали отдельную страницу, на которой будут размещены наши актуальные вакансии. Сейчас мы ищем:
👉контент-менеджеров для ведения телеграм-каналов
Подробности тут
Мы предлагаем частичную занятость и полностью удаленный формат работы — можно совмещать с основной и находиться в любом месте🌴
Ждем ваших откликов 👾
job.proglib.io
Вакансии в медиа «Библиотека программиста»
Количество проектов в редакции постоянно растет, так что нам всегда нужны специалисты
Новый год — время для новых начинаний!
Пока все строят планы на будущее, подумайте, что поможет вам двигаться вперёд в карьере. Мы знаем, что навыки в IT открывают огромные возможности — и мы готовы помочь вам начать!
🔹 Почему IT?
- Большинство компаний активно ищут специалистов.
- Вы можете работать из любой точки мира — с гибким графиком и интересными задачами.
- А ещё IT — это высокий доход и стремительный карьерный рост.
Возможно, именно сейчас тот момент, когда стоит инвестировать в себя и развить востребованные навыки. У нас есть конструктор курсов, с помощью которого вы сможете составить свой идеальный план обучения — под свои цели и интересы.
📚 Как это работает?
- Несколько программ по цене одной — выбирайте всё, что вам нужно.
- Бессрочный доступ — учитесь в своём ритме и когда удобно.
- Это выгодно — вы получаете навыки, которые помогут вам расти профессионально и зарабатывать больше.
А для тех, кто решит сделать шаг в будущее до конца года, у нас есть кое-что особенное… 🎁 Узнайте больше
Как выбрать свой путь?
Мы предлагаем несколько уникальных комбинаций курсов, которые помогут вам стать настоящим экспертом:
🔵 Математика для Data Science + Алгоритмы и структуры данных — для тех, кто хочет готовиться к собеседованиям в топовые компании.
🔵 Алгоритмы + ML — чтобы не просто решать задачи, а понимать, как работают современные технологии.
🔵 Frontend + ML — создавайте приложения и учитесь работать с нейросетями.
🔵 И другие комбинации для разных целей.
Новогодний подарок, который будет работать на вас весь год — это отличная идея! 🎁 Начните сейчас
Развивайтесь в IT — и будущее уже будет в ваших руках!
Пока все строят планы на будущее, подумайте, что поможет вам двигаться вперёд в карьере. Мы знаем, что навыки в IT открывают огромные возможности — и мы готовы помочь вам начать!
🔹 Почему IT?
- Большинство компаний активно ищут специалистов.
- Вы можете работать из любой точки мира — с гибким графиком и интересными задачами.
- А ещё IT — это высокий доход и стремительный карьерный рост.
Возможно, именно сейчас тот момент, когда стоит инвестировать в себя и развить востребованные навыки. У нас есть конструктор курсов, с помощью которого вы сможете составить свой идеальный план обучения — под свои цели и интересы.
📚 Как это работает?
- Несколько программ по цене одной — выбирайте всё, что вам нужно.
- Бессрочный доступ — учитесь в своём ритме и когда удобно.
- Это выгодно — вы получаете навыки, которые помогут вам расти профессионально и зарабатывать больше.
А для тех, кто решит сделать шаг в будущее до конца года, у нас есть кое-что особенное… 🎁 Узнайте больше
Как выбрать свой путь?
Мы предлагаем несколько уникальных комбинаций курсов, которые помогут вам стать настоящим экспертом:
🔵 Математика для Data Science + Алгоритмы и структуры данных — для тех, кто хочет готовиться к собеседованиям в топовые компании.
🔵 Алгоритмы + ML — чтобы не просто решать задачи, а понимать, как работают современные технологии.
🔵 Frontend + ML — создавайте приложения и учитесь работать с нейросетями.
🔵 И другие комбинации для разных целей.
Новогодний подарок, который будет работать на вас весь год — это отличная идея! 🎁 Начните сейчас
Развивайтесь в IT — и будущее уже будет в ваших руках!
Расскажите о некоторых мерах сходства, используемых в машинном обучении.
🔹Косинусное сходство
Определяется через рассмотрение двух векторов в n-мерном пространстве и вычисление косинуса угла между ними. Диапазон значений этой меры — от [-1, 1], где значение 1 означает, что два вектора максимально схожи, а -1 — что они различны.
🔹Евклидово или Манхэттенское расстояние
Эти значения представляют собой расстояния между двумя точками в n-мерном пространстве. Основное различие между ними заключается в способе их вычисления:
▪️Евклидово расстояние вычисляется как прямая линия между двумя точками.
▪️Манхэттенское расстояние — сумма абсолютных разниц координат, представляя путь «по сетке».
🔹 Сходство Жаккара
Также известно как IoU (Intersection over Union). Широко применяется в области детекции объектов для оценки перекрытия между предсказанным ограничивающим прямоугольником и истинным (ground truth). Вычисляется как отношение пересечения множества (Intersection) к объединению множества (Union).
#машинное_обучение
🔹Косинусное сходство
Определяется через рассмотрение двух векторов в n-мерном пространстве и вычисление косинуса угла между ними. Диапазон значений этой меры — от [-1, 1], где значение 1 означает, что два вектора максимально схожи, а -1 — что они различны.
🔹Евклидово или Манхэттенское расстояние
Эти значения представляют собой расстояния между двумя точками в n-мерном пространстве. Основное различие между ними заключается в способе их вычисления:
▪️Евклидово расстояние вычисляется как прямая линия между двумя точками.
▪️Манхэттенское расстояние — сумма абсолютных разниц координат, представляя путь «по сетке».
🔹 Сходство Жаккара
Также известно как IoU (Intersection over Union). Широко применяется в области детекции объектов для оценки перекрытия между предсказанным ограничивающим прямоугольником и истинным (ground truth). Вычисляется как отношение пересечения множества (Intersection) к объединению множества (Union).
#машинное_обучение
Что такое dropout и как он работает? Почему это важно?
Dropout — это метод, который на каждом этапе обучения случайным образом отключает определённый процент нейронов с вероятностью p. В результате, на каждой итерации обучения активны только 1-p нейронов, что помогает сети не зависеть исключительно от ограниченного числа нейронов для формирования признаков. Это создает регуляризирующий эффект, который регулируется гиперпараметром p.
Dropout — это метод, который на каждом этапе обучения случайным образом отключает определённый процент нейронов с вероятностью p. В результате, на каждой итерации обучения активны только 1-p нейронов, что помогает сети не зависеть исключительно от ограниченного числа нейронов для формирования признаков. Это создает регуляризирующий эффект, который регулируется гиперпараметром p.
Что такое иерархическая кластеризация и в каких случаях она применяется?
В отличие от обычной кластеризации, где все кластеры равноправны и располагаются на одном уровне, иерархическая кластеризация формирует вложенные кластеры, создавая древовидную структуру.
Алгоритм можно описать следующим образом:
▫️Сначала создаём столько кластеров, сколько объектов в выборке, каждый объект находится в своём собственном кластере.
▫️Затем итеративно объединяем два ближайших кластера, пока не будет достигнут критерий остановки.
В качестве критерия остановки можно использовать либо необходимое количество кластеров, либо условия, основанные на метриках расстояния между кластерами.
Полученная иерархическая структура анализируется с помощью дендрограммы. Иерархическую кластеризацию целесообразно применять в следующих случаях:
▪️если количество кластеров неизвестно,
▪️если требуется визуализировать структуру данных,
▪️если данные имеют естественную иерархическую организацию.
В отличие от обычной кластеризации, где все кластеры равноправны и располагаются на одном уровне, иерархическая кластеризация формирует вложенные кластеры, создавая древовидную структуру.
Алгоритм можно описать следующим образом:
▫️Сначала создаём столько кластеров, сколько объектов в выборке, каждый объект находится в своём собственном кластере.
▫️Затем итеративно объединяем два ближайших кластера, пока не будет достигнут критерий остановки.
В качестве критерия остановки можно использовать либо необходимое количество кластеров, либо условия, основанные на метриках расстояния между кластерами.
Полученная иерархическая структура анализируется с помощью дендрограммы. Иерархическую кластеризацию целесообразно применять в следующих случаях:
▪️если количество кластеров неизвестно,
▪️если требуется визуализировать структуру данных,
▪️если данные имеют естественную иерархическую организацию.
Когда не стоит использовать обобщённые линейные модели (GLM), такие как линейная и логистическая регрессии?
1️⃣ Если между переменными наблюдается значительная нелинейность. В таких случаях лучше рассмотреть альтернативные модели, способные учесть эти особенности.
2️⃣ Обобщённые линейные модели предполагают выполнение определённых условий: нормальность остатков, гомоскедастичность и отсутствие мультиколлинеарности. Если эти условия не соблюдаются, результаты могут оказаться ненадёжными.
3️⃣ GLM могут быть подвержены влиянию выбросов или экстремальных значений.
1️⃣ Если между переменными наблюдается значительная нелинейность. В таких случаях лучше рассмотреть альтернативные модели, способные учесть эти особенности.
2️⃣ Обобщённые линейные модели предполагают выполнение определённых условий: нормальность остатков, гомоскедастичность и отсутствие мультиколлинеарности. Если эти условия не соблюдаются, результаты могут оказаться ненадёжными.
3️⃣ GLM могут быть подвержены влиянию выбросов или экстремальных значений.
Forwarded from Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
🤖🔧 ТОП-10 опенсорсных инструментов для работы с ИИ в 2025 году
Сделали детальный разбор 10 самых перспективных инструментов для работы с ИИ в 2025 году:
▪️DeepEval
▪️LangChain
▪️Flowise
▪️LiteLLM
▪️SWIRL
▪️Cognita
▪️LLMWare
▪️Letta
▪️W&B (Weights and Biases)
▪️ONNX Runtime
От создания умных ассистентов до построения мощных RAG-систем — разбираем возможности, сравниваем производительность, безопасность и простоту интеграции каждого решения.
👉 Читать статью
Сделали детальный разбор 10 самых перспективных инструментов для работы с ИИ в 2025 году:
▪️DeepEval
▪️LangChain
▪️Flowise
▪️LiteLLM
▪️SWIRL
▪️Cognita
▪️LLMWare
▪️Letta
▪️W&B (Weights and Biases)
▪️ONNX Runtime
От создания умных ассистентов до построения мощных RAG-систем — разбираем возможности, сравниваем производительность, безопасность и простоту интеграции каждого решения.
👉 Читать статью
Forwarded from Библиотека питониста | Python, Django, Flask
🐍📈 Python в 2024 году: что происходит с самым популярным языком
В 2023-2024 компания JetBrains провела масштабное исследование «внутренних» трендов в экосистеме Python и недавно поделилась результатами. Оказалось, что:
▪️Разработчики выбирают uv вместо Poetry;
▪️Контейнеры становятся самым популярным способом развертывания Python-приложений;
▪️41% питонистов имеют опыт работы с Python менее 2 лет.
Более подробно об этих и других трендах читайте в нашей статье 👈
В 2023-2024 компания JetBrains провела масштабное исследование «внутренних» трендов в экосистеме Python и недавно поделилась результатами. Оказалось, что:
▪️Разработчики выбирают uv вместо Poetry;
▪️Контейнеры становятся самым популярным способом развертывания Python-приложений;
▪️41% питонистов имеют опыт работы с Python менее 2 лет.
Более подробно об этих и других трендах читайте в нашей статье 👈
Как работает умножение списка?
Посмотрим на результат умножения списка [1,2,3] на 2:
[1,2,3] * 2
#=> [1, 2, 3, 1, 2, 3]
Содержание списка [1,2,3] повторяется дважды
Посмотрим на результат умножения списка [1,2,3] на 2:
[1,2,3] * 2
#=> [1, 2, 3, 1, 2, 3]
Содержание списка [1,2,3] повторяется дважды
Идеального контента для выходных не существует... или всё же?
Физик из Бразилии, Клаудио Пеллегрини, вычислил идеальную форму пивного бокала основываясь на математической модели, чтобы напиток дольше оставался холодным.
Выяснилось, что идеальная форма – это узкое основание, расширяющееся кверху, как у классических бокалов для пива. Это доказывает, что математика полезна не только в теории, но и в жизни.
А теперь представьте: вы на собеседовании на позицию Data Scientist. И вам дают задачу по оптимизации, и вы можете решить её за минуты. Работа – ваша!
Мы можем научить вас применять математику не только для решения задач, но и для карьерного роста. Освойте курс «Математика для Data Science» и начните путь в карьере аналитика в новом году!
🎄Начните свой 2025 со скидкой 35%. Это лучшее вложении уходящего года – https://proglib.io/w/093a99a7
Физик из Бразилии, Клаудио Пеллегрини, вычислил идеальную форму пивного бокала основываясь на математической модели, чтобы напиток дольше оставался холодным.
Выяснилось, что идеальная форма – это узкое основание, расширяющееся кверху, как у классических бокалов для пива. Это доказывает, что математика полезна не только в теории, но и в жизни.
А теперь представьте: вы на собеседовании на позицию Data Scientist. И вам дают задачу по оптимизации, и вы можете решить её за минуты. Работа – ваша!
Мы можем научить вас применять математику не только для решения задач, но и для карьерного роста. Освойте курс «Математика для Data Science» и начните путь в карьере аналитика в новом году!
🎄Начните свой 2025 со скидкой 35%. Это лучшее вложении уходящего года – https://proglib.io/w/093a99a7
Forwarded from Proglib.academy | IT-курсы
👨🏼💻💼 5 возможных причин провала проектов в Data Science
Рассказываем в нашей статье о самых частых проблемах в реализации проектов с большими данными, которые могут привести к провалу.
🔗 Ссылка на статью
Забирайте курс и не проваливайте свои проекты:
🔵 Математика для Data Science
Рассказываем в нашей статье о самых частых проблемах в реализации проектов с большими данными, которые могут привести к провалу.
Забирайте курс и не проваливайте свои проекты:
Please open Telegram to view this post
VIEW IN TELEGRAM
📊 Построение DWH и разработка дашбордов в Power BI: 5 проблем и их решение
В современном мире данные являются одним из ключевых ресурсов для принятия обоснованных решений и успешной работы компании. Поэтому создание и поддержание эффективного хранилища данных становится важной задачей для многих организаций.
В этой статье Ипатов Александр, backend-разработчик в компании USETECH, рассматривает на конкретном примере проблемы и их решение при построении DWH и дальнейшей разработке дашбордов в Power BI. Вас ждет история о том, как превратить хаос данных в работающую бизнес-аналитику.
👉 Читать статью
👉 Зеркало
В современном мире данные являются одним из ключевых ресурсов для принятия обоснованных решений и успешной работы компании. Поэтому создание и поддержание эффективного хранилища данных становится важной задачей для многих организаций.
В этой статье Ипатов Александр, backend-разработчик в компании USETECH, рассматривает на конкретном примере проблемы и их решение при построении DWH и дальнейшей разработке дашбордов в Power BI. Вас ждет история о том, как превратить хаос данных в работающую бизнес-аналитику.
👉 Читать статью
👉 Зеркало
🧑💻 Статьи для IT: как объяснять и распространять значимые идеи
Напоминаем, что у нас есть бесплатный курс для всех, кто хочет научиться интересно писать — о программировании и в целом.
Что: семь модулей, посвященных написанию, редактированию, иллюстрированию и распространению публикаций.
Для кого: для авторов, копирайтеров и просто программистов, которые хотят научиться интересно рассказывать о своих проектах.
👉Материалы регулярно дополняются, обновляются и корректируются. А еще мы отвечаем на все учебные вопросы в комментариях курса.
Напоминаем, что у нас есть бесплатный курс для всех, кто хочет научиться интересно писать — о программировании и в целом.
Что: семь модулей, посвященных написанию, редактированию, иллюстрированию и распространению публикаций.
Для кого: для авторов, копирайтеров и просто программистов, которые хотят научиться интересно рассказывать о своих проектах.
👉Материалы регулярно дополняются, обновляются и корректируются. А еще мы отвечаем на все учебные вопросы в комментариях курса.
Как сделать модель более устойчивой к выбросам?
Здесь можно подойти с двух сторон: преобразовать данные или особым образом построить модель.
Выбросы обычно определяются по отношению к распределению данных. Их можно удалить на этапе предварительной обработки, используя статистические методы. Самый простой подход — считать аномальными значения, которые находятся слишком далеко от среднего выборки. Иногда может помочь преобразование данных (например, логарифмическое преобразование).
Ещё один способ уменьшения влияния выбросов — использование средней абсолютной ошибки вместо среднеквадратичной ошибки. Что касается моделей, то устойчивыми к выбросам можно считать деревья решений.
#машинное_обучение
#статистика
Здесь можно подойти с двух сторон: преобразовать данные или особым образом построить модель.
Выбросы обычно определяются по отношению к распределению данных. Их можно удалить на этапе предварительной обработки, используя статистические методы. Самый простой подход — считать аномальными значения, которые находятся слишком далеко от среднего выборки. Иногда может помочь преобразование данных (например, логарифмическое преобразование).
Ещё один способ уменьшения влияния выбросов — использование средней абсолютной ошибки вместо среднеквадратичной ошибки. Что касается моделей, то устойчивыми к выбросам можно считать деревья решений.
#машинное_обучение
#статистика