bootg.com »
United States »
Библиотека собеса по Data Science | вопросы с собеседований » Telegram Web
Forwarded from Proglib.academy | IT-курсы
📊 Кто такой дата-инженер, чем он занимается и что должен знать
Работа с большими объёмами данных — удел инженеров. Они помогают бизнесу, но что конкретно они делают, вы узнаете в статье
Начни сегодня, получать знания для своей будущей карьеры Дата-инженером:
🔵 Математика для Data Science
👉 Ссылка на статью
Работа с большими объёмами данных — удел инженеров. Они помогают бизнесу, но что конкретно они делают, вы узнаете в статье
Начни сегодня, получать знания для своей будущей карьеры Дата-инженером:
👉 Ссылка на статью
Please open Telegram to view this post
VIEW IN TELEGRAM
Что бы вы стали делать с ошибками в данных?
Важно понимать, что ошибки могут появляться по разным причинам — от человеческого фактора до технических сбоев. При работе с «грязными» данными типичные задачи включают:
1️⃣ Обнаружение и удаление дубликатов
В Pandas можно использовать метод .duplicated() для поиска повторяющихся значений и .drop_duplicates() для их удаления.
2️⃣ Исправление неверных значений
Следует проверить данные на соответствие типа и контекста. Например, изменение доходности (MoM) может быть представлено в процентах или долях, и неверный формат может исказить итоговые метрики.
3️⃣ Форматирование данных
Следует убедиться, что числовые значения хранятся в правильном формате. Если доход или другие числовые данные представлены как строки, нужно конвертировать их в float для корректных вычислений.
4️⃣ Корректировка формата даты и времени
Для работы с временными рядами нужно преобразовать даты в формат datetime с помощью pd.to_datetime(), что упростит аналитику и прогнозы.
#анализ_данных
Важно понимать, что ошибки могут появляться по разным причинам — от человеческого фактора до технических сбоев. При работе с «грязными» данными типичные задачи включают:
1️⃣ Обнаружение и удаление дубликатов
В Pandas можно использовать метод .duplicated() для поиска повторяющихся значений и .drop_duplicates() для их удаления.
2️⃣ Исправление неверных значений
Следует проверить данные на соответствие типа и контекста. Например, изменение доходности (MoM) может быть представлено в процентах или долях, и неверный формат может исказить итоговые метрики.
3️⃣ Форматирование данных
Следует убедиться, что числовые значения хранятся в правильном формате. Если доход или другие числовые данные представлены как строки, нужно конвертировать их в float для корректных вычислений.
4️⃣ Корректировка формата даты и времени
Для работы с временными рядами нужно преобразовать даты в формат datetime с помощью pd.to_datetime(), что упростит аналитику и прогнозы.
#анализ_данных
Что такое исключающая кластеризация (exclusive clustering)
Исключающая кластеризация — это подход, при котором каждый объект данных относится строго к одному кластеру. В отличие от мягкой кластеризации (например, fuzzy clustering), где объекты могут принадлежать нескольким кластерам с разной степенью вероятности, в исключающей кластеризации каждый объект закрепляется только за одной группой. Такой подход позволяет чётко разделить данные и часто используется, когда необходимо однозначное распределение, например, при сегментации клиентов или выделении групп в социальных сетях.
#машинное_обучение
#машинное_обучение
Объясните, как работает градиентный бустинг на примере задачи регрессии?
Градиентный бустинг — это мощный ансамблевый метод, который комбинирует предсказания нескольких моделей, обучая их последовательно. Часто в качестве базовых моделей выступают деревья решений. Суть метода в том, что каждая новая модель пытается исправить ошибки предыдущих, приближаясь к идеальному результату шаг за шагом.
▪️Сначала строится базовая модель, дающая простое предсказание целевой переменной. На этом этапе, конечно, модель далека от идеала. Мы измеряем, насколько предсказания модели отличаются от настоящих значений, используя функцию потерь.
▪️Если модель предсказала на 5 больше, чем реальное значение, идеальная поправка для неё была бы -5. Новая модель обучается предсказывать именно этот антиградиент (то есть разницу между предсказанным и истинным значением) для текущей функции потерь. Затем к предсказаниям базовой модели добавляется результат новой модели, корректируя их в нужную сторону.
▪️На каждом следующем шаге очередная модель будет пытаться предсказать антиградиент функции потерь, чтобы улучшить общее предсказание. Это добавление моделей продолжается до тех пор, пока не достигается нужное качество.
▪️В результате предсказание целевой переменной представляет собой взвешенную сумму всех построенных моделей.
#машинное_обучение
Градиентный бустинг — это мощный ансамблевый метод, который комбинирует предсказания нескольких моделей, обучая их последовательно. Часто в качестве базовых моделей выступают деревья решений. Суть метода в том, что каждая новая модель пытается исправить ошибки предыдущих, приближаясь к идеальному результату шаг за шагом.
▪️Сначала строится базовая модель, дающая простое предсказание целевой переменной. На этом этапе, конечно, модель далека от идеала. Мы измеряем, насколько предсказания модели отличаются от настоящих значений, используя функцию потерь.
▪️Если модель предсказала на 5 больше, чем реальное значение, идеальная поправка для неё была бы -5. Новая модель обучается предсказывать именно этот антиградиент (то есть разницу между предсказанным и истинным значением) для текущей функции потерь. Затем к предсказаниям базовой модели добавляется результат новой модели, корректируя их в нужную сторону.
▪️На каждом следующем шаге очередная модель будет пытаться предсказать антиградиент функции потерь, чтобы улучшить общее предсказание. Это добавление моделей продолжается до тех пор, пока не достигается нужное качество.
▪️В результате предсказание целевой переменной представляет собой взвешенную сумму всех построенных моделей.
#машинное_обучение
Forwarded from Proglib.academy | IT-курсы
Паттерны проектирования предлагают комплексные решения проблем, с которыми разработчики сталкиваются каждый день. В этой статье мы рассмотрим 8 паттернов проектирования с примерами кода на Python.
Забираем статью:
🔗 Ссылка
Please open Telegram to view this post
VIEW IN TELEGRAM
Что такое эффект насыщения (saturation) нейрона?
В контексте нейронных сетей феномен насыщения относится к ситуации, когда выход нейрона чаще всего близок к максимальному или минимальному значению функции активации.
Поясним на примере сигмоидальной функции активации. Она ограничена двумя горизонтальными асимптотами, к которым стремится при стремлении аргумента к бесконечности. Этими асимптотами могут быть 1 и 0. Если нейрон насыщен, то его аутпут будет почти всегда близок к единице или нулю.
К чему это приведёт? Градиент этой функции активации становится очень малым. Это приводит к эффекту затухающих градиентов, когда обновления весов практически прекращаются, и сеть перестает эффективно обучаться.
#глубокое_обучение
#глубокое_обучение
Что вы знаете про метод t-SNE?
t-SNE можно расшифровать как t-Distributed Stochastic Neighbor Embedding. Если коротко, это метод нелинейного снижения размерности и визуализации многомерных данных.
t-SNE преобразует данные в пространство меньшей размерности (обычно в 2D или 3D), сохраняя информацию о близости точек, которые находятся рядом друг с другом в исходном пространстве. Это делает его особенно полезным для визуализации сложных данных, таких как текстовые эмбеддинги, где важно увидеть кластеры и локальные группы объектов.
😎 Как метод добивается сохранения этой информации? t-SNE конвертирует евклидовы расстояния между точками в условные вероятности. То есть указывается вероятность того, что некая точка x_i будет иметь в качестве соседа точку x_j.
#машинное_обучение
t-SNE можно расшифровать как t-Distributed Stochastic Neighbor Embedding. Если коротко, это метод нелинейного снижения размерности и визуализации многомерных данных.
t-SNE преобразует данные в пространство меньшей размерности (обычно в 2D или 3D), сохраняя информацию о близости точек, которые находятся рядом друг с другом в исходном пространстве. Это делает его особенно полезным для визуализации сложных данных, таких как текстовые эмбеддинги, где важно увидеть кластеры и локальные группы объектов.
😎 Как метод добивается сохранения этой информации? t-SNE конвертирует евклидовы расстояния между точками в условные вероятности. То есть указывается вероятность того, что некая точка x_i будет иметь в качестве соседа точку x_j.
#машинное_обучение
🧑💻 Статьи для IT: как объяснять и распространять значимые идеи
Напоминаем, что у нас есть бесплатный курс для всех, кто хочет научиться интересно писать — о программировании и в целом.
Что: семь модулей, посвященных написанию, редактированию, иллюстрированию и распространению публикаций.
Для кого: для авторов, копирайтеров и просто программистов, которые хотят научиться интересно рассказывать о своих проектах.
👉Материалы регулярно дополняются, обновляются и корректируются. А еще мы отвечаем на все учебные вопросы в комментариях курса.
Напоминаем, что у нас есть бесплатный курс для всех, кто хочет научиться интересно писать — о программировании и в целом.
Что: семь модулей, посвященных написанию, редактированию, иллюстрированию и распространению публикаций.
Для кого: для авторов, копирайтеров и просто программистов, которые хотят научиться интересно рассказывать о своих проектах.
👉Материалы регулярно дополняются, обновляются и корректируются. А еще мы отвечаем на все учебные вопросы в комментариях курса.
Как бы вы объяснили отличия глубокого обучения от обычного (машинного обучения)?
Глубокое обучение и машинное обучение — это подвиды методов искусственного интеллекта. Вот какие различия между ними можно назвать:
▪️Структура моделей
В глубоких нейронных сетях используются многослойные архитектуры.
▪️Объём данных
Глубокое обучение требует больших объёмов данных для эффективного обучения.
▪️Аппаратные требования
Из-за сложности нейронных сетей глубокое обучение обычно требует больше вычислительных ресурсов. Хорошо подходят графические процессоры (GPU), способные к параллелизации.
▪️Автоматизация извлечения признаков
В глубоких сетях слои автоматически находят иерархию признаков в данных, что снижает необходимость в ручной обработке данных.
#глубокое_обучение
Глубокое обучение и машинное обучение — это подвиды методов искусственного интеллекта. Вот какие различия между ними можно назвать:
▪️Структура моделей
В глубоких нейронных сетях используются многослойные архитектуры.
▪️Объём данных
Глубокое обучение требует больших объёмов данных для эффективного обучения.
▪️Аппаратные требования
Из-за сложности нейронных сетей глубокое обучение обычно требует больше вычислительных ресурсов. Хорошо подходят графические процессоры (GPU), способные к параллелизации.
▪️Автоматизация извлечения признаков
В глубоких сетях слои автоматически находят иерархию признаков в данных, что снижает необходимость в ручной обработке данных.
#глубокое_обучение
Какой из следующих методов кросс-валидации может не подойти для очень больших наборов данных, содержащих сотни тысяч образцов?
Anonymous Quiz
16%
k-fold кросс-валидация
53%
Кросс-валидация с исключением одного элемента (Leave-one-out)
12%
Hold-out
19%
Все вышеперечисленные
Что вы знаете про обучение с подкреплением (reinforcement learning)?
Суть обучения с подкреплением заключается в том, чтобы смоделировать процесс обучения методом проб и ошибок. Такой алгоритм не использует готовую обучающую выборку. Вместо этого он взаимодействует с окружающей средой (environment), совершая различные действия (actions). За каждое действие алгоритм получает награду (reward) или штраф (penalty) — скалярные значения, которые добавляются к функции вознаграждения (reward function).
Цель алгоритма — научиться действовать так, чтобы максимизировать кумулятивную награду, достигая наилучшего результата в долгосрочной перспективе.
#машинное_обучение
#глубокое обучение
#машинное_обучение
#глубокое обучение
Forwarded from Proglib.academy | IT-курсы
📊 Путеводитель по Big Data для начинающих: методы и техники анализа больших данных
Методы и техники анализа Big Data: Machine Learning, Data mining, краудсорсинг, нейросети, предиктивный и статистический анализ, визуализация, смешение и интеграция данных, имитационные модели. Как разобраться во множестве названий и аббревиатур? Читайте наш путеводитель в статье по ссылке.
🔗 Ссылка
Методы и техники анализа Big Data: Machine Learning, Data mining, краудсорсинг, нейросети, предиктивный и статистический анализ, визуализация, смешение и интеграция данных, имитационные модели. Как разобраться во множестве названий и аббревиатур? Читайте наш путеводитель в статье по ссылке.
Please open Telegram to view this post
VIEW IN TELEGRAM
Какой метод перекрёстной проверки лучше использовать для временных рядов?
Для временных рядов стандартный метод k-fold перекрёстной проверки (кросс-валидации) может быть проблематичным, так как он нарушает порядок последовательности данных, что критично для временной зависимости.
Наиболее подходящий подход для временных рядов — это метод последовательного расширяющегося окна (expanding window) или прямой цепочки. Процедура выглядит так:
1. обучение на данных [1], тестирование на данных [2]
2. обучение на данных [1, 2], тестирование на данных [3]
3. обучение на данных [1, 2, 3], тестирование на данных [4] и т.д.
#машинное_обучение
Для временных рядов стандартный метод k-fold перекрёстной проверки (кросс-валидации) может быть проблематичным, так как он нарушает порядок последовательности данных, что критично для временной зависимости.
Наиболее подходящий подход для временных рядов — это метод последовательного расширяющегося окна (expanding window) или прямой цепочки. Процедура выглядит так:
1. обучение на данных [1], тестирование на данных [2]
2. обучение на данных [1, 2], тестирование на данных [3]
3. обучение на данных [1, 2, 3], тестирование на данных [4] и т.д.
#машинное_обучение
Forwarded from Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
📊 ТОП-10 необходимых для специалиста по Big Data навыков
Рассказываем о необходимом наборе технических и карьерных навыков для специалиста по Big Data.
✍️ Big Data — это термин, используемый для обозначения значительного объема как структурированных, так и неструктурированных данных, который слишком велик для обработки традиционными методами.
👉 Читать все подробности в статье
Рассказываем о необходимом наборе технических и карьерных навыков для специалиста по Big Data.
👉 Читать все подробности в статье