Библиотека собеса по Data Science | вопросы с собеседований 889

Библиотека собеса по Data Science | вопросы с собеседований

Какие технические навыки нужны для перехода от небольшого анализа данных к крупным проектам в Data Science?

🔹 Хранение данных
1. Распределенные системы хранения: Hadoop HDFS, AWS S3, Azure Blob Storage, NoSQL
2. Data Lakes для обработки неструктурированных и сырых данных

🔹 Обработка данных
1. Фреймворки для работы с big data: MapReduce, Apache Spark
2. Методы параллельных вычислений для ускорения анализа

🔹 Реализация системы
1. Построение надежных data pipelines
2. Мониторинг и логирование моделей
3. Контейнеризация (Docker, Kubernetes) для развертывания и масштабирования

Библиотека собеса по Data Science

1.2K views18:04

Библиотека собеса по Data Science | вопросы с собеседований

Как защитить модели от атак в машинном обучении?

✅ Аугментация данных и робастное обучение — добавление случайных шумов в данные для повышения устойчивости модели.
✅ Adversarial Training — специальное обучение модели на данных с атаками, чтобы она их распознавала.
✅ Дифференциальная приватность — техники, предотвращающие утечку информации о тренировочных данных.
✅ Мониторинг аномалий — выявление подозрительных входных данных и реагирование на них.

Библиотека собеса по Data Science

1.1K views18:00

Библиотека собеса по Data Science | вопросы с собеседований

Какова вероятность распределения количества подбрасываний монеты до первого выпадения орла

✅ Ответ:

Количество бросков, необходимых до появления первого орла, подчиняется геометрическому распределению.

Библиотека собеса по Data Science

1.1K viewsedited 18:01

Библиотека собеса по Data Science | вопросы с собеседований

В чем разница между Linear Regression, Random Forest и GBDT? Как их реализовать в распределенных вычислениях

🔹 В чем разница между Linear Regression, Random Forest и GBDT?

Linear Regression (LR) — простой и быстрый, но работает только с линейными зависимостями.
Random Forest (RF) — устойчив к выбросам и переобучению, но может быть медленным.
Gradient Boosting Decision Trees (GBDT) — обеспечивает высокую точность, но требует тонкой настройки и больше времени на обучение.

🔹 Как реализовать эти алгоритмы в распределенных системах?

RF — легко распараллеливается, так как деревья строятся независимо.
GBDT — сложнее, но можно ускорить построение деревьев в каждой итерации.
LR — можно параллелить через parameter server и асинхронные обновления.

Библиотека собеса по Data Science

Библиотека собеса по Data Science | вопросы с собеседований

Вопросы с собеседований по Data Science и ответы на них.

По рекламе: @proglib_adv

Учиться у нас: https://proglib.io/w/7dfb7235

Для обратной связи: @proglibrary_feeedback_bot

Наши каналы: https://www.tg-me.com/proglibrary/9197

1.1K viewsedited 18:03

Библиотека собеса по Data Science | вопросы с собеседований

Please open Telegram to view this post

VIEW IN TELEGRAM

1.0K views12:35

Библиотека собеса по Data Science | вопросы с собеседований

Что такое функции активации и как они различаются по вычислительной сложности, разреженности и поведению градиента

Функция активации нейрона определяет выходной сигнал, который определяется входным сигналом или набором входных сигналов.

▪️ Sigmoid
Преобразует входы в диапазон 0-1 (бинарная классификация).
Проблемы: исчезающие градиенты при экстремальных значениях.
Разреженность: низкая.

▪️ Tanh
Преобразует входы в диапазон -1 до 1.
Проблемы: исчезающие градиенты, но менее выраженные, чем у сигмоиды.
Разреженность: средняя.

▪️ ReLU (Rectified Linear Unit)
Устанавливает отрицательные значения в 0, оставляя положительные.
Проблемы: «умирающий ReLU» — нейроны становятся неактивными.
Разреженность: высокая.

▪️ Leaky ReLU
Модификация ReLU с малым наклоном для отрицательных значений.
Проблемы: «умирающий ReLU» минимизируется.
Разреженность: ниже, чем у ReLU.

Библиотека собеса по Data Science

1.1K viewsedited 18:01

Библиотека собеса по Data Science | вопросы с собеседований

🏃‍♀️

Please open Telegram to view this post

VIEW IN TELEGRAM

1.1K viewsedited 14:00

Библиотека собеса по Data Science | вопросы с собеседований

Применение различных конфигураций слоев ввода и вывода в Рекуррентных Нейронных Сетях (RNN)

✔️ One-to-One:

• Описание: один вход — один выход.

• Пример: классификация изображений. В этой задаче, нейронная сеть получает изображение как вход, а затем генерирует один результат (класс изображения) на выходе.

✔️ One-to-Many:

• Описание: один вход — несколько выходов.

• Пример: преобразование изображений в текст (image-to-text). Здесь сеть принимает одно изображение как вход и генерирует последовательность выходных данных, например, описание изображения в виде текста.

✔️ Many-to-Many:

• Описание: несколько входов — несколько выходов.

• Пример: перевод текста (например, машинный перевод). Модель принимает последовательность слов (вход) и генерирует соответствующую последовательность слов на другом языке (выход).

Библиотека собеса по Data Science

1.1K views18:03

Библиотека собеса по Data Science | вопросы с собеседований

Почему трансформеры справляются с большими объемами данных лучше, чем рекуррентные нейронные сети

Это связано с их возможностями параллельной обработки, лучшим моделированием дальнодействующих зависимостей и устойчивостью к исчезающим и взрывающимся градиентам.

Дополнительно, слой нормализации в трансформерах помогает справляться с проблемой взрыва градиента, что делает их еще более надежными для работы с крупными наборами данных.

Библиотека собеса по Data Science

1.1K viewsedited 18:39

Библиотека собеса по Data Science | вопросы с собеседований

Как можно разбить непрерывные признаки на интервалы на основе распределения данных, и каковы плюсы и минусы такого подхода

Один из распространенных методов — разбиение на интервалы по квантилям. Такой способ обеспечивает равномерное распределение наблюдений по группам, но при этом границы интервалов могут быть нецелыми числами, а также метод чувствителен к изменению распределения данных со временем.

Библиотека собеса по Data Science

1.1K views18:20

Библиотека собеса по Data Science | вопросы с собеседований

Какие методы сбора данных вам приходилось использовать в работе

Некоторые распространенные методы:

🔹 Транзакционные данные — сбор информации с терминалов и платежных систем.

🔹 Веб-скрейпинг — извлечение данных из открытых интернет-источников.

🔹 Логирование пользовательских действий — анализ поведения в приложениях и на сайтах.

🔹 Данные с датчиков — отслеживание параметров работы устройств, автомобилей, IoT-систем.

Библиотека собеса по Data Science

1.1K viewsedited 18:04

Библиотека собеса по Data Science | вопросы с собеседований

Какие методы выборки чаще всего используются для отбора подмножества из конечной популяции

🔹 Выборка с возвращением — каждый элемент может быть выбран несколько раз.
🔹 Выборка без возвращения — элемент может быть выбран только один раз.
🔹 Стратифицированная выборка — данные делятся на группы (страты), из которых берутся случайные образцы.
🔹 Многоступенчатая выборка — отбор проводится в несколько этапов, последовательно уменьшая выборку.
🔹 Систематическая выборка — отбор элементов через равные интервалы в отсортированном списке.

Библиотека собеса по Data Science

1.0K views18:02

Библиотека собеса по Data Science | вопросы с собеседований

Forwarded from Proglib.academy | IT-курсы

➕➖ Нужна ли математика программисту

Можно ли стать разработчиком, если в школе ненавидел математику? А если наоборот — тащился от алгебры и геометрии, но кодить не умеешь? Эта статья раскладывает всё по полочкам: где без математики никуда, а где можно и без неё.

➡️

Что внутри:

✓ Почему все считают, что программисты — математики

✓ В каких сферах разработки можно вообще не знать математику

✓ Где хватит готовых библиотек, а где придётся разбираться в формулах

✓ Какие области программирования требуют мощного математического бэкграунда

✓ Что делать, если математика — это боль, но хочется освоить ML или Data Science

✓ Топ книг, которые помогут понять и даже полюбить математику

🔵 Чтобы знать математику, забирайте наш курс → «Математика для Data Science»

📎 Читать статью

Proglib Academy

Please open Telegram to view this post

VIEW IN TELEGRAM

729 views09:41

Библиотека собеса по Data Science | вопросы с собеседований

Какие существуют методы обнаружения выбросов

Методы делятся на статистические и плотностные.

📊 Статистические методы:
✓ Правило 3σ — предполагает нормальное распределение, выбросы находятся за границами ±3 стандартных отклонений.
✓ Метод box-plot — выбросы определяются на основе квартилей и 1.5 межквартильного размаха.
✓ Z-оценка — стандартизация данных, точки с высоким Z-score считаются выбросами.

📈 Плотностные методы:
✓ DBSCAN — алгоритм кластеризации, который помечает шумовые точки как выбросы.
✓ LOF (Local Outlier Factor) — анализирует локальную плотность точки и её отличие от соседей.

Библиотека собеса по Data Science

1.1K viewsedited 18:21

Библиотека собеса по Data Science | вопросы с собеседований

Как выбрать между ручным и автоматизированным созданием признаков

Выбор зависит от количества признаков и уровня знания предметной области.

🔹 Когда лучше использовать ручное создание признаков?

✔ Понимание области исследований и данных.

✔ Количество признаков управляемо.

✔ Важна интерпретируемость модели.

🔹 Когда предпочтительнее автоматизированное создание признаков?

✔️ Ограниченные знания о данных.

✔️ Большие наборы данных с высокой размерностью.

✔️ Дорого разрабатывать признаки вручную.

✔️ Интерпретируемость модели не является ключевым фактором.

Библиотека собеса по Data Science

1.0K views19:34

Библиотека собеса по Data Science | вопросы с собеседований

Forwarded from Библиотека питониста | Python, Django, Flask

🐍 Твой Python-код жрёт память? 11 способов это исправить!

Высокая производительность и масштабируемость невозможны, если приложение неэффективно расходует RAM. Разберём лучшие техники оптимизации памяти в Python, которые помогут сократить потребление ресурсов и ускорить работу кода.

👉 Читать статью

Библиотека питониста

845 views11:12

Библиотека собеса по Data Science | вопросы с собеседований

Зачем использовать векторную базу данных, если есть пакеты для векторного поиска

Векторные пакеты и базы данных решают похожие задачи, но ориентированы на разные сценарии использования.

📌 Ключевые различия:
🔹 Векторные пакеты — подходят для локального поиска на небольших объемах данных, но не обеспечивают долговременное хранение и масштабируемость.
🔹 Векторные базы данных — разработаны для работы с большими объемами данных, поддерживают хранение, быстрый поиск и обработку в распределенной среде.

⚡ Когда что использовать:
🔹 Если данных мало и важна простота — подойдет векторный пакет.
🔹 Если требуется хранение, высокая скорость поиска и масштабируемость — нужна векторная база.

Библиотека собеса по Data Science

1.2K views18:03

Библиотека собеса по Data Science | вопросы с собеседований

Как развернуть модель XGBoost в продакшн

1. Сериализация модели — сохранение модели с помощью XGBoost, Pickle или Joblib.

2. Загрузка модели — использование соответствующей библиотеки для загрузки модели в продакшн-среду.

3. Выбор платформы — развертывание модели локально, в облаке или в контейнере.

4. Обслуживание модели — настройка API (REST, gRPC) для предоставления предсказаний.

Библиотека собеса по Data Science

1.2K views18:03

Библиотека собеса по Data Science | вопросы с собеседований

Какие типы галлюцинаций бывают в LLM и как их можно минимизировать

Существует два основных типа галлюцинаций в больших языковых моделях (LLM):

1. Intrinsic Hallucinations:

Модель генерирует текст, который противоречит предоставленному вводу. Это может происходить, когда модель «выдумывает» факты или не следуют контексту.

2. Extrinsic Hallucinations:

Модель генерирует текст, который фактически неверен или не подтверждается входными данными. Например, создание неверных статистических данных или ссылок на несуществующие источники.

Как уменьшить галлюцинации?

1. Оптимизация стратегии декодирования:

Использование таких методов, как beam search или top-k sampling, может помочь улучшить качество вывода, избегая нелогичных или противоречивых утверждений.

2. Генерация с дополнительным поисковым механизмом (retrieval-augmented generation):

Этот подход использует внешние базы данных или поисковые системы для получения точной и релевантной информации перед тем, как сгенерировать окончательный ответ, что помогает избежать фактических ошибок.

Библиотека собеса по Data Science

1.1K views18:03

Библиотека собеса по Data Science | вопросы с собеседований

Как работает Retrieval-Augmented Generation (RAG)

Процесс RAG включает в себя следующие этапы:

1. Создание индекса:

На первом этапе данные обрабатываются: текст делится на токены, создаются эмбеддинги для эффективного поиска.

2. Извлечение информации (Retrieval):

Релевантная информация извлекается из базы знаний с помощью таких техник, как поиск по ключевым словам, семантический поиск или поиск на основе графа знаний.

3. Генерация (Generation):

На основе извлеченной информации и входного запроса используется языковая модель для генерации текста.

Библиотека собеса по Data Science

1.0K views18:03

2025/07/05 12:18:58
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.bootg.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>