bootg.com »
United States »
Библиотека собеса по Data Science | вопросы с собеседований » Telegram Web
Модель показывает высокое качество на тесте, но проваливается в реальном мире. Какие шаги помогут исправить ситуацию?
✅ Сравнение распределений данных: анализируется различие между данными обучения и реальными данными для выявления distribution shift. Это помогает понять, видела ли модель похожие примеры.
✅ Анализ feature importance: определяется, какие признаки модель считает важными. Возможно, модель излишне полагается на шумовые или незначимые признаки, отсутствующие в реальных данных.
✅ Сбор реальных данных: организуется процесс сбора данных из продакшена для дообучения модели, чтобы учесть новые паттерны.
✅ Сравнение распределений данных: анализируется различие между данными обучения и реальными данными для выявления distribution shift. Это помогает понять, видела ли модель похожие примеры.
✅ Анализ feature importance: определяется, какие признаки модель считает важными. Возможно, модель излишне полагается на шумовые или незначимые признаки, отсутствующие в реальных данных.
✅ Сбор реальных данных: организуется процесс сбора данных из продакшена для дообучения модели, чтобы учесть новые паттерны.
Forwarded from Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
💡 Как получить от нейросети код, работающий в 100 раз быстрее
Интересный эксперимент провели с Claude 3.5 Sonnet: попытались улучшить простой алгоритм на Python, раз за разом прося ИИ «написать код лучше». Задача была несложная — найти разницу между максимальным и минимальным числами в массиве, сумма цифр которых равна 30.
Казалось бы, что тут можно улучшать?
👉 Подробнее в нашей статье
#CodeOptimization
Интересный эксперимент провели с Claude 3.5 Sonnet: попытались улучшить простой алгоритм на Python, раз за разом прося ИИ «написать код лучше». Задача была несложная — найти разницу между максимальным и минимальным числами в массиве, сумма цифр которых равна 30.
Казалось бы, что тут можно улучшать?
👉 Подробнее в нашей статье
#CodeOptimization
Forwarded from Proglib.academy | IT-курсы
🤖 📈 Data Science в 2025 году: 7 главных трендов
Разработчики JetBrains и Python Software Foundation рассказали, как изменится Data Science в ближайшие годы.
➡️ В статье:
▪️ Почему доля Python в анализе данных снижается
▪️ Какие библиотеки набирают популярность вместо pandas
▪️ Что происходит с AutoML, MLOps и визуализацией данных
▪️ И почему Rust и Julia наступают Python на пятки
Подробный разбор, новые инструменты и прогнозы на будущее — всё это читай в нашей статье.
🔵 Тренды меняются, но основы остаются — укрепи базу с нашим курсом «Математика для Data Science»
Разработчики JetBrains и Python Software Foundation рассказали, как изменится Data Science в ближайшие годы.
▪️ Почему доля Python в анализе данных снижается
▪️ Какие библиотеки набирают популярность вместо pandas
▪️ Что происходит с AutoML, MLOps и визуализацией данных
▪️ И почему Rust и Julia наступают Python на пятки
Подробный разбор, новые инструменты и прогнозы на будущее — всё это читай в нашей статье.
Please open Telegram to view this post
VIEW IN TELEGRAM
Разница между символическим и коннекционистским ИИ
Разница между символическим и коннекционистским ИИ заключается в подходах к обработке информации.
📍 Символический ИИ работает на основе чётко заданных правил и логики, где информация представляется в виде символов, связанных между собой через логические операции. Этот подход используется в экспертных системах и решении задач, где важна строгая последовательность шагов.
📍 Коннекционистский ИИ (нейросети) учится на данных, выявляя паттерны и закономерности без явных заранее заданных правил. Он адаптируется через обучение, что делает его подходящим для задач, таких как распознавание изображений, речи и классификация.
В современных системах часто используется комбинация обоих подходов для достижения лучших результатов.
Разница между символическим и коннекционистским ИИ заключается в подходах к обработке информации.
📍 Символический ИИ работает на основе чётко заданных правил и логики, где информация представляется в виде символов, связанных между собой через логические операции. Этот подход используется в экспертных системах и решении задач, где важна строгая последовательность шагов.
📍 Коннекционистский ИИ (нейросети) учится на данных, выявляя паттерны и закономерности без явных заранее заданных правил. Он адаптируется через обучение, что делает его подходящим для задач, таких как распознавание изображений, речи и классификация.
В современных системах часто используется комбинация обоих подходов для достижения лучших результатов.
⚖️ Какова цель масштабирования признаков (feature scaling) в машинном обучении
Цель масштабирования признаков — привести значения всех признаков к единому масштабу.
Это особенно важно для алгоритмов, чувствительных к величине признаков, таких как модели, основанные на градиентном спуске (например, логистическая регрессия) или на расстояниях (k-ближайших соседей, SVM).
Масштабирование улучшает производительность модели и ускоряет её обучение, предотвращая ситуацию, когда признаки с большими значениями доминируют над другими.
Цель масштабирования признаков — привести значения всех признаков к единому масштабу.
Это особенно важно для алгоритмов, чувствительных к величине признаков, таких как модели, основанные на градиентном спуске (например, логистическая регрессия) или на расстояниях (k-ближайших соседей, SVM).
Масштабирование улучшает производительность модели и ускоряет её обучение, предотвращая ситуацию, когда признаки с большими значениями доминируют над другими.
🧑💻 Статьи для IT: как объяснять и распространять значимые идеи
Напоминаем, что у нас есть бесплатный курс для всех, кто хочет научиться интересно писать — о программировании и в целом.
Что: семь модулей, посвященных написанию, редактированию, иллюстрированию и распространению публикаций.
Для кого: для авторов, копирайтеров и просто программистов, которые хотят научиться интересно рассказывать о своих проектах.
👉Материалы регулярно дополняются, обновляются и корректируются. А еще мы отвечаем на все учебные вопросы в комментариях курса.
Напоминаем, что у нас есть бесплатный курс для всех, кто хочет научиться интересно писать — о программировании и в целом.
Что: семь модулей, посвященных написанию, редактированию, иллюстрированию и распространению публикаций.
Для кого: для авторов, копирайтеров и просто программистов, которые хотят научиться интересно рассказывать о своих проектах.
👉Материалы регулярно дополняются, обновляются и корректируются. А еще мы отвечаем на все учебные вопросы в комментариях курса.
Почему CNN, обученная на ImageNet, считается отличным выбором в качестве базовой модели
Существует две основные причины:
✅ Огромное количество изображений в наборе данных ImageNet обеспечивает генерализацию модели CNN для других доменов, таких как гистопатология, которая значительно отличается от исходного домена, на котором модель была изначально обучена (например, изображения кошек и собак).
✅ Обученная на ImageNet CNN создает массив разнообразных визуальных паттернов, так как этот набор данных включает 1 000 различных категорий.
Существует две основные причины:
✅ Огромное количество изображений в наборе данных ImageNet обеспечивает генерализацию модели CNN для других доменов, таких как гистопатология, которая значительно отличается от исходного домена, на котором модель была изначально обучена (например, изображения кошек и собак).
✅ Обученная на ImageNet CNN создает массив разнообразных визуальных паттернов, так как этот набор данных включает 1 000 различных категорий.
Ответ: Верно.
Метод bagging (Bootstrap Aggregating) предполагает случайный выбор K объектов из исходного обучающего набора с заменой, где K равно размеру исходного набора данных.
Это означает, что одни экземпляры могут встречаться несколько раз, а другие могут не попасть в выборку вовсе.
Такой подход позволяет создать несколько различных обучающих подмножеств, что снижает дисперсию модели и повышает её устойчивость.
Forwarded from Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
🗺️ Как стать ИИ-разработчиком в 2025 году: дорожная карта и ресурсы
В 2025 году профессия ИИ-разработчика остается одной из самых востребованных и перспективных.
👀 Как начать свой путь в этой увлекательной, но сложной области?
Мы собрали подробную дорожную карту и полезные ресурсы, которые помогут вам шаг за шагом освоить ключевые навыки и технологии.
В 2025 году профессия ИИ-разработчика остается одной из самых востребованных и перспективных.
👀 Как начать свой путь в этой увлекательной, но сложной области?
Мы собрали подробную дорожную карту и полезные ресурсы, которые помогут вам шаг за шагом освоить ключевые навыки и технологии.
👀 Какие три наиболее часто используемые меры для оптимального разбиения атрибутов в дереве решений
1. Энтропия: позволяет измерить степень неопределённости или «разнородности» данных.
2. Индекс Джини (Gini impurity): оценивает вероятность того, что случайно выбранный элемент будет классифицирован неправильно.
3. Ошибка классификации: простая метрика, показывающая долю неверных классификаций в узле.
Какой метод выбрать
✅ Энтропия и индекс Gini чаще используются, так как они чувствительнее к изменениям в распределении данных.
✅ Ошибка классификации проще, но менее информативна для построения дерева решений.
1. Энтропия: позволяет измерить степень неопределённости или «разнородности» данных.
2. Индекс Джини (Gini impurity): оценивает вероятность того, что случайно выбранный элемент будет классифицирован неправильно.
3. Ошибка классификации: простая метрика, показывающая долю неверных классификаций в узле.
Какой метод выбрать
✅ Энтропия и индекс Gini чаще используются, так как они чувствительнее к изменениям в распределении данных.
✅ Ошибка классификации проще, но менее информативна для построения дерева решений.
Что такое valid convolution в нейросетях
Если при convolution не используется padding, значит, это valid convolution. В этом случае фильтр скользит только по тем позициям, где полностью помещается на входные данные, а выходной тензор получается меньше исходного.
Такой метод экономит вычисления, но «съедает» границы данных. Поэтому иногда используют same convolution, добавляя padding, чтобы сохранить размер.
Если при convolution не используется padding, значит, это valid convolution. В этом случае фильтр скользит только по тем позициям, где полностью помещается на входные данные, а выходной тензор получается меньше исходного.
Такой метод экономит вычисления, но «съедает» границы данных. Поэтому иногда используют same convolution, добавляя padding, чтобы сохранить размер.
Как работает моментум и какую роль играет экспоненциальное затухание в правиле обновления градиентного спуска
✅ Моментум учитывает прошлые градиенты, создавая эффект ускорения за счет скользящего среднего. Это приводит к экспоненциальному затуханию старых градиентов, снижая колебания и стабилизируя обновления весов.
✅ Такой подход ускоряет обучение, помогая модели быстрее сходиться и уменьшая количество эпох, необходимых для достижения оптимума.
✅ Моментум учитывает прошлые градиенты, создавая эффект ускорения за счет скользящего среднего. Это приводит к экспоненциальному затуханию старых градиентов, снижая колебания и стабилизируя обновления весов.
✅ Такой подход ускоряет обучение, помогая модели быстрее сходиться и уменьшая количество эпох, необходимых для достижения оптимума.
➕ Какой ансамблевый метод используется
На изображении показана схема, в которой модели x1, x2...xk называются базовыми обучающими моделями (Base Learners), а над ними находится дополнительный уровень — x3 Generalizer.
Ответ: На изображении показанпервый этап метода Stacking.
✔️ Фаза 0: Несколько базовых моделей (Base Learners) делают предсказания.
✔️ Фаза 1: Генерализатор (Generalizer) обучается на предсказаниях базовых моделей, чтобы улучшить результат.
На изображении показана схема, в которой модели x1, x2...xk называются базовыми обучающими моделями (Base Learners), а над ними находится дополнительный уровень — x3 Generalizer.
Ответ: На изображении показан
Какой метод ансамблирования здесь применяется?
Anonymous Quiz
23%
Bootstrap Aggregation (Bagging)
9%
Snapshot Ensembling
68%
Stacking
📢 Ты уже пробовал пройти AI-собеседование? Если нет, вот ещё одно напоминание от нас 🤗
Сейчас на рынке много вакансий, но как найти ту самую, которая идеально подойдёт тебе по навыкам, условиям и зарплате?
✅ Просто загрузи своё резюме
✅ Пройди интервью с нейро-рекрутером от Сбера (всего 15 минут!)
✅ Получай лучшие предложения без бесконечных звонков и ожидания откликов
💡 Алгоритмы анализируют твой опыт и подбирают вакансии, которые подходят на 98% — так что ты точно не потратишь время зря.
Работа мечты может быть на расстоянии одного клика. Попробуешь? 😉
🔗 https://clc.to/GkOTTA
Сейчас на рынке много вакансий, но как найти ту самую, которая идеально подойдёт тебе по навыкам, условиям и зарплате?
✅ Просто загрузи своё резюме
✅ Пройди интервью с нейро-рекрутером от Сбера (всего 15 минут!)
✅ Получай лучшие предложения без бесконечных звонков и ожидания откликов
💡 Алгоритмы анализируют твой опыт и подбирают вакансии, которые подходят на 98% — так что ты точно не потратишь время зря.
Работа мечты может быть на расстоянии одного клика. Попробуешь? 😉
🔗 https://clc.to/GkOTTA
В чем разница между Grid Search и Random Search в оптимизации гиперпараметров
▪️ Grid Search — метод, при котором пользователь заранее задает набор возможных значений для каждого гиперпараметра. Затем алгоритм перебирает все возможные комбинации этих значений.
✅ Гарантированно находит лучшее значение среди заданных.
🚫 Число комбинаций растет экспоненциально с увеличением числа параметров, что делает метод медленным.
▪️ Random Search — метод, который случайным образом выбирает точки в пространстве гиперпараметров.
✅ Быстрее, так как не нужно проверять все комбинации. Иногда случайный поиск находит лучшие параметры, чем Grid Search.
🚫 Не гарантирует, что будут рассмотрены все возможные хорошие комбинации.
▪️ Grid Search — метод, при котором пользователь заранее задает набор возможных значений для каждого гиперпараметра. Затем алгоритм перебирает все возможные комбинации этих значений.
✅ Гарантированно находит лучшее значение среди заданных.
🚫 Число комбинаций растет экспоненциально с увеличением числа параметров, что делает метод медленным.
▪️ Random Search — метод, который случайным образом выбирает точки в пространстве гиперпараметров.
✅ Быстрее, так как не нужно проверять все комбинации. Иногда случайный поиск находит лучшие параметры, чем Grid Search.
🚫 Не гарантирует, что будут рассмотрены все возможные хорошие комбинации.
Какой метод лучше оценивает неопределенность модели: deep ensembles или Monte-Carlo (MC) dropout
Deep ensembles чаще дают более точную оценку неопределенности, особенно на данных вне распределения (OOD).
Ключевые различия:
✔️ Deep ensembles — обучают несколько независимых моделей и усредняют их предсказания. Это улучшает устойчивость к OOD-данным и повышает точность вероятностных оценок.
✔️ MC-dropout — использует дропаут во время инференса для моделирования неопределенности, что дешевле вычислительно, но менее эффективно в сложных сценариях.
Deep ensembles чаще дают более точную оценку неопределенности, особенно на данных вне распределения (OOD).
Ключевые различия:
✔️ Deep ensembles — обучают несколько независимых моделей и усредняют их предсказания. Это улучшает устойчивость к OOD-данным и повышает точность вероятностных оценок.
✔️ MC-dropout — использует дропаут во время инференса для моделирования неопределенности, что дешевле вычислительно, но менее эффективно в сложных сценариях.
Forwarded from Proglib.academy | IT-курсы
🔥 Какие навыки нужны Data Scientist'у и как их освоить
Чтобы стать успешным Data Scientist и уверенно чувствовать себя на рынке труда, важно владеть широким спектром навыков.
➡️ Что внутри статьи:
▪️ Книги, курсы и статьи, чтобы прокачать каждый навык.
▪️ Бесплатные материалы для быстрого старта.
▪️ Задачи для практики.
🔗 Читать статью
🔵 А чтобы подготовиться к собесам для Data Science, забирайте наш курс «Алгоритмы и структуры данных»
Чтобы стать успешным Data Scientist и уверенно чувствовать себя на рынке труда, важно владеть широким спектром навыков.
▪️ Книги, курсы и статьи, чтобы прокачать каждый навык.
▪️ Бесплатные материалы для быстрого старта.
▪️ Задачи для практики.
Please open Telegram to view this post
VIEW IN TELEGRAM
Swipe right or swipe left
Что делать, если твои мэтчи в жизни не такие точные, как твой код?
Спокойно, 14 февраля в 19:00 по МСК мы разберём, как ML анализирует speed dating и предсказывает match.
📌 Мы возьмем реальные данные со speed dating.
📌 Обучим модель, которая скажет: match или swipe left.
📌 Разберём, какие признаки реально важны (спойлер: работа в IT — не прям гарантия успеха (наши маркетологи подтверждают 😥).
💡 Приходи, если хочешь прокачать свой Python, ML и, возможно, станешь идеальной парой, как самый стильные форсы.
👉 Записаться
Что делать, если твои мэтчи в жизни не такие точные, как твой код?
Спокойно, 14 февраля в 19:00 по МСК мы разберём, как ML анализирует speed dating и предсказывает match.
📌 Мы возьмем реальные данные со speed dating.
📌 Обучим модель, которая скажет: match или swipe left.
📌 Разберём, какие признаки реально важны (спойлер: работа в IT — не прям гарантия успеха (наши маркетологи подтверждают 😥).
💡 Приходи, если хочешь прокачать свой Python, ML и, возможно, станешь идеальной парой, как самый стильные форсы.
👉 Записаться