Библиотека собеса по Data Science | вопросы с собеседований 790

Библиотека собеса по Data Science | вопросы с собеседований

Какие метрики для оценки схожести текстов вам известны?

Метрики близости текстов можно условно разделить на два типа: лексические и семантические.

🔹 Лексические
— Сходство Жаккара (Jaccard similarity)
Это простая метрика, которая вычисляется следующим образом: берутся две последовательности A и B, определяются общие элементы, и их количество делится на общее количество элементов в обеих последовательностях.

🔹 Семантические
— Косинусное сходство (cosine similarity)
Эта метрика измеряет косинус угла между двумя векторами, которые представляют тексты в векторном пространстве (часто используется векторизация TF-IDF).
— Евклидово расстояние (euclidean distance)
Измеряет кратчайшее расстояние между двумя точками в евклидовой геометрии. Для этого также требуется предварительная векторизация текстов.

1.1K views18:02

Библиотека собеса по Data Science | вопросы с собеседований

Чем временные ряды отличаются от стандартной задачи регрессии?

Основной принцип причинного прогнозирования заключается в том, что предсказываемое значение зависит от входных переменных (причинных факторов). При прогнозировании временных рядов предполагается, что предсказываемое значение будет подчиняться определенной закономерности во времени.

1.0K views18:02

Библиотека собеса по Data Science | вопросы с собеседований

Готовишься к IT-интервью? Мы с редакцией нашли отличный тренажер, который станет идеальным пост-новогодним подарком для тех, кто хочет прокачать свои навыки!

С ним ты научишься решать сложные задачи, потренируешься в live-coding и узнаешь, какие вопросы задают на реальных собеседованиях. Загружай резюме, тренируйся и получай разбор ответов. Начни год с уверенности в своих силах!

Ссылку оставляем под ещё не убранной ёлочкой: https://t1aicoach.ru

🎄

#ITинтервью #Рекомендации

Please open Telegram to view this post

VIEW IN TELEGRAM

1.0K views15:05

Библиотека собеса по Data Science | вопросы с собеседований

Что такое прунинг (pruning) дерева решений?

Прунинг ещё могут называть усечением или редукцией. Это процесс упрощения структуры уже построенного дерева путём удаления некоторых вершин.

Как правило, удаляются вершины, которые вносят минимальный вклад в точность модели. То есть сначала дерево строится жадно без ограничений, а затем проводится усечение. Необходимо добиться того, чтобы итоговое качество упало не сильно, но дерево начало подходить под условия регуляризации. Качество стоит измерять на отдельной, отложенной выборке.

Для чего это делается? При жадном построении алгоритм часто создаёт дерево, которое полностью учитывает обучающие данные, включая шум. Это может привести к переобучению, когда модель теряет способность хорошо обобщать на новых данных.

1.0K views18:24

Библиотека собеса по Data Science | вопросы с собеседований

🤖 Напоминаем, что у нас есть еженедельная email-рассылка, посвященная последним новостям и тенденциям в мире искусственного интеллекта.

В ней:
● Новости о прорывных исследованиях в области машинного обучения и нейросетей
● Материалы о применении ИИ в разных сферах
● Статьи об этических аспектах развития технологий
● Подборки лучших онлайн-курсов и лекций по машинному обучению
● Обзоры инструментов и библиотек для разработки нейронных сетей
● Ссылки на репозитории с открытым исходным кодом ИИ-проектов
● Фильмы, сериалы и книги

👉Подписаться👈

970 views06:01

Библиотека собеса по Data Science | вопросы с собеседований

Как справиться с проблемой холодного старта в рекомендательных системах?

Проблема холодного старта возникает, когда новая система не располагает достаточным объемом данных о пользователях или товарах.

Например, мы уже умеем делать предсказания для существующих пользователей и продуктов. В этой связи возникают два ключевых вопроса: «Как рекомендовать товар, который еще никто не оценил?» и «Что предложить пользователю, у которого нет ни одной оценки?». Для решения этой задачи важно извлекать информацию из альтернативных источников. Это могут быть данные о пользователе из других платформ, анкеты при регистрации и так далее.

Кроме того, существуют сценарии, в которых проблема холодного старта становится постоянной. Например, в системах рекомендаций на основе сессий необходимо быстро собрать информацию о пользователе в течение его пребывания на сайте. В системах новостных рекомендаций также постоянно появляются новые материалы, в то время как старые быстро теряют актуальность.

1.0K views18:06

Библиотека собеса по Data Science | вопросы с собеседований

Forwarded from Proglib.academy | IT-курсы

🤖 Машинное обучение для начинающих: основные понятия, задачи и сфера применения

Читайте в нашей статье детальное описание основных принципов, понятий и разновидностей машинного обучения.

➡️

Статья

Забирайте курс по машинному обучению и прокачивайтесь:

🔵

Базовые модели ML и приложения

Please open Telegram to view this post

VIEW IN TELEGRAM

724 views18:05

Библиотека собеса по Data Science | вопросы с собеседований

В чём разница между обнаружением объектов (object detection) и сегментацией изображения?

И то, и другое — задачи компьютерного зрения, которые предполагают анализ и понимание содержания изображений. Однако разница между ними есть.

▪️Обнаружение объектов.

Цель заключается в идентификации и локализации объектов и представлении их в виде ограничивающих рамок с соответствующими метками. Используется, например, в бесплотных автомобилях для обнаружения пешеходов и транспортных средств.

▪️Сегментация изображений.

Здесь цель — разделить изображение на несколько областей, или сегментов. Обеспечивает постановку меток на уровне пикселей для всего изображения. Используется в задачах, требующих анализа на уровне пикселей, таких как диагностика по медицинским изображениям.

996 views18:11

Библиотека собеса по Data Science | вопросы с собеседований

❓ Что такое компромисс между bias и variance

Ответ:

Высокий bias возникает, когда модель слишком проста (мало параметров). Она упрощает данные, что приводит к большим систематическим ошибкам и плохой точности. Однако такая модель имеет низкий variance, то есть остаётся устойчивой к изменениям данных.

Высокий variance встречается в сложных моделях (много параметров), которые слишком точно подстраиваются под обучающие данные. Это снижает систематические ошибки (низкий bias), но делает модель чувствительной к шуму и новым данным, что ведёт к переобучению.

👉 Баланс между bias и variance — ключ к созданию модели, которая не переобучается и не упрощает данные слишком сильно.

993 views18:02

Библиотека собеса по Data Science | вопросы с собеседований

🧑‍💻 Статьи для IT: как объяснять и распространять значимые идеи

Напоминаем, что у нас есть бесплатный курс для всех, кто хочет научиться интересно писать — о программировании и в целом.

Что: семь модулей, посвященных написанию, редактированию, иллюстрированию и распространению публикаций.

Для кого: для авторов, копирайтеров и просто программистов, которые хотят научиться интересно рассказывать о своих проектах.

👉Материалы регулярно дополняются, обновляются и корректируются. А еще мы отвечаем на все учебные вопросы в комментариях курса.

909 views20:02

Библиотека собеса по Data Science | вопросы с собеседований

❓ Как бороться с проклятием размерности

Проклятие размерности возникает, когда у вас слишком много признаков (размерностей) в данных, что усложняет их анализ и моделирование. Вот как с этим справиться:

1️⃣ Выбор признаков
Отбор только наиболее значимых признаков для вашей модели.
Как помогает: Уменьшает шум и сложность, удаляя нерелевантные или избыточные признаки.

2️⃣ Анализ главных компонент (PCA)
Метод, который преобразует данные с высокой размерностью в данные с меньшей размерностью.
Как помогает: Сжимает данные, сохраняя как можно больше информации.

3️⃣ Многомерное масштабирование
Метод визуализации сходства или различия данных в низких размерностях.
Как помогает: Помогает понять отношения между точками данных в более интерпретируемом виде.

4️⃣ Локально-линейные эмбеддинги (LLE)
Нелинейная техника уменьшения размерности, сохраняющая локальные взаимосвязи между точками данных.
Как помогает: Лучше сохраняет структуру данных, чем линейные методы, особенно для сложных данных.

882 views18:01

Библиотека собеса по Data Science | вопросы с собеседований

Самые полезные каналы для программистов в одной подборке!

Сохраняйте себе, чтобы не потерять 💾

🔥Для всех

Библиотека программиста — новости, статьи, досуг, фундаментальные темы
Книги для программистов
IT-мемы
Proglib Academy — тут мы рассказываем про обучение и курсы
Азбука айтишника — здесь мы познаем азы из мира программирования

🤖Про нейросети
Библиотека робототехники и беспилотников | Роботы, ИИ, интернет вещей
Библиотека нейрозвука | Транскрибация, синтез речи, ИИ-музыка
Библиотека нейротекста | ChatGPT, Gemini, Bing
Библиотека нейровидео | Sora AI, Runway ML, дипфейки
Библиотека нейрокартинок | Midjourney, DALL-E, Stable Diffusion

#️⃣C#

Книги для шарпистов | C#, .NET, F#
Библиотека шарписта — полезные статьи, новости и обучающие материалы по C#
Библиотека задач по C# — код, квизы и тесты
Библиотека собеса по C# — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Вакансии по C#, .NET, Unity Вакансии по PHP, Symfony, Laravel

☁️DevOps

Библиотека devops’а — полезные статьи, новости и обучающие материалы по DevOps
Вакансии по DevOps & SRE
Библиотека задач по DevOps — код, квизы и тесты
Библиотека собеса по DevOps — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования

🐘PHP

Библиотека пхпшника — полезные статьи, новости и обучающие материалы по PHP
Вакансии по PHP, Symfony, Laravel
Библиотека PHP для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по PHP — код, квизы и тесты

🐍Python

Библиотека питониста — полезные статьи, новости и обучающие материалы по Python
Вакансии по питону, Django, Flask
Библиотека Python для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Python — код, квизы и тесты

☕Java

Книги для джавистов | Java
Библиотека джависта — полезные статьи по Java, новости и обучающие материалы
Библиотека Java для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Java — код, квизы и тесты
Вакансии для java-разработчиков

👾Data Science

Книги для дата сайентистов | Data Science
Библиотека Data Science — полезные статьи, новости и обучающие материалы по Data Science
Библиотека Data Science для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Data Science — код, квизы и тесты
Вакансии по Data Science, анализу данных, аналитике, искусственному интеллекту

🦫Go

Книги для Go разработчиков
Библиотека Go разработчика — полезные статьи, новости и обучающие материалы по Go
Библиотека Go для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Go — код, квизы и тесты
Вакансии по Go

🧠C++

Книги для C/C++ разработчиков
Библиотека C/C++ разработчика — полезные статьи, новости и обучающие материалы по C++
Библиотека C++ для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по C++ — код, квизы и тесты
Вакансии по C++

💻Другие каналы

Библиотека фронтендера
Библиотека мобильного разработчика
Библиотека хакера
Библиотека тестировщика
Библиотека разработчика игр | Gamedev, Unity, Unreal Engine
Вакансии по фронтенду, джаваскрипт, React, Angular, Vue
Вакансии для мобильных разработчиков
Вакансии по QA тестированию
InfoSec Jobs — вакансии по информационной безопасности

📁Чтобы добавить папку с нашими каналами, нажмите 👉сюда👈

Также у нас есть боты:
Бот с IT-вакансиями
Бот с мероприятиями в сфере IT

Мы в других соцсетях:
🔸VK
🔸YouTube
🔸Дзен
🔸Facebook *
🔸Instagram *

* Организация Meta запрещена на территории РФ

873 views06:02

Библиотека собеса по Data Science | вопросы с собеседований

❓ Что такое регуляризация, зачем она нужна и какие есть методы

Регуляризация — это метод, который предотвращает переобучение модели, ограничивая её способность к запоминанию избыточно сложных или гибких зависимостей в данных. Это помогает моделям лучше обобщать новые данные.

🔧 Основные методы регуляризации
Ridge-регрессия (L2-норма):
Добавляет штраф за большие значения коэффициентов. Ridge уменьшает значения коэффициентов, делая их близкими к нулю, но не равными нулю.
🟢 Преимущество: уменьшает сложность модели.
🔴 Недостаток: модель остаётся сложной, так как все признаки остаются в финальной версии.

Lasso-регрессия (L1-норма):
Добавляет штраф за абсолютное значение коэффициентов. Lasso может занулять коэффициенты совсем, исключая неважные признаки.
🟢 Преимущество: выполняет отбор признаков и создаёт более простые модели.
🔴 Недостаток: может игнорировать слабые, но полезные признаки.

941 views18:03

Библиотека собеса по Data Science | вопросы с собеседований

Forwarded from Библиотека питониста | Python, Django, Flask

🐍🃏 Как написать пасьянс на Python

Пасьянс «Косынка» — одна из самых популярных карточных игр.

👍 В этой статье мы разберем, как реализовать «Косынку» с использованием библиотеки Tkinter: детально рассмотрим логику игры, настройки интерфейса, а также визуализацию и обработку перемещений карт.

🤓 Статья

#игрынаPython

646 views13:56

Библиотека собеса по Data Science | вопросы с собеседований

В чем разница между ошибкой первого рода (Type I) и ошибкой второго рода (Type II)

🔴 Ошибка первого рода (Type I): Модель ошибочно классифицирует объект как положительный, хотя на самом деле он относится к отрицательному классу. Например, алгоритм распознавания спама пометил обычное письмо как спам.
🔵 Ошибка второго рода (Type II): Модель не распознает объект положительного класса и относит его к отрицательному. Например, спам-письмо не было обнаружено и осталось в папке «Входящие».

💡 Простая метафора:
🔴 Ошибка первого рода — сказать мужчине, что он беременен.
🔵 Ошибка второго рода — сказать беременной женщине, что она не ждет ребенка.

⚙️ Почему это важно
Баланс между этими ошибками критичен в задачах классификации, таких как медицинская диагностика или обнаружение мошенничества. Метрики (например, точность, полнота, F1-мера) помогают определить, какой тип ошибки важнее минимизировать в зависимости от задачи.

982 views18:03

Библиотека собеса по Data Science | вопросы с собеседований

🔍 Разница между LDA и PCA для уменьшения размерности

LDA (Линейный дискриминантный анализ) и PCA (Метод главных компонент) — это линейные техники преобразования для уменьшения размерности, но у них разные цели и методы работы:

🧑‍🏫 LDA — это контролируемая техника, которая учитывает метки классов при преобразовании. LDA стремится найти подпространство признаков, которое максимально разделяет классы.
🔄 PCA — это бесконтрольная техника, которая игнорирует метки классов. PCA ищет направления максимальной дисперсии в данных, не учитывая, к какому классу принадлежит объект.

📊 Применение:
- LDA используется для улучшения разделимости классов в задачах классификации.
- PCA используется для уменьшения размерности и улучшения вычислительной эффективности.

986 views18:08

Библиотека собеса по Data Science | вопросы с собеседований

Forwarded from Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🐜 Как создавать ИИ-агентов, которые реально работают: опыт Anthropic

В лабораториях Anthropic в 2025 году создают новое поколение ИИ-агентов. Они не просто следуют командам — они принимают решения.

🤖 Как написать работающего ИИ-агента? Делимся практическими советами от команды, создавшей Claude.

👉 Статья

#агентыИИ #Claude

707 views09:29

Библиотека собеса по Data Science | вопросы с собеседований

🚀 Реализуйте Non-Maximum Suppression (NMS) максимально эффективно

NMS — это техника, используемая для устранения нескольких детекций одного и того же объекта на изображении.

1. Чтобы решить эту задачу, нужно сначала отсортировать детекции по их оценкам (O(N log N)). 2. Начинаем с детекции с наивысшей оценкой и удаляем те детекции, чье перекрытие (метрика IoU) с текущей детекцией больше заданного порога (O(N^2)).

⚙️ Для оптимизации этого решения можно использовать специальные структуры данных, такие как R-дерево или KD-дерево, для быстрого поиска пересекающихся детекций (O(N log N)).

919 views18:04

Библиотека собеса по Data Science | вопросы с собеседований

Что такое методы выбора признаков и какие они бывают

Существует два основных метода для выбора признаков: фильтровые и обертки.

1. Фильтровые методы:
🔹 Линейный дискриминантный анализ (LDA)
🔹 ANOVA (дисперсионный анализ)
🔹 Хи-квадрат

Эти методы направлены на выбор признаков на основе статистических тестов, таких как анализ различий между группами данных.

2. Методы обертки:
🔸 Прямой отбор (Forward Selection): тестируем каждый признак по очереди и добавляем их до тех пор, пока не получим хорошую модель.
🔸 Обратный отбор (Backward Selection): начинаем с всех признаков и последовательно исключаем их, чтобы найти оптимальный набор.
🔸 Рекурсивное исключение признаков (Recursive Feature Elimination): анализирует взаимодействие признаков и исключает наименее важные.

Методы обертки требуют больше вычислительных ресурсов, так как они предполагают многократные прогоны модели с разными наборами признаков.

877 views18:02

Библиотека собеса по Data Science | вопросы с собеседований

Forwarded from Proglib.academy | IT-курсы

📊 Что такое большие данные, как их классифицируют и какими характеристиками обладают

Рассказываем об основных терминах, методах и инструментах, которые используются при анализе больших данных.

🔗 Читать статью

🔵 А чтобы еще больше погрузиться в Big Data, забирайте наш курс «Базовые модели ML и приложения»

Please open Telegram to view this post

VIEW IN TELEGRAM

679 views19:15

2025/07/05 02:55:04
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.bootg.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>