Библиотека собеса по Data Science | вопросы с собеседований 700

Библиотека собеса по Data Science | вопросы с собеседований

Forwarded from Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

📊 ТОП-10 необходимых для специалиста по Big Data навыков

Рассказываем о необходимом наборе технических и карьерных навыков для специалиста по Big Data.

✍️ Big Data — это термин, используемый для обозначения значительного объема как структурированных, так и неструктурированных данных, который слишком велик для обработки традиционными методами.

👉 Читать все подробности в статье

784 views12:02

Библиотека собеса по Data Science | вопросы с собеседований

🤖 Напоминаем, что у нас есть еженедельная email-рассылка, посвященная последним новостям и тенденциям в мире искусственного интеллекта.

В ней:
● Новости о прорывных исследованиях в области машинного обучения и нейросетей
● Материалы о применении ИИ в разных сферах
● Статьи об этических аспектах развития технологий
● Подборки лучших онлайн-курсов и лекций по машинному обучению
● Обзоры инструментов и библиотек для разработки нейронных сетей
● Ссылки на репозитории с открытым исходным кодом ИИ-проектов
● Фильмы, сериалы и книги

👉Подписаться👈

885 views06:00

Библиотека собеса по Data Science | вопросы с собеседований

Как можно оценить модель, предсказывающую показатель кликабельности (click-through rate, CTR), и в оффлайн, и в режиме реального времени?

▪️Оффлайн-оценка

Для оффлайн-оценки модели предсказания CTR часто используется кросс-энтропия. Она позволяет сравнивать предсказанные значения CTR с фактическими результатами кликов. Обычно модель тестируется на отложенном наборе данных, который не участвовал в обучении.

▪️Оценка в реальном времени

В режиме реального времени кросс-энтропия также может рассчитываться, используя данные онлайн-трафика. Этот подход позволяет следить за производительностью модели «на лету» и быстро выявлять её сильные и слабые стороны.

Проблемы при оценке

🔹Селективное смещение
Онлайн-трафик может быть смещён в сторону высоковероятных кликов, что может исказить оценку модели.

🔹Задержка кликов
Клики не всегда происходят мгновенно после показа объявления. Задержка между показом и кликом может повлиять на расчёты метрик.

🔹Утечка данных
Чтобы избежать искажения результатов, важно обеспечить независимость тестовых данных от обучающих. Утечка тестовых данных в обучающие может привести к завышенной оценке качества модели.

#машинное_обучение

949 views12:01

Библиотека собеса по Data Science | вопросы с собеседований

В каких сценариях используются конфигурации «один к одному», «один ко многим» и «многие ко многим» на входных и выходных слоях рекуррентной нейронной сети?

Рекуррентные нейронные сети (RNN) эффективны для работы с последовательностями. Вот основные сценарии:

▪️Один к одному — редко используется для RNN. Такие задачи, как классификация изображений, не требуют обработки последовательностей, поэтому чаще решаются свёрточными сетями (CNN). Но иногда RNN применяются для классификации фиксированных последовательностей.

▪️Один ко многим — применимо в задачах генерации последовательностей на основе одного входа, например, при преобразовании изображения в текст. CNN извлекает признаки изображения, а RNN генерирует описание на выходе.

▪️Многие ко многим — классический пример RNN. Это может быть перевод текста, где входная последовательность на одном языке преобразуется в выходную на другом.

#глубокое_обучение

902 views13:01

Библиотека собеса по Data Science | вопросы с собеседований

Forwarded from Библиотека питониста | Python, Django, Flask

🤖

Обзоры новых ИИ-сервисов и продуктов для разработчиков

👇Это небольшая выдержка из нашей еженедельной рассылки про последние новости и тенденции в мире ИИ.

📰

Новости

🔘Microsoft собирается запатентовать метод, способный радикально снизить или даже полностью устранить галлюцинации LLM. Технология называется RAS («Система улучшения ответов»).

🔘Hugging Face и NVIDIA заключили соглашение о сотрудничестве в области робототехники, главная цель которого — создание открытой экосистемы для разработки роботов с искусственным интеллектом.

🪚 Инструменты

🔘

Midship — извлекает данные из документов любого формата. Похожий инструмент — PandaETL.

🔘

PopPop — бесплатный ИИ-инструмент для удаления вокала из песен и видеоклипов.

🔘

Siter — генерирует интерактивные сайты на основе Figma-дизайнов.

🔦 Как развернуть LLM с помощью vLLM и TorchServe

vLLM — один из самых подходящих движков для простого запуска LLM: он предоставляет команду vllm serve для развертывания на одной машине. Однако для развёртывания в продакшене требуются дополнительные продвинутые функции, которых у него нет. Такие возможности есть у TorchServe. Здесь можно прочесть оригинальный гайд по деплою.

А перевод на русский язык мы сделали в нашей рассылке. Подписаться на неё и получать свежие материалы каждую неделю можно по этой ссылке

👈

Please open Telegram to view this post

VIEW IN TELEGRAM

650 views12:01

Библиотека собеса по Data Science | вопросы с собеседований

Сравните популярные функции активации с точки зрения вычислительной сложности и поведения градиента.

▪️Сигмоидная функция

Преобразует входные значения в диапазон от 0 до 1, что может представлять вероятность положительного класса. Хотя она полезна для бинарной классификации, функция может страдать от проблемы исчезающих градиентов при крайних значениях входных данных, особенно в глубоких сетях. Вычислительная сложность сигмоидной функции относительно высока, так как она включает экспоненциальные вычисления.

▪️Гиперболический тангенс

Преобразует входные значения в диапазон от -1 до 1. Похожа на сигмоидную функцию, но с выходными значениями, центрированными вокруг нуля, что иногда может улучшить сходимость в нейросетях. Однако, как и сигмоидная функция, она также подвержена проблеме исчезающих градиентов в глубоких сетях. Вычислительная сложность также относительно высока из-за использования экспоненциальных вычислений, аналогично сигмоидной функции.

▪️Функция ReLU

Устанавливает отрицательные входные значения в 0 и сохраняет положительные значения. ReLU является вычислительно эффективной и широко используется, так как помогает избежать проблемы исчезающих градиентов. Вычислительная сложность ReLU низкая, так как она представляет собой простое линейное сравнение с нулем, что делает её предпочтительной для многих задач. Однако ReLU может привести к «умиранию нейронов», если слишком много активаций становятся нулевыми и перестают обучаться.

▪️Функция Leaky ReLU

Модифицирует ReLU, вводя небольшой наклон для отрицательных значений, что помогает смягчить проблему «умирающих нейронов». Leaky ReLU поддерживает более широкий диапазон активации и ненулевой градиент для отрицательных значений, способствуя стабильности модели. Вычислительная сложность Leaky ReLU также низкая, аналогично ReLU, поскольку она требует лишь умножения отрицательных значений на небольшой коэффициент, что незначительно увеличивает нагрузку.

#машинное_обучение

847 views12:01

Библиотека собеса по Data Science | вопросы с собеседований

Самые полезные каналы для программистов в одной подборке!

Сохраняйте себе, чтобы не потерять 💾

🔥Для всех

Библиотека программиста — новости, статьи, досуг, фундаментальные темы
Книги для программистов
IT-мемы
Proglib Academy — тут мы рассказываем про обучение и курсы
Азбука айтишника — здесь мы познаем азы из мира программирования

🤖Про нейросети
Библиотека робототехники и беспилотников | Роботы, ИИ, интернет вещей
Библиотека нейрозвука | Транскрибация, синтез речи, ИИ-музыка
Библиотека нейротекста | ChatGPT, Gemini, Bing
Библиотека нейровидео | Sora AI, Runway ML, дипфейки
Библиотека нейрокартинок | Midjourney, DALL-E, Stable Diffusion

#️⃣C#

Книги для шарпистов | C#, .NET, F#
Библиотека шарписта — полезные статьи, новости и обучающие материалы по C#
Библиотека задач по C# — код, квизы и тесты
Библиотека собеса по C# — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Вакансии по C#, .NET, Unity Вакансии по PHP, Symfony, Laravel

☁️DevOps

Библиотека devops’а — полезные статьи, новости и обучающие материалы по DevOps
Вакансии по DevOps & SRE
Библиотека задач по DevOps — код, квизы и тесты
Библиотека собеса по DevOps — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования

🐘PHP

Библиотека пхпшника — полезные статьи, новости и обучающие материалы по PHP
Вакансии по PHP, Symfony, Laravel
Библиотека PHP для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по PHP — код, квизы и тесты

🐍Python

Библиотека питониста — полезные статьи, новости и обучающие материалы по Python
Вакансии по питону, Django, Flask
Библиотека Python для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Python — код, квизы и тесты

☕Java

Книги для джавистов | Java
Библиотека джависта — полезные статьи по Java, новости и обучающие материалы
Библиотека Java для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Java — код, квизы и тесты
Вакансии для java-разработчиков

👾Data Science

Книги для дата сайентистов | Data Science
Библиотека Data Science — полезные статьи, новости и обучающие материалы по Data Science
Библиотека Data Science для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Data Science — код, квизы и тесты
Вакансии по Data Science, анализу данных, аналитике, искусственному интеллекту

🦫Go

Книги для Go разработчиков
Библиотека Go разработчика — полезные статьи, новости и обучающие материалы по Go
Библиотека Go для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Go — код, квизы и тесты
Вакансии по Go

🧠C++

Книги для C/C++ разработчиков
Библиотека C/C++ разработчика — полезные статьи, новости и обучающие материалы по C++
Библиотека C++ для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по C++ — код, квизы и тесты
Вакансии по C++

💻Другие каналы

Библиотека фронтендера
Библиотека мобильного разработчика
Библиотека хакера
Библиотека тестировщика
Библиотека разработчика игр | Gamedev, Unity, Unreal Engine
Вакансии по фронтенду, джаваскрипт, React, Angular, Vue
Вакансии для мобильных разработчиков
Вакансии по QA тестированию
InfoSec Jobs — вакансии по информационной безопасности

📁Чтобы добавить папку с нашими каналами, нажмите 👉сюда👈

Также у нас есть боты:
Бот с IT-вакансиями
Бот с мероприятиями в сфере IT

Мы в других соцсетях:
🔸VK
🔸YouTube
🔸Дзен
🔸Facebook *
🔸Instagram *

* Организация Meta запрещена на территории РФ

797 views06:03

Библиотека собеса по Data Science | вопросы с собеседований

🙌

Хардкорный вышмат для тех, кто интересуется ML, AI, DS

Начать с вводных занятий можно здесь, ответив всего на 4 вопроса – https://proglib.io/w/22ea91ad

Что будет на демо?

🔹Вводный урок от CPO курса;

🔹Лекции со всеми преподавателями МГУ по темам: теория множеств, непрерывность функции, основные формулы комбинаторики, матрицы и операции над ними, градиентный спуск;

🔹Практические задания и дополнительные материалы!

⚡️Переходите и активируйте – https://proglib.io/w/22ea91ad

Please open Telegram to view this post

VIEW IN TELEGRAM

969 views08:04

Библиотека собеса по Data Science | вопросы с собеседований

Forwarded from Proglib.academy | IT-курсы

👨‍🎓📊 Как научиться Data Science онлайн: 12 шагов от новичка до профи

12 шагов для тех, кто хочет с нуля построить карьеру в Data Science. Руководство к действию и россыпь ссылок на полезные ресурсы.

Переходите на нашу статью:
🔗 Ссылка

Забирайте курс по Алгоритмам и стать Data Scientst'ом станет еще проще:

🔵

Алгоритмы и структуры данных

Please open Telegram to view this post

VIEW IN TELEGRAM

772 views12:01

Библиотека собеса по Data Science | вопросы с собеседований

Какова разница между layer normalization и batch normalization?

▪️Layer normalization
Этот метод нормализует входные данные по всем признакам внутри одного образца, и потому не зависит от размера батча. Чаще всего применяется в рекуррентных нейронных сетях (RNN) и трансформерах, где размер последовательностей или батча может варьироваться.

▪️Batch normalization
Нормализует входные данные по каждому признаку с учётом статистик (среднего и дисперсии), вычисленных по всему батчу. Метод зависит от размера батча. Обычно используется в свёрточных нейронных сетях (CNN) и полносвязных слоях для ускорения обучения и стабилизации градиентов.

#машинное_обучение

1.1K views13:00

Библиотека собеса по Data Science | вопросы с собеседований

🥲 Что-то в глаз попало...

1.2K views12:00

Библиотека собеса по Data Science | вопросы с собеседований

Что такое on-policy и off-policy алгоритмы?

Policy в контексте обучения с подкреплением (reinforcement learning) — это некоторое правило для агента, которым он руководствуется, чтобы выбирать действия в зависимости от текущего состояния среды.

Соответственно, on-policy и off-policy алгоритмы отличаются тем, как они взаимодействуют с policy.

▪️ On-policy алгоритмы
Эти алгоритмы обучаются на данных, собранных исключительно с использованием текущей policy, которую они оптимизируют. Ключевая особенность on-policy подхода в том, что он требует свежих данных, собранных с актуальной версии policy.
Пример: Vanilla Policy Gradient (VPG) — базовый алгоритм, который стал основой для более современных on-policy методов, таких как TRPO и PPO.

▪️ Off-policy алгоритмы
Off-policy алгоритмы обучаются на данных, собранных другой policy, которая может быть полностью независимой от текущей. Это позволяет использовать ранее накопленные данные или данные, собранные случайным образом.
Пример: Deep Deterministic Policy Gradient (DDPG), который совместно обучает Q-функцию и policy. Такие методы используют уравнение Беллмана, чтобы вычислять обновления, независимо от того, как были собраны данные.

#машинное_обучение
#глубокое_обучение

992 views12:01

Библиотека собеса по Data Science | вопросы с собеседований

🧑‍💻 Статьи для IT: как объяснять и распространять значимые идеи

Напоминаем, что у нас есть бесплатный курс для всех, кто хочет научиться интересно писать — о программировании и в целом.

Что: семь модулей, посвященных написанию, редактированию, иллюстрированию и распространению публикаций.

Для кого: для авторов, копирайтеров и просто программистов, которые хотят научиться интересно рассказывать о своих проектах.

👉Материалы регулярно дополняются, обновляются и корректируются. А еще мы отвечаем на все учебные вопросы в комментариях курса.

910 views20:02

Библиотека собеса по Data Science | вопросы с собеседований

Почему в Случайном лесе, состоящем из деревьев решений, каждое дерево учит что-то разное?

Случайный лес — это метод, предполагающий распараллеливание процесса обучения. Действительно, каждое дерево в этом ансамбле изучает разные паттерны из данных. Но почему так получается?

1️⃣ Бутстреп

Для обучения каждого дерева используется случайная выборка с возвращением из исходного набора данных. Это значит, что каждое дерево видит немного другой набор данных, содержащий одни и те же объекты, но с разным распределением.

2️⃣ Случайность в выборе признаков

При разбиении каждого узла дерева алгоритм выбирает случайное подмножество признаков для поиска лучшего разделения. Это не позволяет деревьям сильно зависеть от наиболее значимых признаков и делает их более разнообразными.

#машинное_обучение

909 views12:00

Библиотека собеса по Data Science | вопросы с собеседований

Что вы знаете об алгоритме агломеративной кластеризации?

Агломеративная кластеризация — это метод иерархической кластеризации, при котором кластеры постепенно объединяются. Алгоритм начинается с того, что каждый объект рассматривается как отдельный кластер. На каждом шаге объединяются два кластера, для которых метрика объединения показывает максимальное улучшение. Процесс продолжается до тех пор, пока объединение остаётся выгодным по выбранному критерию.

Этот подход часто используется, когда необходимо получить иерархическую структуру кластеров. Преимущество алгоритма заключается в его гибкости: он не требует предположений о количестве кластеров и может работать с любой метрикой сходства.

Однако у метода есть и недостатки: базовая реализация имеет высокую вычислительную сложность, особенно на больших наборах данных. Чтобы снизить сложность, применяются различные оптимизации, например, аддитивные свойства метрик и выборочные пересчёты значений для уменьшения количества операций.

На практике агломеративная кластеризация применяется в задачах, где данные не обязательно находятся в метрическом пространстве, например, при работе с текстами или графами, где сходства между объектами могут быть асимметричными или разреженными.

#машинное_обучение

936 views13:00

Библиотека собеса по Data Science | вопросы с собеседований

❗Вакансии «Библиотеки программиста» — ждем вас в команде!

Мы постоянно растем и развиваемся, поэтому создали отдельную страницу, на которой будут размещены наши актуальные вакансии. Сейчас мы ищем:
👉контент-менеджеров для ведения телеграм-каналов

Подробности тут

Мы предлагаем частичную занятость и полностью удаленный формат работы — можно совмещать с основной и находиться в любом месте🌴

Ждем ваших откликов 👾

job.proglib.io

Вакансии в медиа «Библиотека программиста»‎

Количество проектов в редакции постоянно растет, так что нам всегда нужны специалисты

909 views06:00

Библиотека собеса по Data Science | вопросы с собеседований

Что вы знаете про Sparse Linear Methods (SLIM)?

Sparse Linear Methods (SLIM) — это метод моделирования рекомендаций, который основывается на разреженных линейных моделях. Такие рекомендательные системы учитывают схожесть между элементами на основе линейных отношений в матрице пользователь-объект.

Главная идея SLIM заключается в обучении матрицы весов W, которая описывает взаимосвязь между элементами. Эти веса используются для предсказания пользовательских предпочтений через линейную комбинацию взаимодействий с другими элементами.

К преимуществам SLIM относятся:

▪️Интерпретируемость
Полученные веса позволяют понять, как объекты связаны друг с другом.
▪️Адаптивность
Хорошо справляется как с большим, так и с малым количеством данных.

#машинное_обучение

970 views12:00

2025/02/23 20:36:58
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.bootg.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>