📌 Ответы на вопросы с собеседований
1️⃣ В чём разница между следующими методами ансамблирования моделей: стэкинг и бустинг?
Бэггинг (bagging) обучает много моделей независимо друг от друга на разных подвыборках и усредняет результат — он снижает дисперсию (variance), не сильно влияя на смещение (bias).
Бустинг (boosting) обучает модели последовательно, каждая исправляет ошибки предыдущих — он снижаетсмещение (bias), но может увеличить дисперсию, особенно если переобучиться.
2️⃣ В каких случаях увеличение количества данных для обучения не поможет избежать переобучения?
Увеличение количества данных не поможет избежать переобучения, если модель слишком сложная для решаемой задачи — тогда она всё равно может подгонять шум в данных. Также, если новые данные не добавляют разнообразия (например, они из той же выборки и не покрывают новые случаи), переобучение сохранится. Кроме того, если данные остаются с теми же ошибками, увеличение объёма не решит проблему.
3️⃣ Что такое прунинг деревьев? Зачем он нужен, и какие виды есть?
Прунинг (обрезка) деревьев — это удаление лишних ветвей дерева, чтобы уменьшить переобучение и улучшить обобщающую способность модели.
Он нужен, потому что полностью выросшее дерево может подгоняться под шум и детали обучающей выборки.
Виды прунинга:
- Pre-pruning (ранняя остановка) — остановка роста дерева при достижении условий (например, макс. глубина, мин. число объектов в узле).
- Post-pruning (пост-обрезка) — сначала строится полное дерево, потом лишние ветви удаляются на основе кросс-валидации или прироста качества.
Автор: Александр Дубейковский, специалист по ML, ex-Yandex
#собеседование