Глоссарий

CatBoost

Усиль свои проекты по машинному обучению с помощью CatBoost, мощной библиотеки градиентного усиления, которая отлично справляется с категориальными данными и реальными приложениями.

Обучай модели YOLO просто
с помощью Ultralytics HUB.

Узнай больше

CatBoost - это высокопроизводительная библиотека градиентного бустинга с открытым исходным кодом, разработанная компанией Яндекс. Она выделяется в области машинного обучения (ML) своей исключительной обработкой категориальных признаков, устойчивостью к переборщикам и зачастую превосходной точностью при минимальной настройке параметров. Основанная на концепции градиентного бустинга на деревьях решений, CatBoost реализует новые алгоритмы для эффективной обработки категориальных данных, что делает ее популярным выбором для задач, связанных со структурированными или табличными данными.

Основные концепции и техники

CatBoost опирается на фундамент градиентного бустинга- ансамблевой техники, в которой новые модели последовательно добавляются для исправления ошибок, допущенных предыдущими моделями. Ключевые инновации в CatBoost включают:

  • Упорядоченный бустинг: Пермутационный подход к обучению, который помогает бороться со смещением прогноза, вызванным утечкой цели, - общей проблемой стандартных реализаций градиентного бустинга при работе с категориальными признаками. Это способствует лучшему обобщению модели.
  • Обработка категориальных признаков: Вместо того чтобы требовать обширной предварительной обработки, как, например, кодирование в одну точку, CatBoost использует такие техники, как упорядоченная целевая статистика и комбинации категориальных признаков, чтобы преобразовать их в числовое представление во время обучения. Это часто приводит к лучшим результатам и упрощает конвейер предварительной обработки данных.
  • Симметричные деревья: CatBoost обычно использует oblivious decision trees (симметричные деревья) в качестве базовых обучающих, что может привести к более быстрому предсказанию и помочь предотвратить чрезмерную подгонку.

Отличия CatBoost от похожих алгоритмов

CatBoost принадлежит к семейству градиентных повышающих машин (GBM), наряду с такими популярными библиотеками, как XGBoost и LightGBM. Хотя все эти три библиотеки являются мощными алгоритмами для контролируемого обучения на табличных данных, главным отличием CatBoost является его встроенная, сложная обработка категориальных признаков. По сравнению с XGBoost или LightGBM это часто снижает необходимость в ручном проектировании признаков и обширной настройке гиперпараметров, особенно на наборах данных с большим количеством категориальных переменных. Однако важно отметить, что эти алгоритмы отлично работают в основном со структурированными табличными данными. Для задач компьютерного зрения (КВ), таких как классификация изображений или обнаружение объектов, используются специализированные архитектуры вроде конволюционных нейронных сетей (CNN) и модели вроде Ultralytics YOLO обычно используются, часто управляются и обучаются с помощью таких платформ, как Ultralytics HUB.

Применение в реальном мире

CatBoost широко используется в различных отраслях благодаря своей производительности и простоте использования, особенно при работе с разнообразными наборами данных:

  • Обнаружение мошенничества: Финансовые организации используют CatBoost для выявления мошеннических операций, эффективно используя категориальные признаки, такие как типы транзакций, идентификаторы продавцов, местоположение пользователей и информацию об устройствах без сложной предварительной обработки. Подробнее об искусственном интеллекте в финансах.
  • Рекомендательные системы: Платформы электронной коммерции и стриминга используют CatBoost для создания рекомендательных систем. Он эффективно обрабатывает категориальные идентификаторы пользователей и товаров, историю взаимодействия и контекстную информацию, чтобы предсказать предпочтения пользователей или количество кликов.
  • Прогнозирование оттока клиентов: Предприятия используют CatBoost, чтобы предсказать, какие клиенты, скорее всего, перестанут пользоваться их услугами, используя различные категориальные данные, такие как планы подписки, модели использования и демографическая информация.

Инструменты и ресурсы

Библиотека CatBoost предлагает простую интеграцию с популярными рабочими процессами data science, в первую очередь через пакетPython . Она также предоставляет интерфейсы для работы с R и командной строкой. На официальном сайте CatBoost доступна исчерпывающая документация и обучающие материалы, которые помогут пользователям пройти обучение, оценить и развернуть модель.

Читать полностью