Глоссарий

Токенизация

Открой для себя мощь токенизации в NLP и ML! Узнай, как разбиение текста на лексемы улучшает такие задачи ИИ, как анализ настроения и генерация текста.

Обучай модели YOLO просто
с помощью Ultralytics HUB.

Узнай больше

Токенизация - это фундаментальный этап предварительной обработки в искусственном интеллекте (AI) и машинном обучении (ML), особенно важный в обработке естественного языка (NLP). Она включает в себя разбиение последовательностей текста или других данных на более мелкие, управляемые единицы, называемые лексемами. Эти лексемы служат основными строительными блоками, которые алгоритмы используют для понимания и обработки информации, преобразуя исходные данные в формат, пригодный для анализа.

Как работает токенизация

Основная идея, лежащая в основе токенизации, - сегментация. Для текстовых данных это обычно означает разбиение предложений на слова, подслова или даже отдельные символы на основе заранее заданных правил или изученных шаблонов. Например, предложениеUltralytics YOLOv8 is powerful" может быть разбито на фразы: ["Ultralytics", "YOLOv8", "is", "powerful"]. Выбор конкретного метода зависит от задачи и архитектуры модели. К общим методам относятся разделение по пробелам и пунктуации или использование более продвинутых методов, таких как Кодирование пар байтов (BPE) или WordPieceкоторые часто используются в Большие языковые модели (LLM) например, БЕРТ чтобы эффективно работать с большими словарями и неизвестными словами.

Актуальность и применение в реальном мире

Токенизация необходима, потому что большинство ML-моделей требуют числового ввода. Преобразуя текст в дискретные лексемы, мы можем затем сопоставить эти лексемы с числовыми представлениями, такими как вкрапления, что позволяет моделям изучать закономерности и взаимосвязи внутри данных. Этот процесс лежит в основе множества приложений ИИ:

  1. Машинный перевод: Такие сервисы, как Google Translate, токенизируют предложения на исходном языке в лексемы, обрабатывают эти лексемы с помощью сложных нейронных сетей (часто трансформеров), а затем генерируют лексемы на целевом языке, которые в итоге снова собираются в предложения. Точная токенизация гарантирует, что языковые нюансы будут переданы правильно.
  2. Анализ настроения: Чтобы определить настроение отзыва о клиенте вроде "Обслуживание было превосходным!", текст сначала токенизируется (["The", "service", "was", "excellent", "!"]). Каждый жетон Затем он анализируется, часто с помощью вкраплений, что позволяет модели классифицировать общее настроение как позитивное, негативное или нейтральное. Это крайне важно для компаний, анализирующих отзывы клиентов. Узнай больше об анализе настроения.
  3. Модели на языке зрения: Такие модели, как CLIP или Ultralytics YOLO, основаны на токенизации текстовых подсказок, чтобы понять запросы пользователя для таких задач, как обнаружение объектов с нулевого снимка или сегментация изображений. Текстовые лексемы связаны с визуальными характеристиками, полученными из изображений.

Токенизация в компьютерном зрении

Хотя традиционно эта концепция ассоциируется с НЛП, она распространяется и на компьютерное зрение (КВ). В трансформаторах зрения (ViT) изображения делятся на патчи фиксированного размера, которые рассматриваются как "визуальные лексемы". Затем эти лексемы обрабатываются аналогично текстовым лексемам в трансформаторах НЛП, что позволяет моделям понимать пространственные иерархии и контекст внутри изображений.

Преимущества и инструменты

Эффективная токенизация стандартизирует входные данные, упрощает обработку для моделей и помогает управлять размером словаря, особенно при использовании методов подслова. Библиотеки вроде Hugging Face Tokenizers и наборы инструментов вроде NLTK обеспечивают надежные реализации. Платформы вроде Ultralytics HUB часто абстрагируются от сложностей предварительной обработки данных, включая токенизацию, упрощая рабочий процесс для обучения моделей, построенных с помощью таких фреймворков, как PyTorch или TensorFlow. Понимание токенизации - ключ к построению и оптимизации многих современных систем ИИ.

Читать полностью