Узнайте, как токены служат основными единицами информации в искусственном интеллекте. Изучите их роль в обработке естественного языка, компьютерном зрении и обнаружении открытого словаря с помощью YOLO26.
В сложной архитектуре современного искусственного интеллекта токен представляет собой фундаментальную атомарную единицу информации, которую обрабатывает модель. Прежде чем алгоритм сможет интерпретировать предложение, проанализировать программный скрипт или распознать объекты на изображении, исходные данные должны быть разбиты на эти дискретные стандартизированные элементы. Эта сегментация является ключевым этапом в предварительной обработке данных, преобразуя неструктурированные входные данные в числовой формат, который нейронные сети могут эффективно обрабатывать. В то время как люди воспринимают язык как непрерывный поток мыслей или изображений в виде цельных визуальных сцен, вычислительные модели требуют этих гранулярных строительных блоков для выполнения таких операций, как распознавание образов и семантический анализ.
Чтобы понять механику машинного обучения, необходимо проводить различие между единицей данных и процессом, используемым для ее создания. Это различие позволяет избежать путаницы при проектировании конвейеров данных и подготовке учебных материалов на Ultralytics .
Характер токена значительно варьируется в зависимости от модальности обрабатываемых данных, особенно между текстовой и визуальной областями.
В области обработки естественного языка (NLP) токены являются входными данными для крупных языковых моделей (LLM). Ранние подходы строго сопоставляли целые слова, но современные архитектуры используют подсловесные алгоритмы, такие как кодирование пар байтов (BPE). Этот метод позволяет моделям обрабатывать редкие слова, разбивая их на значимые слоги, что позволяет сбалансировать размер словарного запаса и семантический охват. Например, слово «unhappiness» может быть токенизировано на «un», «happi» и «ness».
Концепция токенизации распространилась на компьютерное зрение с появлением Vision Transformer (ViT). В отличие от традиционных сверточных сетей, которые обрабатывают пиксели в скользящих окнах, трансформеры делят изображение на сетку фиксированного размера (например, 16x16 пикселей). Каждый фрагмент сглаживается и рассматривается как отдельный визуальный токен. Такой подход позволяет модели использовать механизмы самовнимания для понимания взаимосвязи между удаленными частями изображения, аналогично тому, как Google первоначально применял трансформеры к тексту.
Токены служат мостом между данными человека и искусственным интеллектом в бесчисленных приложениях.
Следующий фрагмент кода демонстрирует, как ultralytics пакет использует текстовые токены для ориентации
обнаружение объектов. В то время как современные
YOLO26 рекомендуется для высокоскоростного вывода фиксированных классов,
архитектура YOLO позволяет пользователям уникальным образом определять классы в виде текстовых токенов во время выполнения.
from ultralytics import YOLO
# Load a pre-trained YOLO-World model capable of understanding text tokens
model = YOLO("yolov8s-world.pt")
# Define specific classes; these text strings are tokenized internally
# The model will look specifically for these "tokens" in the visual data
model.set_classes(["bus", "backpack"])
# Run prediction on an image using the defined tokens
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Display the results showing only the tokenized classes
results[0].show()
Понимание токенов имеет основополагающее значение для ориентации в сфере генеративного ИИ и передовой аналитики. Будь то обеспечение беглой речи чат-бота или помощь системе визуального восприятия в различении тонких классов объектов, токены остаются основной валютой машинного интеллекта, используемой такими фреймворками, как PyTorch и TensorFlow.