Изучите основы больших языковых моделей (LLM). Узнайте об архитектуре Transformer, токенизации и о том, как сочетать LLM с Ultralytics .
Большая языковая модель (LLM) — это сложный тип искусственного интеллекта (ИИ), обученный на огромных наборах данных для понимания, генерации и манипулирования человеческим языком. Эти модели представляют собой значительную эволюцию в области глубокого обучения (DL), используя нейронные сети с миллиардами параметров для захвата сложных лингвистических паттернов, грамматики и семантических отношений. В своей основе большинство современных LLM полагаются на архитектуре Transformer, которая позволяет им обрабатывать последовательности данных параллельно, а не последовательно. Эта архитектура использует механизм самовнимания, позволяющий модели взвешивать важность различных слов в предложении относительно друг друга, независимо от их расстояния в тексте.
Функциональность LLM начинается с токенизации, процесса, при котором исходный текст разбивается на более мелкие единицы, называемые токенами (словами или частями слов). На этапе обучения модели система анализирует петабайты текста из Интернета, книг и статей. Она занимается неконтролируемым обучением, чтобы предсказать следующий токен в последовательности, эффективно изучая статистическую структуру языка.
После этого начального обучения разработчики часто применяют тонкую настройку, чтобы специализировать модель для конкретных задач, таких как медицинский анализ или помощь в кодировании. Именно благодаря этой адаптивности такие организации, как Стэнфордский центр исследований фундаментальных моделей, classify как «фундаментальные модели» — широкие основы, на которых строятся конкретные приложения.
LLM вышли за рамки теоретических исследований и нашли практическое применение в различных отраслях промышленности, где они оказывают значительное влияние:
В то время как стандартные LLM обрабатывают текст, отрасль переходит к мультимодальному ИИ. Следующий пример демонстрирует, как лингвистические подсказки могут контролировать задачи компьютерного зрения с помощью YOLO, модели, которая понимает текстовые дескрипторы для обнаружения открытого словаря.
from ultralytics import YOLOWorld
# Load a model capable of understanding natural language prompts
model = YOLOWorld("yolov8s-world.pt")
# Define custom classes using text descriptions rather than fixed labels
model.set_classes(["person wearing a red helmet", "blue industrial machine"])
# Run inference to detect these specific text-defined objects
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Show results
results[0].show()
Важно отличать LLM от более широких или параллельных терминов:
Несмотря на свои возможности, LLM сталкиваются с проблемами, связанными с предвзятостью ИИ, поскольку они могут непреднамеренно воспроизводить предвзятость, присутствующую в их обучающих данных. Кроме того, огромные вычислительные мощности, необходимые для обучения моделей, таких как GPT-4 или Google , вызывают опасения по поводу энергопотребления. В настоящее время исследования сосредоточены на квантовании моделей, чтобы сделать эти системы достаточно эффективными для работы на периферийном оборудовании.
Для более глубокого технического понимания в оригинальной статье «Внимание — это все, что вам нужно» представлена основополагающая теория трансформаторов. Вы также можете узнать, как NVIDIA оптимизирует аппаратное обеспечение для этих массивных рабочих нагрузок.