Thuật ngữ

GPT-4

Khám phá GPT-4, AI đa phương thức tiên tiến của OpenAI, vượt trội trong các tác vụ văn bản-hình ảnh, lý luận phức tạp và các ứng dụng thực tế như chăm sóc sức khỏe và giáo dục.

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Tìm hiểu thêm

GPT-4 (Generative Pre-trained Transformer 4) là một mô hình đa phương thức lớn do OpenAI tạo ra, đại diện cho bước tiến đáng kể trong lĩnh vực Trí tuệ nhân tạo (AI) . Là phiên bản kế nhiệm của GPT-3 , GPT-4 chứng minh khả năng nâng cao trong việc hiểu và tạo văn bản giống con người , giải quyết các vấn đề phức tạp với khả năng lập luận được cải thiện và thể hiện khả năng sáng tạo lớn hơn. Một điểm khác biệt chính so với các phiên bản trước là GPT-4 là Mô hình đa phương thức , nghĩa là nó có thể chấp nhận cả đầu vào văn bản và hình ảnh , cho phép tương tác phong phú hơn và phạm vi ứng dụng rộng hơn trong Học máy (ML) .

Các khái niệm cốt lõi và kiến trúc

GPT-4, giống như các mô hình khác trong chuỗi GPT , được xây dựng dựa trên kiến trúc Transformer . Kiến trúc này, được giới thiệu trong bài báo có ảnh hưởng "Attention Is All You Need" , phụ thuộc rất nhiều vào các cơ chế tự chú ý . Các cơ chế này cho phép mô hình cân nhắc tầm quan trọng của các từ (hoặc mã thông báo) khác nhau trong chuỗi đầu vào, cho phép mô hình nắm bắt hiệu quả các phụ thuộc và ngữ cảnh tầm xa trong văn bản. GPT-4 được đào tạo bằng cách sử dụng lượng lớn dữ liệu được thu thập từ internet và các nguồn dữ liệu được cấp phép , bao gồm cả văn bản và hình ảnh. Mặc dù các chi tiết cụ thể về quy mô kiến trúc (số lượng tham số) và tập dữ liệu đào tạo chính xác vẫn là độc quyền , Báo cáo kỹ thuật GPT-4 ghi lại hiệu suất được cải thiện đáng kể của mô hình trên nhiều chuẩn mực chuyên môn và học thuật so với các mô hình trước đó. Mô hình này hoạt động như một Mô hình ngôn ngữ lớn (LLM) mạnh mẽ, có khả năng thực hiện nhiều tác vụ liên quan đến ngôn ngữ và thị giác.

Các tính năng chính và cải tiến

GPT-4 giới thiệu một số cải tiến đáng chú ý so với các mô hình như GPT-3:

Ứng dụng trong thế giới thực

GPT-4 hỗ trợ nhiều ứng dụng đa dạng trong nhiều ngành công nghiệp khác nhau, thường được truy cập thông qua API :

GPT-4 trong bối cảnh

Trong khi GPT-4 là một mô hình nền tảng đa năng vượt trội về khả năng hiểu ngôn ngữ, tạo văn bản và diễn giải hình ảnh cơ bản, nó khác biệt đáng kể so với các mô hình chuyên biệt trong các lĩnh vực như Thị giác máy tính (CV) . Ví dụ, các mô hình YOLO Ultralytics , chẳng hạn như YOLOv8 hoặc YOLO11 , được thiết kế riêng bằng cách sử dụng Học sâu (DL) để Phát hiện đối tượng , Phân đoạn hình ảnhPhân đoạn thể hiện chính xác, tốc độ cao trong hình ảnh hoặc video. GPT-4 có thể mô tả những gì có trong hình ảnh (ví dụ: "Có một con mèo trên tấm thảm"), nhưng YOLO các mô hình xác định vị trí của các đối tượng bằng các hộp giới hạn chính xác hoặc mặt nạ cấp độ pixel, khiến chúng phù hợp với các tác vụ thị giác máy tính khác nhau.

Những loại mô hình khác nhau này có thể bổ sung cho nhau rất nhiều trong các hệ thống AI phức tạp. Ví dụ, một YOLO mô hình có thể phát hiện các đối tượng trong luồng video và GPT-4 sau đó có thể tạo mô tả hoặc trả lời các câu hỏi về tương tác giữa các đối tượng được phát hiện đó. Quản lý việc phát triển, đào tạo và triển khai mô hình của các hệ thống kết hợp như vậy có thể được hợp lý hóa bằng các nền tảng như Ultralytics HUB hoặc các công cụ từ cộng đồng như Hugging Face . Đọc thêm về những tiến bộ của AI trên Blog Ultralytics .

Đọc tất cả