Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Nền tảng

Khám phá những nguyên tắc cơ bản về ứng dụng trí tuệ nhân tạo. Tìm hiểu cách kết nối ngôn ngữ tự nhiên với dữ liệu trực quan bằng cách sử dụng Ultralytics YOLO26 và YOLO - Thế giới dành cho việc phát hiện từ vựng mở.

Khái niệm "nền tảng" (grounding) đề cập đến khả năng của một hệ thống trí tuệ nhân tạo trong việc kết nối các khái niệm trừu tượng—thường được rút ra từ ngôn ngữ tự nhiên—với các biểu diễn cụ thể, hữu hình trong thế giới vật lý, chẳng hạn như dữ liệu hình ảnh hoặc đầu vào cảm giác. Trong bối cảnh thị giác máy tính, điều này có nghĩa là một mô hình không chỉ đơn thuần xử lý văn bản; nó có thể phân tích một cụm từ như "một người đang dắt chó đi dạo" và định vị chính xác các thực thể đó trong một hình ảnh hoặc video. Quá trình này thu hẹp khoảng cách giữa lý luận biểu tượng và nhận thức ở cấp độ pixel, giải quyết vấn đề nền tảng biểu tượng cơ bản trong khoa học nhận thức. Bằng cách liên kết các mã ngôn ngữ với các đặc điểm hình ảnh, nền tảng đóng vai trò là nền tảng cho trí tuệ nhân tạo đa phương thức hiện đại, cho phép máy móc tương tác trực quan hơn với môi trường con người năng động.

Cơ chế tiếp địa

Về mặt kỹ thuật, việc liên kết dữ liệu (grounding) bao gồm việc căn chỉnh dữ liệu từ các phương thức khác nhau vào một không gian vectơ đa chiều chung. Các kiến ​​trúc tiên tiến, thường được xây dựng dựa trên khung Transformer được sử dụng trong xử lý ngôn ngữ tự nhiên (NLP) , tạo ra các biểu diễn số được gọi là embedding cho cả mô tả văn bản và đầu vào hình ảnh. Trong quá trình huấn luyện, mô hình học cách giảm thiểu khoảng cách giữa embedding của một lời nhắc văn bản (ví dụ: "ba lô màu xanh") và embedding của vùng hình ảnh tương ứng.

Sự liên kết này cho phép phát hiện từ vựng mở . Không giống như học có giám sát truyền thống, nơi mô hình bị giới hạn trong một tập hợp các danh mục cố định, việc liên kết cho phép học không cần dữ liệu huấn luyện. Một mô hình liên kết có thể xác định các đối tượng mà nó chưa từng thấy rõ ràng trong quá trình huấn luyện, miễn là nó hiểu ngôn ngữ mô tả chúng. Tính linh hoạt này được hỗ trợ bởi các khung học sâu như PyTorch , giúp thực hiện các phép toán ma trận phức tạp cần thiết cho các liên kết đa phương thức này.

Các Ứng dụng Thực tế

Công nghệ tiếp đất đang định hình lại các ngành công nghiệp bằng cách cho phép các hệ thống hiểu được ý định của người dùng và điều hướng hiệu quả trong môi trường không có cấu trúc.

  • Trí tuệ nhân tạo trong robot : Việc xác định vị trí thực tế là rất cần thiết cho các tác nhân tự động thực hiện các chỉ dẫn bằng lời nói. Nếu một robot trong kho được lệnh "lấy kiện hàng trên kệ trên cùng", nó phải xác định vị trí thực tế của các khái niệm "kiện hàng" và "kệ trên cùng" tại các tọa độ 3D cụ thể trong tầm nhìn của nó. Khả năng này là trọng tâm chính của nghiên cứu robot tại MIT CSAIL , cho phép robot hoạt động an toàn bên cạnh con người.
  • Tìm kiếm ngữ nghĩa và truy xuất phương tiện: Công nghệ Grounding hỗ trợ các công cụ tìm kiếm nâng cao, vượt xa việc chỉ khớp từ khóa. Người dùng có thể truy vấn kho lưu trữ video với các mô tả phức tạp như "một người đi xe đạp rẽ trái lúc hoàng hôn", và hệ thống sử dụng Grounding để truy xuất các mốc thời gian cụ thể. Điều này giúp tăng cường đáng kể khả năng hiểu video cho mục đích an ninh và quản lý phương tiện.
  • Công nghệ hỗ trợ: Đối với người dùng khiếm thị, công nghệ định vị cho phép các ứng dụng mô tả môi trường xung quanh trong thời gian thực hoặc trả lời các câu hỏi về môi trường, dựa trên khả năng nhận dạng hình ảnh mạnh mẽ được liên kết với khả năng tạo giọng nói.

Nối đất với Ultralytics YOLO -Thế giới

Cái Ultralytics Hệ sinh thái hỗ trợ việc xây dựng mô hình thông qua các kiến ​​trúc chuyên biệt như YOLO -World . Trong khi các mô hình tiêu chuẩn yêu cầu huấn luyện trên các tập dữ liệu cụ thể, YOLO -World cho phép người dùng định nghĩa ngay lập tức các lớp phát hiện tùy chỉnh bằng cách sử dụng các lời nhắc bằng văn bản. Điều này giúp "áp dụng" ngôn ngữ tự nhiên vào hình ảnh một cách hiệu quả mà không cần huấn luyện lại.

Ví dụ sau đây minh họa cách sử dụng ultralytics đóng gói đến detect các đối tượng dựa trên mô tả văn bản tùy chỉnh:

from ultralytics import YOLO

# Load a pre-trained YOLO-World model for open-vocabulary detection
model = YOLO("yolov8s-world.pt")

# Define custom text prompts (classes) to ground in the image
# The model maps these descriptions to visual features
model.set_classes(["person wearing hat", "blue backpack"])

# Run prediction on an image source to localize the described objects
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Display the results
results[0].show()

Phân biệt nối đất với các khái niệm liên quan

Để hiểu rõ hơn về lợi ích của việc xác định vị trí cơ sở, cần phân biệt nó với các nhiệm vụ thị giác máy tính tương tự:

  • So với Phát hiện đối tượng : Các mô hình phát hiện truyền thống, chẳng hạn như YOLO26 hiện đại, xác định các đối tượng từ một tập hợp các danh mục khép kín, được xác định trước (ví dụ: 80 lớp trong COCO Việc xác định đối tượng dựa trên văn bản tự do được thực hiện theo hình thức mở.
  • So với Chú thích hình ảnh : Chú thích tạo ra một câu mô tả cho toàn bộ hình ảnh (Hình ảnh thành Văn bản). Việc xác định vị trí thường hoạt động theo hướng ngược lại hoặc hai chiều, định vị các yếu tố hình ảnh cụ thể dựa trên văn bản đầu vào (Văn bản thành Vùng hình ảnh).
  • So với Trả lời Câu hỏi Hình ảnh (VQA) : VQA liên quan đến việc trả lời một câu hỏi cụ thể về một hình ảnh (ví dụ: "Chiếc xe màu gì?"). Phương pháp Grounding tập trung cụ thể vào bước xác định vị trí - vẽ một khung bao quanh đối tượng được đề cập.

Thách thức và triển vọng tương lai

Mặc dù đã có những tiến bộ, việc xác định vị trí cơ thể vẫn đòi hỏi nhiều tài nguyên tính toán. Việc đồng bộ các mô hình ngôn ngữ khổng lồ với bộ mã hóa hình ảnh yêu cầu tài nguyên GPU đáng kể và quản lý bộ nhớ hiệu quả, một thách thức thường được giải quyết bởi các nhà đổi mới phần cứng như NVIDIA . Ngoài ra, các mô hình có thể gặp khó khăn với sự mơ hồ về ngôn ngữ, đòi hỏi các cửa sổ ngữ cảnh lớn để xác định xem từ "bat" (con dơi) đề cập đến một dụng cụ thể thao hay một con vật.

Các xu hướng phát triển trong tương lai đang hướng tới các mô hình nền tảng thống nhất, có khả năng đa phương thức ngay từ đầu. Các công cụ như Nền tảng Ultralytics đang được phát triển để giúp các nhà phát triển quản lý các tập dữ liệu phức tạp cần thiết cho các tác vụ này, cung cấp quy trình làm việc được tối ưu hóa cho việc chú thích dữ liệu và triển khai mô hình. Khi các công nghệ này trưởng thành, chúng ta có thể kỳ vọng vào sự tích hợp liền mạch của việc xác định vị trí địa lý vào các thiết bị biên, cho phép các ứng dụng AI thông minh hơn và phản hồi nhanh hơn.

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay