Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Hiểu Ngôn ngữ Tự nhiên (NLU)

Khám phá khả năng hiểu ngôn ngữ tự nhiên (NLU) và cách nó giúp máy móc diễn giải ý định và cảm xúc. Học cách kết nối ngôn ngữ con người với trí tuệ nhân tạo thị giác.

Hiểu ngôn ngữ tự nhiên (NLU) là một nhánh chuyên biệt của Trí tuệ nhân tạo (AI) tập trung vào khả năng đọc hiểu và diễn giải ngôn ngữ của con người bởi máy móc. Trong khi các công nghệ rộng hơn cho phép máy tính xử lý dữ liệu văn bản, NLU đặc biệt cho phép các hệ thống nắm bắt ý nghĩa, ý định và cảm xúc đằng sau các từ ngữ, điều hướng sự phức tạp của ngữ pháp, tiếng lóng và ngữ cảnh. Bằng cách tận dụng các kiến ​​trúc Học sâu (DL) tiên tiến, NLU chuyển đổi văn bản không cấu trúc thành logic có cấu trúc, có thể đọc được bởi máy tính, đóng vai trò là cầu nối giữa giao tiếp của con người và hành động tính toán.

Các cơ chế cốt lõi của NLU

Để hiểu ngôn ngữ, các thuật toán NLU phân tích văn bản thành các thành phần và xem xét mối quan hệ giữa chúng. Quá trình này bao gồm một số khái niệm ngôn ngữ học quan trọng:

  • Tokenization : Bước cơ bản trong đó văn bản thô được phân đoạn thành các đơn vị nhỏ hơn, chẳng hạn như từ hoặc từ con. Điều này chuẩn bị dữ liệu để biểu diễn bằng số trong mạng nơ-ron.
  • Nhận dạng thực thể được đặt tên (NER) : Các mô hình NLU xác định các thực thể cụ thể trong câu, chẳng hạn như người, địa điểm, ngày tháng hoặc tổ chức. Ví dụ, trong cụm từ "Đặt vé máy bay đến London", "London" được trích xuất như một thực thể địa điểm.
  • Phân loại ý định: Đây là một chức năng quan trọng đối với các hệ thống tương tác, giúp xác định mục tiêu của người dùng. Phân loại ý định phân tích một cụm từ như "Mạng internet của tôi bị lỗi" để hiểu rằng người dùng đang báo cáo một sự cố kỹ thuật chứ không phải đang hỏi một câu hỏi chung chung.
  • Phân tích ngữ nghĩa: Vượt xa những từ khóa đơn giản, quy trình này đánh giá ý nghĩa của cấu trúc câu. Các nhà nghiên cứu tại Nhóm Xử lý Ngôn ngữ Tự nhiên (NLP) của Đại học Stanford từ lâu đã tiên phong trong các phương pháp phân biệt nghĩa của từ dựa trên ngữ cảnh, đảm bảo rằng từ "bank" được hiểu chính xác là một tổ chức tài chính hoặc một bờ sông tùy thuộc vào văn bản xung quanh.

Luật học quốc gia so với các ngành liên quan

Điều cần thiết là phải phân biệt NLU với các lĩnh vực có liên quan mật thiết trong lĩnh vực khoa học máy tính :

  • Xử lý ngôn ngữ tự nhiên (NLP) : NLP là thuật ngữ bao quát bao gồm cả hiểu ngôn ngữ tự nhiên (NLU). Trong khi NLP bao gồm toàn bộ quy trình xử lý dữ liệu ngôn ngữ—bao gồm dịch thuật và phân tích cú pháp đơn giản—thì NLU chỉ tập trung vào khía cạnh hiểu ngôn ngữ . Một nhánh khác, tạo ngôn ngữ tự nhiên (NLG) , xử lý việc tạo ra các phản hồi văn bản mới.
  • Thị giác máy tính (CV) : Theo truyền thống, CV xử lý dữ liệu hình ảnh trong khi xử lý ngôn ngữ tự nhiên (NLU) xử lý văn bản. Tuy nhiên, các mô hình đa phương thức hiện đại kết hợp hai lĩnh vực này. NLU phân tích một lời nhắc văn bản (ví dụ: "tìm chiếc xe màu đỏ"), và CV thực hiện tìm kiếm hình ảnh dựa trên sự hiểu biết đó.
  • Nhận dạng giọng nói : Còn được gọi là chuyển đổi giọng nói thành văn bản, công nghệ này chuyển đổi tín hiệu âm thanh thành văn bản. Xử lý ngôn ngữ tự nhiên (NLU) chỉ hoạt động sau khi giọng nói đã được chuyển đổi thành văn bản để diễn giải nội dung đã nói.

Các Ứng dụng Thực tế

Công nghệ xử lý ngôn ngữ tự nhiên (NLU) là nền tảng của nhiều hệ thống thông minh mà doanh nghiệp và người tiêu dùng sử dụng hàng ngày.

  1. Hỗ trợ khách hàng thông minh: Các chatbot hiện đại sử dụng NLU để giải quyết các yêu cầu hỗ trợ mà không cần sự can thiệp của con người. Bằng cách sử dụng phân tích cảm xúc , các trợ lý ảo này có thể... detect Sự thất vọng thể hiện trong tin nhắn của khách hàng sẽ tự động được chuyển tiếp đến người quản lý.
  2. Công cụ tìm kiếm ngữ nghĩa: Không giống như tìm kiếm từ khóa truyền thống, các công cụ dựa trên xử lý ngôn ngữ tự nhiên (NLU) hiểu ngữ cảnh của truy vấn. Các tổ chức sử dụng tìm kiếm ngữ nghĩa để cho phép nhân viên truy vấn cơ sở dữ liệu nội bộ bằng các câu hỏi tự nhiên như "Cho tôi xem báo cáo bán hàng quý 4 năm ngoái", cho ra các tài liệu chính xác thay vì một danh sách các tệp có liên quan lỏng lẻo.
  3. Tích hợp Ngôn ngữ-Hình ảnh: Trong lĩnh vực trí tuệ nhân tạo thị giác, NLU cho phép " Phát hiện đối tượng với từ vựng mở". Thay vì bị giới hạn bởi các danh mục cố định (như 80 lớp trong các bộ dữ liệu tiêu chuẩn), các mô hình như YOLO -World sử dụng NLU để hiểu các lời nhắc văn bản tùy chỉnh và định vị các đối tượng đó trong hình ảnh.

Ví dụ mã: Phát hiện đối tượng dựa trên xử lý ngôn ngữ tự nhiên (NLU)

Ví dụ sau đây minh họa cách các khái niệm NLU được tích hợp vào quy trình làm việc của thị giác máy tính bằng cách sử dụng... ultralytics gói. Ở đây, chúng tôi sử dụng một mô hình kết hợp bộ mã hóa văn bản (NLU) với hệ thống xử lý hình ảnh để detect Các đối tượng được định nghĩa hoàn toàn bằng mô tả ngôn ngữ tự nhiên.

from ultralytics import YOLOWorld

# Load a model capable of vision-language understanding
# This model uses NLU to interpret text prompts
model = YOLOWorld("yolov8s-world.pt")

# Define custom classes using natural language descriptions
# The NLU component parses "person in red shirt" to guide detection
model.set_classes(["person in red shirt", "blue bus"])

# Run inference on an image
results = model.predict("city_street.jpg")

# Display the results
results[0].show()

Công cụ và xu hướng tương lai

Việc phát triển NLU (Giải mã ngôn ngữ tự nhiên) dựa trên các khung phần mềm mạnh mẽ. Các thư viện như PyTorch cung cấp... tensor Các thao tác cần thiết để xây dựng mô hình học sâu, trong khi spaCy cung cấp các công cụ mạnh mẽ dành cho xử lý ngôn ngữ.

Nhìn về phía trước, ngành công nghiệp đang hướng tới các hệ thống đa phương thức thống nhất. Nền tảng Ultralytics đơn giản hóa quá trình phát triển này, cung cấp một môi trường toàn diện để quản lý tập dữ liệu, chú thích hình ảnh và huấn luyện các mô hình có thể được triển khai ở biên. Trong khi các Mô hình Ngôn ngữ Lớn (LLM) xử lý các suy luận phức tạp, việc tích hợp chúng với các mô hình thị giác tốc độ cao như YOLO26 tạo ra các tác nhân mạnh mẽ có khả năng nhìn, hiểu và tương tác với thế giới trong thời gian thực. Sự kết hợp này đại diện cho bước tiến tiếp theo trong các ứng dụng Học máy (ML) .

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay