Thuật ngữ

mềm

Khám phá sức mạnh của hàm Softmax trong học máy! Tìm hiểu cách hàm này chuyển đổi logit thành xác suất cho các tác vụ phân loại đa lớp.

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Tìm hiểu thêm

Hàm Softmax là một phép toán thường được sử dụng trong học máy và học sâu để chuyển đổi đầu ra mô hình thô (logits) thành xác suất. Nó đặc biệt phổ biến trong các tác vụ phân loại nhiều lớp, trong đó mục tiêu là gán một đầu vào duy nhất cho một trong nhiều loại. Bằng cách chuyển đổi logits thành phân phối xác suất, Softmax đảm bảo rằng các đầu ra trên tất cả các lớp có tổng bằng 1, khiến chúng có thể diễn giải thành xác suất.

Softmax hoạt động như thế nào

Softmax lấy một vectơ điểm thô (logit) từ lớp đầu ra của mạng nơ-ron và chia tỷ lệ chúng thành phạm vi [0, 1]. Phép biến đổi này khuếch đại sự khác biệt giữa các logit, giúp dễ dàng xác định lớp có khả năng xảy ra nhất. Xác suất kết quả chỉ ra khả năng xảy ra tương đối của từng lớp.

Ví dụ, hãy xem xét một mạng nơ-ron được đào tạo để phân loại hình ảnh động vật thành ba loại: mèo, chó và chim. Nếu logit đầu ra của mạng là [2.0, 1.0, 0.1], Softmax sẽ chuyển đổi những thứ này thành các xác suất như [0.65, 0.24, 0.11], cho thấy mức độ tin cậy cao nhất ở lớp "mèo".

Ứng dụng của Softmax

Phân loại nhiều lớp

Softmax là hàm kích hoạt chuẩn được sử dụng trong lớp đầu ra của mạng nơ-ron cho các tác vụ phân loại đa lớp. Ví dụ, trong phân loại hình ảnh , các mô hình như Ultralytics YOLO sử dụng Softmax để xác định nhãn có khả năng nhất cho một hình ảnh. Tìm hiểu thêm về vai trò của nó trong nhận dạng hình ảnh .

Xử lý ngôn ngữ tự nhiên (NLP)

Trong các tác vụ NLP như phân loại văn bản hoặc mô hình hóa ngôn ngữ , Softmax đóng vai trò quan trọng trong việc dự đoán phân phối xác suất của các từ tiếp theo có thể có hoặc nhãn lớp. Các mô hình như GPT-3 và GPT-4 tận dụng Softmax trong các lớp đầu ra của chúng để tạo văn bản mạch lạc. Khám phá cách các Mô hình ngôn ngữ lớn (LLM) sử dụng chức năng này cho các ứng dụng nâng cao.

Cơ chế chú ý

Softmax cũng được sử dụng trong các cơ chế chú ý để tính toán trọng số chú ý. Các trọng số này giúp các mô hình tập trung vào các phần cụ thể của dữ liệu đầu vào, cải thiện hiệu suất trong các tác vụ như dịch máy và chú thích hình ảnh.

Ví dụ thực tế

Phân tích hình ảnh y tế

Trong phân tích hình ảnh y tế , Softmax được sử dụng để phân loại các bản quét y tế thành các loại như "khối u" hoặc "không phải khối u". Ví dụ, các mô hình như Ultralytics YOLO có thể sử dụng Softmax để nâng cao khả năng ra quyết định trong các ứng dụng như phát hiện khối u .

Xe tự hành

Trong xe tự hành , Softmax được áp dụng để phân loại các đối tượng được phát hiện (ví dụ: người đi bộ, xe cộ, biển báo giao thông) và hỗ trợ ra quyết định để điều hướng an toàn. Ví dụ, Ultralytics YOLO Khung có thể kết hợp Softmax cho các nhiệm vụ phát hiện đối tượng trong hệ thống tự lái.

Sự khác biệt chính: Softmax so với Sigmoid

Mặc dù cả Softmax và Sigmoid đều là hàm kích hoạt nhưng chúng phục vụ các mục đích khác nhau:

  • Softmax được sử dụng để phân loại nhiều lớp, tạo ra xác suất cho nhiều lớp có tổng bằng 1.
  • Sigmoid chủ yếu được sử dụng để phân loại nhị phân, ánh xạ logit thành xác suất cho một lớp duy nhất.

Đối với các tác vụ liên quan đến nhiều nhãn độc lập (phân loại nhiều nhãn), kích hoạt Sigmoid thường được ưu tiên hơn Softmax.

Những hạn chế và thách thức

Softmax đôi khi có thể dẫn đến các vấn đề như "quá tự tin", khi mô hình gán xác suất rất cao cho một lớp cụ thể, ngay cả khi không chắc chắn. Các kỹ thuật như làm mịn nhãn có thể giảm thiểu điều này bằng cách giảm quá mức và khuyến khích khái quát hóa tốt hơn.

Ngoài ra, Softmax cho rằng các lớp loại trừ lẫn nhau. Trong trường hợp giả định này không đúng, các phương pháp tiếp cận thay thế hoặc hàm kích hoạt có thể phù hợp hơn.

Các khái niệm liên quan

  • Hàm mất mát : Softmax thường được ghép nối với hàm mất mát entropy chéo để tối ưu hóa các mô hình phân loại.
  • Truyền ngược : Thuật toán đào tạo này tính toán độ dốc cho đầu ra Softmax, cho phép mô hình học hiệu quả.
  • Mạng nơ-ron : Softmax là thành phần cốt lõi của nhiều kiến trúc mạng nơ-ron, đặc biệt là trong bối cảnh nhiệm vụ phân loại.

Softmax là nền tảng của các ứng dụng AI và máy học hiện đại, cho phép các mô hình diễn giải và đưa ra xác suất một cách hiệu quả. Từ chăm sóc sức khỏe đến các hệ thống tự động, tính linh hoạt và đơn giản của nó khiến nó trở thành một công cụ quan trọng để thúc đẩy các hệ thống thông minh. Để khám phá thêm về việc xây dựng và triển khai các mô hình AI, hãy truy cập Ultralytics HUB và bắt đầu hành trình của bạn ngay hôm nay.

Đọc tất cả