Thuật ngữ

mềm

Khám phá cách Softmax chuyển đổi điểm số thành xác suất cho các tác vụ phân loại trong AI, thúc đẩy nhận dạng hình ảnh và thành công của NLP.

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Tìm hiểu thêm

Trong học máy, đặc biệt là trong mạng nơ-ron, Softmax là một hàm kích hoạt cơ bản thường được sử dụng trong lớp đầu ra của các mô hình được thiết kế cho các tác vụ phân loại đa lớp. Vai trò chính của nó là chuyển đổi một vectơ điểm đầu ra thô, thường được gọi là logit, thành phân phối xác suất . Phép biến đổi này đảm bảo rằng các giá trị đầu ra không âm và tổng bằng một, cho phép chúng được diễn giải là độ tin cậy hoặc xác suất của mô hình cho mỗi lớp tiềm năng.

Softmax hoạt động như thế nào

Hàm Softmax hoạt động trên một vectơ điểm số có giá trị thực được tạo ra bởi lớp trước đó của mạng nơ-ron. Đầu tiên, nó lũy thừa từng điểm số, làm cho tất cả các giá trị dương. Sau đó, nó chuẩn hóa các điểm số lũy thừa này bằng cách chia từng điểm số cho tổng của tất cả các điểm số lũy thừa trong vectơ. Bước chuẩn hóa này đảm bảo rằng các giá trị đầu ra kết quả cùng nhau tạo thành một phân phối xác suất hợp lệ, trong đó mỗi giá trị biểu thị xác suất của đầu vào thuộc về một lớp cụ thể và tổng của tất cả các xác suất bằng 1. Điều này làm cho đầu ra của mô hình dễ hiểu để đưa ra quyết định.

Ứng dụng của Softmax

Softmax là không thể thiếu trong các tình huống mà đầu vào phải được gán cho một trong nhiều loại loại trừ lẫn nhau. Sau đây là một số ứng dụng nổi bật:

  • Phân loại hình ảnh : Trong các mô hình như Ultralytics YOLO khi được cấu hình để phân loại, Softmax được sử dụng trong lớp cuối cùng để xác định xác suất hình ảnh thuộc về các lớp được xác định trước như 'mèo', 'chó' hoặc 'ô tô'. Ví dụ, với một hình ảnh, đầu ra Softmax có thể là [0,85, 0,10, 0,05] cho các lớp ['chó', 'mèo', 'chim'], biểu thị xác suất 85% rằng hình ảnh chứa một con chó. Khám phá các tập dữ liệu phân loại hình ảnh khác nhau được sử dụng để đào tạo các mô hình như vậy.
  • Xử lý ngôn ngữ tự nhiên (NLP) : Softmax được sử dụng rộng rãi trong các tác vụ NLP. Trong phân tích tình cảm , nó có thể đưa ra xác suất cho các tình cảm như 'tích cực', 'tiêu cực' hoặc 'trung tính'. Trong dịch máy hoặc mô hình hóa ngôn ngữ , nó dự đoán phân phối xác suất trên toàn bộ vốn từ vựng cho từ tiếp theo trong một chuỗi. Các nguồn như Viện Allen về AI (AI2) thường đóng góp vào những tiến bộ trong NLP.

Softmax so với các hàm kích hoạt khác

Điều quan trọng là phải phân biệt Softmax với các hàm kích hoạt khác được sử dụng trong mạng nơ-ron:

  • ReLU (Đơn vị tuyến tính chỉnh lưu) : ReLU và các biến thể của nó (như Leaky ReLU ) chủ yếu được sử dụng trong các lớp ẩn của mạng để đưa vào tính phi tuyến tính, giúp mô hình học các mẫu phức tạp. Chúng không tạo ra phân phối xác suất.
  • Sigmoid : Hàm Sigmoid đưa ra giá trị từ 0 đến 1, thường được hiểu là xác suất. Nó thường được sử dụng cho các bài toán phân loại nhị phân (một nút đầu ra) hoặc các bài toán phân loại đa nhãn (nhiều nút đầu ra, mỗi nút được xử lý độc lập). Không giống như Softmax, đầu ra Sigmoid cho nhiều lớp không nhất thiết phải có tổng bằng 1.
  • Tanh (Hyperbolic Tangent) : Tương tự như Sigmoid nhưng đưa ra các giá trị từ -1 đến 1, Tanh cũng được sử dụng trong các lớp ẩn để tạo ra tính phi tuyến tính.

Vai trò trong Đánh giá mô hình

Các đầu ra xác suất do Softmax tạo ra là rất cần thiết để đánh giá hiệu suất của các mô hình phân loại. Các xác suất này được sử dụng để tính toán các số liệu quan trọng như độ chính xác , độ chính xác, độ thu hồiđiểm F1 . Các số liệu này cung cấp thông tin chi tiết về hiệu suất của mô hình, hướng dẫn các quy trình như điều chỉnh siêu tham sốđánh giá mô hình tổng thể. Các khuôn khổ như PyTorchTensorFlow cung cấp các triển khai hiệu quả của hàm Softmax.

Tóm lại, Softmax là một thành phần quan trọng trong kiến trúc của các mô hình phân loại đa lớp, cho phép các đầu ra xác suất có thể diễn giải được trên nhiều lĩnh vực AI khác nhau, từ thị giác máy tính đến NLP. Để quản lý vòng đời của các mô hình sử dụng Softmax, các nền tảng như Ultralytics HUB cung cấp các công cụ để đào tạo, triển khai và giám sát.

Đọc tất cả