Thuật ngữ

Hình chữ S

Khám phá sức mạnh của hàm Sigmoid trong AI. Tìm hiểu cách nó cho phép phi tuyến tính, hỗ trợ phân loại nhị phân và thúc đẩy sự tiến bộ của ML!

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Tìm hiểu thêm

Hàm Sigmoid là một hàm kích hoạt được sử dụng rộng rãi trong học máy (ML)học sâu (DL) . Nó được đặc trưng bởi đường cong hình chữ "S", về mặt toán học được gọi là đường cong sigmoid. Vai trò chính của hàm Sigmoid là lấy bất kỳ số có giá trị thực nào làm đầu vào và nén nó thành một giá trị đầu ra giữa 0 và 1. Thuộc tính này làm cho nó đặc biệt hữu ích để chuyển đổi đầu ra của mô hình thành điểm xác suất, biểu thị khả năng xảy ra của một kết quả cụ thể hoặc thành viên lớp.

Sigmoid hoạt động như thế nào

Hàm Sigmoid ánh xạ các giá trị đầu vào vào phạm vi (0, 1). Các giá trị đầu vào dương lớn dẫn đến đầu ra gần bằng 1, các giá trị đầu vào âm lớn dẫn đến đầu ra gần bằng 0 và đầu vào bằng 0 dẫn đến đầu ra là 0,5. Phép biến đổi này mượt mà và có thể phân biệt được, nghĩa là chúng ta có thể tính toán độ dốc của nó tại bất kỳ điểm nào. Khả năng phân biệt này rất quan trọng đối với việc đào tạo mạng nơ-ron (NN) bằng các thuật toán tối ưu hóa như gradient descent , dựa vào độ dốc được tính toán trong quá trình truyền ngược để cập nhật trọng số mô hình.

Ứng dụng trong Học máy

Các hàm Sigmoid có một số ứng dụng quan trọng trong ML:

  1. Phân loại nhị phân: Trong các bài toán phân loại nhị phân (trong đó đầu ra là một trong hai lớp, ví dụ, có/không, thư rác/không phải thư rác), hàm Sigmoid thường được sử dụng trong lớp đầu ra cuối cùng của mô hình, chẳng hạn như Hồi quy logistic hoặc mạng nơ-ron. Giá trị đầu ra giữa 0 và 1 được diễn giải là xác suất đầu vào thuộc về lớp dương. Sau đó, ngưỡng (thường là 0,5) được áp dụng để đưa ra quyết định phân loại cuối cùng.
  2. Phân loại đa nhãn: Không giống như phân loại đa lớp trong đó mỗi đầu vào chỉ thuộc về một lớp (thường được Softmax xử lý), phân loại đa nhãn cho phép một đầu vào thuộc về nhiều lớp cùng một lúc. Sigmoid có thể được áp dụng độc lập cho mỗi neuron đầu ra, đưa ra xác suất nhãn cụ thể đó có mặt.
  3. Cơ chế Gating: Các hàm Sigmoid là các thành phần cơ bản trong cơ chế gating của các mạng nơ-ron hồi quy như LSTM (Bộ nhớ dài hạn ngắn hạn)GRU (Đơn vị hồi quy có cổng) . Các cổng này kiểm soát luồng thông tin, quyết định thông tin nào sẽ giữ lại hoặc loại bỏ, và phạm vi đầu ra 0-1 của Sigmoid tự nhiên biểu thị mức độ "mở" hoặc "đóng" của một cổng.
  4. Độ tin cậy phát hiện đối tượng: Trong một số mô hình phát hiện đối tượng , như các phiên bản trước của Ultralytics YOLO , các hàm Sigmoid (hoặc các hàm logistic tương tự) được sử dụng trong lớp đầu ra để dự đoán điểm tin cậy – xác suất một đối tượng có mặt trong hộp giới hạn được đề xuất và độ chính xác của hộp. Bạn có thể khám phá nhiều YOLO các mô hình trong phần Mô hình Ultralytics .

Ví dụ thực tế

  • Xác suất chẩn đoán y khoa: Một mô hình được đào tạo trên dữ liệu bệnh nhân có thể sử dụng lớp đầu ra Sigmoid để dự đoán xác suất (từ 0 đến 1) rằng bệnh nhân mắc một tình trạng cụ thể dựa trên các triệu chứng và kết quả xét nghiệm của họ. Điều này hỗ trợ bác sĩ trong việc ra quyết định. Xem cách AI được sử dụng trong phân tích hình ảnh y khoacác giải pháp AI rộng hơn trong chăm sóc sức khỏe .
  • Phân tích tình cảm: Khi xác định xem một đoạn văn bản (như bài đánh giá sản phẩm) thể hiện tình cảm tích cực hay tiêu cực, hàm Sigmoid có thể đưa ra xác suất tình cảm là tích cực. Khám phá thêm về phân tích tình cảm .

So sánh với các hàm kích hoạt khác

Mặc dù có ý nghĩa lịch sử, Sigmoid thường bị thay thế bằng các hàm kích hoạt khác trong các lớp ẩn của mạng sâu do một số hạn chế nhất định.

  • Sigmoid so với ReLU (Đơn vị tuyến tính chỉnh lưu) : ReLU (và các biến thể của nó như ReLU rò rỉ ) thường được ưa chuộng trong các lớp ẩn vì nó không gặp phải vấn đề về độ dốc biến mất nghiêm trọng như Sigmoid đối với các đầu vào dương và rẻ hơn về mặt tính toán. Tuy nhiên, đầu ra của ReLU nằm trong khoảng từ 0 đến vô cực, khiến nó không phù hợp để đưa ra xác suất trực tiếp.
  • Sigmoid so với Tanh (Tăng Hyperbolic) : Tanh cũng có hình chữ S nhưng ánh xạ đầu vào vào phạm vi (-1, 1). Đầu ra của nó có tâm là số không, đôi khi có thể dẫn đến sự hội tụ nhanh hơn trong quá trình đào tạo so với đầu ra không có tâm là số không của Sigmoid (0 đến 1). Tuy nhiên, Tanh cũng gặp phải vấn đề về độ dốc biến mất.
  • Sigmoid so với Softmax : Softmax được sử dụng cho các vấn đề phân loại đa lớp. Nó lấy một vectơ điểm và chuyển đổi thành phân phối xác suất trong đó tất cả các xác suất đầu ra có tổng bằng 1. Ngược lại, Sigmoid xử lý từng nơ-ron đầu ra một cách độc lập, phù hợp với các tác vụ nhị phân hoặc đa nhãn trong đó đầu ra không cần tổng bằng 1. Các khuôn khổ như PyTorch cung cấp các triển khai cho tất cả các hàm kích hoạt phổ biến này.

Hạn chế

  1. Độ dốc biến mất: Đối với các giá trị đầu vào rất cao hoặc rất thấp, độ dốc của hàm Sigmoid trở nên cực kỳ nhỏ (gần bằng không). Trong quá trình truyền ngược trong các mạng sâu, các độ dốc nhỏ này có thể được nhân với nhau nhiều lần, khiến độ dốc cho các lớp ban đầu trở nên nhỏ đến mức biến mất. Điều này ngăn chặn hiệu quả các trọng số trong các lớp đó được cập nhật, cản trở quá trình học.
  2. Đầu ra không có tâm số 0: Đầu ra của Sigmoid luôn nằm giữa 0 và 1, nghĩa là không có tâm số 0. Điều này có thể làm chậm quá trình hội tụ của gradient descent, vì các bản cập nhật trọng số có xu hướng di chuyển liên tục theo hướng dương hoặc âm đối với tất cả các trọng số trong một lớp.
  3. Chi phí tính toán: So với ReLU, hàm mũ liên quan đến phép tính Sigmoid tốn kém hơn về mặt tính toán.

Bất chấp những hạn chế này, hàm Sigmoid vẫn là một công cụ có giá trị, đặc biệt là đối với các lớp đầu ra trong các tác vụ phân loại nhị phân và trong các kiến trúc cụ thể như LSTM và GRU. Bạn có thể quản lý và đào tạo các mô hình bằng nhiều hàm kích hoạt khác nhau trên các nền tảng như Ultralytics HUB .

Đọc tất cả