Thuật ngữ

Chức năng kích hoạt

Khám phá vai trò của các hàm kích hoạt trong mạng nơ-ron, các loại hàm này và ứng dụng thực tế trong AI và học máy.

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Tìm hiểu thêm

Các hàm kích hoạt là các thành phần cơ bản trong Mạng nơ-ron (NN) , đóng vai trò quan trọng trong việc cho phép các mạng này học các mẫu phức tạp và đưa ra các dự đoán tinh vi. Lấy cảm hứng từ cách các nơ-ron sinh học hoạt động, một hàm kích hoạt quyết định xem một nơ-ron có nên được kích hoạt hay không bằng cách tính tổng có trọng số của các đầu vào của nó và thêm một độ lệch. Mục đích chính của nó là đưa tính phi tuyến tính vào đầu ra của một nơ-ron, điều này rất cần thiết để các mô hình Học sâu (DL) giải quyết các nhiệm vụ phức tạp ngoài các mối quan hệ tuyến tính đơn giản. Nếu không có các hàm kích hoạt phi tuyến tính, một mạng nơ-ron sâu sẽ hoạt động giống như một mô hình tuyến tính một lớp, hạn chế nghiêm trọng khả năng học của nó.

Tại sao tính phi tuyến tính lại quan trọng

Dữ liệu trong thế giới thực, chẳng hạn như hình ảnh, văn bản và âm thanh, vốn phức tạp và phi tuyến tính. Một mô hình chỉ bao gồm các phép biến đổi tuyến tính không thể nắm bắt hiệu quả các mối quan hệ phức tạp này. Các hàm kích hoạt đưa ra tính phi tuyến tính cần thiết, cho phép các mạng nơ-ron xấp xỉ các hàm phức tạp tùy ý. Khả năng này là nền tảng của Trí tuệ nhân tạo (AI) hiện đại, tạo điều kiện cho các đột phá trong các lĩnh vực như Thị giác máy tính (CV)Xử lý ngôn ngữ tự nhiên (NLP) . Quá trình học tập bao gồm việc điều chỉnh trọng số mạng thông qua các phương pháp như truyền ngượcgiảm dần độ dốc , dựa trên các thuộc tính được đưa ra bởi các hàm này.

Các loại hàm kích hoạt phổ biến

Có nhiều hàm kích hoạt khác nhau, mỗi hàm có những đặc điểm riêng biệt phù hợp với các tình huống khác nhau. Một số loại phổ biến bao gồm:

Chọn đúng chức năng kích hoạt

Việc lựa chọn hàm kích hoạt phụ thuộc vào các yếu tố như loại vấn đề (ví dụ: phân loại, hồi quy), lớp cụ thể (ẩn so với đầu ra), kiến trúc mạng và các đặc điểm hiệu suất mong muốn như độ chính xáctốc độ suy luận . ReLU và các biến thể của nó (Leaky ReLU, SiLU) là những lựa chọn phổ biến cho các lớp ẩn trong CNN do hiệu quả và khả năng giảm thiểu độ dốc biến mất của chúng. Sigmoid và Tanh thường được sử dụng trong Mạng nơ-ron hồi quy (RNN) , trong khi Softmax là tiêu chuẩn cho đầu ra phân loại đa lớp. Thử nghiệm và các kỹ thuật như điều chỉnh siêu tham số thường là cần thiết để tìm ra các hàm kích hoạt tối ưu cho một mô hình và tập dữ liệu cụ thể. Bạn có thể khám phá nhiều mẹo đào tạo mô hình khác nhau để được hướng dẫn.

Ứng dụng trong thế giới thực

Các hàm kích hoạt rất quan trọng trong nhiều ứng dụng AI:

  • Phát hiện đối tượng : Trong các mô hình như YOLO11 , các hàm kích hoạt như SiLU hoặc ReLU được sử dụng trong các lớp tích chập của xương sống để trích xuất các đặc điểm từ hình ảnh (ví dụ: cạnh, kết cấu, hình dạng). Trong đầu phát hiện , các hàm kích hoạt giúp dự đoán xác suất lớp và tinh chỉnh tọa độ của các hộp giới hạn xung quanh các đối tượng được phát hiện. Công nghệ này rất quan trọng trong các lĩnh vực như xe tự hành để xác định người đi bộ và các xe khác, và trong các hệ thống an ninh để giám sát.
  • Nhận dạng giọng nói : Trong các hệ thống chuyển đổi ngôn ngữ nói thành văn bản, thường sử dụng RNN hoặc Transformers, các hàm kích hoạt như Tanh hoặc GELU được sử dụng trong các lớp mạng. Chúng giúp mô hình nắm bắt các phụ thuộc và mẫu thời gian trong tín hiệu âm thanh, cho phép phiên âm chính xác. Điều này hỗ trợ các ứng dụng như trợ lý ảo (ví dụ: Siri, Alexa) và phần mềm đọc chính tả. Tìm hiểu thêm về nhận dạng giọng nói tại các viện nghiên cứu hàng đầu .

So sánh với các thuật ngữ liên quan

Điều quan trọng là phải phân biệt các hàm kích hoạt với các khái niệm khác trong mạng nơ-ron:

  • Hàm mất mát : Hàm mất mát định lượng sự khác biệt giữa các dự đoán của mô hình và các giá trị mục tiêu thực tế ("lỗi"). Mục tiêu của nó là hướng dẫn quá trình đào tạo bằng cách cung cấp thước đo về mức độ hiệu quả của mô hình. Trong khi các hàm kích hoạt xác định đầu ra của nơ-ron trong quá trình truyền tiếp, các hàm mất mát đánh giá đầu ra tổng thể của mô hình vào cuối quá trình truyền để tính toán lỗi được sử dụng để cập nhật trọng số trong quá trình truyền ngược .
  • Thuật toán tối ưu hóa : Các thuật toán này (ví dụ: Adam Optimizer , Stochastic Gradient Descent (SGD) ) xác định cách trọng số của mô hình được cập nhật dựa trên tổn thất được tính toán. Chúng sử dụng các gradient được suy ra từ hàm mất mát để điều chỉnh các tham số và giảm thiểu lỗi. Các hàm kích hoạt ảnh hưởng đến phép tính các gradient này nhưng không phải là phương pháp tối ưu hóa. Xem tổng quan về các thuật toán tối ưu hóa .
  • Kỹ thuật chuẩn hóa : Các phương pháp như Chuẩn hóa theo lô nhằm mục đích ổn định và tăng tốc quá trình đào tạo bằng cách chuẩn hóa các đầu vào thành một lớp (điều chỉnh chúng để có giá trị trung bình bằng không và phương sai đơn vị). Chuẩn hóa diễn ra trước khi hàm kích hoạt được áp dụng cho các đầu vào của lớp đã chuyển đổi, giúp duy trì sự phân phối dữ liệu nhất quán trên toàn bộ mạng. Đọc bài báo Chuẩn hóa theo lô để biết chi tiết.

Hiểu các hàm kích hoạt là điều cần thiết để thiết kế, đào tạo và tối ưu hóa các mô hình Machine Learning (ML) hiệu quả trên nhiều miền khác nhau. Lựa chọn đúng có thể tác động đáng kể đến hiệu suất mô hình và động lực đào tạo. Bạn có thể khám phá các mô hình khác nhau và các thành phần của chúng bằng các công cụ như Ultralytics HUB , giúp xây dựng, đào tạo và triển khai các mô hình AI.

Đọc tất cả