Khám phá sức mạnh của Logistic Regression cho phân loại nhị phân. Tìm hiểu các ứng dụng, khái niệm chính và sự liên quan của nó trong học máy.
Hồi quy logistic là một thuật toán thống kê cơ bản và Học máy (ML) được sử dụng chủ yếu cho các bài toán phân loại nhị phân, trong đó mục tiêu là dự đoán một trong hai kết quả có thể xảy ra. Mặc dù tên của nó có chứa "hồi quy", nhưng nó là một thuật toán phân loại. Nó hoạt động bằng cách mô hình hóa xác suất mà một đầu vào nhất định thuộc về một danh mục cụ thể, thường đưa ra giá trị từ 0 đến 1. Điều này khiến nó trở thành lựa chọn phổ biến cho các tác vụ yêu cầu kết quả xác suất.
Hồi quy logistic ước tính xác suất của một kết quả nhị phân (như có/không, đúng/sai hoặc 0/1) dựa trên một hoặc nhiều biến độc lập (tính năng). Nó sử dụng một hàm toán học cụ thể, được gọi là hàm sigmoid hoặc hàm logistic, để chuyển đổi một tổ hợp tuyến tính của các tính năng đầu vào thành một điểm xác suất. Điểm này biểu thị khả năng trường hợp thuộc về lớp dương (thường được ký hiệu là 1). Sau đó, ngưỡng quyết định (thường là 0,5) được áp dụng cho xác suất này để gán trường hợp vào một lớp cụ thể. Ví dụ: nếu xác suất dự đoán lớn hơn 0,5, trường hợp được phân loại là lớp 1; nếu không, nó được phân loại là lớp 0. Nó thuộc loại Học có giám sát .
Mặc dù cả Logistic Regression và Linear Regression đều là các kỹ thuật mô hình hóa cơ bản, nhưng chúng phục vụ các mục đích khác nhau. Linear Regression được sử dụng để dự đoán các giá trị liên tục (ví dụ, dự đoán giá nhà), trong khi Logistic Regression được sử dụng để dự đoán các kết quả theo danh mục, cụ thể là xác suất cho các nhiệm vụ phân loại. Đầu ra của Logistic Regression bị giới hạn giữa 0 và 1 thông qua hàm sigmoid, khiến nó phù hợp để ước tính xác suất, không giống như Linear Regression có đầu ra có thể dao động vô hạn.
Trong khi dạng phổ biến nhất là Hồi quy logistic nhị phân (hai lớp kết quả), vẫn có các phần mở rộng:
Hồi quy logistic được sử dụng rộng rãi vì tính đơn giản, dễ hiểu và hiệu quả trên dữ liệu có thể phân tách tuyến tính.
Trong bối cảnh rộng hơn của Trí tuệ nhân tạo (AI) , Hồi quy logistic đóng vai trò là mô hình cơ sở cho các nhiệm vụ phân loại. Các hệ số của nó có thể được diễn giải để hiểu được ảnh hưởng của từng tính năng đến kết quả, góp phần vào khả năng giải thích mô hình. Trong khi các mô hình phức tạp hơn như Mạng nơ-ron (NN) , Máy vectơ hỗ trợ (SVM) hoặc thậm chí các kiến trúc tiên tiến như Ultralytics YOLO để phát hiện đối tượng thường đạt hiệu suất cao hơn trên các tập dữ liệu phức tạp, Hồi quy logistic vẫn có giá trị đối với các vấn đề đơn giản hơn hoặc như một bước đầu tiên trong mô hình dự đoán .
Hiệu suất mô hình thường được đánh giá bằng các số liệu như Độ chính xác , Độ chính xác , Độ thu hồi , Điểm F1 và Diện tích dưới Đường cong ROC (AUC) . Các thư viện như Scikit-learn cung cấp các triển khai mạnh mẽ. Việc hiểu các số liệu hiệu suất YOLO này cũng có thể hữu ích trong bối cảnh ML rộng hơn. Để quản lý và triển khai nhiều mô hình ML khác nhau, các nền tảng như Ultralytics HUB cung cấp các công cụ toàn diện.