Trong lĩnh vực trí tuệ nhân tạo (AI) và học máy (ML) , các thuật toán tối ưu hóa là những phương pháp thiết yếu được sử dụng để tinh chỉnh các mô hình và nâng cao hiệu suất của chúng. Các thuật toán này điều chỉnh các tham số (như weights and biases ) của một mô hình để giảm thiểu hàm mất mát được xác định trước, hàm này đo lường sự khác biệt giữa các dự đoán của mô hình và các giá trị mục tiêu thực tế. Quá trình này là cơ bản để đào tạo các mô hình phức tạp như mạng nơ-ron , cho phép chúng học hiệu quả từ dữ liệu và cải thiện độ chính xác và độ tin cậy của chúng đối với các tác vụ từ nhận dạng hình ảnh đến xử lý ngôn ngữ tự nhiên (NLP) . Hãy nghĩ về nó như việc tinh chỉnh một nhạc cụ để tạo ra âm thanh rõ ràng nhất; các thuật toán tối ưu hóa điều chỉnh mô hình để đưa ra các dự đoán chính xác nhất.
Sự liên quan trong AI và Học máy
Thuật toán tối ưu hóa là động cơ thúc đẩy quá trình học trong hầu hết các mô hình ML, đặc biệt là trong học sâu (DL) . Các mô hình như Mạng nơ-ron tích chập (CNN) và Mạng nơ-ron hồi quy (RNN) phụ thuộc rất nhiều vào các thuật toán này để điều hướng các không gian tham số rộng lớn và tìm các cấu hình mang lại hiệu suất tốt. Nếu không có tối ưu hóa hiệu quả, các mô hình sẽ khó hội tụ thành các giải pháp tối ưu, dẫn đến dự đoán kém và thời gian đào tạo dài hơn. Ví dụ, các mô hình YOLO Ultralytics sử dụng các thuật toán tối ưu hóa phức tạp trong quá trình đào tạo để đạt được độ chính xác cao trong phát hiện đối tượng theo thời gian thực. Các thuật toán này cũng rất quan trọng để đào tạo các mô hình tiên tiến như GPT-4 và các mô hình ngôn ngữ lớn (LLM) khác, cho phép chúng có khả năng ấn tượng. Việc lựa chọn trình tối ưu hóa có thể ảnh hưởng đáng kể đến tốc độ đào tạo và hiệu suất mô hình cuối cùng, như đã thảo luận trong hướng dẫn về mẹo đào tạo mô hình . Khám phá bối cảnh mất mát một cách hiệu quả là chìa khóa để đào tạo mô hình thành công.
Các khái niệm và thuật toán chính
Một số thuật toán tối ưu hóa được sử dụng rộng rãi trong học máy, mỗi thuật toán cung cấp các chiến lược khác nhau để điều hướng bối cảnh mất mát và cập nhật các tham số mô hình. Một số ví dụ phổ biến bao gồm:
- Gradient Descent : Một thuật toán cơ bản lặp đi lặp lại di chuyển các tham số theo hướng ngược lại với gradient của hàm mất mát. Giống như việc cẩn thận đi xuống dốc để tìm điểm thấp nhất. Có nhiều biến thể khác nhau để cải thiện hiệu suất.
- Stochastic Gradient Descent (SGD) : Một biến thể của Gradient Descent cập nhật các tham số chỉ bằng một hoặc một vài ví dụ đào tạo (một lô nhỏ) tại một thời điểm, giúp cập nhật nhanh hơn và có khả năng thoát khỏi các giá trị cực tiểu cục bộ.
- Adam Optimizer : Một thuật toán tối ưu hóa tốc độ học thích ứng tính toán tốc độ học thích ứng riêng lẻ cho các tham số khác nhau từ ước tính mô men thứ nhất và thứ hai của gradient. Nó được biết đến với hiệu quả và được sử dụng rộng rãi trong học sâu. Đọc bài báo gốc của Adam để biết thông tin kỹ thuật.
- RMSprop : Một phương pháp tốc độ học thích ứng khác chia tốc độ học cho một trọng số cho giá trị trung bình đang chạy của các độ lớn của các gradient gần đây cho trọng số đó.
Các trình tối ưu hóa này thường là các tham số có thể cấu hình trong các khuôn khổ ML như PyTorch và TensorFlow , và các nền tảng như Ultralytics HUB , cho phép người dùng lựa chọn trình tối ưu hóa phù hợp nhất với nhiệm vụ và tập dữ liệu cụ thể của họ. Việc lựa chọn trình tối ưu hóa phù hợp là rất quan trọng để đào tạo mô hình hiệu quả.
Ứng dụng trong thế giới thực
Các thuật toán tối ưu hóa đóng vai trò cơ bản cho sự thành công của AI/ML trong nhiều lĩnh vực:
- Chăm sóc sức khỏe: Trong phân tích hình ảnh y tế , các thuật toán tối ưu hóa đào tạo các mô hình để phát hiện các bất thường như khối u hoặc phân loại các loại mô. Ví dụ, khi sử dụng YOLO11 để phát hiện khối u , các thuật toán tối ưu hóa điều chỉnh các tham số của mô hình dựa trên các bản quét y tế được chú thích ( bộ dữ liệu ) để xác định chính xác các vùng ung thư, hỗ trợ các bác sĩ X quang trong chẩn đoán. Khám phá thêm các giải pháp AI trong chăm sóc sức khỏe .
- Xe tự hành: Thuật toán tối ưu hóa là điều cần thiết để đào tạo hệ thống nhận thức của xe tự hành . Chúng tinh chỉnh các mô hình được sử dụng để phát hiện người đi bộ, các phương tiện khác, đèn giao thông và làn đường từ dữ liệu cảm biến (như camera và LiDAR). Các thuật toán như Adam giúp mô hình học nhanh cách xác định các đối tượng với độ chính xác cao, điều này rất quan trọng đối với sự an toàn và điều hướng trong các môi trường phức tạp. Tìm hiểu về AI trong các giải pháp ô tô .
- Tài chính: Các mô hình đào tạo để phát hiện gian lận hoặc dự đoán thị trường chứng khoán phụ thuộc rất nhiều vào việc tối ưu hóa để giảm thiểu lỗi dự đoán dựa trên dữ liệu lịch sử.
- Thương mại điện tử: Hệ thống đề xuất sử dụng tối ưu hóa để tinh chỉnh các thuật toán nhằm dự đoán sở thích của người dùng và đề xuất các sản phẩm có liên quan, tối đa hóa sự tương tác và doanh số.
Thuật toán tối ưu hóa so với các khái niệm liên quan
Điều quan trọng là phải phân biệt các thuật toán tối ưu hóa với các khái niệm ML liên quan:
- Thuật toán tối ưu hóa so với điều chỉnh siêu tham số : Các thuật toán tối ưu hóa (như Ađam hoặc ĐÔ LA SINGAPORE) điều chỉnh tham số nội bộ ( weights and biases ) của mô hình trong lúc quá trình đào tạo để giảm thiểu chức năng mất mát. Mặt khác, điều chỉnh siêu tham số tập trung vào việc tìm kiếm tối ưu thiết lập cấu hình bên ngoài (siêu tham số như tỷ lệ học tập, kích thước lô, hoặc thậm chí là sự lựa chọn thuật toán tối ưu hóa) trước đào tạo bắt đầu. Các công cụ như Ultralytics
Tuner
lớp học tự động điều chỉnh siêu tham số bằng các phương pháp như thuật toán tiến hóa. Đọc Hướng dẫn điều chỉnh siêu tham số để biết thêm chi tiết. - Thuật toán tối ưu hóa so với hàm mất mát : Hàm mất mát định lượng mức độ hiệu quả của mô hình bằng cách đo lỗi giữa dự đoán và giá trị thực tế. Thuật toán tối ưu hóa là cơ chế được sử dụng để điều chỉnh lặp lại các tham số của mô hình nhằm giảm thiểu lỗi định lượng này. Có thể chọn các hàm mất mát khác nhau tùy thuộc vào nhiệm vụ (ví dụ: entropy chéo cho phân loại, lỗi bình phương trung bình cho hồi quy).
- Thuật toán tối ưu hóa so với Kiến trúc mô hình : Kiến trúc mô hình xác định cấu trúc của mạng nơ-ron, bao gồm số lượng và loại lớp (ví dụ: lớp tích chập, lớp bỏ qua ) và cách chúng được kết nối. Thuật toán tối ưu hóa hoạt động trong kiến trúc được xác định trước này để đào tạo các tham số có thể học được ( weights and biases ) liên quan đến các lớp này. Thiết kế kiến trúc và lựa chọn trình tối ưu hóa đều là những bước quan trọng trong việc xây dựng mô hình ML hiệu quả. Tìm kiếm kiến trúc thần kinh (NAS) là một lĩnh vực liên quan tự động hóa thiết kế kiến trúc.