Khám phá những kiến thức cơ bản về học sâu (DL), từ mạng nơ-ron đến các ứng dụng trí tuệ nhân tạo trong thế giới thực. Tìm hiểu cách thức... Ultralytics YOLO26 đơn giản hóa quá trình đào tạo và triển khai.
Học sâu (Deep learning - DL) là một nhánh chuyên biệt của học máy (Machine learning - ML) mô phỏng cách bộ não con người xử lý thông tin. Trong khi ML truyền thống thường dựa vào việc trích xuất đặc trưng thủ công, học sâu tự động hóa quá trình này bằng cách sử dụng các cấu trúc đa lớp được gọi là mạng nơ-ron nhân tạo (Artificial neural networks - ANN) . Các mạng này bao gồm các lớp các nút, hay nơ-ron, được kết nối với nhau, xử lý dữ liệu theo cấu trúc phân cấp. "Chiều sâu" này cho phép các mô hình học được các mẫu và biểu diễn phức tạp trực tiếp từ các dữ liệu đầu vào thô như hình ảnh, âm thanh và văn bản, khiến chúng trở nên vô cùng mạnh mẽ trong việc giải quyết các vấn đề dữ liệu phi cấu trúc.
Cơ chế cốt lõi của học sâu liên quan đến việc truyền dữ liệu qua nhiều lớp đơn vị xử lý phi tuyến tính. Trong một mạng nơ-ron truyền thẳng tiêu chuẩn, thông tin chảy từ lớp đầu vào, qua một số lớp "ẩn" và cuối cùng đến lớp đầu ra. Trong giai đoạn huấn luyện , mạng điều chỉnh các tham số nội bộ của nó—được gọi là weights and biases —dựa trên sai số của các dự đoán. Việc điều chỉnh này thường được thực hiện bằng cách sử dụng thuật toán tối ưu hóa như thuật toán giảm độ dốc ngẫu nhiên ( SGD ) kết hợp với lan truyền ngược để giảm thiểu tổn thất.
Học sâu (Deep Learning) thể hiện ưu điểm vượt trội khi xử lý lượng dữ liệu khổng lồ. Không giống như các thuật toán đơn giản hơn có thể bị chững lại về hiệu năng, các mô hình học sâu thường tiếp tục cải thiện khi kích thước dữ liệu huấn luyện tăng lên. Khả năng mở rộng này là lý do chính khiến các GPU hiệu năng cao thường được sử dụng để tăng tốc quá trình tính toán nặng nề cần thiết cho việc huấn luyện các kiến trúc khổng lồ này.
Học sâu thường bị nhầm lẫn với học máy, nhưng sự khác biệt nằm ở mức độ can thiệp của con người và độ phức tạp về kiến trúc. Học máy thường yêu cầu dữ liệu có cấu trúc và các đặc trưng do con người thiết kế. Ngược lại, học sâu thực hiện việc trích xuất đặc trưng tự động.
Trong lĩnh vực học sâu, tồn tại một số kiến trúc chuyên biệt để xử lý các loại dữ liệu cụ thể:
Học sâu đã chuyển từ lý thuyết hàn lâm sang cốt lõi của các công nghệ hiện đại. Dưới đây là hai ví dụ cụ thể về tác động của nó:
Các công cụ như PyTorch Và TensorFlow đã dân chủ hóa việc tiếp cận học sâu, nhưng các giao diện cấp cao thậm chí còn giúp việc này dễ dàng hơn. ultralytics Gói phần mềm này cho phép các nhà phát triển tận dụng các kiến trúc hiện đại mà không cần phải thiết kế mạng nơ-ron từ đầu.
Dưới đây là một ví dụ ngắn gọn về việc tải mô hình học sâu đã được huấn luyện trước và chạy suy luận trên một hình ảnh:
from ultralytics import YOLO
# Load a pre-trained YOLO26 model (a Convolutional Neural Network)
model = YOLO("yolo26n.pt")
# Perform object detection on an image
results = model("https://ultralytics.com/images/bus.jpg")
# Display the results to see identified objects and bounding boxes
results[0].show()
Lĩnh vực này đang phát triển nhanh chóng theo hướng các mô hình hiệu quả và mạnh mẽ hơn. Các kỹ thuật như học chuyển giao cho phép người dùng tinh chỉnh các mô hình được huấn luyện trước quy mô lớn trên các tập dữ liệu nhỏ hơn, cụ thể hơn, tiết kiệm đáng kể thời gian và tài nguyên tính toán. Ngoài ra, sự trỗi dậy của trí tuệ nhân tạo tạo sinh (generative AI) chứng minh khả năng của học sâu (DL) trong việc tạo ra nội dung mới, từ hình ảnh chân thực đến mã lập trình.
Đối với các nhóm muốn tối ưu hóa quy trình làm việc, Nền tảng Ultralytics cung cấp một môi trường toàn diện để quản lý vòng đời của các dự án học sâu. Từ việc chú thích dữ liệu cộng tác đến đào tạo và triển khai dựa trên đám mây, các công cụ này giúp thu hẹp khoảng cách giữa nghiên cứu thử nghiệm và các ứng dụng sẵn sàng cho sản xuất. Để hiểu sâu hơn về nền tảng toán học, các tài liệu như cuốn sách MIT Deep Learning Book cung cấp phạm vi lý thuyết chuyên sâu.