Thuật ngữ

Học sâu (DL)

Khám phá sức mạnh của học sâu: tìm hiểu mạng lưới nơ-ron, kỹ thuật đào tạo và các ứng dụng thực tế trong AI, chăm sóc sức khỏe, v.v.

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Tìm hiểu thêm

Học sâu (DL) là một lĩnh vực chuyên biệt của Học máy (ML) sử dụng Mạng nơ-ron nhân tạo (NN) với nhiều lớp (do đó là "sâu") để học các mẫu phức tạp và biểu diễn phân cấp trực tiếp từ lượng dữ liệu lớn. Lấy cảm hứng từ cấu trúc và chức năng của não người, các kiến trúc sâu này cho phép các mô hình xử lý dữ liệu đầu vào thô, chẳng hạn như hình ảnh hoặc văn bản, và tự động khám phá các tính năng cần thiết cho các tác vụ như phân loại hoặc dự đoán, thường vượt trội hơn các kỹ thuật ML truyền thống về độ phức tạp và quy mô.

Các khái niệm cốt lõi

Ý tưởng cơ bản đằng sau Học sâu là học tính năng phân cấp. Không giống như các phương pháp ML truyền thống thường dựa vào kỹ thuật tính năng thủ công, các mô hình DL học các tính năng phức tạp hơn theo từng lớp. Ví dụ, trong nhận dạng hình ảnh, các lớp ban đầu có thể phát hiện các cạnh đơn giản, các lớp tiếp theo có thể kết hợp các cạnh để nhận dạng hình dạng và các lớp sâu hơn có thể xác định các đối tượng phức tạp. Việc trích xuất tính năng tự động này là một lợi thế quan trọng, đặc biệt là đối với dữ liệu phi cấu trúc. Các thành phần chính bao gồm các hàm kích hoạt, hàm mất mát và các thuật toán tối ưu hóa như giảm dần độ dốc, điều chỉnh các tham số của mạng trong quá trình đào tạo. Bạn có thể tìm hiểu thêm về những điều cơ bản từ các nguồn như bài viết trên Wikipedia về Mạng nơ-ron nhân tạo .

Học sâu so với Học máy

Trong khi Học sâu là một tập hợp con của Học máy (ML) , sự khác biệt chính nằm ở kiến trúc và xử lý dữ liệu. Các thuật toán ML truyền thống thường hoạt động tốt nhất với dữ liệu có cấu trúc, được gắn nhãn và có thể yêu cầu kỹ thuật tính năng đáng kể. Học sâu vượt trội với khối lượng lớn dữ liệu phi cấu trúc (như hình ảnh, âm thanh và văn bản) và tự động học các tính năng có liên quan thông qua cấu trúc nhiều lớp sâu của nó ( Mạng nơ-ron (NN) ). DL thường yêu cầu nhiều dữ liệu và sức mạnh tính toán hơn (thường là GPU ) để đào tạo so với các phương pháp ML truyền thống nhưng có thể đạt hiệu suất cao hơn đối với các tác vụ phức tạp như Thị giác máy tính (CV) và Xử lý ngôn ngữ tự nhiên.

Kiến trúc chính

Một số kiến trúc mạng nơ-ron đóng vai trò trung tâm trong Học sâu:

  • Mạng nơ-ron tích chập (CNN) : Rất hiệu quả đối với dữ liệu dạng lưới, đặc biệt là hình ảnh, được sử dụng rộng rãi trong phân loại hình ảnhphát hiện đối tượng .
  • Mạng nơ-ron hồi quy (RNN) : Được thiết kế cho dữ liệu tuần tự như văn bản hoặc chuỗi thời gian, có khả năng xử lý các đầu vào có độ dài khác nhau. Các biến thể như LSTM và GRU giải quyết các thách thức với chuỗi dài.
  • Transformers : Ban đầu được phát triển cho NLP, các mô hình này sử dụng các cơ chế tự chú ý và đã cho thấy thành công đáng kể trong nhiều lĩnh vực, bao gồm cả thị giác. Khái niệm ban đầu được trình bày chi tiết trong bài báo "Attention Is All You Need" .

Ứng dụng trong thế giới thực

Học sâu hỗ trợ nhiều ứng dụng AI hiện đại:

  1. Hệ thống tự động: Trên xe tự lái , các mô hình DL như Ultralytics YOLO thực hiện phát hiện đối tượngphân đoạn hình ảnh theo thời gian thực, xác định phương tiện, người đi bộ và biển báo đường bộ để hỗ trợ điều hướng.
  2. Chăm sóc sức khỏe: DL đang cách mạng hóa việc phân tích hình ảnh y tế bằng cách hỗ trợ các bác sĩ X quang phát hiện những bất thường nhỏ trong quá trình quét, chẳng hạn như xác định khối u , giúp chẩn đoán sớm hơn và cải thiện kết quả điều trị cho bệnh nhân, như được nêu bật trong các sáng kiến nghiên cứu như chương trình Bridge2AI của NIH .

Công cụ và Khung

Việc phát triển các mô hình DL được hỗ trợ bởi nhiều thư viện phần mềm và nền tảng khác nhau. Các khuôn khổ mã nguồn mở phổ biến bao gồm PyTorch (truy cập trang chủ PyTorch ) và TensorFlow (truy cập trang chủ TensorFlow ). Các nền tảng như Ultralytics HUB cung cấp môi trường tích hợp để đào tạo, triển khai và quản lý các mô hình DL, đặc biệt là cho các tác vụ thị giác máy tính.

Tầm quan trọng trong AI và thị giác máy tính

Học sâu là động lực chính thúc đẩy sự tiến bộ trong Trí tuệ nhân tạo (AI) , đặc biệt là trong Thị giác máy tính (CV) . Khả năng học hỏi từ các tập dữ liệu khổng lồ của nó đã dẫn đến những đột phá trong các lĩnh vực trước đây được coi là thách thức đối với máy móc. Lĩnh vực này nợ rất nhiều cho những người tiên phong như Geoffrey Hinton , Yann LeCunYoshua Bengio . Các tổ chức như DeepLearning.AIHiệp hội vì sự tiến bộ của Trí tuệ nhân tạo (AAAI) tiếp tục thúc đẩy nghiên cứu và giáo dục trong lĩnh vực đang phát triển nhanh chóng này.

Đọc tất cả