Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Data Lake (Hồ Dữ Liệu)

Khám phá cách thức các kho dữ liệu đóng vai trò nền tảng cho Trí tuệ nhân tạo (AI) và Học máy (ML). Tìm hiểu cách tận dụng dữ liệu thô để huấn luyện. Ultralytics YOLO26 và việc tối ưu hóa quy trình làm việc trong lĩnh vực thị giác máy tính.

Hồ dữ liệu (data lake) là một kho lưu trữ tập trung chứa một lượng lớn dữ liệu thô ở định dạng gốc cho đến khi cần sử dụng. Không giống như các hệ thống lưu trữ truyền thống yêu cầu dữ liệu phải được cấu trúc trước khi nhập, hồ dữ liệu chấp nhận dữ liệu "nguyên trạng", bao gồm dữ liệu có cấu trúc (hàng và cột), dữ liệu bán cấu trúc (CSV, nhật ký, XML, JSON), dữ liệu phi cấu trúc (email, tài liệu, PDF) và dữ liệu nhị phân (hình ảnh, âm thanh, video). Tính linh hoạt về kiến ​​trúc này làm cho hồ dữ liệu trở thành nền tảng của các chiến lược Dữ liệu lớn hiện đại, đặc biệt đối với các tổ chức tận dụng Trí tuệ nhân tạo (AI)Học máy (ML) . Bằng cách tách biệt việc thu thập dữ liệu khỏi việc sử dụng dữ liệu, các tổ chức có thể lưu trữ lượng lớn thông tin với chi phí tương đối thấp và tìm ra các câu hỏi phân tích cụ thể sau đó.

Vai trò của kho dữ liệu (Data Lakes) trong trí tuệ nhân tạo và học máy

Trong bối cảnh phát triển trí tuệ nhân tạo (AI), giá trị chính của kho dữ liệu nằm ở khả năng hỗ trợ các quy trình học sâu (Deep Learning - DL) . Các mạng nơ-ron tiên tiến yêu cầu dữ liệu huấn luyện đa dạng và đồ sộ để đạt được độ chính xác cao. Kho dữ liệu đóng vai trò là nơi lưu trữ các tài nguyên thô — chẳng hạn như hàng triệu hình ảnh độ phân giải cao cho thị giác máy tính (Computer Vision - CV) hoặc hàng nghìn giờ âm thanh cho nhận dạng giọng nói — trước khi được xử lý.

Các nhà khoa học dữ liệu sử dụng phương pháp "schema-on-read" trong các kho dữ liệu. Điều này có nghĩa là cấu trúc chỉ được áp dụng cho dữ liệu khi nó được đọc để xử lý, chứ không phải khi nó được ghi vào bộ nhớ. Điều này cho phép tính linh hoạt rất cao; cùng một tập dữ liệu thô có thể được xử lý theo nhiều cách khác nhau cho các nhiệm vụ mô hình dự đoán khác nhau mà không làm thay đổi nguồn gốc ban đầu. Hơn nữa, các kho dữ liệu mạnh mẽ thường tích hợp với các dịch vụ điện toán đám mây như Amazon S3 hoặc Azure Blob Storage , cho phép xử lý song song, có khả năng mở rộng cần thiết để huấn luyện các mô hình phức tạp như YOLO26 .

Hồ dữ liệu so với kho dữ liệu

Mặc dù thường bị nhầm lẫn, data lake khác biệt với data warehouse. Data warehouse lưu trữ dữ liệu trong các bảng có cấu trúc và được tối ưu hóa cho các truy vấn SQL nhanh và báo cáo phân tích kinh doanh. Nó sử dụng "schema-on-write", nghĩa là dữ liệu phải được làm sạch và chuyển đổi thông qua quy trình ETL (Trích xuất, Chuyển đổi, Tải) trước khi được đưa vào hệ thống.

Ngược lại, data lake được tối ưu hóa cho dung lượng lưu trữ và sự đa dạng. Nó hỗ trợ học không giám sát và phân tích khám phá khi mục tiêu có thể chưa được xác định. Ví dụ, data warehouse có thể cho bạn biết số lượng sản phẩm đã bán trong tháng trước, trong khi data lake lưu trữ nhật ký cảm nhận của khách hàng và dữ liệu hình ảnh thô giúp mô hình AI hiểu lý do tại sao họ mua hàng.

Các Ứng dụng Thực tế

Hồ dữ liệu đóng vai trò quan trọng trong nhiều ngành công nghiệp, thúc đẩy ranh giới của tự động hóa:

  • Xe tự lái: Việc phát triển công nghệ tự lái đòi hỏi xử lý hàng petabyte dữ liệu cảm biến. Xe tự lái tạo ra các luồng dữ liệu liên tục gồm đám mây điểm LiDAR , tín hiệu radar và video độ phân giải cao. Một kho dữ liệu lưu trữ các dữ liệu đo từ xa thô này, cho phép các kỹ sư tái hiện các kịch bản thực tế để huấn luyện các mô hình phát hiện đối tượng nhằm nhận diện người đi bộ và chướng ngại vật trong các điều kiện thời tiết khác nhau.
  • Chẩn đoán Y tế: Trong phân tích hình ảnh y tế hiện đại, các bệnh viện hợp nhất lịch sử bệnh án, dữ liệu gen và các tệp hình ảnh (MRI, CT scan) vào một kho dữ liệu an toàn. Sau đó, các nhà nghiên cứu có thể truy cập dữ liệu phi cấu trúc, ẩn danh này để huấn luyện các mô hình phát hiện khối u hoặc dự đoán bệnh tật, thường sử dụng các kỹ thuật phân đoạn để cô lập các vùng quan tâm trong hình ảnh y tế.

Sử dụng Data Lakes với Ultralytics

Khi làm việc với Nền tảng Ultralytics , người dùng thường trích xuất các tập dữ liệu thô từ kho dữ liệu của tổ chức để tạo ra các tập dữ liệu được chú thích phục vụ cho việc huấn luyện. Sau khi các hình ảnh thô được truy xuất và gắn nhãn, chúng có thể được sử dụng để huấn luyện các mô hình hiện đại.

Ví dụ sau đây minh họa cách một nhà phát triển có thể tải một tập dữ liệu cục bộ (mô phỏng việc truy xuất từ ​​kho dữ liệu) để huấn luyện mô hình YOLO26 cho nhiệm vụ phát hiện.

from ultralytics import YOLO

# Load the YOLO26n model (nano version for speed)
model = YOLO("yolo26n.pt")

# Train the model using a dataset configuration file
# In a production pipeline, this data might be streamed or downloaded
# from a cloud-based data lake prior to this step.
results = model.train(data="coco8.yaml", epochs=5, imgsz=640)

# Run inference on a new image to verify performance
predictions = model("https://ultralytics.com/images/bus.jpg")

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay