Thuật ngữ

Hồ dữ liệu

Khám phá hồ dữ liệu là gì, các tính năng, lợi ích và vai trò của chúng trong AI/ML. Tìm hiểu cách chúng chuyển đổi quản lý và phân tích dữ liệu lớn.

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Tìm hiểu thêm

Data Lake là kho lưu trữ tập trung được thiết kế để lưu trữ lượng lớn dữ liệu thô ở định dạng gốc của nó, mà không áp đặt cấu trúc hoặc lược đồ được xác định trước khi thu thập. Không giống như các cơ sở dữ liệu hoặc kho dữ liệu truyền thống yêu cầu dữ liệu phải được cấu trúc trước khi lưu trữ, Data Lake có thể chứa dữ liệu có cấu trúc (như bảng từ cơ sở dữ liệu quan hệ), dữ liệu bán cấu trúc (như tệp JSON hoặc XML ) và dữ liệu không có cấu trúc (như hình ảnh, video, âm thanh, tài liệu văn bản và nhật ký cảm biến) cạnh nhau. Tính linh hoạt này khiến nó trở thành một tài sản vô giá đối với phân tích dữ liệu hiện đại, đặc biệt là trong các lĩnh vực Trí tuệ nhân tạo (AI)Học máy (ML) , nơi thường yêu cầu các tập dữ liệu đa dạng.

Các khái niệm cốt lõi

Ý tưởng cơ bản đằng sau Data Lake là cung cấp giải pháp lưu trữ hiệu quả về chi phí và có khả năng mở rộng cao cho Big Data . Các đặc điểm chính bao gồm:

  • Schema-on-Read: Không giống như kho dữ liệu (schema-on-write), Data Lakes chỉ áp dụng cấu trúc hoặc schema khi dữ liệu được đọc để phân tích. Điều này cho phép thu thập dữ liệu thô nhanh hơn.
  • Lưu trữ dữ liệu thô: Dữ liệu được lưu trữ ở định dạng gốc, chưa qua xử lý. Điều này bảo toàn mọi chi tiết, có thể hữu ích cho các phân tích không lường trước trong tương lai hoặc đào tạo mô hình ML .
  • Khả năng mở rộng: Thường được xây dựng trên hệ thống tệp phân tán hoặc lưu trữ đám mây như Amazon S3 hoặc Google Cloud Storage , Data Lake có thể dễ dàng mở rộng lên tới petabyte hoặc thậm chí exabyte dữ liệu.
  • Các loại dữ liệu đa dạng: Chứa nhiều định dạng dữ liệu từ nhiều nguồn khác nhau, rất quan trọng đối với phân tích toàn diện trong các lĩnh vực như Thị giác máy tính (CV) . Để biết thêm thông tin, hãy xem tài liệu AWS về Hồ dữ liệu .

Data Lake so với Data Warehouse

Mặc dù cả Data Lake và Data Warehouse đều được sử dụng để lưu trữ lượng dữ liệu lớn, nhưng chúng phục vụ các mục đích khác nhau và xử lý dữ liệu khác nhau.

  • Data Warehouse: Lưu trữ dữ liệu được lọc, có cấu trúc đã được xử lý cho một mục đích cụ thể (schema-on-write). Được tối ưu hóa cho báo cáo thông tin kinh doanh và truy vấn SQL. Hãy nghĩ về nó như một kho chứa nước đóng chai – đã được tinh chế và sẵn sàng để uống. Khám phá các khái niệm Data Warehousing từ IBM để biết thêm chi tiết.
  • Data Lake: Lưu trữ dữ liệu thô ở định dạng gốc (schema-on-read). Lý tưởng cho việc khám phá dữ liệu , khai thác dữ liệu và đào tạo các mô hình Học máy (ML) yêu cầu truy cập vào dữ liệu gốc, chưa qua xử lý. Hãy nghĩ về nó như một hồ nước tự nhiên – nước ở dạng thô từ nhiều nguồn khác nhau. Tiền xử lý dữ liệu diễn ra sau khi truy xuất dữ liệu, được điều chỉnh theo nhiệm vụ phân tích cụ thể.

Sự liên quan trong AI và Học máy

Hồ dữ liệu là nền tảng cho nhiều quy trình làm việc AI và ML, đặc biệt là trong Học sâu (DL) . Khả năng lưu trữ lượng lớn dữ liệu thô, đa dạng là điều cần thiết để đào tạo các mô hình phức tạp. Các nhà khoa học dữ liệu có thể truy cập dữ liệu thô này cho các tác vụ như phân tích khám phá, dọn dẹp dữ liệu , kỹ thuật tính năng và tạo dữ liệu đào tạo chất lượng cao. Ví dụ, các nền tảng như Ultralytics HUB có thể tận dụng các tập dữ liệu (thường được tuyển chọn và quản lý trong hoặc lấy từ Hồ dữ liệu) để đào tạo các mô hình tùy chỉnh như Ultralytics YOLO cho các tác vụ như Phát hiện đối tượng , Phân đoạn hình ảnh hoặc Phân loại hình ảnh . Quá trình này thường liên quan đến việc thu thập dữ liệu và chú thích mở rộng trước khi dữ liệu thậm chí đến hồ.

Ứng dụng trong thế giới thực

Data Lakes cho phép các ứng dụng AI/ML mạnh mẽ bằng cách cung cấp khối lượng và sự đa dạng cần thiết của dữ liệu. Sau đây là hai ví dụ:

  1. Phát triển xe tự hành: Các công ty phát triển xe tự hành thu thập một lượng lớn dữ liệu cảm biến (nguồn cấp dữ liệu camera, đám mây điểm LiDAR, radar, GPS) từ các đội xe thử nghiệm. Dữ liệu thô này được đưa vào Data Lake. Sau đó, các kỹ sư và nhà khoa học dữ liệu sẽ truy cập dữ liệu này để đào tạo và xác thực các mô hình học sâu cho các tác vụ như mô hình phát hiện vật thể để xác định người đi bộ và các phương tiện khác , giữ làn đường và dẫn đường. Hãy xem các công ty như Waymo sử dụng công nghệ như thế nào để có khả năng tự lái.
  2. Xây dựng Hệ thống đề xuất được cá nhân hóa: Các nền tảng thương mại điện tử và dịch vụ phát trực tuyến sử dụng Data Lakes để lưu trữ dữ liệu tương tác đa dạng của người dùng – nhấp chuột, lịch sử xem, hồ sơ mua hàng, hoạt động trên phương tiện truyền thông xã hội và thông tin nhân khẩu học của người dùng. Dữ liệu thô này được xử lý bằng các công cụ như Apache Spark trực tiếp trên Data Lake. Các mô hình học máy sau đó được đào tạo trên dữ liệu đã xử lý này để tạo ra các hệ thống đề xuất được cá nhân hóa, cải thiện sự tương tác và doanh số của người dùng, như được thấy trong các giải pháp bán lẻ do AI điều khiển .

Lợi ích và thách thức

Những lợi ích:

  • Tính linh hoạt: Lưu trữ bất kỳ kiểu dữ liệu nào mà không cần cấu trúc trước.
  • Khả năng mở rộng: Dễ dàng xử lý khối lượng dữ liệu lớn.
  • Hiệu quả về chi phí: Tận dụng các tùy chọn lưu trữ có chi phí thấp.
  • Dân chủ hóa dữ liệu: Giúp nhiều nhóm khác nhau (nhà khoa học dữ liệu, nhà phân tích) có thể truy cập dữ liệu thô.
  • Bảo vệ tương lai: Lưu trữ dữ liệu thô cho các trường hợp sử dụng chưa biết trong tương lai.

Thách thức:

  • Quản trị dữ liệu: Đảm bảo chất lượng dữ liệu, nguồn gốc và kiểm soát quyền truy cập có thể rất phức tạp.
  • Bảo mật: Việc bảo vệ dữ liệu thô nhạy cảm đòi hỏi các biện pháp bảo mật dữ liệuquyền riêng tư dữ liệu mạnh mẽ.
  • Rủi ro ngập lụt dữ liệu: Nếu không có quản lý và siêu dữ liệu phù hợp, Hồ dữ liệu có thể trở nên hỗn loạn và khó sử dụng hiệu quả ("đầm lầy dữ liệu").
  • Độ phức tạp: Yêu cầu các kỹ năng chuyên biệt để quản lý và phân tích. Các hoạt động MLOps hiệu quả là rất quan trọng.

Data Lake cung cấp quy mô và tính linh hoạt cần thiết để xử lý khối lượng và sự đa dạng ngày càng tăng của dữ liệu cần thiết để cung cấp năng lượng cho các giải pháp AI hiện đại. Chúng là thành phần quan trọng của cơ sở hạ tầng dữ liệu hỗ trợ phân tích nâng cao và đổi mới học máy.

Đọc tất cả