Kiểm tra màu xanh lá cây
Liên kết được sao chép vào khay nhớ tạm

Google PaliGemma 2: Thông tin chi tiết về các mô hình VLM tiên tiến

Hãy tham gia cùng chúng tôi khi chúng tôi xem xét kỹ hơn Google Mô hình ngôn ngữ thị giác mới của: PaliGemma 2. Các mô hình này có thể giúp hiểu và phân tích cả hình ảnh và văn bản.

Ngày 5 tháng 12 năm 2024, Google giới thiệu PaliGemma 2, phiên bản mới nhất của mô hình ngôn ngữ thị giác (VLM) tiên tiến. PaliGemma 2 được thiết kế để xử lý các tác vụ kết hợp hình ảnh và văn bản, chẳng hạn như tạo chú thích, trả lời các câu hỏi trực quan và phát hiện đối tượng trong hình ảnh. 

Xây dựng trên PaliGemma ban đầu, vốn đã là một công cụ mạnh mẽ cho chú thích đa ngôn ngữ và nhận dạng đối tượng, PaliGemma 2 mang đến một số cải tiến quan trọng. Bao gồm kích thước mô hình lớn hơn, hỗ trợ hình ảnh có độ phân giải cao hơn và hiệu suất tốt hơn trên các tác vụ trực quan phức tạp. Những nâng cấp này làm cho nó thậm chí còn linh hoạt và hiệu quả hơn cho nhiều mục đích sử dụng.

Trong bài viết này, chúng ta sẽ xem xét kỹ hơn về PaliGemma 2, bao gồm cách thức hoạt động, các tính năng chính và các ứng dụng mà nó nổi bật. Hãy bắt đầu nào!

Từ Gemma 2 đến PaliGemma 2

PaliGemma 2 được xây dựng trên hai công nghệ chính: bộ mã hóa tầm nhìn SigLIP và mô hình ngôn ngữ Gemma 2. Bộ mã hóa SigLIP xử lý dữ liệu trực quan , như hình ảnh hoặc video, và chia nhỏ dữ liệu thành các tính năng mà mô hình có thể phân tích. Trong khi đó, Gemma 2 xử lý văn bản, cho phép mô hình hiểu và tạo ngôn ngữ đa ngôn ngữ. Cùng nhau, chúng tạo thành VLM, được thiết kế để diễn giải và kết nối thông tin trực quan và văn bản một cách liền mạch.

Điều khiến PaliGemma 2 trở thành bước tiến lớn là khả năng mở rộng và tính linh hoạt của nó. Không giống như phiên bản gốc, PaliGemma 2 có ba kích cỡ - 3 tỷ (3B), 10 tỷ (10B) và 28 tỷ (28B) tham số. Các tham số này giống như các thiết lập bên trong của mô hình, giúp nó học và xử lý dữ liệu hiệu quả. Nó cũng hỗ trợ các độ phân giải hình ảnh khác nhau (ví dụ: 224 x 224 pixel cho các tác vụ nhanh và 896 x 896 cho phân tích chi tiết), giúp nó có thể thích ứng với nhiều ứng dụng khác nhau.

Hình 1. Tổng quan về PaliGemma 2.

Việc tích hợp các khả năng ngôn ngữ tiên tiến của Gemma 2 với khả năng xử lý hình ảnh của SigLIP khiến PaliGemma 2 thông minh hơn đáng kể. Nó có thể xử lý các tác vụ như:

  • Thêm chú thích cho hình ảnh hoặc video : Mô hình có thể tạo mô tả văn bản chi tiết về hình ảnh, hữu ích cho việc tự động tạo chú thích.
  • Trả lời câu hỏi trực quan: PaliGemma 2 có thể trả lời các câu hỏi dựa trên hình ảnh, chẳng hạn như xác định đồ vật, người hoặc hành động trong một cảnh.
  • Nhận dạng đối tượng : Nhận dạng và dán nhãn các đối tượng trong hình ảnh, chẳng hạn như phân biệt giữa một con mèo, một cái bàn hoặc một chiếc ô tô trong ảnh.

PaliGemma 2 không chỉ xử lý hình ảnh và văn bản riêng biệt - mà còn kết hợp chúng lại với nhau theo những cách có ý nghĩa. Ví dụ, nó có thể hiểu được mối quan hệ trong một cảnh, như nhận ra rằng "Con mèo đang ngồi trên bàn" hoặc xác định các đối tượng trong khi thêm ngữ cảnh, như nhận ra một địa danh nổi tiếng. 

Làm sao Google Các mô hình VLM PaliGemma 2 của 's hoạt động

Tiếp theo, chúng ta sẽ xem xét một ví dụ sử dụng biểu đồ được hiển thị trong hình ảnh bên dưới để hiểu rõ hơn về cách PaliGemma 2 xử lý dữ liệu trực quan và văn bản. Giả sử bạn tải biểu đồ này lên và hỏi mô hình, "Biểu đồ này biểu diễn cái gì?"

Hình 2. Một ví dụ về khả năng của PaliGemma 2.

Quá trình này bắt đầu với bộ mã hóa thị giác SigLIP của PaliGemma 2 để phân tích hình ảnh và trích xuất các tính năng chính . Đối với đồ thị, điều này bao gồm việc xác định các yếu tố như trục, điểm dữ liệu và nhãn. Bộ mã hóa được đào tạo để nắm bắt cả các mẫu chung và các chi tiết nhỏ. Nó cũng sử dụng nhận dạng ký tự quang học (OCR) để phát hiện và xử lý bất kỳ văn bản nào được nhúng trong hình ảnh. Các tính năng trực quan này được chuyển đổi thành các mã thông báo, là các biểu diễn số mà mô hình có thể xử lý. Sau đó, các mã thông báo này được điều chỉnh bằng cách sử dụng lớp chiếu tuyến tính, một kỹ thuật đảm bảo chúng có thể được kết hợp liền mạch với dữ liệu văn bản.

Đồng thời, mô hình ngôn ngữ Gemma 2 xử lý truy vấn đi kèm để xác định ý nghĩa và mục đích của nó. Văn bản từ truy vấn được chuyển đổi thành mã thông báo và chúng được kết hợp với mã thông báo trực quan từ SigLIP để tạo ra một biểu diễn đa phương thức , một định dạng thống nhất liên kết dữ liệu trực quan và văn bản. 

Sử dụng biểu diễn tích hợp này, PaliGemma 2 tạo ra phản hồi từng bước thông qua giải mã hồi quy tự động, một phương pháp trong đó mô hình dự đoán từng phần của câu trả lời tại một thời điểm dựa trên bối cảnh mà nó đã xử lý. 

Các khả năng chính của PaliGemma 2

Bây giờ chúng ta đã hiểu cách thức hoạt động của nó, hãy cùng khám phá những tính năng chính khiến PaliGemma 2 trở thành một mô hình ngôn ngữ thị giác đáng tin cậy:

  • Tính linh hoạt tinh chỉnh : Dễ dàng thích ứng với các tập dữ liệu và tác vụ cụ thể, hoạt động tốt trong các ứng dụng như chú thích hình ảnh, suy luận không gian và hình ảnh y tế .
  • Dữ liệu đào tạo đa dạng : Được đào tạo trên các tập dữ liệu như WebLI và OpenImages, mang lại khả năng nhận dạng đối tượng mạnh mẽ và khả năng xuất ra nhiều ngôn ngữ.
  • Tích hợp OCR : Bao gồm nhận dạng ký tự quang học để trích xuất và diễn giải văn bản từ hình ảnh, rất lý tưởng cho việc phân tích tài liệu và các tác vụ dựa trên văn bản khác.
  • Đầu ra đa ngôn ngữ : Tạo chú thích và phản hồi bằng nhiều ngôn ngữ, lý tưởng cho các ứng dụng toàn cầu.
  • Tích hợp với các công cụ : Nó tương thích với các khuôn khổ như Hugging Face Máy biến áp, PyTorch và Keras, cho phép triển khai và thử nghiệm dễ dàng.

So sánh PaliGemma 2 và PaliGemma: Có gì cải tiến?

Xem xét kiến trúc của phiên bản đầu tiên của PaliGemma là một cách hay để thấy những cải tiến của PaliGemma 2. Một trong những thay đổi đáng chú ý nhất là việc thay thế mô hình ngôn ngữ Gemma ban đầu bằng Gemma 2, mang lại những cải tiến đáng kể về cả hiệu suất và hiệu quả. 

Gemma 2, có sẵn ở kích thước tham số 9B và 27B, được thiết kế để mang lại độ chính xác và tốc độ hàng đầu trong khi giảm chi phí triển khai . Nó đạt được điều này thông qua kiến trúc được thiết kế lại được tối ưu hóa cho hiệu quả suy luận trên nhiều thiết lập phần cứng khác nhau, từ GPU mạnh mẽ đến các cấu hình dễ tiếp cận hơn.

Hình 3. Nhìn lại phiên bản đầu tiên của PaliGemma 2.

Kết quả là, PaliGemma 2 là một mô hình có độ chính xác cao. Phiên bản 10B của PaliGemma 2 đạt điểm Câu không dẫn xuất (NES) thấp hơn là 20,3, so với 34,3 của mô hình gốc, nghĩa là ít lỗi thực tế hơn trong kết quả đầu ra của nó. Những tiến bộ này làm cho PaliGemma 2 có khả năng mở rộng hơn, chính xác hơn và thích ứng với nhiều ứng dụng hơn, từ chú thích chi tiết đến trả lời câu hỏi trực quan.

Ứng dụng của PaliGemma 2: Sử dụng trong thế giới thực cho các mô hình VLM

PaliGemma 2 có tiềm năng định nghĩa lại các ngành công nghiệp bằng cách kết hợp liền mạch giữa hiểu biết về thị giác và ngôn ngữ. Ví dụ, về khả năng tiếp cận , nó có thể tạo ra các mô tả chi tiết về các đối tượng, cảnh và mối quan hệ không gian, cung cấp hỗ trợ quan trọng cho những người khiếm thị. Khả năng này giúp người dùng hiểu rõ hơn về môi trường của họ, mang lại sự độc lập hơn khi thực hiện các nhiệm vụ hàng ngày. 

Hình 4. PaliGemma 2 có thể biến thế giới thành một nơi dễ tiếp cận hơn.

Ngoài khả năng truy cập, PaliGemma 2 còn tạo ra tác động trên nhiều ngành công nghiệp khác nhau, bao gồm:

  • Thương mại điện tử : Mô hình này tăng cường phân loại sản phẩm bằng cách phân tích và mô tả các mặt hàng trong hình ảnh, giúp đơn giản hóa việc quản lý hàng tồn kho và cải thiện trải nghiệm tìm kiếm cho người dùng.
  • Chăm sóc sức khỏe : Hỗ trợ các chuyên gia y tế bằng cách giải thích hình ảnh y tế, chẳng hạn như chụp X-quang và MRI, cùng với các ghi chú lâm sàng để đưa ra chẩn đoán chính xác và sáng suốt hơn.
  • Giáo dục : PaliGemma 2 giúp các nhà giáo dục tạo ra các tài liệu học tập mang tính mô tả và dễ hiểu bằng cách tạo chú thích và cung cấp thông tin theo ngữ cảnh cho hình ảnh.
  • Tạo nội dung : Mô hình tự động hóa quy trình tạo chú thích và mô tả trực quan cho nội dung đa phương tiện, giúp tiết kiệm thời gian cho người sáng tạo.

Hãy tự mình thử: PaliGemma 2

Để dùng thử PaliGemma 2, bạn có thể bắt đầu bằng Hugging Face Bản demo tương tác. Nó cho phép bạn khám phá khả năng của nó trong các tác vụ như chú thích hình ảnh và trả lời câu hỏi trực quan. Chỉ cần tải lên một hình ảnh và hỏi người mẫu các câu hỏi về hình ảnh đó hoặc yêu cầu mô tả về cảnh. 

Hình 5. Bản demo của PaliGemma 2.

Nếu bạn muốn tìm hiểu sâu hơn, đây là cách bạn có thể thực hành:

  • Các mô hình được đào tạo trước : Bạn có thể truy cập các mô hình và mã được đào tạo trước từ các nền tảng như Hugging Face và Kaggle. Các nguồn tài nguyên này cung cấp mọi thứ bạn cần để bắt đầu làm việc với mô hình.
  • Sổ tay : Có tài liệu toàn diện và sổ tay mẫu để bạn làm quen với PaliGemma 2. Bạn có thể bắt đầu với các ví dụ suy luận và thử nghiệm tinh chỉnh mô hình trên tập dữ liệu của riêng bạn cho các nhiệm vụ cụ thể.
  • Tích hợp : PaliGemma 2 tương thích với các khuôn khổ được sử dụng rộng rãi như Hugging Face Máy biến áp, Keras, PyTorch , JAX và Gemma.cpp, cho phép bạn tích hợp vào quy trình làm việc hiện tại của mình một cách dễ dàng.

Ưu và nhược điểm của Google PaliGemma 2 của 's

Sau khi hiểu cách bắt đầu sử dụng PaliGemma 2, chúng ta hãy xem xét kỹ hơn những điểm mạnh và điểm yếu chính cần lưu ý khi sử dụng các mô hình này. 

Sau đây là những điểm khiến PaliGemma 2 nổi bật như một mô hình ngôn ngữ thị giác:

  • Tăng hiệu quả: Tận dụng kiến trúc được tối ưu hóa của Gemma 2, PaliGemma 2 mang lại hiệu suất cao đồng thời giảm thiểu chi phí triển khai.
  • Các tính năng an toàn nâng cao : PaliGemma 2 bao gồm những cải tiến đáng kể về an toàn trong quy trình đào tạo, chẳng hạn như lọc dữ liệu trước khi đào tạo mạnh mẽ để giảm sai lệch và đánh giá chặt chẽ theo các tiêu chuẩn an toàn.
  • Độ trễ thấp cho cấu hình nhỏ hơn : Mô hình 3B cung cấp thời gian suy luận nhanh hơn, phù hợp với các trường hợp sử dụng đòi hỏi tốc độ cao, chẳng hạn như đề xuất sản phẩm thương mại điện tử hoặc hệ thống hỗ trợ trực tiếp.

Trong khi đó, sau đây là một số lĩnh vực mà PaliGemma 2 có thể gặp phải hạn chế:

  • Độ trễ : Mặc dù mạnh mẽ, các mô hình lớn hơn có thể gặp phải vấn đề về độ trễ, đặc biệt là khi triển khai cho các tác vụ đòi hỏi phản hồi ngay lập tức, chẳng hạn như hệ thống AI tương tác thời gian thực.
  • Phụ thuộc vào các tập dữ liệu lớn: Hiệu suất của PaliGemma 2 gắn chặt với chất lượng và tính đa dạng của các tập dữ liệu đào tạo, điều này có thể hạn chế hiệu quả của giải pháp trong các lĩnh vực chưa được đại diện đầy đủ hoặc các ngôn ngữ không có trong dữ liệu đào tạo.
  • Yêu cầu tài nguyên cao : Mặc dù đã được tối ưu hóa, các phiên bản tham số 10B và 28B vẫn đòi hỏi sức mạnh tính toán đáng kể , khiến chúng khó tiếp cận hơn đối với các tổ chức nhỏ có nguồn lực hạn chế.

Những điểm chính

PaliGemma 2 là một tiến bộ hấp dẫn trong mô hình ngôn ngữ thị giác, cung cấp khả năng mở rộng được cải thiện, tinh chỉnh tính linh hoạt và độ chính xác. Nó có thể đóng vai trò là một công cụ có giá trị cho các ứng dụng từ các giải pháp trợ năng và thương mại điện tử đến chẩn đoán chăm sóc sức khỏe và giáo dục. 

Mặc dù có những hạn chế, chẳng hạn như yêu cầu tính toán và phụ thuộc vào dữ liệu chất lượng cao, nhưng điểm mạnh của nó khiến nó trở thành lựa chọn thực tế để giải quyết các tác vụ phức tạp tích hợp dữ liệu trực quan và văn bản. PaliGemma 2 có thể cung cấp nền tảng vững chắc cho các nhà nghiên cứu và nhà phát triển để khám phá và mở rộng tiềm năng của AI trong các ứng dụng đa phương thức.

Hãy trở thành một phần của cuộc trò chuyện về AI bằng cách xem kho lưu trữ GitHubcộng đồng của chúng tôi. Đọc về cách AI đang đạt được những bước tiến trong nông nghiệpchăm sóc sức khỏe ! 🚀

Logo FacebookBiểu trưng TwitterBiểu trưng LinkedInBiểu tượng sao chép liên kết

Đọc thêm trong danh mục này

Hãy xây dựng tương lai
của AI cùng nhau!

Bắt đầu hành trình của bạn với tương lai của machine learning