AI 2024: Làn sóng AI tạo sinh

Cộng đồng AI dường như xuất hiện trên các tiêu đề hàng ngày. Vài tháng đầu năm 2024 thật thú vị và chứa đầy những đổi mới AI mới. Từ các mô hình ngôn ngữ lớn mạnh mẽ mới đến cấy ghép não người, năm 2024 đang hình thành nên những điều tuyệt vời.

Chúng ta đang thấy AI chuyển đổi các ngành công nghiệp, làm cho thông tin dễ tiếp cận hơn và thậm chí thực hiện những bước đầu tiên hướng tới việc hợp nhất tâm trí của chúng ta với máy móc. Hãy cùng tua lại quý đầu tiên của năm 2024 và xem xét kỹ hơn những tiến bộ đạt được trong AI chỉ trong vài tháng.

LLM đang là xu hướng

Các mô hình ngôn ngữ lớn (LLM), được thiết kế để hiểu, tạo và thao tác ngôn ngữ của con người dựa trên lượng lớn dữ liệu văn bản, đã chiếm vị trí trung tâm trong quý đầu tiên của năm 2024. Nhiều công ty công nghệ lớn đã phát hành các mô hình LLM của riêng họ, mỗi mô hình có những khả năng riêng. Thành công đáng kinh ngạc của các LLM trước đây như GPT-3 đã truyền cảm hứng cho xu hướng này. Dưới đây là một số bản phát hành LLM đáng chú ý nhất từ đầu năm 2024.

Anthropic Claude 3

Anthropic Ra mắt Claude 3 vào ngày 14 tháng 3 năm 2024. Claude 3 có ba phiên bản: Opus, Sonnet và Haiku, mỗi phiên bản phục vụ các thị trường và mục đích khác nhau. Haiku, phiên bản nhanh nhất, được tối ưu hóa cho phản hồi nhanh, cơ bản. Sonnet cân bằng giữa tốc độ và trí tuệ, hướng đến các ứng dụng doanh nghiệp. Opus, phiên bản tiên tiến nhất, mang đến trí tuệ và khả năng lập luận vượt trội, lý tưởng cho các tác vụ phức tạp và đạt được các chuẩn mực cao nhất.

Claude 3 tự hào có nhiều tính năng và cải tiến nâng cao:

Hội thoại đa ngôn ngữ nâng cao: Cải thiện khả năng bằng các ngôn ngữ bao gồm tiếng Tây Ban Nha, tiếng Nhật và tiếng Pháp.
‍
Các tính năng thị giác nâng cao: Có khả năng xử lý nhiều định dạng hình ảnh khác nhau.
‍
Giảm thiểu từ chối: Thể hiện sự hiểu biết tốt hơn với ít từ chối không cần thiết hơn, cho thấy khả năng nắm bắt ngữ cảnh được cải thiện.
‍
Cửa sổ ngữ cảnh mở rộng: Nó cung cấp cửa sổ ngữ cảnh 200K, nhưng có khả năng xử lý đầu vào trên 1 triệu token dựa trên nhu cầu của khách hàng.

__wf_reserved_inherit — Hình 1. Claude 3 nhận biết ngữ cảnh tốt hơn so với các phiên bản trước.

‍

DBRX của Databricks

Databricks DBRX là một LLM mục đích chung, mã nguồn mở được Databricks phát hành vào ngày 27 tháng 3 năm 2024. DBRX thực sự hoạt động tốt trong nhiều tiêu chuẩn đánh giá khác nhau, bao gồm hiểu ngôn ngữ, lập trình và toán học. Nó vượt trội so với các mô hình đã được thiết lập khác trong khi nhỏ hơn khoảng 40% so với các mô hình tương tự.

‍

DBRX được đào tạo bằng cách sử dụng dự đoán token tiếp theo với kiến trúc mixture-of-experts (MoE) chi tiết, và đó là lý do tại sao chúng ta có thể thấy những cải tiến đáng kể trong hiệu suất đào tạo và suy luận. Kiến trúc của nó cho phép mô hình dự đoán từ tiếp theo trong một chuỗi chính xác hơn bằng cách tham khảo một tập hợp đa dạng các mô hình con chuyên biệt ("các chuyên gia"). Các mô hình con này giỏi xử lý các loại thông tin hoặc tác vụ khác nhau.

Google Gemini 1.5

Google Gemini 1.5, một mô hình AI đa phương thức, hiệu quả về mặt tính toán, có khả năng phân tích dữ liệu văn bản, video và âm thanh mở rộng, đã ra mắt vào ngày 15 tháng 2 năm 2024. Mô hình mới nhất này tiên tiến hơn về hiệu suất, hiệu quả và khả năng. Một tính năng quan trọng của Gemini 1.5 là bước đột phá trong việc hiểu ngữ cảnh dài. Mô hình này có khả năng xử lý nhất quán tới 1 triệu token. Khả năng của Gemini 1.5 cũng đến từ kiến trúc mới dựa trên MoE.

‍

Dưới đây là một số tính năng thú vị nhất của Gemini 1.5:

Cải thiện khả năng xử lý dữ liệu: Cho phép tải trực tiếp các tệp PDF lớn, kho lưu trữ mã hoặc video dài làm lời nhắc. Mô hình có thể suy luận trên các phương thức và xuất văn bản.
‍
Tải lên và truy vấn nhiều tệp: Giờ đây, nhà phát triển có thể tải lên nhiều tệp và đặt câu hỏi.
‍
Có thể được sử dụng cho các tác vụ khác nhau: Nó được tối ưu hóa để mở rộng quy mô trên các tác vụ đa dạng và cho thấy sự cải thiện trong các lĩnh vực như toán học, khoa học, lý luận, đa ngôn ngữ, hiểu video và mã.

Hình ảnh tuyệt đẹp từ AI

Quý đầu tiên của năm 2024 đã hé lộ các mô hình AI tạo sinh có thể tạo ra hình ảnh chân thực đến mức chúng đã gây ra các cuộc tranh luận về tương lai của mạng xã hội và sự tiến bộ của AI. Hãy cùng đi sâu vào các mô hình đang khuấy động cuộc trò chuyện.

Sora của OpenAI

OpenAI, người sáng tạo ra ChatGPT , đã công bố một mô hình học sâu chuyển văn bản thành video tiên tiến có tên là Sora vào ngày 15 tháng 2 năm 2024. Sora là trình tạo văn bản thành video có khả năng tạo video dài một phút với chất lượng hình ảnh cao dựa trên lời nhắc văn bản của người dùng.

Ví dụ: hãy xem lời nhắc sau.

“Một thế giới thủ công giấy được kết xuất tuyệt đẹp về một rạn san hô, đầy ắp cá đầy màu sắc và sinh vật biển.”

Và đây là một khung hình từ video đầu ra.

‍

Kiến trúc của Sora giúp điều này trở nên khả thi bằng cách kết hợp các mô hình khuếch tán để tạo kết cấu và các mô hình biến đổi để tạo sự mạch lạc về cấu trúc. Cho đến nay, quyền truy cập vào Sora đã được trao cho các red teamer và một nhóm nghệ sĩ thị giác, nhà thiết kế và nhà làm phim được chọn để hiểu những rủi ro và nhận phản hồi.

Stability AI Sự khuếch tán ổn định của 3

Stability AI Vào ngày 22 tháng 2 năm 2024, Stable Diffusion 3 , một mô hình tạo văn bản thành hình ảnh, đã được công bố. Mô hình này kết hợp kiến trúc máy biến áp khuếch tán và khớp dòng chảy. Họ vẫn chưa công bố tài liệu kỹ thuật, nhưng có một vài tính năng chính cần chú ý.

‍

Mô hình Stable Diffusion mới nhất mang lại hiệu suất, chất lượng hình ảnh và độ chính xác được cải thiện trong việc tạo hình ảnh với nhiều đối tượng. Stable Diffusion 3 cũng sẽ cung cấp nhiều mô hình khác nhau, từ 800 triệu đến 8 tỷ tham số. Điều này cho phép người dùng lựa chọn dựa trên nhu cầu cụ thể của họ về khả năng mở rộng và chi tiết.

Google Lumiere của

Ngày 23 tháng 1 năm 2024, Google Lumiere ra mắt, một mô hình khuếch tán văn bản sang video. Lumiere sử dụng kiến trúc Space-Time-U-Net, hay gọi tắt là STUNet. Kiến trúc này giúp Lumiere hiểu được vị trí của các vật thể và cách chúng di chuyển trong video. Nhờ đó, nó có thể tạo ra những video mượt mà và sống động như thật.

‍

Với khả năng tạo 80 khung hình trên mỗi video, Lumiere đang vượt qua các ranh giới và thiết lập các tiêu chuẩn mới về chất lượng video trong lĩnh vực AI. Dưới đây là một số tính năng của Lumiere:

Chuyển đổi hình ảnh thành video: Bắt đầu từ một hình ảnh và một prompt, Lumiere có thể tạo ảnh động thành video.
‍
Tạo kiểu cách: Lumiere có thể tạo video theo các phong cách cụ thể bằng cách sử dụng một hình ảnh tham khảo duy nhất.
‍
Cinemagraphs: Lumiere có thể tạo ảnh động cho các vùng cụ thể trong một hình ảnh để tạo ra các cảnh động, chẳng hạn như một đối tượng cụ thể di chuyển trong khi phần còn lại của cảnh vẫn tĩnh.
‍
Video Inpainting: Nó có thể sửa đổi các phần của video, chẳng hạn như thay đổi trang phục của mọi người trong đó hoặc thay đổi chi tiết nền.

Tương lai dường như đang ở đây

Đầu năm 2024 cũng mang đến nhiều đổi mới AI có cảm giác như bước ra từ một bộ phim khoa học viễn tưởng. Những điều mà trước đây chúng ta cho là không thể thì giờ đang được thực hiện. Tương lai dường như không còn xa vời với những khám phá sau.

Neuralink của Elon Musk

Neuralink của Elon Musk đã cấy ghép thành công chip não không dây vào một người vào ngày 29 tháng 1 năm 2024. Đây là một bước tiến lớn hướng tới việc kết nối não người với máy tính. Elon Musk chia sẻ rằng sản phẩm đầu tiên của Neuralink, có tên là ‘Telepathy,’ đang trong quá trình phát triển.

‍

Mục tiêu là cho phép người dùng, đặc biệt là những người bị mất chức năng chi, điều khiển các thiết bị một cách dễ dàng thông qua suy nghĩ của họ. Các ứng dụng tiềm năng không chỉ dừng lại ở sự tiện lợi. Elon Musk hình dung một tương lai nơi những người bị liệt có thể giao tiếp dễ dàng.

Sàn HoloTile của Disney

Vào ngày 18 tháng 1 năm 2024, Walt Disney Imagineering đã công bố Sàn HoloTile. Nó được mệnh danh là mặt đất máy chạy bộ đa hướng, đa người đầu tiên trên thế giới.

‍

Nó có thể di chuyển dưới bất kỳ người hoặc vật thể nào như thần giao cách cảm để có trải nghiệm thực tế ảo và tăng cường sống động. Bạn có thể đi bộ theo bất kỳ hướng nào và tránh va chạm khi ở trên đó. Sàn HoloTile của Disney cũng có thể được đặt trên các sân khấu để nhảy và di chuyển theo những cách sáng tạo.

Vision Pro của Apple

Vào ngày 2 tháng 2 năm 2024, tai nghe Vision Pro rất được mong đợi của Apple đã có mặt trên thị trường. Nó có một loạt các tính năng và ứng dụng được thiết kế để xác định lại trải nghiệm thực tế ảo và tăng cường. Tai nghe Vision Pro phục vụ cho nhiều đối tượng khác nhau bằng cách kết hợp giải trí, năng suất và điện toán không gian. Apple tự hào thông báo rằng hơn 600 ứng dụng, từ các công cụ năng suất đến các dịch vụ trò chơi và giải trí, đã được tối ưu hóa cho Vision Pro khi ra mắt.

Devin của Cognition

Vào ngày 12 tháng 3 năm 2024, Cognition đã phát hành một trợ lý kỹ sư phần mềm có tên là Devin. Devin là nỗ lực đầu tiên trên thế giới về một kỹ sư phần mềm AI tự trị. Không giống như các trợ lý viết mã truyền thống đưa ra gợi ý hoặc hoàn thành các tác vụ cụ thể, Devin được thiết kế để xử lý toàn bộ các dự án phát triển phần mềm từ ý tưởng ban đầu đến khi hoàn thành.

Nó có thể học các công nghệ mới, xây dựng và triển khai các ứng dụng hoàn chỉnh, tìm và sửa lỗi, huấn luyện các mô hình riêng, đóng góp vào mã nguồn mở và cơ sở mã sản xuất, và thậm chí đảm nhận các công việc phát triển thực tế từ các trang web như Upwork.

‍

Devin được đánh giá trên SWE-bench, một chuẩn đánh giá đầy thách thức, yêu cầu các agent giải quyết các vấn đề GitHub thực tế được tìm thấy trong các dự án mã nguồn mở như Django và scikit-learn. Nó đã giải quyết chính xác 13,86% các vấn đề từ đầu đến cuối, so với mức 1,96% của các công nghệ tiên tiến trước đó.

Đề cử đáng chú ý

Đã có rất nhiều điều xảy ra nên không thể đề cập hết trong bài viết này. Nhưng, đây là một vài đề cử đáng chú ý khác.

NVIDIA LATTE3D , được công bố vào ngày 21 tháng 3 năm 2024, là mô hình AI chuyển văn bản thành 3D có khả năng tạo ra các biểu diễn 3D ngay lập tức từ các lời nhắc văn bản.
‍
Trình tạo video từ văn bản mới của Midjourney, được CEO David Holz hé lộ, đã bắt đầu huấn luyện vào tháng 1 và dự kiến sẽ ra mắt sớm.
‍
Thúc đẩy cuộc cách mạng AI PC, Lenovo đã phát hành ThinkBook 13x với công nghệ E Ink Prism và máy tính xách tay AI hiệu năng cao vào ngày 8 tháng 1 năm 2024.

Luôn cập nhật các xu hướng AI với chúng tôi!

Đầu năm 2024 đã chứng kiến những tiến bộ đột phá trong lĩnh vực AI và nhiều cột mốc công nghệ quan trọng. Nhưng đây chỉ là khởi đầu cho những gì AI có thể làm được. Nếu bạn muốn tìm hiểu thêm về những phát triển AI mới nhất, Ultralytics đã hỗ trợ bạn.

Hãy xem kho lưu trữ GitHub của chúng tôi để xem những đóng góp mới nhất của chúng tôi trong lĩnh vực thị giác máy tính và AI. Bạn cũng có thể xem các trang giải pháp của chúng tôi để xem AI đang được sử dụng như thế nào trong các ngành như sản xuất và chăm sóc sức khỏe.

Năm 2024 bắt đầu với một làn sóng AI tạo sinh

LLM đang là xu hướng

Anthropic Claude 3

DBRX của Databricks

Google Gemini 1.5

Hình ảnh tuyệt đẹp từ AI

Sora của OpenAI

Stability AI Sự khuếch tán ổn định của 3

Google Lumiere của

Tương lai dường như đang ở đây

Neuralink của Elon Musk

Sàn HoloTile của Disney

Vision Pro của Apple

Devin của Cognition

Đề cử đáng chú ý

Luôn cập nhật các xu hướng AI với chúng tôi!

Đọc thêm trong danh mục này

12 trường hợp sử dụng ảnh chụp từ trên không được hỗ trợ bởi thị giác máy tính

Công cụ AI thị giác cho chẩn đoán y tế

Từ dữ liệu đến quyết định: Sử dụng trí tuệ nhân tạo thị giác cho chiến lược doanh nghiệp

Hãy cùng nhau xây dựng tương lai
của AI!

Năm 2024 bắt đầu với một làn sóng AI tạo sinh

LLM đang là xu hướng

Anthropic Claude 3

DBRX của Databricks

Google Gemini 1.5

Hình ảnh tuyệt đẹp từ AI

Sora của OpenAI

Stability AI Sự khuếch tán ổn định của 3

Google Lumiere của

Tương lai dường như đang ở đây

Neuralink của Elon Musk

Sàn HoloTile của Disney

Vision Pro của Apple

Devin của Cognition

Đề cử đáng chú ý

Luôn cập nhật các xu hướng AI với chúng tôi!

Đọc thêm trong danh mục này

12 trường hợp sử dụng ảnh chụp từ trên không được hỗ trợ bởi thị giác máy tính

Công cụ AI thị giác cho chẩn đoán y tế

Từ dữ liệu đến quyết định: Sử dụng trí tuệ nhân tạo thị giác cho chiến lược doanh nghiệp

Hãy cùng nhau xây dựng tương lai của AI!

Hãy cùng nhau xây dựng tương lai
của AI!