Kiểm tra màu xanh lá cây
Liên kết được sao chép vào khay nhớ tạm

Năm 2024 bắt đầu với làn sóng AI tạo ra

Cùng nhìn lại những đổi mới thú vị về AI trong quý đầu tiên của năm 2024. Chúng tôi sẽ đề cập đến những đột phá như Sora AI của OpenAI, chip não của Neuralink và các LLM mới nhất.

Cộng đồng AI dường như tạo ra các tiêu đề gần như hàng ngày. Vài tháng đầu năm 2024 thật thú vị và đầy những cải tiến AI mới. Từ các mô hình ngôn ngữ lớn mới mạnh mẽ đến cấy ghép não người, năm 2024 đang định hình thật tuyệt vời.

Chúng ta đang thấy AI biến đổi các ngành công nghiệp, làm cho thông tin dễ tiếp cận hơn và thậm chí thực hiện những bước đầu tiên để hợp nhất tâm trí của chúng ta với máy móc. Hãy tua lại quý đầu tiên của năm 2024 và xem xét kỹ hơn những tiến bộ đạt được trong AI chỉ trong vài tháng.

LLM đang là xu hướng

Các mô hình ngôn ngữ lớn (LLM), được thiết kế để hiểu, tạo và thao tác ngôn ngữ của con người dựa trên lượng dữ liệu văn bản khổng lồ, đã trở thành tâm điểm trong quý đầu tiên của năm 2024. Nhiều công ty công nghệ lớn đã phát hành các mô hình LLM của riêng họ, mỗi mô hình có khả năng độc đáo. Thành công đáng kinh ngạc của các LLM trước đây như GPT-3 đã truyền cảm hứng cho xu hướng này. Dưới đây là một số bản phát hành LLM đáng chú ý nhất từ đầu năm 2024.

AnthropicClaude của 3

Anthropic phát hành Claude 3 vào ngày 14 tháng 3 năm 2024. Mô hình Claude 3 có ba phiên bản: Opus, Sonnet và Haiku, mỗi phiên bản phục vụ các thị trường và mục đích khác nhau. Haiku, mô hình nhanh nhất, được tối ưu hóa để phản hồi nhanh, cơ bản. Sonnet cân bằng tốc độ với trí thông minh và được nhắm mục tiêu vào các ứng dụng doanh nghiệp. Opus, phiên bản tiên tiến nhất, mang lại trí thông minh và lý luận vô song và lý tưởng cho các nhiệm vụ phức tạp và đạt được các tiêu chuẩn hàng đầu.

Claude 3 tự hào có nhiều tính năng và cải tiến nâng cao:

  • Tăng cường hội thoại đa ngôn ngữ: Cải thiện khả năng bằng các ngôn ngữ bao gồm tiếng Tây Ban Nha, tiếng Nhật và tiếng Pháp.
  • Tính năng thị giác nâng cao: Có khả năng xử lý các định dạng hình ảnh khác nhau
  • Từ chối giảm thiểu: Thể hiện sự hiểu biết nhiều hơn với ít lời từ chối không cần thiết hơn, cho thấy khả năng nắm bắt ngữ cảnh được cải thiện
  • Cửa sổ ngữ cảnh mở rộng: Nó cung cấp cửa sổ ngữ cảnh 200K, nhưng có khả năng xử lý đầu vào hơn 1 triệu mã thông báo dựa trên nhu cầu của khách hàng.
Hình 1. Claude 3 nhận thức theo ngữ cảnh nhiều hơn các phiên bản trước.

DBRX của Databricks

Databricks DBRX là một LLM mở, có mục đích chung được Databricks phát hành vào ngày 27 tháng 3 năm 2024. DBRX thực sự tốt trong các điểm chuẩn khác nhau, bao gồm hiểu ngôn ngữ, lập trình và toán học. Nó vượt qua các mô hình được thiết lập khác trong khi nhỏ hơn khoảng 40% so với các mô hình tương tự.

Hình 2. So sánh DBRX với các mô hình khác.

DBRX được đào tạo bằng cách sử dụng dự đoán mã thông báo tiếp theo với kiến trúc hỗn hợp chuyên gia chi tiết (MoE) và đó là lý do tại sao chúng ta có thể thấy những cải tiến đáng kể trong hiệu suất đào tạo và suy luận. Kiến trúc của nó cho phép mô hình dự đoán từ tiếp theo theo trình tự chính xác hơn bằng cách tham khảo một tập hợp đa dạng các mô hình con chuyên ngành ("chuyên gia"). Các mô hình con này rất tốt trong việc xử lý các loại thông tin hoặc nhiệm vụ khác nhau.

GoogleSong Tử của 1,5

Google đã giới thiệu Gemini 1.5, một mô hình AI đa phương thức, hiệu quả tính toán có thể phân tích dữ liệu văn bản, video và âm thanh mở rộng, vào ngày 15 tháng 2 năm 2024. Mô hình mới nhất tiên tiến hơn về hiệu suất, hiệu quả và khả năng. Một tính năng chính của Gemini 1.5 là sự đột phá của nó trong sự hiểu biết bối cảnh dài. Mô hình này có khả năng xử lý lên đến 1 triệu mã thông báo một cách nhất quán. Khả năng 1.5 của Gemini cũng nhờ kiến trúc dựa trên MoE mới.

Hình 3. So sánh độ dài ngữ cảnh của các LLM phổ biến

Dưới đây là một số tính năng thú vị nhất của Song Tử 1.5 :

  • Cải thiện xử lý dữ liệu: Cho phép tải lên trực tiếp các tệp PDF lớn, kho lưu trữ mã hoặc video dài dưới dạng lời nhắc. Mô hình có thể suy luận trên các phương thức và văn bản đầu ra.
  • Tải lên và truy vấn nhiều tệp: Giờ đây, các nhà phát triển có thể tải lên nhiều tệp và đặt câu hỏi.
  • Có thể được sử dụng cho các tác vụ khác nhau: Nó được tối ưu hóa để mở rộng quy mô trên các nhiệm vụ đa dạng và cho thấy những cải tiến trong các lĩnh vực như toán học, khoa học, lý luận, đa ngôn ngữ, hiểu video và mã

Hình ảnh tuyệt đẹp từ AI

Quý đầu tiên của năm 2024 đã tiết lộ các mô hình AI tạo ra có thể tạo ra hình ảnh chân thực đến mức chúng đã làm dấy lên các cuộc tranh luận về tương lai của phương tiện truyền thông xã hội và sự tiến bộ của AI. Hãy đi sâu vào các mô hình khuấy động cuộc trò chuyện.

Sora của OpenAI 

OpenAI, người tạo ra ChatGPT, đã công bố một mô hình học sâu chuyển văn bản thành video hiện đại có tên Sora vào ngày 15 tháng 2 năm 2024. Sora là một trình tạo văn bản thành video có khả năng tạo video dài một phút với chất lượng hình ảnh cao dựa trên lời nhắc của người dùng văn bản. 

Ví dụ: hãy xem lời nhắc sau. 

"Một thế giới thủ công giấy tuyệt đẹp của một rạn san hô, đầy rẫy cá và sinh vật biển đầy màu sắc." 

Và, đây là một khung hình từ video đầu ra. 

Hình 4. Một khung hình từ video do Sora tạo.

Kiến trúc của Sora làm cho điều này trở nên khả thi bằng cách pha trộn các mô hình khuếch tán để tạo kết cấu và các mô hình biến áp để gắn kết cấu trúc. Cho đến nay, quyền truy cập vào Sora đã được trao cho các nhóm đỏ và một nhóm nghệ sĩ thị giác, nhà thiết kế và nhà làm phim được chọn để hiểu những rủi ro và nhận phản hồi. 

Stability AISự khuếch tán ổn định của 3 

Stability AI đã công bố sự xuất hiện của Stable Diffusion 3, một mô hình tạo văn bản thành hình ảnh, vào ngày 22 tháng 2 năm 2024. Mô hình kết hợp kiến trúc máy biến áp khuếch tán và kết hợp dòng chảy. Họ vẫn chưa phát hành một bài báo kỹ thuật, nhưng có một vài tính năng chính cần chú ý.

Hình 5. Hình ảnh đầu ra dựa trên lời nhắc: "Tác phẩm nghệ thuật anime sử thi về một phù thủy trên đỉnh núi vào ban đêm sử dụng một câu thần chú vũ trụ lên bầu trời tối có nội dung "Stable Diffusion 3" được tạo ra từ năng lượng đầy màu sắc"

Mô hình mới nhất của Stable Diffusion cung cấp hiệu suất, chất lượng hình ảnh và độ chính xác được cải thiện trong việc tạo ra hình ảnh với nhiều đối tượng. Stable Diffusion 3 cũng sẽ cung cấp một loạt các mô hình khác nhau, từ 800 triệu đến 8 tỷ thông số. Nó sẽ cho phép người dùng lựa chọn dựa trên nhu cầu cụ thể của họ về khả năng mở rộng và chi tiết.

Google'Lumiere của 

Ngày 23/1/2024, Google ra mắt Lumiere, một mô hình khuếch tán văn bản thành video. Lumiere sử dụng một kiến trúc gọi là Space-Time-U-Net, hay viết tắt là STUNet. Nó giúp Lumiere hiểu mọi thứ đang ở đâu và cách chúng di chuyển trong video. Bằng cách đó, nó có thể tạo ra các video mượt mà và sống động như thật.

Hình 6. Một khung hình từ video được tạo dựa trên lời nhắc: "Panda chơi ukulele tại nhà".

Với khả năng tạo ra 80 khung hình cho mỗi video, Lumiere đang vượt qua ranh giới và thiết lập các tiêu chuẩn mới cho chất lượng video trong không gian AI. Dưới đây là một số tính năng của Lumiere:

  • Chuyển hình ảnh thành video: Bắt đầu từ hình ảnh và lời nhắc, Lumiere có thể tạo hoạt ảnh cho hình ảnh thành video.
  • Thế hệ cách điệu: Lumiere có thể tạo video theo các phong cách cụ thể bằng cách sử dụng một hình ảnh tham chiếu duy nhất.
  • Quay phim: Lumiere có thể tạo hoạt ảnh cho các vùng cụ thể trong hình ảnh để tạo ra các cảnh động, chẳng hạn như một đối tượng cụ thể chuyển động trong khi phần còn lại của cảnh vẫn tĩnh.
  • Video Inpainting: Nó có thể sửa đổi các phần của video, chẳng hạn như thay đổi trang phục của những người trong video hoặc thay đổi chi tiết nền.

Tương lai dường như là ở đây

Đầu năm 2024 cũng đã mang đến nhiều đổi mới AI giống như một thứ gì đó trong một bộ phim khoa học viễn tưởng. Những điều mà trước đây chúng ta có thể nói là không thể bây giờ đang được thực hiện. Tương lai không cảm thấy quá xa vời với những khám phá sau đây.

Neuralink của Elon Musk

Neuralink của Elon Musk đã cấy ghép thành công chip não không dây của mình vào người vào ngày 29/1/2024. Đây là một bước tiến lớn trong việc kết nối bộ não con người với máy tính. Elon Musk chia sẻ rằng sản phẩm đầu tiên của Neuralink, có tên là 'Thần giao cách cảm', đang được triển khai. 

Hình 7. Cấy ghép Neuralink

Mục đích là để cho phép người dùng, đặc biệt là những người đã mất chức năng chi, để điều khiển các thiết bị dễ dàng thông qua suy nghĩ của họ. Các ứng dụng tiềm năng vượt ra ngoài sự tiện lợi. Elon Musk tưởng tượng ra một tương lai nơi những người bị tê liệt có thể giao tiếp dễ dàng.

Sàn HoloTile của Disney 

Vào ngày 18 tháng 1 năm 2024, Walt Disney Imagineering đã tiết lộ HoloTile Floor. Nó đã được mệnh danh là sân máy chạy bộ đa hướng, đa hướng nhiều người đầu tiên trên thế giới. 

Hình 8. Disney Imagineer Lanny Smoot tạo dáng trên cải tiến mới nhất của mình, sàn HoloTile.

Nó có thể di chuyển dưới bất kỳ người hoặc đối tượng nào như telekinesis để có trải nghiệm thực tế ảo và tăng cường nhập vai. Bạn có thể đi bộ theo bất kỳ hướng nào, và tránh va chạm khi ở trên đó. Disney's HoloTile Floor cũng có thể được trồng trên các sân khấu sân khấu để nhảy và di chuyển theo những cách sáng tạo.

Vision Pro của Apple

Vào ngày 2 tháng 2 năm 2024, tai nghe Vision Pro rất được mong đợi của Apple đã tung ra thị trường. Nó có một loạt các tính năng và ứng dụng được thiết kế để xác định lại trải nghiệm thực tế ảo và tăng cường. Tai nghe Vision Pro phục vụ cho nhiều đối tượng khác nhau bằng cách pha trộn giải trí, năng suất và điện toán không gian. Apple tự hào thông báo rằng hơn 600 ứng dụng, từ các công cụ năng suất đến các dịch vụ chơi game và giải trí, đã được tối ưu hóa cho Vision Pro khi ra mắt.

Devin của Cognition

Vào ngày 12 tháng 3 năm 2024, Cognition đã phát hành một trợ lý kỹ thuật phần mềm có tên Devin. Devin là nỗ lực đầu tiên trên thế giới về một kỹ sư phần mềm AI tự trị. Không giống như các trợ lý mã hóa truyền thống cung cấp các đề xuất hoặc hoàn thành các nhiệm vụ cụ thể, Devin được thiết kế để xử lý toàn bộ các dự án phát triển phần mềm từ khái niệm ban đầu đến hoàn thành. 

Nó có thể học các công nghệ mới, xây dựng và triển khai các ứng dụng đầy đủ, tìm và sửa lỗi, đào tạo các mô hình của riêng mình, đóng góp vào các cơ sở mã nguồn mở và sản xuất và thậm chí đảm nhận các công việc phát triển thực sự từ các trang web như Upwork. 

Hình 9. So sánh Devin với các mô hình khác.

Devin đã được đánh giá trên SWE-bench, một tiêu chuẩn đầy thách thức yêu cầu các đại lý giải quyết các vấn đề GitHub trong thế giới thực được tìm thấy trong các dự án nguồn mở như Django và scikit-learn. Nó đã giải quyết chính xác 13,86% các vấn đề từ đầu đến cuối, so với hiện đại trước đó là 1,96%.

Đề cập danh dự

Đã có quá nhiều điều xảy ra đến nỗi không thể bao quát mọi thứ trong bài viết này. Nhưng, đây là một số đề cập danh dự hơn. 

  • NVIDIALATTE3D, được công bố vào ngày 21 tháng 3 năm 2024, là một mô hình AI chuyển văn bản sang 3D ngay lập tức tạo ra các biểu diễn 3D từ lời nhắc văn bản.
  • Trình tạo văn bản thành video mới của Midjourney, được trêu chọc bởi Giám đốc điều hành David Holz, đã bắt đầu đào tạo vào tháng Giêng và dự kiến sẽ sớm ra mắt.
  • Thúc đẩy cuộc cách mạng PC AI, Lenovo đã phát hành ThinkBook 13x với công nghệ E Ink Prism và máy tính xách tay AI hiệu suất cao vào ngày 8 tháng 1 năm 2024.

Luôn cập nhật về xu hướng AI với chúng tôi!

Đầu năm 2024 chứng kiến những tiến bộ đột phá trong AI và nhiều cột mốc công nghệ lớn. Nhưng đây mới chỉ là khởi đầu của những gì AI có thể làm. Nếu bạn muốn tìm hiểu thêm về những phát triển AI mới nhất, Ultralytics đã giúp bạn được bảo hiểm.

Kiểm tra kho lưu trữ GitHub của chúng tôi để xem những đóng góp mới nhất của chúng tôi trong thị giác máy tính và AI. Bạn cũng có thể xem các trang giải pháp của chúng tôi để xem AI đang được sử dụng như thế nào trong các ngành công nghiệp như sản xuất chăm sóc sức khỏe

Logo FacebookBiểu trưng TwitterBiểu trưng LinkedInBiểu tượng sao chép liên kết

Đọc thêm trong danh mục này

Hãy xây dựng tương lai
của AI cùng nhau!

Bắt đầu hành trình của bạn với tương lai của machine learning