Cùng nhìn lại những đổi mới thú vị về AI trong quý đầu tiên của năm 2024. Chúng tôi sẽ đề cập đến những đột phá như Sora AI của OpenAI, chip não của Neuralink và các LLM mới nhất.
Cộng đồng AI dường như tạo ra các tiêu đề gần như hàng ngày. Vài tháng đầu năm 2024 thật thú vị và đầy những cải tiến AI mới. Từ các mô hình ngôn ngữ lớn mới mạnh mẽ đến cấy ghép não người, năm 2024 đang định hình thật tuyệt vời.
Chúng ta đang thấy AI biến đổi các ngành công nghiệp, làm cho thông tin dễ tiếp cận hơn và thậm chí thực hiện những bước đầu tiên để hợp nhất tâm trí của chúng ta với máy móc. Hãy tua lại quý đầu tiên của năm 2024 và xem xét kỹ hơn những tiến bộ đạt được trong AI chỉ trong vài tháng.
Các mô hình ngôn ngữ lớn (LLM), được thiết kế để hiểu, tạo và thao tác ngôn ngữ của con người dựa trên lượng dữ liệu văn bản khổng lồ, đã trở thành tâm điểm trong quý đầu tiên của năm 2024. Nhiều công ty công nghệ lớn đã phát hành các mô hình LLM của riêng họ, mỗi mô hình có khả năng độc đáo. Thành công đáng kinh ngạc của các LLM trước đây như GPT-3 đã truyền cảm hứng cho xu hướng này. Dưới đây là một số bản phát hành LLM đáng chú ý nhất từ đầu năm 2024.
Anthropic phát hành Claude 3 vào ngày 14 tháng 3 năm 2024. Mô hình Claude 3 có ba phiên bản: Opus, Sonnet và Haiku, mỗi phiên bản phục vụ các thị trường và mục đích khác nhau. Haiku, mô hình nhanh nhất, được tối ưu hóa để phản hồi nhanh, cơ bản. Sonnet cân bằng tốc độ với trí thông minh và được nhắm mục tiêu vào các ứng dụng doanh nghiệp. Opus, phiên bản tiên tiến nhất, mang lại trí thông minh và lý luận vô song và lý tưởng cho các nhiệm vụ phức tạp và đạt được các tiêu chuẩn hàng đầu.
Claude 3 tự hào có nhiều tính năng và cải tiến nâng cao:
Databricks DBRX là một LLM mở, có mục đích chung được Databricks phát hành vào ngày 27 tháng 3 năm 2024. DBRX thực sự tốt trong các điểm chuẩn khác nhau, bao gồm hiểu ngôn ngữ, lập trình và toán học. Nó vượt qua các mô hình được thiết lập khác trong khi nhỏ hơn khoảng 40% so với các mô hình tương tự.
DBRX được đào tạo bằng cách sử dụng dự đoán mã thông báo tiếp theo với kiến trúc hỗn hợp chuyên gia chi tiết (MoE) và đó là lý do tại sao chúng ta có thể thấy những cải tiến đáng kể trong hiệu suất đào tạo và suy luận. Kiến trúc của nó cho phép mô hình dự đoán từ tiếp theo theo trình tự chính xác hơn bằng cách tham khảo một tập hợp đa dạng các mô hình con chuyên ngành ("chuyên gia"). Các mô hình con này rất tốt trong việc xử lý các loại thông tin hoặc nhiệm vụ khác nhau.
Google đã giới thiệu Gemini 1.5, một mô hình AI đa phương thức, hiệu quả tính toán có thể phân tích dữ liệu văn bản, video và âm thanh mở rộng, vào ngày 15 tháng 2 năm 2024. Mô hình mới nhất tiên tiến hơn về hiệu suất, hiệu quả và khả năng. Một tính năng chính của Gemini 1.5 là sự đột phá của nó trong sự hiểu biết bối cảnh dài. Mô hình này có khả năng xử lý lên đến 1 triệu mã thông báo một cách nhất quán. Khả năng 1.5 của Gemini cũng nhờ kiến trúc dựa trên MoE mới.
Dưới đây là một số tính năng thú vị nhất của Song Tử 1.5 :
Quý đầu tiên của năm 2024 đã tiết lộ các mô hình AI tạo ra có thể tạo ra hình ảnh chân thực đến mức chúng đã làm dấy lên các cuộc tranh luận về tương lai của phương tiện truyền thông xã hội và sự tiến bộ của AI. Hãy đi sâu vào các mô hình khuấy động cuộc trò chuyện.
OpenAI, người tạo ra ChatGPT, đã công bố một mô hình học sâu chuyển văn bản thành video hiện đại có tên Sora vào ngày 15 tháng 2 năm 2024. Sora là một trình tạo văn bản thành video có khả năng tạo video dài một phút với chất lượng hình ảnh cao dựa trên lời nhắc của người dùng văn bản.
Ví dụ: hãy xem lời nhắc sau.
"Một thế giới thủ công giấy tuyệt đẹp của một rạn san hô, đầy rẫy cá và sinh vật biển đầy màu sắc."
Và, đây là một khung hình từ video đầu ra.
Kiến trúc của Sora làm cho điều này trở nên khả thi bằng cách pha trộn các mô hình khuếch tán để tạo kết cấu và các mô hình biến áp để gắn kết cấu trúc. Cho đến nay, quyền truy cập vào Sora đã được trao cho các nhóm đỏ và một nhóm nghệ sĩ thị giác, nhà thiết kế và nhà làm phim được chọn để hiểu những rủi ro và nhận phản hồi.
Stability AI đã công bố sự xuất hiện của Stable Diffusion 3, một mô hình tạo văn bản thành hình ảnh, vào ngày 22 tháng 2 năm 2024. Mô hình kết hợp kiến trúc máy biến áp khuếch tán và kết hợp dòng chảy. Họ vẫn chưa phát hành một bài báo kỹ thuật, nhưng có một vài tính năng chính cần chú ý.
Mô hình mới nhất của Stable Diffusion cung cấp hiệu suất, chất lượng hình ảnh và độ chính xác được cải thiện trong việc tạo ra hình ảnh với nhiều đối tượng. Stable Diffusion 3 cũng sẽ cung cấp một loạt các mô hình khác nhau, từ 800 triệu đến 8 tỷ thông số. Nó sẽ cho phép người dùng lựa chọn dựa trên nhu cầu cụ thể của họ về khả năng mở rộng và chi tiết.
Ngày 23/1/2024, Google ra mắt Lumiere, một mô hình khuếch tán văn bản thành video. Lumiere sử dụng một kiến trúc gọi là Space-Time-U-Net, hay viết tắt là STUNet. Nó giúp Lumiere hiểu mọi thứ đang ở đâu và cách chúng di chuyển trong video. Bằng cách đó, nó có thể tạo ra các video mượt mà và sống động như thật.
Với khả năng tạo ra 80 khung hình cho mỗi video, Lumiere đang vượt qua ranh giới và thiết lập các tiêu chuẩn mới cho chất lượng video trong không gian AI. Dưới đây là một số tính năng của Lumiere:
Đầu năm 2024 cũng đã mang đến nhiều đổi mới AI giống như một thứ gì đó trong một bộ phim khoa học viễn tưởng. Những điều mà trước đây chúng ta có thể nói là không thể bây giờ đang được thực hiện. Tương lai không cảm thấy quá xa vời với những khám phá sau đây.
Neuralink của Elon Musk đã cấy ghép thành công chip não không dây của mình vào người vào ngày 29/1/2024. Đây là một bước tiến lớn trong việc kết nối bộ não con người với máy tính. Elon Musk chia sẻ rằng sản phẩm đầu tiên của Neuralink, có tên là 'Thần giao cách cảm', đang được triển khai.
Mục đích là để cho phép người dùng, đặc biệt là những người đã mất chức năng chi, để điều khiển các thiết bị dễ dàng thông qua suy nghĩ của họ. Các ứng dụng tiềm năng vượt ra ngoài sự tiện lợi. Elon Musk tưởng tượng ra một tương lai nơi những người bị tê liệt có thể giao tiếp dễ dàng.
Vào ngày 18 tháng 1 năm 2024, Walt Disney Imagineering đã tiết lộ HoloTile Floor. Nó đã được mệnh danh là sân máy chạy bộ đa hướng, đa hướng nhiều người đầu tiên trên thế giới.
Nó có thể di chuyển dưới bất kỳ người hoặc đối tượng nào như telekinesis để có trải nghiệm thực tế ảo và tăng cường nhập vai. Bạn có thể đi bộ theo bất kỳ hướng nào, và tránh va chạm khi ở trên đó. Disney's HoloTile Floor cũng có thể được trồng trên các sân khấu sân khấu để nhảy và di chuyển theo những cách sáng tạo.
Vào ngày 2 tháng 2 năm 2024, tai nghe Vision Pro rất được mong đợi của Apple đã tung ra thị trường. Nó có một loạt các tính năng và ứng dụng được thiết kế để xác định lại trải nghiệm thực tế ảo và tăng cường. Tai nghe Vision Pro phục vụ cho nhiều đối tượng khác nhau bằng cách pha trộn giải trí, năng suất và điện toán không gian. Apple tự hào thông báo rằng hơn 600 ứng dụng, từ các công cụ năng suất đến các dịch vụ chơi game và giải trí, đã được tối ưu hóa cho Vision Pro khi ra mắt.
Vào ngày 12 tháng 3 năm 2024, Cognition đã phát hành một trợ lý kỹ thuật phần mềm có tên Devin. Devin là nỗ lực đầu tiên trên thế giới về một kỹ sư phần mềm AI tự trị. Không giống như các trợ lý mã hóa truyền thống cung cấp các đề xuất hoặc hoàn thành các nhiệm vụ cụ thể, Devin được thiết kế để xử lý toàn bộ các dự án phát triển phần mềm từ khái niệm ban đầu đến hoàn thành.
Nó có thể học các công nghệ mới, xây dựng và triển khai các ứng dụng đầy đủ, tìm và sửa lỗi, đào tạo các mô hình của riêng mình, đóng góp vào các cơ sở mã nguồn mở và sản xuất và thậm chí đảm nhận các công việc phát triển thực sự từ các trang web như Upwork.
Devin đã được đánh giá trên SWE-bench, một tiêu chuẩn đầy thách thức yêu cầu các đại lý giải quyết các vấn đề GitHub trong thế giới thực được tìm thấy trong các dự án nguồn mở như Django và scikit-learn. Nó đã giải quyết chính xác 13,86% các vấn đề từ đầu đến cuối, so với hiện đại trước đó là 1,96%.
Đã có quá nhiều điều xảy ra đến nỗi không thể bao quát mọi thứ trong bài viết này. Nhưng, đây là một số đề cập danh dự hơn.
Đầu năm 2024 chứng kiến những tiến bộ đột phá trong AI và nhiều cột mốc công nghệ lớn. Nhưng đây mới chỉ là khởi đầu của những gì AI có thể làm. Nếu bạn muốn tìm hiểu thêm về những phát triển AI mới nhất, Ultralytics đã giúp bạn được bảo hiểm.
Kiểm tra kho lưu trữ GitHub của chúng tôi để xem những đóng góp mới nhất của chúng tôi trong thị giác máy tính và AI. Bạn cũng có thể xem các trang giải pháp của chúng tôi để xem AI đang được sử dụng như thế nào trong các ngành công nghiệp như sản xuất và chăm sóc sức khỏe.
Bắt đầu hành trình của bạn với tương lai của machine learning