グリーンチェック
クリップボードにコピーされたリンク

2024年はジェネレーティブAIの波から始まる

2024年第1四半期からのエキサイティングなAIイノベーションに注目。OpenAIのSora AI、Neuralinkのブレイン・チップ、最新のLLMなどのブレークスルーを取り上げる。

AIコミュニティは、ほぼ毎日のように見出しを飾っているようです。2024 年の最初の数か月は、エキサイティングで、新しい AI イノベーションが満載でした。強力な新しい大規模言語モデルから人間の脳インプラントまで、2024年は素晴らしい年になりそうです。

AIが産業を変革し、情報をより身近なものにし、人間の心と機械の融合に向けた第一歩を踏み出しています。2024 年の第 1 四半期を巻き戻して、わずか数か月で達成された AI の進歩を詳しく見てみましょう。

LLMがトレンドに

2024年第1四半期には、膨大な量のテキストデータに基づいて人間の言語を理解、生成、操作するように設計された大規模言語モデル(LLM)が注目されました。多くの大手テクノロジー企業が独自のLLMモデルをリリースし、それぞれが独自の機能を備えています。GPT-3のような以前のLLMの驚異的な成功は、この傾向に影響を与えました。ここでは、2024年初頭にリリースされる最も注目すべきLLMのリリースをいくつか紹介します。

Anthropicのクロード3

Anthropic 2024 年 3 月 14 日に Claude 3 をリリースしました。Claude 3 モデルには、Opus、Sonnet、Haiku の 3 つのバージョンがあり、それぞれ異なる市場と目的に対応しています。最速のモデルである Haiku は、高速で基本的な応答に最適化されています。Sonnetは、スピードとインテリジェンスのバランスを取り、エンタープライズアプリケーションをターゲットとしています。最も先進的なバージョンであるOpusは、比類のないインテリジェンスと推論を提供し、複雑なタスクや最高のベンチマークの達成に最適です。

Claude 3は、多くの高度な機能と改善点を誇っています。

  • 多言語会話の強化: スペイン語、日本語、フランス語などの言語の能力が向上しました。
  • 高度なビジョン機能:さまざまな視覚形式を処理できます
  • 拒否の最小化:不必要な拒否を減らして理解を深め、文脈の把握が改善されたことを示します
  • 拡張コンテキストウィンドウ:200Kのコンテキストウィンドウを提供しますが、顧客のニーズに基づいて100万トークンを超える入力を処理できます。
図1. Claude 3 は、以前のバージョンよりもコンテキストを認識しています。

Databricks の DBRX

Databricks DBRX は、2024 年 3 月 27 日に Databricks によってリリースされたオープンな汎用 LLM です。DBRXは、言語理解、プログラミング、数学など、さまざまなベンチマークで非常に優れています。他の既存モデルを凌駕し、類似モデルより約40%小型化している。

図2. DBRXと他のモデルとの比較。

DBRXは、きめ細かな専門家の混合(MoE)アーキテクチャによるネクストトークン予測を使用してトレーニングされているため、トレーニングと推論のパフォーマンスが大幅に向上しています。そのアーキテクチャにより、モデルは、さまざまな特殊なサブモデル(「エキスパート」)を参照することで、シーケンス内の次の単語をより正確に予測できます。これらのサブモデルは、さまざまな種類の情報やタスクを処理するのに適しています。

Googleジェミニ1.5

Google は2024年2月15日、膨大なテキスト、ビデオ、音声データを分析できる計算効率の高いマルチモーダルAIモデル、Gemini 1.5を発表した。最新モデルは、性能、効率、能力の面でより進化している。Gemini 1.5の主な特徴は、ロングコンテキストの理解における画期的な進歩である。このモデルは、最大100万トークンを一貫して処理することができる。Gemini1.5の能力は、新しいMoEベースのアーキテクチャのおかげでもある。

図3. 一般的なLLMのコンテキスト長の比較

Gemini 1.5の最も興味深い機能のいくつかを次に示します。

  • データ処理の改善: 大きな PDF、コード リポジトリ、または長いビデオをプロンプトとして直接アップロードできます。モデルは、モダリティをまたいで推論し、テキストを出力できます。
  • 複数のファイルのアップロードとクエリ: 開発者は、複数のファイルをアップロードして質問できるようになりました。
  • さまざまなタスクに使用可能: さまざまなタスクに拡張できるように最適化されており、数学、科学、推論、多言語、ビデオ理解、コードなどの分野で改善が見られます

AIによる見事なビジュアル

2024 年の第 1 四半期には、ソーシャル メディアの将来と AI の進歩に関する議論を巻き起こすほどリアルなビジュアルを作成できる生成 AI モデルが発表されました。では、話題を盛り上げるモデルについて詳しく見ていきましょう。

OpenAIのSora 

OpenAI、 ChatGPTは、2024 年 2 月 15 日に最先端のテキストからビデオへのディープ ラーニング モデルである Sora を発表しました。Soraは、テキストのユーザープロンプトに基づいて、高品質のビデオを生成できるテキストからビデオへのジェネレーターです。 

たとえば、次のプロンプトを見てください。 

「色とりどりの魚や海の生き物がはびこるサンゴ礁のゴージャスにレンダリングされたペーパークラフトの世界」 

そして、これが出力ビデオからのフレームです。 

図4. ソラが生成した動画の一コマ。

Soraのアーキテクチャは、 テクスチャ生成のための拡散モデルと構造的コヒーレンスのためのトランスフォーマーモデルを融合させることで、これを可能にしています。これまでのところ、Soraへのアクセスは、レッドチームやビジュアルアーティスト、デザイナー、映画製作者の選ばれたグループに与えられており、リスクを理解し、フィードバックを得ています。 

Stability AIの安定拡散3 

Stability AI 2024年2月22日、テキストから画像への生成モデル「 Stable Diffusion 3」の登場を発表しました。このモデルでは、拡散変圧器のアーキテクチャとフロー マッチングが混在しています。彼らはまだ技術文書をリリースしていませんが、注目すべきいくつかの重要な機能があります。

図5. プロンプトに基づく出力画像:「夜に山の頂上にある魔法使いの壮大なアニメアートワークが、カラフルなエネルギーで作られた「Stable Diffusion 3」と書かれた暗い空に宇宙の呪文を唱えています」

Stable Diffusionの最新モデルは、複数の被写体で画像を作成する際のパフォーマンス、画質、および精度を向上させます。Stable Diffusion 3は、8億から80億のパラメータまで、さまざまなモデルを提供します。これにより、ユーザーはスケーラビリティと詳細に対する特定のニーズに基づいて選択できます。

Googleルミエール 

2024年1月23日、Google 、テキストからビデオへの拡散モデルであるルミエールを発表した。ルミエールはSpace-Time-U-Net、略してSTUNetと呼ばれるアーキテクチャを使用している。STUNetは、Lumiereがビデオ内のどこに何があり、どのように動いているかを理解するのに役立つ。そうすることで、スムーズでリアルな動画を生成することができる。

図6. 「パンダは家でウクレレを弾く」というプロンプトに基づいて生成されたビデオのフレーム。

動画あたり 80 フレームを生成できる Lumiere は、限界を押し広げ、AI 空間における動画品質の新しい基準を打ち立てています。ここでは、Lumiereの特徴をいくつかご紹介します。

  • 画像からビデオへ:Lumiereは、画像とプロンプトから始めて、画像をビデオにアニメーション化できます。
  • 定型化された生成: Lumiere は、1 つの参照画像を使用して特定のスタイルのビデオを作成できます。
  • シネマグラフ: Lumiere は、画像内の特定の領域をアニメーション化して、シーンの残りの部分が静止している間に特定のオブジェクトが移動するなど、動的なシーンを作成できます。
  • ビデオインペインティング:ビデオ内の人々の服装を変更したり、背景の詳細を変更したりするなど、ビデオの一部を変更できます。

未来はここにあるようだ

また、2024年初頭には、SF映画から飛び出してきたようなAIイノベーションが数多く登場しています。以前は不可能だと言っていたことが、今は取り組まれています。未来は、以下の発見によって、そう遠くないように思えます。

イーロンマスクのニューラリンク

イーロンマスクの ニューラリンク は、2024年1月29日にワイヤレス脳チップを人間に埋め込むことに成功しました。これは、人間の脳とコンピューターをつなぐための大きな一歩です。イーロンマスクは、「テレパシー」という名前のニューラリンクの最初の製品がパイプラインにあることを共有しました。 

図7. ニューラリンクインプラント

目標は、ユーザー、特に手足の機能を失ったユーザーが、思考を通じてデバイスを簡単に制御できるようにすることです。潜在的な用途は、利便性にとどまりません。イーロンマスクは、麻痺のある人が簡単にコミュニケーションできる未来を想像しています。

ディズニーのホロタイルフロア 

2024年1月18日、ウォルト・ディズニー・イマジニアリングはホロタイル・フロアを発表しました。世界初の複数人用全方位トレッドミルグラウンドと呼ばれています。 

図8.ディズニー・イマジニアのラニー・スムートが、最新のイノベーションであるホロタイルの床でポーズをとっています。

テレキネシスのように人や物の下を移動して、没入型の仮想現実や拡張現実を体験することができます。どの方向にも歩くことができ、乗っている間は衝突を避けることができます。ディズニーのホロタイルフロアは、劇場のステージに植えて、クリエイティブな方法で踊ったり動いたりすることもできます。

AppleのVision Pro

2024年2月2日、Appleの待望のVisionProヘッドセットが市場に登場しました。仮想現実と拡張現実の体験を再定義するように設計された一連の機能とアプリケーションがあります。Vision Pro ヘッドセットは、エンターテインメント、生産性、空間コンピューティングを融合させることで、多様な視聴者に対応します。Appleは、生産性向上ツールからゲームやエンターテインメントサービスまで、600以上のアプリケーションがVision Proの発売時に最適化されたことを誇らしげに発表しました。

コグニションのデヴィン

2024年3月12日、CognitionはDevinというソフトウェアエンジニアリングアシスタントをリリースしました。Devinは、自律型AIソフトウェアエンジニアの世界初の試みです。提案を提供したり、特定のタスクを完了したりする従来のコーディングアシスタントとは異なり、Devinは、最初のコンセプトから完了まで、ソフトウェア開発プロジェクト全体を処理するように設計されています。 

新しいテクノロジーの学習、完全なアプリの構築とデプロイ、バグの発見と修正、独自のモデルのトレーニング、オープンソースと本番環境のコードベースへの貢献、さらにはUpworkなどのサイトから実際の開発作業を引き受けることもできます。 

図9. Devinを他のモデルと比較する。

Devinは、Djangoやscikit-learnなどのオープンソースプロジェクトで見つかった実際のGitHubの問題を解決するようエージェントに求める挑戦的なベンチマークであるSWE-benchで評価されました。問題の13.86%をエンドツーエンドで正しく解決しましたが、以前の最先端技術では1.96%でした。

特別賞

あまりにも多くのことが起こっているので、この記事のすべてをカバーすることは不可能です。しかし、ここにいくつかの佳作があります。 

  • NVIDIA2024年3月21日に発表されたLATTE3Dは、テキストから3D表現を瞬時に作成するAIモデルである。
  • CEOのDavid Holz氏が予告したMidjourneyの新しいテキスト動画変換ジェネレーターは、1月にトレーニングを開始し、まもなく発売される予定です。
  • AI PC革命を推進するLenovoは、2024年1月8日にE Ink Prismテクノロジーと高性能AIノートPCを搭載したThinkBook 13xをリリースしました。

私たちと一緒にAIのトレンドの最新情報を入手してください!

2024年初頭には、AIの画期的な進歩と多くの主要な技術的マイルストーンが見られました。しかし、これはAIができることの始まりに過ぎません。最新のAI開発についてもっと知りたい方は、 Ultralytics あなたをカバーしました。

GitHub リポジトリで、コンピューター ビジョンと AI に関する最新の貢献を確認してください。また、当社のソリューションページでは、製造業ヘルスケアなどの業界でAIがどのように活用されているかを確認することもできます。 

Facebookのロゴツイッターのロゴリンクトインのロゴコピー・リンク・シンボル

このカテゴリの続きを読む

AIの未来
を一緒に作りましょう!

機械学習の未来への旅を始めよう