2024年第1四半期からのエキサイティングなAIイノベーションに注目。OpenAIのSora AI、Neuralinkのブレイン・チップ、最新のLLMなどのブレークスルーを取り上げる。
AIコミュニティは、ほぼ毎日のように見出しを飾っているようです。2024 年の最初の数か月は、エキサイティングで、新しい AI イノベーションが満載でした。強力な新しい大規模言語モデルから人間の脳インプラントまで、2024年は素晴らしい年になりそうです。
AIが産業を変革し、情報をより身近なものにし、人間の心と機械の融合に向けた第一歩を踏み出しています。2024 年の第 1 四半期を巻き戻して、わずか数か月で達成された AI の進歩を詳しく見てみましょう。
2024年第1四半期には、膨大な量のテキストデータに基づいて人間の言語を理解、生成、操作するように設計された大規模言語モデル(LLM)が注目されました。多くの大手テクノロジー企業が独自のLLMモデルをリリースし、それぞれが独自の機能を備えています。GPT-3のような以前のLLMの驚異的な成功は、この傾向に影響を与えました。ここでは、2024年初頭にリリースされる最も注目すべきLLMのリリースをいくつか紹介します。
Anthropic 2024 年 3 月 14 日に Claude 3 をリリースしました。Claude 3 モデルには、Opus、Sonnet、Haiku の 3 つのバージョンがあり、それぞれ異なる市場と目的に対応しています。最速のモデルである Haiku は、高速で基本的な応答に最適化されています。Sonnetは、スピードとインテリジェンスのバランスを取り、エンタープライズアプリケーションをターゲットとしています。最も先進的なバージョンであるOpusは、比類のないインテリジェンスと推論を提供し、複雑なタスクや最高のベンチマークの達成に最適です。
Claude 3は、多くの高度な機能と改善点を誇っています。
Databricks DBRX は、2024 年 3 月 27 日に Databricks によってリリースされたオープンな汎用 LLM です。DBRXは、言語理解、プログラミング、数学など、さまざまなベンチマークで非常に優れています。他の既存モデルを凌駕し、類似モデルより約40%小型化している。
DBRXは、きめ細かな専門家の混合(MoE)アーキテクチャによるネクストトークン予測を使用してトレーニングされているため、トレーニングと推論のパフォーマンスが大幅に向上しています。そのアーキテクチャにより、モデルは、さまざまな特殊なサブモデル(「エキスパート」)を参照することで、シーケンス内の次の単語をより正確に予測できます。これらのサブモデルは、さまざまな種類の情報やタスクを処理するのに適しています。
Google は2024年2月15日、膨大なテキスト、ビデオ、音声データを分析できる計算効率の高いマルチモーダルAIモデル、Gemini 1.5を発表した。最新モデルは、性能、効率、能力の面でより進化している。Gemini 1.5の主な特徴は、ロングコンテキストの理解における画期的な進歩である。このモデルは、最大100万トークンを一貫して処理することができる。Gemini1.5の能力は、新しいMoEベースのアーキテクチャのおかげでもある。
Gemini 1.5の最も興味深い機能のいくつかを次に示します。
2024 年の第 1 四半期には、ソーシャル メディアの将来と AI の進歩に関する議論を巻き起こすほどリアルなビジュアルを作成できる生成 AI モデルが発表されました。では、話題を盛り上げるモデルについて詳しく見ていきましょう。
OpenAI、 ChatGPTは、2024 年 2 月 15 日に最先端のテキストからビデオへのディープ ラーニング モデルである Sora を発表しました。Soraは、テキストのユーザープロンプトに基づいて、高品質のビデオを生成できるテキストからビデオへのジェネレーターです。
たとえば、次のプロンプトを見てください。
「色とりどりの魚や海の生き物がはびこるサンゴ礁のゴージャスにレンダリングされたペーパークラフトの世界」
そして、これが出力ビデオからのフレームです。
Soraのアーキテクチャは、 テクスチャ生成のための拡散モデルと構造的コヒーレンスのためのトランスフォーマーモデルを融合させることで、これを可能にしています。これまでのところ、Soraへのアクセスは、レッドチームやビジュアルアーティスト、デザイナー、映画製作者の選ばれたグループに与えられており、リスクを理解し、フィードバックを得ています。
Stability AI 2024年2月22日、テキストから画像への生成モデル「 Stable Diffusion 3」の登場を発表しました。このモデルでは、拡散変圧器のアーキテクチャとフロー マッチングが混在しています。彼らはまだ技術文書をリリースしていませんが、注目すべきいくつかの重要な機能があります。
Stable Diffusionの最新モデルは、複数の被写体で画像を作成する際のパフォーマンス、画質、および精度を向上させます。Stable Diffusion 3は、8億から80億のパラメータまで、さまざまなモデルを提供します。これにより、ユーザーはスケーラビリティと詳細に対する特定のニーズに基づいて選択できます。
2024年1月23日、Google 、テキストからビデオへの拡散モデルであるルミエールを発表した。ルミエールはSpace-Time-U-Net、略してSTUNetと呼ばれるアーキテクチャを使用している。STUNetは、Lumiereがビデオ内のどこに何があり、どのように動いているかを理解するのに役立つ。そうすることで、スムーズでリアルな動画を生成することができる。
動画あたり 80 フレームを生成できる Lumiere は、限界を押し広げ、AI 空間における動画品質の新しい基準を打ち立てています。ここでは、Lumiereの特徴をいくつかご紹介します。
また、2024年初頭には、SF映画から飛び出してきたようなAIイノベーションが数多く登場しています。以前は不可能だと言っていたことが、今は取り組まれています。未来は、以下の発見によって、そう遠くないように思えます。
イーロンマスクの ニューラリンク は、2024年1月29日にワイヤレス脳チップを人間に埋め込むことに成功しました。これは、人間の脳とコンピューターをつなぐための大きな一歩です。イーロンマスクは、「テレパシー」という名前のニューラリンクの最初の製品がパイプラインにあることを共有しました。
目標は、ユーザー、特に手足の機能を失ったユーザーが、思考を通じてデバイスを簡単に制御できるようにすることです。潜在的な用途は、利便性にとどまりません。イーロンマスクは、麻痺のある人が簡単にコミュニケーションできる未来を想像しています。
2024年1月18日、ウォルト・ディズニー・イマジニアリングはホロタイル・フロアを発表しました。世界初の複数人用全方位トレッドミルグラウンドと呼ばれています。
テレキネシスのように人や物の下を移動して、没入型の仮想現実や拡張現実を体験することができます。どの方向にも歩くことができ、乗っている間は衝突を避けることができます。ディズニーのホロタイルフロアは、劇場のステージに植えて、クリエイティブな方法で踊ったり動いたりすることもできます。
2024年2月2日、Appleの待望のVisionProヘッドセットが市場に登場しました。仮想現実と拡張現実の体験を再定義するように設計された一連の機能とアプリケーションがあります。Vision Pro ヘッドセットは、エンターテインメント、生産性、空間コンピューティングを融合させることで、多様な視聴者に対応します。Appleは、生産性向上ツールからゲームやエンターテインメントサービスまで、600以上のアプリケーションがVision Proの発売時に最適化されたことを誇らしげに発表しました。
2024年3月12日、CognitionはDevinというソフトウェアエンジニアリングアシスタントをリリースしました。Devinは、自律型AIソフトウェアエンジニアの世界初の試みです。提案を提供したり、特定のタスクを完了したりする従来のコーディングアシスタントとは異なり、Devinは、最初のコンセプトから完了まで、ソフトウェア開発プロジェクト全体を処理するように設計されています。
新しいテクノロジーの学習、完全なアプリの構築とデプロイ、バグの発見と修正、独自のモデルのトレーニング、オープンソースと本番環境のコードベースへの貢献、さらにはUpworkなどのサイトから実際の開発作業を引き受けることもできます。
Devinは、Djangoやscikit-learnなどのオープンソースプロジェクトで見つかった実際のGitHubの問題を解決するようエージェントに求める挑戦的なベンチマークであるSWE-benchで評価されました。問題の13.86%をエンドツーエンドで正しく解決しましたが、以前の最先端技術では1.96%でした。
あまりにも多くのことが起こっているので、この記事のすべてをカバーすることは不可能です。しかし、ここにいくつかの佳作があります。
2024年初頭には、AIの画期的な進歩と多くの主要な技術的マイルストーンが見られました。しかし、これはAIができることの始まりに過ぎません。最新のAI開発についてもっと知りたい方は、 Ultralytics あなたをカバーしました。
GitHub リポジトリで、コンピューター ビジョンと AI に関する最新の貢献を確認してください。また、当社のソリューションページでは、製造業やヘルスケアなどの業界でAIがどのように活用されているかを確認することもできます。