リアルタイムコンピュータビジョン、画像処理、AI主導のイノベーションのためのオープンソースライブラリであるOpenCVのパワーをご覧ください。
OpenCVはOpen Source Computer Vision Libraryの略で、人工知能(AI)や機械学習(ML)で広く使用されている強力で多機能なオープンソースライブラリです。OpenCVは、リアルタイムのコンピュータビジョン(CV)タスク、画像処理、ビデオ解析のために特別に設計されたツールとアルゴリズムの包括的なスイートを提供する。機械学習の実務家にとって、OpenCVは視覚データを扱うための不可欠なツールキットであり、基本的な画像の読み込みや操作から複雑なシーンの理解までを可能にする。OpenCV.orgによって維持されているそのオープンソースの性質は、大規模なコミュニティと継続的な開発を促進し、この分野の基礎技術となっている。Windows、Linux、macOS、Android、iOS含む様々なプラットフォームで容易に利用可能で、Python、C++、Java、MATLABなどの言語用のインターフェースを提供している。
OpenCVは、AIやMLのパイプラインにおいて、特に視覚的な入力を扱う場合に重要な役割を果たす。OpenCVはデータの前処理のための基本的なツールを提供し、画像や動画を機械学習モデルに投入する前の重要なステップとなる。OpenCVが扱う一般的な前処理ステップには、リサイズ、色空間変換(BGRからRGBへの変換など、特定の色次数で学習させたモデルに必要なことが多い)、ガウスぼかしなどのフィルターを使ったノイズ除去、画質の向上や関連する特徴の抽出のためのさまざまな変換の適用などがある。この前処理は、ディープラーニング(DL)モデルの性能に大きな影響を与える。
OpenCVは、以下のような一般的なMLフレームワークと組み合わせて使用されることが多い。 PyTorchや TensorFlowと組み合わせてエンドツーエンドのCVアプリケーションを構築することが多い。これらのフレームワークがニューラルネットワークの構築とトレーニングに重点を置いているのに対し、OpenCVは、以下のようなモデルによって予測されるバウンディングボックスやセグメンテーションマスクの描画のような、視覚データの入出力、操作、そして多くの場合後処理を処理します。 Ultralytics YOLO.リアルタイムのビデオストリームを効率的に処理できるため、物体検出や 姿勢推定のためのリアルタイム推論など、即時の視覚分析を必要とするアプリケーションには不可欠です。
OpenCVは膨大な機能(2500以上のアルゴリズム)を提供し、古典的なコンピュータビジョン技術と最新のディープラーニングの統合の両方をカバーしている。主な機能は以下の通り:
OpenCVを関連用語と区別するのに役立つ:
OpenCVは汎用性が高いため、数多くのAI/MLアプリケーションで利用されている:
その他のアプリケーションとしては、ロボット工学(ロボット工学におけるコンピュータビジョンの統合)、監視(セキュリティアラームシステム)、拡張現実(AR)、製造業における品質管理、農業(作物の健康モニタリングなど)などがあります。Ultralytics ドキュメントには、OpenCVの関数がYOLO モデルと連携して、事前または事後の処理ステップに使用できる多くの例が記載されています。