Image Solution
画像解析の課題、ひとつの手法で解決しようとしていませんか?
カスタム学習モデルによる実績ある高速処理から、言語指示で動くVision LLM、画像特徴量による類似検知まで。Sigfossは課題に応じて最適な技術を選び、組み合わせます
Sigfossは、身分証明書のOCRや物体検知といったドメイン特化型の画像認識ソリューションを実運用レベルで提供してきました。この実績をベースに、Vision LLMや画像基盤モデルといった新しい技術を加え、お客様の課題に最もフィットする画像解析システムを構築します。
画像解析における3つのアプローチ
画像解析に万能の手法はありません。対象が決まっている定形処理、事前にルールを定義しにくい柔軟な解析、教師データなしで画像同士を比較する検知。それぞれに適した技術があり、Sigfossはこれらを使い分け、必要に応じて組み合わせます。
カスタム学習モデル
対象ドメインに特化した専用モデルを設計・学習し、高速かつ高精度な認識を実現します。Sigfossが長年にわたり構築してきたアプローチで、eKYC(身分証明書読み取り)や物体検知で多くの実績があります。
強み:決まったドメインでは速度・精度ともに他のアプローチを凌駕
Local Vision LLM
Vision LLMの登場により、モデルの学習なしに、自然言語で指示するだけで画像を解析できるようになりました。フォーマットがばらばらな請求書の読み取り、写真に写っている状況の解釈など、従来であれば学習データの収集・前処理・後処理が必要だった作業を大幅に簡略化できます。
ただし、パブリックなAPIサービスを利用する場合、処理量に比例するコストやデータのセキュリティが懸念となります。Sigfossでは自社GPUクラスタ上でVision LLMをローカル実行するソリューションを提案し、コストとセキュリティの両方を解決します。
強み:モデル学習不要、言語指示による柔軟な解析、ローカル実行で安全
画像基盤モデル
事前学習済みの画像基盤モデルを使い、画像から高次元の特徴量を抽出します。抽出した特徴量同士の距離を計算することで、画像の類似検索やインスタンス単位での一致検出が可能になります。教師データが少ない、あるいは存在しない対象に対しても適用でき、異常検知や部品照合にも活用できます。
強み:教師データ不要で類似度判定、少量データでも即座に運用開始可能
目的に応じた技術の使い分け
「どのモデルが優れているか」ではなく、「どの課題にどの技術が適しているか」が重要です。以下の表は、それぞれのアプローチの特性と向き不向きを整理したものです。
| アプローチ | 得意なこと | 適した用途 | 教師データ |
|---|---|---|---|
| カスタム学習モデル | 定義されたクラスや異常を高速・安定的に判定。速度と精度で最も優位 | eKYC、製品検査、分類、計数、良品・不良品判定 | 必要(大量) |
| Local Vision LLM | 画像内容を言語で理解し、指示に応じて柔軟に解析結果を出力 | 帳票読み取り、現場写真の解釈、探索的な画像理解 | 不要 |
| 画像基盤モデル | 画像の特徴量を抽出・比較し、類似度や一致度を数値化 | 類似画像検索、同一オブジェクト検知、異常検知、部品照合 | 不要〜少量 |
なぜ「ローカル実行」にこだわるのか
Vision LLMや画像基盤モデルは強力ですが、パブリックなクラウドAPIを経由して利用する場合、処理量に比例してコストが膨らみ、画像データを外部に送信するセキュリティ上の懸念も生じます。
Sigfossは自社GPUクラスタ上でこれらのモデルをローカル実行する環境を構築・運用しています。これにより、大量処理時のコストを予測可能な範囲に収めながら、機密性の高い画像データを社外に出さずに解析することができます。クラウドソリューションとの組み合わせにより、処理基盤としてのスケーラビリティも確保しています。
解析フローの設計
Sigfossが提供するのはモデル単体ではなく、画像の入力から結果の活用までを含むシステム全体の設計です。必要に応じて複数のモデルを組み合わせるハイブリッド構成にも対応します。
教師データが十分にある定形処理はカスタムモデルで高速化し、教師データが少ない対象は基盤モデルで特徴量を比較し、判断理由や柔軟な解釈が必要な場面ではVision LLMを利用する。課題に応じて技術を使い分けることで、現実の業務に耐える画像解析を実現します。
活用例
-
eKYC・身分証明書・カタログの読み取りカスタム学習モデルにより、文字認識・構造解析を高速かつ高精度に処理。月間100万件規模の実運用実績があります。
-
帳票・請求書の読み取りフォーマットが統一されていない帳票や請求書を、Vision LLMの自然言語指示で柔軟に解析。個別の学習データ作成が不要です。
-
人・物体の検知・分類・セグメンテーション画像内の物体の検知、分類、画像分割(セグメンテーション)など、規定されたオブジェクトを高速・高精度に処理します。 人の骨格を検知し姿勢を推定するような応用にも対応します。
-
類似画像検索・異常検知画像基盤モデルの特徴量を用いて、類似画像の検索、同一オブジェクトの照合、正常パターンからの逸脱検知を行います。
-
現場写真・記録画像の解析Vision LLMを使い、写真の内容確認、状況説明、条件に合う箇所の抽出を言語指示で実行します。
Sigfossが提供すること
PoCから実運用まで、画像解析に必要なモデル選定、データ設計、推論基盤、評価方法を一貫して支援します。ローカル環境での実行や既存システムとの連携にも対応します。
画像解析方針の設計
モデル選定・検証
推論パイプライン構築
精度評価・運用改善
一つのAIではなく、課題に合わせた画像解析を
実績あるカスタムモデル、柔軟なVision LLM、汎用的な画像基盤モデル。
Sigfossは複数の選択肢から最適な技術を選び、業務にフィットする画像解析ソリューションを提供します。
定形処理の高速化から、Vision LLMによる柔軟な解析、画像基盤モデルを使った類似検知まで。
貴社の課題に合わせてご提案します。