アダコテック技術ブログ

アダコテックのエンジニアが発信する技術ブログです

CVPR勉強会(後半)参加してきました!

はじめに

アダコテックでCTOをしている伊藤です。2025年7月13日に行われたCVPR勉強会(前半)に続き、2025年8月24日に開催された「第64回 コンピュータビジョン勉強会@関東 CVPR2025読み会(後半)」に参加しました。

この勉強会は、コンピュータビジョン分野で世界最高峰の国際会議であるCVPR (Computer Vision and Pattern Recognition) で2025年に採択された論文を紹介し合う、非常に内容の濃いイベントです。主催は「コンピュータビジョン勉強会@関東」で、定期的に最新技術の共有会やLT大会などを企画されています。

会場の様子と雰囲気

渋谷にあるDeNA/IRIAM様に会場を提供いただきました。

会場内は広々としており、快適な環境でセッションに集中することができました。

また、懇親会では豪華な食事を振る舞っていただき、参加者同士の交流も一層弾んだように思いました。(この手の交流会でIPAが出てくるのは初めて見ました。)

発表内容サマリー

当日は、CVPR2025に採択された幅広いテーマの論文が10本紹介されました。ここでは各発表の概要を簡潔にまとめます。

時間 発表者 論文タイトル 概要
13:20-13:45 takmin R-SCoRe: Revisiting Scene Coordinate Regression for Robust Large-Scale Visual Localization シーン座標回帰(SCR)を用いた視覚的自己位置推定において、ロバスト性を大幅に向上させる新手法。共視認性グラフに基づく大域的エンコーディングやデータ拡張、深度情報を考慮した損失関数を導入し、照明変化の激しい大規模な環境でも高精度な推定を実現します。
13:45-14:10 Takeo Shibata MotionPro: A Precise Motion Controller for Image-to-Video Generation 1枚の画像から動画を生成するI2V (Image-to-Video)技術において、物体の動きを精密に制御する手法。領域ごとの軌跡とモーションマスクを用いることで、被写体とカメラの動きを分離し、より自然で意図通りの動画生成を可能にします。
14:10-14:35 abemii MegaSaM: Accurate, Fast, and Robust Structure and Motion from Casual Dynamic Videos 日常的に撮影された手持ちカメラの動画など、視差が少なく動的な物体が含まれる悪条件下でも、カメラの姿勢とシーンの3D構造を正確かつ高速に復元する深層学習ベースのSLAM手法です。
14:50-15:15 s_aiueo32 Linguistics-aware Masked Image Modeling for Self-supervised Scene Text Recognition 画像内の文字認識(STR)において、視覚情報だけでなく言語的な文脈情報も活用する自己教師あり学習手法。マスクされた画像領域を再構築する際に、言語的な整合性も考慮することで、低品質な画像でも高い認識精度を達成します。
15:15-15:40 kzykmyzw Gaze-LLE: Gaze Target Estimation via Large-Scale Learned Encoders 人物が画像のどこを見ているかを推定する視線追跡タスクにおいて、大規模な事前学習済みモデル(DINOv2)を特徴抽出器として活用する新しいフレームワーク。少ない学習パラメータで高精度な推定を実現します。
15:40-16:05 Kenji RoboSpatial: Teaching Spatial Understanding to 2D and 3D Vision-Language Models for Robotics ロボットが周囲の環境を空間的に理解するための大規模データセット。2D画像と3Dスキャンデータを組み合わせ、物体の位置関係や行動可能性(アフォーダンス)を学習させることで、ロボットの高度な操作を支援します。
16:05-16:30 caprest SimLingo: Vision-Only Closed-Loop Autonomous Driving with Language-Action Alignment 自動運転において、カメラ映像のみを用いる視覚言語行動モデル。人間の言語指示を理解し、運転行動に反映させる「Action Dreaming」というタスクを導入することで、説明可能で高性能な自動運転を実現します。
16:45-17:10 frkake Removing Reflections from RAW Photos 写真に写り込んだ反射を除去する技術。RAW画像の特性を利用し、反射成分と本来のシーンをより正確に分離することで、自然な反射除去を実現します。
17:10-17:35 YutaKikuchi DroneSplat: 3D Gaussian Splatting for Robust 3D Reconstruction from In-the-Wild Drone Imagery ドローンで撮影した映像から、ロバストな3Dシーンを再構築する手法。3D Gaussian Splattingをベースに、ドローン特有の撮影条件(高速な動き、視点の変化)に対応し、高品質な3Dモデルを生成します。
17:35-18:00 Keiichi-Ito Towards Zero-Shot Anomaly Detection and Reasoning with Multimodal Large Language Models (詳細は後述)

私が紹介した論文

今回私は、『Towards Zero-Shot Anomaly Detection and Reasoning with Multimodal Large Language Models』という論文を紹介しました。

この研究では、学習データに存在しない未知の異常を検知する手法である「Zero-Shot異常検知(ZSAD)」に、マルチモーダル大規模言語モデル(MM-LLM)を応用し、検知された異常現象に対して説明を行う仕組みを提案しています。

以下の説明にある図表はこの論文から引用したものです。

arxiv.org

また、当日の発表スライドは下記にあります。

speakerdeck.com

論文紹介を選んだ背景

製造現場やインフラ点検において、画像を用いた異常検知AIはすでに幅広く活用されています。

しかし従来のモデルが提供するのは「異常があるか否か」の二値的な判定にとどまる一方で、実際の現場では「どこが」「なぜ」異常なのかといった説明が求められる場面が少なくありません。

また、汎用的なマルチモーダル大規模言語モデル(MM-LLM)であるGPT-4VやLLaVAは、一般画像理解には強みを持ちながらも、異常検知のような細部への視覚的注意には弱く、原因推定を含めた説明能力に課題が残っています。

さらに、製造業での実利用を考えると、大規模モデルに伴う計算コストも無視できません。

このように ①説明力の不足、②視覚的注意の弱さ、③計算効率の問題 という三つの課題を背景として、今回紹介する論文 “Towards Zero-Shot Anomaly Detection and Reasoning with Multimodal Large Language Models” が提案されています。

論文手法の概要

この論文の核となるのは、Anomaly-OneVision(Anomaly-OV) という新しいアーキテクチャです。

既存のMM-LLMに対して下記のような工夫を加えることで、「説明力の不足」「視覚的注意の弱さ」「計算効率の問題」といった問題を解決しています。

Look-Twice Feature Matching(LTFM)

1回の視覚入力で説明を行う従来のVLMと異なり、2段階の視覚認識を導入。正常と異常の特徴をゼロショットで比較し、異常度を定量化します。

Visual Token Selector

異常検出で得られた重要な視覚トークンを選別し、それをQ-Former経由でMM-LLMに入力することで、説明生成の精度を高めます。

Anomaly-Instruct-125k データセット

異常検知特化の画像+説明付きプロンプトを12.5万件収録した独自データセットを構築。既存データセット(VisA、MVTec-AD、Real-IADなど)をもとにLLMで質問応答ペアを生成し、異常説明の学習に活用しています。

このような工夫によって、既存MM-LLMのパラメータを凍結したまま、入力変換と追加モジュールのみで高い説明性能を実現しています。

論文の実験結果

この論文では、LTFMのゼロショット異常検知手法との比較を行っています。

下記の表のように他のゼロショット異常検知手法と比べて、製造業系データ、医療系データの両面で高い性能を実現できています。

Anomaly-OVという仕組み全体の性能を比較するとGPT-4Vといった大規模モデルより高い性能を達成しています。

私が行った実験結果

Gitでコードも公開されているので、Anomaly-Instruct-125k に含まれていない完全未知なデータを入力した場合の動作検証を行ってみました。定性的な評価になりますが、完全未知なデータに対してはGPT-5の方が正しい説明を行っているような印象を受けます。

このことから、

  1. LTFM+VT Selectorという構成がMM-LLMの性能を引き上げる要因ではあるものの、超大規模なMM-LLMは汎化性能が極めて高く、未知なデータに対して強い
  2. 質問文に応じて回答の質が変わってくるので、質問文をどのように与えるのかという課題が残っている

ということが考えられます。

1については、GPT系のOSSモデルも公開されてきているので、そのようなモデルと組み合わせていくことでより高い性能を実現できると思います。

2については、前段で質問生成の仕組みを入れるか、RAGのような仕組みで過去の類似質問文から最適な質問文を見つける工夫が必要になってくるかもしれません。

まとめ

今回のCVPR勉強会(後半)は、前回にも増して多岐にわたるテーマの発表があり、コンピュータビジョン分野の急速な進展を改めて実感する一日となりました。特に、3D再構築、動画生成、自動運転、そして言語モデルとの融合といったトレンドは、今後ますます重要になっていくでしょう。

私自身が発表した技術を含め、製造業をはじめとする多くの産業に大きな変革をもたらす可能性を秘めています。今後もこの分野の動向を注視し、実社会への応用を目指して研究開発を進めていきたいと考えています。