アダコテックでCTOをしている伊藤です。
2025年7月13日に行われたCVPR2025読み会(前半)に参加してきました。
この勉強会はコンピュータビジョン勉強会@関東が主催しておりCVPR2025で採択された論文を紹介する勉強会で、7月の前半と8月の後半の2回開催されます。(コンピュータビジョン勉強会@関東は、他にも様々なLTや勉強会を定期的に企画しています。)
この技術ブログでは、私が取り上げた論文に加えて他の登壇者の方々が取り上げた論文を紹介したいと思います。
私が発表した論文
私は「AnomalyNCD: Towards Novel Anomaly Class Discovery in Industrial Scenarios」というタイトルの論文を紹介しました。
画像内の異常を検出したり識別したりする手法はさまざまな提案がされています。しかし、異常の傾向を評価・分析する手法はあまり提案されていません。
従来の手法は大きく二つに分けられます。

ひとつは、上記図aのように異常検知の結果をもとに重みづけした特徴量でクラスタリングする方法です。しかし、この方法では欠陥のわずかな見た目の違いを、事前知識なしで分類するのは難しいです。
もうひとつは、上記図bのように既知のクラス分類情報を参考に未知の画像をクラスタリングする方法です。ただし、これは画像全体に対象が映っていることが前提となっており、画像内に局所的に存在する欠陥情報を扱うのには適していません。
本論文では、既知のわずかな欠陥情報から、背景情報の影響を受けない不良部位の特徴を計算し、クラスタリングする方法を提案しています。

製造業向けにプロダクトを提供する当社にとって有用な知見だと考え、この論文を選びました。
当日のスライドはこちらにありますので、興味のある方はぜひご覧ください。
他の方々が発表した論文
📄 Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Vision-Language Models
論文はこちら
解説
オープンソースのVision-Language Model(VLM)「Molmo」と、音声由来キャプション付き画像データセット「PixMo」を提案した論文です。
従来のGPT-4oやGemini-1.5 Proは重みやコードが非公開ですが、Molmoは完全に公開されています。データ収集ではLLM生成を混ぜず、高品質なキャプションを作成しています。キャプションに音声情報を活用することで、多様性を確保しています。
感想
クローズド化が進む中、オープンVLMへの挑戦が素晴らしいと感じました。
今後、利用者が増え、クローズドモデルに匹敵するまで拡張されていくのが楽しみです。
🐆 The PanAf-FGBG Dataset: Understanding the Impact of Backgrounds in Wildlife Behaviour Recognition
論文はこちら
解説
野生動物行動認識における「背景」の影響(ショートカット学習)を調査するデータセットを構築した論文です。背景・前景を分離した5070サンプルを用いて、同一シーン・異なるシーンの評価が可能です。背景のみで高精度が出てしまう問題に対し、背景差分や埋め込み空間での差分を利用する対策案を提示しています。
感想
どのタスクにも背景問題は存在するのだと改めて感じました。
背景除去や前景重視のアイデアは現実的で、今後は逆に背景情報を活用する研究につながりそうです。
📷 VGGT: Visual Geometry Grounded Transformer
論文はこちら
解説
SfM(Structure from Motion)とMVS(Multi-View Stereo)を統合し、エンドツーエンドで3D復元を行うTransformerアーキテクチャを提案しています。多段処理によるエラー伝搬を防ぎ、高速かつ高精度なカメラ姿勢推定・3D復元を実現しています。視覚幾何学的知識を組み込んでいる点が特徴です。
感想
既存の複雑なパイプラインを一気に簡素化したのは見事だと思います。
「ディープでポン」がここまで来たかという印象で、精度と汎用性のバランスに期待したいです。
🧍 HiPART: Hierarchical Pose AutoRegressive Transformer for Occluded 3D Human Pose Estimation
論文はこちら
解説
2Dスケルトンのスパース性やオクルージョンに対応するため、階層的かつ密なスケルトン表現を用いる3Dヒューマンポーズ推定手法を提案しています。時系列・静止画像の両方に対応し、骨格情報を階層的に構造化することで精度を向上させています。
感想
スパースな2D情報の限界を見抜き、構造を強化するアプローチが秀逸だと感じました。
🚗S4-Driver: Scalable Self-Supervised Driving Multimodal Large Language Modelwith Spatio-Temporal Visual Representation
論文はこちら
解説
画像とテキスト(過去の状況やドライバーの意図)を入力し、将来の車両位置(X,Y)を出力する自動運転支援のVLM応用例です。2D画像から3D表現に変換し、不要な空間を剪定する工夫もされています。エッジケース(落下物や予期せぬ障害物)への対応を目指していますが、十分な結果はまだ示されていません。自己教師ありで3D表現を学習しています。
感想
従来の3Dアノテーションに依存せず、VLMで意図を反映する発想が面白いです。
特にエッジケースへの対応意識が高い点は好印象ですが、実際の評価が不足している点は惜しいと感じました。
🎨 TKG-DM: Training-free Chroma Key Content Generation Diffusion Model
論文はこちら
解説
背景と前景を分離したレイヤー画像を生成できるディフュージョンモデルを提案しています。テキスト入力で一括生成されがちなAI画像の欠点を克服し、レイヤーごとの編集を可能にしています。追加学習なし(training-free)で動作し、データ収集にはLLMを活用しています。
感想
制作現場の「レイヤー編集したい」というニーズに直球で応えた良い提案です。
training-freeで動作するのも嬉しいポイントですが、データ準備コストが依然として大きい点は課題だと思います。
おわりに
アダコテックはこうしたイベントや社内勉強会への参加を積極的に奨励し、開発部全体のスキル向上を推進しています。
少しでも興味を持っていただけたらぜひご連絡下さい。カジュアルに面談しましょう!