はじめに
関東CV勉強会が企画した第66回 コンピュータビジョン勉強会に参加してきました。
今回は「世界モデル」に関連する論文を扱う勉強会で、私は「WorldPrediction: A Benchmark for High-level World Modeling and Long-horizon Procedural Planning」という論文の紹介を行いました。
この記事では、私が紹介した論文の内容と、当日の勉強会の様子についてまとめます。 (論文内容を説明する際に掲載している図表は当該論文からの引用となっております。)
どういう論文を紹介したの?
一言で言うと、「高レベル世界モデル向けのベンチマークを作ったよ!」という論文です。
従来の世界モデル研究は、直感物理やロボット制御など比較的短い時間スケールや具体的な行動での予測を対象としたものが中心となっています。
例えば、交差点に近づいたので左折するためにハンドルを左に切る、みたいな感じです。
一方、この論文ではより長い時間スパンでかつ意味的にまとまった行動を扱うものを「高レベルな世界モデル」と定義し、それを評価するためのベンチマークデータセットを構築したという論文です。
さらにこの論文では、ベンチマークデータセットを作成するにあたり下記の3点が意識されていました。
多様なドメインの網羅
料理、機械修理、家具組み立て、医療行為など、5つの既存データセット(COIN, CrossTask, EgoExo4D, EPIC-KITCHENS-100, IKEA-ASM)を統合して多様なドメインに対応しています。
長期的な計画の評価(Long-horizon)
従来の3〜4ステップ程度ではなく、3〜10ステップの長期的な行動系列を対象としています。
識別的タスク形式の採用
生成結果の見た目ではなく、選択肢から正解を選ぶ形式にすることで、行動や遷移を理解できているかを評価しやすくしています。
そもそも、世界モデルって何?
自動車を運転していて信号が赤になった時を考えて下さい。
この時、運転手は別方向からの自動車の通行がはじまると判断して、ブレーキを踏みます。
これは、
「信号が赤である」という状態に対して、
「ブレーキを踏む」という行動を行い、
「車が停止している」という次の状態へと移った
と定義できます。
世界モデルは、このように「今の状態で、ある行動を取ると、次にどんな状態になるのか」という関係を内部に持ち、将来の状態を予測するための考え方です。
紹介した論文では、下図のような構成で整理しています。

各要素がどのような意味を持っているかというと、下記の様な意味を持っています
潜在状態 (S)
直接は観測できない「世界の本当の状態」
観測 (O)
画像や動画など。潜在状態 S を不完全に写し取ったもの
行動 (A)
「電池を抜く」「ネジを外す」といった、意味を持つ行動
遷移 (T)
行動 A によって状態がどのように変化するかを表す確率的な関係
従来研究では、不完全な情報である観測(O)から次の状態を予測するため、すべての行動は同じ時間間隔で区切られ、一定のリズムで世界が変化するといった前提を設けてきました。
一方で、高レベルな世界モデルが扱う行動は、「ネジを外す」「電池を取り出す」といった、
完了までにかかる時間が状況によって異なってきます。
そのため、高レベルな世界モデルを実現するためには、行動を時間で細かく区切るのではなく、行動が始まってから終わるまでを1つの単位として扱うという考え方が重要になってくるため、問題設定が従来的な世界モデルと変わってくると著者は主張しています。
どんなデータセットを作ったの?
本論文では、能力の違いを切り分けるために、2つのサブタスクを用意しています。
WorldPrediction-WM (World Modeling)
初期状態と最終状態のペアを見て、その変化を引き起こした「単一の行動」を4択から選ぶタスクです。
下記例のように電池を取り外す前後のシーンをつなぐアクションを映像のみから予測するような問題設定です。

WorldPrediction-PP (Procedural Planning)
初期状態から最終目標に至るまでに必要な、3〜10ステップにわたる行動の順序として正しいものを選ぶタスクです。
下記例のように風車を完成させるまでの手順の並び替えを映像のみを判断して行うような問題設定です。

Procedural Planningの例
これらは、単に「何が映っているか」を認識するだけでなく、
- 行動が環境にどのような影響を与えるか
- 目標達成のためにどのような順序で行動すべきか
といった点を問う構成になっています。
また、データセットを作成するにあたり、二つの工夫を行っています。
ショートカットを防ぐための工夫
AIモデルは、背景や視点といった表面的な情報を手がかりに、正解を推測するような挙動を取ることがあります。
WorldPrediction では、これを防ぐための工夫が取り入れられています。
正解の選択肢には、初期・最終状態とは別の場所・別の視点で撮影された同一行動(Action Equivalent)が使われます。
一方で、不正解の選択肢はその同じ環境で行われた別の行動から選ばれます。
これにより、背景の一致だけでは正解できず、行動そのものの意味を理解する必要があります。
品質管理とフィルタリングの工夫
人間でも判断が難しい問題を避けるため、以下のようなフィルタリングが行われています。
- 視点変化が大きすぎるサンプルの除外
- 手元が見えない、作業内容が分かりにくいサンプルの除外
- 環境に変化がなく、人の姿勢だけが変わっているサンプルの除外
最終的な問題数は、
- WorldPrediction-WM:825問
- WorldPrediction-PP:570問
という構成となっています。
ベンチマーク結果
本論文では、既存のVLMなどがどの程度暗黙的に世界モデルの概念を内包できているか、という観点で評価を行っており、、VLM(Qwen2.5-VL, GPT-4V等)、Socratic LLM(画像を言語化して推論)、Video Diffusion(未来フレームを生成して比較)を評価対象としています。
結果は、

の様になり、高レベルな行動の因果関係や、長い行動系列を安定して扱うことは、現在のモデルにとって難しい課題であることが示されました。
論文紹介のまとめ
人間が正解できることを確認したうえでデータセットを構築し、その上でモデル性能を評価している点は、非常に丁寧な取り組みだと感じました。
一方で、ファインチューニングなしのモデルを用いた評価であるため、性能が伸びにくい点はある程度想定できる結果でもあります。
それでも、「今どこまでできていて、どこが難しいのか」を定量的に示せるようになった意義は大きく、今後の手法によってどこまで改善できるのかは興味深いところです。
当日の様子
その他にも興味深い紹介が色々ありましたので紹介します。
tomoaki_teshima さんからは、World Models (2018) や Dreamer (2019) など、世界モデル研究の原点ともいえる論文の紹介がありました。
Hidehisa Arai さんは、分布外データに対するモデルの振る舞いについて発表されており、赤信号状態で「進め」と指示すると、信号が青になる未来を予測してしまうというような現象の紹介とその対策を紹介していました。
Shin-kyotoさんが紹介した論文では、具体行動(trajectory)を予測する前に、その背景(reasoning)を推論させると予測精度が上がるというような主張を行っていました。
発表の後は懇親会で美味しくピザを頂きました。

おまけ
以上のような内容を当日は「やる夫で学ぶ WorldPrediction」というタイトルで発表しました。

会場で笑いがなければ封印するつもりでしたが、一応リアクションはあったので資料を公開しておきます。