アダコテック技術ブログ

株式会社アダコテックの技術ブログです。

画像の認識・理解シンポジウム(MIRU2023@浜松)へ参加しました

本記事は2023年7月25日から28日まで開催されたMIRU2023への参加報告です。MIRU2023の4日間はすべて快晴という路面でうなぎが焼けるのでは?という暑さでありながらも、老若男女問わず非常に多くの発表者および聴講者であふれ、会場周辺では研究に関する議論の絶えない非常に内容の濃い4日間でありました。
 アダコテックからは井上と松本の2名が現地に訪れ、最新の動向を調査しました。 本記事ではその動向調査のまとめと、異常検知周辺の興味深い研究の一部をご紹介します。

発表タイトルで感じる研究者の関心領域

まずはざっくりと研究者の関心領域について可視化してみましょう。 次に示す図は発表タイトルを雑形態層解析に放り込み作成したワードクラウド(頻出する単語が大きく表示された図)です。詳細を確認すると、自分は下記の理解を得ました。

MIRU2023の発表タイトルで作成したワードクラウド

  • 【入力】対象データは 静止画(Image) >> 動画(Video)
    • 動画解析も静止画解析の延長にあるので同じとも言えますが、動画に手を出すとタスクが静止画の比ではないほど重くなりがちなので、静止画対象が多いのは自然です。
  • 【出力】解いたタスクは Detection >> Classification ≒ Generation > Segmentation
    • 最も解きやすい検出タスクが多く、ついで分類/生成系が人気です。人も大変なセグメンテーションからはやや目をそらしがち?
  • 【目的】対象アプリケーションは3Dや人の行動認識系が多い。オブジェクトと人の分析はほぼ同等程度の規模感。
    • Dという表示は3Dの雑形態素解析結果で表示されています。人の行動を表す単語としては姿勢, Action Recognition, Poseなどに単語が分散していますが、総合すると多い領域で、雑多なラベルであるオブジェクトと近い規模がありそうです。
  • 【手法】深層学習系の頻出キーワードは Transformer > NeRF > CLIP > Auto Encoder
    • こちらも近年の人気に従い順当な結果で、Transformerの画像処理分野への応用が期待されていることが伺えます。

実感としてもMIRU2023では人の動作に関する認識や3Dアプリケーションへの応用が多く、認識系ではTransformerやCLIPを用いた研究、3DではNeRF関連の研究が非常に多かったです。

機械学習の研究領域と課題

さて、早速研究の紹介と行きたいところですが、一旦ここでは我々の関心領域において、研究領域がどのようになっているのかまず簡単に紹介したいと思います。一般的な機械学習で最終的なモデルの推論結果を得るまで大まかに下記の4ステップがあり、また現代における未解決の課題について次にまとめています。

  1. データ取得
    • 画像処理分野では撮像方法です。空間の3次元情報の取得は現代においても特に難しい問題の1つです。
  2. データクレンジング (後者のアノテーションが先行する場合もある)
    • 取得されたデータを機械学習へ適用するための前処理です。ラベルミスのある画像の除去/訂正、ラベルは適切であるものの学習に用いるべきではないデータを削減、あるいは取得できるデータに限りがある場合、少数データに対して人工的なバリエーションを加えるデータ拡張が実施されます。数百のデータを人が手作業で実施することは難しくありませんが、数万を超えるオーダーのデータに対して自動的に実施することは難しいです。
  3. アノテーション
    • 取得されたデータに対し、人の認識する情報を付加します。例えば画像から猫を検出したい場合、画像1枚に対して猫という情報を与えるラベル付け、さらにあるラベルに対して画像内での位置情報を与えるバウンディングボックスを描く場合もあります。データクレンジングと同様、データ数が少なければ人が頑張れば良いですが、大量のアノテーションが必要となる場合に多くの課題があります(アノテーションはほぼ人がやるしか無いものの、認知バイアスや人ごとの評価のばらつきが悪影響を与えます)
  4. 学習および推論
    • 学習では学習用に用意したデータから判別に適した空間を作成します。推論では作成された判別空間に未知データを入力することで、いわゆる「AIの予測結果」を得ることができます。近年では人のニューロンの動きを模したニューラルネットワークに関する研究が多く、”AI”と言われて想像されるものの多くはニューラルネットワーク型の機械学習モデルと思います。ニューラルネットワークを大規模化するほど性能は向上することが知られていますが、最近話題の尽きないChatGPT(GPT3/GPT4)を代表とする大規模言語モデル(LLM)ではすでに1学習にかかる規模が数年後には世の計算資源を使い尽くすほどの勢いになりつつあるため、学習や推論の高効率化は非常に大きな課題の1つです。

各ステップで個人が一生を費やしても解決できない大きな課題が複数あり、1研究においてこれらすべての問題への包括的なアプローチをすることは極めて困難です。そのため研究においてはそれぞれの領域、実際には上記4項目を更に細分化した領域に限定し、その領域での進歩が論文であったり、学会発表となります。

MIRU2023における異常検知/行動認識界隈の研究

ここからは調査で見えてきた異常検知や行動認識系の情報についてまとめます。MIRU2023の異常検知/行動認識領域では次のような研究が各研究領域に対応します(明確な区分は難しいですが、研究の主目的および背景で分類しています)。

  • データ取得
    • データセットの作成や性質に関する研究
      • 工業製品の異常検知における数式駆動型学習の有効性について [IS3-45]
      • 不整列データセットを用いた異常検知アルゴリズムの性能検証 [IS1-42]
  • データクレンジング
    • ドメイン検知やデータ拡張/水増しの研究
      • CLIP-based Zero-shot In-Distribution Detection [OS1B-S4]
      • クラス比率学習におけるバッグ単位のデータ拡張 [OS6B-L1]
  • アノテーション
    • セグメンテーションタスクの研究
      • StableSeg: StableDiffusionによるゼロショット領域分割 [OS1A-L1]
      • 時系列行動区間認識のアノテーションコストを削減する飛ばし見型弱ラベル学習法 [OS1B-S7]
  • 学習や推論
    • Few-shotやZero-shot学習の研究
      • 動画単位の行動ラベルを用いた弱教師あり事前学習に基づくゼロショット時空間行動検出 [OS4B-L2]
    • アルゴリズムの工夫に関する研究
      • コンパクト多様体を備えたオートエンコーダによる動画異常検知 [OS2B-L1]
      • 正規直交行列によるクラス内の多峰性を考慮したクラス分類 [IS1-21]

この中でも関心領域で活きそうな技術と、個人的なMVPを含めて一部紹介します。

研究紹介

印象的だった研究の概要およびそのアイデアについて重要な部分の解説を記載します。

StableSeg: StableDiffusionによるゼロショット領域分割 [OS1A-L1]

発表者: 本部勇真, 山口廉斗, 柳井啓司 (電通大)

概要

既存のMaskCLIP+と呼ばれるCLIPモデルベースの手法から、CLIPよりもより学習サンプルの多いStable-Diffusionベースの手法にすればもっと良くなるのでは?というアイデアの研究。Stable-Diffusionの中間層出力にはワードに対応する反応領域をもっているため、これを用いてあるワードに対応した画像内の領域をゼロショット(セグメンテーションタスク向けの追加学習をする必要がない)でセグメンテーションすることに成功。

アイデア解説

めでたくMIRU2023の最優秀賞を受賞されたようで、せっかくなのでこの手法の詳細について記載します。

先にCLIPとStable-Diffusionについて未知の方向けに簡単にまとめます。

  • CLIPは画像とそれを説明した文章を学習した大規模モデルで、約4億の画像-文章のペアで学習されているようです。
  • Stable-Diffusionはお絵描きAIの基盤モデルとして知られています。あるワードに対応するガウスノイズの逆変換式を近似的に得た大規模モデルで、LAION2BやLAION5Bなどの約70億に近い画像-文章のペアを学習しているため、CLIPよりは潜在的に物知りなようです。

提案手法はStable-Diffusionがあるワードに対応する着目領域(Attention Map)を得ることができることを利用し、Stable-Diffusionの中間層出力でのCAPM(Cross-Attention Probability Map: 異なる特徴次元で得られるワードに反応する領域マップ)の作成および、このCAPMのSelf-Attentionも実施することでリファインメントされたマップ(画像のピクセル単位でラベルを予測したマップ)を最終出力としています。

また上記の提案手法をStableSegとし、このモデルによるDeepLabV3+で追加学習をしたモデルをStableSeg+、またそこからCAPM作成時の各層の重みを最適化したStableSeg++も提案し、様々なデータセットでのMaskCLIPとの優位性を検証しています。

所感

利用方法としてはある画像に対し、ユーザはその画像内に映るラベルを指示し、StableSegを通すことでラベルに対応したピクセル単位のセグメンテーション結果を得ることができ、単純な領域分割モデルとしての利用だけでなく、アノテーション作業の補助としても有用性があると考えます。

CLIP-based Zero-shot In-Distribution Detection [OS1B-S4]

発表者: Atsuyuki Miyai, Qing Yu (Univ. of Tokyo), Go Irie (Tokyo Univ. of Science), Kiyoharu Aizawa (Univ. of Tokyo)

概要

深層学習系のモデルの学習には大量のデータが必要であり、これを広大なWebから得ることもまた当然のようになされています。ただGoogleの画像検索で霊長類最速の「パタスモンキー」と調べると、実際にはパタスモンキーのキーホルダーやパタスモンキーを解説する本の表紙など、「ラベルは含まれているものの、主語はそれではない」データが多く存在します。この研究ではこのような問題を「主語(subject)の違い」とし、CLIPを用いたSubject考慮のIn-Distribution検知(ある未知データが検索ワードが構成する適切な群にあるかを調べる)手法を提案。

アイデア解説

CLIPを基盤モデルとして用いたMaximum Concept Matching(MCM)という既存手法がありますが、この手法は画像の主語について特に考慮されていません。これに対して画像全体と画像の局所とのラベルの差(Global-Local)に対するロスを計算することで問題を解決したGL-MCMを提案しています。具体的にはある画像に対し、

  • 画像全体から得られたGlobal Softmax Score
  • パッチ単位で得られたLocal Softmax Score

の2つを計算し、あるラベルにおけるGlobal Softmax Scoreと、対応するラベルのLocal Softmax Scoreの最大値の合計をIn-Distribution Scoreとして計算し、画像全体と局所ラベルとの合致度に合わせて評価が高くなるスコア計算となっています。

所感

画像における「主語の違い」という考えてみれば確かにとなる問題設定と、局所的な異常検知にも応用できそうな伸びしろがあり、非常に感銘を受けた研究でした。

動画単位の行動ラベルを用いた弱教師あり事前学習に基づくゼロショット時空間行動検出 [OS4B-L2]

発表者: 佐藤文彬, 八馬遼, 関井大気 (コニカミノルタ)

概要

言語モデルの文章ベクトル出力と、骨格推定モデルのモーション出力とをニューラルネットワークの中間表現で結びつけ、人が自然言語で指定した動作を再学習無しで検知可能とする手法を提案。本来はデータセットの収集の段階で人の動作ラベルには大きな制限がありますが、言語モデルを介してモデルにラベルを解釈させることで、学習元のデータセットにないラベル表現を獲得している様子をデモ。

アイデア解説

行動認識における新たな行動ラベルの獲得は、通常データセットの作成に始まり、再学習も必要なタスクです。これを再学習なしで実施するため、ネットワークとしては大まかに次の3つに分けられます。

  • 骨格推定モデル (撮影した動画から人の骨格情報を推定するもの)
  • 言語モデル (人が入力した自然言語をベクトル表現に直すもの)
  • 行動予測モデル (骨格推定結果と入力文章からその確率的な表現を得るもの)

未知のラベルに対する骨格単位のアノテーションではなく、動画ラベルの行動ラベルのみで事前学習を実施するため、行動予測のモデルの事前学習時にはGlobal Max Poolingを行い、ある動画全体における骨格特徴と文章を紐づける工夫がなされています。

Kinetics-400で事前学習したモデルでRWF-2000という異なるデータセットを使用しているにも関わらず、教師ありに近い精度および、Kinetics-400に無い行動ラベルの認識もある程度実現できているようです。このあたりは言語モデルで得られる文章ベクトルと骨格情報との関係を行動予測モデルが吸収することで実現しているものと思われます。

所感

言語モデルを行動認識に介在させるというアイデアは、実アプリケーション面から非常に優れていると考えられます。というのも、人よって「歩く」を「歩行」といったり、「〇〇へ行く」などの表現をする可能性があり、それらの対応関係をすべてデータセットのラベルと紐付けるのは非現実的であるためです。一方で、事前学習における動画単位のラベル付けであると、アノテーションに関する利便性は非常に高いものの、モデルの行動ラベルとそれに対する骨格の着目領域が妥当かはやや不安が残り、複数人が映る映像では学習が困難となる懸念はありますが、今後の発展に目が話せない技術の一つです。

正規直交行列によるクラス内の多峰性を考慮したクラス分類 [IS1-21]

発表者: 後藤潤平, 中田洋平, 安倍清史, 石井育規 (パナソニックホールディングス), 山下隆義 (中部大)

概要

ある1ラベルにおいても実質的にはさらに細分化されるような状態が現実では多く、例えば猫というクラスであっても黒猫であったり三毛猫であったりすると、特徴空間上では2つの群を形成する可能性があります。この問題に対処するため、一般的に分類器の重みが各ラベルごとに1つとなるところを2次元の正規直交行列に拡張することで、ある1クラスの中にあるバリエーションをできるだけ多く表現する手法を提案。

アイデア解説

従来手法にDeep Nearest Centroidsがあり、これもあるラベル予測に対する重みが1つであるところ、あるラベル内に複数のクラスタがあることを想定し、未知の入力に対して特徴空間における最も近いクラスタの重心を用いて分類する手法のようです。この手法でもクラス内多峰性の問題は解消されますが、一方で重心ではないクラスタは分類に寄与することはできず、クラス内多峰性の構造を把握するには複数クラスタ間の関係もまた重要な情報となりえます。

提案手法では線形分類器の重みが通常1次元のところを、2次元の正規直交行性の制約を与えた行列とし、クラス内の複数クラスタをなるべく独立した判別軸で表現するような工夫がなされています。先行研究のDeep Nearest Centroidsではクラス内の多峰な分布の中心について学習されますが、この提案手法ではそのクラスタ重心のある分布内での表現力を最大化するようなイメージとなり、多峰な分布の縁や頂点の表現を2次元の正規直交行列の重みで獲得することが期待されます。

所感

2次元の正規直交行列への拡張における拡張次元数N(あるラベルに付随するクラス数)が実質的にデータセット依存のハイパラとなる点は、未知データのクラス数予測というこれもまた未解決の問題でもあり難しい課題であります。しかし深層学習系の研究ではやってみるとうまく行った系の発見が多い中、明確なロジック視点での改善手法を提案しており、素晴らしい取り組みの1つと感じました。

まとめ

MIRU2023では研究発表だけでなく、様々な知見を得られる公演も数多く行われました。中でも「 画像と言語の基盤モデルの現状とこれから」で語られた基盤モデルにおける課題は印象的でした。

MIRU2023にもCLIPやResNetといった学習済みのモデルを転移学習や特徴抽出のバックボーンとして利用する研究が多く、基盤モデルの存在なしでは成立しない研究が数多く存在します。ただし、基盤モデルには

  • 基盤モデルに何らかの問題が生じた場合、それらを用いた技術の社会実装が難しくなる
  • 基盤モデルの学習の再現実験すら困難な場合が増えてきた

などの課題があります。

1つ目の「基盤モデルの何らかの問題」とは性能の良し悪しではなく、主にモラルの問題です。Stable-Diffusionを利用したお絵かきAIの登場は記憶に新しいですが、イラスト生成向けの重みを学習したデータには多くのイラストレーターの作品が存在し、モデルの学習におけるモラルの問題が活発に議論されています。また学習サンプルの偏りから、ある特定の人種や性別に対する推論に偏りが生じるといった認知バイアスの課題も明らかとなっています。

2つ目の「再現実験が困難」とは、モデルが大規模化しすぎる余り最先端の大規模モデルは1学習に要する費用が数十億円の規模との噂となっており、よほど資金に余裕のある企業でもない限りは学習が再現するかを確認困難という問題です。学習済みのモデルを再利用するだけでは問題ありませんが、では1つ目のようなモラルの問題が発覚したとして、誰が再学習させるか?再学習したモデルで再学習前のモデルを利用した研究のいくつが再現するのか?などを考え出すと不安は尽きません。

一方でこのような議論が活発化している背景として、今までは研究室の中で閉じていた深層学習系の技術が、より多くの人の目に触れる、触るという社会実装へと近づいていることを象徴する出来事とも思います。今後もアダコテックは最新の技術における継続的なキャッチアップおよび発表に取り組んでまいります。

アダコテックでは機械学習を用いた業界課題の解決、および社会実装を進めるメンバーを募集しています。 興味ある方は下記のリンクを見てみてください!

herp.careers herp.careers herp.careers