
Appleの研究者たちは、長編動画の分析と理解において、より大規模なモデルを上回るSlowFast-LLaVAモデルの改良版を開発しました。その意味は以下のとおりです。
オタクっぽい部分
非常に基本的なことですが、LLM がビデオも理解できるようにトレーニングされると、ビデオをフレームに分割し、コンピューター ビジョンを適用して視覚的な特徴を抽出し、それらの特徴が時間の経過とともにどのように変化するかを分析し、そのすべてを言語に合わせて、テキストの形式でビデオを説明したり推論したりすることを学習します。
これを行う非常に非効率的な方法の 1 つは、ビデオのすべてのフレームを分析することです。ほとんどのフレームでは、フレーム間で大きな変化がほとんどないため、膨大な量の重複情報が生成されます。
膨大な量の重複情報が存在すると、LLMのコンテキストウィンドウ(LLMが一度に保持できる情報の最大量)を簡単に超えてしまいます。LLMがコンテキストウィンドウを超えると、会話を継続するために、新しいトークンを予測する際に古いトークンを考慮に入れなくなり、新しいトークンのためのスペースを確保します。
もちろん、ビデオ LLM をトレーニングするより効率的な方法は存在します (NVIDIA は最近、これに関する興味深い論文を発表しました) が、これは Apple の研究で念頭に置くべき一般的な考え方です。
アップルの調査
Appleの研究者は論文「SlowFast-LLaVA-1.5: 長編ビデオ理解のためのトークン効率の高いビデオ大規模言語モデルファミリー」の中で次のように説明しています。
「ビデオ大規模言語モデル(LLM)は、事前学習済みのLLMにビデオ認識機能を統合し、ビデオを処理してユーザーコマンドへの応答を生成します。大きな進歩は見られましたが、既存のビデオLLMには依然として顕著な限界が残っています。」
彼らによれば、制限は次の 3 つです。
- 既存のモデルは長いコンテキスト ウィンドウと膨大な数のフレームに大きく依存する傾向があり、これは非効率的で、小さなモデルに簡単に転送できません。
- それらのほとんどは、再現が難しい複雑な多段階のトレーニング パイプライン (多くの場合、プライベート データセットを使用) を必要とします。
- 多くはビデオタスクのみに最適化されているため、画像も理解できる汎用モデルとしての有用性が制限されます。
これらの制限に対処するため、Apple はまず、2 つのストリーム設定を通じて空間的および時間的な手がかりを組み合わせることですでに有望な結果を示していたオープンソース モデルである SlowFast-LLaVA を検討しました。2 つのストリーム設定とは、シーン内のものを捉えるために少ないフレームを高い詳細度で見る低速ストリームと、時間の経過とともに物体がどのように動くかを追跡するために多くのフレームを低い詳細度で見る高速ストリームです。
まず、AppleはSlowFast-LLaVAを画像で微調整し、汎用的な視覚推論能力を構築しました。次に、画像と動画(公開データセットから)の両方で共同学習を行い、画像理解を損なうことなく時間構造を学習しました。

その結果、10億、30億、70億のパラメータスケールのモデルファミリーであるSlowFast-LLaVA-1.5(またはSF-LLaVA-1.5)が誕生しました。このモデルは、研究者自身が指摘するように、さまざまなビデオタスクにわたって、はるかに大規模なモデルよりも優れたパフォーマンスを発揮することもあり、時には「大幅な差」をつけて優れたパフォーマンスを発揮します。

実際、LongVideoBench や MLVU などの長時間ビデオのベンチマークでは、Apple のモデルは、最小の 1B バージョンを含むすべてのモデル サイズで新たな最先端の結果を樹立しています。
さらに、このモデルは研究者が指摘した 3 つの欠点の 1 つも克服しており、知識、数学的推論、OCR、テキストが豊富なシナリオのベンチマークを含む画像タスクでも優れたパフォーマンスを発揮します。

チームはいくつかのビデオ圧縮戦略もテストしましたが、速度、精度、トークン数の間で最適なバランスを実現できる設定が見つかりました。
それでも限界はある
SF-LLaVA-1.5 では、Apple の研究者はモデルの最大入力フレーム長を 128 にすることを決定しました。
つまり、数分間または数時間のクリップを分析する場合でも、常に最大 128 フレームとなり、高速ストリームには均等間隔の 96 フレームが選択され、低速ストリームには均等間隔の 32 フレームが選択されます。
それを念頭に置いて、研究者たちは次のように述べています。
このアプローチでは、長編動画の重要なフレームが欠落し、動画の再生速度に関するモデルを誤認識させる可能性があります。(…) SF-LLaVA-1.5 のパフォーマンスは、ビジュアルエンコーダーを含むすべてのパラメータを調整することでさらに向上できます。しかし、活性化値をキャッシュするための GPU メモリコストが高いため、長編動画 LLM ではこれは容易ではないことがわかりました。今後の研究では、確率的 BP などのメモリ節約技術の統合を検討できる可能性があります。
とはいえ、Appleのアプローチにより、このモデルは最先端のモデルとなり、公開データセットのみでトレーニングされるという優れた機能も備えています。SF-LLaVA-1.5は現在、GitHubとHugging Faceで公開されているオープンソースモデルであり、研究の全文はarXivでご覧いただけます。
以下に、モデルの動作例をいくつか示します。



Amazonで期間限定のApple Watchセール
- Apple Watch Ultra 2: 649.99ドル (19%オフ)
- Apple Watch Series 10、46mm: 329ドル (23%オフ)
- Apple Watch SE(第2世代)、40mm: 169ドル (32%オフ)
otwish.com を Google ニュース フィードに追加します。
FTC: 収益を生み出す自動アフィリエイトリンクを使用しています。詳細はこちら。