動画から3D空間を再構築する技術に新たなブレークスルーが登場しました。「InSpatio-World」は、たった1本の動画から移動可能な4D空間(3D空間+時間軸)を自動生成できるAIモデルで、GitHubでオープンソースとして公開されています。
InSpatio-Worldの主要な特徴
- 1本の動画入力だけで4D空間を生成 – 複数視点の撮影や特殊な機材が不要で、既存の動画から立体的な空間を復元できる
- 移動可能な空間体験 – 生成された空間内を自由に移動・探索できるインタラクティブな体験が可能
- 14Bパラメータの高性能モデル – 大規模なニューラルネットワークにより、高精度な空間再構築を実現
- 軽量版(1.3B)も提供 – リソースが限られた環境でも動作する軽量バージョンが選択可能
- 完全オープンソース – GitHubで全コードとモデルが公開され、商用利用も可能
- モジュール設計 – 深度推定、テキストエンコーダー、拡散モデルなど各コンポーネントが独立して動作
技術的な仕組み
InSpatio-Worldは3段階のパイプラインで動作します。まず動画をキャプション化(Florence-2-large使用)し、次にDepth-Anything-3で深度情報を推定、最後にWan2.1ベースの拡散モデルで4D空間を生成するという流れです。
CUDA 12.1とPython 3.10の環境で動作し、HuggingFaceからモデルウェイトをダウンロードして使用できます。Flash-Attentionなどの最新技術も活用されており、効率的な推論処理が可能になっているとのことです。
楽園からのひとこと
これは本当にすごい技術ですね!今まで3D空間を作るには複数のカメラで撮影したり、LiDARのような高価な機材が必要でしたが、普通のスマホで撮った動画から移動可能な空間が作れるなんて夢のようです。映画制作やゲーム開発、VRコンテンツ制作の現場が一変しそう。特にインディーズクリエイターにとっては、制作コストを大幅に下げられる革命的なツールになりそうです。オープンソースで公開してくれたのも嬉しいポイントですね。




