全免费a级毛片_成年午夜一级毛片视频_久久久久久免费播放一级毛片_911亚洲精品国内自产

您現在的位置:首頁 > 資訊 > 社會 > 正文

李飛飛「空間智能」又一新作:只需一塊GPU,實時生成持續、3D一致世界

時間:2025-10-17 12:22:33    來源:學術頭條    

今日凌晨,由李飛飛聯合創立的空間智能公司World Labs推出了他們的最新生成式世界模型——“實時幀模型”(Real-Time Frame Model,RTFM)。

該模型能夠在與你交互的過程中實時生成持續的、3D 一致的視頻幀,且只需一塊 H100 GPU 即可運行!


(資料圖片僅供參考)

這項研究探索了如何解決生成式世界模型的高計算資源需求難題,這是未來在渲染與空間智能領域中必須探索的關鍵研究方向。

要知道,世界模型的算力需求遠超當前的大語言模型(LLM),例如維持一小時的持久交互,需要處理超過1 億 token 的上下文。

RTFM 的關鍵貢獻在于,它提供了一個在當今硬件上部署的未來世界模型的愿景,并確立了一種將世界模型視為從數據中端到端學習的渲染器的技術方法。

值得一提的是,你可以無限與 RTFM 互動,由你構建的世界永不消逝。未來,可擴展的 RTFM 還將支持建模動態世界,并允許用戶與生成的世界進行交互。

1.效率(Efficiency)

RTFM 的核心目標是:在單張 H100 GPU 上實現實時、可交互的世界生成。通過優化模型架構、推理棧和蒸餾技術,它在現有硬件上展現出“未來級”的生成性能,證明了高效世界模型的可行性。

2.可擴展性(Scalability)

不同于傳統依賴顯式 3D 結構的渲染管線,RTFM 并不會顯式地構建世界的 3D 表征。相反,它以一張或多張 2D 圖像作為輸入,直接生成來自不同視角的同一場景的 2D 圖像。

RTFM 可以被視為一種“學習型渲染器”:它是一個自回歸擴散 Transformer 模型,基于大規模視頻數據進行端到端訓練,通過觀察訓練集中的場景,學會建模 3D 幾何、反射、陰影等特征,并在輸入視角稀缺時進行外推生成。

視頻|通過結合 RTFM 與 Marble 技術,可以從單張圖像中創建 3D 世界。RTFM 可渲染復雜效果,如光照與反射,這些效果均通過端到端學習從數據中習得。場景:RTFM 處理薄玻璃結構。

視頻|利用 RTFM 技術從短視頻中渲染真實世界場景。場景:RTFM 模型在電視屏幕中模擬復雜反射。

3.持續性(Persistence)

RTFM 通過為每幀引入 3D 姿態,使模型的“記憶”具備空間結構,從而實現世界的長期一致性。它利用“空間記憶”與“上下文切換”機制,在不同區域動態調用相關幀,實現長時交互下的大規模世界持久生成。

視頻|RTFM 結合上下文切換技術,使其能夠在大場景中保持幾何體持久化,同時保持高效運行。場景:采用 RTFM 渲染技術呈現的游廊,表面泛著光澤的反射效果

整理:喬治

如需轉載或投稿,請直接在公眾號內留言

標簽: 李飛飛 gpu 空間智能 深度思考模型

相關新聞

凡本網注明“XXX(非現代青年網)提供”的作品,均轉載自其它媒體,轉載目的在于傳遞更多信息,并不代表本網贊同其觀點和其真實性負責。

特別關注

熱文推薦

焦點資訊