2025 年秋裝智能工作室正被分會活動:特斯拉上海超級工廠宣布 Optimus 2.0 量產下線,同步開放開發者平臺提供運動控制與環境采集 SDK,嘗試通過生態共建破解數據孤島難題;英偉達則在 SIGGRAPH 大會上推出物理 AI 全棧方案,其 全宇宙 平臺結合 Cosmos 世界模型可生成高質量合成數據,直指真機數據的痛點。
這些熱點事件共同指向行業共識:曾被算法創新忽視的數據問題,才是智能落地的根本問題解決。
針對這個問題,近日,我們與跨維智能創始人、香港中文大學(深圳)教授賈奎,香港中文大學(深圳)副教授、工具身決策實驗室主任劉桂良進行了一場深度對話與探討,試圖找到突破工具身智能學習枷鎖的關鍵。
什么是 效率定律 ?
其與 縮放定律 有何區別?
1. 縮放定律 在身體智能領域帶來了什么挑戰呢?
賈奎:標度律 是大語言模型發展過程中所觀察到的經驗法則,即模型的性能與數據量、模型容量/參數量、算力之間分別有一個冪函數關系【1,2】,此經驗法則有助于在給定的資源條件下,指導如何存在最優模型性能為目標的數據、模型與算力分配。
效應的有效性是建立在訓練大語言模型所需要的海量文本數據存在的前提下的,但對于訓練具身智能模型來說,如上所說,領域還沒有建立能夠支撐標度律的數據范式,那么效應本身也無法發揮指導作用。
具身智能的發展需要能夠自身當前階段有更好指導意義的新決策,因此在【3 】中,我們基于縮放定律推導出新的適用當前具身智能發展的新決策,命名為 效率定律。
也就是說,我們首先定義一個名為“數據生成速率”的量 r_D,在最大允許的模型生產時長的條件下,模型性能與 r_D 存在一個冪函數關系,并受控于一個模型容量的冪函數與一個 r_D 的冪函數的加和,進一步啟動,在有限時間內,更高的 r_D 能顯著提升學習效率,從而通過訓練大容量模型提升實際性能,而過低的 r_D 會導致模型進入“數據稀缺區”,使規律故障。
通俗解釋,效率定律的核心觀點是:在有限的高效時間內,具身模型性能上限的,是生成高質量數據的速率(我們稱為r_D)。數據生成速率越快,可以越快地“吃飽”一個大模型,從而突破性能瓶頸。如果速度太慢,模型就會一直處于‘吃不飽’的‘數據稀缺區’,再大的潛力也發揮不出來。所以,具身智能的重點必須從‘堆數據’轉向’造數據’。
因此,車身智能的發展必須從“采數據”和“堆數據”轉向“高效地造數據”;通過提高高質量數據的生成與利用效率,建立起支撐車身智能發展的新學習范式。
為什么世界模型需要絕對的物理精確性?
2. 當前基于視頻生成的世界模型,有什么不足之處?
賈奎:當前基于視頻生成的世界模型【4,5 】雖然能夠生成視覺上連貫、動態一致的視頻序列,但它們主要在像素維度進行統計學習,追求的是“新穎”而不是“物理正確” 【6 】。
此類模型往往缺乏對真實規律的理解,無法準確模擬如摩擦、質量、受力、流動等簡單的動力學機制,其生成結果更多依賴于訓練數據的分配因果關系計算,因此在分配外模型時很容易產生違反物理邏輯常識的反事實場景。
對于具身智能而言,學習的核心在于建立真實世界中的感知、動作、反饋循環,智能體必須遵循牛頓力學等物理法則來實現的行為。因此,具身智能所依賴的世界模型【7,8 】必須具備物理精確性,能夠針對剛體、軟體、流動等顯著式三維表征,根據動力學、運動學原理預測世界狀態變化計算系統的內部狀態,推理被現實或未達到的元素變化,保持過程中的一致性,并支持世界狀態的存儲與恢復,以實現精確的仿真與規劃。唯有如此,世界模型才能為具身智能提供符合真實物理約束的環境基礎,支撐其在世界中的后續學習與決策。