3月29日,由北京市海淀區(qū)人民政府與北京國(guó)有資本運(yùn)營(yíng)管理有限公司聯(lián)合主辦的2026中關(guān)村論壇年會(huì)“人工智能主題日”特色主題論壇“AI未來(lái)論壇:躍遷·投資·共生”在中關(guān)村國(guó)際創(chuàng)新中心舉辦。
在“前沿Tech Show”環(huán)節(jié),生數(shù)科技創(chuàng)始人、清華大學(xué)人工智能研究院副院長(zhǎng)朱軍教授發(fā)表題為《通用世界模型:連接數(shù)字世界與物理世界的橋梁》的主題演講。
長(zhǎng)期以來(lái),具身智能面臨“數(shù)據(jù)墻”——真實(shí)世界的軌跡數(shù)據(jù)成本高、規(guī)模小,難以支撐模型泛化。對(duì)此,朱軍表示,視頻,是當(dāng)前最接近真實(shí)世界的數(shù)據(jù)形態(tài)。
“相比語(yǔ)言,視頻天然包含時(shí)間信息、空間結(jié)構(gòu)和物理交互過(guò)程。這使其成為連接數(shù)字世界與物理世界的關(guān)鍵載體?!敝燔娬f(shuō),“基于這一判斷,我們構(gòu)建了以視頻為核心的數(shù)據(jù)體系——從海量互聯(lián)網(wǎng)視頻,到第一視角操作視頻,再到機(jī)器人數(shù)據(jù),形成一個(gè)可擴(kuò)展的數(shù)據(jù)金字塔。在這一體系下,即使缺乏大量標(biāo)注數(shù)據(jù),模型依然能夠?qū)W習(xí)到有效的行動(dòng)能力?!?/p>
朱軍介紹,在長(zhǎng)期的視頻大模型的技術(shù)積累上,團(tuán)隊(duì)逐步構(gòu)建起通用世界模型布局,即以基座世界模型為核心底層,向上延展出貫通數(shù)字空間與物理空間的雙軌體系,形成面向通用智能的核心基礎(chǔ)架構(gòu)。
“在底層能力上,該基座世界模型通過(guò)積累視覺(jué)、聽(tīng)覺(jué)、觸覺(jué)等多模態(tài)信息,構(gòu)建對(duì)世界的統(tǒng)一認(rèn)知與建模能力,為上層應(yīng)用提供統(tǒng)一的智能底座?!敝燔娬f(shuō),“在數(shù)字空間,我們基于世界生成模型打造視頻大模型Vidu。Vidu能夠顯著提升數(shù)字內(nèi)容的生產(chǎn)效率,最終實(shí)現(xiàn)數(shù)字世界的通用人工智能。在物理空間,我們基于世界行動(dòng)模型構(gòu)建統(tǒng)一世界模型產(chǎn)品Motus。Motus作為真實(shí)世界具身智能的‘大腦’,可實(shí)現(xiàn)真實(shí)世界下的零樣本泛化與跨本體適配,推動(dòng)機(jī)器人從‘模塊化執(zhí)行’向‘統(tǒng)一智能體’躍遷,最終實(shí)現(xiàn)物理世界的通用人工智能?!?/p>
“通過(guò)構(gòu)建起貫通理解世界、生成世界與行動(dòng)于世界的完整技術(shù)閉環(huán),可以使通用世界模型真正成為連接數(shù)字世界與物理世界的橋梁?!敝燔娬f(shuō),隨著相關(guān)技術(shù)持續(xù)演進(jìn),通用世界模型也將加快走向真實(shí)產(chǎn)業(yè)場(chǎng)景,釋放更大的技術(shù)價(jià)值與應(yīng)用潛力。
編輯:李華山