![]()
現(xiàn)實(shí)世界始終處于運(yùn)動(dòng)之中。為了實(shí)現(xiàn)自主運(yùn)行,物理AI系統(tǒng)——包括機(jī)器人、自動(dòng)駕駛汽車和智能空間——不僅需要理解它們所看到的內(nèi)容以及導(dǎo)致這些現(xiàn)象發(fā)生的原因,還需要預(yù)測(cè)接下來(lái)可能發(fā)生什么。
在倉(cāng)庫(kù)中,機(jī)器人可能會(huì)遇到從未見(jiàn)過(guò)的物體配置。在道路上,自動(dòng)駕駛汽車可能需要在行人從停放的車輛之間走出時(shí)做出反應(yīng)。而在工廠里,安全系統(tǒng)必須預(yù)測(cè)叉車的行進(jìn)方向,而不僅僅是檢測(cè)到它的存在。
在現(xiàn)實(shí)世界中捕捉和重現(xiàn)這些場(chǎng)景既緩慢又昂貴,而且往往無(wú)法大規(guī)模重復(fù)。
NVIDIA Cosmos 3正是為此而生。這款全新的世界基礎(chǔ)模型在今天于臺(tái)北COMPUTEX舉辦的NVIDIA GTC大會(huì)上發(fā)布,它將視覺(jué)推理和多模態(tài)生成能力整合在單一模型中,涵蓋文本、視頻、圖像、環(huán)境聲音和動(dòng)作,幫助開(kāi)發(fā)者創(chuàng)建具有物理上下文的世界數(shù)據(jù)。
Q&A
Q1:NVIDIA Cosmos 3是什么?
A:NVIDIA Cosmos 3是一款世界基礎(chǔ)模型,它將視覺(jué)推理和多模態(tài)生成能力整合在單一模型中,能夠處理文本、視頻、圖像、環(huán)境聲音和動(dòng)作等多種模態(tài),幫助開(kāi)發(fā)者為物理AI系統(tǒng)創(chuàng)建具有物理上下文的世界數(shù)據(jù)。
Q2:物理AI系統(tǒng)為什么需要預(yù)測(cè)能力?
A:物理AI系統(tǒng)如機(jī)器人、自動(dòng)駕駛汽車和智能空間需要在現(xiàn)實(shí)世界中自主運(yùn)行。它們不僅要理解當(dāng)前看到的內(nèi)容和原因,還需要預(yù)測(cè)接下來(lái)可能發(fā)生的情況,以便做出正確的決策和反應(yīng),比如應(yīng)對(duì)突然出現(xiàn)的行人或預(yù)測(cè)叉車的行進(jìn)方向。
Q3:為什么在現(xiàn)實(shí)世界中訓(xùn)練物理AI系統(tǒng)很困難?
A:在現(xiàn)實(shí)世界中捕捉和重現(xiàn)訓(xùn)練場(chǎng)景既緩慢又昂貴,而且往往無(wú)法大規(guī)模重復(fù)。比如倉(cāng)庫(kù)中的特殊物體配置或道路上的突發(fā)情況,這些場(chǎng)景難以在真實(shí)環(huán)境中反復(fù)創(chuàng)建用于訓(xùn)練。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.