網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

Cosmos 3如何幫助物理AI在行動(dòng)前進(jìn)行思考

2026-06-01 22:50:05　來(lái)源: 至頂科技

北京舉報(bào)

分享至

現(xiàn)實(shí)世界始終處于運(yùn)動(dòng)之中。為了實(shí)現(xiàn)自主運(yùn)行，物理AI系統(tǒng)——包括機(jī)器人、自動(dòng)駕駛汽車和智能空間——不僅需要理解它們所看到的內(nèi)容以及導(dǎo)致這些現(xiàn)象發(fā)生的原因，還需要預(yù)測(cè)接下來(lái)可能發(fā)生什么。

在倉(cāng)庫(kù)中，機(jī)器人可能會(huì)遇到從未見(jiàn)過(guò)的物體配置。在道路上，自動(dòng)駕駛汽車可能需要在行人從停放的車輛之間走出時(shí)做出反應(yīng)。而在工廠里，安全系統(tǒng)必須預(yù)測(cè)叉車的行進(jìn)方向，而不僅僅是檢測(cè)到它的存在。

在現(xiàn)實(shí)世界中捕捉和重現(xiàn)這些場(chǎng)景既緩慢又昂貴，而且往往無(wú)法大規(guī)模重復(fù)。

NVIDIA Cosmos 3正是為此而生。這款全新的世界基礎(chǔ)模型在今天于臺(tái)北COMPUTEX舉辦的NVIDIA GTC大會(huì)上發(fā)布，它將視覺(jué)推理和多模態(tài)生成能力整合在單一模型中，涵蓋文本、視頻、圖像、環(huán)境聲音和動(dòng)作，幫助開(kāi)發(fā)者創(chuàng)建具有物理上下文的世界數(shù)據(jù)。

Q&A

Q1：NVIDIA Cosmos 3是什么？

A：NVIDIA Cosmos 3是一款世界基礎(chǔ)模型，它將視覺(jué)推理和多模態(tài)生成能力整合在單一模型中，能夠處理文本、視頻、圖像、環(huán)境聲音和動(dòng)作等多種模態(tài)，幫助開(kāi)發(fā)者為物理AI系統(tǒng)創(chuàng)建具有物理上下文的世界數(shù)據(jù)。

Q2：物理AI系統(tǒng)為什么需要預(yù)測(cè)能力？

A：物理AI系統(tǒng)如機(jī)器人、自動(dòng)駕駛汽車和智能空間需要在現(xiàn)實(shí)世界中自主運(yùn)行。它們不僅要理解當(dāng)前看到的內(nèi)容和原因，還需要預(yù)測(cè)接下來(lái)可能發(fā)生的情況，以便做出正確的決策和反應(yīng)，比如應(yīng)對(duì)突然出現(xiàn)的行人或預(yù)測(cè)叉車的行進(jìn)方向。

Q3：為什么在現(xiàn)實(shí)世界中訓(xùn)練物理AI系統(tǒng)很困難？

A：在現(xiàn)實(shí)世界中捕捉和重現(xiàn)訓(xùn)練場(chǎng)景既緩慢又昂貴，而且往往無(wú)法大規(guī)模重復(fù)。比如倉(cāng)庫(kù)中的特殊物體配置或道路上的突發(fā)情況，這些場(chǎng)景難以在真實(shí)環(huán)境中反復(fù)創(chuàng)建用于訓(xùn)練。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.