NVIDIA 在CVPR大會上展示視覺AI的最新進展 – 李梓敬 –

NVIDIA 在CVPR大會上展示視覺AI的最新進展

計算機視覺和模式識別(CVPR)大會,於6月17日至21日在美國西雅圖舉行。NVIDIA研究人員在大會上,展示了最新的視覺生成AI模型和技術。這些研究成果包括定制圖像生成、3D場景編輯、視覺語言理解,和自動駕駛感知等領域。

「人工智能,尤其是生成式AI,代表了一項關鍵的技術進步。在CVPR大會上,NVIDIA 研究部門展示了我們是如何突破極限的——包括為專業創作者提供強大助力的圖像生成模型,和幫助實現下一代自動駕駛汽車的自動駕駛系統。」NVIDIA學習和感知研究部門的副總裁Jan Kautz說。

在50多個NVIDIA研究項目中,有兩篇論文入選CVPR最佳論文獎候選名單——其中一篇探索了擴散模型的訓練動態,另一篇則探討了自動駕駛汽車的高清地圖。

此外,NVIDIA在CVPR自主駕駛大獎賽的“規模化端到端駕駛”比賽中勝出,從全球450多個參賽項目中脫穎而出。這一里程碑式的成果,展示了NVIDIA在使用生成式AI,進行綜合自動駕駛車輛模型方面,所進行的開創性工作,並由此獲得了CVPR的創新獎。

其中一個研究亮點是JeDi 技術。JeDi 是一項允許創作者快速定制擴散模型的新技術——這種方法是目前文本生成圖像的主流方式。無需在自定義數據集上耗時地微調,只需使用少量的參考圖像,JeDi就可以呈現特定的圖像或角色。

另一項突破性技術是FoundationPose 模型。這是一種新的基礎模型,能夠在不進行逐個對象訓練的情況下,瞬間理解和追蹤視頻中物體的3D姿態。這項技術打破了性能的新記錄,並有望解鎖新的增強現實(AR)和機器人應用。

NVIDIA研究人員還介紹了NeRFDeformer。這將簡化使用單個RGB-D圖像轉換NeRFs的過程,以及簡化將捕獲的2D圖像更新為3D場景的過程。

在視覺語言方面,NVIDIA與麻省理工學院(MIT)合作開發了VILA。這是一系列新的視覺語言模型,在理解圖像、視頻和文本方面,達到了業界領先水平。憑藉推理能力的提升,VILA甚至可以通過結合視覺和語言理解,來解讀網絡圖梗。

NVIDIA的視覺AI研究跨越多個行業,其中十多篇論文探討了自動駕駛感知、導航和規劃的新方法。NVIDIA的AI研究團隊副總裁Sanja Fidler展示了視覺語言模型在自動駕駛汽車領域中的潛力。

NVIDIA在CVPR大会上所呈现的廣泛研究,展示了生成式AI能够賦能創作者,加速製造業和醫療保健的自動化,同時推動機器人技術的發展。