NVIDIA 在CVPR大會上展示視覺AI的最新進展6 月 19, 2024

計算機視覺和模式識別(CVPR)大會,於6月17日至21日在美國西雅圖舉行。NVIDIA研究人員在大會上,展示了最新的視覺生成AI模型和技術。這些研究成果包括定制圖像生成、3D場景編輯、視覺語言理解,和自動駕駛感知等領域。

「人工智能,尤其是生成式AI,代表了一項關鍵的技術進步。在CVPR大會上,NVIDIA 研究部門展示了我們是如何突破極限的——包括為專業創作者提供強大助力的圖像生成模型,和幫助實現下一代自動駕駛汽車的自動駕駛系統。」NVIDIA學習和感知研究部門的副總裁Jan Kautz說。

在50多個NVIDIA研究項目中,有兩篇論文入選CVPR最佳論文獎候選名單——其中一篇探索了擴散模型的訓練動態,另一篇則探討了自動駕駛汽車的高清地圖。

此外,NVIDIA在CVPR自主駕駛大獎賽的“規模化端到端駕駛”比賽中勝出,從全球450多個參賽項目中脫穎而出。這一里程碑式的成果,展示了NVIDIA在使用生成式AI,進行綜合自動駕駛車輛模型方面,所進行的開創性工作,並由此獲得了CVPR的創新獎。

其中一個研究亮點是JeDi 技術。JeDi 是一項允許創作者快速定制擴散模型的新技術——這種方法是目前文本生成圖像的主流方式。無需在自定義數據集上耗時地微調,只需使用少量的參考圖像,JeDi就可以呈現特定的圖像或角色。

另一項突破性技術是FoundationPose 模型。這是一種新的基礎模型,能夠在不進行逐個對象訓練的情況下,瞬間理解和追蹤視頻中物體的3D姿態。這項技術打破了性能的新記錄,並有望解鎖新的增強現實(AR)和機器人應用。

NVIDIA研究人員還介紹了NeRFDeformer。這將簡化使用單個RGB-D圖像轉換NeRFs的過程,以及簡化將捕獲的2D圖像更新為3D場景的過程。

在視覺語言方面,NVIDIA與麻省理工學院(MIT)合作開發了VILA。這是一系列新的視覺語言模型,在理解圖像、視頻和文本方面,達到了業界領先水平。憑藉推理能力的提升,VILA甚至可以通過結合視覺和語言理解,來解讀網絡圖梗。

NVIDIA的視覺AI研究跨越多個行業,其中十多篇論文探討了自動駕駛感知、導航和規劃的新方法。NVIDIA的AI研究團隊副總裁Sanja Fidler展示了視覺語言模型在自動駕駛汽車領域中的潛力。

NVIDIA在CVPR大会上所呈现的廣泛研究,展示了生成式AI能够賦能創作者,加速製造業和醫療保健的自動化,同時推動機器人技術的發展。

 

快手發佈強大的視頻生成大模型「可靈Kling」6 月 12, 2024

近日,由中國視頻公司快手(Kuaishou)開發的可靈(Kling) AI 視頻模型,正式上線。其特性與今年年初OpenAI 發佈的 Sora,有許多相似之處。主要功能包括生成更長的視頻、更合理的動作,以及多序列鏡頭,並且能更好地遵循指令。與 Sora 不同的是,Kling 已經推出等候名單,並開始向用戶開放。

OpenAI在二月份推出了Sora,並逐漸受到創作者的青睞,其中包括五位獲獎電影製片人,他們將在翠貝卡電影節(Tribeca Film Festival)上,首映Sora製作的短片。儘管如此,Sora 仍未向公眾廣泛開放。

關於Kling 的介紹

根據快手表示,Kling 可以根據單一指令生成視頻,其生成的視頻分辨率高達1080p,時長最高可達2分鐘(幀率30fps)。它還能「精確地模擬物理世界的特性」,這是大多數 AI 模型難以實現的功能。Kling採用了類似 Sora 的技術路線,使用專有模型,支持多種縱橫比和鏡頭類型。

官網上顯示,除了生成特性以外,Kling還具有先進的臉部和身體的3D重建功能,可以改進視頻中的所有表情和肢體動作。

Kling 所做的視頻如何?

這些視頻中,最令人印象深刻的特點是真實性。在一些片段中,也會存在像其他 AI 視頻中,所出現的模糊現象,但模糊程度較輕。在一段鸚鵡的視頻中,你幾乎分辨不出它是否是真的,而且你也很難確定那段吃漢堡的視頻是否是真實的。

總體來看,Kling 能夠創建精准的動作,更好地模擬現實世界的動作和物理特性,並且能夠將現實世界的真實感重現出來。

這對 Sora 意味著什麼?

如果快手公司考慮在更廣泛的區域發佈Kling,讓中國以外的用戶能夠使用,那麼這種競爭,將有助於激發創造力和創新。Kling的發佈,相信也會推動 OpenAI 儘快發佈 Sora。

上海研究人員開發出更精確的AI氣象預報大模型6 月 4, 2024

6月3日,上海科學智能研究院和復旦大學,聯合發佈了全新升級、AI 驅動的氣象預報大模型——伏羲2.0。

與之前的模型相比,伏羲2.0 的預測準確性更高,預測速度僅為傳統數值模式的1/1000,同時成本更低,可預測的時間更長。

預計在它的幫助下,中國的早期預警、風險管理,和災害防禦能力,將得到顯著提升。

上海科學智能研究院院長漆遠表示「氣候變化導致極端天氣頻發,因此天氣預報急需改進。伏羲2.0 可以提供更準確和及時的預測,從而減輕極端天氣帶來的災害」

上海科學智能研究院地球科學負責人李昊強調,伏羲2.0 在極端天氣現象預測方面,取得了重大突破,其準確性超過了歐洲中期天氣預報中心(ECMWF)的短期和中期模型。

去年12月,伏羲1.0首次亮相第28屆聯合國氣候變化大會(COP28),成為中國首個能夠預測未來15到60天預報的次季節大模型。

李昊表示,伏羲2.0 可以實現全國範圍內,1公里高分辨率地面氣象要素預報,同時能夠做到每小時更新一次預測結果——相較于現有模型的10到25公里的分辨率,這是一個巨大的進步。

對於新能源領域,伏羲2.0 能夠提供更準確的風速、輻照和發電預測,優化風電和太陽能發電,改善電網負荷平衡,並減少棄風棄光現象。李昊說「伏羲2.0如同風電場和太陽能電站的智能導航系統」

航空領域可以利用伏羲2.0,對低雲量和總雲量進行預測,同時有助於預測積冰、顛簸、光線明暗不均等現象——這些天氣現象會影響飛行體驗和成本。

上海科學智能研究院,攜手氣象服務、科研組織及行業領軍者等10家機構,共同宣佈成立智能氣象創新生態聯盟。

該聯盟將依託伏羲2.0,深化研究、教育與行業之間的合作,推動智能天氣預報技術邁向新高度。

Instagram正在嘗試使用熱門表情包的新方式5 月 29, 2024

Instagram希望借助參與性內容,並簡化用戶間的互動流程,來鼓勵用戶,在平臺上發佈更多帖子。此次採用的方式是利用熱門表情包。

如圖所示,Instagram在Reels編輯工具中,開發了一個新的Memes選項,該功能可以讓用戶在視頻中,添加當下熱門的表情包。

Memes能夠提供一系列熱門表情包動圖,同時可以將表情包添加到Reels上,讓用戶發佈的內容,更具話題性和吸引力。

這項功能,讓用戶能夠輕鬆地運用熱門表情包模板,因此很有可能成為一項深受用戶喜愛的功能。當然,Instagram還需定期更新表情包,從而保持表情包的關聯性。同時,該功能簡化了用戶使用表情包的過程,有助於促進用戶發佈更多原創內容。

這項功能的推出,其實在意料之中。早在去年十二月,Instagram就添加了Stories 模板,方便用戶創建自己的「可以變成表情包的」Stories,從而有助於激發更多互動。

最開始推出參與性表情包功能的,其實是TikTok。TikTok通過Duets和其他與內容創作相關的功能,讓用戶可以輕鬆地跟上並利用當下流行趨勢。此外,由於TikTok發佈的內容一般是公開的,所以人們在app中可以獲得更多曝光。而 Instagram 則更私密,更以用戶間的連結為基礎,因此無法像TikTok那樣完全支持此功能。

但Instagram 正在努力解決這一問題。因為,儘管Instagram的使用率持續上升,但用戶發佈原創內容的頻率卻有所降低。這意味著,雖然人們在app中觀看的視頻更多,但他們發佈的內容卻更少。從短期來看,這可能不是問題,因為更長的使用時間,意味著更多的廣告曝光,和更高的收入。但是,如果創作者停止發佈內容,Instagram 就會失去吸引用戶的原創內容。而 Meta 也深知,想要推進元宇宙項目,就需要創作者的扶持。

Instagram希望用戶發佈更多參與性內容,因此一直在探索鼓勵人們在app中分享和互動的方法。

重視表情包的功能發揮,或許能成為實現這一目標的有效方式。

阿里、百度雲爭先支持Meta開源大模型Llama 34 月 24, 2024

  • Meta發佈Llama 3後,阿里雲第一時間在其開源模型社區——魔搭社區——中上架Llama 3。魔搭社區,旨在為開發者提供一系列開源AI模型的訪問權限。
  • 在國內主流科技公司中,百度率先採取了支持行動,在其千帆大模型平臺中,推出了針對Llama 3的訓練和推理服務。

繼Llama 3公佈可用於訓練ChatGPT類聊天機器人後,國內科技巨頭如阿里巴巴、百度等,紛紛在各自雲平臺上,率先支持Meta的Llama 3大型語言模型。

阿裡雲除了在魔搭社區中上架Llama 3以外,還在其微信公眾號上的一篇文章中表示,阿里雲百煉平臺,將推出針對Llama 3的免費訓練、部署和推理方案,但並未公佈詳細時間安排。

百煉平臺是一個LLM服務平臺,為客戶提供一系列工具和服務,幫助客戶利用阿裡巴巴的雲計算服務,構建和訓練自己的模型和應用程序。

此前,作為搜索引擎巨頭、人工智能先驅的百度,已宣佈其在Meta模型發佈後,立即推出了對Llama 3的支持。

在Meta推出Llama 3的轉天,百度就成為國內首家對其提供支持的科技公司,在其千帆大模型平臺中推出了針對Llama 3的訓練和推理服務。

千帆大模型平臺,旨在幫助企業客戶構建、訓練和擴展適應其需求的人工智能模型。平臺所提供的模型,包括由百度開發的文心大模型,以及來自本土和海外公司的第三方開源模型(如Meta的Llama系列)。

據百度稱,千帆大模型目前支持79個人工智能模型,服務8.5萬名客戶,已經成功開發出超過1.4萬個模型和19萬個應用程序。

百度還表示,通過利用集數據管理、模型微調、模型評估和優化,以及推理服務部署于一體的開發平臺,千帆大模型用戶將能夠以更低的成本,開發出高於基礎模型能力的新模型。

為何有些公司有意向AI洩露數據?4 月 17, 2024

不少公司正在猶豫,是否應該擁抱人工智能的到來,原因在於他們擔心 AI 引擎,會將他們的專有數據,洩露給其他公司,尤其是競爭對手。但與此同時,有些公司卻有意將他們的數據,輸入到AI引擎中,將其作為品牌建設的重要一環。那麼,這究竟是一個價值數十億美元的商業機會,還是人工智能發展中的一大缺陷呢?

讓我們從頭開始瞭解。簡單來說,AI引擎有兩個組成部分。第一個是廣泛的內容數據庫,也被稱為大型語言模型(LLM),其中包含AI公司能夠找到的所有數據。例如,來自維基百科、紐約時報和其他公開可用的所有信息。

第二個組成部分是算法。算法利用LLM數據,來響應用戶提出的問題。如果我讓AI引擎來完成一句話,比如「狗在……跑」,算法會從LLM中檢索,查看這句話出現的次數,以及通常用什麼詞來完成這句話。然後,它會通過統計,給用戶提供最有可能出現的詞語。在這種情況下, 「馬路」而不是「鍋裡」,是通常情況下會出現的響應。

想要利用人工智能的公司,會從提出問題開始。例如,一家服裝公司可能會問「男士鞋最新的流行趨勢是什麼?」然而,僅僅通過提出這個問題,AI引擎就會知道,這家服裝公司正在考慮推出新款男士鞋,但這是該公司希望對競爭對手保密的信息。

在使用AI的各種方法中,有一種方法會產生尤為顯著的影響,那就是公司會上傳數據。比如上傳客戶反饋或歷史銷售數據,然後請求AI引擎找出對應的數據類型,並與LLM中的信息進行對比。然而,許多AI引擎將已經上傳的企業數據,添加到自己的LLM中,這樣當另一家公司提出同樣的問題時,就能生成一個透露這些數據的響應。儘管大多數AI公司,都出臺了政策和保護措施,來防止數據洩露的發生,但在最近的幾項研究中,60%~75%的公司已經禁止使用AI,因為他們認為這些保護措施尚不足夠。

人工智能發展,將改變知識產權體系4 月 4, 2024

世界知識產權組織(WIPO)的總幹事鄧鴻森認為:隨著人工智能技術的不斷進步,知識產權領域也將迎來新的變革。

在海南召開的博鼇亞洲論壇2024年年會上,鄧鴻森告訴記者「人工智能的存在是為了促進和支持人類創新,而不是取代或摧毀人類。」

近年來,在音樂、藝術、攝影和寫作等領域,人工智能侵犯版權的訴訟案件大幅增加。

鄧鴻森表示,知識產權體系,並不是第一次面對重大技術變革的衝擊。在上世紀90年代,隨著互聯網的興起和電子商務的出現,也曾出現過類似的情況。

「我認為人工智能不會從根本上改變知識產權體系」鄧鴻森說道。為了應對人工智能帶來的挑戰,WIPO與來自193個成員國的代表,定期舉行對話。此外,WIPO還頒佈了兩項政策法規,幫助各國和企業應對這一挑戰。

「我們期待與不同的合作夥伴合作,包括來自中國的合作夥伴,從而向中國的人工智能企業家提供支持,並利用中國的實踐,來幫助其他國家」他說。

1973年,中國政府派出了首批代表團,參加WIPO會議,並於1980年加入WIPO。去年是中國和世界知識產權組織合作的50周年。

成熟的生態系統

鄧鴻森表示,加入WIPO表明中國將創新和技術視為改革開放的重要內容。「在過去的50年裡,中國在知識產權領域,表現出了巨大的成長和進步。」

鄧鴻森表示,中國現在是世界上最大的知識產權申請國,申請內容涉及專利和商標,設計和地理標誌等各個領域。

2023年,中國提交了69610份專利合作條約(PCT)申請,是申請PCT最多的國家。鄧鴻森表示,其中大部分申請來自數字技術領域。去年,中國的電信巨頭華為技術公司,仍然是主要申請者,共有6494份公佈的PCT申請。

「我認為,中國在過去50年裡所取得的成就,包括從一個非常初級的階段,發展到現在擁有非常成熟的生態系統,並不是巧合或偶然」,而是因為中國一直高度重視知識產權」他補充說,WIPO很高興看到中國在這一領域所取得的發展。

在近期深圳和廣州的訪問中,鄧鴻森表示,中國企業越來越重視創新,並投入了大量資源進行研發。與此同時,地方政府還建立了「適宜的生態系統」,以鼓勵創新和創意。

鄧鴻森表示,隨著中國政府追求高質量發展,創新、技術和知識產權在下一階段的發展中,將變得更加重要。此外,中國還希望利用知識產權,來應對全球性挑戰,例如氣候變化,這有助於實現聯合國設定的可持續發展目標。

歐盟按《數字市場法案》,對蘋果、Meta和穀歌進行調查3 月 27, 2024

《數字市場法案》(D.M.A.),旨在限制網絡空間中,大型平臺作為「守門人」(指那些具有顯著市場地位和影響力的超大型數字平臺)的權力。法案實施後,歐盟委員會迅速採取行動,展開調查。

此次調查涉及谷歌應用商店的轉向規則、穀歌搜索的自營偏好問題,蘋果應用商店的轉向規則、 Safari 瀏覽器選擇屏幕,以及 Meta 的「付費或同意」模式等問題。

關於應用商店,人們普遍認為應用商店,會為其所有者帶來優勢和便利。因此,應用商店的運營策略,一直受到監管部門的關注。但其是否阻礙公平競爭,仍待證實。

除此之外,在Meta方面,用戶可通過購買無廣告服務,避免數據跟蹤和廣告推送。但隱私倡導者批評到,此舉強迫用戶為隱私付費。上周,Meta宣佈將套餐降價,以吸引更多用戶。

同時,歐盟委員會還宣佈,將對蘋果公司針對替代應用商店的新收費結構,以及亞馬遜在市場上的排名做法,進行初步審查。

歐盟的《數字市場法案》,旨在確保「守門人」平臺,能夠允許第三方在其平臺內進行交互,從而促進更廣泛的市場競爭。同時,還確保用戶和企業,能夠訪問平臺所提供的數據,並確保這些數據提供者的透明度和責任制。

此外,歐盟還發佈了在數字監管領域的另一法案——《數字服務法案》(D.S.A.),X和TikTok等也將受到審查。

輕量級大語言模型相繼湧現,AI競爭升溫?3 月 13, 2024

上個月,美國科技公司OpenAI,推出了文本到視頻的生成模型Sora。此後,越來越多的中國公司,也開始著手開發輕量級大語言模型,為全球人工智能競爭格局,帶來了新變化。

輕量級模型,也被稱為較小的大型模型,指的是對參數需求更小的模型。這意味著它們相較於大型模型而言,處理和生成文本的能力會受到限制。

簡單來說,這些小的模型就像緊湊型汽車,而大模型則像運動型、多用途的豪華汽車。

今年二月,中國人工智能初創公司面壁智能(ModelBest Inc),推出了其最新的輕量級大語言模型,引起了人工智能行業的廣泛關注。

該模型名為MiniCPM-2B,參數規模為 20 億,遠小於OpenAI的GPT-4.0可以處理的1.7萬億參數。

去年十二月,美國科技巨頭微軟發佈了Phi-2,雖然參數規模僅為27億,但這款小型語言模型,能夠進行常識推理和語言理解。

面壁智能的CEO李大海表示「新模型在開源通用基準方面的性能,接近於法國人工智能公司Mistral的Mistral-7B,在中文、數學和編碼方面具有更強的能力。該模型的整體性能,超過了一些參數達到100億級別的同類大型模型。」

李大海還表示「不論是大型還是較小的大語言模型,都有各自的優勢,這取決於任務的具體要求,和它們的性能限制,但在人工智能蓬勃發展的環境中,中國公司可能會在小模型中找到一條出路。」

360集團創始人兼董事長周鴻禕,此前在接受採訪時也表示,要在當下打造出一個超越GPT-4.0的通用大模型,可能具有挑戰性。不過,雖然GPT-4.0目前「無所不知,但它並沒有深耕。」

他說「如果我們可以訓練出,具有特定行業數據的模型,並將其與行業內的其他工具整合起來,從而在該行業中取得卓越成績。這樣的模型不僅具備智能化,還將具備獨特的業務知識,從而變得無所不能。」

李大海表示,如果這樣的輕量級模型能夠應用於產業中,其商業價值將會巨大。他說「如果模型的參數規模被壓縮,運行時的計算過程就會減少,同時,這也意味著對處理器的性能要求會降低,並且響應時間也會縮短。隨著這類終端模型的普及,未來更多電子設備,如手機等,推理成本將會進一步降低。」

Instagram更新私信功能3 月 7, 2024

Instagram發佈了一些新的私信功能,旨在提高私信在APP裡面,所起到的關鍵連接作用。

根據Meta的觀察,用戶越來越不願意在Main Feed中發佈新內容,而是比較喜歡在私密聊天中,進行越來越多的互動。

所以為對應這些用戶行為,Instagram增加了消息編輯功能,你可以在消息發送後的15分鐘內編輯消息。這與WhatsApp去年新增的功能完全一樣。考慮到Meta的最終計劃,是將其所有消息工具合併為一個平臺,所以讓各個應用程序實現功能平衡,具有重要意義。

Instagram用戶,現在還可以在私信聊天框中,最多置頂三個聊天,從而能夠輕鬆地找到,他們認為最重要的聊天內容。

Instagram還增加了一項新功能,那就是可以啟用私信聊天的已讀回執功能,同時還添加了新的聊天主題,來個性化定制用戶的使用體驗。

最後,Instagram還在應用程序中,添加了有關貼紙的新選項,用戶可以保存自己喜歡的貼紙,保存的貼紙將置頂在貼紙框的頂部,從而更方便用戶在私信中使用。

這些功能變化與用戶的使用行為變化保持一致。不僅是Instagram,其他社交平臺也一樣,現在越來越多的用戶,更傾向於在私密的消息群組中分享內容,而不是發佈到Main Feed中。

2022年,面對用戶的擔憂——他們可能再也看不到自己關注的用戶,發佈新的內容。Instagram首席執行官Adam Mosseri給出了明確的回應「朋友將更多地通過Stories和私信分享動態,而不是通過Feed。」

Meta在近期平臺表現回顧中指出,現在人們在Instagram上看到的內容中,40%是通過AI推送的,這使得應用程序的使用時間,在過去一年中增加了6%。

儘管Main Feed中的帖子數量可能減少,但私信分享的內容卻大幅增加。Mosseri強調「現在人們分享內容和表達創造力的主要方式,是通過Instagram上的私信。在任何一天中,通過私信分享的圖片和視頻,都比在Stories和Feed中分享的多。」

因此,Stories現在僅次於私信,成為用戶之間互動的主要渠道,而Main Feed則更像TikTok那樣,側重於推送娛樂性質的內容。

這的確是值得關注的重要趨勢。在TikTok的引領下,Instagram正逐漸轉向由算法推動的互動,減少了對關注其他用戶的依賴,更加依賴系統向用戶推送可能感興趣的內容。