精品无码国产污污污免费网站-成人无码一区二区三区-国产一区二区三区不卡在线观看-无码国产午夜福利片在线观看-亚洲 欧美 偷自乱 图片-日本乱偷人妻中文字幕

您的位置:首頁 >經(jīng)濟(jì) > 正文

AI大戰(zhàn)進(jìn)入實體化階段 谷歌剛發(fā)布的PaLM-E模型有哪些亮點?

財聯(lián)社3月8日訊(編輯 史正丞)過去幾個月里,由ChatGPT引發(fā)的AI熱潮向人類展現(xiàn)了通用語言模型的生產(chǎn)力前景。就在聊天機器人逐漸變成生產(chǎn)力工具之時,利用通用語言模型驅(qū)動真正的機器人也已經(jīng)提上日程。


(相關(guān)資料圖)

本周老牌AI大廠谷歌與柏林工業(yè)大學(xué)的研究人員聯(lián)合發(fā)布PaLM-E視覺語言模型,通過同時處理圖像和語言文本,解鎖人類與機器人交互的新篇章。

(預(yù)印本論文,來源:谷歌、柏林工業(yè)大學(xué))顧名思義,PaLM-E模型源自于谷歌的大型語言模型PaLM,E指的就是具象化(Embodied)。通過將通用語言模型與視覺轉(zhuǎn)換模型ViT相結(jié)合,PaLM-E成功實現(xiàn)讓AI同時具備“理解文字”和“讀懂圖片”的能力,不僅能夠輸出文字,還能輸出指令使得機器人的智能化躍上一個新的臺階。

研究人員介紹稱,PaLM和ViT的結(jié)合,使得PaLM-E的參數(shù)量最高可達(dá)5620億組,也是全球已知的最大視覺語言模型。

回歸到資本市場最關(guān)心的問題,這個聽上去很厲害的AI模型,到底能干什么事情呢?對此研究人員也給出一系列案例,幫助外界理解這個模型的妙處。

(PaLM-E模型的案例,來源:谷歌、柏林工業(yè)大學(xué))首先,具備視覺屬性的AI模型將擁有解讀圖片并進(jìn)行思維推理的能力。例如可以通過一張禁行交通標(biāo)志(除自行車外)的圖片,來解答“我能否在這條馬路上騎自行車”;通過OCR識別餐館的手寫菜單,能進(jìn)行賬單的計算;或是通過識別一系列烘焙材料的照片,向機器人傳達(dá)“制作蛋糕胚”的流程。

此外,在AI模型與機器人結(jié)合的實驗演示中,機器人得到“從抽屜里拿出米餅”的指令后,能夠順利地從十多個開放式抽屜中找到米餅,拿給研究人員。

(來源:谷歌、柏林工業(yè)大學(xué))在后續(xù)的實驗中,研究人員還要求機器人完成“將所有色塊按顏色堆放到不同角落”的指令,以及將“綠色色塊推到烏龜旁邊”的指令,即便機器人之前沒有見過這只烏龜擺件,也能順利地完成任務(wù)。

(來源:谷歌、柏林工業(yè)大學(xué))雖然從演示視頻中來看,受限于演示機器人較為簡單的設(shè)計,執(zhí)行指令的時候仍顯得“笨手笨腳”。但隨著PaLM-E模型賦予機器思考如何執(zhí)行人類指令的能力,工業(yè)應(yīng)用和工業(yè)設(shè)計上的突破也指日可待?;蛟S在不久的將來,就會出現(xiàn)一款風(fēng)靡全球的智能機器人硬件。

值得一提的是,作為AI大戰(zhàn)的老對手,微軟也已經(jīng)在“圖像+語言模型”的路數(shù)上有所布局。在今年2月底發(fā)表的研究中,微軟就展現(xiàn)了如何使用ChatGPT為大疆Tello無人機編寫“找飲料”程序的案例。

(來源:微軟)

關(guān)鍵詞

圖片新聞