比 ChatGPT更強(qiáng)大,微軟推出全能型模型 Kosmos-1
文章摘要:Kosmos-1可以處理文本、圖像、音頻和視頻等內(nèi)容。比如,該模型可分析圖像的內(nèi)容,進(jìn)行文本識(shí)別以及理解自然語(yǔ)言指令等。
從二十世紀(jì)初開始,人們就在科幻作品中憧憬人工智能(AI)給社會(huì)帶來各種各樣的便利。但隨著技術(shù)的發(fā)展,這些憧憬也變成了擔(dān)憂,我們看到了在各種科幻作品中,AI取代或者是奴役人類又或者是毀滅世界。而其中最現(xiàn)實(shí)的一點(diǎn)憂慮便是AI取代了大部分人類的工作。今年,隨著Chatgpt的橫空出世,這些擔(dān)憂似乎馬上要成為現(xiàn)實(shí)了。
微軟于近日推出了更全能型的多模式大型語(yǔ)言模型Kosmos-1。
Kosmos-1可以處理文本、圖像、音頻和視頻等內(nèi)容。比如,該模型可分析圖像的內(nèi)容,進(jìn)行文本識(shí)別以及理解自然語(yǔ)言指令等。
論文顯示,KOSMOS-1可根據(jù)圖像回答有關(guān)問題、從圖像中讀取文本、為圖像編寫標(biāo)題,根據(jù)圖形推理(準(zhǔn)確度為26%)。相比于純文本語(yǔ)言模型ChatGPT,多模態(tài)語(yǔ)言模型的KOSMOS-1將更適合應(yīng)對(duì)復(fù)雜、多元的人工智能技術(shù)應(yīng)用。
同時(shí)用于訓(xùn)練Kosmos-數(shù)據(jù)同樣源自網(wǎng)絡(luò),同時(shí)為了讓Kosmos-1能進(jìn)一步理解圖像內(nèi)容,研究人員通過事先將圖像以文字內(nèi)容加上大量標(biāo)記,讓此大型語(yǔ)言模型可以進(jìn)一步理解圖像內(nèi)容,以實(shí)現(xiàn)多模式大型語(yǔ)言模式。加入圖像內(nèi)容理解能力之后,將有助于Kosmos-1識(shí)別文字以外的圖像內(nèi)容,甚至進(jìn)一步判斷動(dòng)態(tài)視頻描述內(nèi)容。
文章為沃豐科技原創(chuàng),轉(zhuǎn)載需注明來源:http://www.yzny.net.cn/ucm/report/39687
