近日,第三屆圖像識(shí)別競賽WebVision中,阿里AI擊敗了全世界150多支參賽隊(duì)伍,獲得冠軍。
WebVision由谷歌、美國卡耐基梅隆大學(xué)、蘇黎世聯(lián)邦理工大學(xué)等機(jī)構(gòu)聯(lián)合全球視覺技術(shù)領(lǐng)域頂級(jí)學(xué)術(shù)會(huì)議CVPR發(fā)起,是目前圖像識(shí)別領(lǐng)域最權(quán)威的競賽之一,被業(yè)界譽(yù)為人工智能“世界杯”。
該競賽要求參賽的AI模型將1600萬張圖片精準(zhǔn)分類到5000個(gè)類目中。競賽結(jié)果顯示,阿里AI以82.54%的識(shí)別準(zhǔn)確率獲得冠軍,將萬物識(shí)別領(lǐng)域的歷史紀(jì)錄提升了3個(gè)百分點(diǎn)。

(阿里AI在WebVision競賽中奪冠)
此次競賽,阿里AI引入了構(gòu)建類別語義標(biāo)簽關(guān)系的模型,并采用了輔助信息模型進(jìn)行圖像去噪的深度學(xué)習(xí)技術(shù)。阿里AI的超強(qiáng)能力背后是阿里自研的可以支持?jǐn)?shù)十億圖片分類訓(xùn)練的超大平臺(tái)。
相比于經(jīng)過人工標(biāo)注完畢的ImageNet數(shù)據(jù)集,WebVision 所用數(shù)據(jù)集直接從互聯(lián)網(wǎng)爬取,沒有經(jīng)過人工標(biāo)注,含有較多噪音,且數(shù)據(jù)類別的數(shù)量組成極大不平衡,AI的識(shí)別難度更高。阿里AI在WebVision競賽結(jié)果表明,現(xiàn)代深度學(xué)習(xí)技術(shù)可以不完全以人工標(biāo)注數(shù)據(jù)為基礎(chǔ),人工智能有望真正擺脫“人工”。

(阿里AI能夠識(shí)別超過100萬種實(shí)體)
目前,阿里AI不僅能夠以超級(jí)速度對海量圖片進(jìn)行分類,還能識(shí)別超過100萬種物理實(shí)體,例如5萬種植物、1萬種鳥、1千種不同型號(hào)的車……阿里AI正在幫助人類在線上世界里構(gòu)建出一雙全知全能的“上帝之眼”。
未來,阿里AI有望基于萬物識(shí)別能力提升場景理解能力, 使得AI不僅具備視覺檢測能力, 還具備“創(chuàng)造”能力,例如通過AI自動(dòng)復(fù)原圖像、自動(dòng)生成圖像等。