還記得電影《喜劇之王》中,周星馳百變表情的橋段嗎?星爺當(dāng)時(shí)的表情變化,只能用嘆為觀止來(lái)形容。

同樣關(guān)于表情的作品,還有蒂姆·羅斯主演的美劇《Lie to me》。劇中,行為學(xué)專家保羅·艾克曼只需要通過(guò)你微小的表情與動(dòng)作,就能看穿你是否正在撒謊。
在所有已知生物中,人類是唯一能夠通過(guò)表情來(lái)傳達(dá)情緒的物種。當(dāng)然,可能有時(shí)候你會(huì)覺(jué)得你家的貓主子、狗大爺也會(huì)笑,但實(shí)際上并不,它們只是面部肌肉在運(yùn)動(dòng)而已。

對(duì)于非人類的生物來(lái)說(shuō),識(shí)別表情一直是一件很難的事情。不僅是狗,就連前幾天橫掃中韓棋壇的人工智能、阿爾法狗的小弟弟Master也做不到。
這就引引申出一個(gè)問(wèn)題:為什么小電腦能夠干掉所有人類棋手,但卻不能看懂坐在對(duì)面的人類旗手的失落和沮喪呢?人類可是在幾千甚至上萬(wàn)年前就擁有這種技能點(diǎn)了。
“愛(ài)笑的女孩子運(yùn)氣不會(huì)太差。——by古龍”
科學(xué)家Donald Knuth曾說(shuō)過(guò),“人工智能已經(jīng)在幾乎所有需要思考的領(lǐng)域超過(guò)了人類,但是在那些人類和其它動(dòng)物不需要思考就能完成的事情上,還差得很遠(yuǎn)。”
PS:Donald Knuth也是個(gè)計(jì)算機(jī) 圈里的傳奇人物,其著作《計(jì)算機(jī)程序設(shè)計(jì)的藝術(shù)》的地位,大概就相當(dāng)于計(jì)算機(jī)領(lǐng)域的《相對(duì)論》。
將Donald Knuth的話換個(gè)說(shuō)法(此處引用Wait But Why文章The AI Revolution: The Road to Superintelligence):
造一個(gè)能算出十位數(shù)乘法的計(jì)算機(jī)——太簡(jiǎn)單了
造一個(gè)能分辨出一個(gè)動(dòng)物是貓還是狗的計(jì)算機(jī)——非常困難
造一個(gè)能戰(zhàn)勝世界象棋冠軍的電腦——早就成功了
造一個(gè)能夠讀懂六歲小朋友的圖片書(shū)中的文字,并且了解那些詞匯意思的電腦——谷歌花了幾十億美元在做,還沒(méi)做出來(lái)。
一些我們覺(jué)得困難的事情——微積分、金融市場(chǎng)策略、翻譯等,對(duì)于電腦來(lái)說(shuō)都太簡(jiǎn)單了
我們覺(jué)得容易的事情——視覺(jué)、動(dòng)態(tài)、移動(dòng)、直覺(jué)——對(duì)電腦來(lái)說(shuō)太TM的難了。
這倒不是人類作弊,人類進(jìn)化出這種“直覺(jué)”的時(shí)間大概有幾千萬(wàn)年;而發(fā)明圍棋不過(guò)是4000年前的事。
這很好,在“不需要用腦”的前提下,人類還是大幅領(lǐng)先于機(jī)器的。
不過(guò)壞消息是,在一些直覺(jué)層面上,機(jī)器與人的距離可能正在不斷拉近。例如表情識(shí)別。

周六(1月14日)國(guó)航與百度合作了一個(gè)活動(dòng),搞出了兩架名為“微笑中國(guó)號(hào)”的航班,打著“帶著微笑回家過(guò)年”的旗號(hào),讓乘客體驗(yàn)了一下表情識(shí)別技術(shù)。
活動(dòng)說(shuō)來(lái)簡(jiǎn)單:國(guó)航CA1415、CA1416航班上,空乘姐姐們?yōu)槌丝桶l(fā)放百度特制的搭載微笑互動(dòng)裝置的iPad,乘客可以通過(guò)笑容來(lái)開(kāi)啟、操作iPad上的應(yīng)用。
經(jīng)肉身測(cè)試,微笑互動(dòng)裝置確實(shí)能夠捕捉到人臉上的笑容,但這是在光線穩(wěn)定的前提下。
此處有一個(gè)小插曲:
漂亮的空乘姐姐將iPad拿給靠窗的我后,最初并不能通過(guò)笑臉來(lái)開(kāi)啟應(yīng)用進(jìn)入游戲。在對(duì)著鏡頭傻笑了五分鐘后(此處請(qǐng)腦補(bǔ)喜劇之王中星爺?shù)谋砬榘?,微笑進(jìn)度條依然停在原點(diǎn)。

空乘姐姐的笑和我的笑
空乘姐姐拿走iPad并用自己的笑臉測(cè)試了一下,微笑進(jìn)度條開(kāi)始前進(jìn)……
……
……
兄弟!這就很尷尬了。我丑我承認(rèn),但特么機(jī)器也搞歧視嗎?

圖為程序界面
二次接過(guò)iPad后我反思了一下,看著自拍區(qū)域的臉上,有著明顯的光線痕跡,于是拉下了遮陽(yáng)板/對(duì)準(zhǔn)大臉/微笑——進(jìn)度條開(kāi)始挪動(dòng)。此處需說(shuō)明,只是淺笑,嘴角弧度并沒(méi)有上揚(yáng)到夸張,板牙也踏踏實(shí)實(shí)的藏在嘴唇后面。
事后和百度人員溝通,百度方表示,由于飛機(jī)上不能聯(lián)網(wǎng),啟動(dòng)前期也可能存在不能識(shí)別表情的狀況。(不過(guò)我還是傾向于是被光線干擾的原因,稍后解釋)
拋開(kāi)小瑕疵不說(shuō),這次航班至少說(shuō)明,精準(zhǔn)的表情識(shí)別技術(shù)已不再遙不可及。
為什么要強(qiáng)調(diào)精準(zhǔn)呢。因?yàn)樗^的笑臉識(shí)別在幾年前就被運(yùn)用在相機(jī)中了。但受限條件很多,比如嘴角弧度小,或沒(méi)有露出牙齒,相機(jī)就很難完成拍攝。這是因?yàn)樾δ樧R(shí)別,基于系統(tǒng)中存儲(chǔ)的微笑和不笑時(shí)的模版對(duì)比(具體對(duì)比的是額頭、眉毛、眼睛、嘴巴、下顎等部位),如果二者差距極?。ㄎ⑿Γ?,系統(tǒng)就不能判斷出你的笑容。
從這一點(diǎn)來(lái)看,百度對(duì)表情的捕捉更為細(xì)致。
從技術(shù)角度來(lái)看,實(shí)現(xiàn)表情識(shí)別更精準(zhǔn)的主要原因是百度在人臉上捕捉了更多的關(guān)鍵點(diǎn),并能夠有效將其關(guān)聯(lián)成表情網(wǎng)。資料顯示,百度的人臉識(shí)別技術(shù)對(duì)人臉型、眉毛、眼睛、鼻子等部位的72個(gè)關(guān)鍵點(diǎn)進(jìn)行了檢測(cè)和跟蹤。

72個(gè)關(guān)鍵點(diǎn)的分布
這只是開(kāi)始,之后面部識(shí)別系統(tǒng)會(huì)將這72個(gè)關(guān)鍵點(diǎn)連接成表情網(wǎng)(如圖)。每次關(guān)鍵點(diǎn)的聯(lián)動(dòng),都會(huì)反映在表情網(wǎng)上,之后再通過(guò)對(duì)比數(shù)據(jù)庫(kù),判斷并輸出此時(shí)呈現(xiàn)的面部表情是否為笑容。
其中最大的難點(diǎn),在于如何準(zhǔn)確的捕捉到這72個(gè)關(guān)鍵點(diǎn)。而百度的解決方法是:

- 1.先識(shí)別并找到整個(gè)人臉

百度在FDDB(序號(hào)并非排名)
說(shuō)起來(lái)容易,但實(shí)現(xiàn)難度不小。據(jù)全球最權(quán)威的人臉檢測(cè)評(píng)測(cè)平臺(tái)FDDB,百度人臉檢測(cè)的準(zhǔn)確率在排名中一直屬于第一梯隊(duì),還曾獲得過(guò)世界第一(哦小米也曾獲得過(guò)該平臺(tái)人臉識(shí)別組的第一,但相對(duì)于隔壁百度的人臉檢測(cè)組,人臉識(shí)別組的難度更低一些)。這大概是對(duì)該技術(shù)最權(quán)威的認(rèn)可了吧。
但從失敗案例中能夠看出,百度表情識(shí)別的光線問(wèn)題【可能】依然沒(méi)有完全克服。
眾所周知,人臉是3D的,但人臉圖像卻只是一個(gè)二維的投影。因此當(dāng)光照程度不同時(shí),會(huì)造成二維投影中人臉圖像的灰度分布不均勻,使局部對(duì)比的差別度擴(kuò)大,從而影響到算法中對(duì)關(guān)鍵點(diǎn)的捕捉。

高空光線rio強(qiáng)
該癥結(jié)幾乎是所有面部識(shí)別技術(shù)的通病,美國(guó)軍方數(shù)據(jù)庫(kù)(FERET)和人臉識(shí)別供應(yīng)商評(píng)測(cè)(FRVT)測(cè)試也表明光,照變化是實(shí)用人臉識(shí)別系統(tǒng)的最大瓶頸之一。同時(shí),實(shí)驗(yàn)和理論表明:同一個(gè)人在不同光照下得到的不同圖像間的差異,可能比不同的人在同一光照下的差異還要大(來(lái)自W. Zhao和R. Chellappa的文獻(xiàn))。
所以,姑且算作技術(shù)上的小瑕疵吧。人類用了幾千萬(wàn)年才演化出這些功能,要給小機(jī)器人一些時(shí)間。
其實(shí)不只是玩笑臉識(shí)別的百度,包括卡耐基梅隆大學(xué)機(jī)器人研究所、Louis-Philipe Morency等在內(nèi)的研究機(jī)構(gòu),都在15、16年期間推出了自己的表情識(shí)別系統(tǒng),并實(shí)現(xiàn)了落地。也因此,很多科技媒體都將16年視作“表情識(shí)別”的分水嶺。
雖然,目前表情識(shí)別的應(yīng)用場(chǎng)景還不夠廣泛,但這是AI向感知人類情緒邁進(jìn)的重要一步。畢竟語(yǔ)言、文字之外,人類還有表情、語(yǔ)氣、動(dòng)作等諸多表達(dá)情緒的手段,只有感知到這些,人工智能才有機(jī)會(huì)真正的理解人類。
所以不要看不起你手機(jī)中那個(gè)不知道由誰(shuí)開(kāi)發(fā)的、不起眼的笑臉識(shí)別程序,那是人工智能的一大步。
