背景
隨著數(shù)字經(jīng)濟(jì)的發(fā)展,數(shù)據(jù)成為各機(jī)構(gòu)的核心資產(chǎn)之一,通過數(shù)據(jù)流通提升數(shù)據(jù)資產(chǎn)價(jià)值的需求不斷增多,與此同時(shí),國家和相關(guān)機(jī)構(gòu)對(duì)數(shù)據(jù)安全和隱私保護(hù)方面的要求和監(jiān)管都日益嚴(yán)格,如何打破“數(shù)據(jù)孤島”,在保護(hù)隱私滿足合規(guī)要求的前提下實(shí)現(xiàn)數(shù)據(jù)流通,成為備受關(guān)注和亟待解決的問題。
典型的如廣告行業(yè),廣告主和廣告平臺(tái)擁有各自的用戶數(shù)據(jù),出于保護(hù)商業(yè)機(jī)密和滿足安全隱私合規(guī)要求的考慮,需要在不直接共享雙方用戶數(shù)據(jù)的情況下,進(jìn)行精準(zhǔn)營銷和廣告效益評(píng)估等業(yè)務(wù)。例如在精準(zhǔn)營銷場(chǎng)景,廣告主持有廣告投放的粗篩目標(biāo)人群包,希望針對(duì)特定用戶群進(jìn)行推薦。若直接將粗篩人群包全部發(fā)送給廣告平臺(tái)并進(jìn)行處理,會(huì)使得平臺(tái)獲取到粗篩人群包中未落入目標(biāo)人群的數(shù)據(jù),導(dǎo)致特定集合以外的用戶信息發(fā)生泄漏,無法保護(hù)數(shù)據(jù)的隱私安全,也不符合安全合規(guī)的要求。
Jeddak數(shù)據(jù)安全沙箱
為了應(yīng)對(duì)上述挑戰(zhàn),字節(jié)跳動(dòng)安全研究團(tuán)隊(duì)自研了Jeddak數(shù)據(jù)安全沙箱,沙箱以可信執(zhí)行環(huán)境(Trusted Execution Environment,TEE)為核心,提供安全、高效、通用的廣告精篩、歸因分析等隱私計(jì)算能力。目前Jeddak數(shù)據(jù)安全沙箱已通過火山引擎對(duì)外提供服務(wù),并為某頭部金融公司在國內(nèi)某廣告平臺(tái)投放過程的用戶隱私,提供安全保障。

Jeddak數(shù)據(jù)安全沙箱提供的保障來自于兩個(gè)層面:
在計(jì)算層面,沙箱實(shí)現(xiàn)了廣告投放全流程的密文計(jì)算,廣告主與廣告平臺(tái)只需要分別加密各自數(shù)據(jù),安全傳輸給沙箱的Enclave進(jìn)行數(shù)據(jù)融合。Enclave是一個(gè)由TEE硬件安全技術(shù)所保護(hù)的“安全保險(xiǎn)箱”,這個(gè)保險(xiǎn)箱中運(yùn)行著隱私計(jì)算下的廣告投放服務(wù)。在Enclave的安全特性的保障下,其他實(shí)體無法修改運(yùn)行的服務(wù)邏輯,也無法窺探在保險(xiǎn)箱中的數(shù)據(jù)。計(jì)算任務(wù)完成后,平臺(tái)側(cè)僅可獲取到預(yù)期的精篩人群包或歸因分析的結(jié)果,這規(guī)避了廣告主數(shù)據(jù)直接提供給平臺(tái)的合規(guī)風(fēng)險(xiǎn)。
在數(shù)據(jù)層面,沙箱希望可以進(jìn)一步打消用戶對(duì)于方案的選型顧慮,如單純信任TEE硬件技術(shù)這一道保障。對(duì)此我們創(chuàng)新性地設(shè)計(jì)并引入了“信任分割”技術(shù)——在廣告投放時(shí),由廣告主與(甚至多個(gè))平臺(tái)之間協(xié)商得到的秘密參數(shù),基于秘密參數(shù)對(duì)傳入沙箱的數(shù)據(jù)進(jìn)行混淆處理,這樣便使得即使攻擊者獲取到沙箱Enclave里的中間態(tài)數(shù)據(jù),仍然無法逆推出原始信息,從而通過信任分割將沙箱轉(zhuǎn)化為弱敏感數(shù)據(jù)的計(jì)算節(jié)點(diǎn)進(jìn)行使用,這一特性緩解了由于側(cè)信道攻擊帶來的硬件系統(tǒng)風(fēng)險(xiǎn)。

火山引擎對(duì)沙箱方案進(jìn)行了包括分治、多進(jìn)程在內(nèi)的實(shí)現(xiàn)優(yōu)化,相對(duì)于純軟件隱私保護(hù)方案,在性能方面已體現(xiàn)出顯著的優(yōu)勢(shì),例如人群包篩選服務(wù),初步優(yōu)化后的沙箱方案比現(xiàn)有軟件最佳實(shí)踐方案快10倍以上,在1小時(shí)內(nèi)可完成廣告主千萬級(jí)別與廣告投放平臺(tái)十億級(jí)別的篩選任務(wù),大幅減少金融客戶廣告投放任務(wù)的執(zhí)行效率,并為后續(xù)廣告歸因、實(shí)時(shí)定價(jià)、用戶群行為建模提供安全高效的實(shí)施渠道。

總體來看,數(shù)據(jù)安全沙箱結(jié)合可信硬件和信任分割機(jī)制,保障工作模式安全性,既可以防范純硬件方案的單一信任風(fēng)險(xiǎn),又可以解決純軟件方案算法適配性、開發(fā)效率與執(zhí)行效率低等難題。
其他領(lǐng)域?qū)嵺`
除了應(yīng)用在廣告投放領(lǐng)域,目前沙箱產(chǎn)品也已在聯(lián)合營銷、政務(wù)疫情防控、生信大數(shù)據(jù)分析等場(chǎng)景下,幫助客戶安全合規(guī)地使用數(shù)據(jù),挖掘多方數(shù)據(jù)價(jià)值。
面向多元場(chǎng)景,沙箱構(gòu)建了通用的計(jì)算引擎和算法倉庫,例如支持基于Tensorflow/Pytorch的多源數(shù)據(jù)融合下的機(jī)器學(xué)習(xí)、支持基于Spark進(jìn)行大數(shù)據(jù)分析處理、基于聯(lián)盟鏈的狀態(tài)存證與驗(yàn)證能力,方便用戶在不同場(chǎng)景下定制和使用隱私計(jì)算。沙箱兼容多種安全運(yùn)行時(shí),并將逐步適配多種底層TEE硬件平臺(tái),從而降低用戶開發(fā)部署TEE應(yīng)用的門檻。
此外,數(shù)據(jù)安全沙箱研發(fā)了融合加速引擎,可以定制化地為多方安全計(jì)算、聯(lián)邦學(xué)習(xí)等多種計(jì)算過程提供加速能力,能夠提升純軟件隱私計(jì)算方案的執(zhí)行效率,目前數(shù)據(jù)安全沙箱可以數(shù)十倍地提升隱私集合求交、縱向聯(lián)邦學(xué)習(xí)等過程的執(zhí)行效率。

結(jié)語
路漫漫其修遠(yuǎn)兮,如何有效打破“數(shù)據(jù)孤島”,完成隱私合規(guī)要求下數(shù)據(jù)要素的安全流通,實(shí)現(xiàn)真正高效、易用的數(shù)據(jù)“可用不可見”過程,仍然是Jeddak數(shù)據(jù)安全沙箱不斷探索和嘗試突破的長期命題。
在面向開源、通用、自主可控的方向,火山引擎除了提供Jeddak數(shù)據(jù)安全沙箱產(chǎn)品外,還將深入行業(yè)實(shí)際應(yīng)用場(chǎng)景,進(jìn)一步豐富云安全系列產(chǎn)品矩陣,努力為用戶帶來豐富和便捷的安全計(jì)算功能。