近期,阿里云機器學習平臺PAI主導的多篇論文在ACL 2023 Industry Track上入選。ACL是人工智能自然語言處理領域的頂級國際會議,聚焦于自然語言處理技術在各個應用場景的學術研究。該會議曾推動了預訓練語言模型、文本挖掘、對話系統、機器翻譯等自然語言處理領域的核心創新,在學術和工業界都有巨大的影響力。
論文成果是機器學習平臺PAI聯合阿里巴巴國際貿易事業部、阿里云與華南理工大學聯合培養項目、復旦大學肖仰華教授團隊等共同研發,此次入選意味著阿里云機器學習平臺PAI自研的自然語言處理和多模態算法,以及算法框架能力達到了全球業界先進水平,獲得了國際學者的認可,展現了中國人工智能技術創新在國際上的競爭力。
論文簡述
基于電商多模態概念知識圖譜增強的電商場景圖文模型FashionKLIP
圖文檢索作為一項流行的跨模態任務,在廣泛的工業應用中具有很強的實用價值。視覺-語言預訓練(VLP)模型的蓬勃發展大大提高了跨不同模態數據的表示學習,從而帶來了顯著的性能提升。然而,電商領域的數據具有其自身的特性:1)通用場景的文本大多包含完整的句子結構描述,而電商場景中的描述或查詢通常由多個形容性短語組成,描述了產品的材質或風格等細節信息。2)通用領域的圖像通常具有復雜的背景;相比之下,商品圖像主要包含一個大的商品圖,沒有很多背景物體。基于此論文提出了一種電商知識增強的VLP模型FashionKLIP。一共包含兩部分內容:數據驅動的構建策略,從大規模電商圖文語料庫中構建多模態電商概念知識圖譜(FashionMMKG);和訓練融入知識的訓練策略,學習兩種模態的圖像-文本對的表示對齊,并通過將文本表示與FashionMMKG中時尚概念的視覺原型表示進行匹配,進一步得到概念對齊。

為了驗證FashionKLIP方法的實用性,我們將其應用于阿里巴巴國際部的商品搜索平臺,在圖像-商品和文本-商品兩個檢索子任務上進行了零樣本場景下的驗證,并將其與基線方法CLIP比較,實驗結果進一步證明了FashionKLIP的實用價值及高效性。
面向輕量化文圖檢索的Dual-Encoder模型蒸餾算法ConaCLIP
文本-圖像檢索(Text-Image Retrieval)的目的是在給出一個特定的文本查詢時,從一個大型的圖像集合中檢索出一個最相關的圖像列表。隨著信息交互和社交場景的快速發展,該任務一直被認為是跨模態應用的一個關鍵組成部分,并被各種現實世界的場景所需求,如電子商業平臺,網站等。現有的相關模型如CLIP在計算資源有限的邊緣設備或動態索引場景如私人照片/消息集合上仍然不太實用。為了解決這個問題,我們的目標是從大規模的預訓練雙流編碼器模型出發,專注于小模型預訓練階段的蒸餾過程,以獲得一系列更小、更快、更有效的相應的輕量化模型。與現有的工作不同,我們的方法引入了全連接知識交互圖(fully-Connected knowledge interaction graph)用于預訓練階段的蒸餾。除了模態內教師-學生交互學習之外,我們的方法還包括模態內學生-學生交互學習、模態間教師-學生交互學習和模態間學生-學生交互學習,如下圖所示。

這種為學生網絡建立的全連接圖可以看做是多視角和多任務的學習方案的集成,以此可以加強預訓練模型所需要的穩健性和有效性。同時我們建議,每種類型的學習過程都應該詳細地測試各種不同監督策略的效果。我們將所提出的技術應用于電子商務平臺的端到端跨模態檢索場景,結果展示我們在基本保證模型性能的同時顯著的降低了模型的存儲空間并增加了模型的計算效率。
具有高效推理速度的中文領域文圖生成擴散模型和工具鏈
Text-to-Image Synthesis(TIS)是指根據文本輸入生成圖像的技術,給定一段文本指令,使用計算機程序生成符合文本內容描述的圖像。然而,由于預訓練語言模型缺乏特定領域的實體知識且受限于擴散模型的推理速度,目前開源社區的流行文圖生成模型難以支持特定工業領域的應用。主要問題在于,基于擴散的方法需要使用預訓練文本編碼器對輸入文本進行編碼,然后作為擴散模型的UNet模型的條件輸入。但是目前使用網上收集的文本圖像對預訓練的文本編碼器模型缺乏特定實體概念的理解能力,難以捕獲特定實體知識,這對于生成逼真的實體對象圖片至關重要。同時,擴散模型的推理速度和計算成本也是需要考慮的重要因素,而迭代逆擴散去噪過程的繁瑣計算一直是擴散模型推理速度的瓶頸。我們提出的新框架用于訓練和部署文圖生成擴散模型,模型架構如下圖所示。為了提升對特定實體的理解能力,我們在CLIP的文本編碼器中注入了豐富的實體知識,使用知識圖譜進行知識增強。與開源Stable Diffusion直接利用大規模分層擴散模型不同,我們在圖像擴散模塊之后集成了一個基于ESRGAN的網絡,以提高生成圖像的分辨率的同時有效解決了參數量爆炸和耗時長的問題。對于在線部署,我們基于FlashAttention優化的神經架構設計了一個高效的推理流程。生成模型計算圖的Intermediate Representation(IR)經過端到端人工智能編譯器BladeDISC進一步處理,以提高生成模型的推理速度。

我們的實驗證明,我們針對特定領域場景的知識增強模型可以更好地理解領域知識,并且可以生成更逼真和多樣化的圖像。在推理速度上,我們使用了端到端人工智能編譯器BladeDISC以及FlashAttention 技術來提高模型的推理速度。我們還將這一技術與阿里云機器學習平臺PAI進行集成,以展示其在實際應用中的實用價值,用戶可以在自己的任務(數據)上一鍵式的進行訓練,微調以及推理自己的模型。
算法開源
為了更好地服務開源社區,上述三個算法的源代碼即將貢獻在自然語言處理算法框架EasyNLP中,歡迎NLP從業人員和研究者使用。EasyNLP是阿里云機器學習平臺PAI 團隊基于 PyTorch 開發的易用且豐富的中文NLP算法框架,支持常用的中文預訓練模型和大模型落地技術,并且提供了從訓練到部署的一站式 NLP 開發體驗。由于跨模態理解需求的不斷增加,EasyNLP也將支持各種跨模態模型,特別是中文領域的跨模態模型,推向開源社區,希望能夠服務更多的 NLP 和多模態算法開發者和研究者,也希望和社區一起推動 NLP/多模態技術的發展和模型落地。
Github地址:https://github.com/alibaba/EasyNLP
論文匯總
論文名字:FashionKLIP: Enhancing E-Commerce Image-Text Retrieval with Fashion Multi-Modal Conceptual Knowledge Graph
論文作者:王小丹、汪誠愚、李磊、李直旭、陳犇、金林波、黃俊、肖仰華、高明
論文PDF鏈接:https://aclanthology.org/2023.acl-industry.16.pdf
論文名字:ConaCLIP: Exploring Distillation of Fully-Connected Knowledge Interaction Graph for Lightweight Text-Image Retrieval論文作者:汪嘉鵬、汪誠愚、王小丹、黃俊、金連文
論文PDF鏈接:https://aclanthology.org/2023.acl-industry.8.pdf
論文名字:Rapid Diffusion: Building Domain-Specific Text-to-Image Synthesizers with Fast Inference Speed論文作者:劉冰雁、林煒豐、段忠杰、汪誠愚、吳梓恒、張子鵬、賈奎、金連文、陳岑、黃俊
論文PDF鏈接:https://aclanthology.org/2023.acl-industry.28.pdf