過去“家暴”等家庭案件的調研,往往從派出所、居委會、社區等基層單位得來,可能因為“家丑不外揚”等原因,類似事件的傳播大都低調隱晦,統計相對粗略。然而婦女節當天,新華社一篇《大數據告訴你哪里的家暴最多》的新聞引起了社會輿論的極大關注,僅在新華社(新媒體)客戶端就獲得了近45萬的閱讀量。報道透露的數據,真實且震撼,原因無他,只因這些數據源自于即將上線的“法信”平臺里的海量裁判文書,通過國雙研發的裁判剖析大數據引擎(LD)與同案智推引擎(SP)利用大數據技術和自然語言處理技術層層剖析、深度挖掘而來。
大數據技術在司法領域的應用
在法治社會的環境里,法律與每位公民的工作生活息息相關。中國幅員遼闊、人口眾多,民眾教育水平落差甚大,加上法律文字簡練嚴謹,大數據技術如何幫助普通民眾精準描述他們遭受的財產和人身損害,訴說他們的委屈,以便獲得公正裁判?我們來看看這個例子。
李四被隔壁老王的狗咬了,但老王卻不認賬,李四決定打官司討回公道。作為一個普通人,他只能通過咨詢律師才能知道應該告老王什么,怎么告,勝訴率有多大。但是有了這個平臺,他只需要輸入“我被狗咬了”幾個字,利用同案智推大數據引擎(SP)就可以馬上看到與他相同情況案件的裁判文書以及適用的相關法律條文,一下就解決了李四的大問題。
如果李四是個善于鉆研的人,他在看裁判文書時產生了對相關法律條文以及過往判決案例的好奇,想要進行更專業的了解與學習,更好地維護自己的權益。他可以利用裁判剖析大數據引擎(LD),對相同或相似的案例進行多條件的自由組合和多維度的層層剖析,以便發現這些案例中隱藏的對他有利的規律。
極富想象力的大數據引擎——“LD”與“SP”
能夠達到上文例子中那樣的智能化推薦與剖析,與國雙的大數據技術密不可分。
裁判剖析大數據引擎(LD)除支持法院層級、審理程序、案件類型等基本維度外,還創造性地設定了很多特色的維度和指標,總計有一百多個,并可以進行任意維度、任意指標的自由剖析和下鉆,界面友好,使用便捷。
同案智推大數據引擎(SP)首度創造性地將自然語言處理、機器學習等人工智能方法應用于裁判同案匹配領域,加速匹配同案,一鍵智能推送。對于法律人,可以輸入整篇格式化裁判文書找同案或輸入“法”言“法”語專業表述法律關系找同案。對于普通老百姓,可以輸入自然口語表述事實案情找同案。
特別是SP引擎中支持的口語化輸入的技術,是國雙所獨有的。用戶輸入一段描述性的文字,引擎即通過NLP自然語言處理,在由全量文書構建的數據倉庫中進行相關性的比對,從而調出相關性最高的文書,這一過程僅需400毫秒左右(1秒為1000毫秒),相當于一眨眼的時間,整個過程響應迅速,匹配精準。
除此之外,國雙司法大數據解決方案的獨特優勢還表現在:
1. 國雙分別與中國人民大學、哈爾濱工業大學建立的大數據聯合實驗室提供了強大的大數據技術支撐。
2. 國雙司法大數據事業部囊括了大量來源于法院、檢察院和律師事務所的整個司法體系的一線從業人員,他們為解決方案的專業性和易用性提供了保障。
國雙司法(大數據)事業部高級總監王錳指出,“以分布式運算、自然語義判讀作為技術的經緯,高效地拆解并分析結構化與非結構化的部分,并與司法領域、審判業務無縫結合是國雙的優勢。”他進一步指出,裁判剖析大數據引擎(LD)的功能,就是在充分閱讀理解裁判文書并自我學習進化的基礎上,對裁判文書特定段落進行無限維度、多條件的自由組合和層層剖析;同案智推引擎(SP)則是利用大數據的聚類分析和智能排序功能,幫助法律人借助專業術語和要素在辦理同類案件時同步實現法律事實的比對、法律關系的匹配、法律依據的校核和裁判結果的參照。
“每個法律人都懂得,司法的權威、法官的尊嚴不是依靠宣傳或者政策樹立的,而是如同百川歸海一般,由每一個法官通過對每一個案件的公正審理,一點一滴累計匯聚而來。”王錳說,“裁判剖析及同案智推兩大引擎能夠利用大數據技術手段為法官在案件審理過程中,特別是在行使自由裁量權時參考已有判例,統一裁判尺度,正確適用法律和克服案外干擾提供極大便利,力爭最大限度地消除或減少‘同案不同判’的情形。”
司法大數據的未來與展望
最近的兩會上,最高人民法院周強院長屢次提到“智慧法院”的概念。王錳認為,智慧法院絕不僅僅是無紙辦公、網上立案、電子檔案這么簡單。在多年來信息化建設既有成果的基礎上,在大數據時代來臨的背景下,智慧法院將是人的智能與人工智能的結合體,而人工智能是建立在機器匯聚數據、讀懂數據并不斷深度學習、自我進化的基礎之上的。因此從這個角度上說,法律數據智能化將是智慧法院這座科技殿堂的奠基石,如果不能實現法律數據的智能化匯聚、存儲、關聯和應用,就不能實現建設智慧法院的宏偉藍圖。國雙的裁判剖析大數據引擎(LD)和同案智推引擎(SP)就是司法數據智能應用的典型。
下一個階段,國雙將利用大數據分析和挖掘、自然語言處理、人工智能等技術,結合司法領域的專業知識,構建面向司法專業領域的數據分析方法和系統,進一步建構司法語義數據倉庫。通過分析法律法規、司法流程、司法解釋、參考文獻、典型案例、判決文書、審判業務信息系統等數據,構建司法領域的主要實體、關聯關系、主要屬性等反映司法工作內在規律的數據結構。通過多種數據處理的技術,可以將上述數據源中提取的大量實際數據填充到這個數據結構中。例如,可以從裁判文書中提取大量的案件基本數據,以及案件之間的關聯關系,當事人之間的關聯關系,從而構建反映司法數據內在語義的數據倉庫。
從上述數據源中,還可以進一步細分,構建案件所涉及到的各個生產生活領域的個別結構化數據,例如勞動爭議、知識產權、商業信貸、交通事故等,構建這些領域司法數據的語義數據倉庫,并與這些領域自己的專業數據連接到一起,產生更有意義的司法洞察。
未來,司法語義數據倉庫可以服務于許多司法工作:
1.
在法律適用方面,司法語義數據倉庫可以自動為法官找到案件使用的法律條文,可以圍繞這個法律條文找到所有司法要件所需的參考數據。幫助法官考慮要件的完整性和有效性。甚至從這些要件與類似案件數據的對比中,計算機可以分析出案件判決的參考結果。將法官從大量的資料查找工作中解放出來,同時還提高要件的準備效率,大大提高法官辦案效率。
2. 同樣,當事人和律師也可以從這個司法語義倉庫的數據資源和智能檢索分析功能中受益,達到與法官同等分析問題,準備解決問題機制的目標。
3.
使用OLAP技術,實現對司法數據和專業領域司法數據的多維度分析,構建各種司法問題的統計模型,這些模型從多個維度和指標方面反映司法工作真實狀態與運行趨勢。
4. 法律研究者運用數據挖掘技術在司法語義數據倉庫探索,發現潛在的、有規律的法律問題,為立法和司法實踐提出改善方案。
5.
司法管理者可以運用數據分析技術,從司法語義數據倉庫中統計出法官個體和群體、法院個體和群體、庭室個體和群體的當前工作狀態,固定單位時間內的工作績效。還可以運用數據挖掘技術,發現法官工作的各種工作模式和績效之間的關系,為提高司法工作效率和質量提供決策支持。
這個司法語義數據倉庫具有自動學習新的數據,不斷豐富自身的數據結構和數據內容的能力,滿足不斷增長的司法數據、案情領域信息、法官和當事人對數據分析能力的要求。王錳最后說:“我們與人民法院出版社合作建設的‘法信’平臺,已經讓法律數據智能化,走出了司法科技的實驗室;國雙司法線產品的終極目標就是在法律數據智能化基礎上的司法人工智能,這個初心我們始終銘記。”