过去“家暴”等家庭案件的调研,往往从派出所、居委会、社区等基层单位得来,可能因为“家丑不外扬”等原因,类似事件的传播大都低调隐晦,统计相对粗略。然而妇女节当天,新华社一篇《大数据告诉你哪里的家暴最多》的新闻引起了社会舆论的极大关注,仅在新华社(新媒体)客户端就获得了近45万的阅读量。报道透露的数据,真实且震撼,原因无他,只因这些数据源自于即将上线的“法信”平台里的海量裁判文书,通过国双研发的裁判剖析大数据引擎(LD)与同案智推引擎(SP)利用大数据技术和自然语言处理技术层层剖析、深度挖掘而来。
大数据技术在司法领域的应用
在法治社会的环境里,法律与每位公民的工作生活息息相关。中国幅员辽阔、人口众多,民众教育水平落差甚大,加上法律文字简练严谨,大数据技术如何帮助普通民众精准描述他们遭受的财产和人身损害,诉说他们的委屈,以便获得公正裁判?我们来看看这个例子。
李四被隔壁老王的狗咬了,但老王却不认账,李四决定打官司讨回公道。作为一个普通人,他只能通过咨询律师才能知道应该告老王什么,怎么告,胜诉率有多大。但是有了这个平台,他只需要输入“我被狗咬了”几个字,利用同案智推大数据引擎(SP)就可以马上看到与他相同情况案件的裁判文书以及适用的相关法律条文,一下就解决了李四的大问题。
如果李四是个善于钻研的人,他在看裁判文书时产生了对相关法律条文以及过往判决案例的好奇,想要进行更专业的了解与学习,更好地维护自己的权益。他可以利用裁判剖析大数据引擎(LD),对相同或相似的案例进行多条件的自由组合和多维度的层层剖析,以便发现这些案例中隐藏的对他有利的规律。
极富想象力的大数据引擎——“LD”与“SP”
能够达到上文例子中那样的智能化推荐与剖析,与国双的大数据技术密不可分。
裁判剖析大数据引擎(LD)除支持法院层级、审理程序、案件类型等基本维度外,还创造性地设定了很多特色的维度和指标,总计有一百多个,并可以进行任意维度、任意指标的自由剖析和下钻,界面友好,使用便捷。
同案智推大数据引擎(SP)首度创造性地将自然语言处理、机器学习等人工智能方法应用于裁判同案匹配领域,加速匹配同案,一键智能推送。对于法律人,可以输入整篇格式化裁判文书找同案或输入“法”言“法”语专业表述法律关系找同案。对于普通老百姓,可以输入自然口语表述事实案情找同案。
特别是SP引擎中支持的口语化输入的技术,是国双所独有的。用户输入一段描述性的文字,引擎即通过NLP自然语言处理,在由全量文书构建的数据仓库中进行相关性的比对,从而调出相关性最高的文书,这一过程仅需400毫秒左右(1秒为1000毫秒),相当于一眨眼的时间,整个过程响应迅速,匹配精准。
除此之外,国双司法大数据解决方案的独特优势还表现在:
1. 国双分别与中国人民大学、哈尔滨工业大学建立的大数据联合实验室提供了强大的大数据技术支撑。
2. 国双司法大数据事业部囊括了大量来源于法院、检察院和律师事务所的整个司法体系的一线从业人员,他们为解决方案的专业性和易用性提供了保障。
国双司法(大数据)事业部高级总监王锰指出,“以分布式运算、自然语义判读作为技术的经纬,高效地拆解并分析结构化与非结构化的部分,并与司法领域、审判业务无缝结合是国双的优势。”他进一步指出,裁判剖析大数据引擎(LD)的功能,就是在充分阅读理解裁判文书并自我学习进化的基础上,对裁判文书特定段落进行无限维度、多条件的自由组合和层层剖析;同案智推引擎(SP)则是利用大数据的聚类分析和智能排序功能,帮助法律人借助专业术语和要素在办理同类案件时同步实现法律事实的比对、法律关系的匹配、法律依据的校核和裁判结果的参照。
“每个法律人都懂得,司法的权威、法官的尊严不是依靠宣传或者政策树立的,而是如同百川归海一般,由每一个法官通过对每一个案件的公正审理,一点一滴累计汇聚而来。”王锰说,“裁判剖析及同案智推两大引擎能够利用大数据技术手段为法官在案件审理过程中,特别是在行使自由裁量权时参考已有判例,统一裁判尺度,正确适用法律和克服案外干扰提供极大便利,力争最大限度地消除或减少‘同案不同判’的情形。”
司法大数据的未来与展望
最近的两会上,最高人民法院周强院长屡次提到“智慧法院”的概念。王锰认为,智慧法院绝不仅仅是无纸办公、网上立案、电子档案这么简单。在多年来信息化建设既有成果的基础上,在大数据时代来临的背景下,智慧法院将是人的智能与人工智能的结合体,而人工智能是建立在机器汇聚数据、读懂数据并不断深度学习、自我进化的基础之上的。因此从这个角度上说,法律数据智能化将是智慧法院这座科技殿堂的奠基石,如果不能实现法律数据的智能化汇聚、存储、关联和应用,就不能实现建设智慧法院的宏伟蓝图。国双的裁判剖析大数据引擎(LD)和同案智推引擎(SP)就是司法数据智能应用的典型。
下一个阶段,国双将利用大数据分析和挖掘、自然语言处理、人工智能等技术,结合司法领域的专业知识,构建面向司法专业领域的数据分析方法和系统,进一步建构司法语义数据仓库。通过分析法律法规、司法流程、司法解释、参考文献、典型案例、判决文书、审判业务信息系统等数据,构建司法领域的主要实体、关联关系、主要属性等反映司法工作内在规律的数据结构。通过多种数据处理的技术,可以将上述数据源中提取的大量实际数据填充到这个数据结构中。例如,可以从裁判文书中提取大量的案件基本数据,以及案件之间的关联关系,当事人之间的关联关系,从而构建反映司法数据内在语义的数据仓库。
从上述数据源中,还可以进一步细分,构建案件所涉及到的各个生产生活领域的个别结构化数据,例如劳动争议、知识产权、商业信贷、交通事故等,构建这些领域司法数据的语义数据仓库,并与这些领域自己的专业数据连接到一起,产生更有意义的司法洞察。
未来,司法语义数据仓库可以服务于许多司法工作:
1. 在法律适用方面,司法语义数据仓库可以自动为法官找到案件使用的法律条文,可以围绕这个法律条文找到所有司法要件所需的参考数据。帮助法官考虑要件的完整性和有效性。甚至从这些要件与类似案件数据的对比中,计算机可以分析出案件判决的参考结果。将法官从大量的资料查找工作中解放出来,同时还提高要件的准备效率,大大提高法官办案效率。
2. 同样,当事人和律师也可以从这个司法语义仓库的数据资源和智能检索分析功能中受益,达到与法官同等分析问题,准备解决问题机制的目标。
3. 使用OLAP技术,实现对司法数据和专业领域司法数据的多维度分析,构建各种司法问题的统计模型,这些模型从多个维度和指标方面反映司法工作真实状态与运行趋势。
4. 法律研究者运用数据挖掘技术在司法语义数据仓库探索,发现潜在的、有规律的法律问题,为立法和司法实践提出改善方案。
5. 司法管理者可以运用数据分析技术,从司法语义数据仓库中统计出法官个体和群体、法院个体和群体、庭室个体和群体的当前工作状态,固定单位时间内的工作绩效。还可以运用数据挖掘技术,发现法官工作的各种工作模式和绩效之间的关系,为提高司法工作效率和质量提供决策支持。
这个司法语义数据仓库具有自动学习新的数据,不断丰富自身的数据结构和数据内容的能力,满足不断增长的司法数据、案情领域信息、法官和当事人对数据分析能力的要求。王锰最后说:“我们与人民法院出版社合作建设的‘法信’平台,已经让法律数据智能化,走出了司法科技的实验室;国双司法线产品的终极目标就是在法律数据智能化基础上的司法人工智能,这个初心我们始终铭记。”