听新闻
放大镜
如何确保大数据证据实现预期证明效力
2023-05-23 17:11:00  来源:检察日报

  □大数据证据的证明力不在于电子数据这一载体要素,而在于事实裁判者在大数据技术的辅助下,以相关关系为扩展路径搭建起大数据与客观事实的因果关系桥梁。

  □从刑事证明的视角看,大数据证据以分析报告形式向裁判者进行可视化展现,其实质是揭露海量数据背后的规律性结论,以及该结论与待证事实的关联性。

  大数据证据,是指将传统因果性事实认知、数据相关性思维与大数据技术融合为一,通过剖析海量数据要素的相关性作用创构出必然且合理的事实因果关系,并以融合性证据形式在庭审中呈现的证据。在海量数据的范围内借助大数据算法进行挖掘、碰撞、分析,以探究行为数据的规律,即找寻建立在“为什么”基础上的相关关系,这是大数据证据区别于传统证据的内核。充分的因果认知根据是证据发挥证明力的必要条件。大数据证据的证明力不在于电子数据这一载体要素,而在于事实裁判者在大数据技术的辅助下,以相关关系为扩展路径搭建起大数据与客观事实的因果关系桥梁。尽管大数据证据与传统证据在证据载体或过程形态存在相似性,但其必须在数据算法模型的支撑下才能揭示和表达以案件核心事实为源点的数据相关性,进而为推导因果逻辑提供证明依据。可见,融合性证据是大数据证明的本质属性。

  从刑事证明的视角看,大数据证据以分析报告形式向裁判者进行可视化展现,其实质是揭露海量数据背后的规律性结论,以及该结论与待证事实的关联性。大数据证据一般综合了书面结论、数据算法模型和海量电子数据呈现三个部分,故其在形式与内容两个维度体现着证据的融合性。作为新证据样态,大数据证据是以犯罪过程中生成的镜像数据为信息拓展源,以侦查人员多元、立体的主观感知为指引,以算法模型为依托对数据信息提炼加工和处理所形成的。

  融合性证据运用,首先需要裁判者对大数据证据的证据信息载体和手段形成客观化认知。即,海量数据经过算法技术运算所生成的相关性结论以可视化、可为裁判者接收的展示样态。从内容或功能看,大数据证据的价值体现在数据客观性和算法科学性两个维度。从技术角度看,算法模型在大数据证据形成中表现为有效数据的获取和分析应用,而本质却是主体价值思维与算法语言的结合。当侦查主体从海量数据中取证时,通过算法模型对数据要素的目标导向性运算,使特定数据得出主观期待的结果。由此可见,从主体性视角看,大数据证据还含有“人证”的因子。基于此,有论者指出,大数据证据方法可以区分为两种情况:基于海量数据的数据库对比和基于算法模型的大数据分析。故而,以大数据证据的证明效力视角观之,须从书面分析报告、算法模型与源数据群三个方面出发明辨融合性证据运用的合理性,以保证大数据证据能实现预期证明效力。

  第一,分析报告展示与答辩。在庭审活动中,大数据证据的载体多以书面分析报告(辅以可视化图表等)形式呈现。即,大数据证据可参照“书证”的证据方法向法官展示其证据信息。由于分析报告以文字或图标等方式记载着数据来源、算法模型机理和相关性结论等与案件事实证明密切相关的信息,故此,依据分析报告的形式与内容差异分别施以展示和答辩的方式检验其证明效力。一方面,从书面化的形式特性看,在法庭空间,大数据分析报告向诉讼主体呈现证据信息最为直接、方便的方式是阅读、展示等方法,与之相应的证据方法规则可借鉴书证认证规则。另一方面,各诉讼主体因专业性知识等主客观条件的限制,对于分析报告中有关算法的“加密”内容可能会产生原理与科学可靠性等技术层面的“疑问”。鉴于此,可要求参加大数据侦查与大数据证据“制作”过程的相关人员对“疑问”进行“答辩”,尤其是涉及分析报告生成过程中需要说明源数据提取和数据算法模型的部分,帮助诉讼主体明确大数据证据的证明内容及生成机理,进而为辩方抗辩与法官的事实认定提供便利。

  第二,算法验证。大数据证据作为证据使用时,因算法原理的不可解释性和过程的不透明性,导致辩方无法行使实质抗辩权,而算法验证可破除“算法黑箱”效应,推进大数据证据的司法透明性。有学者提出,算法的可视化问题可以用技术加以解决,只要法律提出了要求,技术便会作出回应使之得以解释。从技术视角看,算法模型的推论演算过程非常复杂,即使将其公开,控辩主体(特别是辩方)无法完全解析算法模型原理,即便能将算法原理进行深度解析,亦需以反向推导验证的技术手段证明其科学可靠性。如此一来,必然会加重控辩双方对大数据证据的质证难度,更无法保证反向验证技术是否真实可靠。为此,有学者提出通过程序规则保障算法公正的实践思路,即对大数据证据给予严格的程序规制,主张将大数据证据的外观处理过程公开化,保证整个运算过程外观的程序透明,并针对此程序规制设置程序性制裁措施。详言之,通过分析使用因素与精确度作为算法的外观处理过程,便可将技术问题转化为程序问题,以此降低结果检验难度,在司法实践中具有极强的可实行性,也为大数据证据这种融合性证据的程序规制提供了新思路。值得注意的是,如何保证算法模型在设计和运算过程的科学可靠性才是化解“算法黑箱”与司法透明矛盾的根本所在。

  大数据算法是对先前海量案件数据资源分析整理打磨提取待证要素,并根据相关刑事内容构建标注体系,将证据要素与证明要素拆分到证据链条各环节所构建的算法模型。不难看出,算法模型在创建之时就已将此前的同类案件裁判所内含的价值判断思维内化至运行程序之中,这意味着算法本身蕴藏了先前裁判的价值倾向,一定程度上具备了价值判断的能力,由此可以“同案同判”作为指导性原则对案件事实作出相似的价值裁量。同时,此举在类案裁判过程中使算法模型具有普遍适用性,推动了法官对证明效力认定标准的同一化。

  第三,数据反推。海量数据集合体是大数据证据得以生成的根基,电子数据是其基础细胞和最微观形态。自电子数据成为法定证据种类以来,最高人民法院、最高人民检察院、公安部《关于办理刑事案件收集提取和审查判断电子数据若干问题的规定》等规范性文件不断出台,已建立了较完备的电子证据运用方法。为此,应从海量数据集合体的维度结合电子数据证据运用方法对大数据证据的运用方法进行分析。

  因海量数据集合体的数据量已达至一定层级,对所有数据进行全面验证既无可能也无必要。大数据的混杂性决定了海量数据并非皆与刑事证明相关,大数据证据只需要从行为相关性出发剥离出有效数据,通过算法模型将其生成规律性结论。总之,大数据证据的特性决定了数据抽样反推检验的现实可行性。从根本上看,刑事证明是最佳解释推论,而不是盖然性判断。对于大数据证据而言,尽管抽样方法存在验证的盖然性以及全量数据反证力不足的缺陷,却是相对合理、可行的操作办法之一。以当前高发多发的电信网络诈骗案件为例,由于案件涉案人数众多,涉及的通讯信息流、资金流、网络流等更是不计其数,逐人、逐条、逐笔查验几乎不具有现实可能性。对此,可从利用大数据侦查措施提取的与案件相关的海量数据中抽离出整体性事实,进而形成大数据证据。基于此,数据抽样必须采取“以果溯因”的方式。具体而言,从已定的条件出发,运用数理逻辑将符合结论的随机性数据要素通过技术算法向初始数据反推,以反向验证大数据证据自身的可靠性。不过,就结论的准确性而言,数据反推实质上带有实验性质,在验证中必须以一定量的可重复结论为支撑,以强化以数据为载体的事实推演结论的可靠性。

  基于证据运用方法的客观科学立场,不合理的抽样反推无法为大数据证据的证明力评判提供认知基础,因此,抽样的合理性也是数据反推验证的客观性保障。从证据生成机理看,大数据证据是将海量数据信息进行结构化分析从而形成相关性结论,其实质是一种归纳推理逻辑。因此,抽取数据样本的量级决定了数据抽样的科学可靠性。即,当抽取的数据量较少时,无法涵盖海量数据的所有可能的相关关系,数据反推验证趋于形式化,并未达到证据方法的客观科学性要求;当抽取的数据量较多且能将数据样本控制在相对客观的范畴,反推验证的结果具备一定的科学可靠性,抽样方法方可满足证据方法的客观科学性要求。

  从诉讼证明的实然角度看,大数据证据为突破传统证据对新型网络犯罪的证明困境提供了新思路。大数据证据如何与现行司法制度、证明规则相融合,还值得进一步探索。

  (作者分别为四川省成都市蒲江县人民检察院检察长、西南政法大学新型网络犯罪侦查研究中心研究人员)

  编辑:陈青青