大数据安全治理与防范:反欺诈体系建设
上QQ阅读APP看书,第一时间看更新

令人鼓舞的是,随着大数据时代的到来,大数据和人工智能技术也得到了跨越式的发展,为安全领域提供了新的利器。通过将大数据、人工智能与安全结合,形成安全领域的大数据技术,能有效应对大数据时代的安全风控新挑战。

大数据安全治理与防范体系是在安全领域中应用新兴大数据技术体系,从而应对大数据时代下的风控新挑战。其中,新兴大数据技术体系并不是单指某一种技术,而是为了满足大数据应用需求而形成的技术体系,主要包括以下4个部分。

大数据平台:为了高效地存储和处理海量数据,诞生了许多大数据基础框架,其中最为著名的大数据基础框架当属2003~2006年间由谷歌发布的分布式文件系统GFS、分布式并行计算框架MapReduce、分布式数据库Bigtable等。

数据治理:解决了海量数据的存储和处理问题后,还需要应用数据清洗、元数据管理、数据质量管理、特征集市管理等数据治理技术来有效地管理大数据资产,使大数据资产的价值最大化。

云服务:除了海量数据离线存储的应用需求,还需要利用镜像、容器等云服务技术来满足海量数据实时访问的应用需求。

人工智能:对于大数据中恶意信息检测、复杂恶意模式挖掘的问题,由于数据的规模庞大,完全无法通过专家规则来处理。而人工智能的发展,使得对文本、图像、语音等复杂内容的理解和识别成为可能,也支持通过关系、社群、时序等数据来挖掘黑产信息。

除了上述新兴大数据技术,在完整的大数据安全治理与防范体系中,也包括运营监控体系、情报与态势感知体系等。如图1.2所示,大数据安全治理架构自下向上可分为大数据平台、数据治理层、风控模型层以及在线服务层,而反欺诈运营体系和情报系统服务于整个治理架构。

图1.2 大数据安全治理架构

大数据安全治理架构各部分功能如下所示。

大数据平台:提供海量数据存储和计算的底层平台及框架,包括大数据基础平台(Hadoop、Spark等)、分布式数据仓库(Hive、Presto等)、分布式文件存储系统(HDFS、KFS等)和流数据处理框架(Flink、Storm等)。

数据治理层:负责对未加工的原始数据进行加工、组织和管理,以便后续应用。大数据应用中最原始的数据通常以日志形式来组织,其中往往包含诸多异常的、不规范的数据。数据治理层通过数据清洗将原始数据整理为规范化的基础层数据,再通过基础数据的特征工程将数据加工为安全业务可使用的特征,同时为数据清洗、特征工程提供分层治理、数据仓库、特征集市、可视化等治理能力。

风控模型层:通过使用基础层原始数据、特征层特征数据,为用户在应用平台的全生命周期提供安全风控能力。如图1.3所示,大数据安全治理包含事前、事中、事后三个风控阶段。在事前风控阶段,通过身份模型对用户、环境、设备判别,预防潜在风险;在事中风控阶段,判断违规行为、恶意内容的安全风险,并进行阻断和拦截;在事后风控阶段,对社群、产业、团伙进行全面复盘,挖掘潜在恶意同伙、产业链及组织分工,全面打击黑灰产[1]产业链。

在线服务层:负责大数据安全能力的最终输出。为满足大数据时代对海量数据的风险判断需求,大数据安全能力往往以公有云SaaS服务形式提供,通过自动化运维体系,根据业务需求进行弹性扩容,以支持百亿级别的并发访问,并保持服务稳定可靠。

反欺诈运营体系:对整个大数据安全治理架构中的服务、数据、底层架构进行系统化监控,提供大数据安全系统运营工具,同时针对风控后的申诉建立反馈工作流程,以帮助安全风控人员更好地掌控系统的运行状态并实时处理系统问题。

情报系统:负责从大数据感知黑灰产对抗变化,提供新的黑产组织、手法、运营信息,以帮助安全风控人员确定当前黑灰产行为模式、影响态势、发展方向等关键信息,为安全风控提供情报。

图1.3 大数据安全治理生命周期


[1]注:在本书中,会同时出现“黑灰产”与“黑产”的表述,从字面可知,两者的意义、涵盖的范围并不相同,考虑到本书的主旨并非为了对两者进行严格区分,而是用来泛指各种违法的行为,因此在后文的表达中,会酬情混用这两个词汇。