云服务器价格_云数据库_云主机【优惠】最新活动-搜集站云资讯

轻量服务器_香港带宽公司_好用

小七 141 0

相似聚类法在诈骗团伙中的应用

Stripe使世界上许多国家的企业都能轻松上船,从而能够尽快接受付款。Stripe的规模使我们的平台成为支付欺诈和网络犯罪的共同目标,因此我们对不良行为者使用的模式有了深入的了解。我们认真对待这些威胁,因为它们既损害了我们的用户,也损害了我们的生态系统;我们规避的每一次欺诈交易都会让任何人都不会有糟糕的一天。我们为我们的风险分析师提供自动化工具,以便在从潜在欺诈账户筛选合法用户的同时做出明智的决策。我们开发的最有用的工具之一是使用机器学习来识别欺诈者试图扩大其业务规模所创建的类似账户集群。许多这样的尝试很容易被发现,我们可以对他们留下的指纹进行逆向工程,以便实时关闭它们。反过来,这使得我们的分析师能够花更多的时间在复杂的案例上,这些案例可能会对我们的用户造成更大的伤害。支付生态系统中的欺诈行为欺诈一般可分为两大类:交易欺诈和商家欺诈。交易欺诈适用于个人收费(如受雷达保护的收费),欺诈者可以用被盗的信用卡购买物品,然后再转售。商家欺诈是指有人注册了一个分条账户,然后诈骗持卡人。例如,欺诈者可能试图通过他们的账户使用被盗的卡号,所以他们会试图提供一个有效的网站、账户活动和收费活动,以使其看起来合法。欺诈者希望在Stripe发现之前支付给他们的银行账户。最终,实际持卡人将要求银行对未经授权的交易进行退单。Stripe将向发卡银行(以及通过代理,持卡人)偿付退款,并试图从欺诈者的账户中借记。然而,如果这些资金已经支付完毕,那么收回这些资金可能为时已晚,Stripe最终将这些成本作为欺诈损失来弥补。欺诈者还可能试图通过设立掠夺性或诈骗性业务来更大规模地诈骗Stripe。例如,欺诈者将创建一个条纹帐户,声称以低价出售昂贵的服装或电子产品。毫无戒心的顾客认为他们得到了很多,但他们从来没有收到他们订购的产品。再次,欺诈者希望在他们被关闭或被扣款淹没之前得到赔偿。利用相似性信息减少欺诈欺诈者倾向于使用重复使用的信息和属性创建条带帐户。通常情况下,低努力欺诈者不会试图隐藏到以前帐户的链接,而且这种活动可以在注册时立即检测到。更老练的欺诈者将投入更多的工作来隐藏他们的行踪,以防止与先前的欺诈企图有任何关联。有些属性(如姓名或出生日期)是很难编造的,而其他属性则更难——例如,要获得一个新的银行账户,就需要付出很大的努力。通过共享属性将帐户链接在一起对于捕捉明显的欺诈企图是相当有效的,但是我们希望从一个基于启发式的系统转向一个由机器学习模型驱动的系统。虽然启发式在某些情况下可能是有效的,但机器学习模型在学习预测规则方面更有效。假设一对帐户根据它们共享的属性数量被分配一个相似性分数。这种相似性得分可以帮助预测未来的行为:如果一个账户看起来与一个已知的欺诈账户相似,那么它们很有可能也存在欺诈行为。这里的挑战是准确量化相似度。例如,共享出生日期的两个帐户的相似性得分应该低于共享一个银行帐户的两个帐户。通过训练一个机器学习模型,我们消除了猜测和手工构造启发式的需要。现在,我们可以随着时间的推移自动重新训练模型,因为我们获得了更多的数据。自动再培训使我们的模型能够不断提高准确性,适应新的欺诈趋势,并学习特定对手群体的特征。选择聚类方法机器学习任务通常分为有监督和无监督。有监督学习的目标是在给定已标记示例的现有数据集(例如,指示帐户是否欺诈的标签)的情况下进行预测,而在无监督学习中,通常的目标是学习原始数据的生成模型(换句话说,了解数据的底层结构)。传统上,聚类任务属于无监督学习的范畴:未标记的数据需要被分组到集群中,以获取对相似性或相似性的一些理解。幸运的是,我们能够使用有监督的模型,这些模型通常更容易训练,并且可能更精确。我们已经拥有大量数据,根据下游影响(例如,我们观察到大量退款和欺诈损失),证明欺诈者是否创建了给定账户。这使我们能够自信地从我们的数据集中标注数百万合法和非法的企业。特别地,我们的方法是一个相似性学习的例子,目标是基于训练数据学习对称函数。多年来,我们的风险核保团队通过对欺诈环的调查,手工汇编了许多现有欺诈账户集群的示例,我们可以将这些参考集群作为培训数据来学习我们的相似函数。通过对这些组中的边进行采样,我们获得了一个由成对的帐户组成的数据集,每个帐户对都有一个标签,表明这两个帐户是否属于同一个群集。我们使用簇内边缘作为正训练示例,簇间边缘作为负训练示例,其中边缘表示一对帐户。我们使用已知的客户群来训练我们的预测模型。现在我们已经指定了标签,我们必须决定要为我们的模型使用哪些功能。我们希望将条带帐户对转换为具有预测能力的有用模型输入。特征生成过程接受两个条带帐户,并生成在这对帐户上定义的许多特性。由于条带帐户及其关联数据的丰富性质,我们可以为任何给定对构造一组广泛的特性。我们将包括的一些特性的例子是分类特性,这些特性存储诸如帐户的电子邮件域、两个帐户上使用的卡号的任何重叠以及文本相似性的度量。利用梯度增强决策树由于我们可以从给定的帐户对中构造出各种各样的特征,我们决定使用梯度增强决策树(GBDTs)来表示我们的相似性模型。在实践中,我们发现gbdt在易于训练、具有强大的预测能力和在数据变化的情况下保持健壮之间的平衡。当我们开始这个项目的时候,我们希望能快速推出一些有效的,有很好理解的特性,并且可以直接进行微调的东西。我们使用的变体XGBoost是一种性能最好的现成模型,适用于具有结构化(也称为表格)数据的案例,我们拥有完善的基础设施来培训和服务它们。在上一篇文章中,您可以阅读更多关于我们在Stripe培训机器学习模型的基础设施。现在我们有了一个经过训练的模型,我们可以用它来预测欺诈活动。由于这个模型是对条带帐户对进行操作的,所以不可能向它提供所有可能的帐户对并计算所有对的分数。相反,我们首先生成一组待评分的候选边集。我们通过获取最近创建的条带帐户并在共享某些属性的帐户之间创建边缘来实现这一点。虽然这不是一个穷尽的方法,但这种启发式方法在实践中很好地将候选边集修剪到一个合理的数目。一旦对候选边缘进行评分,我们将通过选择相似度高于某个阈值的边缘来过滤边缘。然后计算结果图上的连通分量。最终的输出是一组高保真的客户集群,我们可以将其作为一个单元进行分析、处理或手动检查。特别是,欺诈分析师可能希望检查包含已知欺诈账户的集群,并调查该集群中剩余的账户。这是一个迭代过程;随着每个单独集群的增长,我们可以在欺诈者的操作中创建虚假账户时快速识别出越来越相似的情况。而且,我们在Stripe上发现和关闭的欺诈环越多,我们的集群模型在识别未来新集群时就越准确。每一条边由相似性评分加权;我们通过在结果图中找到连接的组件来识别簇。集群系统的好处到目前为止,我们已经讨论了帐户集群系统的总体结构。虽然我们有其他模型和系统来捕获欺诈账户,但使用集群信息有以下优势:我们更擅长抓到明显的欺诈行为。欺诈者很难将新帐户与以前创建的帐户或其他欺诈者创建的帐户完全分开。无论这是由于重复使用基本属性数据还是更复杂的相似性度量,帐户群集系统每周都会捕获和阻止数百个欺诈帐户,几乎没有误报。欺诈者只能使用他们的资源一次。每当有人决定诈骗Stripe时,他们需要投资于被盗的身份证和银行账户等资源,每一项都会带来金钱成本或不便。实际上,通过要求欺诈者在每次创建分条帐户时使用一组新的资源,我们