腾讯云_ftp服务器安装_年度促销

小七 2019年10月25日 21:23 141 0

停止机器人：机器学习的实践课程

机器人驱动的凭证填充是现代互联网上的一个祸害。这些攻击试图登录并接管用户的帐户，方法是使用大量字典单词和以前被盗的帐户凭据攻击密码表，目的是进行欺诈交易、窃取敏感数据和泄露个人信息。在Cloudflare，我们构建了一套技术来对抗机器人，其中很多都是基于机器学习的。ML现在是一个热门话题，但文献往往侧重于改进核心技术，而不是如何将这些学习机器融入现实世界组织。给定我们在ML方面有多少经验（除了bot管理之外，我们在许多安全和性能产品中都使用了ML），我们想分享一些关于这项技术在实际中如何体现的经验教训产品。那里在将机器学习注入DNA的生命周期中，每个公司都要经历三个阶段。他们是：商业智能标准机器学习机器学习生产这些概念有点抽象，所以让我们来看看它们是如何应用于我们都知道和喜爱的一个有形领域：牙科保险业务智能管理公司已经具备了某种商业智能：分类、搜索、搜索的能力，过滤并对大量数据进行基本的标记。商业智能本身不是机器学习，但它可以作为基础想像你友好的社区牙科保险公司，ACMEDental，定期收到牙科索赔。对于每一个索赔，一个训练有素的保险专业人员会评估入射的X光片以确认牙医的诊断，并将索赔标记为准确或不准确。开从表面上看，这些数据提供了可操作的情报：来自某个牙医或地区的错误诊断的上升可能需要进一步的调查。但这些数据还可以用于其他方面有趣。独立的机器学习训练机器学习模型的关键是编译一个带标签的数据集：原始数据与描述性标签配对，告诉计算机它在看什么。正如我们即将看到的，这些数据集通常是商业智能的自然副产品。ACMEDental的一些精明能干的工程师注意到，通过他们的日常操作，他们已经汇编了一个大的X光存储库，标记为"准确"或"不准确"。在手头有几千张标记的X光片的情况下，他们决定训练一种机器学习算法，可以自动判断X射线。他们使用几种开源工具中的一种使用图像识别来实现这一点，产生了一种ML算法，可以扫描X射线并用令人印象深刻的方式对索赔进行分类精度。机器学习生产一旦一个有效的算法在手，就要把它变成一个产品。这通常涉及到工程、产品设计以及最终的业务开发和销售.ACMEDental发现其新的ML算法非常有效，以至于其产品经理决定向X射线机制造商提供许可证。通过整合ACMEDental算法，牙医可以加快他们的工作流程，减少错误诊断的可能性。该机器还可以与保险公司进行即时索赔批准。之后ACMEDental的业务开发团队致力于集成算法的生产，并与三星等制造商联系，寻求合作伙伴关系新的X光机，由ACMEDental的算法改进，事实证明它在市场上很受欢迎-允许牙医把日常诊断工作交给他们的助手。考虑到这个框架，让我们探索一下如何利用Cloudflare的机器学习。为了告知机器学习模型，我们依赖于Cloudflare网络上1300万个域的数据，该网络每天有6600多亿个请求，每月为超过28亿人提供服务。我们利用这些海量数据来解决网络上最紧迫的安全威胁之一：机器人攻击。生意IntelligenceWe最近分析了Cloudflare 1300万个域（6600亿个请求）中一天的请求量，并将每个潜在攻击标记为0到100的"机器人评分"。Cloudflare已经有一系列工具可以帮助我们了解这个分数，但原则上，我们可以手动将每个数据点标记为"bot"或"not bot"，类似于牙医的例子上面。一个我们分析的初步结论是攻击的地理分布。基本的bot保护工具依赖于阻止来自通常与敌对流量相关的国家的IP地址。但是，当我们对网络中机器人程序的来源进行排名时，很明显这种方法是站不住脚的，因为大多数攻击都来自合法流量巨大的国家。一个更复杂的解决方案使我们能够在不影响真实世界的情况下保护机器人用户。独立机器学习编译了一个从Cloudflare网络采样的大型数据集，我们的ML专家团队开发了一个最先进的模型来预测自动凭证填充和其他bot攻击。训练：我们从训练集中的一万亿个请求（经过多天的编译）开始，每个请求都标有前面提到的bot分数，然后在CPU/GPU集群上分析它们的特性，以识别恶意流量。我们使用CatBoost，一个类似于XGBoost的梯度增强库。验证：虽然我们执行了数百个独立的验证测试，但最终的验证是有多少次登录尝试被验证码挑战，而有多少次已经解决了一个验证码（一个已解决的验证码很可能表示误报）。在一周的时间里，我们将我们的解决方案部署到95个有WordPress登录页面的网站上，发现我们发布了超过66万个挑战，其中只有0.32%的问题得到了解决，这意味着我们的算法检测到的机器人的真阳性率为99.68%。虽然这项工作才刚刚开始，WordPress占全球所有网站的32.5%，因此这是一个非常有意义的进步。同时，我们发现超过80%的对WordPress登录页面的请求都是凭证填充攻击，突显出这些攻击有多普遍是。机器学习生产部署：一旦我们对算法的准确性有了足够的信心，我们将其部署为全球165个服务器设施中不断运行的众多安全功能之一，这些设施构成了Cloudflare的网络优势。今天，它每天评估超过6600亿个请求—从在网络。但是没过多久，我们就发现自己在问：实时了解并阻止凭证填充攻击是否足够？我们能做得更多吗？我们开始思考下一步我们将如何利用现有的数据来预测我们的数据。这将使我们能够在攻击发生之前主动警告公司，并为最坏的情况做好准备，即使它们目前不在Cloudflare上网络。培训：我们使用行业类型、员工数量和收入金额等固定信息训练机器学习模型，以预测登录攻击。结果：在许多有趣的发现中，小公司的攻击比例更高。直观地说，这是有道理的，因为扫描互联网的机会主义攻击流量在所有页面上都是相等的，而热门网站上的人流流量超过了机器人攻击。因此，尽管小公司的流量较小，但他们最容易受到攻击。做这些研究结果只影响了我们模型中237个国家的1300万个Cloudflare网站，访问量为28亿？可能不会。这意味着Cloudflare可以开始考虑帮助所有公司，根据其独特的风险主动预测攻击剖面图。机器学习对我们下一代产品的开发至关重要，我们只触及了表面。我们希望这篇文章对您在自己的组织中规划ML的发展轨迹是有用的：您的道路将是不同的，但希望您将看到一些熟悉的里程碑好吧。云闪正在积极发展其机器学习能力-如果您有兴趣加入我们或与我们合作执行我们的任务，请加入触摸。

本文地址： /zhuji/1824.html