云服务器价格_云数据库_云主机【优惠】最新活动-搜集站云资讯

MySQL数据库_企业云主机_学生机

小七 141 0

介绍scrapshield:发现、防御和阻止内容刮取

介绍scrapshield:发现、防御和阻止内容擦除

如果你是一个出版商,无论是个人博客作者还是主要媒体,你无疑经历过内容刮蹭。在网上搜索你发表的文章或其他原创内容,你会发现它被复制并重新发布在其他一些随机的网站上。网站上经常会充斥着广告,有时,它在搜索结果中的排名甚至会比你的原创作品更高。虽然你可以想象一大群人在他们的网站上复制和粘贴你的内容,但事实是内容抓取通常是一个自动化的过程,机器人会抓取原始内容,然后在不需要人工干预的情况下将其重新发布到link farm站点上。CloudFlare过去已经自动阻止了许多此类机器人,但我们决定现在是时候采取措施更积极地阻止它们了。介绍ScrapshieldScrapeShield是CloudFlare团队创建的应用程序。它集成了一些现有的CloudFlare功能,如电子邮件模糊处理和热链接保护,这些功能可防止内容被刮取,同时还添加了许多新功能。因为我们相信每一个原创内容的出版商都应该能够理解和控制他们的作品是如何使用的,所以我们为每个CloudFlare用户免费提供ScrapShield。

介绍scrapshield:发现、防御和阻止内容擦除

探测、防御和威慑scrapshield有不同的元素来帮助你检测你的内容何时被刮伤,保护你的网站免受内容刮刮者的攻击,甚至阻止内容爬虫首先瞄准你。如果启用scrapshield,CloudFlare将自动在内容中插入不可见的跟踪信标。当自动机器人抓取你的内容时,它们会同时拉上信号灯。当这些信标从非您自己的站点ping时,CloudFlare会检测到这些信标。您可以访问scrapshield控制面板,查看内容的重新发布位置。这不仅有助于显示抓取,而且您还可以看到用户通过Flipboard或Pulse等代理服务阅读您的内容。来自内容信标的数据被反馈到CloudFlare的保护系统中。由于CloudFlare识别内容抓取机器人,我们会自动阻止它们访问您的站点。正如CloudFlare最初的灵感来源"蜜罐计划"(Project Honey Pot)使用陷阱来检测垃圾邮件发送者何时获取电子邮件地址,CloudFlare现在使用ScrapeShield中的数据来识别内容爬虫,并将其挡在发布者的网站之外。迷宫我们不想仅仅阻止scraper攻击CloudFlare上的站点,我们还想把他们的资源捆绑起来,这样他们就不会伤害到web的其他部分。为此,我们创建了迷宫。迷宫将访问scrapshield保护站点的已知内容爬虫引导到gibirish和gobbledygook的虚拟迷宫中。我们动态地限制带宽和速度,这样就不用尽可能快地加载页面,而是对scraper开放连接,并占用它们的资源。我们使用CloudFlare网络上多余的资源来生成Maze,它不会消耗我们发布者的任何资源,也不会给他们的站点增加任何额外的负载。该系统的优点在于,内容爬虫能够确保他们避开迷宫的唯一方法是完全避开CloudFlare的IP地址。对于任何可能正在阅读本文的内容爬虫者,这里有一个我们所有IP的有用列表,以便您能够确保远离。无固定最后,随着Pinterest等网站的兴起,无辜的内容抓取可能会变得更加丰富。虽然许多网站欢迎他们的图片被钉住,我们想让它更容易选择退出。scrapshield提供了一个选项,可以将no-pinning meta标记添加到站点,以防止图像被固定到站点上。由于其他类似的服务包括一个选择退出的机制,所以我们将从scrapshield接口为您提供一个简单的方法。网络的健康取决于出版商创造的原创内容是否能为他们的创作赢得赞誉。CloudFlare致力于构建一个更好的web,我们对scrapshield作为一个新的工具非常兴奋,它可以帮助出版商做到这一点。附录2016年5月scrapshield现在已经被引入到CloudFlare的核心仪表板中。你可以在这里找到scrapshield。