机器人--好的和坏的--在互联网上无处不在。大约40%的互联网流量是自动化的。幸运的是,Cloudflare提供了一个可以检测和阻止不需要的机器人的工具:我们称之为Bot Management。这是我们为客户检测机器人的悠久历史中最新的平台。事实上,Cloudflare一直提供某种形式的机器人检测。在过去的两年里,我们的团队专注于构建先进的检测引擎,随着机器人变得更加复杂而创新,并创造新的功能。
许多网站都期待人类的行为。当我在网上购物时,我会像其他人一样行事:我可能会搜索几件商品,当我发现有趣的东西时阅读评论,最终完成订单。这是意料之中的。这是互联网的标准用法。
不幸的是,如果没有保护,这些遗址的开发时机可能会成熟。我刚才看的那双鞋?它们是限量版运动鞋,转售价格是五倍。运动鞋囤积者对购买一双(或50双)的机会叫嚣不已。或者,也许我只是在购物车里加了一本书:可能有数百家在线零售商出售同一本书,每一家都急于提供最优惠的价格。这些零售商非常想知道竞争对手的价格是多少。
你可以看到这是怎么回事。虽然大多数人都很好地利用互联网,但也有一些人使用自动化工具进行大规模的虐待。例如,攻击者将通过使用自动机器人快速结账来耗尽运动鞋库存。当人类点击“添加到购物车”时,机器人已经支付了运费。人类几乎没有机会。同样,在线零售商通过收集价格信息的“价格刮”机器人来跟踪他们的竞争对手。因此,当一家零售商将账面价格降至10美元时,另一家零售商的机器人将做出回应,定价为9.99美元。这就是为什么我们最终会得到奇怪的价格,比如厕纸12.32美元。最糟糕的是,恶意机器人被鼓励隐藏自己的身份。他们就藏在我们中间。
并不是所有的机器人都是坏的。CloudFlare维护了一个经过验证的良好机器人列表,我们将其与其他机器人分开。经过验证的机器人通常对自己的身份是透明的:例如,DuckDuckGo公开列出了它用于搜索引擎的IP地址。这是一项用心良苦的服务,恰好是自动化的,所以我们对其进行了验证。我们还验证用于错误监控和其他工具的机器人。
正如前面所讨论的,我们构建了一个机器人管理平台,该平台可以智能地检测互联网上的机器人,允许我们的客户屏蔽坏的和允许好的。如果您对我们的解决方案如何工作感到好奇,请阅读此处。
从今天开始,我们将向您展示到达您网站的机器人。你可以用一个叫做机器人分析的新工具来查看这些机器人。它快速、准确,并且加载了大量信息。您最多可以查询过去一个月的数据,没有明显的滞后。为此,我们使用GraphQL公开数据,并将其与自适应比特率(ABR)技术配对以动态加载内容。如果您已经将Bot Management添加到您的Cloudflare帐户,则Bot Analytics将包含在您的服务中。打开您的仪表盘,让我们来游览一下…。
第一:去哪里?BOT Analytics位于仪表板的防火墙选项卡下。一旦你进入防火墙,进入“概述”,点击左边的第二个缩略图。请记住,必须将僵尸管理添加到您的帐户才能完全访问分析。
值得注意的是,没有僵尸管理的企业站点可以看到它们的僵尸流量的快照。此数据是实时更新的,应该可以帮助您确定是否存在机器人问题。一般而言,如果您的自动流量百分比达到两位数,那么您在原始成本上的花费可能会比您必须花费的更多。更重要的是,你可能会因为囤积库存和伪造证书而损失收入或敏感信息。
“按BOT评分的请求”是页面的第一部分。在这里,我们显示了一段时间内的流量,但我们按流量类型垂直划分。绿色部分表示经过验证的机器人,而紫色和蓝色阴影表示不同程度的机器人/人类可能性。
接下来是“机器人分数分布”。这显示了类似的数据,但是我们没有时间的概念而水平地显示它。使用下面的滑块过滤流量子集,并观看页面的其余部分进行调整。
我们建议您使用滑块找到理想的机器人阈值。换句话说:您网站上可疑流量的界限是多少?我们通常认为30以下的流量是自动化的,但客户可能会选择挑战40以下的流量或阻止10以下的流量(您甚至可以两者兼而有之!)。你应该设定一个雄心勃勃但不太咄咄逼人的门槛。如果您的流量与下面的示例类似,请考虑在3或14这样的“丢弃”点设置阈值。为什么?请注意,在分数1-2和12-13附近,请求密度非常高。这些请求中的许多都将具有相似的特征,这意味着紧靠其上的分数(3分和14分)提供了一些与众不同的质量。这些是分割BOT规则的最有前途的地方。值得注意的是,并不是每个图表都是这样发音的。
“僵尸计分源”位于页面的较低位置。在这里,您可以检查负责对流量进行评分的检测引擎。如果您不记得每个引擎的用途,只需将鼠标悬停在工具提示上即可查看简要说明。客户可能想知道为什么有些请求被标记为“未计算”。当Cloudflare代表您发出错误页面时,通常会发生这种情况。也许某个访问者的请求遇到了网关超时(错误504),在这种情况下,Cloudflare会以标记错误页面进行响应。错误页面不会保证挑战或阻塞,所以我们没有花时间计算机器人分数。我们发表了另一篇博客文章,概述了最常见的来源,包括机器学习和启发式。
“按来源排名靠前的请求”是Bot Analytics的最后一节。虽然它不像上面的部分那样丰富多彩,但这一节将Bot Analytics放在高度具体的数据中。您可以过滤或排除请求属性,包括IP地址、用户代理和ASN。在下一节中,我们将使用它来发现机器人攻击。
首先,我将使用“BOT计分源”工具选择最明显的BOT请求-那些由我们的启发式引擎检测到的请求。这为我们提供了以下信息,其中一些已出于隐私原因进行了编辑:
我已经怀疑这些属性中的几个之间存在相关性。首先,IP地址都有非常相似的请求计数。没有人会访问一个网站22000次,IP 2-5的一致性表明这是一场谋杀。不出所料,右侧的用户代理也会出现同样的模式。用户代理告诉我们与特定请求相关联的浏览器和设备。当Bot Analytics在国家/地区和ASN中显示如此多的一致性并呈现明显的异常时,我会产生怀疑(你也应该如此)。我现在要过滤这些异常现象,看看我的直觉是否正确:
这种趋势是正确的-可以肯定的是,我短暂地展开了该表,发现有9个单独的IP地址表现出相同的行为。这很可能是一个咄咄逼人的内容刮板。值得注意的是,它没有被标记为经过验证的机器人,因此Bot Management发布了可能的最低分数,并将其标记为“自动”。在Bot Analytics的顶部,我将缩小流量范围并将时间段保持在24小时:
最严重的攻击来来去去。这种流量显然是持续的,我最好的猜测是有人经常在主页上抓取内容。这不是最恶意的攻击,但内容仍在被窃取。如果我愿意,我可以设置防火墙规则来针对此bot分数或我使用的任何筛选器。
提醒一下,所有企业客户将能够看到其BOT流量的快照。即使您的站点没有机器人管理功能,也可以访问防火墙获取一些实时更新的高级见解。
对于那些使用Bot管理的人-请查看Bot Analytics!现在已经上线了,我们希望您能玩得开心。在接下来的几个月里,请密切关注新的分析功能。
机器人分析机器人管理安全产品新闻