标题是非常自我解释的,从而充满时间,让我直接跳进所有作品的细节。在这次事件中享有巨大的兴趣,我已经看到了近前所未有的流量,在过去几天里,我已经被Pwned(hibp),让我尽我所能解释我的'接近电话号码搜索功能。或者如果您'重新耐急,您现在可以向HIBP通往HIBP并搜索您的号码。
我从未计划将电话号码搜索,事实上,这位用户的语音想法坐在那里超过5年半年没有动作。我对此的立场是它没有意义于一堆理由:
他们'重复大多数数据集(即我可以' t Just Regex他们,如电子邮件地址)
他们经常不遵守违反违规行为的一致格式
加上,当HIBP的整个Modus Operandi来说是答案的问题 - 我被PWNED了吗? - 只要有可以搜索的电子邮件地址,电话号码Don' t增加了很多额外的价值。
Facebook数据更改了所有这些。超过500米的电话号码,但只有几百万的电子邮件地址所以> 99%的人获得了一个"小姐"当他们应该得到一个"击中"电话号码很容易从(大多数)格式化的文件中解析出来。它们也与一个国家代码归一致化为一个良好的一致格式。简而言之,这个数据设置完全转过我的所有原因,因为没有这样做。
最后,当我询问群众时,响应是"对于"而不是"反对"比例大于2到1:
如果在@haveibeenpwned中可以搜索fb电话号码吗?我在思考的主要利弊方面,它会增加受影响的人,如果它用于帮助解析成权的数字(你仍需要源数据来做这个),那么呈现的风险。
- 特洛伊亨特(@Troyhunt)4月4日,2021年4月4日
推动此功能的另一个原因现在是HIBP克隆的突然出现。我畅顾地使用这个术语;它的讨人喜欢地看到我的项目影响他人♪但我也绝对不知道如何值得信赖的多种变化I'已经看过已经看到了。因此,为了避免任何怀疑的阴影,我想确保如果你' d想知道你是否在Facebook数据中被Pwned,你可以问Hibp,无论它是'电子邮件地址或电话号码您'遗嘱感兴趣。
现有的搜索端点只是识别正在搜索的字符串,用于ISN' T一个电子邮件地址,并且它遵守基本的电话号码模式,即它' s之间的10到14位。所有电话号码都存储了他们的国家/地区呼叫代码,所以澳大利亚号码以61开始,英国是44,北美是1等等。就像当你打电话给国际号码时,前导0下降,所以我们通常可以拨打0403 ...成为61403 ...
这种风格被称为E.164国际电话号码格式和许多人,它' s一种非常熟悉的模式。但以防万一,在这里,这里的一个伟大的指南由Twilio放在一起(以前的博客赞助商 - 谢谢人们!)非常清楚地解释:
当您搜索已被PWNED时搜索任何端点时,如果您喜欢,可以添加+前缀,并且它'在执行搜索时会自动剥离LL。与空格相同,与短划线相同。
在此阶段,您可以在电话号码被PWNED时订阅通知,也不会有任何概念验证数字以搜索敏感漏洞。这将需要短信交付,这显然具有成本,而且还可以在此时'此时的工作原理。
除非有类似的价值主张,否则对Facebook数据类似。我不是要通过巨大的前一个违规数据拖拉回来拖延,并解读电话号码。但是,如果在未来的Facebook情况重复,我会很好地获得加载的数据。
我每一次处理一个大事,'没有来自一个清晰的位置(即凭证填充列表),我得到了一堆"但我的数据副本是不同的"或者"这是假的"消息(只查看这个GIST的评论,就像一个例子)。甚至在此线程中的Facebook数据发推,ve具有同样的经验:
我有一堆关于这个的疑问。我正在调查它,是的,如果它是合法的,适合@haveibeenpwned它很快就可以搜索。 https://t.co/qplzdxattpt.
- 特洛伊亨特(@Troyhunt)4月3日,2021年4月3日
我在头条新闻前几周发出数据,然后" 533M Facebook账户"我发送的数据有370米的记录,后来获得了较大的语料库,现在是非常广泛的流通。很多这是一样的,但很多它也不同。通过该线程和讨论已经随之而来,现在拿出一件事:这个数据没有一个清晰的来源,人们会争论数字,格式和各种各样的东西。考虑一个"最好的努力"根据我所处理的信息。
HIBP网站中还有一些区域需要更新,以反映电话号码范式(即API文档和常见问题解答)。我确定数据搜索,稍后会回到这些状态。
在此时间点的电话号码没有k-匿名实现。因此,Mozilla和1Password的喜欢使用的模型' T覆盖Facebook电话号码,只有电子邮件地址。如果有足够的需求,我会在将来重新审视这一点。
所有这些数据的起源仍然不清楚。初始集合I被遵守到非常一致的格式,更广泛的循环中的设定更加多样化,暗示它们'可能来自多个来源。有些人建议Whatsapp或Instagram作为潜在的额外来源,但我没有看到没有证实这些索赔。
Facebook尚未对此发出明确的立场。他们' vere at to 2019年事件是根本原因,但这并不足够远来解释流通中的数据。现在有很多猜测充满了一系列信息的信息。
最后,关于数据加载过程的最后一个注意事项:在发布此博客文章时,以国际代码4,6,8和9开头的所有电话号码都已完成加载。其他代码正在进行中,可能在他们&#39之前需要几个小时;重新搜索。一旦我确认它们,我会在下面添加一个编辑。'重新完成。