加利福尼亚州奥克兰市-在成立后仅两年的2000年,Google达到了一个里程碑,奠定了其在未来20年内的统治地位的基础:它成为世界上最大的搜索引擎,索引超过10亿网页。
互联网的其余部分从未赶上,而Google的索引一直在不断扩大。据估计,今天的网页大约在5,000亿至6,000亿之间。
现在,随着世界各地的监管机构研究限制Google权力的方法,包括最早在本周完成的州司法部长的搜索垄断案以及司法部在10月提起的反托拉斯诉讼,他们正在与一家规模庞大的公司进行斗争。允许它挤压竞争对手。这些竞争者正在将调查人员指向该巨大的指标,即公司的引力中心。
“如果人们使用索引较小的搜索引擎,那么他们并不总是会得到他们想要的结果。然后他们去Google留在Google,” Matt Wells说,他创办了Gigablast,这是一个搜索引擎,大约20亿年前的索引网页数量为50亿。 “像我这样的小家伙无法参加比赛。”
了解Google搜索的工作原理是弄清为什么这么多公司发现几乎不可能竞争并且实际上竭尽所能满足其需求的关键。
每个搜索请求都会向Google提供更多数据,以使其搜索算法更智能。 Google的搜索量比其他任何搜索引擎都要多,以至于在理解消费者的需求方面,它在竞争者方面建立了巨大的优势。由于Google的市场份额约为90%,因此领先优势只会不断扩大。
Google将数十亿用户引导到Internet上的各个位置,而渴望获得这种流量的网站为公司创建了一套不同的规则。网站通常会提供对Google所谓的网络爬虫(越来越多的计算机)的访问权限,这些爬虫是自动搜索互联网并扫描网页的计算机,从而使该公司能够提供互联网上可用信息的更广泛和最新的索引。
当他在音乐网站Bandcamp工作时,软件工程师Zack Maril就开始担心Google的统治地位如何使其对网站如此重要。
2018年,当Google表示其抓取工具Googlebot遇到Bandcamp的一个页面时遇到问题时,Maril先生将解决此问题列为优先事项,因为Google对网站的访问量至关重要。当其他爬虫遇到问题时,Bandcamp通常会阻止它们。
Maril先生继续研究网站为Google开门和为其他人关闭门的不同方式。去年,他向众议院反托拉斯小组委员会发送了长达20页的报告“了解Google”,然后与调查人员会面,解释了为什么其他公司无法重建Google的索引。
现年29岁的马里尔(Maril)表示:“它的垄断在很大程度上是不受控制的动力来源。”他在另一家未与Google直接竞争的科技公司工作。他要求《纽约时报》不透露其雇主身份,因为他没有为此发言。
众议院小组委员会今年的一份报告引用了马里尔先生对谷歌创建实时互联网地图的努力的研究以及它如何“锁定了它的主导地位”。司法部正在寻求平息谷歌以其搜索引擎为首并以数十亿智能手机和计算机为中心的商业交易时,马里尔先生敦促政府干预和规范谷歌的指数。谷歌发言人拒绝置评。
网站和搜索引擎是共生的。网站依靠搜索引擎来获得流量,而搜索引擎需要访问权限以对网站进行爬网以为用户提供相关结果。但是,每个搜寻器都会在网站的服务器和带宽成本上施加压力,而且一些具有攻击性的搜寻器也具有可能导致网站瘫痪的安全风险。
由于抓取其网页需要花费金钱,因此网站有动力让其仅由向其定向足够流量的搜索引擎来完成。在当前的搜索世界中,这使Google以及(在某些情况下)由Microsoft的Bing取代。
谷歌和微软是唯一每年花费数亿美元维护英语互联网实时地图的搜索引擎。根据英国竞争与市场管理局今年夏天发布的一份报告,这是他们多年来用于建立索引的数十亿美元的补充。
Google在市场份额方面远远超过Microsoft。英国竞争主管部门表示,谷歌的索引包括大约5000亿至6000亿个网页,而微软的索引为1000亿至2000亿。
其他大型高科技公司出于其他目的部署爬网程序。 Facebook的网站或服务上的链接都有一个搜寻器。亚马逊表示,其爬虫有助于改善其语音助手Alexa。苹果有自己的爬虫Applebot,这促使人们猜测它可能正在寻求建立自己的搜索引擎。
但是,对于财力雄厚的公司而言,索引编制一直是一个挑战。具有隐私意识的搜索引擎DuckDuckGo决定在十年前停止抓取整个网络,现在将Microsoft的结果联合在一起。它仍然会像Wikipedia一样搜寻网站,以提供出现在结果中的答案框的结果,但是维护自己的索引通常对公司没有经济意义。
DuckDuckGo首席执行官加布里埃尔·温伯格(Gabriel Weinberg)说:“它的成本超出了我们的承受能力。”该公司在去年众议院反托拉斯小组委员会的书面声明中表示,“一个有抱负的搜索引擎初创企业今天(以及可预见的未来)无法避免需要”,请微软或Google为其搜索结果。
当FindX在2015年开始开发Google的替代产品时,这家丹麦公司着手创建自己的索引,并提供了自己构建的算法来提供个性化结果。
FindX很快遇到了问题。大型网站运营商(例如Yelp和LinkedIn)不允许新兴的搜索引擎抓取其网站。由于其代码中的错误,FindX爬网的计算机被标记为安全风险,并被一组互联网最大的基础架构提供商阻止。他们收集的网页经常是垃圾邮件或恶意网页。
FindX的创始人之一布莱恩·希尔德·劳森(Brian Schildt Laursen)说:“如果必须做索引,这是最难的事情。”该公司于2018年关闭。
希尔德(Schildt Laursen)先生去年推出了一个新的搜索引擎,吉维(Givero),它为用户提供了将公司部分收入捐赠给慈善事业的选择。当他启动Givero时,他联合了Microsoft的搜索结果。
大多数大型网站对于谁可以抓取其页面都是明智的。通常,谷歌和微软会获得更多访问权限,因为它们拥有更多用户,而规模较小的搜索引擎则需要获得许可。
“您需要流量来说服网站以允许您进行复制和爬网,但是您还需要内容来增加索引并增加流量,”德国Cliqz联合首席执行官Marc Al-Hames说。经过7年运营的搜索引擎于今年关闭。 “这是鸡和蛋的问题。”
在欧洲,一个名为“开放搜索基金会”的组织提出了一项计划,以创建可以支持许多欧洲搜索引擎的通用互联网索引。该组织的董事长兼创始人斯特凡·沃格特(Stefan Voigt)表示,对于搜索结果而言,拥有多种选择至关重要,因为只有少数公司才能确定显示或不显示人员之间的联系。
Voigt先生说:“我们只是不能将这留给一两个公司。”
当Maril先生开始研究网站对Google的抓取工具的处理方式时,他下载了1700万个所谓的robots.txt文件(实质上是几乎每个网站都列出了抓取工具的位置所发布的路途规则),并找到了许多Google可以更广泛地访问的示例比竞争对手。
ScienceDirect是一个经过同行评审的论文网站,仅允许Google的抓取工具访问包含PDF文档的链接。 只有Google的计算机可以访问PBS Kids上的列表。 在中国电子商务巨头阿里巴巴在美国的网站Alibaba.com上,只有Google的搜寻器才有权访问列出产品的页面。 今年,马里尔(Maril)先生创立了一个名为Knuckleheads'Club的组织(“因为只有一个指关节的人才能占领Google”)和一个网站,以提高人们对Google爬行网络的垄断的认识。 马里尔说:“谷歌拥有社会上的所有力量。” “但是我认为应该对该权力进行民主的控制。”