我有一个项目想法,可以做一些YouTube视频的抓取,所以我开始浏览卷曲YT链接的HTML输出。这些东西是一个要看的地方(Sp)。如果您卷曲以下众所周知的URL并将其存储在文件中:
仅搜索标题就会得到14个结果,分布在随机的HTML和JS中。但它实际上只在页面上向用户显示一次,可能还会在浏览器选项卡中再次显示。这也不仅仅是标题的问题,整个文件中都有大量重复的数据和臃肿的信息。我猜它压缩得很好。我检查了其他几个文件,它们都有10到18份这本书的副本。
我不确定该从中得出什么结论。它们中的许多显然是为了让机器可读,比如OGP,但是你真的需要14份相同的副本吗?