关于打开的刮擦数据库的注意事项

2021-03-30 14:46:14

我不是开发人员,但我一直在使用电子表格来查询,提取和小提门网站多十年来。 今天我膝盖深入R& D项目探索了Web和电子表格之间的链接。 这基本上是我的梦想客户网演出。 通配符是使用熟悉的电子表格视图,授权任何人修改网站以解决自己的特定需求的浏览器扩展。 这是一种“外部”使用电子表格 - 在网站之上叠加熟悉的电子表格UX。 我正在使用电子表格的“内幕” - 从网站提取数据到电子表格环境中。 这两个项目都依赖于解析和提取来自任意网站的某种结构化数据。 这个…。 是一个非常复杂的任务。 没有单一的标准(我知道)写刮刀。 有些用CSS选择器,有些使用XPath,一些使用Regex等。

JavaScript-Revent网站以各种方式加载数据,通常强迫您渲染完整的JavaScript页面以获取您想要的内容 如果...有一个打开的数据库刮擦。 我想象像WikiScrape这样的东西,其中一个社区构建并维护一个URL +模式库以进行刮擦。 因此,例如,我可以查找像Airbnb这样的网站并快速获取选择器或XPath以从列表中提取价格字段。 当然,这不会解决艰难的刮擦问题,但对于许多普通爱好/方法用例,可能是“足够好”。 这篇博客是由汤姆克鲁克,一个独立战略顾问撰写的,生活和工作在布鲁克林,纽约。 如果您喜欢您阅读的内容,请在Disqus中留下以下评论或注册我的TinyLetter。