Google 提供扫描文件搜索服务

by @yinyin on 2008-10-31 18:26:50

据国外媒体报道,谷歌近日宣布将提供扫描文件的搜索服务。这一功能需要巨大的计算能力以及先进的图像识别技术。

  与标准文档不同,扫描文件没有任何文本数据,无法供谷歌蜘蛛搜索分类。因此,谷歌采用了光学字符识别(OCR) 技术,将文字图片转换为文本数据。

  过去,谷歌已经对这些扫描图片进行了大量索引,但仅限于文件标题与元数据(Metadata)的分类,并非文件内容本身。而现在,谷歌可以对扫描图片中的内容进行搜索,并在搜索结果中正常显示,点击搜索结果后用户能够看到该扫描文档的原始格式,如PDF;也可以点击“以HTML格式观看”显示出转换后的文本。

新浪科技