Google一直没有停止开展其庞大的项目,毕竟,Google成功地提供了网络检索服务,绘制出三维地球地图。但是,Google所要推出的在线图书馆项目也许是真的太庞大了,即便Google是网络搜索巨头也无法独立完成。
Google的目标就是能够在一个综合在线图书馆里检索到全球所有印刷品的内容。为此,Google推出了Google Books和Google Scholar服务。Google Book是一项免费下载名著和版权书籍节选内容的服务,而Google Scholar则是一个学术及科学搜索数据库。9月6日,Google又推出了另一项新服务Google News Archive,进而朝着推网络图书馆的方向又迈进了一步。这项新应用可以让计算机用户搜索以前发行的好几种刊物,如《华盛顿邮报》、《纽约时报》和《华尔街日报》。有些可以追溯到200年前刊物的内容,而这则必须从最初的出版社那里购买。
Google坚持不懈地推在线图书馆,并积极寻求获取更多技术人员的支持,以帮助其开发检索及存档所有出版物所必须的技术。8月30日,Google称已转向技术社区寻求帮助,改进光学字符识别(OCR)技术,这项技术支持计算机对扫描的文字进行转换。为此,Google调试了一台名为Tesseract的惠普老式光学字符识别机器。随后,便向开放源社区推出了该产品,以便对其进行改进。Google开放源项目经理Chris DiBona 表示,Google希望利用这项技术,并充分挖掘其功能。光学字符识别技术是Google搜索业务的核心,因为它可以使搜索引擎“读”文件。如果不使用这项技术,那么计算机就只能把一页扫描的印刷品当作一个图像,进而无法搜索并寻找到其中的关键词或短语。在搜索领域,光学字符识别技术所带来的不同就体现在,以前你只有知道完整的书名,才能搜索到这本书,而现在你只需要知道一些关键词。
光学字符识别技术一直未能达到很好的发展,现在其功能远远无法满足目前商业光学字符识别产品的标准。譬如,惠普的Tesseract在识别灰颜色或文章中有背景颜色的文章时就遇到了困难。不过,Google发现,在Tesseract中添加一些代码,就可以解决一些目前所遇到的难题。DiBona表示,光学字符识别引擎的在识别拉丁字符时准确率超过了99.5%,但是在识别其他语言、手写体、高程式化字符以及独特的编排文字时仍存在不足。过去,Google在所提供的搜索服务中对一些模糊不清或偏离中心的文件进行扫描所碰到的问题,光学字符识别产品有时也会碰到。
由于更多的办公地开始进行无纸化办公,采用数字办公,这就需要光学字符识别技术来帮助计算机组织扫描的文本,并进行编辑。过去三年间,搜索引擎及其他在线公司通过采用了这项技术提供搜索业务,从而扩大了光学字符识别技术的应用。Google开放源活动能否促进光学字符识别技术的发展,今后是否会有更多的用户?目前都是未知数。事实上,Google转而采用光学字符识别技术的目的,就是要把全球的印刷品变成数字产品。