Alan Hou的个人博客

如何读取扫描版PDF中的文字

常规的PDF文字版可以轻易地获取其中的文字内容,但是网上充斥着大量的扫描版PDF文件,有时我们想要大段地摘录。如果这时一个字一个字地从键盘上敲出来,显然是太过费力,于是我们就迫切需要找到一种方法来顺利的提取出扫描版PDF中的文字。

网上有很多方法,人气比较高的是使用PDF-Xchange Viewer然后去官网下载OCR识别模块,可以参考http://jingyan.baidu.com/article/fd8044fa91b68e5031137abe.html。

Alan没有测试过上述方法,读者可以百度相关教程自己尝试一下。根据Alan自己的实践这里推荐另一种方法,就是ABBYY FineReader这款软件,它非常之强大,打开要提取文字的PDF文件便可以轻松读取其中的所有文件,还可以选择仅读取指定页面。如下图所示,左侧图像即为原PDF文件,右侧为读取后的文本。

百度一下就可以很容易地搜索到这款软件,其中包括破解版,这里就不提供下载地址了。

退出移动版