我知道Linux上的gscan2pdf可以执行类似的操作,但是文本位于页面的左上角,太小,根本无法与后台扫描页面上的文本同步。这是因为gscan2pdf将整个页面馈送到OCR引擎。它应该将图像分解为带有单行文本或小段文字的小图像,然后发送给OCR软件。
#1 楼
PDF-XChange Viewer是使您能够执行此操作的工具。免费版本将允许您以多种语言OCR(可以免费下载其他语言包)并添加OCR文本作为覆盖文本层,可以从中进行复制并使用CTRL + F搜索。具有许多功能的快速PDF查看器
快速OCR引擎(除非您选择最佳精度)
很多选项旁边都有
PRO
图标(可用仅在Pro版本上可用),但您可以隐藏它们颜色管理和自定义屏幕DPI设置
仅Windows应用程序,该应用程序似乎无法在Wine上运行(查看器可以运行,但是OCR功能可以使它运行崩溃)
它没有做的事情:
OCR没有利用多核的优势
OCR无法检测字符样式(粗体,斜体)或复制功能会丢失它们
,它没有使用正确的罗马尼亚变音符号,但是如果您在编辑器中复制文本并进行搜索和替换,则可以解决以下问题:
评论
好的软件。到目前为止,我已经用我的经验更新了您的答案。
– Cornelius
14年6月30日在16:45
它实际上可以与Wine 1.5.28一起使用...不适用于其他版本。幸运的是,PlayOnLinux允许您使用多个Wine版本。
– Andrea Lazzarotto
16年8月21日在12:44
@AndreaLazzarotto对我来说,它在Wine 1.8中完美地工作了。
– Cornelius
16年12月15日在9:25
@Cornelius,您是对的。我最近在Wine 1.9上尝试了新版本的PDF Xchange Viewer,现在似乎可以使用了。但这不是过去的事,我想他们也更新了该程序,这不仅是因为Wine更好。
– Andrea Lazzarotto
16 Dec 15'9:27
查看器已经停产,但仍可以通过tracker-software.com/product/pdf-xchange-viewer/下载。
– Tobias Kienzler
17年12月7日在12:39
#2 楼
尝试pdfsandwich
。从手册页:pdfsandwich生成“三明治” OCR pdf文件,即,仅包含图像(无文本)的pdf文件将通过光学字符进行处理
识别(OCR)和文本将不可见地添加到每个页面中。
在图像的“后面”。如果您有扫描的pdf文件,例如
,例如:
alice.pdf
(这是您可能听说过的小说的第一章),请像这样调用pdfsandwich: >
pdfsandwich alice.pdf
这将生成一个看起来像原始文件的文件
alice_ocr.pdf
,但是可识别的文本将放置在扫描的图像后面。您可以立即进行全文搜索,也可以选择文本区域。
另一个选项可能是
OCRmyPDF
。#3 楼
Tesseract的更新版本(在撰写本文时为3.03 RC)可以做到这一点:免费,开源和跨平台
从版本3.03开始可用PDF输出
CLI软件
支持多种语言
不幸的是,单个图像输入,因此要制作完整的文档,必须创建一个批处理脚本以将每个页面图像转换为可搜索的PDF。之后,应使用pdftk之类的工具将PDF页面合并为单个PDF。
这是命令:
tesseract -l <lang> input.tif output pdf
评论
请注意,为了使用此方法,必须首先将输入PDF栅格化,因为tesseract不会将PDF作为输入。
–yms
16-09-28在20:58
#4 楼
pypdfocr
对我有用。这是一个Python脚本,可简化整个Tesseract的用法。安装依赖项后(在Linux上这是一个简单得多的过程),就像键入以下内容一样简单:#5 楼
我使用Microsoft OneNote作为OCR工具。右键单击图像,它可以复制图像中的整个文本,还可以搜索图像中的文本。它是免费且准确的,并且可以在Windows上运行,并且支持几乎所有图像格式。它还可以搜索PDF文件和PDF文件中的图像。
优点是它支持多种语言:)英语,法语,西班牙语也
#6 楼
https://www.microsoft.com/zh-cn/store/p/leadtools-ocr/9wzdncrdr0d5是一个小型的简单WinRT应用程序(在Win10上也可以很好地运行),除了拍摄图像或PDF并输出夹PDF或文本。它有点丑陋,没有任何配置,但是可以很好地完成这一小任务。#7 楼
您可以使用Google云端硬盘获取可搜索的文本。首先,选择一个密钥设置。在您的Google云端硬盘设置的“常规”下,选中“转换上传:将已上传的文件转换为Google文档编辑器格式”旁边的框。
现在将pdf上传到您的Google云端硬盘(点击“新建”,然后“文件上传”)。上传完成后(可能需要一两分钟),右键单击它。 (如果找不到,请尝试在左侧边栏中单击“最近”。)正如我所说,右键单击您上传的pdf,然后选择“使用...打开Google文档”。现在您将拥有可搜索的文本。
#8 楼
另一个选择是pdf2pdfocr(https://github.com/LeoFCardoso/pdf2pdfocr),它基于Tesseract-OCR,可以在Windows,MacOS和Linux操作系统上本地运行。免责声明:我pdf2pdfocr开发人员。
#9 楼
尽管此线程的其他答案都集中在桌面软件上,但我已通过此Web服务获得了很多成功:http://www.searchablepdfs.org/扫描的文档,并生成带有嵌入式OCR文本的“三明治PDF”,您可以复制/粘贴。快速
高质量的OCR文本识别(我得到的结果至少与使用Cornelius提到的
tesseract
所获得的结果一样好)跨平台(这是一个Web应用程序,因此您不必不需要自己安装任何软件)
免费
缺点:
仅支持英文文档
仅可处理10页每个文件
#10 楼
还有两个选项:1)在线:www.sandwichpdf.com
2)桌面(多种操作系统):NAPS2-https://www.naps2.com/
#11 楼
看看OCRvision。 OCRvision是可搜索的PDF软件。它可以将文件夹中的所有扫描文档自动转换为可搜索的PDF。它支持多语言OCR。可以为扫描的PDF和图像文件进行配置,然后将其转换为可搜索的pdf。br />
评论
您想使用哪种语言进行OCR?英语?法国人?日语?罗马尼亚语和英语。 Tesseract可以做到这一点,但我无法将文本嵌入PDF。
Lios应该这样做,但是我对软件没有任何个人经验。
@VicAche我在Tesseract上尝试过Lios,但是在导出为PDF时崩溃。界面看起来像OCR Feeder,但更为复杂。无论如何,谢谢您的建议。以前从未听说过Lios。
@Cornelius是FLOSS,您可能想报告遇到的错误。