是否有任何免费软件OCR软件(适用于Linux和/或Windows)可以将PDF扫描的文档作为输入并像Adobe Acrobat一样输出可搜索的PDF?在原始文本上不可见,可以用鼠标选择并复制。

我知道Linux上的gscan2pdf可以执行类似的操作,但是文本位于页面的左上角,太小,根本无法与后台扫描页面上的文本同步。这是因为gscan2pdf将整个页面馈送到OCR引擎。它应该将图像分解为带有单行文本或小段文字的小图像,然后发送给OCR软件。

评论

您想使用哪种语言进行OCR?英语?法国人?日语?

罗马尼亚语和英语。 Tesseract可以做到这一点,但我无法将文本嵌入PDF。

Lios应该这样做,但是我对软件没有任何个人经验。

@VicAche我在Tesseract上尝试过Lios,但是在导出为PDF时崩溃。界面看起来像OCR Feeder,但更为复杂。无论如何,谢谢您的建议。以前从未听说过Lios。

@Cornelius是FLOSS,您可能想报告遇到的错误。

#1 楼

PDF-XChange Viewer是使您能够执行此操作的工具。免费版本将允许您以多种语言OCR(可以免费下载其他语言包)并添加OCR文本作为覆盖文本层,可以从中进行复制并使用CTRL + F搜索。


具有许多功能的快速PDF查看器
快速OCR引擎(除非您选择最佳精度)
很多选项旁边都有PRO图标(可用仅在Pro版本上可用),但您可以隐藏它们
颜色管理和自定义屏幕DPI设置
仅Windows应用程序,该应用程序似乎无法在Wine上运行(查看器可以运行,但是OCR功能可以使它运行崩溃)

它没有做的事情:


OCR没有利用多核的优势
OCR无法检测字符样式(粗体,斜体)或复制功能会丢失它们
,它没有使用正确的罗马尼亚变音符号,但是如果您在编辑器中复制文本并进行搜索和替换,则可以解决以下问题:



评论


好的软件。到目前为止,我已经用我的经验更新了您的答案。

– Cornelius
14年6月30日在16:45

它实际上可以与Wine 1.5.28一起使用...不适用于其他版本。幸运的是,PlayOnLinux允许您使用多个Wine版本。

– Andrea Lazzarotto
16年8月21日在12:44

@AndreaLazzarotto对我来说,它在Wine 1.8中完美地工作了。

– Cornelius
16年12月15日在9:25

@Cornelius,您是对的。我最近在Wine 1.9上尝试了新版本的PDF Xchange Viewer,现在似乎可以使用了。但这不是过去的事,我想他们也更新了该程序,这不仅是因为Wine更好。

– Andrea Lazzarotto
16 Dec 15'9:27



查看器已经停产,但仍可以通过tracker-software.com/product/pdf-xchange-viewer/下载。

– Tobias Kienzler
17年12月7日在12:39

#2 楼

尝试pdfsandwich。从手册页:


pdfsandwich生成“三明治” OCR pdf文件,即,仅包含图像(无文本)的pdf文件将通过光学字符进行处理
识别(OCR)和文本将不可见地添加到每个页面中。
在图像的“后面”。如果您有扫描的pdf文件,例如
,例如:alice.pdf(这是您可能听说过的
小说的第一章),请像这样调用pdfsandwich: >
pdfsandwich alice.pdf


这将生成一个看起来像原始文件的文件alice_ocr.pdf,但是可识别的文本将放置在扫描的图像后面。您可以立即进行全文搜索,也可以选择文本
区域。


另一个选项可能是OCRmyPDF

#3 楼

Tesseract的更新版本(在撰写本文时为3.03 RC)可以做到这一点:


免费,开源和跨平台
从版本3.03开始可用PDF输出
CLI软件
支持多种语言
不幸的是,单个图像输入,因此要制作完整的文档,必须创建一个批处理脚本以将每个页面图像转换为可搜索的PDF。之后,应使用pdftk之类的工具将PDF页面合并为单个PDF。

这是命令:

tesseract -l <lang> input.tif output pdf


评论


请注意,为了使用此方法,必须首先将输入PDF栅格化,因为tesseract不会将PDF作为输入。

–yms
16-09-28在20:58

#4 楼

pypdfocr对我有用。这是一个Python脚本,可简化整个Tesseract的用法。安装依赖项后(在Linux上这是一个简单得多的过程),就像键入以下内容一样简单:


#5 楼

我使用Microsoft OneNote作为OCR工具。右键单击图像,它可以复制图像中的整个文本,还可以搜索图像中的文本。它是免费且准确的,并且可以在Windows上运行,并且支持几乎所有图像格式。

它还可以搜索PDF文件和PDF文件中的图像。

优点是它支持多种语言:)英语,法语,西班牙语也

#6 楼

https://www.microsoft.com/zh-cn/store/p/leadtools-ocr/9wzdncrdr0d5是一个小型的简单WinRT应用程序(在Win10上也可以很好地运行),除了拍摄图像或PDF并输出夹PDF或文本。它有点丑陋,没有任何配置,但是可以很好地完成这一小任务。

#7 楼

您可以使用Google云端硬盘获取可搜索的文本。

首先,选择一个密钥设置。在您的Google云端硬盘设置的“常规”下,选中“转换上传:将已上传的文件转换为Google文档编辑器格式”旁边的框。

现在将pdf上传到您的Google云端硬盘(点击“新建”,然后“文件上传”)。上传完成后(可能需要一两分钟),右键单击它。 (如果找不到,请尝试在左侧边栏中单击“最近”。)正如我所说,右键单击您上传的pdf,然后选择“使用...打开Goog​​le文档”。现在您将拥有可搜索的文本。

#8 楼

另一个选择是pdf2pdfocr(https://github.com/LeoFCardoso/pdf2pdfocr),它基于Tesseract-OCR,可以在Windows,MacOS和Linux操作系统上本地运行。

免责声明:我pdf2pdfocr开发人员。

#9 楼

尽管此线程的其他答案都集中在桌面软件上,但我已通过此Web服务获得了很多成功:http://www.searchablepdfs.org/扫描的文档,并生成带有嵌入式OCR文本的“三明治PDF”,您可以复制/粘贴。



快速
高质量的OCR文本识别(我得到的结果至少与使用Cornelius提到的tesseract所获得的结果一样好)
跨平台(这是一个Web应用程序,因此您不必不需要自己安装任何软件)
免费

缺点:


仅支持英文文档
仅可处理10页每个文件


#10 楼

还有两个选项:

1)在线:www.sandwichpdf.com

2)桌面(多种操作系统):NAPS2-https://www.naps2.com/

#11 楼

看看OCRvision。 OCRvision是可搜索的PDF软件。它可以将文件夹中的所有扫描文档自动转换为可搜索的PDF。它支持多语言OCR。可以为扫描的PDF和图像文件进行配置,然后将其转换为可搜索的pdf。
br />