免费的OCR软件，可搜索PDF（在正确的位置带有可搜索的文本）

是否有任何免费软件OCR软件（适用于Linux和/或Windows）可以将PDF扫描的文档作为输入并像Adobe Acrobat一样输出可搜索的PDF？在原始文本上不可见，可以用鼠标选择并复制。

我知道Linux上的gscan2pdf可以执行类似的操作，但是文本位于页面的左上角，太小，根本无法与后台扫描页面上的文本同步。这是因为gscan2pdf将整个页面馈送到OCR引擎。它应该将图像分解为带有单行文本或小段文字的小图像，然后发送给OCR软件。

您想使用哪种语言进行OCR？英语？法国人？日语？

罗马尼亚语和英语。 Tesseract可以做到这一点，但我无法将文本嵌入PDF。

Lios应该这样做，但是我对软件没有任何个人经验。

@VicAche我在Tesseract上尝试过Lios，但是在导出为PDF时崩溃。界面看起来像OCR Feeder，但更为复杂。无论如何，谢谢您的建议。以前从未听说过Lios。

@Cornelius是FLOSS，您可能想报告遇到的错误。

#1 楼

PDF-XChange Viewer是使您能够执行此操作的工具。免费版本将允许您以多种语言OCR（可以免费下载其他语言包）并添加OCR文本作为覆盖文本层，可以从中进行复制并使用CTRL + F搜索。

具有许多功能的快速PDF查看器
快速OCR引擎（除非您选择最佳精度）
很多选项旁边都有PRO图标（可用仅在Pro版本上可用），但您可以隐藏它们
颜色管理和自定义屏幕DPI设置
仅Windows应用程序，该应用程序似乎无法在Wine上运行（查看器可以运行，但是OCR功能可以使它运行崩溃）

它没有做的事情：

OCR没有利用多核的优势
OCR无法检测字符样式（粗体，斜体）或复制功能会丢失它们
，它没有使用正确的罗马尼亚变音符号，但是如果您在编辑器中复制文本并进行搜索和替换，则可以解决以下问题：

好的软件。到目前为止，我已经用我的经验更新了您的答案。

– Cornelius
14年6月30日在16:45

它实际上可以与Wine 1.5.28一起使用...不适用于其他版本。幸运的是，PlayOnLinux允许您使用多个Wine版本。

– Andrea Lazzarotto
16年8月21日在12:44

@AndreaLazzarotto对我来说，它在Wine 1.8中完美地工作了。

– Cornelius
16年12月15日在9:25

@Cornelius，您是对的。我最近在Wine 1.9上尝试了新版本的PDF Xchange Viewer，现在似乎可以使用了。但这不是过去的事，我想他们也更新了该程序，这不仅是因为Wine更好。

– Andrea Lazzarotto
16 Dec 15'9:27

查看器已经停产，但仍可以通过tracker-software.com/product/pdf-xchange-viewer/下载。

– Tobias Kienzler
17年12月7日在12:39

#2 楼

尝试pdfsandwich。从手册页：

pdfsandwich生成“三明治” OCR pdf文件，即，仅包含图像（无文本）的pdf文件将通过光学字符进行处理
识别（OCR）和文本将不可见地添加到每个页面中。
在图像的“后面”。如果您有扫描的pdf文件，例如
，例如：alice.pdf（这是您可能听说过的
小说的第一章），请像这样调用pdfsandwich： >

pdfsandwich alice.pdf

这将生成一个看起来像原始文件的文件alice_ocr.pdf，但是可识别的文本将放置在扫描的图像后面。您可以立即进行全文搜索，也可以选择文本
区域。

另一个选项可能是OCRmyPDF。

#3 楼

Tesseract的更新版本（在撰写本文时为3.03 RC）可以做到这一点：

免费，开源和跨平台
从版本3.03开始可用PDF输出
CLI软件
支持多种语言
不幸的是，单个图像输入，因此要制作完整的文档，必须创建一个批处理脚本以将每个页面图像转换为可搜索的PDF。之后，应使用pdftk之类的工具将PDF页面合并为单个PDF。

这是命令：

tesseract -l <lang> input.tif output pdf

请注意，为了使用此方法，必须首先将输入PDF栅格化，因为tesseract不会将PDF作为输入。

–yms
16-09-28在20:58

#4 楼

pypdfocr对我有用。这是一个Python脚本，可简化整个Tesseract的用法。安装依赖项后（在Linux上这是一个简单得多的过程），就像键入以下内容一样简单：

#5 楼

我使用Microsoft OneNote作为OCR工具。右键单击图像，它可以复制图像中的整个文本，还可以搜索图像中的文本。它是免费且准确的，并且可以在Windows上运行，并且支持几乎所有图像格式。

它还可以搜索PDF文件和PDF文件中的图像。

优点是它支持多种语言：)英语，法语，西班牙语也

#6 楼

https://www.microsoft.com/zh-cn/store/p/leadtools-ocr/9wzdncrdr0d5是一个小型的简单WinRT应用程序（在Win10上也可以很好地运行），除了拍摄图像或PDF并输出夹PDF或文本。它有点丑陋，没有任何配置，但是可以很好地完成这一小任务。

#7 楼

您可以使用Google云端硬盘获取可搜索的文本。

首先，选择一个密钥设置。在您的Google云端硬盘设置的“常规”下，选中“转换上传：将已上传的文件转换为Google文档编辑器格式”旁边的框。

现在将pdf上传到您的Google云端硬盘（点击“新建”，然后“文件上传”）。上传完成后（可能需要一两分钟），右键单击它。（如果找不到，请尝试在左侧边栏中单击“最近”。）正如我所说，右键单击您上传的pdf，然后选择“使用...打开Google文档”。现在您将拥有可搜索的文本。

#8 楼

另一个选择是pdf2pdfocr（https://github.com/LeoFCardoso/pdf2pdfocr），它基于Tesseract-OCR，可以在Windows，MacOS和Linux操作系统上本地运行。

免责声明：我pdf2pdfocr开发人员。

#9 楼

尽管此线程的其他答案都集中在桌面软件上，但我已通过此Web服务获得了很多成功：http://www.searchablepdfs.org/扫描的文档，并生成带有嵌入式OCR文本的“三明治PDF”，您可以复制/粘贴。

快速
高质量的OCR文本识别（我得到的结果至少与使用Cornelius提到的tesseract所获得的结果一样好）
跨平台（这是一个Web应用程序，因此您不必不需要自己安装任何软件）
免费

缺点：

仅支持英文文档
仅可处理10页每个文件

#10 楼

还有两个选项：

1）在线：www.sandwichpdf.com

2）桌面（多种操作系统）：NAPS2-https://www.naps2.com/

#11 楼

看看OCRvision。 OCRvision是可搜索的PDF软件。它可以将文件夹中的所有扫描文档自动转换为可搜索的PDF。它支持多语言OCR。可以为扫描的PDF和图像文件进行配置，然后将其转换为可搜索的pdf。
br />

编程黑洞网