我有一个扫描的PDF资料,要向其中添加隐藏的文字层,因此可以对文档建立索引。我使用了ghostscript黑白tiff输出设备(tiffg4)将页面提取为tiff图像,下面是它们的外观示例:



使用tesseract,效果不佳。
更改ghostscript输出DPI(600、300、150、96)表明,在96 DPI处的图像可从tesseract获得最佳效果,但仍不令人满意。现在我想征求意见,哪种过滤器可以增强此图像的OCR处理效果。

我可以使用imagemagick或numpy / scipy / ndimage

#1 楼

您真正需要的可能是一些形态学操作,例如扩张然后腐蚀。这称为关闭操作。可能是您的情况-扩张本身可能很好。

以前有一个类似的问题-可以在其他方面提供帮助。

单色(1位黑白)图像转换

如何仅使用形态学操作从图像重建文本?

#2 楼

您可以使用低通滤波器将其删除。这可以在频率空间中完成,也可以仅获取图像的高斯(差异)。