日志的格式可能会有所帮助。页面被划分为清晰划定的行和列(13r x 6c,带有额外的标题行)。进一步帮助我解决的是三列与日期/时间相关(日期,超时,进入时间)。而且,或多或少地枚举了两个列(资源和名称)中的数据,因此,例如,名称“ Smith”可能一次又一次地出现在名称列中,每次使用相同的笔迹。最后一栏“ Notes”是自由格式,但是如果我可以自动完成前6列,那么我不介意手动输入Notes。
有什么建议吗? (除了“开始输入文字”。)
PS如果有更好的SE网站问这个,请告诉我,我会在那儿询问。
#1 楼
tesseract可能是最好,使用最广泛的OCR库。它已经过手写测试,虽然还不容易阅读,但还不错。 http://arxiv.org/ftp/arxiv/papers/1003/1003.5893.pdf
评论
$ \ begingroup $
如果您正在寻找免费/开源软件,Tesseract当然是一个不错的选择。它不是100%,但是在大多数情况下确实可以获得相当准确的结果。
$ \ endgroup $
– Kenpachi上尉
17年5月24日在14:12
#2 楼
如果您的页面不到10页,Captricity可以免费使用。开箱即用,没有很好的开源解决方案来满足您的需求。付费解决方案的许可费用很高。这是基于我们在Captricity建立手写OCR服务的经验。我们在生产中确实使用了tesseract,但只是将其与人类智慧(众包)结合使用才能提供高质量的投票。
希望有帮助!
评论
您可以发布日志的样本扫描吗?不要为Captricity烦恼-他们会要求您发送电子邮件,并向您发送没有链接的“链接电子邮件”。
当您对“开源”和“免费”这两个术语感到困惑时,就会发生这种情况,即您有一家公司试图在市场上获得优势,并提出“开源”等于“坏”的想法。 »。