标题问了一切。我面前有一个我不太热心的数据输入任务:50-100页的手写注销/登录日志。

日志的格式可能会有所帮助。页面被划分为清晰划定的行和列(13r x 6c,带有额外的标题行)。进一步帮助我解决的是三列与日期/时间相关(日期,超时,进入时间)。而且,或多或少地枚举了两个列(资源和名称)中的数据,因此,例如,名称“ Smith”可能一次又一次地出现在名称列中,每次使用相同的笔迹。最后一栏“ Notes”是自由格式,但是如果我可以自动完成前6列,那么我不介意手动输入Notes。

有什么建议吗? (除了“开始输入文字”。)

PS如果有更好的SE网站问这个,请告诉我,我会在那儿询问。

评论

您可以发布日志的样本扫描吗?

不要为Captricity烦恼-他们会要求您发送电子邮件,并向您发送没有链接的“链接电子邮件”。

当您对“开源”和“免费”这两个术语感到困惑时,就会发生这种情况,即您有一家公司试图在市场上获得优势,并提出“开源”等于“坏”的想法。 »。

#1 楼

tesseract可能是最好,使用最广泛的OCR库。

它已经过手写测试,虽然还不容易阅读,但还不错。 http://arxiv.org/ftp/arxiv/papers/1003/1003.5893.pdf

评论


$ \ begingroup $
如果您正在寻找免费/开源软件,Tesseract当然是一个不错的选择。它不是100%,但是在大多数情况下确实可以获得相当准确的结果。
$ \ endgroup $
– Kenpachi上尉
17年5月24日在14:12

#2 楼

如果您的页面不到10页,Captricity可以免费使用。

开箱即用,没有很好的开源解决方案来满足您的需求。付费解决方案的许可费用很高。这是基于我们在Captricity建立手写OCR服务的经验。我们在生产中确实使用了tesseract,但只是将其与人类智慧(众包)结合使用才能提供高质量的投票。

希望有帮助!