我正在寻找一种软件解决方案,用于以各种格式(PDF,Microsoft Word等)从简历/简历中提取数据。

我需要的是:


将名称,姓氏,电子邮件,电话号码,分段的邮政地址(街道,邮政编码等)提取为可利用的结构输出
免费软件解决方案
提取其他典型的简历条目(以前的职务等)
直接将以前的结果集成到OpenERP中的解决方案(请注意,OpenERP现在被称为odoo)。

理想情况下,它将与OpenERP无缝集成,但是只要我自己开发集成胶水,任何提供键/值输出的解决方案就足够了。它只应该让我在Linux服务器上获得结果,因此与Linux兼容的软件会更好,但即使是具有合理响应时间以进行交互式使用的Web服务也可以。

我自己的研究Open Applicant可以提供“简历解析”功能,并且是免费软件,因此可能是不错的选择。但不幸的是,它看起来似乎已从网络上消失了。

可能起作用的非免费软件包括DaXtra Parser,ResumeGrabber,Rchilli Resume Parser,Automated Hr Software Resume Parser。

评论

OrangeHRM宣布它集成了“使用简历解析来阅读简历和关键字的简短列表”,但是我还不知道它是本机解决方案还是依赖于某些SaaS。

你有没有来过这个?您找到解决方案了吗?如果是,您会发表答案吗?

抱歉,我当时没有找到满意的答案,也没有计划对此主题做进一步的调查。

尽管OpenApplicant代码已从Sourceforge sourceforge.net/projects/openapplicant/files中删除,但似乎已保留在此处:en.pianshen.com/1360840

我建议您将其发布为答案。找到它做得很好。据我在Way Way Machine上看到的,该页面从未有下载链接web.archive.org/web*/linuxlinks.com/article/20091006152306344/OpenApplicant.html

#1 楼

鉴于您的问题语气暗示了一些编程经验,我建议可以通过以下方式在python中实现:


将每个CV转换为通用格式,例如markdown或纯文本:


Word .docx使用内置的docx模块
Word .doc调用对词以转换为纯文本
Pdf(非扫描文档),pdfminer <要么:使用re / regex使用一组python正则表达式选择相关数据,这可能会给您最快的结果,但可能不是最全面的结果,或者:

使用nltk进行解析和分析-这可能是功能更强大的解决方案,但要实现该解决方案会花费很多时间和精力。


提取名称,姓氏,电子邮件,电话号码,分段的邮政地址(街道,邮政编码等)转换成可利用的结构化输出-是的。一组好的正则表达式就足够了。
免费-是,除了开发公司sts

提取其他典型的简历条目-取决于您的投入,可能需要nltk解决方案。
与OpenERP集成-因为您可以按需要的格式输出说是,否则您可以使用OpenERP客户端。
绝对可以在Linux服务器上运行。




#2 楼

我遇到了另一家简历解析公司www.candidatezap.com
,他们声称能够将简历上传到许多ATS / CRM,而无需进行编码/编程,也不需要集成。

评论


你好!您能否扩大答案以使其自成体系?尝试构造它,使其回答OP问题中的4点!

– VicAche
17年4月9日在7:51

#3 楼

这是您可以使用的免费的Resume / CV解析api服务,可以很容易地与您的应用程序或网站集成。网站上有一些示例.net代码集成

评论


看起来该链接现在已死:-(

–莫格说要恢复莫妮卡
18年4月12日在13:24

#4 楼

如果您正在寻找免费的简历解析器,请访问https://affinda.com/resume-parser/
输出为XLS,JSON和XML格式。此解决方案是使用自然语言处理的最新进展构建的,以确保它可以处理最广泛的简历格式集。
您需要自己开发所描述的集成,并且鉴于输出可以包含在其中,因此它应该很简单。一个JSON文件。
字段包括姓名,位置,电话,电子邮件,网站,工作经历(工作,雇主,位置,日期),教育(机构,学位,位置,日期),技能等。
希望这会有所帮助!

评论


听起来很有趣,但并非像免费软件一样免费。实际上恰恰相反,因为这似乎是仅云解决方案。

–心理奴隶
20/12/11在7:46

#5 楼

我们的简历分析软件可帮助您从简历中提取详细信息。通常,它支持所有格式的简历/简历。

评论


您能否提供一些详细信息。例如,输出格式是什么? XML?它可以直接写入我的数据库吗?另外,价格是多少(不必回答这个问题,但很高兴知道)。我猜想OP要求它支持Linux。 Windows也一样?

–莫格说要恢复莫妮卡
19年2月12日在11:35

另外,您的网站上是否有示例输出文件,以便我们可以准确看到它的外观?

–莫格说要恢复莫妮卡
19年2月12日在11:37

输出具有XML和JSON格式。这将有助于直接存储在数据库,CRM或ATS中。为了提供更好的服务,请在此处提供您的详细信息。 (rchilli.com/contacts)。

– Lovepreet Dhaliwal
19-2-21在5:09