我知道算法对于不同的实现方式会有所不同,我只是好奇是否有关于此过程的最佳实践或建议。
First Name
Last Name
Date of Birth
SSN
Address
City
State
Zip
等吗?
#1 楼
乌拉圭的CS工程师Pablo Pazos撰写了一篇很棒的文章(西班牙语,对不起),他从2006年开始从事医疗保健IT,并在该领域做出了巨大贡献,他在其中描述了实现这一目标的算法。 br />您可以通过翻译来运行这篇文章,但是要点是,确定一个人的身份的基本信息是他们的名字和姓氏(均来自父母),性别和结婚日期。出生。有趣的是,他明确地从他的身份匹配算法中排除了像SSN这样的ID号,因为“任何种类的标识符都不是他的身份的一部分”(不过我想这是有争议的)。另外,他不包括街道地址,电话号码等属性。由于它们与某人的身份并没有真正的联系,因此与“某人实际上是谁”无关。
此外,他为每个以前的属性分配了不同的“权重”,例如:
名字:17.5%
中间名:17.5%
姓氏(父亲):17.5%
姓氏(母亲):17.5%
性别:10%
DOB:20%
这些属性中的每一项都具有匹配项他描述了一种获取复合“一致性匹配索引”的方法,利用该方法可以在记录之间进行比较。另外,可以通过使用Levenshtein距离之类的算法对名称属性进行“部分”匹配。
IMO,读得很好。抱歉,它是西班牙文,但我希望我能够传达其主要思想。
评论
太好了,谢谢。 +1也代表距离,因为错别字很常见,尤其是在文化背景高度多样化的社区中(在北美经常如此)。就是说,在大多数必须执行匹配的情况下,可能值的范围都受到很大限制。因此,在这些情况下,在数据库中返回单个匹配项的任何可靠标准(例如健康保险号码)就足够了,如果返回了多个条目,我倾向于询问用户(如果有)或使用其他条件进行过滤。
– Newtopian
2011年10月20日下午5:08
(...续)请注意,尽管这些案例适用于在诊所或医院在本地安装EMR或在放射科安装RIS。在这些情况下,客户要么在诊所或医院注册,要么未在诊所注册。对于MPI,这是一个全新的游戏。
– Newtopian
2011年10月20日下午5:11
#2 楼
没有单一的魔术算法可以进行患者匹配,而且我怀疑还会有这种算法。对于初学者来说,存在区域差异。正如MMattoli指出的那样,在美国城市医院中行之有效的方法可能不适用于澳大利亚乡村中治疗原住民的诊所。
此外,各个站点对容错的看法也不尽相同。如果仅在绝对确定的情况下进行比赛,那么您会错过很多比赛。这会导致重复的患者记录,从而带来其他一系列问题。大多数站点都愿意为获得肯定的结果而安定下来,但是又有多少确定性呢?问10个人,您将得到12个答案。
因此,“最佳”算法将是可配置的,因此您的客户可以对其进行调整以适合他们的需求。一个匹配项,不同的字段提供不同程度的置信度。
特定于医疗保健的标识符提供了最大的信心,因为它们的全部目的是唯一地标识卫生系统中的人。医院通常会尽力确保这些事情不会重复。
示例:
国民健康ID(例如,英国NHS编号)
医院分配的病历编号。
取决于系统,其他患者标识符也可以提供高置信度。例如,军事身份证在军事医院中可能非常重要。
示例:
军事ID
保险ID
社会保险号(在美国,通常不将社会保险号视为高风险的匹配,因为保险欺诈猖ramp。)
在没有唯一标识符的情况下,人们必须诉诸于人口统计信息。不建议在任何一个领域进行比赛,但是人口统计领域的比赛越多,比赛就越有信心。
关于一个不经常变化的人的信息适合匹配:
姓名
性别
出生日期
但是在比赛中甚至可以考虑使用更具延展性的信息来增强信心:
地址
电话号码
电子邮件地址
评论
SSN也有一些非常严格的限制,例如在加拿大,除非您是雇主或银行,否则甚至要求它都是非法的(也许还有更多,我不是律师)。像中国这样的其他地方,他们几乎用它来做任何事情,甚至在交通繁忙的假期里购买火车票。
– Newtopian
11-10-20在5:03
如果您是女性,通常会更名。而且两个人经常有相同的名字,甚至住在同一地方(例如,父亲有一个以他的名字命名的儿子)。
–HLGEM
2012年5月2日15:09
@HLGEM:完全正确,这就是为什么不应使用单个受众特征字段进行匹配的原因。但是,当人们不得不诉诸于此时,更多静态字段(尽管有时会更改)比其他字段更可靠。但是,那并不能使它们变得更好。
–林恩
2012年5月2日19:51
#3 楼
还值得检查以前的姓氏,因为这些姓氏经常更改。评论
+1“经常”是轻描淡写。 :)对于无法识别或未命名的患者,新生儿,错误识别的患者等,当然可以是这种情况。在具有大量事务的环境中,名称更困难,但更重要。
–迭代器
2011年11月6日15:14
#4 楼
除了问题中给出的以下三个明显组合之外,我想考虑将phone number (Home and/or Cell)
添加到列表中。这些天来很普遍,每个人都会有一个唯一的号码,即使有人更改电话号码,大多数人也会记住较旧的电话号码,因此可以派上用场。我们经常找到地址遭受多种拼写和多种呈现方式的困扰,尤其是在印度这样的国家/地区,人们使用当地语言,而患者管理软件仍然“使用”英语。
#5 楼
记录中的性别似乎通常来自名字。当我们无法从姓名中得出性别时,我看到了外国人的性别差异在增加。有时被“ ae oe ue”代替。#6 楼
我的想法按如下顺序1)。 SSN,姓氏和名字的前5个字符
2)。 SSN,生日和名字前5个字符
3)。 SSN,生日和姓氏
4)。 SSN,性别,生日
5)。姓氏,名字,城市和邮政编码的前5个字符
#7 楼
在美国,这是一个非常棘手的问题。名称不是唯一的,并且在一个人的一生中经常会更改,或者以不同的方式显示(例如,Rob与Robert),因此,除非结合一些更切实可行的信息,否则它们永远无法用于识别患者。健康保险的号码和提供者的更换频率要高得多,并且对于家庭的多个成员而言,可能是相同的。 SSN应该是唯一的,但周围存在欺诈行为。与驾驶员的驾照号码相同,当然不是每个人都会有。就个人而言,我将从保险单号和出生日期与姓名组合开始,然后从ssn和出生日期与姓名组合开始。如果匹配,我会检查地址和电话给我更多的保证,但是如果不匹配,我不会给他们太多的重量。另外,如果已知(我都知道医院的吸血鬼会采集血液样本),我会使用血型作为排除因素,因为这不会改变。由于名称变化问题,名称匹配必须是模糊匹配。如果名称的置信度很高(通常是输入SSN的错字),则通常应该先进行其他匹配,然后再进行模糊匹配。
评论
这个问题的答案可能还会根据特定国家甚至种族和文化考虑而改变。例如,一个人的名字可能不是澳大利亚原住民的好患者标识符(或者在他们的情况下,应该给其一个较低的“权重”),因为他们可能会随时间更改名字。澳大利亚原住民与死者同名,因为他们认为携带死者同名是非常糟糕的。在其他文化中也发生过类似的事情,死者的名字是忌讳。link或尚未发表的研究中的另一个例子:在菲律宾移民到美国的人中,十个最普遍的姓氏约占所有人的6%。在越南移民中,他们约占60%。在菲律宾人中,地名比越南人好得多。这项研究一旦发布,我一定会发布。
只是澄清一下:匹配两组记录的主要目的是什么?
尝试匹配记录时,请确保区分匹配强度(“鲍勃”与“鲍勃”非常相似)与可能匹配的次数(鲍勃很多)之间的区别。如果两个记录具有相同的名称,并且没有其他名称相同的记录,那么即使地址不同,也可能是同一个人。当然,假设您有一个大型语料库。