CN113139005A - 基于同人识别模型的同人识别方法及相关设备 - Google Patents

基于同人识别模型的同人识别方法及相关设备 Download PDF

Info

Publication number
CN113139005A
CN113139005A CN202110433355.XA CN202110433355A CN113139005A CN 113139005 A CN113139005 A CN 113139005A CN 202110433355 A CN202110433355 A CN 202110433355A CN 113139005 A CN113139005 A CN 113139005A
Authority
CN
China
Prior art keywords
user
data
same
person
attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110433355.XA
Other languages
English (en)
Inventor
姚海莹
满晏松
贾声声
李苏南
柳恭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kangjian Information Technology Shenzhen Co Ltd
Original Assignee
Kangjian Information Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kangjian Information Technology Shenzhen Co Ltd filed Critical Kangjian Information Technology Shenzhen Co Ltd
Priority to CN202110433355.XA priority Critical patent/CN113139005A/zh
Publication of CN113139005A publication Critical patent/CN113139005A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24564Applying rules; Deductive queries
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Primary Health Care (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Epidemiology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及人工智能领域,公开了一种基于同人识别模型的同人识别方法及相关设备,该方法包括:通过获取各个业务***中的样本用户数据,对样本用户数据进行离线解析,得到用户属性数据;在用户属性数据中,提取用户的公共属性数据并对其进行分析,得到同人识别规则;将同人识别规则和公共属性数据作为训练语料,对预设识别工具进行训练,得到同人识别模型;将待识别用户对应的各业务***中的用户数据输入至同人识别模型中进行识别,判断各用户数据对应的用户是否为同人。本发明的技术方案实现了医疗行业的用户患者的同人识别,方便后续对同一患者的健康数据进行统一管理和同步,提高了用户的健康数据的完整性、真实度。

Description

基于同人识别模型的同人识别方法及相关设备
技术领域
本发明涉及人工智能领域,尤其涉及一种基于同人识别模型的同人识别方法及相关设备。
背景技术
随着我国医疗行业信息化建设的推进,目前已经构建了不同的医疗服务的业务***,由于每个业务***的用户信息、数据标准和信息范围等都不尽相同,造成异构业务***的形成,同一患者在同一业务***上生成多个患者信息。同一患者的不同业务行为信息离散,无法统一进行增、删、改、查的管理,用户体验不一致。
在医疗服务的发展过程中,需要对各个医疗服务的业务***的患者信息进行统一管理,保证信息的完整性、准确性。所以,如何跨各医疗服务的业务***识别同一患者的所有的患者信息,且不影响业务***本身,完善同一患者的信息,提高同一用户的信息管理效率和准确度成为了亟需解决的问题。
发明内容
本发明的主要目的在于解决现有技术中无法根据多个用户的用户信息进行同人识别,导致对同一用户的信息管理效率低、准确度低的技术问题。
本发明第一方面提供了一种基于同人识别模型的同人识别方法,所述基于同人识别模型的同人识别方法包括:获取各个业务***中的样本用户数据;对所述样本用户数据进行离线解析,得到解析数据,并从所述解析数据中提取隶属于预设属性类别的属性数据作为用户属性数据;计算所述用户属性数据中各属性数据的属性类别的相似性度,得到相似值,并基于所述相似值,从所述用户属性数据中提取公共属性数据;对所述公共属性数据中各公共属性值进行比对,得到比对结果,并对所述比对结果进行分析,得到同人识别规则;将所述同人识别规则和所述公共属性数据作为训练语料,对预设识别工具进行训练,得到同人识别模型;在不同业务***中查找与待识别用户对应的用户数据,并将所述用户数据输入至所述同人识别模型中进行识别,基于识别的结果判断不同业务***中的用户数据对应的用户是否为同一人。
可选的,在本发明的第一方面的第一种实现方式中,所述对所述样本用户数据进行离线解析,得到解析数据,并从所述解析数据中提取隶属于预设属性类别的属性数据作为用户属性数据包括:基于预设的数据解析规则,对所述样本用户数据进行离线解析,得到解析数据;从所述解析数据中提取各属性数据的属性特征信息,并计算所述属性特征信息与预设属性类别的语义相似度,得到第一相似值;对所述第一相似值与预设相似阈值进行比较,若所述第一相似值不小于预设相似阈值,则从所述解析数据中提取对应的属性数据作为用户属性数据。
可选的,在本发明的第一方面的第二种实现方式中,所述计算所述用户属性数据中各属性数据的属性类别的相似性度,得到相似值,并基于所述相似值,从所述用户属性数据中提取公共属性数据包括:在语义空间内,计算所述用户属性数据中各属性数据的属性类别的语义相似度,得到第二相似值;对所述第二相似值与预设相似阈值进行比较,若所述第二相似值不小于预设相似阈值,则从所述用户属性数据中提取出对应的属性数据作为公共属性数据。
可选的,在本发明的第一方面的第三种实现方式中,所述在不同业务***中查找与待识别用户对应的用户数据,并将所述用户数据输入至所述同人识别模型中进行识别,基于识别的结果判断不同业务***中的用户数据对应的用户是否为同一人包括:获取待识别用户的用户数据,并提取所述用户数据中的用户账号;从用户数据中查找与所述用户账号对应的用户信息数据和第一患者信息数据,其中,用户信息数据至少包括用户标识号、用户证件号、用户基础身份信息,第一患者信息数据至少包括第一患者标识号、第一患者证件号、第一患者基础身份信息;调用所述同人识别模型,对隶属于同一用户账号的所述用户信息数据和所述患者信息数据进行分析,得到所述用户与第一患者是否为同人的结果。
可选的,在本发明第一方面的第四种实现方式中,所述调用所述同人识别模型,对隶属于同一用户账号的所述用户信息数据和所述患者信息数据进行分析,得到所述用户与第一患者是否为同人的结果包括:调用所述同人识别模型,比较隶属于同一用户账号下的用户标识号与第一患者标识号是否一致,得到第一比较结果;比较隶属于同一用户账号下的同一证件类型的用户证件号与第一患者证件号是否一致,得到第二比较结果;比较同一账号下用户的基础身份信息与第一患者的基础身份信息是否一致,得到第三比较结果,其中,基础身份信息至少包括姓名、性别、出生日期;当所述第一比较结果、所述第二比较结果和所述第三比较结果中的至少一种比较结果为一致时,确定所述用户与所述第一患者为同人。
可选的,在本发明第一方面的第五种实现方式中,所述在不同业务***中查找与待识别用户对应的用户数据,并将所述用户数据输入至所述同人识别模型中进行识别,基于识别的结果判断不同业务***中的用户数据对应的用户是否为同一人包括:提取所述待识别用户的用户数据中隶属于同一用户账号下的第二患者信息数据和第三患者信息数据;比对所述第二患者信息数据与第三患者信息数据是否一致,得到比对结果;调用所述同人识别模型,对所述比对结果进行分析,得到所述第二患者与所述第三患者是否为同人的结果。
可选的,在本发明第一方面的第六种实现方式中,在所述在不同业务***中查找与待识别用户对应的用户数据,并将所述用户数据输入至所述同人识别模型中进行识别,基于识别的结果判断不同业务***中的用户数据对应的用户是否为同一人之后,还包括:将进行同人识别后的用户数据作为二次训练语料;基于所述二次训练语料,对所述同人识别模型进行二次训练,得到二次训练后的同人识别模型。
本发明第二方面提出一种同人识别装置,所述同人识别装置包括:获取模块,用于获取各个业务***中的样本用户数据;解析模块,用于对所述样本用户数据进行离线解析,得到解析数据,并从所述解析数据中提取隶属于预设属性类别的属性数据作为用户属性数据;计算模块,用于计算所述用户属性数据中各属性数据的属性类别的相似性度,得到相似值,并基于所述相似值,从所述用户属性数据中提取公共属性数据;比对模块,用于对所述公共属性数据中各公共属性值进行比对,得到比对结果,并对所述比对结果进行分析,得到同人识别规则;训练模块,用于将所述同人识别规则和所述公共属性数据作为训练语料,对预设识别工具进行训练,得到同人识别模型;识别模块,用于查找与待识别用户对应的用户数据,并将所述用户数据输入至所述同人识别模型中进行识别,基于识别的结果判断不同业务***中的用户数据对应的用户是否为同一人。
可选的,在本发明第二方面的第一种实现方式中,所述解析模块具体用于:基于预设的数据解析规则,对所述样本用户数据进行离线解析,得到解析数据;从所述解析数据中提取各属性数据的属性特征信息,并计算所述属性特征信息与预设属性类别的语义相似度,得到第一相似值;对所述第一相似值与预设相似阈值进行比较,若所述第一相似值不小于预设相似阈值,则从所述解析数据中提取对应的属性数据作为用户属性数据。
可选的,在本发明第二方面的第二种实现方式中,所述计算模块具体用于:在语义空间内,计算所述用户属性数据中各属性数据的属性类别的语义相似度,得到第二相似值;对所述第二相似值与预设相似阈值进行比较,若所述第二相似值不小于预设相似阈值,则从所述用户属性数据中提取出对应的属性数据作为公共属性数据。
可选的,在本发明第二方面的第三种实现方式中,所述识别模块包括:提取单元,用于获取待识别用户的用户数据,并提取所述用户数据中的用户账号;查找单元,用于从用户数据中查找与所述用户账号对应的用户信息数据和第一患者信息数据,其中,用户信息数据至少包括用户标识号、用户证件号、用户基础身份信息,第一患者信息数据至少包括第一患者标识号、第一患者证件号、第一患者基础身份信息;分析单元,用于调用所述同人识别模型,对隶属于同一用户账号的所述用户信息数据和所述患者信息数据进行分析,得到所述用户与第一患者是否为同人的结果。
可选的,在本发明第二方面的第四种实现方式中,所述分析单元具体用于:调用所述同人识别模型,比较隶属于同一用户账号下的用户标识号与第一患者标识号是否一致,得到第一比较结果;比较隶属于同一用户账号下的同一证件类型的用户证件号与第一患者证件号是否一致,得到第二比较结果;比较同一账号下用户的基础身份信息与第一患者的基础身份信息是否一致,得到第三比较结果,其中,基础身份信息至少包括姓名、性别、出生日期;当所述第一比较结果、所述第二比较结果和所述第三比较结果中的至少一种比较结果为一致时,确定所述用户与所述第一患者为同人。
可选的,在本发明第二方面的第五种实现方式中,所述识别模块具体用于:提取所述待识别用户的用户数据中隶属于同一用户账号下的第二患者信息数据和第三患者信息数据;比对所述第二患者信息数据与第三患者信息数据是否一致,得到比对结果;调用所述同人识别模型,对所述比对结果进行分析,得到所述第二患者与所述第三患者是否为同人的结果。
可选的,在本发明第二方面的第六种实现方式中,所述同人识别装置还包括二次训练模块,所述二次训练模块具体用于:将进行同人识别后的用户数据作为二次训练语料;基于所述二次训练语料,对所述同人识别模型进行二次训练,得到二次训练后的同人识别模型。
本发明第三方面提供了一种同人识别设备,所述同人识别设备包括:存储器和至少一个处理器,所述存储器中存储有指令,所述存储器和所述至少一个处理器通过线路互连;所述至少一个处理器调用所述存储器中的所述指令,以使得所述同人识别设备执行上述的基于同人识别模型的同人识别方法的步骤。
本发明第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,当其在计算机上运行时,使得计算机执行上述的基于同人识别模型的同人识别方法的步骤。
在本发明提供的技术方案中,通过获取各个业务***的样本用户数据,提取并对样本用户数据中的公共属性数据进行分析,得到同人识别规则,然后将同人识别规则和公共属性数据作为训练语料,训练得到同人识别模型,将待识别用户对应的各业务***中的用户数据输入至同人识别模型中进行识别,判断各用户数据对应的用户是否为同人。本发明的技术方案通过构建同人识别模型对医疗领域的患者进行同人识别,提高了医疗领域患者信息管理的管理效率和信息的准确度。
附图说明
图1为本发明实施例中基于同人识别模型的同人识别方法的第一个实施例示意图;
图2为本发明实施例中基于同人识别模型的同人识别方法的第二个实施例示意图;
图3为本发明实施例中基于同人识别模型的同人识别方法的第三个实施例示意图;
图4为本发明实施例中基于同人识别模型的同人识别方法的第四个实施例示意图;
图5为本发明实施例中同人识别装置的一个实施例示意图;
图6为本发明实施例中同人识别装置的另一个实施例示意图;
图7为本发明实施例中同人识别设备的一个实施例示意图。
具体实施方式
本发明实施例提供了一种基于同人识别模型的同人识别方法及相关设备,通过获取各个业务***中的样本用户数据,对样本用户数据进行离线解析,得到用户属性数据;在用户属性数据中,提取用户的公共属性数据并对其进行分析,得到同人识别规则;将同人识别规则和公共属性数据作为训练语料,对预设识别工具进行训练,得到同人识别模型;将待识别用户对应的各业务***中的用户数据输入至同人识别模型中进行识别,判断各用户数据对应的用户是否为同人。本实施例的技术方案实现了医疗行业的用户患者的同人识别,方便后续对同一患者的健康数据进行统一管理和同步,提高了用户的健康数据的完整性、真实度。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为便于理解,下面对本发明实施例的具体内容进行描述,请参阅图1,本发明实施例中基于同人识别模型的同人识别方法的第一个实施例包括:
101,获取各个业务***中的样本用户数据;
随着医疗行业的业务发展,相当数量的业务已经搭建了各自的业务***。这些业务***有不同产品经理设计、不同技术团队构建实现,由于每个业务的用户旅程、数据标准和信息范围等都不尽相同,造成异构业务***的形成,同一患者在同一客户端上可以生成多个患者标识号。同一患者的不同业务行为信息离散,无法统一进行增、删、改、查的管理,用户体验不一致。这些业务之间的患者信息有的互相交叉引用,有的完全隔离,有的部分交叉引用,同时各个业务***的患者信息标准、内容范围页不相同,信息完整度也有不同程度缺失。此外还有互联网用户普遍存在的问题,大部分信息为用户主动输入,没有经过实名校验,信息可信度未知等。
在此情况下,为了能够方便对同一患者进行健康信息的跟踪管理,需要收集不同业务场景对应的业务***,针对每个业务***中经用户授权、不属于用户隐私数据的相关信息数据进行整合,作为样本用户数据。具体的,各业务***可以为在线问诊业务***、外部医生问诊业务***、体检业务***、挂号业务***、电子处方业务***、企业用户***、私家医生业务***等。另外,由于每个业务***内会在用户注册后,获取到一个统一的用户标识号,然后可以该用户标识号,不仅为用户本人自荐使用,还会为用户自己的家人或朋友进行问诊、预约体检或者办理其他业务,所以该样本用户数据中可能包含有多人的信息数据。
102,对样本用户数据进行离线解析,得到解析数据,并从解析数据中提取隶属于预设属性类别的属性数据作为用户属性数据;
预先设置好用户数据的属性类别,并对样本用户数据进行离线解析,其离线解析的具体过程是通过BI大数据技术,调用数据分析工具对每个业务***中的与样本用户对应的样本用户数据离线进行数据分析,并根据数据分析的结果和预设的用户数据的属性类别,对样本用户数据进行分类,从样本用户数据中提取有效的属性数据,作为用户属性数据。
具体的,根据预先设置好的属性类别,从已得到的解析数据中提取与预设的属性类别对应的样本用户的属性数据,得到用户属性数据。在此过程中,预设的属性类别,其实就是根据所得到的样本用户数据中选择可用于验证是否为同人的信息数据,将这些信息数据进行分类,形成预设的属性类别,然后根据该属性类别,从样本用户数据中选择隶属于该属性类别的属性数据,由此得到用户属性数据,且该用户属性数据为多个样本用户的用户属性数据,由于每个样本用户的用户数据并不能保证其完整性、有效性,所以每个样本用户的用户属性数据所对应的属性类别可能不完全一致,即存在一个样本样本有该属性类别里的一个属性数据,但另一个样本用户则没有同属性类别的属性数据。
103,计算用户属性数据中各属性数据的属性类别的相似性度,得到相似值,并基于相似值,从用户属性数据中提取公共属性数据;
从已得到的用户属性数据中提取出能够体现同人的公共属性的属性数据,即从所有样本用户的用户属性数据中提取出属性类别相同的用户属性数据,目前主要提取的公共属性有:用户标识号、患者标识号、姓名、性别、出生日期、证件类型、证件号等信息。
具体的,比较所得到的用户属性数据中是否有相同的用户属性数据,即比较该用户属性数据对应的属性类别是否一致。进一步的,可以计算所有样本用户的用户属性数据对应的属性类别的相似度,将相似值作为判断是否相同的依据。当相似值不小于预设相似阈值时,则认为该属性数据对应的属性类别一致。
104,对公共属性数据中各公共属性值进行比对,得到比对结果,并对比对结果进行分析,得到同人识别规则;
对所提取到的公共属性数据进行分析,根据分析的结果,总结归纳得到同人识别规则,即对各样本用户的公共属性数据中各公共属性值进行比对分析,判断各样本用户是否为同人,总结其判断的过程为同人识别规则。具体的,利用样本用户的公共属性进行业务建模,比较用户标识号、患者标识号、姓名、性别、出生日期、证件类型、证件号等公共属性值是否一致。其比较过程为,在同一样本用户的用户账号下,比较用户标识号与患者标识号是否一致;对应比较用户姓名、用户性别、用户出生日期与患者姓名、患者性别、患者出生日期是否都一致;对应比较用户的证件类型、证件号与患者的证件类型、证件号是否都一致。根据以上三个比较,分析得到同人识别规则为,在同一用户账号下,标识号一致的为同人,证件类型与证件号一致的为同人,姓名、性别与出生日期一致的为同人。
105,将同人识别规则和公共属性数据作为训练语料,对预设识别工具进行训练,得到同人识别模型;
将所得到的同人识别规则和公共属性数据作为训练语料,对预设好的识别工具进行训练,得到同人识别模型。在训练过程中,将所有样本用户的公共属性数据作为参数录入,在识别工具内依据同人识别规则进行两两识别,训练识别工具的识别参数,得到最终的同人识别模型。
106,在不同业务***中查找与待识别用户对应的用户数据,并将用户数据输入至同人识别模型中进行识别,基于识别的结果判断不同业务***中的用户数据对应的用户是否为同一人。
在不同业务***中查找与待识别用户对应的用户数据,并调用已生成的同人识别模型,将用户数据输入至同人识别模型中,对待识别用户进行同人识别,在进行同人识别的过程中,可以按照对样本用户的提取公共属性数据的方法,提取待识别用户的用户数据中的公共属性数据,然后再将待识别用户的公共属性数据输入至同人识别模型中,同人识别模型对待识别用户的公共属性数据进行两两识别,得到识别结果。也可以将提取的所有的公共属性数据输入至同人识别模型中,由同人识别模型两两组合进行同人识别。还可以直接将待识别用户的用户数据直接输入至同人识别模型中,同人识别模型会对用户数据进行分析,然后提取公共属性数据,进行同人识别。
另外,经过同人识别模型进行识别之后的同人可以自动得到一个独立且唯一的健康标识号,在不干预各个业务***的情况下,通过同人识别模型可以独立构建患者身份管理器,统一管理每个患者的健康标识号,使用该健康标识号可以实现对不同业务场景内产生的所有健康档案信息做统一查询并维护,并实现在不同业务***中交叉引用,对健康档案的管理具有很好的实用价值。训练得到的同人识别模型,可以从业务中独立抽离,实现不同业务***的患者身份被识别合并,并被不同业务***交叉引用。通过同人识别模型实现患者身份管理器引擎,维护统一的用户健康标识号。不同业务***,通过用户健康标识号做到在线实时调用,交叉引用,对每一个患者在不同业务***内产生的信息,通过患者身份管理器引擎,进行补充整合完善,或者直接查询引用。基于此同人识别模型,可以形成患者个人医疗信息全面集成的线上健康档案,努力让个人健康数据回归到个人,形成以个人为中心的健康档案。一旦多个业务***的身份信息源产生了新的信息后,同人识别模型统一接收信息注册;当某业务***患者信息发生变更,可以由同人识别模型告知其它业务***;同人识别模型在各业务***的患者身份之间进行对应的转换,使每个业务***只需要维护本业务***的患者标识标识号就可以实现业务***之间与患者身份有关的通信。
在本发明实施例中,通过获取样本用户数据和同人识别规则作为训练语料,构建同人识别模型对待识别用户进行同人识别。本实施例的技术方案实现了医疗行业的用户患者的同人识别,方便后续对同一患者的健康数据进行统一管理和同步,提高了用户的健康数据的完整性、真实度。
请参阅图2,本发明实施例中基于同人识别模型的同人识别方法的第二个实施例包括:
201,获取各个业务***中的样本用户数据;
随着医疗行业的业务发展,相当数量的业务已经搭建了各自的业务***。这些业务***有不同产品经理设计、不同技术团队构建实现,由于每个业务的用户旅程、数据标准和信息范围等都不尽相同,造成异构业务***的形成,同一患者在同一客户端上可以生成多个患者标识号。同一患者的不同业务行为信息离散,无法统一进行增、删、改、查的管理,用户体验不一致。这些业务之间的患者信息有的互相交叉引用,有的完全隔离,有的部分交叉引用,同时各个业务***的患者信息标准、内容范围页不相同,信息完整度也有不同程度缺失。此外还有互联网用户普遍存在的问题,大部分信息为用户主动输入,没有经过实名校验,信息可信度未知等。
在此情况下,为了能够方便对同一患者进行健康信息的跟踪管理,需要收集不同业务场景对应的业务***,针对每个业务***中经用户授权、不属于用户隐私数据的相关信息数据进行整合,作为样本用户数据。具体的,各业务***可以为在线问诊业务***、外部医生问诊业务***、体检业务***、挂号业务***、电子处方业务***、企业用户***、私家医生业务***等。另外,由于每个业务***内会在用户注册后,获取到一个统一的用户标识号,然后可以该用户标识号,不仅为用户本人自荐使用,还会为用户自己的家人或朋友进行问诊、预约体检或者办理其他业务,所以该样本用户数据中可能包含有多人的信息数据。
202,基于预设的数据解析规则,对样本用户数据进行离线解析,得到解析数据;
基于预设的数据解析规则,对样本数据进行离线解析,就是通过BI大数据技术,对每个业务***中与用户患者相关的历史数据进行离线分析。其中BI大数据技术为商业智能,又称商业智慧或商务智能,指用现代数据仓库技术、线上分析处理技术、数据挖掘和数据展现技术进行数据分析以实现商业价值。
商业智能的关键是从许多来自不同的企业运作***的数据中提取出有用的数据并进行清理,以保证数据的正确性,然后经过抽取(Extraction)、转换(Transformation)和装载(Load),即ETL过程,合并到一个企业级的数据仓库里,从而得到企业数据的一个全局视图,在此基础上利用合适的查询和分析工具、数据挖掘工具(大数据魔镜)、OLAP工具等对其进行分析和处理(这时信息变为辅助决策的知识),最后将知识呈现给管理者,为管理者的决策过程提供支持。
在通过BI技术对样本用户数据进行离线分析的过程,其实就是调用分析工具离线对样本用户数据进行分析,在该步骤中,并不对分析工具做限定,在离线分析之后可以得到解析数据。
203,从解析数据中提取各属性数据的属性特征信息,并计算属性特征信息与预设属性类别的语义相似度,得到第一相似值;
对样本数据进行解析之后,得到的解析数据包含了所有样本用户的属性数据,并且各属性数据携带有对应的属性特征信息,根据该属性特征信息可以识别该属性数据对应的属性类别。
具体的,从解析数据中提取各属性数据携带的属性特征信息,并在语义空间中,对属性特征信息与预设属性类别进行语义相似度比较,即计算属性特征信息与预设属性类别的语义相似度。其计算过程首先需要调用预设的语义识别工具对属性特征信息和预设属性类别进行语义识别,然后根据现有的语义相似度计算方法,对识别出的属性特征信息的语义和预设属性类别的语义进行语义相似度计算,其计算结果作为第一相似值。其中,在此步骤中,语义相似度计算属于现有技术,在此不做赘述。
204,对第一相似值与预设相似阈值进行比较,若第一相似值不小于预设相似阈值,则从解析数据中提取对应的属性数据作为用户属性数据;
经语义相似度计算得到第一相似值,将第一相似值与预设相似阈值进行比较,即比较第一相似值与预设相似阈值的数值大小,当第一相似值不小于预设相似阈值时,说明进行计算的该属性数据的属性特征信息与该属性类别的语义一致,即该属性数据属于该属性类别,当第一相似值小于预设相似阈值时,说明该属性数据与该属性类别不匹配,从而可以确定各属性数据的属性类别。提取所有的属性数据对应的属性特征信息,并计算各属性特征信息与预设属性类别的语义相似度,并将计算得到的相似值与预设相似阈值进行比较,从而确定各属性数据的属性类别,从解析数据中提取隶属于所有预设属性类别的各属性数据作为用户属性数据。
205,在语义空间内,计算用户属性数据中各属性数据的属性类别的语义相似度,得到第二相似值;
比较所得到的用户属性数据中是否有相同的用户属性数据,即比较该用户属性数据对应的属性类别是否一致。具体的,可以计算所有样本用户的用户属性数据对应的属性类别的相似度,将相似值作为判断是否相同的依据。
进一步的,在语义空间内,对用户属性数据中各属性数据的属性类别进行语义相似度分析,调用预设的语义识别工具对各属性类别进行语义识别,然后根据现有的语义相似度计算方法,对识别出各属性数据对应的属性类别的语义进行语义相似度计算,其计算结果作为第二相似值。
206,对第二相似值与预设相似阈值进行比较,若第二相似值不小于预设相似阈值,则从用户属性数据中提取出对应的属性数据作为公共属性数据;
若有相同的用户属性数据,即有多个样本用户的用户属性数据的属于同一个属性类别,则将这些用户属性数据作为公共属性数据。
对第二相似值与预设相似阈值进行比较,即比较第二相似值与预设相似阈值的数值大小,当第二相似值不小于预设相似阈值时,则说明对应的属性数据的属性类别一致,将这些属性数据作为公共属性数据,该公共属性数据表明了各样本用户都具有的公共属性信息。另外,当第二相似值小于预设相似阈值时,表明进行比较的各属性数据对应的属性类别不一致,即该属性数据不属于同一属性类别。
进一步的,如果所有样本用户的用户属性数据中都有属于标识号属性类别的属性数据,则将标识号作为公共属性数据。其中,公共属性数据可以限定为标识号、姓名、性别、出生日期、证件类型、证件号等属性数据。
207,对公共属性数据中各公共属性值进行比对,得到比对结果,并对比对结果进行分析,得到同人识别规则;
对所提取到的公共属性数据进行分析,根据分析的结果,总结归纳得到同人识别规则,即对各样本用户的公共属性数据中各公共属性值进行比对分析,判断各样本用户是否为同人,总结其判断的过程为同人识别规则。具体的,利用样本用户的公共属性进行业务建模,比较用户标识号、患者标识号、姓名、性别、出生日期、证件类型、证件号等公共属性值是否一致。其比较过程为,在同一样本用户的用户账号下,比较用户标识号与患者标识号是否一致;对应比较用户姓名、用户性别、用户出生日期与患者姓名、患者性别、患者出生日期是否都一致;对应比较用户的证件类型、证件号与患者的证件类型、证件号是否都一致。根据以上三个比较,分析得到同人识别规则为,在同一用户账号下,标识号一致的为同人,证件类型与证件号一致的为同人,姓名、性别与出生日期一致的为同人。
208,将同人识别规则和公共属性数据作为训练语料,对预设识别工具进行训练,得到同人识别模型;
将所得到的同人识别规则和公共属性数据作为训练语料,对预设好的识别工具进行训练,得到同人识别模型。在训练过程中,将所有样本用户的公共属性数据作为参数录入,在识别工具内依据同人识别规则进行两两识别,训练识别工具的识别参数,得到最终的同人识别模型。
209,获取待识别用户的用户数据,并提取用户数据中的用户账号;
根据待识别用户,从各医疗业务***中获取到经用户授权、可供使用的对应的用户数据,并从这些用户数据中提取出用户账号,其中,用户数据至少包括有用户账号、与用户账号对应的用户信息数据和患者信息数据,且一个用户数据只有一个用户账号和一个用户信息数据,而患者信息数据至少为一个,即同一用户账号下,可以有多个患者的信息数据。
210,从用户数据中查找与用户账号对应的用户信息数据和第一患者信息数据;
从已得到的所有的用户账号中,提取同一用户账号下的用户信息数据和患者信息数据,并将该患者信息数据作为第一患者信息数据。其中,提取出的该用户账号下的患者信息数据可以限定为提取一个患者的信息数据,也可以限定为提取多个患者的信息数据,且提取出的用户信息数据中至少包括有用户标识号、用户证件号、用户基础身份信息,第一患者信息数据至少包括第一患者标识号、第一患者证件号、第一患者基础身份信息。
211,调用同人识别模型,对隶属于同一用户账号的用户信息数据和患者信息数据进行分析,得到用户与第一患者是否为同人的结果。
调用已构建好的同人识别模型,将隶属于同一用户账号下的用户信息数据和患者信息数据输入至同人识别模型中,经由同人识别模型对用户信息数据和患者信息数据中的各数据进行比对分析,判断该用户与患者是否为同人,得到用户与患者是否为同人的识别结果,其中,输入至同人识别模型的患者信息数据可以限定为输入一个患者的信息数据,也可以限定为输入多个患者的信息数据,当输入的是多个患者的信息数据时,在进行同人识别的过程中,该模型从输入的患者信息数据中随机选取一个患者信息数据与用户信息数据进行比对分析,直至模型内所有的患者信息数据都分别与用户信息数据比对分析完成,然后根据分析结果,输出同人识别的结果。
从用户信息数据和第一患者的信息数据中分别提取对应的用户标识号和第一患者标识号,对隶属于同一用户账号下的用户标识号与第一患者标识号进行比对,比较其标识号是否一致,在进行标识号的比对过程中,根据业务***中的标识号生成规则,比对各标识号各部分组成结构是否一致,比对各部分组成结构里的内容是否一致,得到第一比较结果。
比较隶属于同一用户账号下的同一证件类型的用户证件号与第一患者证件号是否一致。具体的,从用户信息数据和第一患者的信息数据中分别提取对应的用户证件号和第一患者证件号,对隶属于同一用户账号下的同一证件类型的用户证件号与第一患者证件号进行比对,比较其证件号是否一致,在进行证件号的比对过程中,与对比标识号的处理过程同理,根据证件类型的证件号生成规则,比对各证件号各部分组成结构是否一致,比对各部分组成结构里的内容是否一致。其中,可以限定该证件类型为身份证,证件号为身份证号,得到第二比较结果。
比较同一账号下用户的基础身份信息与第一患者的基础身份信息是否一致,其中,基础身份信息至少包括姓名、性别、出生日期。具体的,从用户信息数据和第一患者的信息数据中分别提取对应的用户的基础身份信息和第一患者的基础身份信息,对隶属于同一用户账号下的用户的基础身份信息与第一患者的基础身份信息进行比对,其中,基础身份信息至少包括姓名、性别、出生日期。在对基础身份信息进行比对时,是针对基础身份信息中的各个信息项,逐一对应进行比对,即将用户姓名与患者姓名进行比对,用户性别与患者性别进行比对,用户的出生日期与患者的出生日期进行比对,将这三个比对的结果进行合并,并对其进行分析之后得到基础身份信息的比较结果,得到第三比较结果。
将上述三个比较步骤得到的比较结果进行合并,并对其进行分析之后,得到同人识别模型的识别结果。即对第一比较结果、第二比较结果和第三比较结果进行分析,其中,在三个比较结果中,至少有一个比较结果为一致,即第一比较结果、第二比较结果和第三比较结果中至少有一个满足比较结果为一致,则同人识别模型将会确定该用户账号下的用户与被模型识别的患者为同人,若第一比较结果、第二比较结果和第三比较结果中没有任何一个比较的结果为一致,则同人识别模型确定该用户账号下的用户与患者不是同一人。
在本发明实施例中,通过构建的同人识别模型根据隶属于同一用户账号的用户信息数据和患者信息数据进行同人识别,提高了同人识别的精准度,同时,也方便后续对隶属于同一账户且用户与患者为同人的信息数据进行管理,提高了管理的效率。
请参阅图3,本发明实施例中基于同人识别模型的同人识别方法的第三个实施例包括:
301,获取各个业务***中的样本用户数据;
302,基于预设的数据解析规则,对样本用户数据进行离线解析,得到解析数据;
303,从解析数据中提取各属性数据的属性特征信息,并计算属性特征信息与预设属性类别的语义相似度,得到第一相似值;
304,对第一相似值与预设相似阈值进行比较,若第一相似值不小于预设相似阈值,则从解析数据中提取对应的属性数据作为用户属性数据;
305,在语义空间内,计算用户属性数据中各属性数据的属性类别的语义相似度,得到第二相似值;
306,对第二相似值与预设相似阈值进行比较,若第二相似值不小于预设相似阈值,则从用户属性数据中提取出对应的属性数据作为公共属性数据;
307,对公共属性数据中各公共属性值进行比对,得到比对结果,并对比对结果进行分析,得到同人识别规则;
308,将同人识别规则和公共属性数据作为训练语料,对预设识别工具进行训练,得到同人识别模型;
309,提取待识别用户的用户数据中隶属于同一用户账号下的第二患者信息数据和第三患者信息数据;
根据待识别用户,从各医疗业务***中获取到经用户授权、可供使用的对应的用户数据,并从这些用户数据中提取出隶属于同一用户账号下的多个患者信息数据,可以限定为从患者信息数据中任意选择两个患者信息数据进行同人识别,即选取第二患者信息数据和第三信息数据进行同人识别,其中,第二患者信息数据至少包括第二患者标识号、第二患者证件号、第二患者基础身份信息,第三患者信息数据至少包括第三患者标识号、第三患者证件号、第三患者基础身份信息。
310,比对第二患者信息数据与第三患者信息数据是否一致,得到比对结果;
比对第二患者信息数据与第三患者信息数据是否一致,具体的,从第二患者信息数据和第三患者的信息数据中分别提取对应的第二患者标识号和第三患者标识号,对隶属于同一用户账号下的第二患者标识号与第三患者标识号进行比对,比较其标识号是否一致,在进行标识号的比对过程中,根据业务***中的标识号生成规则,比对各标识号各部分组成结构是否一致,比对各部分组成结构里的内容是否一致,得到标识号比较结果。
从第二患者信息数据和第三患者的信息数据中分别提取对应的第二患者证件号和第三患者证件号,对隶属于同一用户账号下的同一证件类型的第二患者证件号与第三患者证件号进行比对,比较其证件号是否一致,在进行证件号的比对过程中,与对比标识号的处理过程同理,根据证件类型的证件号生成规则,比对各证件号各部分组成结构是否一致,比对各部分组成结构里的内容是否一致。其中,可以限定该证件类型为身份证,证件号为身份证号,得到证件号比较结果。
从第二患者信息数据和第三患者的信息数据中分别提取对应的第二患者的基础身份信息和第三患者的基础身份信息,对隶属于同一用户账号下的第二患者的基础身份信息与第三患者的基础身份信息进行比对,其中,基础身份信息至少包括姓名、性别、出生日期。在对基础身份信息进行比对时,是针对基础身份信息中的各个信息项,逐一对应进行比对,即将第二患者姓名与第三患者姓名进行比对,第二患者性别与第三患者性别进行比对,第二患者的出生日期与第三患者的出生日期进行比对,将这三个比对的结果进行合并,并对其进行分析之后得到基础身份信息的比较结果,其中,只有当该步骤中的三个比对的结果都为一致时,才能确定基础身份信息的比较结果为一致。
311,调用同人识别模型,对比对结果进行分析,得到第二患者与第三患者是否为同人的结果。
将上述三个比较步骤得到的比较结果进行合并,并对其进行分析之后,得到同人识别模型的识别结果。其中,在三个比较步骤中,只要有一个比较步骤得到的比较结果为一致,即当标识号比较结果、证件号比较结果、基础身份信息的比较结果这三者中任一者的比较结果为一致,则同人识别模型将会确定该用户账号下的第二患者与第三患者为同人,若这三者中没有任何一者的比较结果为一致,则确定该用户账号下的第二患者与第三患者不是同一人。
在本发明实施例中,步骤301-308与上述的基于同人识别模型的同人识别方法的第二个实施例中的步骤201-208一致,在此不做赘述。
在本发明实施例中,通过构建好的同人识别模型根据隶属于同一账户下的各患者的信息数据对各患者进行同人识别,提高了同人识别的精准度,同时方便后续对同一账户下各患者的信息进行管理。
请参阅图4,本发明实施例中基于同人识别模型的同人识别方法的第四个实施例包括:
401,获取各个业务***中的样本用户数据;
402,对样本用户数据进行离线解析,得到解析数据,并从解析数据中提取隶属于预设属性类别的属性数据作为用户属性数据;
403,计算用户属性数据中各属性数据的属性类别的相似性度,得到相似值,并基于相似值,从用户属性数据中提取公共属性数据;
404,对公共属性数据中各公共属性值进行比对,得到比对结果,并对比对结果进行分析,得到同人识别规则;
405,将同人识别规则和公共属性数据作为训练语料,对预设识别工具进行训练,得到同人识别模型;
406,在不同业务***中查找与待识别用户对应的用户数据,并将所述用户数据输入至所述同人识别模型中进行识别,基于识别的结果判断不同业务***中的用户数据对应的用户是否为同一人;
407,将进行同人识别后的用户数据作为二次训练语料;
在调用同人识别模型对待识别用户进行同人识别之后,可以得到同人识别过后的用户数据,将该用户数据作为二次训练语料,用于对已构建好的同人识别模型进行训练,提高模型精度。二次训练语料的获取可以是将所有的识别过后的用户数据作为训练语料,也可以提取识别后的用户数据中,识别结果为同人的用户数据作为训练语料,在本步骤中,并不限定训练语料的内容。
408,基于二次训练语料,对同人识别模型进行二次训练,得到二次训练后的同人识别模型。
根据所得到的二次训练语料,对同人识别模型进行二次训练,在二次训练的过程中,可以将二次训练语料与之前的训练语料进行合并,对该同人识别模型进行训练,也可以直接用二次训练语料对同人识别模型进行训练,二次训练完成之后,得到的同人识别模型识别精度更高,提高了识别的准确度和识别效率。
在本实施例中,步骤401-406与上述的基于同人识别模型的同人识别方法的第一个实施例中的步骤101-106一致,在此不做赘述。
在本发明实施例中,将已经进行过同人识别的数据作为二次训练的训练语料,对构建好的同人识别模型进行二次训练,提高了同人识别模型的识别参数的精度,从而提高了识别结果的准确度。
上面对本发明实施例中的基于同人识别模型的同人识别方法进行了描述,下面对本发明实施例中的同人识别装置进行描述,请参照图5,本发明实施例中的同人识别装置的一个实施例包括:
获取模块501,用于获取各个业务***中的样本用户数据;
解析模块502,用于对所述样本用户数据进行离线解析,得到解析数据,并从所述解析数据中提取隶属于预设属性类别的属性数据作为用户属性数据;
计算模块503,用于计算所述用户属性数据中各属性数据的属性类别的相似性度,得到相似值,并基于所述相似值,从所述用户属性数据中提取公共属性数据;
比对模块504,用于对所述公共属性数据中各公共属性值进行比对,得到比对结果,并对所述比对结果进行分析,得到同人识别规则;
训练模块505,用于将所述同人识别规则和所述公共属性数据作为训练语料,对预设识别工具进行训练,得到同人识别模型;
识别模块506,用于查找与待识别用户对应的用户数据,并将所述用户数据输入至所述同人识别模型中进行识别,基于识别的结果判断不同业务***中的用户数据对应的用户是否为同一人。
本发明实施例,通过上述同人识别装置运行基于同人识别模型的同人识别方法的步骤,能够实现对待识别用户的同人识别,且该装置的识别效率高、精准度高。
请参阅图6,本发明实施例中的同人识别装置的另一个实施例包括:
获取模块501,用于获取各个业务***中的样本用户数据;
解析模块502,用于对所述样本用户数据进行离线解析,得到解析数据,并从所述解析数据中提取隶属于预设属性类别的属性数据作为用户属性数据;
计算模块503,用于计算所述用户属性数据中各属性数据的属性类别的相似性度,得到相似值,并基于所述相似值,从所述用户属性数据中提取公共属性数据;
比对模块504,用于对所述公共属性数据中各公共属性值进行比对,得到比对结果,并对所述比对结果进行分析,得到同人识别规则;
训练模块505,用于将所述同人识别规则和所述公共属性数据作为训练语料,对预设识别工具进行训练,得到同人识别模型;
识别模块506,用于查找与待识别用户对应的用户数据,并将所述用户数据输入至所述同人识别模型中进行识别,基于识别的结果判断不同业务***中的用户数据对应的用户是否为同一人。
可选的,所述解析模块502具体用于:
基于预设的数据解析规则,对所述样本用户数据进行离线解析,得到解析数据;
从所述解析数据中提取各属性数据的属性特征信息,并计算所述属性特征信息与预设属性类别的语义相似度,得到第一相似值;
对所述第一相似值与预设相似阈值进行比较,若所述第一相似值不小于预设相似阈值,则从所述解析数据中提取对应的属性数据作为用户属性数据。
可选的,所述计算模块503具体用于:
在语义空间内,计算所述用户属性数据中各属性数据的属性类别的语义相似度,得到第二相似值;
对所述第二相似值与预设相似阈值进行比较,若所述第二相似值不小于预设相似阈值,则从所述用户属性数据中提取出对应的属性数据作为公共属性数据。
可选的,所述识别模块506包括:
提取单元5061,用于获取待识别用户的用户数据,并提取所述用户数据中的用户账号;
查找单元5062,用于从用户数据中查找与所述用户账号对应的用户信息数据和第一患者信息数据,其中,用户信息数据至少包括用户标识号、用户证件号、用户基础身份信息,第一患者信息数据至少包括第一患者标识号、第一患者证件号、第一患者基础身份信息;
分析单元5063,用于调用所述同人识别模型,对隶属于同一用户账号的所述用户信息数据和所述患者信息数据进行分析,得到所述用户与第一患者是否为同人的结果。
可选的,所述分析单元5063具体用于:
调用所述同人识别模型,比较隶属于同一用户账号下的用户标识号与第一患者标识号是否一致,得到第一比较结果;
比较隶属于同一用户账号下的同一证件类型的用户证件号与第一患者证件号是否一致,得到第二比较结果;
比较同一账号下用户的基础身份信息与第一患者的基础身份信息是否一致,得到第三比较结果,其中,基础身份信息至少包括姓名、性别、出生日期;
当所述第一比较结果、所述第二比较结果和所述第三比较结果中的至少一种比较结果为一致时,确定所述用户与所述第一患者为同人。
可选的,所述识别模块506具体用于:
提取所述待识别用户的用户数据中隶属于同一用户账号下的第二患者信息数据和第三患者信息数据;
比对所述第二患者信息数据与第三患者信息数据是否一致,得到比对结果;
调用所述同人识别模型,对所述比对结果进行分析,得到所述第二患者与所述第三患者是否为同人的结果。
可选的,所述同人识别装置还包括二次训练模块507,所述二次训练模块507具体用于:
将进行同人识别后的用户数据作为二次训练语料;
基于所述二次训练语料,对所述同人识别模型进行二次训练,得到二次训练后的同人识别模型。
在本发明实施例中,该装置能够对隶属于同一用户账号的用户和患者进行同人识别,也可以对隶属于同一用户账号的患者与患者进行同人识别,提高了同人识别的效率,且对构建的模型进行二次训练,提高了模型精度,从而提高了识别结果的精准度。
请参阅图7,下面从硬件处理的角度对本发明实施例中的同人识别设备的一个实施例进行详细描述。
图7是本发明实施例提供的一种同人识别设备的结构示意图,该同人识别设备700可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(centralprocessing units,CPU)710(例如,一个或一个以上处理器)和存储器720,一个或一个以上存储应用程序733或数据732的存储介质730(例如一个或一个以上海量存储设备)。其中,存储器720和存储介质730可以是短暂存储或持久存储。存储在存储介质730的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对同人识别设备700中的一系列指令操作。更进一步地,处理器710可以设置为与存储介质730通信,在同人识别设备700上执行存储介质730中的一系列指令操作。
同人识别设备700还可以包括一个或一个以上电源740,一个或一个以上有线或无线网络接口750,一个或一个以上输入输出接口760,和/或,一个或一个以上操作***731,例如Windows Serve,Mac OS X,Unix,Linux,FreeBSD等等。本领域技术人员可以理解,图7示出的同人识别设备结构并不构成对同人识别设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
本发明还提供一种计算机可读存储介质,该计算机可读存储介质可以为非易失性计算机可读存储介质,该计算机可读存储介质也可以为易失性计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在计算机上运行时,使得计算机执行所述基于同人识别模型的同人识别方法的步骤。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种基于同人识别模型的同人识别方法,其特征在于,所述基于同人识别模型的同人识别方法包括:
获取各个业务***中的样本用户数据;
对所述样本用户数据进行离线解析,得到解析数据,并从所述解析数据中提取隶属于预设属性类别的属性数据作为用户属性数据;
计算所述用户属性数据中各属性数据的属性类别的相似性度,得到相似值,并基于所述相似值,从所述用户属性数据中提取公共属性数据;
对所述公共属性数据中各公共属性值进行比对,得到比对结果,并对所述比对结果进行分析,得到同人识别规则;
将所述同人识别规则和所述公共属性数据作为训练语料,对预设识别工具进行训练,得到同人识别模型;
在不同业务***中查找与待识别用户对应的用户数据,并将所述用户数据输入至所述同人识别模型中进行识别,基于识别的结果判断不同业务***中的用户数据对应的用户是否为同一人。
2.根据权利要求1所述的基于同人识别模型的同人识别方法,其特征在于,所述对所述样本用户数据进行离线解析,得到解析数据,并从所述解析数据中提取隶属于预设属性类别的属性数据作为用户属性数据包括:
基于预设的数据解析规则,对所述样本用户数据进行离线解析,得到解析数据;
从所述解析数据中提取各属性数据的属性特征信息,并计算所述属性特征信息与预设属性类别的语义相似度,得到第一相似值;
对所述第一相似值与预设相似阈值进行比较,若所述第一相似值不小于预设相似阈值,则从所述解析数据中提取对应的属性数据作为用户属性数据。
3.根据权利要求2所述的基于同人识别模型的同人识别方法,其特征在于,所述计算所述用户属性数据中各属性数据的属性类别的相似性度,得到相似值,并基于所述相似值,从所述用户属性数据中提取公共属性数据包括:
在语义空间内,计算所述用户属性数据中各属性数据的属性类别的语义相似度,得到第二相似值;
对所述第二相似值与预设相似阈值进行比较,若所述第二相似值不小于预设相似阈值,则从所述用户属性数据中提取出对应的属性数据作为公共属性数据。
4.根据权利要求3所述的基于同人识别模型的同人识别方法,其特征在于,所述在不同业务***中查找与待识别用户对应的用户数据,并将所述用户数据输入至所述同人识别模型中进行识别,基于识别的结果判断不同业务***中的用户数据对应的用户是否为同一人包括:
在不同业务***中查找与待识别用户对应的用户数据,并提取所述用户数据中的用户账号;
从用户数据中查找与所述用户账号对应的用户信息数据和第一患者信息数据,其中,用户信息数据至少包括用户标识号、用户证件号、用户基础身份信息,第一患者信息数据至少包括第一患者标识号、第一患者证件号、第一患者基础身份信息;
调用所述同人识别模型,对隶属于同一用户账号的所述用户信息数据和所述患者信息数据进行分析,得到所述用户与第一患者是否为同人的结果。
5.根据权利要求4所述的基于同人识别模型的同人识别方法,其特征在于,所述调用所述同人识别模型,对隶属于同一用户账号的所述用户信息数据和所述患者信息数据进行分析,得到所述用户与第一患者是否为同人的结果包括:
调用所述同人识别模型,比较隶属于同一用户账号下的用户标识号与第一患者标识号是否一致,得到第一比较结果;
比较隶属于同一用户账号下的同一证件类型的用户证件号与第一患者证件号是否一致,得到第二比较结果;
比较同一账号下用户的基础身份信息与第一患者的基础身份信息是否一致,得到第三比较结果,其中,基础身份信息至少包括姓名、性别、出生日期;
当所述第一比较结果、所述第二比较结果和所述第三比较结果中的至少一种比较结果为一致时,确定所述用户与所述第一患者为同人。
6.根据权利要求5所述的基于同人识别模型的同人识别方法,其特征在于,所述在不同业务***中查找与待识别用户对应的用户数据,并将所述用户数据输入至所述同人识别模型中进行识别,基于识别的结果判断不同业务***中的用户数据对应的用户是否为同一人包括:
提取所述待识别用户的用户数据中隶属于同一用户账号下的第二患者信息数据和第三患者信息数据;
比对所述第二患者信息数据与第三患者信息数据是否一致,得到比对结果;
调用所述同人识别模型,对所述比对结果进行分析,得到所述第二患者与所述第三患者是否为同人的结果。
7.根据权利要求1-6中任一项所述的基于同人识别模型的同人识别方法,其特征在于,在所述在不同业务***中查找与待识别用户对应的用户数据,并将所述用户数据输入至所述同人识别模型中进行识别,基于识别的结果判断不同业务***中的用户数据对应的用户是否为同一人之后,还包括:
将进行同人识别后的用户数据作为二次训练语料;
基于所述二次训练语料,对所述同人识别模型进行二次训练,得到二次训练后的同人识别模型。
8.一种同人识别装置,其特征在于,所述同人识别装置包括:
获取模块,用于获取各个业务***中的样本用户数据;
解析模块,用于对所述样本用户数据进行离线解析,得到解析数据,并从所述解析数据中提取隶属于预设属性类别的属性数据作为用户属性数据;
计算模块,用于计算所述用户属性数据中各属性数据的属性类别的相似性度,得到相似值,并基于所述相似值,从所述用户属性数据中提取公共属性数据;
比对模块,用于对所述公共属性数据中各公共属性值进行比对,得到比对结果,并对所述比对结果进行分析,得到同人识别规则;
训练模块,用于将所述同人识别规则和所述公共属性数据作为训练语料,对预设识别工具进行训练,得到同人识别模型;
识别模块,用于在不同业务***中查找与待识别用户对应的用户数据,并将所述用户数据输入至所述同人识别模型中进行识别,基于识别的结果判断不同业务***中的用户数据对应的用户是否为同一人。
9.一种同人识别设备,其特征在于,所述同人识别设备包括:
存储器和至少一个处理器,所述存储器中存储有指令,所述存储器和所述至少一个处理器通过线路互连;
所述至少一个处理器调用所述存储器中的所述指令,以使得所述同人识别设备执行如权利要求1-7中任一项所述的基于同人识别模型的同人识别方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,其特征在于,所述指令被处理器执行时实现如权利要求1-7中任一项所述的基于同人识别模型的同人识别方法的步骤。
CN202110433355.XA 2021-04-22 2021-04-22 基于同人识别模型的同人识别方法及相关设备 Pending CN113139005A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110433355.XA CN113139005A (zh) 2021-04-22 2021-04-22 基于同人识别模型的同人识别方法及相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110433355.XA CN113139005A (zh) 2021-04-22 2021-04-22 基于同人识别模型的同人识别方法及相关设备

Publications (1)

Publication Number Publication Date
CN113139005A true CN113139005A (zh) 2021-07-20

Family

ID=76813422

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110433355.XA Pending CN113139005A (zh) 2021-04-22 2021-04-22 基于同人识别模型的同人识别方法及相关设备

Country Status (1)

Country Link
CN (1) CN113139005A (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106709449A (zh) * 2016-12-22 2017-05-24 深圳市深网视界科技有限公司 一种基于深度学习和强化学习的行人重识别方法及***
US20180121618A1 (en) * 2016-11-02 2018-05-03 Cota Inc. System and method for extracting oncological information of prognostic significance from natural language
CN109472310A (zh) * 2018-11-12 2019-03-15 深圳八爪网络科技有限公司 确定两份简历为相同人才的识别方法及装置
CN109829362A (zh) * 2018-12-18 2019-05-31 深圳壹账通智能科技有限公司 安检辅助分析方法、装置、计算机设备和存储介质
CN110533085A (zh) * 2019-08-12 2019-12-03 大箴(杭州)科技有限公司 同人识别方法及装置、存储介质、计算机设备
CN110557447A (zh) * 2019-08-26 2019-12-10 腾讯科技(武汉)有限公司 一种用户行为识别方法、装置及存储介质和服务器
CN110826525A (zh) * 2019-11-18 2020-02-21 天津高创安邦技术有限公司 一种人脸识别的方法及***
CN111191503A (zh) * 2019-11-25 2020-05-22 浙江省北大信息技术高等研究院 一种行人属性识别方法、装置、存储介质及终端

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180121618A1 (en) * 2016-11-02 2018-05-03 Cota Inc. System and method for extracting oncological information of prognostic significance from natural language
CN106709449A (zh) * 2016-12-22 2017-05-24 深圳市深网视界科技有限公司 一种基于深度学习和强化学习的行人重识别方法及***
CN109472310A (zh) * 2018-11-12 2019-03-15 深圳八爪网络科技有限公司 确定两份简历为相同人才的识别方法及装置
CN109829362A (zh) * 2018-12-18 2019-05-31 深圳壹账通智能科技有限公司 安检辅助分析方法、装置、计算机设备和存储介质
CN110533085A (zh) * 2019-08-12 2019-12-03 大箴(杭州)科技有限公司 同人识别方法及装置、存储介质、计算机设备
CN110557447A (zh) * 2019-08-26 2019-12-10 腾讯科技(武汉)有限公司 一种用户行为识别方法、装置及存储介质和服务器
CN110826525A (zh) * 2019-11-18 2020-02-21 天津高创安邦技术有限公司 一种人脸识别的方法及***
CN111191503A (zh) * 2019-11-25 2020-05-22 浙江省北大信息技术高等研究院 一种行人属性识别方法、装置、存储介质及终端

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
季金鑫 等: "基于聚类的个人健康档案补全方法的研究与实现", 《东华大学学报(自然科学版)》, vol. 42, no. 4, pages 466 - 471 *

Similar Documents

Publication Publication Date Title
US10025904B2 (en) Systems and methods for managing a master patient index including duplicate record detection
US20040249808A1 (en) Query expansion using query logs
US10572461B2 (en) Systems and methods for managing a master patient index including duplicate record detection
CN109408821B (zh) 一种语料生成方法、装置、计算设备及存储介质
CN110929125A (zh) 搜索召回方法、装置、设备及其存储介质
US20110191335A1 (en) Method and system for conducting legal research using clustering analytics
CN114238573A (zh) 基于文本对抗样例的信息推送方法及装置
CN110334343B (zh) 一种合同中个人隐私信息抽取的方法和***
CN107809370B (zh) 用户推荐方法及装置
CN111400448A (zh) 对象的关联关系分析方法及装置
CN113111159A (zh) 问答记录生成方法、装置、电子设备及存储介质
WO2023178970A1 (zh) 医疗数据处理方法、装置、设备及存储介质
Vysotska et al. Intelligent analysis of Ukrainian-language tweets for public opinion research based on NLP methods and machine learning technology
CN113468160A (zh) 数据治理方法及装置、电子设备
CN113076735A (zh) 目标信息的获取方法、装置和服务器
CN110752027B (zh) 电子病历数据推送方法、装置、计算机设备和存储介质
CN111552798A (zh) 基于名称预测模型的名称信息处理方法、装置、电子设备
CN114253990A (zh) 数据库查询方法、装置、计算机设备和存储介质
CN113326363A (zh) 搜索方法及装置、预测模型训练方法及装置、电子设备
Joshi et al. Auto-grouping emails for faster e-discovery
CN111104422B (zh) 一种数据推荐模型的训练方法、装置、设备及存储介质
Drăgan et al. Linking semantic desktop data to the web of data
CN115879901B (zh) 一种智能人事自助服务平台
CN112685389B (zh) 数据管理方法、数据管理装置、电子设备及存储介质
CN113139005A (zh) 基于同人识别模型的同人识别方法及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination