CN116226362B

CN116226362B - 一种提升搜索医院名称准确度的分词方法

Info

Publication number: CN116226362B
Application number: CN202310500980.0A
Authority: CN
Inventors: 罗方义; 吴红曼; 刘雨鑫
Original assignee: Hunan Deya Manda Technology Co ltd
Current assignee: Hunan Deya Manda Technology Co ltd
Priority date: 2023-05-06
Filing date: 2023-05-06
Publication date: 2023-07-18
Anticipated expiration: 2043-05-06
Also published as: CN116226362A

Abstract

本发明公开了一种提升搜索医院名称准确度的分词方法，属于医院信息技术领域，本发明根据目标医院常用名集合，对所述文本集合内的字体进行逐一分解，使其形成单个字体的文本集合；对所述文本集合中的字体进行前后组合形成分词，并将分词与数据库中词典进行匹配，并输出匹配成功的分词结果；将匹配结果根据分词结果的匹配度依次展示；本发明可以根据用户的输入字符进行逐一排查、匹配，以及对字符分词中的歧义问题进行消除，从而可以大大提高搜索的准确度和效率，提高用户的体验感。

Description

一种提升搜索医院名称准确度的分词方法

技术领域

本发明公开了一种分词方法，属于医院信息技术领域，具体涉及一种提升搜索医院名称准确度的分词方法。

背景技术

在如今智能化、信息化的普及，可以足不出户的了解外面世界的各种信息，通过互联网设备搜索即可得到不同类型的信息；使得人们的信息可以同步；随着信息时代的到来，互联网在人们生产生活的各个方面将起着越来越大的作用，而对于以汉语为母语的我国来说，中文信息处理技术已经在我国信息化建设中占据了一个非常重要的地位。

在日常我们搜索医院名称的时候，由于医院名称通常较长，如果无法将医院全名打出，搜索框内会出现多个不同的医院名称，同时有的医院在当前城市中可能存在多个，这样就更加使用户无法确定医院的准确性，导致用户的体验感下降。

公开号为CN112199494A的中国专利公开了一种医疗信息搜索方法、装置、电子设备及存储介质。该方法能够确定医疗查询语句，对医疗查询语句进行预处理，得到分词序列，分词序列中包括多个医疗词汇，获取预先构建的倒排索引表，并确定每个医疗词汇的初始文本域，将初始文本域有多个的医疗词汇确定为边界词，并从多个初始文本域中确定目标文本域，每个目标文本域对应一个查询维度，根据查询维度确定与搜索请求对应的搜索库，在搜索库中搜索所述医疗词汇，得到搜索请求的搜索结果。

公开号为CN109543178A的中国专利公开了一种司法文本标签体系构建方法及***。通过分词工具获取司法词汇文本，根据词频统计构建初级标签体系，对初级标签体系中语义相近的标签进行合并，对生涩的标签进行扩展，获得扩展标签体系，利用文本测试集，统计扩展标签体系搜索文本的准确度，验证当前的扩展标签体系是否构建完成，否则进一步优化标签体系。

公开号为CN111950283A的中国专利公开了一种面向大规模医疗文本挖掘的中文分词和命名实体识别***，基于word2vec和分词后的文本获取词向量，将词向量输入到叠层BiLSTM-CRF模型中，通过叠层BiLSTM-CRF模型的第一层对词向量进行实体标注，实体标注后的词向量加入词性特征构成输入特征集，通过叠层BiLSTM-CRF模型第二层对输入特征集进行复杂命名实体识别。

现有技术存在以下问题：在对目标信息进行分词时，未分解至单个字符，并将字符进行重排列，造成信息漏项，搜索匹配不够准确；未进行同音字替换搜索，对错字搜索信息包容度不够；未进行分词消除歧义；基于语义模型进行分词，计算复杂，对算力要求较高，面对互联网级别的搜索计算要求时，***的计算和运行压力较大。

发明内容

本发明的目的是提供一种提升搜索医院名称准确度的分词方法，解决背景技术中的不足。

为实现上述目的，本发明提供以下技术方案：一种提升搜索医院名称准确度的分词方法，所述分词方法包括以下步骤：

S1、基于目标医院常用名集合建立由单字集合构成的分词集合，具体包括以下子步骤：

S11、根据输入的目标医院常用名建立常用名集合；

S12、对所述常用名集合的词汇及短句进行逐一分解，使其形成单字集合/>；所述单字集合/>，其中/>至/>为单字；

S2、对所述单字集合中的单字进行前后组合形成分词，并将分词与数据库中词典进行匹配；包括以下子步骤：

S21、将所述单字集合的所有单字进行正序和逆序组合，得到分词集合/>,所述分词集合/>,其中，，所述/>为二字词组集合，所述/>为三字词组集合，所述/>为四字词组集合，且满足：

其中，为自然数，且；/>为初始字，/>、/>、/>为跟随字，所述分词由初始字和跟随字组成；

S22、将搜索者所输入的检索字段与所述分词集合进行匹配：

S221、若匹配成功，则把匹配的词组从分词集合中切分出来，剩余的部分作为新的分词集合重复组合匹配；

S222、若匹配不成功，则从分词集合的开头第一个组合正向或者逆向截取一个或数个单字组成待匹配字符串，并与检索字段进行匹配，直到分词集合/>内的词组匹配完成或者截取至最后一个单字/>；；

S3、输出匹配成功的分词结果；

S4、将匹配结果根据分词结果的匹配度依次展示。

进一步的，对于无法匹配成功的组合文本进行切分，消除其中的歧义；具体步骤如下：

S5、将无法匹配成功的文本确定为待切分中文文本Y，并通过正向最大匹配法、逆向最大匹配法、HMM进行分词，得到分词结果；正向最大匹配法、逆向最大匹配法以及HMM分词三种方法的切分结果分别记为/>；

S6、标记通过比较三种分词结果，得到三种分词结果中不全相同的部分，即作为歧义部分；

S7、判断歧义部分属于哪种歧义结果并进行消歧：

S71、第一种结果：若结果是、 />、中的任一种，即三种分词结果中有且仅有任意两种结果是相同的，则以/>作为最终切分；

S72、第二种结果：若结果是，即三种分词结果中两两皆不相同，则以/>作为最终切分；

当歧义结果为第二种结果时，则需要在经过第一次消歧的基础上进行二次消歧，利用HMM分别对三种分词结果进行词性标注，并筛选得到分词结果中两两皆不相同的歧义部分，并通过评估函数得到最大化的切分方法，并以该切分作为最终切分。

进一步的，在对所述常用名集合分词之前，对所述常用名集合/>进行预处理,识别其中有明显特征的中英文数字和域名等，对所述常用名集合/>的文本集合进行过滤，并进行词频统计和候选词选择，筛选其中的中英文数字和域名等，同时并进行多次的筛选过滤，直到没有中英文数字和域名可选为止。

进一步的，在将检索字段与分词集合进行匹配时，对所述分词集合/>进行字符的***，索引和存储；

其中，所述分词集合包括一个初始节点、若干个中间节点和一个结束节点；所述初始节点位于历史记录中匹配成功且序号最小的词组处，所述中间节点位于历史记录中每一次匹配成功的词组处，所述结束节点位于历史记录中匹配成功且序号最大的词组处；每次匹配具有从初始节点到结束节点的路径，每条所述路径上存在若干个中间节点；

当查找分词集合中是否存储某个词语时，从初始节点开始，然后沿着某个分支遍历下去直至分词的最后一个字，完成查询。

进一步的，其中所述分词集合的匹配方法如下：

获取检索字段的第一个字符，找到其对应的初始节点，并跳转到下一字符的中间节点上，等待下一次查询；

在中间节点上获取待查询字符串的第二个字符，并再次跳转到下一字符的中间节点上，等待下一次查询；

重复上述操作，直至分词的最后一个字符，作为结束节点；

读取最后一个字符节点的信息，并返回其经过路径的所有字符，查询完成。

进一步的，当分词始终无法匹配成功时，对分词中的所有文字进行拼音字体匹配，通过获取每个字体，可以得到该字体的拼音/>，与检索字段中拼音的声母和韵母进行组合匹配。

有益效果：本发明公开了一种分词方法，属于医院信息技术领域，具体涉及一种提升搜索医院名称准确度的分词方法，本发明根据输入目标文本建立相应的文本集合，对所述文本集合内的字体进行逐一分解，使其形成单个字体的文本集合；对所述文本集合中的字体进行前后组合形成词汇，并将词汇与数据库中词汇进行匹配，并输出匹配成功的分词结果；将匹配结果根据分词结果的匹配度依次展示；本发明可以根据用户的输入字符进行逐一排查、匹配，以及对字符分词中的歧义问题进行消除，从而可以大大提高搜索的准确度和效率，提高用户的体验感。

附图说明

图1是本发明的工作示意图。

图2是本发明的工作流程图。

图3是本发明的消歧步骤图。

图4是本发明的分词匹配流程图。

图5是本发明的分词匹配示意图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

一种提升搜索医院名称准确度的分词方法，包括以下方法：

根据输入目标文本建立相应的文本集合，对所述文本集合内的字体进行逐一分解，使其形成单个字体的文本集合；

对所述文本集合中的字体进行前后组合形成分词，并将分词与数据库中词典进行匹配，并输出匹配成功的分词结果；

将匹配结果根据分词结果的匹配度依次展示。

在一个实施例中，根据输入的目标医院常用名建立常用名集合，对所述常用名集合/>的词汇及短句进行逐一分解，使其形成单字集合/>；所述单字集合，其中/>至/>为单字。

在一个实施例中，对所述单字集合中的单字进行前后组合形成分词，并将分词与数据库中词典进行匹配，包括：

将所述单字集合的所有单字进行正序和逆序组合，得到分词集合/>,所述分词集合/>,其中，/>，所述/>为二字词组集合，所述/>为三字词组集合，所述/>为四字词组集合，且满足：

将搜索者所输入的检索字段与所述分词集合进行匹配：

若匹配成功，则把匹配的词组从分词集合中切分出来，剩余的部分作为新的分词集合重复组合匹配；

若匹配不成功，则从分词集合的开头第一个组合正向或者逆向截取一个或数个单字组成待匹配字符串，并与检索字段进行匹配，直到分词集合/>内的词组匹配完成或者截取至最后一个单字/>；

输出匹配成功的分词结果；

将匹配结果根据分词结果的匹配度依次展示。

在一个实施例中，对于一些无法匹配成功的组合文本，则需要进行对文本进行切分消除其中的歧义；具体步骤如下：

将无法匹配成功的文本确定为待切分中文文本Y，并通过正向最大匹配法、逆向最大匹配法、HMM进行分词，得到分词结果；正向最大匹配法、逆向最大匹配法以及HMM分词三种方法的切分结果分别记为/>；

标记通过比较三种分词结果，得到三种分词结果中不全相同的部分，即作为歧义部分；

判断歧义部分属于哪种歧义结果并进行消歧：

第一种结果：若结果是、 />、中的任一种，即三种分词结果中有且仅有任意两种结果是相同的，则以/>作为最终切分；

第二种结果：若结果是，即三种分词结果中两两皆不相同，则以/>作为最终切分；

在一个实施例中，在对常用名集合分词之前，需要对常用名集合/>进行预处理,识别其中有明显特征的中英文数字和域名等，对所述常用名集合/>的文本集合进行过滤，并进行词频统计和候选词选择，筛选其中的中英文数字和域名等，同时并进行多次的筛选过滤，直到没有中英文数字和域名可选为止，其中域名的区分可以大大提高准确度和识别效率。

在一个实施例中，在将检索字段与分词集合进行匹配时，对所述分词集合进行字符的***，索引和存储；

在一个实施例中，其中所述分词集合的匹配方法如下：

重复上述操作，直至分词的最后一个字符，作为结束节点；

读取最后一个字符节点的信息并返回其经过路径的所有字符，查询完成。

在一个实施例中，当分词始终无法匹配成功时，则需要对分词中的所有文字进行拼音字体匹配，利用数据库对所述文本集合的每个字体的拼音进行特定搜索，匹配出与其相同的拼音的字体；

当分词始终无法匹配成功时，对分词中的所有文字进行拼音字体匹配，通过获取每个字体，可以得到该字体的拼音/>，与检索字段中拼音的声母和韵母进行组合匹配。

显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种提升搜索医院名称准确度的分词方法，其特征在于，所述分词方法包括以下步骤：

S11、根据输入的目标医院常用名建立常用名集合；

S21、将所述单字集合的所有单字进行正序和逆序组合，得到分词集合/>,所述分词集合/>,其中，/>，所述/>为二字词组集合，所述/>为三字词组集合，所述/>为四字词组集合，且满足：

其中，为自然数，且/>；/>为初始字，/>、/>、/>为跟随字，所述分词由初始字和跟随字组成；

S22、将搜索者所输入的检索字段与所述分词集合进行匹配：

在将检索字段与分词集合进行匹配时，对所述分词集合/>进行字符的***，索引和存储；

当查找分词集合中是否存储某个词语时，从初始节点开始，然后沿着某个分支遍历下去直至分词的最后一个字，完成查询；

其中所述分词集合的匹配方法如下：

在中间节点上获取待查询字符串的第二个字符，并再次跳转下一字符的中间节点上，等待下一次查询；

重复上述操作，直至分词的最后一个字符，作为结束节点；

读取最后一个字符节点的信息，并返回其经过路径的所有字符，查询完成；

S222、若匹配不成功，则从分词集合的开头第一个组合正向或者逆向截取一个或数个单字组成待匹配字符串，并与检索字段进行匹配，直到分词集合/>内的词组匹配完成或者截取至最后一个单字/>；

S3、输出匹配成功的分词结果；

S4、将匹配结果根据分词结果的匹配度依次展示。

2.根据权利要求1所述的一种提升搜索医院名称准确度的分词方法，其特征在于，对于无法匹配成功的组合文本进行切分，消除其中的歧义；具体步骤如下：

S7、判断歧义部分属于哪种歧义结果并进行消歧：

S71、第一种结果：若结果是、/>、中的任一种，即三种分词结果中有且仅有任意两种结果是相同的，则以/>作为最终切分；

3.根据权利要求2所述的一种提升搜索医院名称准确度的分词方法，其特征在于，在对所述常用名集合分词之前，对所述常用名集合/>进行预处理,识别其中有明显特征的中英文数字和域名等，对所述常用名集合/>的文本集合进行过滤，并进行词频统计和候选词选择，筛选其中的中英文数字和域名等，同时并进行多次的筛选过滤，直到没有中英文数字和域名可选为止。

4.根据权利要求3所述的一种提升搜索医院名称准确度的分词方法，其特征在于，当分词始终无法匹配成功时，对分词中的所有文字进行拼音字体匹配，通过获取每个字体，可以得到该字体的拼音/>，与检索字段中拼音的声母和韵母进行组合匹配。