CN116226362B - 一种提升搜索医院名称准确度的分词方法 - Google Patents
一种提升搜索医院名称准确度的分词方法 Download PDFInfo
- Publication number
- CN116226362B CN116226362B CN202310500980.0A CN202310500980A CN116226362B CN 116226362 B CN116226362 B CN 116226362B CN 202310500980 A CN202310500980 A CN 202310500980A CN 116226362 B CN116226362 B CN 116226362B
- Authority
- CN
- China
- Prior art keywords
- word
- word segmentation
- matching
- segmentation
- node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 138
- 238000000034 method Methods 0.000 title claims abstract description 63
- 238000012216 screening Methods 0.000 claims description 8
- 238000001914 filtration Methods 0.000 claims description 5
- 230000009191 jumping Effects 0.000 claims description 5
- 238000011156 evaluation Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 230000000977 initiatory effect Effects 0.000 claims 1
- 238000004364 calculation method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/374—Thesaurus
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Character Discrimination (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种提升搜索医院名称准确度的分词方法,属于医院信息技术领域,本发明根据目标医院常用名集合,对所述文本集合内的字体进行逐一分解,使其形成单个字体的文本集合;对所述文本集合中的字体进行前后组合形成分词,并将分词与数据库中词典进行匹配,并输出匹配成功的分词结果;将匹配结果根据分词结果的匹配度依次展示;本发明可以根据用户的输入字符进行逐一排查、匹配,以及对字符分词中的歧义问题进行消除,从而可以大大提高搜索的准确度和效率,提高用户的体验感。
Description
技术领域
本发明公开了一种分词方法,属于医院信息技术领域,具体涉及一种提升搜索医院名称准确度的分词方法。
背景技术
在如今智能化、信息化的普及,可以足不出户的了解外面世界的各种信息,通过互联网设备搜索即可得到不同类型的信息;使得人们的信息可以同步;随着信息时代的到来,互联网在人们生产生活的各个方面将起着越来越大的作用,而对于以汉语为母语的我国来说,中文信息处理技术已经在我国信息化建设中占据了一个非常重要的地位。
在日常我们搜索医院名称的时候,由于医院名称通常较长,如果无法将医院全名打出,搜索框内会出现多个不同的医院名称,同时有的医院在当前城市中可能存在多个,这样就更加使用户无法确定医院的准确性,导致用户的体验感下降。
公开号为CN112199494A的中国专利公开了一种医疗信息搜索方法、装置、电子设备及存储介质。该方法能够确定医疗查询语句,对医疗查询语句进行预处理,得到分词序列,分词序列中包括多个医疗词汇,获取预先构建的倒排索引表,并确定每个医疗词汇的初始文本域,将初始文本域有多个的医疗词汇确定为边界词,并从多个初始文本域中确定目标文本域,每个目标文本域对应一个查询维度,根据查询维度确定与搜索请求对应的搜索库,在搜索库中搜索所述医疗词汇,得到搜索请求的搜索结果。
公开号为CN109543178A的中国专利公开了一种司法文本标签体系构建方法及***。通过分词工具获取司法词汇文本,根据词频统计构建初级标签体系,对初级标签体系中语义相近的标签进行合并,对生涩的标签进行扩展,获得扩展标签体系,利用文本测试集,统计扩展标签体系搜索文本的准确度,验证当前的扩展标签体系是否构建完成,否则进一步优化标签体系。
公开号为CN111950283A的中国专利公开了一种面向大规模医疗文本挖掘的中文分词和命名实体识别***,基于word2vec和分词后的文本获取词向量,将词向量输入到叠层BiLSTM-CRF模型中,通过叠层BiLSTM-CRF模型的第一层对词向量进行实体标注,实体标注后的词向量加入词性特征构成输入特征集,通过叠层BiLSTM-CRF模型第二层对输入特征集进行复杂命名实体识别。
现有技术存在以下问题:在对目标信息进行分词时,未分解至单个字符,并将字符进行重排列,造成信息漏项,搜索匹配不够准确;未进行同音字替换搜索,对错字搜索信息包容度不够;未进行分词消除歧义;基于语义模型进行分词,计算复杂,对算力要求较高,面对互联网级别的搜索计算要求时,***的计算和运行压力较大。
发明内容
本发明的目的是提供一种提升搜索医院名称准确度的分词方法,解决背景技术中的不足。
为实现上述目的,本发明提供以下技术方案:一种提升搜索医院名称准确度的分词方法,所述分词方法包括以下步骤:
S1、基于目标医院常用名集合建立由单字集合构成的分词集合,具体包括以下子步骤:
S11、根据输入的目标医院常用名建立常用名集合;
S12、对所述常用名集合的词汇及短句进行逐一分解,使其形成单字集合/>;所述单字集合/>,其中/>至/>为单字;
S2、对所述单字集合中的单字进行前后组合形成分词,并将分词与数据库中词典进行匹配;包括以下子步骤:
S21、将所述单字集合的所有单字进行正序和逆序组合,得到分词集合/>,所述分词集合/>,其中,,所述/>为二字词组集合,所述/>为三字词组集合,所述/>为四字词组集合,且满足:
其中,为自然数,且;/>为初始字,/>、/>、/>为跟随字,所述分词由初始字和跟随字组成;
S22、将搜索者所输入的检索字段与所述分词集合进行匹配:
S221、若匹配成功,则把匹配的词组从分词集合中切分出来,剩余的部分作为新的分词集合重复组合匹配;
S222、若匹配不成功,则从分词集合的开头第一个组合正向或者逆向截取一个或数个单字组成待匹配字符串,并与检索字段进行匹配,直到分词集合/>内的词组匹配完成或者截取至最后一个单字/>;;
S3、输出匹配成功的分词结果;
S4、将匹配结果根据分词结果的匹配度依次展示。
进一步的,对于无法匹配成功的组合文本进行切分,消除其中的歧义;具体步骤如下:
S5、将无法匹配成功的文本确定为待切分中文文本Y,并通过正向最大匹配法、逆向最大匹配法、HMM进行分词,得到分词结果;正向最大匹配法、逆向最大匹配法以及HMM分词三种方法的切分结果分别记为/>;
S6、标记通过比较三种分词结果,得到三种分词结果中不全相同的部分,即作为歧义部分;
S7、判断歧义部分属于哪种歧义结果并进行消歧:
S71、第一种结果:若结果是、 />、中的任一种,即三种分词结果中有且仅有任意两种结果是相同的,则以/>作为最终切分;
S72、第二种结果:若结果是,即三种分词结果中两两皆不相同,则以/>作为最终切分;
当歧义结果为第二种结果时,则需要在经过第一次消歧的基础上进行二次消歧,利用HMM分别对三种分词结果进行词性标注,并筛选得到分词结果中两两皆不相同的歧义部分,并通过评估函数得到最大化的切分方法,并以该切分作为最终切分。
进一步的,在对所述常用名集合分词之前,对所述常用名集合/>进行预处理,识别其中有明显特征的中英文数字和域名等,对所述常用名集合/>的文本集合进行过滤,并进行词频统计和候选词选择,筛选其中的中英文数字和域名等,同时并进行多次的筛选过滤,直到没有中英文数字和域名可选为止。
进一步的,在将检索字段与分词集合进行匹配时,对所述分词集合/>进行字符的***,索引和存储;
其中,所述分词集合包括一个初始节点、若干个中间节点和一个结束节点;所述初始节点位于历史记录中匹配成功且序号最小的词组处,所述中间节点位于历史记录中每一次匹配成功的词组处,所述结束节点位于历史记录中匹配成功且序号最大的词组处;每次匹配具有从初始节点到结束节点的路径,每条所述路径上存在若干个中间节点;
当查找分词集合中是否存储某个词语时,从初始节点开始,然后沿着某个分支遍历下去直至分词的最后一个字,完成查询。
进一步的,其中所述分词集合的匹配方法如下:
获取检索字段的第一个字符,找到其对应的初始节点,并跳转到下一字符的中间节点上,等待下一次查询;
在中间节点上获取待查询字符串的第二个字符,并再次跳转到下一字符的中间节点上,等待下一次查询;
重复上述操作,直至分词的最后一个字符,作为结束节点;
读取最后一个字符节点的信息,并返回其经过路径的所有字符,查询完成。
进一步的,当分词始终无法匹配成功时,对分词中的所有文字进行拼音字体匹配,通过获取每个字体,可以得到该字体的拼音/>,与检索字段中拼音的声母和韵母进行组合匹配。
有益效果:本发明公开了一种分词方法,属于医院信息技术领域,具体涉及一种提升搜索医院名称准确度的分词方法,本发明根据输入目标文本建立相应的文本集合,对所述文本集合内的字体进行逐一分解,使其形成单个字体的文本集合;对所述文本集合中的字体进行前后组合形成词汇,并将词汇与数据库中词汇进行匹配,并输出匹配成功的分词结果;将匹配结果根据分词结果的匹配度依次展示;本发明可以根据用户的输入字符进行逐一排查、匹配,以及对字符分词中的歧义问题进行消除,从而可以大大提高搜索的准确度和效率,提高用户的体验感。
附图说明
图1是本发明的工作示意图。
图2是本发明的工作流程图。
图3是本发明的消歧步骤图。
图4是本发明的分词匹配流程图。
图5是本发明的分词匹配示意图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一种提升搜索医院名称准确度的分词方法,包括以下方法:
根据输入目标文本建立相应的文本集合,对所述文本集合内的字体进行逐一分解,使其形成单个字体的文本集合;
对所述文本集合中的字体进行前后组合形成分词,并将分词与数据库中词典进行匹配,并输出匹配成功的分词结果;
将匹配结果根据分词结果的匹配度依次展示。
在一个实施例中,根据输入的目标医院常用名建立常用名集合,对所述常用名集合/>的词汇及短句进行逐一分解,使其形成单字集合/>;所述单字集合,其中/>至/>为单字。
在一个实施例中,对所述单字集合中的单字进行前后组合形成分词,并将分词与数据库中词典进行匹配,包括:
将所述单字集合的所有单字进行正序和逆序组合,得到分词集合/>,所述分词集合/>,其中,/>,所述/>为二字词组集合,所述/>为三字词组集合,所述/>为四字词组集合,且满足:
其中,为自然数,且;/>为初始字,/>、/>、/>为跟随字,所述分词由初始字和跟随字组成;
将搜索者所输入的检索字段与所述分词集合进行匹配:
若匹配成功,则把匹配的词组从分词集合中切分出来,剩余的部分作为新的分词集合重复组合匹配;
若匹配不成功,则从分词集合的开头第一个组合正向或者逆向截取一个或数个单字组成待匹配字符串,并与检索字段进行匹配,直到分词集合/>内的词组匹配完成或者截取至最后一个单字/>;
输出匹配成功的分词结果;
将匹配结果根据分词结果的匹配度依次展示。
在一个实施例中,对于一些无法匹配成功的组合文本,则需要进行对文本进行切分消除其中的歧义;具体步骤如下:
将无法匹配成功的文本确定为待切分中文文本Y,并通过正向最大匹配法、逆向最大匹配法、HMM进行分词,得到分词结果;正向最大匹配法、逆向最大匹配法以及HMM分词三种方法的切分结果分别记为/>;
标记通过比较三种分词结果,得到三种分词结果中不全相同的部分,即作为歧义部分;
判断歧义部分属于哪种歧义结果并进行消歧:
第一种结果:若结果是、 />、中的任一种,即三种分词结果中有且仅有任意两种结果是相同的,则以/>作为最终切分;
第二种结果:若结果是,即三种分词结果中两两皆不相同,则以/>作为最终切分;
当歧义结果为第二种结果时,则需要在经过第一次消歧的基础上进行二次消歧,利用HMM分别对三种分词结果进行词性标注,并筛选得到分词结果中两两皆不相同的歧义部分,并通过评估函数得到最大化的切分方法,并以该切分作为最终切分。
在一个实施例中,在对常用名集合分词之前,需要对常用名集合/>进行预处理,识别其中有明显特征的中英文数字和域名等,对所述常用名集合/>的文本集合进行过滤,并进行词频统计和候选词选择,筛选其中的中英文数字和域名等,同时并进行多次的筛选过滤,直到没有中英文数字和域名可选为止,其中域名的区分可以大大提高准确度和识别效率。
在一个实施例中,在将检索字段与分词集合进行匹配时,对所述分词集合进行字符的***,索引和存储;
其中,所述分词集合包括一个初始节点、若干个中间节点和一个结束节点;所述初始节点位于历史记录中匹配成功且序号最小的词组处,所述中间节点位于历史记录中每一次匹配成功的词组处,所述结束节点位于历史记录中匹配成功且序号最大的词组处;每次匹配具有从初始节点到结束节点的路径,每条所述路径上存在若干个中间节点;
当查找分词集合中是否存储某个词语时,从初始节点开始,然后沿着某个分支遍历下去直至分词的最后一个字,完成查询。
在一个实施例中,其中所述分词集合的匹配方法如下:
获取检索字段的第一个字符,找到其对应的初始节点,并跳转到下一字符的中间节点上,等待下一次查询;
在中间节点上获取待查询字符串的第二个字符,并再次跳转到下一字符的中间节点上,等待下一次查询;
重复上述操作,直至分词的最后一个字符,作为结束节点;
读取最后一个字符节点的信息并返回其经过路径的所有字符,查询完成。
在一个实施例中,当分词始终无法匹配成功时,则需要对分词中的所有文字进行拼音字体匹配,利用数据库对所述文本集合的每个字体的拼音进行特定搜索,匹配出与其相同的拼音的字体;
当分词始终无法匹配成功时,对分词中的所有文字进行拼音字体匹配,通过获取每个字体,可以得到该字体的拼音/>,与检索字段中拼音的声母和韵母进行组合匹配。
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。
Claims (4)
1.一种提升搜索医院名称准确度的分词方法,其特征在于,所述分词方法包括以下步骤:
S1、基于目标医院常用名集合建立由单字集合构成的分词集合,具体包括以下子步骤:
S11、根据输入的目标医院常用名建立常用名集合;
S12、对所述常用名集合的词汇及短句进行逐一分解,使其形成单字集合/>;所述单字集合/>,其中/>至/>为单字;
S2、对所述单字集合中的单字进行前后组合形成分词,并将分词与数据库中词典进行匹配;包括以下子步骤:
S21、将所述单字集合的所有单字进行正序和逆序组合,得到分词集合/>,所述分词集合/>,其中,/>,所述/>为二字词组集合,所述/>为三字词组集合,所述/>为四字词组集合,且满足:
其中,为自然数,且/>;/>为初始字,/>、/>、/>为跟随字,所述分词由初始字和跟随字组成;
S22、将搜索者所输入的检索字段与所述分词集合进行匹配:
在将检索字段与分词集合进行匹配时,对所述分词集合/>进行字符的***,索引和存储;
其中,所述分词集合包括一个初始节点、若干个中间节点和一个结束节点;所述初始节点位于历史记录中匹配成功且序号最小的词组处,所述中间节点位于历史记录中每一次匹配成功的词组处,所述结束节点位于历史记录中匹配成功且序号最大的词组处;每次匹配具有从初始节点到结束节点的路径,每条所述路径上存在若干个中间节点;
当查找分词集合中是否存储某个词语时,从初始节点开始,然后沿着某个分支遍历下去直至分词的最后一个字,完成查询;
其中所述分词集合的匹配方法如下:
获取检索字段的第一个字符,找到其对应的初始节点,并跳转到下一字符的中间节点上,等待下一次查询;
在中间节点上获取待查询字符串的第二个字符,并再次跳转下一字符的中间节点上,等待下一次查询;
重复上述操作,直至分词的最后一个字符,作为结束节点;
读取最后一个字符节点的信息,并返回其经过路径的所有字符,查询完成;
S221、若匹配成功,则把匹配的词组从分词集合中切分出来,剩余的部分作为新的分词集合重复组合匹配;
S222、若匹配不成功,则从分词集合的开头第一个组合正向或者逆向截取一个或数个单字组成待匹配字符串,并与检索字段进行匹配,直到分词集合/>内的词组匹配完成或者截取至最后一个单字/>;
S3、输出匹配成功的分词结果;
S4、将匹配结果根据分词结果的匹配度依次展示。
2.根据权利要求1所述的一种提升搜索医院名称准确度的分词方法,其特征在于,对于无法匹配成功的组合文本进行切分,消除其中的歧义;具体步骤如下:
S5、将无法匹配成功的文本确定为待切分中文文本Y,并通过正向最大匹配法、逆向最大匹配法、HMM进行分词,得到分词结果;正向最大匹配法、逆向最大匹配法以及HMM分词三种方法的切分结果分别记为/>;
S6、标记通过比较三种分词结果,得到三种分词结果中不全相同的部分,即作为歧义部分;
S7、判断歧义部分属于哪种歧义结果并进行消歧:
S71、第一种结果:若结果是、/>、中的任一种,即三种分词结果中有且仅有任意两种结果是相同的,则以/>作为最终切分;
S72、第二种结果:若结果是,即三种分词结果中两两皆不相同,则以/>作为最终切分;
当歧义结果为第二种结果时,则需要在经过第一次消歧的基础上进行二次消歧,利用HMM分别对三种分词结果进行词性标注,并筛选得到分词结果中两两皆不相同的歧义部分,并通过评估函数得到最大化的切分方法,并以该切分作为最终切分。
3.根据权利要求2所述的一种提升搜索医院名称准确度的分词方法,其特征在于,在对所述常用名集合分词之前,对所述常用名集合/>进行预处理,识别其中有明显特征的中英文数字和域名等,对所述常用名集合/>的文本集合进行过滤,并进行词频统计和候选词选择,筛选其中的中英文数字和域名等,同时并进行多次的筛选过滤,直到没有中英文数字和域名可选为止。
4.根据权利要求3所述的一种提升搜索医院名称准确度的分词方法,其特征在于,当分词始终无法匹配成功时,对分词中的所有文字进行拼音字体匹配,通过获取每个字体,可以得到该字体的拼音/>,与检索字段中拼音的声母和韵母进行组合匹配。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310500980.0A CN116226362B (zh) | 2023-05-06 | 2023-05-06 | 一种提升搜索医院名称准确度的分词方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310500980.0A CN116226362B (zh) | 2023-05-06 | 2023-05-06 | 一种提升搜索医院名称准确度的分词方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116226362A CN116226362A (zh) | 2023-06-06 |
CN116226362B true CN116226362B (zh) | 2023-07-18 |
Family
ID=86571606
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310500980.0A Active CN116226362B (zh) | 2023-05-06 | 2023-05-06 | 一种提升搜索医院名称准确度的分词方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116226362B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000200291A (ja) * | 1998-12-29 | 2000-07-18 | Xerox Corp | 選択された文字列をテキスト内で自動検出する方法 |
CN101071420A (zh) * | 2007-06-22 | 2007-11-14 | 腾讯科技(深圳)有限公司 | 一种切分索引分词的方法及*** |
CN101655841A (zh) * | 2009-09-28 | 2010-02-24 | 章森 | 汉语文本全分词的一种递归方法 |
AU2013219188A1 (en) * | 2007-01-04 | 2013-09-12 | Thinking Solutions Pty Ltd | Linguistic Analysis |
CN107918604A (zh) * | 2017-11-13 | 2018-04-17 | 彩讯科技股份有限公司 | 一种中文的分词方法及装置 |
WO2018201600A1 (zh) * | 2017-05-05 | 2018-11-08 | 平安科技(深圳)有限公司 | 信息挖掘方法、***、电子装置及可读存储介质 |
JP2018206261A (ja) * | 2017-06-08 | 2018-12-27 | 日本電信電話株式会社 | 単語分割推定モデル学習装置、単語分割装置、方法、及びプログラム |
WO2021135910A1 (zh) * | 2020-06-24 | 2021-07-08 | 平安科技(深圳)有限公司 | 基于机器阅读理解的信息抽取方法、及其相关设备 |
CN114154494A (zh) * | 2021-11-24 | 2022-03-08 | 南方电网数字电网研究院有限公司 | 一种消歧分词方法、***、装置及存储介质 |
US11520989B1 (en) * | 2018-05-17 | 2022-12-06 | Workday, Inc. | Natural language processing with keywords |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6694055B2 (en) * | 1998-07-15 | 2004-02-17 | Microsoft Corporation | Proper name identification in chinese |
JP2001043221A (ja) * | 1999-07-29 | 2001-02-16 | Matsushita Electric Ind Co Ltd | 中国語単語分割装置 |
CN101882163A (zh) * | 2010-06-30 | 2010-11-10 | 中国科学院地理科学与资源研究所 | 一种基于匹配规则的模糊中文地址地理赋值方法 |
CN103678684B (zh) * | 2013-12-25 | 2017-05-31 | 沈阳美行科技有限公司 | 一种基于导航信息检索的中文分词方法 |
CN108538395A (zh) * | 2018-04-02 | 2018-09-14 | 上海市儿童医院 | 一种通用的医疗专病数据***的构建方法 |
CN109753516B (zh) * | 2019-01-31 | 2021-08-10 | 北京嘉和海森健康科技有限公司 | 一种病历搜索结果的排序方法和相关装置 |
CN110287488A (zh) * | 2019-06-18 | 2019-09-27 | 上海晏鼠计算机技术股份有限公司 | 一种基于大数据和中文特征的中文文本分词方法 |
CN112988753B (zh) * | 2021-03-31 | 2022-10-11 | 中国建设银行股份有限公司 | 一种数据搜索方法和装置 |
CN113065350A (zh) * | 2021-04-13 | 2021-07-02 | 哈尔滨理工大学 | 一种基于注意力神经网络的生物医学文本词义消岐方法 |
CN113392189B (zh) * | 2021-08-17 | 2022-02-08 | 东华理工大学南昌校区 | 基于自动分词的新闻文本处理方法 |
-
2023
- 2023-05-06 CN CN202310500980.0A patent/CN116226362B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000200291A (ja) * | 1998-12-29 | 2000-07-18 | Xerox Corp | 選択された文字列をテキスト内で自動検出する方法 |
AU2013219188A1 (en) * | 2007-01-04 | 2013-09-12 | Thinking Solutions Pty Ltd | Linguistic Analysis |
CN101071420A (zh) * | 2007-06-22 | 2007-11-14 | 腾讯科技(深圳)有限公司 | 一种切分索引分词的方法及*** |
CN101655841A (zh) * | 2009-09-28 | 2010-02-24 | 章森 | 汉语文本全分词的一种递归方法 |
WO2018201600A1 (zh) * | 2017-05-05 | 2018-11-08 | 平安科技(深圳)有限公司 | 信息挖掘方法、***、电子装置及可读存储介质 |
JP2018206261A (ja) * | 2017-06-08 | 2018-12-27 | 日本電信電話株式会社 | 単語分割推定モデル学習装置、単語分割装置、方法、及びプログラム |
CN107918604A (zh) * | 2017-11-13 | 2018-04-17 | 彩讯科技股份有限公司 | 一种中文的分词方法及装置 |
US11520989B1 (en) * | 2018-05-17 | 2022-12-06 | Workday, Inc. | Natural language processing with keywords |
WO2021135910A1 (zh) * | 2020-06-24 | 2021-07-08 | 平安科技(深圳)有限公司 | 基于机器阅读理解的信息抽取方法、及其相关设备 |
CN114154494A (zh) * | 2021-11-24 | 2022-03-08 | 南方电网数字电网研究院有限公司 | 一种消歧分词方法、***、装置及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN116226362A (zh) | 2023-06-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11475209B2 (en) | Device, system, and method for extracting named entities from sectioned documents | |
CN105718586B (zh) | 分词的方法及装置 | |
US8447588B2 (en) | Region-matching transducers for natural language processing | |
CN106326303B (zh) | 一种口语语义解析***及方法 | |
CN112035730B (zh) | 一种语义检索方法、装置及电子设备 | |
US8266169B2 (en) | Complex queries for corpus indexing and search | |
Kumar et al. | Part of speech taggers for morphologically rich indian languages: a survey | |
WO2008107305A2 (en) | Search-based word segmentation method and device for language without word boundary tag | |
Zhikov et al. | An efficient algorithm for unsupervised word segmentation with branching entropy and MDL | |
Bellare et al. | Learning extractors from unlabeled text using relevant databases | |
CN113761890B (zh) | 一种基于bert上下文感知的多层级语义信息检索方法 | |
CN112417891B (zh) | 一种基于开放式信息抽取的文本关系自动标注方法 | |
CN110110334B (zh) | 一种基于自然语言处理的远程会诊记录文本纠错方法 | |
CN115599902B (zh) | 一种基于知识图谱的油气百科问答方法及*** | |
Dinarelli et al. | Discriminative reranking for spoken language understanding | |
CN106383814A (zh) | 一种英文社交媒体短文本分词方法 | |
CN116628173B (zh) | 一种基于关键字提取的智能客服信息生成***及生成方法 | |
CN108153851B (zh) | 一种基于规则和语义的通用论坛主题帖页面信息抽取方法 | |
CN115983233A (zh) | 一种基于数据流匹配的电子病历查重率估计方法 | |
CN114298010A (zh) | 一种融合双语言模型和句子检测的文本生成方法 | |
CN112447172B (zh) | 一种语音识别文本的质量提升方法和装置 | |
CN115618883A (zh) | 一种业务语义识别方法及装置 | |
CN111666374A (zh) | 一种在深度语言模型中融入额外知识信息的方法 | |
CN112765977A (zh) | 一种基于跨语言数据增强的分词方法及装置 | |
CN116226362B (zh) | 一种提升搜索医院名称准确度的分词方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |