CN116226362B - 一种提升搜索医院名称准确度的分词方法 - Google Patents

一种提升搜索医院名称准确度的分词方法 Download PDF

Info

Publication number
CN116226362B
CN116226362B CN202310500980.0A CN202310500980A CN116226362B CN 116226362 B CN116226362 B CN 116226362B CN 202310500980 A CN202310500980 A CN 202310500980A CN 116226362 B CN116226362 B CN 116226362B
Authority
CN
China
Prior art keywords
word
word segmentation
matching
segmentation
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310500980.0A
Other languages
English (en)
Other versions
CN116226362A (zh
Inventor
罗方义
吴红曼
刘雨鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan Deya Manda Technology Co ltd
Original Assignee
Hunan Deya Manda Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan Deya Manda Technology Co ltd filed Critical Hunan Deya Manda Technology Co ltd
Priority to CN202310500980.0A priority Critical patent/CN116226362B/zh
Publication of CN116226362A publication Critical patent/CN116226362A/zh
Application granted granted Critical
Publication of CN116226362B publication Critical patent/CN116226362B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Character Discrimination (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种提升搜索医院名称准确度的分词方法,属于医院信息技术领域,本发明根据目标医院常用名集合,对所述文本集合内的字体进行逐一分解,使其形成单个字体的文本集合;对所述文本集合中的字体进行前后组合形成分词,并将分词与数据库中词典进行匹配,并输出匹配成功的分词结果;将匹配结果根据分词结果的匹配度依次展示;本发明可以根据用户的输入字符进行逐一排查、匹配,以及对字符分词中的歧义问题进行消除,从而可以大大提高搜索的准确度和效率,提高用户的体验感。

Description

一种提升搜索医院名称准确度的分词方法
技术领域
本发明公开了一种分词方法,属于医院信息技术领域,具体涉及一种提升搜索医院名称准确度的分词方法。
背景技术
在如今智能化、信息化的普及,可以足不出户的了解外面世界的各种信息,通过互联网设备搜索即可得到不同类型的信息;使得人们的信息可以同步;随着信息时代的到来,互联网在人们生产生活的各个方面将起着越来越大的作用,而对于以汉语为母语的我国来说,中文信息处理技术已经在我国信息化建设中占据了一个非常重要的地位。
在日常我们搜索医院名称的时候,由于医院名称通常较长,如果无法将医院全名打出,搜索框内会出现多个不同的医院名称,同时有的医院在当前城市中可能存在多个,这样就更加使用户无法确定医院的准确性,导致用户的体验感下降。
公开号为CN112199494A的中国专利公开了一种医疗信息搜索方法、装置、电子设备及存储介质。该方法能够确定医疗查询语句,对医疗查询语句进行预处理,得到分词序列,分词序列中包括多个医疗词汇,获取预先构建的倒排索引表,并确定每个医疗词汇的初始文本域,将初始文本域有多个的医疗词汇确定为边界词,并从多个初始文本域中确定目标文本域,每个目标文本域对应一个查询维度,根据查询维度确定与搜索请求对应的搜索库,在搜索库中搜索所述医疗词汇,得到搜索请求的搜索结果。
公开号为CN109543178A的中国专利公开了一种司法文本标签体系构建方法及***。通过分词工具获取司法词汇文本,根据词频统计构建初级标签体系,对初级标签体系中语义相近的标签进行合并,对生涩的标签进行扩展,获得扩展标签体系,利用文本测试集,统计扩展标签体系搜索文本的准确度,验证当前的扩展标签体系是否构建完成,否则进一步优化标签体系。
公开号为CN111950283A的中国专利公开了一种面向大规模医疗文本挖掘的中文分词和命名实体识别***,基于word2vec和分词后的文本获取词向量,将词向量输入到叠层BiLSTM-CRF模型中,通过叠层BiLSTM-CRF模型的第一层对词向量进行实体标注,实体标注后的词向量加入词性特征构成输入特征集,通过叠层BiLSTM-CRF模型第二层对输入特征集进行复杂命名实体识别。
现有技术存在以下问题:在对目标信息进行分词时,未分解至单个字符,并将字符进行重排列,造成信息漏项,搜索匹配不够准确;未进行同音字替换搜索,对错字搜索信息包容度不够;未进行分词消除歧义;基于语义模型进行分词,计算复杂,对算力要求较高,面对互联网级别的搜索计算要求时,***的计算和运行压力较大。
发明内容
本发明的目的是提供一种提升搜索医院名称准确度的分词方法,解决背景技术中的不足。
为实现上述目的,本发明提供以下技术方案:一种提升搜索医院名称准确度的分词方法,所述分词方法包括以下步骤:
S1、基于目标医院常用名集合建立由单字集合构成的分词集合,具体包括以下子步骤:
S11、根据输入的目标医院常用名建立常用名集合
S12、对所述常用名集合的词汇及短句进行逐一分解,使其形成单字集合/>;所述单字集合/>,其中/>至/>为单字;
S2、对所述单字集合中的单字进行前后组合形成分词,并将分词与数据库中词典进行匹配;包括以下子步骤:
S21、将所述单字集合的所有单字进行正序和逆序组合,得到分词集合/>,所述分词集合/>,其中,,所述/>为二字词组集合,所述/>为三字词组集合,所述/>为四字词组集合,且满足:
其中,为自然数,且;/>为初始字,/>、/>、/>为跟随字,所述分词由初始字和跟随字组成;
S22、将搜索者所输入的检索字段与所述分词集合进行匹配:
S221、若匹配成功,则把匹配的词组从分词集合中切分出来,剩余的部分作为新的分词集合重复组合匹配;
S222、若匹配不成功,则从分词集合的开头第一个组合正向或者逆向截取一个或数个单字组成待匹配字符串,并与检索字段进行匹配,直到分词集合/>内的词组匹配完成或者截取至最后一个单字/>;;
S3、输出匹配成功的分词结果;
S4、将匹配结果根据分词结果的匹配度依次展示。
进一步的,对于无法匹配成功的组合文本进行切分,消除其中的歧义;具体步骤如下:
S5、将无法匹配成功的文本确定为待切分中文文本Y,并通过正向最大匹配法、逆向最大匹配法、HMM进行分词,得到分词结果;正向最大匹配法、逆向最大匹配法以及HMM分词三种方法的切分结果分别记为/>
S6、标记通过比较三种分词结果,得到三种分词结果中不全相同的部分,即作为歧义部分;
S7、判断歧义部分属于哪种歧义结果并进行消歧:
S71、第一种结果:若结果是、 />中的任一种,即三种分词结果中有且仅有任意两种结果是相同的,则以/>作为最终切分;
S72、第二种结果:若结果是,即三种分词结果中两两皆不相同,则以/>作为最终切分;
当歧义结果为第二种结果时,则需要在经过第一次消歧的基础上进行二次消歧,利用HMM分别对三种分词结果进行词性标注,并筛选得到分词结果中两两皆不相同的歧义部分,并通过评估函数得到最大化的切分方法,并以该切分作为最终切分。
进一步的,在对所述常用名集合分词之前,对所述常用名集合/>进行预处理,识别其中有明显特征的中英文数字和域名等,对所述常用名集合/>的文本集合进行过滤,并进行词频统计和候选词选择,筛选其中的中英文数字和域名等,同时并进行多次的筛选过滤,直到没有中英文数字和域名可选为止。
进一步的,在将检索字段与分词集合进行匹配时,对所述分词集合/>进行字符的***,索引和存储;
其中,所述分词集合包括一个初始节点、若干个中间节点和一个结束节点;所述初始节点位于历史记录中匹配成功且序号最小的词组处,所述中间节点位于历史记录中每一次匹配成功的词组处,所述结束节点位于历史记录中匹配成功且序号最大的词组处;每次匹配具有从初始节点到结束节点的路径,每条所述路径上存在若干个中间节点;
当查找分词集合中是否存储某个词语时,从初始节点开始,然后沿着某个分支遍历下去直至分词的最后一个字,完成查询。
进一步的,其中所述分词集合的匹配方法如下:
获取检索字段的第一个字符,找到其对应的初始节点,并跳转到下一字符的中间节点上,等待下一次查询;
在中间节点上获取待查询字符串的第二个字符,并再次跳转到下一字符的中间节点上,等待下一次查询;
重复上述操作,直至分词的最后一个字符,作为结束节点;
读取最后一个字符节点的信息,并返回其经过路径的所有字符,查询完成。
进一步的,当分词始终无法匹配成功时,对分词中的所有文字进行拼音字体匹配,通过获取每个字体,可以得到该字体的拼音/>,与检索字段中拼音的声母和韵母进行组合匹配。
有益效果:本发明公开了一种分词方法,属于医院信息技术领域,具体涉及一种提升搜索医院名称准确度的分词方法,本发明根据输入目标文本建立相应的文本集合,对所述文本集合内的字体进行逐一分解,使其形成单个字体的文本集合;对所述文本集合中的字体进行前后组合形成词汇,并将词汇与数据库中词汇进行匹配,并输出匹配成功的分词结果;将匹配结果根据分词结果的匹配度依次展示;本发明可以根据用户的输入字符进行逐一排查、匹配,以及对字符分词中的歧义问题进行消除,从而可以大大提高搜索的准确度和效率,提高用户的体验感。
附图说明
图1是本发明的工作示意图。
图2是本发明的工作流程图。
图3是本发明的消歧步骤图。
图4是本发明的分词匹配流程图。
图5是本发明的分词匹配示意图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一种提升搜索医院名称准确度的分词方法,包括以下方法:
根据输入目标文本建立相应的文本集合,对所述文本集合内的字体进行逐一分解,使其形成单个字体的文本集合;
对所述文本集合中的字体进行前后组合形成分词,并将分词与数据库中词典进行匹配,并输出匹配成功的分词结果;
将匹配结果根据分词结果的匹配度依次展示。
在一个实施例中,根据输入的目标医院常用名建立常用名集合,对所述常用名集合/>的词汇及短句进行逐一分解,使其形成单字集合/>;所述单字集合,其中/>至/>为单字。
在一个实施例中,对所述单字集合中的单字进行前后组合形成分词,并将分词与数据库中词典进行匹配,包括:
将所述单字集合的所有单字进行正序和逆序组合,得到分词集合/>,所述分词集合/>,其中,/>,所述/>为二字词组集合,所述/>为三字词组集合,所述/>为四字词组集合,且满足:
其中,为自然数,且;/>为初始字,/>、/>、/>为跟随字,所述分词由初始字和跟随字组成;
将搜索者所输入的检索字段与所述分词集合进行匹配:
若匹配成功,则把匹配的词组从分词集合中切分出来,剩余的部分作为新的分词集合重复组合匹配;
若匹配不成功,则从分词集合的开头第一个组合正向或者逆向截取一个或数个单字组成待匹配字符串,并与检索字段进行匹配,直到分词集合/>内的词组匹配完成或者截取至最后一个单字/>
输出匹配成功的分词结果;
将匹配结果根据分词结果的匹配度依次展示。
在一个实施例中,对于一些无法匹配成功的组合文本,则需要进行对文本进行切分消除其中的歧义;具体步骤如下:
将无法匹配成功的文本确定为待切分中文文本Y,并通过正向最大匹配法、逆向最大匹配法、HMM进行分词,得到分词结果;正向最大匹配法、逆向最大匹配法以及HMM分词三种方法的切分结果分别记为/>
标记通过比较三种分词结果,得到三种分词结果中不全相同的部分,即作为歧义部分;
判断歧义部分属于哪种歧义结果并进行消歧:
第一种结果:若结果是、 />中的任一种,即三种分词结果中有且仅有任意两种结果是相同的,则以/>作为最终切分;
第二种结果:若结果是,即三种分词结果中两两皆不相同,则以/>作为最终切分;
当歧义结果为第二种结果时,则需要在经过第一次消歧的基础上进行二次消歧,利用HMM分别对三种分词结果进行词性标注,并筛选得到分词结果中两两皆不相同的歧义部分,并通过评估函数得到最大化的切分方法,并以该切分作为最终切分。
在一个实施例中,在对常用名集合分词之前,需要对常用名集合/>进行预处理,识别其中有明显特征的中英文数字和域名等,对所述常用名集合/>的文本集合进行过滤,并进行词频统计和候选词选择,筛选其中的中英文数字和域名等,同时并进行多次的筛选过滤,直到没有中英文数字和域名可选为止,其中域名的区分可以大大提高准确度和识别效率。
在一个实施例中,在将检索字段与分词集合进行匹配时,对所述分词集合进行字符的***,索引和存储;
其中,所述分词集合包括一个初始节点、若干个中间节点和一个结束节点;所述初始节点位于历史记录中匹配成功且序号最小的词组处,所述中间节点位于历史记录中每一次匹配成功的词组处,所述结束节点位于历史记录中匹配成功且序号最大的词组处;每次匹配具有从初始节点到结束节点的路径,每条所述路径上存在若干个中间节点;
当查找分词集合中是否存储某个词语时,从初始节点开始,然后沿着某个分支遍历下去直至分词的最后一个字,完成查询。
在一个实施例中,其中所述分词集合的匹配方法如下:
获取检索字段的第一个字符,找到其对应的初始节点,并跳转到下一字符的中间节点上,等待下一次查询;
在中间节点上获取待查询字符串的第二个字符,并再次跳转到下一字符的中间节点上,等待下一次查询;
重复上述操作,直至分词的最后一个字符,作为结束节点;
读取最后一个字符节点的信息并返回其经过路径的所有字符,查询完成。
在一个实施例中,当分词始终无法匹配成功时,则需要对分词中的所有文字进行拼音字体匹配,利用数据库对所述文本集合的每个字体的拼音进行特定搜索,匹配出与其相同的拼音的字体;
当分词始终无法匹配成功时,对分词中的所有文字进行拼音字体匹配,通过获取每个字体,可以得到该字体的拼音/>,与检索字段中拼音的声母和韵母进行组合匹配。
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims (4)

1.一种提升搜索医院名称准确度的分词方法,其特征在于,所述分词方法包括以下步骤:
S1、基于目标医院常用名集合建立由单字集合构成的分词集合,具体包括以下子步骤:
S11、根据输入的目标医院常用名建立常用名集合
S12、对所述常用名集合的词汇及短句进行逐一分解,使其形成单字集合/>;所述单字集合/>,其中/>至/>为单字;
S2、对所述单字集合中的单字进行前后组合形成分词,并将分词与数据库中词典进行匹配;包括以下子步骤:
S21、将所述单字集合的所有单字进行正序和逆序组合,得到分词集合/>,所述分词集合/>,其中,/>,所述/>为二字词组集合,所述/>为三字词组集合,所述/>为四字词组集合,且满足:
其中,为自然数,且/>;/>为初始字,/>、/>、/>为跟随字,所述分词由初始字和跟随字组成;
S22、将搜索者所输入的检索字段与所述分词集合进行匹配:
在将检索字段与分词集合进行匹配时,对所述分词集合/>进行字符的***,索引和存储;
其中,所述分词集合包括一个初始节点、若干个中间节点和一个结束节点;所述初始节点位于历史记录中匹配成功且序号最小的词组处,所述中间节点位于历史记录中每一次匹配成功的词组处,所述结束节点位于历史记录中匹配成功且序号最大的词组处;每次匹配具有从初始节点到结束节点的路径,每条所述路径上存在若干个中间节点;
当查找分词集合中是否存储某个词语时,从初始节点开始,然后沿着某个分支遍历下去直至分词的最后一个字,完成查询;
其中所述分词集合的匹配方法如下:
获取检索字段的第一个字符,找到其对应的初始节点,并跳转到下一字符的中间节点上,等待下一次查询;
在中间节点上获取待查询字符串的第二个字符,并再次跳转下一字符的中间节点上,等待下一次查询;
重复上述操作,直至分词的最后一个字符,作为结束节点;
读取最后一个字符节点的信息,并返回其经过路径的所有字符,查询完成;
S221、若匹配成功,则把匹配的词组从分词集合中切分出来,剩余的部分作为新的分词集合重复组合匹配;
S222、若匹配不成功,则从分词集合的开头第一个组合正向或者逆向截取一个或数个单字组成待匹配字符串,并与检索字段进行匹配,直到分词集合/>内的词组匹配完成或者截取至最后一个单字/>
S3、输出匹配成功的分词结果;
S4、将匹配结果根据分词结果的匹配度依次展示。
2.根据权利要求1所述的一种提升搜索医院名称准确度的分词方法,其特征在于,对于无法匹配成功的组合文本进行切分,消除其中的歧义;具体步骤如下:
S5、将无法匹配成功的文本确定为待切分中文文本Y,并通过正向最大匹配法、逆向最大匹配法、HMM进行分词,得到分词结果;正向最大匹配法、逆向最大匹配法以及HMM分词三种方法的切分结果分别记为/>
S6、标记通过比较三种分词结果,得到三种分词结果中不全相同的部分,即作为歧义部分;
S7、判断歧义部分属于哪种歧义结果并进行消歧:
S71、第一种结果:若结果是、/>中的任一种,即三种分词结果中有且仅有任意两种结果是相同的,则以/>作为最终切分;
S72、第二种结果:若结果是,即三种分词结果中两两皆不相同,则以/>作为最终切分;
当歧义结果为第二种结果时,则需要在经过第一次消歧的基础上进行二次消歧,利用HMM分别对三种分词结果进行词性标注,并筛选得到分词结果中两两皆不相同的歧义部分,并通过评估函数得到最大化的切分方法,并以该切分作为最终切分。
3.根据权利要求2所述的一种提升搜索医院名称准确度的分词方法,其特征在于,在对所述常用名集合分词之前,对所述常用名集合/>进行预处理,识别其中有明显特征的中英文数字和域名等,对所述常用名集合/>的文本集合进行过滤,并进行词频统计和候选词选择,筛选其中的中英文数字和域名等,同时并进行多次的筛选过滤,直到没有中英文数字和域名可选为止。
4.根据权利要求3所述的一种提升搜索医院名称准确度的分词方法,其特征在于,当分词始终无法匹配成功时,对分词中的所有文字进行拼音字体匹配,通过获取每个字体,可以得到该字体的拼音/>,与检索字段中拼音的声母和韵母进行组合匹配。
CN202310500980.0A 2023-05-06 2023-05-06 一种提升搜索医院名称准确度的分词方法 Active CN116226362B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310500980.0A CN116226362B (zh) 2023-05-06 2023-05-06 一种提升搜索医院名称准确度的分词方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310500980.0A CN116226362B (zh) 2023-05-06 2023-05-06 一种提升搜索医院名称准确度的分词方法

Publications (2)

Publication Number Publication Date
CN116226362A CN116226362A (zh) 2023-06-06
CN116226362B true CN116226362B (zh) 2023-07-18

Family

ID=86571606

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310500980.0A Active CN116226362B (zh) 2023-05-06 2023-05-06 一种提升搜索医院名称准确度的分词方法

Country Status (1)

Country Link
CN (1) CN116226362B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000200291A (ja) * 1998-12-29 2000-07-18 Xerox Corp 選択された文字列をテキスト内で自動検出する方法
CN101071420A (zh) * 2007-06-22 2007-11-14 腾讯科技(深圳)有限公司 一种切分索引分词的方法及***
CN101655841A (zh) * 2009-09-28 2010-02-24 章森 汉语文本全分词的一种递归方法
AU2013219188A1 (en) * 2007-01-04 2013-09-12 Thinking Solutions Pty Ltd Linguistic Analysis
CN107918604A (zh) * 2017-11-13 2018-04-17 彩讯科技股份有限公司 一种中文的分词方法及装置
WO2018201600A1 (zh) * 2017-05-05 2018-11-08 平安科技(深圳)有限公司 信息挖掘方法、***、电子装置及可读存储介质
JP2018206261A (ja) * 2017-06-08 2018-12-27 日本電信電話株式会社 単語分割推定モデル学習装置、単語分割装置、方法、及びプログラム
WO2021135910A1 (zh) * 2020-06-24 2021-07-08 平安科技(深圳)有限公司 基于机器阅读理解的信息抽取方法、及其相关设备
CN114154494A (zh) * 2021-11-24 2022-03-08 南方电网数字电网研究院有限公司 一种消歧分词方法、***、装置及存储介质
US11520989B1 (en) * 2018-05-17 2022-12-06 Workday, Inc. Natural language processing with keywords

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6694055B2 (en) * 1998-07-15 2004-02-17 Microsoft Corporation Proper name identification in chinese
JP2001043221A (ja) * 1999-07-29 2001-02-16 Matsushita Electric Ind Co Ltd 中国語単語分割装置
CN101882163A (zh) * 2010-06-30 2010-11-10 中国科学院地理科学与资源研究所 一种基于匹配规则的模糊中文地址地理赋值方法
CN103678684B (zh) * 2013-12-25 2017-05-31 沈阳美行科技有限公司 一种基于导航信息检索的中文分词方法
CN108538395A (zh) * 2018-04-02 2018-09-14 上海市儿童医院 一种通用的医疗专病数据***的构建方法
CN109753516B (zh) * 2019-01-31 2021-08-10 北京嘉和海森健康科技有限公司 一种病历搜索结果的排序方法和相关装置
CN110287488A (zh) * 2019-06-18 2019-09-27 上海晏鼠计算机技术股份有限公司 一种基于大数据和中文特征的中文文本分词方法
CN112988753B (zh) * 2021-03-31 2022-10-11 中国建设银行股份有限公司 一种数据搜索方法和装置
CN113065350A (zh) * 2021-04-13 2021-07-02 哈尔滨理工大学 一种基于注意力神经网络的生物医学文本词义消岐方法
CN113392189B (zh) * 2021-08-17 2022-02-08 东华理工大学南昌校区 基于自动分词的新闻文本处理方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000200291A (ja) * 1998-12-29 2000-07-18 Xerox Corp 選択された文字列をテキスト内で自動検出する方法
AU2013219188A1 (en) * 2007-01-04 2013-09-12 Thinking Solutions Pty Ltd Linguistic Analysis
CN101071420A (zh) * 2007-06-22 2007-11-14 腾讯科技(深圳)有限公司 一种切分索引分词的方法及***
CN101655841A (zh) * 2009-09-28 2010-02-24 章森 汉语文本全分词的一种递归方法
WO2018201600A1 (zh) * 2017-05-05 2018-11-08 平安科技(深圳)有限公司 信息挖掘方法、***、电子装置及可读存储介质
JP2018206261A (ja) * 2017-06-08 2018-12-27 日本電信電話株式会社 単語分割推定モデル学習装置、単語分割装置、方法、及びプログラム
CN107918604A (zh) * 2017-11-13 2018-04-17 彩讯科技股份有限公司 一种中文的分词方法及装置
US11520989B1 (en) * 2018-05-17 2022-12-06 Workday, Inc. Natural language processing with keywords
WO2021135910A1 (zh) * 2020-06-24 2021-07-08 平安科技(深圳)有限公司 基于机器阅读理解的信息抽取方法、及其相关设备
CN114154494A (zh) * 2021-11-24 2022-03-08 南方电网数字电网研究院有限公司 一种消歧分词方法、***、装置及存储介质

Also Published As

Publication number Publication date
CN116226362A (zh) 2023-06-06

Similar Documents

Publication Publication Date Title
US11475209B2 (en) Device, system, and method for extracting named entities from sectioned documents
CN105718586B (zh) 分词的方法及装置
US8447588B2 (en) Region-matching transducers for natural language processing
CN106326303B (zh) 一种口语语义解析***及方法
CN112035730B (zh) 一种语义检索方法、装置及电子设备
US8266169B2 (en) Complex queries for corpus indexing and search
Kumar et al. Part of speech taggers for morphologically rich indian languages: a survey
WO2008107305A2 (en) Search-based word segmentation method and device for language without word boundary tag
Zhikov et al. An efficient algorithm for unsupervised word segmentation with branching entropy and MDL
Bellare et al. Learning extractors from unlabeled text using relevant databases
CN113761890B (zh) 一种基于bert上下文感知的多层级语义信息检索方法
CN112417891B (zh) 一种基于开放式信息抽取的文本关系自动标注方法
CN110110334B (zh) 一种基于自然语言处理的远程会诊记录文本纠错方法
CN115599902B (zh) 一种基于知识图谱的油气百科问答方法及***
Dinarelli et al. Discriminative reranking for spoken language understanding
CN106383814A (zh) 一种英文社交媒体短文本分词方法
CN116628173B (zh) 一种基于关键字提取的智能客服信息生成***及生成方法
CN108153851B (zh) 一种基于规则和语义的通用论坛主题帖页面信息抽取方法
CN115983233A (zh) 一种基于数据流匹配的电子病历查重率估计方法
CN114298010A (zh) 一种融合双语言模型和句子检测的文本生成方法
CN112447172B (zh) 一种语音识别文本的质量提升方法和装置
CN115618883A (zh) 一种业务语义识别方法及装置
CN111666374A (zh) 一种在深度语言模型中融入额外知识信息的方法
CN112765977A (zh) 一种基于跨语言数据增强的分词方法及装置
CN116226362B (zh) 一种提升搜索医院名称准确度的分词方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant