CN112464667A - 文本的实体识别方法、装置、电子设备和存储介质 - Google Patents

文本的实体识别方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN112464667A
CN112464667A CN202011294254.0A CN202011294254A CN112464667A CN 112464667 A CN112464667 A CN 112464667A CN 202011294254 A CN202011294254 A CN 202011294254A CN 112464667 A CN112464667 A CN 112464667A
Authority
CN
China
Prior art keywords
processed
text
entity recognition
participles
matching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011294254.0A
Other languages
English (en)
Other versions
CN112464667B (zh
Inventor
郭韦良
阳晓文
张荣驰
何小莲
邓奕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Huabin Licheng Technology Co ltd
Original Assignee
Beijing Huabin Licheng Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Huabin Licheng Technology Co ltd filed Critical Beijing Huabin Licheng Technology Co ltd
Priority to CN202011294254.0A priority Critical patent/CN112464667B/zh
Publication of CN112464667A publication Critical patent/CN112464667A/zh
Application granted granted Critical
Publication of CN112464667B publication Critical patent/CN112464667B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本申请提出一种文本的实体识别方法、装置、电子设备和存储介质,涉及数据处理技术领域,其中,方法包括:获取待处理文本;其中,待处理文本为至少两种语言混合文本;根据语言类别获取分句工具,并通过分句工具对待处理文本进行分句处理,获取多个待处理句子;对多个待处理句子进行切词处理,获取多个待处理分词,并将多个待处理分词拼接成目标长度的字符串;在目标长度大于预设长度阈值时,基于词典的词条对多个待处理分词进行匹配标注,获取实体识别结果。由此,实现对多语言混合文本的实体识别,以及能够提高对过长文本的实体识别的精准性。

Description

文本的实体识别方法、装置、电子设备和存储介质
技术领域
本申请涉及数据处理技术领域,尤其涉及一种文本的实体识别方法、装置电子设备和存储介质。
背景技术
目前,随着医疗卫生领域的不断发展,医疗卫生领域不同来源不同格式的数据不断涌现出来,这些大数据中隐藏着大量可以被识别和挖掘的信息。作为医疗数据分析的最重要的一步,医疗实体识别(特别是疾病类实体识别)可以抽取出相关文本中存在的医疗术语,对后续的研究起到重要作用。由于不同来源医疗文本存在不同的问题,比如:以中文为主体的医药类文献中的常常掺杂着英文描述的疾病词,靶点词等;医药类专利文本中常常存在描述语句过长等现象。
相关技术中,以多语言编码微调模型BERT为首的或BERT变体的算法成为了NLP(Natural Language Processing,自然语言处理)领域新的技术标杆,其中包括实体识别。然而,以BERT为代表的预训练微调的方案对基于英语数据微调的BERT模型无法直接迁移应用到中文数据的预测上,且对超长句子面临输入文本数据被截断而无法完整识别的问题,以及对和疾病靶点识别特定场景有关的细节预处理不够精准。
发明内容
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本申请的第一个目的在于提出一种文本的实体识别方法,以实现对多语言混合文本的实体识别,以及能够提高对过长文本的实体识别的精准性,解决现有技术中对超长句子面临输入文本数据被截断而无法完整识别,以及识别结果不够精准的技术问题。
本申请的第二个目的在于提出一种文本的实体识别装置。
本申请的第三个目的在于提出一种计算机设备。
本申请的第四个目的在于提出一种非临时性计算机可读存储介质。
本申请的第五个目的在于提出一种计算机程序产品。
为达上述目的,本申请第一方面实施例提出了一种文本的实体识别方法,包括:
获取待处理文本;其中,所述待处理文本为至少两种语言混合文本;
根据语言类别获取分句工具,并通过分句工具对所述待处理文本进行分句处理,获取多个待处理句子;
对所述多个待处理句子进行切词处理,获取多个待处理分词,并将所述多个待处理分词拼接成目标长度的字符串;
在所述目标长度大于预设长度阈值时,基于词典的词条对所述多个待处理分词进行匹配标注,获取实体识别结果。
本申请实施例的文本的实体识别方法,通过获取待处理文本;其中,待处理文本为至少两种语言混合文本;根据语言类别获取分句工具,并通过分句工具对待处理文本进行分句处理,获取多个待处理句子;对多个待处理句子进行切词处理,获取多个待处理分词,并将多个待处理分词拼接成目标长度的字符串;在目标长度大于预设长度阈值时,基于词典的词条对多个待处理分词进行匹配标注,获取实体识别结果。由此,实现对多语言混合文本的实体识别,以及能够提高对过长文本的实体识别的精准性。
在本申请的一个实施例中,在所述目标长度小于等于所述预设长度阈值时,将所述字符串输入多语言编码微调模型进行实体识别,获取实体识别结果。
在本申请的一个实施例中,在所述基于词典的词条对所述多个待处理分词进行匹配标注,获取标注结果之前,还包括:
获取目标类别的词条列表;
对所述词条列表中的词条进行语义分析,按照语义信息进行对所述词条列表中的词条进行调整,并从所述词条列表中删除停止词;
按照词条之间的上下包含关系将各个词条划分为一组,并按照预设长度对各组进行排序;其中,每个词条与对应的实体类型组成一对。
在本申请的一个实施例中,所述基于词典的词条对所述多个待处理分词进行匹配标注,获取实体识别结果,包括:
将每个待处理分词与所述词条列表中的词条进行第一匹配,将完全匹配对应的待处理分词替换成标签;
在所述第一匹配后,将所述多个待处理分词没有替换成标签的待处理分词与所述词条列表中的词条进行第二匹配,将完全匹配对应的待处理分词替换成标签,直到所述多个待处理分词都完成匹配,获取实体识别结果。
在本申请的一个实施例中,所述文本的实体识别方法,还包括:
获取训练数据文本;
对所述训练数据文本进行切分获取多个训练分词,获取所述多个训练分词的字符长度大于最大序列长度值的目标训练数据;
将所述目标训练数据对应的训练分词的字符长度按照降序排序,选取最小字符长度作为所述目标长度。
在本申请的一个实施例中,所述文本的实体识别方法,所述通过分句工具对所述待处理文本进行分句处理,获取多个待处理句子,包括:
基于正则从所述待处理文本中每个汉字进行切分,获取各个汉字的分词结果和非中文文本;
按照空格对所述非中文文本进行切分。
为达上述目的,本申请第二方面实施例提出了一种文本的实体识别装置,包括:
获取模块,用于获取待处理文本;其中,所述待处理文本为至少两种语言混合文本;
获取分词模块,用于根据语言类别获取分句工具,并通过分句工具对所述待处理文本进行分句处理,获取多个待处理句子;
分词拼接模块,用于对所述多个待处理句子进行切词处理,获取多个待处理分词,并将所述多个待处理分词拼接成目标长度的字符串;
处理模块,用于在所述目标长度大于预设长度阈值时,基于词典的词条对所述多个待处理分词进行匹配标注,获取实体识别结果。
本申请实施例的文本的实体识别装置,通过获取待处理文本;其中,待处理文本为至少两种语言混合文本;根据语言类别获取分句工具,并通过分句工具对待处理文本进行分句处理,获取多个待处理句子;对多个待处理句子进行切词处理,获取多个待处理分词,并将多个待处理分词拼接成目标长度的字符串;在目标长度大于预设长度阈值时,基于词典的词条对多个待处理分词进行匹配标注,获取实体识别结果。由此,实现对多语言混合文本的实体识别,以及能够提高对过长文本的实体识别的精准性。
为达上述目的,本申请第三方面实施例提出了一种计算机设备,包括:处理器;用于存储所述处理器可执行指令的存储器;其中,所述处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序,用于执行第一方面实施例所述的文本的实体识别方法。
为了实现上述目的,本申请第四方面实施例提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如本申请第一方面实施例所述的文本的实体识别方法。
为了实现上述目的,本申请第五方面实施例提出了一种计算机程序产品,当所述计算机程序产品中的指令处理器执行时实现如本申请第一方面实施例所述的文本的实体识别方法。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本申请实施例一所提供的一种文本的实体识别方法的流程示意图;
图2为本申请实施例所提供的一种文本的实体识别装置的结构示意图;以及
图3示出了适于用来实现本申请实施方式的示例性计算机设备的框图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
下面参考附图描述本申请实施例的文本的实体识别方法、装置、电子设备和存储介质。
本申请实施例的文本的实体识别方法,解决了超长句子被BERT截断不能识别的问题,并且能够允许中英文混合文本等场景的疾病靶点识别,在还尚未有标注过的训练数据的时候,利用本发明的自动词典匹配功能还能对数据进行词典标注,大大降低人工标注成本。
本申请实施例的文本的实体识别方法,可以应用到很多场景中,比如中英文医药专利文本的标题,摘要,权利要求的疾病靶点识别;通过分析专利文本中的靶点或疾病,分析医药行业研发趋势,监测最新行业动态,捕捉最优价值的靶点或疾病。再比如英文临床试验标题和入排标准文本的疾病识别;挖掘临床试验文本中的细分适应症,打通临床试验-临床结果-细分适应症数据链条,方便寻找未满足的临床需求和临床研发趋势。还比如中英文药品说明书的适应症(疾病)识别;识别并标准化药品说明书文本中的适应症信息,辅助打通中国临床研究数据库-中国药品申报数据库适应症数据链,补充药品适应症信息,方便根据适应症查找相关药品,以及医学文献疾病靶点新词发现等等。
图1为本申请实施例一所提供的一种文本的实体识别方法的流程示意图。
如图1所示,该文本的实体识别方法包括以下步骤:
步骤101,获取待处理文本;其中,待处理文本为至少两种语言混合文本。
在本申请实施例中,基于上述描述本申请的文本的实体识别方法可以应用很多场景,可以根据具体应用场景选择待处理文件进行实体识别处理,举例说明如下。
第一种示例,中英文医药专利文本的标题,摘要,权利要求的疾病靶点识别,待处理文本为中英文医药专利文本。
第二种示例,医学文献疾病靶点新词发现,待处理文本为医学文献。
在本申请实施例中,待处理文本为至少两种语言混合文本,比如中英文混合文本、中法文混合文本。
步骤102,根据语言类别获取分句工具,并通过分句工具对待处理文本进行分句处理,获取多个待处理句子。
步骤103,对多个待处理句子进行切词处理,获取多个待处理分词,并将多个待处理分词拼接成目标长度的字符串。
在本申请实施例中,待处理文本会被分句(如果文本句子个数≥2)、然后经过混合语言切分,如果待处理文本长度超过预设阈值则调用DALS(Dictionary-based AutoLabeling System,基于词典自动标注***)模块进行基于词典的词条进行匹配标注,获取实体识别结果,如果未超长则调用多语言编码微调模型进行实体识别,获取实体识别结果。
在本申请实施例中,不同的混合语言文本可能选择不同的处理方式,作为一种示例,基于正则从待处理文本中每个汉字进行切分,获取各个汉字的分词结果和非中文文本,按照空格对非中文文本进行切分。
举例而言,待处理文本为≥1个的文本,每个待处理文本可含有≥1个句子,,待处理文本为:[‘How can diabetes be cured?PD-1and H.I.V是靶点吗’,‘What is centraldiabetes insipidus(CDI)?’];待处理文本经过混合语言切分变为:[[[‘How’,‘can’,‘diabetes’,‘be’,‘cured’,‘?’],[‘PD-1’,‘and’,‘HIV’,‘是’,'靶’,‘点’,‘吗’]],[[‘What’,‘is',‘central',‘diabetes',‘insipidus','(‘,‘CDI',')',‘?',]]]。
在本申请实施例中,先用语种识别工具识别输入文本(可以是一句话,一篇文章等)是英语还是中文,中英文分别用不同的分句工具,分句就是按照语法意义上的句子终止符号为句子边界把一段话拆成若干单句,然后逐句进行词语切分,即上述描述的切词处理。
更具体地,基于正则把待处理文本中的每个汉字单独切分出来,其他片段暂时先作为各自整体保留:比如['How can diabetes be cured?'],该待处理文本不含有中文所以暂时作为整体输出。比如['PD-1and H.I.V','是','靶','点','吗'],汉字单独切分,其他暂留。比如['What is central diabetes insipidus(CDI)?']同上述不含有中文一样保留。
进一步地,按照空格把上边非汉字片段进一步切分并把每个片段末尾可能存在的非字母符号拆分出来;如果待处理文本里的括号与非中文片段之间没有空格间隔,则专门地把括号单独切分成独立分词(tokens),这是因为括号里的词也可能需要识别的实体;如果句末的标点与句末的片段之间没有空格间隔,也需要把这种句末标点单独切分成独立tokens;如果一个没有空格的片段含有“anti-”(ANTI-,Anti-等都要考虑)前缀,则把该前缀拆分开,因为在医学文本中,anti-后边的词有可能是靶点词:[‘How’,‘can’,‘diabetes’,‘be’,‘cured’,‘?’];[‘PD-1’,‘and’,‘HIV’,‘是’,'靶’,‘点’,‘吗’];[‘What’,‘is',‘central',‘diabetes',‘insipidus','(‘,‘CDI',')',‘?',]]。
因此,对于上步每句切分的结果,用单空格拼接成字符串后检查其基于单字符的字符串的目标长度。
步骤104,在目标长度大于预设长度阈值时,基于词典的词条对多个待处理分词进行匹配标注,获取实体识别结果。
在本申请实施例中,预设长度阈值预先设置,作为一种可能实现方式,获取训练数据文本;对训练数据文本进行切分获取多个训练分词,获取多个训练分词的字符长度大于最大序列长度值的目标训练数据;将目标训练数据对应的训练分词的字符长度按照降序排序,选取最小字符长度作为目标长度。
具体地,把上述本申请采用的混合语言切分策略处理后的分词经单空格拼接后的一批训练数据文本,利用BERT自带的分词模块进行切分判断是否训练分词个数>512(512是BERT规定的最大序列长度值),然后统计这批训练数据文本的训练分词个数超长的占比,然后把超长的那些训练数据文本(经本申请采用的混合语言切分之后单空格拼接的文本)的训练分词的字符长度降序排列,选择字符长度最小的那个值作为预设长度阈值。
在本申请实施例中,在目标长度大于预设长度阈值时,基于词典的词条对多个待处理分词进行匹配标注,获取实体识别结果。
需要说明的是,在目标长度小于等于所述预设长度阈值时,将字符串输入多语言编码微调模型进行实体识别,获取实体识别结果。
在本申请实施例中,在基于词典的词条对所述多个待处理分词进行匹配标注,获取标注结果之前,还包括:获取目标类别的词条列表;对词条列表中的词条进行语义分析,按照语义信息进行对所述词条列表中的词条进行调整,并从词条列表中删除停止词;按照词条之间的上下包含关系将各个词条划分为一组,并按照预设长度对各组进行排序;其中,每个词条与对应的实体类型组成一对。
在本申请实施例中,基于词典的词条对多个待处理分词进行匹配标注,获取实体识别结果,包括:将每个待处理分词与词条列表中的词条进行第一匹配,将完全匹配对应的待处理分词替换成标签;在第一匹配后,将多个待处理分词没有替换成标签的待处理分词与词条列表中的词条进行第二匹配,将完全匹配对应的待处理分词替换成标签,直到多个待处理分词都完成匹配,获取实体识别结果。
具体地,本申请的基于词典自动标注***(DALS,Dictionary-based AutoLabeling System)先对一批待处理文本进行标注,然后交付给人工校对。该自动标注***的效果目前主要受词典本身词条覆盖面的影响,即词条越多,初标的效果越好,尤其适合实体词受上下文依赖较小的情况,因此,充分利用之前已经积累的词典减轻人工工作。针对句子存在较大比例的超长句子(超过长度会被BERT截断导致数据丢失),所以DALS也用于这部分超长句子的标注。其中,DALS包含步骤:词典的格式化、词典停止词去除、词典词条分组、词典词条词语切分、词典词条标注、输入文本-词典匹配。
具体地,词典格式化&词典停止词去除,即原始的疾病靶点词典存储于类似Excel表格中,每一行的第一列由核心词开头,同行后边若干列是该核心词的缩写或全称,别名等,每一行所有词互为同义词;不同行的词之间不是同义词。格式化则需要把疾病或靶点词每个词典全部整理成单列(flatten),取消对同义词进行分门别类的排版,去除词条里与停止词(stop-words)相同的。如果每个词条后边还跟有缩写别名,还需要把这些缩写别名与括号外的主词各自分离出来作为新的词条,格式化之后持久化存储成而二进制文件方便后续快速调用。
具体地,词典词条分组:把有上下包含关系的词条分为一组并且按照长度排序,每个词条与其对应的实体类型组成一对。示例:
输入:{'disease':['2型糖尿病','糖尿病','高血糖'],'target':['hepatitisD virus(HDV)','hepatitis D virus','HDV','EDA-FN']}。
输出:[[['target','hepatitis D virus(HDV)'],['target','hepatitis Dvirus'],['target','HDV']],[['disease','2型糖尿病'],['disease','糖尿病']],[['disease','高血糖']],[['target','EDA-FN']]]。
上述例子中,“disease”类的三个实体,'2型糖尿病'包含'糖尿病',不包含'高血糖',所以'2型糖尿病'、'糖尿病'被分为一组,而'高血糖'是另一组。
具体地,词典词条词语切分&词典词条标注:本步骤采用上述与输入文本相同的词语切分方案;然后对每个词条采用BIO标记法标注;并且统计每个词条的tokens个数便于下一步骤使用。
其中,词条标注示例(基于上步例子结果):[[{'entity_tokens':('2','型','糖','尿','病'),'labels':['b-disease','i-disease','i-disease','i-disease','i-disease'],'entity_tokens#':5},{'entity_tokens':('糖','尿','病'),'labels':['b-disease','i-disease','i-disease'],'entity_tokens#':}],[{'entity_tokens':('高','血','糖'),'labels':['b-disease','i-disease','i-disease'],'entity_tokens#':3}]]。
具体地,输入文本-词典匹配:即用上述经过词语切分的输入文本与上步处理后的词典里的词条进行匹配标注,先按照tokenization(混合语言切分)之后的tokens个数初始化句子的标注匹配结果,示例:
输入:hepatitis D virus(HDV)和hepatitis D virus什么区别。
词语切分结果:['hepatitis','D','virus','(','HDV',')','和','hepatitis','D','virus','什','么','区','别']。
输入文本标注初始化:['O','O','O','O','O','O','O','O','O','O','O','O','O']。
然后,利用之前准备好的词典逐组地对前述输入文本的tokens进行匹配标注,期间会不断地把前述初始化的句子tokens替换成能与词典词条对应tokens完全匹配上的对应的标签。此时体现出把词典里的词条按照包含关系与长度分组的作用:即每一组按照长度降序优先级逐次匹配,一旦一个相对更长的词条被匹配到,则没有这个词条长的剩余的该组的词条全部停止匹配。
执行上述操作过程结果示例:('#labeled#')表示当前位置的token已经匹配到一个词典词条实体(利用之前词典对应词条已经准备好的tokens个数),后续匹配轮次这些临时tokens不再参与匹配。
第一轮匹配:临时Tokens:['#labeled#','#labeled#','#labeled#','#labeled#','#labeled#','#labeled#','和','hepatitis','D','virus','什','么','区','别'];;临时Labels:['b-target','i-target','i-target','i-target','i-target','i-target','O','O','O','O','O','O','O','O']。
第二轮匹配:临时Tokens:['#labeled#','#labeled#','#labeled#','#labeled#','#labeled#','和','#labeled#','#labeled#','#labeled#','#labeled#','什','么','区','别'];临时Labels:['b-target','i-target','i-target','i-target','i-target','i-target','O','b-target','i-target','i-target','O','O','O','O']。
由此,本申请实现对中英文混合等多语言语句进行词语切分,解决了mBERT在纯英文上微调训练(fine-tuning)得到的模型无法直接用于中文文本的实体预测的问题;该***不仅适用于中英文,也适用于和英文排版类似的语言,即单词之间均由空格间隔,如德意法西语等;以及类似中文排版的语言,即由一个个孤立的字组成,字与字之间没有空格(简繁体普通话,粤语等)。
进一步地,对切分后的词语,用单空格拼接成字符串后检查其基于单字符的字符串长度,如果超过预设阈值,则进如DALS模块进行基于词典的自动匹配,解决了过长文本会被截断从而无法准确进行实体识别的问题,以及对词典进行格式化,分词且进行标注,解决了基于疾病,靶点词等数据特点,避免了有包含关系的不同词条的匹配冲突。
本申请实施例的文本的实体识别方法,通过获取待处理文本;其中,待处理文本为至少两种语言混合文本;根据语言类别获取分句工具,并通过分句工具对待处理文本进行分句处理,获取多个待处理句子;对多个待处理句子进行切词处理,获取多个待处理分词,并将多个待处理分词拼接成目标长度的字符串;在目标长度大于预设长度阈值时,基于词典的词条对多个待处理分词进行匹配标注,获取实体识别结果。由此,实现对多语言混合文本的实体识别,以及能够对过长文本的准确实体识别。
为了实现上述实施例,本申请还提出一种文本的实体识别装置。
图2为本申请实施例提供的一种文本的实体识别装置的结构示意图。
如图2所示,该文本的实体识别装置包括:获取模块210、获取分词模块220、分词拼接模块230和处理模块240。
获取模块210,用于获取待处理文本;其中,所述待处理文本为至少两种语言混合文本。
获取分词模块220,用于根据语言类别获取分句工具,并通过分句工具对所述待处理文本进行分句处理,获取多个待处理句子。
分词拼接模块230,用于对所述多个待处理句子进行切词处理,获取多个待处理分词,并将所述多个待处理分词拼接成目标长度的字符串。
处理模块240,用于在所述目标长度大于预设长度阈值时,基于词典的词条对所述多个待处理分词进行匹配标注,获取实体识别结果。
在本申请的一个实施例中,处理模块240,还用于在所述目标长度小于等于所述预设长度阈值时,将所述字符串输入多语言编码微调模型进行实体识别,获取实体识别结果。
本申请实施例的文本的实体识别装置,通过获取待处理文本;其中,待处理文本为至少两种语言混合文本;根据语言类别获取分句工具,并通过分句工具对待处理文本进行分句处理,获取多个待处理句子;对多个待处理句子进行切词处理,获取多个待处理分词,并将多个待处理分词拼接成目标长度的字符串;在目标长度大于预设长度阈值时,基于词典的词条对多个待处理分词进行匹配标注,获取实体识别结果。由此,实现对多语言混合文本的实体识别,以及能够提高对过长文本的实体识别的精准性。
需要说明的是,前述对文本的实体识别方法实施例的解释说明也适用于该实施例的文本的实体识别装置,此处不再赘述。
为了实现上述实施例,本申请还提出一种计算机设备,包括:处理器,以及用于存储所述处理器可执行指令的存储器。
其中,所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于实现如本申请前述实施例提出的文本的实体识别方法。
为了实现上述实施例,本申请还提出一种非临时性计算机可读存储介质,当所述存储介质中的指令由处理器被执行时,使得处理器能够执行本申请前述实施例提出的文本的实体识别方法。
为了实现上述实施例,本申请还提出一种计算机程序产品,当所述计算机程序产品中的指令由处理器执行时,执行实现本申请前述实施例提出的文本的实体识别方法。
图3示出了适于用来实现本申请实施方式的示例性计算机设备的框图。图3显示的计算机设备12仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图3所示,计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,***存储器28,连接不同***组件(包括***存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,***总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture;以下简称:ISA)总线,微通道体系结构(Micro Channel Architecture;以下简称:MAC)总线,增强型ISA总线、视频电子标准协会(Video Electronics StandardsAssociation;以下简称:VESA)局域总线以及***组件互连(Peripheral ComponentInterconnection;以下简称:PCI)总线。
计算机设备12典型地包括多种计算机***可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储器28可以包括易失性存储器形式的计算机***可读介质,例如随机存取存储器(Random Access Memory;以下简称:RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机***存储介质。仅作为举例,存储***34可以用于读写不可移动的、非易失性磁介质(图3未显示,通常称为“硬盘驱动器”)。尽管图3中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如:光盘只读存储器(Compact Disc Read OnlyMemory;以下简称:CD-ROM)、数字多功能只读光盘(Digital Video Disc Read OnlyMemory;以下简称:DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本申请各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括但不限于操作***、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本申请所描述的实施例中的功能和/或方法。
计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机***/服务器12交互的设备通信,和/或与使得该计算机***/服务器12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(Local AreaNetwork;以下简称:LAN),广域网(Wide Area Network;以下简称:WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白,尽管图中未示出,可以结合计算机设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储***等。
处理单元16通过运行存储在***存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现前述实施例中提及的文本的实体识别方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用,或结合这些指令执行***、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种文本的实体识别方法,其特征在于,包括以下步骤:
获取待处理文本;其中,所述待处理文本为至少两种语言混合文本;
根据语言类别获取分句工具,并通过分句工具对所述待处理文本进行分句处理,获取多个待处理句子;
对所述多个待处理句子进行切词处理,获取多个待处理分词,并将所述多个待处理分词拼接成目标长度的字符串;
在所述目标长度大于预设长度阈值时,基于词典的词条对所述多个待处理分词进行匹配标注,获取实体识别结果。
2.如权利要求1所述的文本的实体识别方法,其特征在于,还包括:
在所述目标长度小于等于所述预设长度阈值时,将所述字符串输入多语言编码微调模型进行实体识别,获取实体识别结果。
3.如权利要求1所述的文本的实体识别方法,其特征在于,在所述基于词典的词条对所述多个待处理分词进行匹配标注,获取标注结果之前,还包括:
获取目标类别的词条列表;
对所述词条列表中的词条进行语义分析,按照语义信息进行对所述词条列表中的词条进行调整,并从所述词条列表中删除停止词;
按照词条之间的上下包含关系将各个词条划分为一组,并按照预设长度对各组进行排序;其中,每个词条与对应的实体类型组成一对。
4.如权利要求3所述的文本的实体识别方法,其特征在于,所述基于词典的词条对所述多个待处理分词进行匹配标注,获取实体识别结果,包括:
将每个待处理分词与所述词条列表中的词条进行第一匹配,将完全匹配对应的待处理分词替换成标签;
在所述第一匹配后,将所述多个待处理分词没有替换成标签的待处理分词与所述词条列表中的词条进行第二匹配,将完全匹配对应的待处理分词替换成标签,直到所述多个待处理分词都完成匹配,获取实体识别结果。
5.如权利要求1所述的文本的实体识别方法,其特征在于,还包括:
获取训练数据文本;
对所述训练数据文本进行切分获取多个训练分词,获取所述多个训练分词的字符长度大于最大序列长度值的目标训练数据;
将所述目标训练数据对应的训练分词的字符长度按照降序排序,选取最小字符长度作为所述目标长度。
6.如权利要求1所述的文本的实体识别方法,其特征在于,所述通过分句工具对所述待处理文本进行分句处理,获取多个待处理句子,包括:
基于正则从所述待处理文本中每个汉字进行切分,获取各个汉字的分词结果和非中文文本;
按照空格对所述非中文文本进行切分。
7.一种文本的实体识别装置,其特征在于,所述装置包括:
获取模块,用于获取待处理文本;其中,所述待处理文本为至少两种语言混合文本;
获取分词模块,用于根据语言类别获取分句工具,并通过分句工具对所述待处理文本进行分句处理,获取多个待处理句子;
分词拼接模块,用于对所述多个待处理句子进行切词处理,获取多个待处理分词,并将所述多个待处理分词拼接成目标长度的字符串;
处理模块,用于在所述目标长度大于预设长度阈值时,基于词典的词条对所述多个待处理分词进行匹配标注,获取实体识别结果。
8.如权利要求7所述的文本的实体识别装置,其特征在于,还包括:
所述处理模块,还用于在所述目标长度小于等于所述预设长度阈值时,将所述字符串输入多语言编码微调模型进行实体识别,获取实体识别结果。
9.一种计算机设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现如权利要求1-6中任一所述的文本的实体识别方法。
10.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-6中任一所述的文本的实体识别方法。
CN202011294254.0A 2020-11-18 2020-11-18 文本的实体识别方法、装置、电子设备和存储介质 Active CN112464667B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011294254.0A CN112464667B (zh) 2020-11-18 2020-11-18 文本的实体识别方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011294254.0A CN112464667B (zh) 2020-11-18 2020-11-18 文本的实体识别方法、装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
CN112464667A true CN112464667A (zh) 2021-03-09
CN112464667B CN112464667B (zh) 2021-11-16

Family

ID=74836657

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011294254.0A Active CN112464667B (zh) 2020-11-18 2020-11-18 文本的实体识别方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN112464667B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113139033A (zh) * 2021-05-13 2021-07-20 平安国际智慧城市科技股份有限公司 文本处理方法、装置、设备及存储介质
CN113312915A (zh) * 2021-05-28 2021-08-27 北京航空航天大学 一种智能流行病学调查***
CN113488194A (zh) * 2021-05-25 2021-10-08 四川大学华西医院 一种基于分布式***的药品识别方法与装置
CN113743089A (zh) * 2021-09-03 2021-12-03 科大讯飞股份有限公司 一种多语种文本生成方法、装置、设备及存储介质
CN113946677A (zh) * 2021-09-14 2022-01-18 中北大学 基于双向循环神经网络和注意力机制的事件识别分类方法
CN114138945A (zh) * 2022-01-19 2022-03-04 支付宝(杭州)信息技术有限公司 数据分析中的实体识别方法和装置
CN114201967A (zh) * 2022-02-17 2022-03-18 杭州费尔斯通科技有限公司 一种基于候选实体分类的实体识别方法、***及装置
CN115081440A (zh) * 2022-07-22 2022-09-20 湖南湘生网络信息有限公司 文本中变种词的识别及提取原敏感词的方法、装置及设备
CN114817469B (zh) * 2022-04-27 2023-08-08 马上消费金融股份有限公司 文本增强方法、文本增强模型的训练方法及装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103309926A (zh) * 2013-03-12 2013-09-18 中国科学院声学研究所 基于条件随机场的中英文混合命名实体识别方法及***
CN105468584A (zh) * 2015-12-31 2016-04-06 武汉鸿瑞达信息技术有限公司 文本中不良文字信息的过滤方法及过滤***
CN105894088A (zh) * 2016-03-25 2016-08-24 苏州赫博特医疗信息科技有限公司 基于深度学习及分布式语义特征医学信息抽取***及方法
CN107808124A (zh) * 2017-10-09 2018-03-16 平安科技(深圳)有限公司 电子装置、医疗文本实体命名的识别方法及存储介质
CN109829162A (zh) * 2019-01-30 2019-05-31 新华三大数据技术有限公司 一种文本分词方法及装置
CN109948154A (zh) * 2019-03-12 2019-06-28 南京邮电大学 一种基于邮箱名的人物获取及关系推荐***和方法
CN110046348A (zh) * 2019-03-19 2019-07-23 西安理工大学 一种基于规则和词典的地铁设计规范中主体识别方法
CN111950283A (zh) * 2020-07-31 2020-11-17 合肥工业大学 面向大规模医疗文本挖掘的中文分词和命名实体识别***

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103309926A (zh) * 2013-03-12 2013-09-18 中国科学院声学研究所 基于条件随机场的中英文混合命名实体识别方法及***
CN105468584A (zh) * 2015-12-31 2016-04-06 武汉鸿瑞达信息技术有限公司 文本中不良文字信息的过滤方法及过滤***
CN105894088A (zh) * 2016-03-25 2016-08-24 苏州赫博特医疗信息科技有限公司 基于深度学习及分布式语义特征医学信息抽取***及方法
CN107808124A (zh) * 2017-10-09 2018-03-16 平安科技(深圳)有限公司 电子装置、医疗文本实体命名的识别方法及存储介质
CN109829162A (zh) * 2019-01-30 2019-05-31 新华三大数据技术有限公司 一种文本分词方法及装置
CN109948154A (zh) * 2019-03-12 2019-06-28 南京邮电大学 一种基于邮箱名的人物获取及关系推荐***和方法
CN110046348A (zh) * 2019-03-19 2019-07-23 西安理工大学 一种基于规则和词典的地铁设计规范中主体识别方法
CN111950283A (zh) * 2020-07-31 2020-11-17 合肥工业大学 面向大规模医疗文本挖掘的中文分词和命名实体识别***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
杨东升: "基于关联数据的文本型用户生成内容组织研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113139033A (zh) * 2021-05-13 2021-07-20 平安国际智慧城市科技股份有限公司 文本处理方法、装置、设备及存储介质
CN113488194A (zh) * 2021-05-25 2021-10-08 四川大学华西医院 一种基于分布式***的药品识别方法与装置
CN113488194B (zh) * 2021-05-25 2023-04-07 四川大学华西医院 一种基于分布式***的药品识别方法与装置
CN113312915A (zh) * 2021-05-28 2021-08-27 北京航空航天大学 一种智能流行病学调查***
CN113743089A (zh) * 2021-09-03 2021-12-03 科大讯飞股份有限公司 一种多语种文本生成方法、装置、设备及存储介质
CN113946677A (zh) * 2021-09-14 2022-01-18 中北大学 基于双向循环神经网络和注意力机制的事件识别分类方法
CN114138945A (zh) * 2022-01-19 2022-03-04 支付宝(杭州)信息技术有限公司 数据分析中的实体识别方法和装置
CN114201967A (zh) * 2022-02-17 2022-03-18 杭州费尔斯通科技有限公司 一种基于候选实体分类的实体识别方法、***及装置
CN114817469B (zh) * 2022-04-27 2023-08-08 马上消费金融股份有限公司 文本增强方法、文本增强模型的训练方法及装置
CN115081440A (zh) * 2022-07-22 2022-09-20 湖南湘生网络信息有限公司 文本中变种词的识别及提取原敏感词的方法、装置及设备
CN115081440B (zh) * 2022-07-22 2022-11-01 湖南湘生网络信息有限公司 文本中变种词的识别及提取原敏感词的方法、装置及设备

Also Published As

Publication number Publication date
CN112464667B (zh) 2021-11-16

Similar Documents

Publication Publication Date Title
CN112464667B (zh) 文本的实体识别方法、装置、电子设备和存储介质
US5794177A (en) Method and apparatus for morphological analysis and generation of natural language text
Hornik et al. The textcat package for n-gram based text categorization in R
US5680628A (en) Method and apparatus for automated search and retrieval process
CN106649783B (zh) 一种同义词挖掘方法和装置
CN109192255B (zh) 病历结构化方法
US20060149557A1 (en) Sentence displaying method, information processing system, and program product
CN107832301B (zh) 分词处理方法、装置、移动终端及计算机可读存储介质
CN107766325B (zh) 文本拼接方法及其装置
US20100161655A1 (en) System for string matching based on segmentation method and method thereof
El-Haj et al. Arabic dialect identification in the context of bivalency and code-switching
CN112908487B (zh) 一种临床指南更新内容的自动识别方法及***
EP1471440A2 (en) System and method for word analysis
CN110287286B (zh) 短文本相似度的确定方法、装置及存储介质
CN114970514A (zh) 基于人工智能的中文分词方法、装置、计算机设备及介质
Paripremkul et al. Segmenting words in Thai language using Minimum text units and conditional random Field
Feng et al. Unsupervised segmentation of Chinese corpus using accessor variety
Uchimoto et al. Morphological analysis of the Corpus of Spontaneous Japanese
Vlachos et al. Bootstrapping the recognition and anaphoric linking of named entities in drosophila articles
US20200089697A1 (en) System and method for parsing user query
US10572592B2 (en) Method, device, and computer program for providing a definition or a translation of a word belonging to a sentence as a function of neighbouring words and of databases
JP2002503849A (ja) 漢字文における単語区分方法
Aziz et al. A hybrid model for spelling error detection and correction for Urdu language
KR20120046850A (ko) 한글에 대한 유사도 계산 방법
KR20120029505A (ko) 한글에 대한 유사도 계산 장치

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant