CN111859972A - 实体识别方法、装置、计算机设备及计算机可读存储介质 - Google Patents
实体识别方法、装置、计算机设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN111859972A CN111859972A CN202010740626.1A CN202010740626A CN111859972A CN 111859972 A CN111859972 A CN 111859972A CN 202010740626 A CN202010740626 A CN 202010740626A CN 111859972 A CN111859972 A CN 111859972A
- Authority
- CN
- China
- Prior art keywords
- word
- words
- character
- english text
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000013507 mapping Methods 0.000 claims abstract description 64
- 238000006243 chemical reaction Methods 0.000 claims abstract description 38
- 238000004364 calculation method Methods 0.000 claims description 17
- 230000011218 segmentation Effects 0.000 claims description 12
- 230000001131 transforming effect Effects 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 abstract description 10
- 238000013473 artificial intelligence Methods 0.000 abstract 1
- 206010012601 diabetes mellitus Diseases 0.000 description 68
- 201000011243 gastrointestinal stromal tumor Diseases 0.000 description 38
- 206010028980 Neoplasm Diseases 0.000 description 10
- 201000011510 cancer Diseases 0.000 description 10
- 230000006870 function Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 5
- 235000005911 diet Nutrition 0.000 description 4
- 230000000378 dietary effect Effects 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 230000009467 reduction Effects 0.000 description 3
- 206010051066 Gastrointestinal stromal tumour Diseases 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000011426 transformation method Methods 0.000 description 2
- 230000010365 information processing Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Document Processing Apparatus (AREA)
- Character Discrimination (AREA)
Abstract
本发明涉及人工智能技术领域,提供实体识别方法、装置、计算机设备及计算机可读存储介质,该实体识别方法,包括:获取英文文本;对英文文本进行分词,得到多个第一词语;计算多个第一词语的第一位置;对多个第一词语进行词根转化,得到与多个第一词语一一对应的多个第二词语;将多个第二词语组合成目标英文文本;基于目标英文文本计算多个第二词语的第二位置;生成多个第一词语的第一位置与多个第二词语的第二位置的映射关系;根据所述目标英文文本和所述映射关系识别所述英文文本中的目标实体。本发明提升了根据预处理得到的目标英文文本和映射关系进行实体识别的准确率。
Description
技术领域
本发明涉及实体识别技术领域,具体涉及一种实体识别方法、装置、计算机设备及计算机可读存储介质。
背景技术
通常,在对英文文本进行实体识别时,需要对英文文本进行预处理。
在对英文文本进行预处理,得到目标英文文本的过程中,目标英文文本中的词语的位置相对于英文文本中的词语的位置发生改变。导致对目标英文文本进行实体识别时,根据识别出的实***置不能得到对应的实体,降低了根据预处理后的目标英文文本进行实体识别的准确性。
发明内容
鉴于以上内容,有必要提出一种实体识别方法、装置、计算机设备及计算机可读存储介质,其可以对英文文本进行预处理,提升了根据预处理得到的目标英文文本和所述映射关系进行实体识别的准确率。
本申请的第一方面提供一种实体识别方法,所述实体识别方法包括:
获取英文文本;
对所述英文文本进行分词,得到多个第一词语;
计算所述多个第一词语的第一位置;
对所述多个第一词语进行词根转化,得到与所述多个第一词语一一对应的多个第二词语;
将所述多个第二词语组合成目标英文文本;
基于所述目标英文文本计算所述多个第二词语的第二位置;
生成所述多个第一词语的第一位置与所述多个第二词语的第二位置的映射关系;
根据所述目标英文文本和所述映射关系识别所述英文文本中的目标实体。
另一种可能的实现方式中,所述计算所述多个第一词语的第一位置包括:
依所述英文文本的字符顺序生成所述英文文本中每个字符的序号;
对于每个第一词语,在所述英文文本中确定所述第一词语的对应词语;
将所述对应词语的首字符的序号和所述对应词语的尾字符的序号确定为所述第一词语的第一位置。
另一种可能的实现方式中,所述对所述多个第一词语进行词根转化包括:
对所述多个第一词语进行大小写转化;
对所述大小写转化后的第一词语进行词根转化,得到与所述第一词语对应的第二词语。
另一种可能的实现方式中,所述对所述多个第一词语进行大小写转化包括:
对于每个第一词语,判断所述第一词语的首字符是否为大写字符;
当所述第一词语的首字符是大写字符时,判断所述第一词语中是否存在小写字符;
当所述第一词语中存在小写字符时,将所述第一词语中的大写字符转化为小写字符,得到大小写转化后的第一词语。
另一种可能的实现方式中,所述基于所述目标英文文本计算所述多个第二词语的第二位置包括:
根据所述英文文本中的第一个第一词语的第一位置计算词间空白字符数量;
获取每个第二词语的字符长度;
根据所述词间空白字符数量和所述目标英文文本中的第一个第二词语的字符长度,计算所述第一个第二词语的第二位置;
从所述目标英文文本中的第二个第二词语起,依次确定当前第二词语,根据所述词间空白字符数量和所述当前第二词语的前一个第二词语的第二位置计算所述当前第二词语的第二位置。
另一种可能的实现方式中,所述生成所述多个第一词语的第一位置与所述多个第二词语的第二位置的映射关系包括:
对于每个第二词语,从所述多个第一词语中获取与所述第二词语对应的目标第一词语;
从所述第二词语的第二位置中查找所述第二词语的首字符的序号和所述第二词语的尾字符的序号,从所述目标第一词语的第一位置中查找所述目标第一词语的首字符的序号和所述目标第一词语的尾字符的序号;
关联存储所述第二词语的首字符的序号和所述目标第一词语的首字符的序号,关联存储所述第二词语的尾字符的序号和所述目标第一词语的尾字符的序号。
另一种可能的实现方式中,所述根据所述目标英文文本和所述映射关系识别所述英文文本中的目标实体包括:
对所述目标英文文本进行实体识别,以从所述多个第二词语中确定第三词语;
基于所述映射关系根据所述第三词语的第二位置查找第一位置,将查找到的第一位置确定为实***置;
根据所述实***置从所述英文文本中识别出目标实体。
本申请的第二方面提供一种实体识别装置,所述实体识别装置包括:
获取模块,用于获取英文文本;
分词模块,用于对所述英文文本进行分词,得到多个第一词语;
第一计算模块,用于计算所述多个第一词语的第一位置;
转化模块,用于对所述多个第一词语进行词根转化,得到与所述多个第一词语一一对应的多个第二词语;
组合模块,用于将所述多个第二词语组合成目标英文文本;
第二计算模块,用于基于所述目标英文文本计算所述多个第二词语的第二位置;
生成模块,用于生成所述多个第一词语的第一位置与所述多个第二词语的第二位置的映射关系;
识别模块,用于根据所述目标英文文本和所述映射关系识别所述英文文本中的目标实体。
本申请的第三方面提供一种计算机设备,所述计算机设备包括处理器,所述处理器用于执行存储器中存储的计算机可读指令时实现所述实体识别方法。
本申请的第四方面提供一种计算机可读存储介质,其上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现所述实体识别方法。
本发明对所述英文文本进行预处理得到所述目标英文文本和所述映射关系,使所述目标英文文本和所述映射关系用于实体识别时,能够根据所述目标英文文本和所述映射关系准确定位到所述英文文本中的实体,避免实体识别的准确率降低或失败,提升了根据预处理得到的所述目标英文文本和所述映射关系进行实体识别的准确率。
附图说明
图1是本发明实施例提供的实体识别方法的流程图。
图2是本发明实施例提供的实体识别装置的结构图。
图3是本发明实施例提供的计算机设备的示意图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施例对本发明进行详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。
优选地,本发明的实体识别方法应用在一个或者多个计算机设备中。所述计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(Application Specific IntegratedCircuit,ASIC)、可编程门阵列(Field-Programmable Gate Array,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。
所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
实施例一
图1是本发明实施例一提供的实体识别方法的流程图。所述实体识别方法应用于计算机设备,用于对英文文本进行预处理,根据预处理得到的目标英文文本和映射关系识别英文文本中的目标实体,提升实体识别的准确率。
如图1所示,所述实体识别方法包括:
101,获取英文文本。
具体地,所述获取英文文本包括:
接收用户输入的英文文本;或
接收网络传输的英文文本;或
从本地数据库中读取英文文本。
例如,接收用户输入的英文文本为“He has three apples”。从本地数据库中读取的英文文本为“Diabetic patient has a high risk of having GIST cancer”。
102,对所述英文文本进行分词,得到多个第一词语。
具体地,可以通过spacy等分词工具对所述英文文本进行分词。通过spacy对所述英文文本进行分词的同时,保留所述多个第一词语在所述英文文本中的位置。
对英文文本“Diabetic patient has a high risk of having GIST cancer”进行分词,得到的多个第一词语为“Diabetic”、“patient”、“has”、“a”、“high”、“risk”、“of”、“having”、“GIST”、“cancer”。
103,计算所述多个第一词语的第一位置。
在一具体实施例中,所述计算所述多个第一词语的第一位置包括:
依所述英文文本的字符顺序生成所述英文文本中每个字符的序号;
对于每个第一词语,在所述英文文本中确定所述第一词语的对应词语;
将所述对应词语的首字符的序号和所述对应词语的尾字符的序号确定为所述第一词语的第一位置。
在一具体实施例中,所述在所述英文文本中确定所述第一词语的对应词语包括:
从所述英文文本中查找与所述第一词语一致的中间对应词语;
将所述中间对应词语和所述英文文本中的中间对应词语后的空格连接,将连接得到的词语确定为所述对应词语。
例如,英文文本为“Diabetic patient has a high risk of having GISTcancer”。其中,从英文文本的第一个字符开始,第一个字符“D”的序号为0,第二个字符“i”的序号为1,第三个字符“a”的序号为2,依次类推。特别地,空格也为字符,如第九个字符“”的序号为8。
第一个第一词语为“Diabetic”,第一个对应词语为“Diabetic”,对应词语比第一词语多一个空格。第二个第一词语为“patient”,第二个对应词语为“patient”,以此类推。
第一个对应词语“Diabetic”的首字符序号为0,尾字符序号为8,得到第一个第一词语“Diabetic”的第一位置为(Diabetic,0,8)。第二个对应词语“patient”的首字符序号为9,尾字符序号为16,得到第二个第一词语“patient”的第一位置为(patient,9,16)。依次类推,得到剩余的第一词语的第一位置分别为(has,17,20)、(a,21,22)、(high,23,27)、(risk,28,32)、(of,33,35)、(having,36,42)、(GIST,43,47)、(cancer,48,54)。
在另一实施例中,所述在所述英文文本中确定所述第一词语的对应词语包括:
将所述英文文本中的与所述第一词语一致的词语确定为所述对应词语。
104,对所述多个第一词语进行词根转化,得到与所述多个第一词语一一对应的多个第二词语。
每个词语存在不同的形态,如“apple”、“apples”,再如,“Diabetes”、“Diabetic”。需要通过词根转化将词语转化为原始形态。
在一具体实施例中,所述对所述多个第一词语进行词根转化包括:
对所述多个第一词语进行大小写转化;
对所述大小写转化后的第一词语进行词根转化,得到与所述第一词语对应的第二词语。
具体地,可以采用lemma转化方法对所述大小写转化后的第一词语进行词根转化。
例如,对第一词语“Diabetic”进行大小写转化,得到“diabetic”;对“diabetic”进行词根转化,得到与第一词语对应的第二词语“diabetes”。
在一具体实施例中,所述对所述多个第一词语进行大小写转化包括:
对于每个第一词语,判断所述第一词语的首字符是否为大写字符;
当所述第一词语的首字符是大写字符时,判断所述第一词语中是否存在小写字符;
当所述第一词语中存在小写字符时,将所述第一词语中的大写字符转化为小写字符,得到大小写转化后的第一词语。
在另一实施例中,所述对所述多个第一词语进行大小写转化包括:
对于每个第一词语,判断所述第一词语的首字符是否为大写字符;
当所述第一词语的首字符是大写字符时,判断所述第一词语的除所述首字符外的字符是否为大写字符;
当所述第一词语的除所述首字符外的字符不是大写字符,将所述第一词语中的大写字符转化为小写字符,得到大小写转化后的第一词语。
例如,当第一词语为“Diabetic”时,将第一词语转化为“diabetic”;当第一词语为“GIST”时,第一词语“GIST”中不存在小写字符,不对第一词语“GIST”进行大小写转化。
再如,多个第一词语分别为“Diabetic”、“patient”、“has”、“a”、“high”、“risk”、“of”、“having”、“GIST”、“cancer”;对多个第一词语进行词根转化,得到与多个第一词语一一对应的多个第二词语分别为“diabetes”、“patient”、“have”、“a”、“high”、“risk”、“of”、“have”、“GIST”、“cancer”。
对所述多个第一词语进行大小写转化时,将只有首字符大写的词语转化为小写,避免将英文缩写的词语(即全部大写的词语)转化为小写,防止出现歧义,提高了将转化后的词语用于实体识别的准确率。例如,“GIST”是胃肠道间质瘤的缩写,当将“GIST”转化为小写形式时,得到“gist”;“gist”表示“要点、重点”的意思,与原意不同,不利于实体识别。
105,将所述多个第二词语组合成目标英文文本。
所述多个第一词语与所述多个第二词语一一对应,按照所述多个第一词语的词序对所述多个第二词语进行组合,得到目标英文文本。
例如,所述多个第二词语分别为“diabetes”、“patient”、“have”、“a”、“high”、“risk”、“of”、“have”、“GIST”、“cancer”;组合得到的目标英文文本为“diabetes patienthave a high risk of have GIST cancer”。
106,基于所述目标英文文本计算所述多个第二词语的第二位置。
在一具体实施例中,所述基于所述目标英文文本计算所述多个第二词语的第二位置包括:
根据所述英文文本中的第一个第一词语的第一位置计算词间空白字符数量;
获取每个第二词语的字符长度;
根据所述词间空白字符数量和所述目标英文文本中的第一个第二词语的字符长度,计算所述第一个第二词语的第二位置;
从所述目标英文文本中的第二个第二词语起,依次确定当前第二词语,根据所述词间空白字符数量和所述当前第二词语的前一个第二词语的第二位置计算所述当前第二词语的第二位置。
例如,根据英文文本中的第一个第一词语的第一位置(Diabetic,0,8),计算词间空白字符数量为1;计算公式为a=b+1-c,a表示所述词间空白字符数量,b表示第一个第一词语的尾字符序号,c表示第一个第一词语的字符长度。
获取第一个第二词语“diabetes”的字符长度为8,获取第二个第二词语“patient”的字符长度为7,以此类推。
根据词间空白字符数量1和第一个第二词语的字符长度8,计算第一个第二词语的第二位置为(diabetes,0,8)。其中,0为预设值,表示第一个第二词语的首字符的序号;8表示第一个第二词语的尾字符的序号d,计算公式为d=a+e-1,e表示第一个第二词语的字符长度。
将第二个第二词语“patient”确定为当前第二词语,根据词间空白字符数量1和第一个第二词语的第二位置(diabetes,0,8)计算当前第二词语“patient”的第二位置为(patient,9,16)。其中9表示当前第二词语的首字符的序号(用f表示),计算公式为f=g+1,g表示当前第二词语的前一个第二词语的尾字符的序号,当前第二词语“patient”的前一个第二词语为“diabetes”,“diabetes”的尾字符的序号为8。其中16表示当前第二词语的尾字符的序号(用h表示),计算公式为h=f+i+a,i表示当前第二词语的字符长度,当前第二词语“patient”的字符长度为7。
将第三个第二词语“have”确定为当前第二词语,根据词间空白字符数量1和第二个第二词语的第二位置(patient,9,16)计算当前第二词语“have”的第二位置为(have,17,21)。依次类推,得到剩余的第二词语的第二位置分别为(a,22,23)、(high,24,28)、(risk,29,33)、(of,34,36)、(have,37,41)、(GIST,42,46)、(cancer,47,53)。
在一具体实施例中,所述基于所述目标英文文本计算所述多个第二词语的第二位置包括:
依所述目标英文文本的字符顺序生成所述目标英文文本中每个字符的序号;
对于每个第二词语,在所述目标英文文本中确定所述第二词语的目标词语;
计算所述目标词语的首字符的序号和所述目标词语的尾字符的序号,得到所述第二词语的第二位置。
107,生成所述多个第一词语的第一位置与所述多个第二词语的第二位置的映射关系。
在一具体实施例中,所述生成所述多个第一词语的第一位置与所述多个第二词语的第二位置的映射关系包括:
对于每个第二词语,从所述多个第一词语中获取与所述第二词语对应的目标第一词语;
从所述第二词语的第二位置中查找所述第二词语的首字符的序号和所述第二词语的尾字符的序号,从所述目标第一词语的第一位置中查找所述目标第一词语的首字符的序号和所述目标第一词语的尾字符的序号;
关联存储所述第二词语的首字符的序号和所述目标第一词语的首字符的序号,关联存储所述第二词语的尾字符的序号和所述目标第一词语的尾字符的序号。
例如,对于第二词语“diabetes”,多个第一词语与多个第二词语一一对应,从多个第一词语中获取与第二词语“diabetes”对应的目标第一词语“Diabetic”。
从第二词语的第二位置(diabetes,0,8)中查找第二词语的首字符的序号0和第二词语的尾字符的序号8,从目标第一词语的第一位置(Diabetic,0,8)中查找目标第一词语的首字符的序号0和目标第一词语的尾字符的序号8;
关联存储第二词语的首字符的序号和目标第一词语的首字符的序号,关联存储第二词语的尾字符的序号和目标第一词语的尾字符的序号,得到映射关系(diabetes-Diabetic,0-0,8-8),其中,第一个0表示第二词语的首字符的序号,第二个0表示第一词语的首字符的序号,第一个8表示第二词语的尾字符的序号,第二个8表示第一词语的尾字符的序号,本例的尾字符为空格。可选地,得到映射关系可以为(diabetes-Diabetic,0-0,7-7),第一个7表示第二词语的尾字符的序号,第二个7表示第一词语的尾字符的序号,本例的尾字符分别为“s”、“c”。
在另一实施例中,在所述关联存储所述第二词语的尾字符的序号和所述目标第一词语的尾字符的序号之后,所述生成所述多个第一词语的第一位置与所述多个第二词语的第二位置的映射关系还包括:
关联存储所述第二词语的中间字符的序号和所述目标第一词语的中间字符的序号。
例如,第一词语为“has”,与第一词语对应的第二词语为“have”。第一词语的第一位置(has,17,20)与第二词语的第二位置(have,17,21)的映射关系为(have-has,17-17,18-18,19-19,20-20,21-20),本例的尾字符为空格。可选地,第一词语的第一位置(has,17,19)与第二词语的第二位置(have,17,20)的映射关系为(have-has,17-17,18-18,19-19,20-19),本例的尾字符是相应的字母“e”、“s”。
在另一实施例中,在所述关联存储所述第二词语的中间字符的序号和所述目标第一词语的中间字符的序号之前,所述实体识别方法还包括:
将所述第一词语的中间字符的序号修改为所述第一词语的首字符的序号。
例如,第一词语为“has”,与第一词语对应的第二词语为“have”。将第一词语的中间字符的序号修改为第一词语的首字符的序号17,第一词语的第一位置(has,17,19)与第二词语的第二位置(have,17,20)的映射关系为(have-has,17-17,18-17,19-17,20-19),本例的尾字符是相应的字母“e”、“s”。
108,根据所述目标英文文本和所述映射关系识别所述英文文本中的目标实体。
在一具体实施例中,所述根据所述目标英文文本和所述映射关系识别所述英文文本中的目标实体包括:
对所述目标英文文本进行实体识别,以从所述多个第二词语中确定第三词语;
基于所述映射关系根据所述第三词语的第二位置查找第一位置,将查找到的第一位置确定为实***置;
根据所述实***置从所述英文文本中识别出目标实体。
例如,目标英文文本为“diabetes patient have a high risk of have GISTcancer”,对目标英文文本进行实体识别,得到第三词语为“GIST”。第三词语的第二位置为(GIST,42,46),基于映射关系根据第三词语的第二位置查找到第一位置为(43,47),即实***置。根据实***置从英文文本中识别出目标实体GIST。
实施例一的实体识别方法对所述英文文本进行预处理得到所述目标英文文本和所述映射关系,使所述目标英文文本和所述映射关系用于实体识别时,能够根据所述目标英文文本和所述映射关系准确定位到所述英文文本中的实体,避免实体识别的准确率降低或失败,提升了根据预处理得到的所述目标英文文本和所述映射关系进行实体识别的准确率。
实施例二
图2是本发明实施例二提供的实体识别装置的结构图。所述实体识别装置20应用于计算机设备。所述实体识别装置20用于对英文文本进行预处理,根据预处理得到的目标英文文本和映射关系识别英文文本中的目标实体,提升实体识别的准确率。
如图2所示,所述实体识别装置20可以包括获取模块201、分词模块202、第一计算模块203、转化模块204、组合模块205、第二计算模块206、生成模块207、识别模块208。
获取模块201,用于获取英文文本。
具体地,所述获取英文文本包括:
接收用户输入的英文文本;或
接收网络传输的英文文本;或
从本地数据库中读取英文文本。
例如,接收用户输入的英文文本为“He has three apples”。从本地数据库中读取的英文文本为“Diabetic patient has a high risk of having GIST cancer”。
分词模块202,用于对所述英文文本进行分词,得到多个第一词语。
具体地,可以通过spacy等分词工具对所述英文文本进行分词。通过spacy对所述英文文本进行分词的同时,保留所述多个第一词语在所述英文文本中的位置。
对英文文本“Diabetic patient has a high risk of having GIST cancer”进行分词,得到的多个第一词语为“Diabetic”、“patient”、“has”、“a”、“high”、“risk”、“of”、“having”、“GIST”、“cancer”。
第一计算模块203,用于计算所述多个第一词语的第一位置。
在一具体实施例中,所述计算所述多个第一词语的第一位置包括:
依所述英文文本的字符顺序生成所述英文文本中每个字符的序号;
对于每个第一词语,在所述英文文本中确定所述第一词语的对应词语;
将所述对应词语的首字符的序号和所述对应词语的尾字符的序号确定为所述第一词语的第一位置。
在一具体实施例中,所述在所述英文文本中确定所述第一词语的对应词语包括:
从所述英文文本中查找与所述第一词语一致的中间对应词语;
将所述中间对应词语和所述英文文本中的中间对应词语后的空格连接,将连接得到的词语确定为所述对应词语。
例如,英文文本为“Diabetic patient has a high risk of having GISTcancer”。其中,从英文文本的第一个字符开始,第一个字符“D”的序号为0,第二个字符“i”的序号为1,第三个字符“a”的序号为2,依次类推。特别地,空格也为字符,如第九个字符“”的序号为8。
第一个第一词语为“Diabetic”,第一个对应词语为“Diabetic”,对应词语比第一词语多一个空格。第二个第一词语为“patient”,第二个对应词语为“patient”,以此类推。
第一个对应词语“Diabetic”的首字符序号为0,尾字符序号为8,得到第一个第一词语“Diabetic”的第一位置为(Diabetic,0,8)。第二个对应词语“patient”的首字符序号为9,尾字符序号为16,得到第二个第一词语“patient”的第一位置为(patient,9,16)。依次类推,得到剩余的第一词语的第一位置分别为(has,17,20)、(a,21,22)、(high,23,27)、(risk,28,32)、(of,33,35)、(having,36,42)、(GIST,43,47)、(cancer,48,54)。
在另一实施例中,所述在所述英文文本中确定所述第一词语的对应词语包括:
将所述英文文本中的与所述第一词语一致的词语确定为所述对应词语。
转化模块204,用于对所述多个第一词语进行词根转化,得到与所述多个第一词语一一对应的多个第二词语。
每个词语存在不同的形态,如“apple”、“apples”,再如,“Diabetes”、“Diabetic”。需要通过词根转化将词语转化为原始形态。
在一具体实施例中,所述对所述多个第一词语进行词根转化包括:
对所述多个第一词语进行大小写转化;
对所述大小写转化后的第一词语进行词根转化,得到与所述第一词语对应的第二词语。
具体地,可以采用lemma转化方法对所述大小写转化后的第一词语进行词根转化。
例如,对第一词语“Diabetic”进行大小写转化,得到“diabetic”;对“diabetic”进行词根转化,得到与第一词语对应的第二词语“diabetes”。
在一具体实施例中,所述对所述多个第一词语进行大小写转化包括:
对于每个第一词语,判断所述第一词语的首字符是否为大写字符;
当所述第一词语的首字符是大写字符时,判断所述第一词语中是否存在小写字符;
当所述第一词语中存在小写字符时,将所述第一词语中的大写字符转化为小写字符,得到大小写转化后的第一词语。
在另一实施例中,所述对所述多个第一词语进行大小写转化包括:
对于每个第一词语,判断所述第一词语的首字符是否为大写字符;
当所述第一词语的首字符是大写字符时,判断所述第一词语的除所述首字符外的字符是否为大写字符;
当所述第一词语的除所述首字符外的字符不是大写字符,将所述第一词语中的大写字符转化为小写字符,得到大小写转化后的第一词语。
例如,当第一词语为“Diabetic”时,将第一词语转化为“diabetic”;当第一词语为“GIST”时,第一词语“GIST”中不存在小写字符,不对第一词语“GIST”进行大小写转化。
再如,多个第一词语分别为“Diabetic”、“patient”、“has”、“a”、“high”、“risk”、“of”、“having”、“GIST”、“cancer”;对多个第一词语进行词根转化,得到与多个第一词语一一对应的多个第二词语分别为“diabetes”、“patient”、“have”、“a”、“high”、“risk”、“of”、“have”、“GIST”、“cancer”。
对所述多个第一词语进行大小写转化时,将只有首字符大写的词语转化为小写,避免将英文缩写的词语(即全部大写的词语)转化为小写,防止出现歧义,提高了将转化后的词语用于实体识别的准确率。例如,“GIST”是胃肠道间质瘤的缩写,当将“GIST”转化为小写形式时,得到“gist”;“gist”表示“要点、重点”的意思,与原意不同,不利于实体识别。
组合模块205,用于将所述多个第二词语组合成目标英文文本。
所述多个第一词语与所述多个第二词语一一对应,按照所述多个第一词语的词序对所述多个第二词语进行组合,得到目标英文文本。
例如,所述多个第二词语分别为“diabetes”、“patient”、“have”、“a”、“high”、“risk”、“of”、“have”、“GIST”、“cancer”;组合得到的目标英文文本为“diabetes patienthave a high risk of have GIST cancer”。
第二计算模块206,用于基于所述目标英文文本计算所述多个第二词语的第二位置。
在一具体实施例中,所述基于所述目标英文文本计算所述多个第二词语的第二位置包括:
根据所述英文文本中的第一个第一词语的第一位置计算词间空白字符数量;
获取每个第二词语的字符长度;
根据所述词间空白字符数量和所述目标英文文本中的第一个第二词语的字符长度,计算所述第一个第二词语的第二位置;
从所述目标英文文本中的第二个第二词语起,依次确定当前第二词语,根据所述词间空白字符数量和所述当前第二词语的前一个第二词语的第二位置计算所述当前第二词语的第二位置。
例如,根据英文文本中的第一个第一词语的第一位置(Diabetic,0,8),计算词间空白字符数量为1;计算公式为a=b+1-c,a表示所述词间空白字符数量,b表示第一个第一词语的尾字符序号,c表示第一个第一词语的字符长度。
获取第一个第二词语“diabetes”的字符长度为8,获取第二个第二词语“patient”的字符长度为7,以此类推。
根据词间空白字符数量1和第一个第二词语的字符长度8,计算第一个第二词语的第二位置为(diabetes,0,8)。其中,0为预设值,表示第一个第二词语的首字符的序号;8表示第一个第二词语的尾字符的序号d,计算公式为d=a+e-1,e表示第一个第二词语的字符长度。
将第二个第二词语“patient”确定为当前第二词语,根据词间空白字符数量1和第一个第二词语的第二位置(diabetes,0,8)计算当前第二词语“patient”的第二位置为(patient,9,16)。其中9表示当前第二词语的首字符的序号(用f表示),计算公式为f=g+1,g表示当前第二词语的前一个第二词语的尾字符的序号,当前第二词语“patient”的前一个第二词语为“diabetes”,“diabetes”的尾字符的序号为8。其中16表示当前第二词语的尾字符的序号(用h表示),计算公式为h=f+i+a,i表示当前第二词语的字符长度,当前第二词语“patient”的字符长度为7。
将第三个第二词语“have”确定为当前第二词语,根据词间空白字符数量1和第二个第二词语的第二位置(patient,9,16)计算当前第二词语“have”的第二位置为(have,17,21)。依次类推,得到剩余的第二词语的第二位置分别为(a,22,23)、(high,24,28)、(risk,29,33)、(of,34,36)、(have,37,41)、(GIST,42,46)、(cancer,47,53)。
在一具体实施例中,所述基于所述目标英文文本计算所述多个第二词语的第二位置包括:
依所述目标英文文本的字符顺序生成所述目标英文文本中每个字符的序号;
对于每个第二词语,在所述目标英文文本中确定所述第二词语的目标词语;
计算所述目标词语的首字符的序号和所述目标词语的尾字符的序号,得到所述第二词语的第二位置。
生成模块207,用于生成所述多个第一词语的第一位置与所述多个第二词语的第二位置的映射关系。
在一具体实施例中,所述生成所述多个第一词语的第一位置与所述多个第二词语的第二位置的映射关系包括:
对于每个第二词语,从所述多个第一词语中获取与所述第二词语对应的目标第一词语;
从所述第二词语的第二位置中查找所述第二词语的首字符的序号和所述第二词语的尾字符的序号,从所述目标第一词语的第一位置中查找所述目标第一词语的首字符的序号和所述目标第一词语的尾字符的序号;
关联存储所述第二词语的首字符的序号和所述目标第一词语的首字符的序号,关联存储所述第二词语的尾字符的序号和所述目标第一词语的尾字符的序号。
例如,对于第二词语“diabetes”,多个第一词语与多个第二词语一一对应,从多个第一词语中获取与第二词语“diabetes”对应的目标第一词语“Diabetic”。
从第二词语的第二位置(diabetes,0,8)中查找第二词语的首字符的序号0和第二词语的尾字符的序号8,从目标第一词语的第一位置(Diabetic,0,8)中查找目标第一词语的首字符的序号0和目标第一词语的尾字符的序号8;
关联存储第二词语的首字符的序号和目标第一词语的首字符的序号,关联存储第二词语的尾字符的序号和目标第一词语的尾字符的序号,得到映射关系(diabetes-Diabetic,0-0,8-8),其中,第一个0表示第二词语的首字符的序号,第二个0表示第一词语的首字符的序号,第一个8表示第二词语的尾字符的序号,第二个8表示第一词语的尾字符的序号,本例的尾字符为空格。可选地,得到映射关系可以为(diabetes-Diabetic,0-0,7-7),第一个7表示第二词语的尾字符的序号,第二个7表示第一词语的尾字符的序号,本例的尾字符分别为“s”、“c”。
在另一实施例中,在所述关联存储所述第二词语的尾字符的序号和所述目标第一词语的尾字符的序号之后,所述生成所述多个第一词语的第一位置与所述多个第二词语的第二位置的映射关系还包括:
关联存储所述第二词语的中间字符的序号和所述目标第一词语的中间字符的序号。
例如,第一词语为“has”,与第一词语对应的第二词语为“have”。第一词语的第一位置(has,17,20)与第二词语的第二位置(have,17,21)的映射关系为(have-has,17-17,18-18,19-19,20-20,21-20),本例的尾字符为空格。可选地,第一词语的第一位置(has,17,19)与第二词语的第二位置(have,17,20)的映射关系为(have-has,17-17,18-18,19-19,20-19),本例的尾字符是相应的字母“e”、“s”。
在另一实施例中,所述实体识别装置还包括修改模块,用于在所述关联存储所述第二词语的中间字符的序号和所述目标第一词语的中间字符的序号之前,将所述第一词语的中间字符的序号修改为所述第一词语的首字符的序号。
例如,第一词语为“has”,与第一词语对应的第二词语为“have”。将第一词语的中间字符的序号修改为第一词语的首字符的序号17,第一词语的第一位置(has,17,19)与第二词语的第二位置(have,17,20)的映射关系为(have-has,17-17,18-17,19-17,20-19),本例的尾字符是相应的字母“e”、“s”。
识别模块208,用于根据所述目标英文文本和所述映射关系识别所述英文文本中的目标实体。
在一具体实施例中,所述根据所述目标英文文本和所述映射关系识别所述英文文本中的目标实体包括:
对所述目标英文文本进行实体识别,以从所述多个第二词语中确定第三词语;
基于所述映射关系根据所述第三词语的第二位置查找第一位置,将查找到的第一位置确定为实***置;
根据所述实***置从所述英文文本中识别出目标实体。
例如,目标英文文本为“diabetes patient have a high risk of have GISTcancer”,对目标英文文本进行实体识别,得到第三词语为“GIST”。第三词语的第二位置为(GIST,42,46),基于映射关系根据第三词语的第二位置查找到第一位置为(43,47),即实***置。根据实***置从英文文本中识别出目标实体GIST。
实施例二的实体识别装置20对所述英文文本进行预处理得到所述目标英文文本和所述映射关系,使所述目标英文文本和所述映射关系用于实体识别时,能够根据所述目标英文文本和所述映射关系准确定位到所述英文文本中的实体,避免实体识别的准确率降低或失败,提升了根据预处理得到的所述目标英文文本和所述映射关系进行实体识别的准确率。
实施例三
本实施例提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机可读指令,该计算机可读指令被处理器执行时实现上述实体识别方法实施例中的步骤,例如图1所示的步骤101-108:
101,获取英文文本;
102,对所述英文文本进行分词,得到多个第一词语;
103,计算所述多个第一词语的第一位置;
104,对所述多个第一词语进行词根转化,得到与所述多个第一词语一一对应的多个第二词语;
105,将所述多个第二词语组合成目标英文文本;
106,基于所述目标英文文本计算所述多个第二词语的第二位置;
107,生成所述多个第一词语的第一位置与所述多个第二词语的第二位置的映射关系;
108,根据所述目标英文文本和所述映射关系识别所述英文文本中的目标实体。
或者,该计算机可读指令被处理器执行时实现上述装置实施例中各模块的功能,例如图2中的模块201-208:
获取模块201,用于获取英文文本;
分词模块202,用于对所述英文文本进行分词,得到多个第一词语;
第一计算模块203,用于计算所述多个第一词语的第一位置;
转化模块204,用于对所述多个第一词语进行词根转化,得到与所述多个第一词语一一对应的多个第二词语;
组合模块205,用于将所述多个第二词语组合成目标英文文本;
第二计算模块206,用于基于所述目标英文文本计算所述多个第二词语的第二位置;
生成模块207,用于生成所述多个第一词语的第一位置与所述多个第二词语的第二位置的映射关系;
识别模块208,用于根据所述目标英文文本和所述映射关系识别所述英文文本中的目标实体。
实施例四
图3为本发明实施例三提供的计算机设备的示意图。所述计算机设备30包括存储器301、处理器302以及存储在所述存储器301中并可在所述处理器302上运行的计算机可读指令303,例如实体识别程序。所述处理器302执行所述计算机可读指令303时实现上述实体识别方法实施例中的步骤,例如图1所示的101-108:
101,获取英文文本;
102,对所述英文文本进行分词,得到多个第一词语;
103,计算所述多个第一词语的第一位置;
104,对所述多个第一词语进行词根转化,得到与所述多个第一词语一一对应的多个第二词语;
105,将所述多个第二词语组合成目标英文文本;
106,基于所述目标英文文本计算所述多个第二词语的第二位置;
107,生成所述多个第一词语的第一位置与所述多个第二词语的第二位置的映射关系;
108,根据所述目标英文文本和所述映射关系识别所述英文文本中的目标实体。
或者,该计算机可读指令被处理器执行时实现上述装置实施例中各模块的功能,例如图2中的模块201-208:
获取模块201,用于获取英文文本;
分词模块202,用于对所述英文文本进行分词,得到多个第一词语;
第一计算模块203,用于计算所述多个第一词语的第一位置;
转化模块204,用于对所述多个第一词语进行词根转化,得到与所述多个第一词语一一对应的多个第二词语;
组合模块205,用于将所述多个第二词语组合成目标英文文本;
第二计算模块206,用于基于所述目标英文文本计算所述多个第二词语的第二位置;
生成模块207,用于生成所述多个第一词语的第一位置与所述多个第二词语的第二位置的映射关系;
识别模块208,用于根据所述目标英文文本和所述映射关系识别所述英文文本中的目标实体。
示例性的,所述计算机可读指令303可以被分割成一个或多个模块,所述一个或者多个模块被存储在所述存储器301中,并由所述处理器302执行,以完成本方法。所述一个或多个模块可以是能够完成特定功能的一系列计算机可读指令段,该指令段用于描述所述计算机可读指令303在所述计算机设备30中的执行过程。例如,所述计算机可读指令303可以被分割成图2中的获取模块201、分词模块202、第一计算模块203、转化模块204、组合模块205、第二计算模块206、生成模块207、识别模块208,各模块具体功能参见实施例二。
本领域技术人员可以理解,所述示意图3仅仅是计算机设备30的示例,并不构成对计算机设备30的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述计算机设备30还可以包括输入输出设备、网络接入设备、总线等。
所称处理器302可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器302也可以是任何常规的处理器等,所述处理器302是所述计算机设备30的控制中心,利用各种接口和线路连接整个计算机设备30的各个部分。
所述存储器301可用于存储所述计算机可读指令303,所述处理器302通过运行或执行存储在所述存储器301内的计算机可读指令或模块,以及调用存储在存储器301内的数据,实现所述计算机设备30的各种功能。所述存储器301可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据计算机设备30的使用所创建的数据等。此外,存储器301可以包括易失性及/或非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他存储器件。
所述计算机设备30集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机可读指令来指令相关的硬件来完成,所述的计算机可读指令可存储于一计算机可读存储介质中,该计算机可读指令在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机可读指令包括计算机可读指令代码,所述计算机可读指令代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机可读指令代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)。
在本发明所提供的几个实施例中,应该理解到,所揭露的***,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
上述以软件功能模块的形式实现的集成的模块,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述实体识别方法的部分步骤。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他模块或步骤,单数不排除复数。***权利要求中陈述的多个模块或装置也可以由一个模块或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。
Claims (10)
1.一种实体识别方法,其特征在于,所述实体识别方法包括:
获取英文文本;
对所述英文文本进行分词,得到多个第一词语;
计算所述多个第一词语的第一位置;
对所述多个第一词语进行词根转化,得到与所述多个第一词语一一对应的多个第二词语;
将所述多个第二词语组合成目标英文文本;
基于所述目标英文文本计算所述多个第二词语的第二位置;
生成所述多个第一词语的第一位置与所述多个第二词语的第二位置的映射关系;
根据所述目标英文文本和所述映射关系识别所述英文文本中的目标实体。
2.如权利要求1所述的实体识别方法,其特征在于,所述计算所述多个第一词语的第一位置包括:
依所述英文文本的字符顺序生成所述英文文本中每个字符的序号;
对于每个第一词语,在所述英文文本中确定所述第一词语的对应词语;
将所述对应词语的首字符的序号和所述对应词语的尾字符的序号确定为所述第一词语的第一位置。
3.如权利要求1所述的实体识别方法,其特征在于,所述对所述多个第一词语进行词根转化包括:
对所述多个第一词语进行大小写转化;
对所述大小写转化后的第一词语进行词根转化,得到与所述第一词语对应的第二词语。
4.如权利要求3所述的实体识别方法,其特征在于,所述对所述多个第一词语进行大小写转化包括:
对于每个第一词语,判断所述第一词语的首字符是否为大写字符;
当所述第一词语的首字符是大写字符时,判断所述第一词语中是否存在小写字符;
当所述第一词语中存在小写字符时,将所述第一词语中的大写字符转化为小写字符,得到大小写转化后的第一词语。
5.如权利要求1所述的实体识别方法,其特征在于,所述基于所述目标英文文本计算所述多个第二词语的第二位置包括:
根据所述英文文本中的第一个第一词语的第一位置计算词间空白字符数量;
获取每个第二词语的字符长度;
根据所述词间空白字符数量和所述目标英文文本中的第一个第二词语的字符长度,计算所述第一个第二词语的第二位置;
从所述目标英文文本中的第二个第二词语起,依次确定当前第二词语,根据所述词间空白字符数量和所述当前第二词语的前一个第二词语的第二位置计算所述当前第二词语的第二位置。
6.如权利要求1所述的实体识别方法,其特征在于,所述生成所述多个第一词语的第一位置与所述多个第二词语的第二位置的映射关系包括:
对于每个第二词语,从所述多个第一词语中获取与所述第二词语对应的目标第一词语;
从所述第二词语的第二位置中查找所述第二词语的首字符的序号和所述第二词语的尾字符的序号,从所述目标第一词语的第一位置中查找所述目标第一词语的首字符的序号和所述目标第一词语的尾字符的序号;
关联存储所述第二词语的首字符的序号和所述目标第一词语的首字符的序号,关联存储所述第二词语的尾字符的序号和所述目标第一词语的尾字符的序号。
7.如权利要求1所述的实体识别方法,其特征在于,所述根据所述目标英文文本和所述映射关系识别所述英文文本中的目标实体包括:
对所述目标英文文本进行实体识别,以从所述多个第二词语中确定第三词语;
基于所述映射关系根据所述第三词语的第二位置查找第一位置,将查找到的第一位置确定为实***置;
根据所述实***置从所述英文文本中识别出目标实体。
8.一种实体识别装置,其特征在于,所述实体识别装置包括:
获取模块,用于获取英文文本;
分词模块,用于对所述英文文本进行分词,得到多个第一词语;
第一计算模块,用于计算所述多个第一词语的第一位置;
转化模块,用于对所述多个第一词语进行词根转化,得到与所述多个第一词语一一对应的多个第二词语;
组合模块,用于将所述多个第二词语组合成目标英文文本;
第二计算模块,用于基于所述目标英文文本计算所述多个第二词语的第二位置;
生成模块,用于生成所述多个第一词语的第一位置与所述多个第二词语的第二位置的映射关系;
识别模块,用于根据所述目标英文文本和所述映射关系识别所述英文文本中的目标实体。
9.一种计算机设备,其特征在于,所述计算机设备包括处理器,所述处理器用于执行存储器中存储的计算机可读指令以实现如权利要求1至7中任一项所述实体识别方法。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机可读指令,其特征在于,所述计算机可读指令被处理器执行时实现如权利要求1至7中任一项所述实体识别方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010740626.1A CN111859972B (zh) | 2020-07-28 | 2020-07-28 | 实体识别方法、装置、计算机设备及计算机可读存储介质 |
PCT/CN2020/124330 WO2021139329A1 (zh) | 2020-07-28 | 2020-10-28 | 实体识别方法、装置、计算机设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010740626.1A CN111859972B (zh) | 2020-07-28 | 2020-07-28 | 实体识别方法、装置、计算机设备及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111859972A true CN111859972A (zh) | 2020-10-30 |
CN111859972B CN111859972B (zh) | 2024-03-15 |
Family
ID=72948487
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010740626.1A Active CN111859972B (zh) | 2020-07-28 | 2020-07-28 | 实体识别方法、装置、计算机设备及计算机可读存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN111859972B (zh) |
WO (1) | WO2021139329A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113962198B (zh) * | 2021-10-19 | 2024-06-25 | 中国平安财产保险股份有限公司 | 中文文本的转换方法、装置、设备及介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5442547A (en) * | 1992-01-22 | 1995-08-15 | Sharp Kabushiki Kaisha | Apparatus for aiding a user in producing a dictionary storing morphemes with input cursor prepositioned at character location with the highest probability of change |
CN1266235A (zh) * | 1999-03-04 | 2000-09-13 | 英业达股份有限公司 | 自动拾取英文原形单词的方法 |
US20060287847A1 (en) * | 2005-06-21 | 2006-12-21 | Microsoft Corporation | Association-based bilingual word alignment |
CN104408173A (zh) * | 2014-12-11 | 2015-03-11 | 焦点科技股份有限公司 | 一种基于b2b平台的核心关键词自动提取方法 |
US20170110114A1 (en) * | 2015-10-15 | 2017-04-20 | Vkidz, Inc. | Phoneme-to-Grapheme Mapping Systems and Methods |
WO2017097166A1 (zh) * | 2015-12-11 | 2017-06-15 | 北京国双科技有限公司 | 识别领域命名实体的方法及装置 |
CN109753555A (zh) * | 2018-11-30 | 2019-05-14 | 平安科技(深圳)有限公司 | 词语匹配方法、装置、设备及计算机可读存储介质 |
US20200065374A1 (en) * | 2018-08-23 | 2020-02-27 | Shenzhen Keya Medical Technology Corporation | Method and system for joint named entity recognition and relation extraction using convolutional neural network |
CN111382570A (zh) * | 2018-12-28 | 2020-07-07 | 深圳市优必选科技有限公司 | 文本实体识别方法、装置、计算机设备及存储介质 |
CN111444720A (zh) * | 2020-03-30 | 2020-07-24 | 华南理工大学 | 一种英文文本的命名实体识别方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11017162B2 (en) * | 2018-12-03 | 2021-05-25 | International Business Machines Corporation | Annotation editor with graph |
CN110413791A (zh) * | 2019-08-05 | 2019-11-05 | 哈尔滨工业大学 | 基于cnn-svm-knn组合模型的文本分类方法 |
-
2020
- 2020-07-28 CN CN202010740626.1A patent/CN111859972B/zh active Active
- 2020-10-28 WO PCT/CN2020/124330 patent/WO2021139329A1/zh active Application Filing
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5442547A (en) * | 1992-01-22 | 1995-08-15 | Sharp Kabushiki Kaisha | Apparatus for aiding a user in producing a dictionary storing morphemes with input cursor prepositioned at character location with the highest probability of change |
CN1266235A (zh) * | 1999-03-04 | 2000-09-13 | 英业达股份有限公司 | 自动拾取英文原形单词的方法 |
US20060287847A1 (en) * | 2005-06-21 | 2006-12-21 | Microsoft Corporation | Association-based bilingual word alignment |
CN104408173A (zh) * | 2014-12-11 | 2015-03-11 | 焦点科技股份有限公司 | 一种基于b2b平台的核心关键词自动提取方法 |
US20170110114A1 (en) * | 2015-10-15 | 2017-04-20 | Vkidz, Inc. | Phoneme-to-Grapheme Mapping Systems and Methods |
WO2017097166A1 (zh) * | 2015-12-11 | 2017-06-15 | 北京国双科技有限公司 | 识别领域命名实体的方法及装置 |
US20200065374A1 (en) * | 2018-08-23 | 2020-02-27 | Shenzhen Keya Medical Technology Corporation | Method and system for joint named entity recognition and relation extraction using convolutional neural network |
CN109753555A (zh) * | 2018-11-30 | 2019-05-14 | 平安科技(深圳)有限公司 | 词语匹配方法、装置、设备及计算机可读存储介质 |
CN111382570A (zh) * | 2018-12-28 | 2020-07-07 | 深圳市优必选科技有限公司 | 文本实体识别方法、装置、计算机设备及存储介质 |
CN111444720A (zh) * | 2020-03-30 | 2020-07-24 | 华南理工大学 | 一种英文文本的命名实体识别方法 |
Non-Patent Citations (1)
Title |
---|
张朝胜 等: "基于条件随机场的英文产品命名实体识别", 计算机工程与科学, vol. 32, no. 06, 15 June 2010 (2010-06-15), pages 115 - 117 * |
Also Published As
Publication number | Publication date |
---|---|
WO2021139329A1 (zh) | 2021-07-15 |
CN111859972B (zh) | 2024-03-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107220235B (zh) | 基于人工智能的语音识别纠错方法、装置及存储介质 | |
CN108959257B (zh) | 一种自然语言解析方法、装置、服务器及存储介质 | |
EP3786814A1 (en) | Intelligent extraction of information from a document | |
CN113591457B (zh) | 文本纠错方法、装置、设备及存储介质 | |
CN110795938B (zh) | 文本序列分词方法、装置及存储介质 | |
CN111461168A (zh) | 训练样本扩充方法、装置、电子设备及存储介质 | |
US10963717B1 (en) | Auto-correction of pattern defined strings | |
CN112380825B (zh) | Pdf文档跨页表格合并方法、装置、电子设备及存储介质 | |
CN113656547B (zh) | 文本匹配方法、装置、设备及存储介质 | |
CN111177375A (zh) | 一种电子文档分类方法及装置 | |
CN113094478A (zh) | 表情回复方法、装置、设备及存储介质 | |
Romero et al. | Modern vs diplomatic transcripts for historical handwritten text recognition | |
JPH0981730A (ja) | パターン認識方法及び装置及びコンピュータ制御装置 | |
CN111859972A (zh) | 实体识别方法、装置、计算机设备及计算机可读存储介质 | |
CN113658720A (zh) | 匹配诊断名称和icd编码的方法、装置、电子设备和存储介质 | |
CN113705468A (zh) | 基于人工智能的数字图像识别方法及相关设备 | |
JP2010198308A (ja) | 文字認識プログラム、文字認識方法および文字認識装置 | |
JP2016110256A (ja) | 情報処理装置及び情報処理プログラム | |
CN111968624A (zh) | 数据构建方法、装置、电子设备及存储介质 | |
CN112199958A (zh) | 概念词序列生成方法、装置、计算机设备及存储介质 | |
CN112001158A (zh) | 文书生成方法、装置、计算机设备及计算机可读存储介质 | |
CN116468043A (zh) | 嵌套实体识别方法、装置、设备及存储介质 | |
CN115130437B (zh) | 一种文档智能填写方法、装置及存储介质 | |
CN111679959A (zh) | 计算机性能数据确定方法、装置、计算机设备及存储介质 | |
CN113486680B (zh) | 文本翻译方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |