CN112380869A - 晶体信息检索方法、装置、电子设备及存储介质 - Google Patents

晶体信息检索方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN112380869A
CN112380869A CN202011265237.4A CN202011265237A CN112380869A CN 112380869 A CN112380869 A CN 112380869A CN 202011265237 A CN202011265237 A CN 202011265237A CN 112380869 A CN112380869 A CN 112380869A
Authority
CN
China
Prior art keywords
word
text
recognized
sub
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011265237.4A
Other languages
English (en)
Inventor
顾大中
胡惠文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202011265237.4A priority Critical patent/CN112380869A/zh
Publication of CN112380869A publication Critical patent/CN112380869A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例涉及医疗科技技术领域,具体公开了一种晶体信息检索方法、装置、电子设备及存储介质。该方法包括:获取待识别文本;从所述待识别文本中抽取用于表示晶体的关键词;根据所述关键词在所述待识别文本中的位置信息和所述待识别文本的语义信息确定所述待识别文本中用于表示晶体特征的晶体信息。本申请实施例有利于提高晶体信息的检索精度。

Description

晶体信息检索方法、装置、电子设备及存储介质
技术领域
本申请涉及文本识别技术领域,具体涉及一种晶体信息检索方法、装置、电子设备及存储介质。
背景技术
晶体信息在文本中的一般是用来修饰晶体的修饰语,一般来说,晶体信息可以用来描述晶体形态的,比如,晶体信息“iris-claw”用来描述晶体为虹膜爪状,也可用来描述晶体植入位置的,比如,文本信息“posterior chamber intraocular lens”用来描述晶体为后房型人工晶状体,也有可用来描述晶体材料的,比如,晶体信息“silicone lens”用来描述晶体为硅晶体。
输入关键词从文本(比如,论文或期刊)中检索出晶体信息,根据晶体信息可以判断该文本中出现了何种晶体,并且可以有效发现业内出现的新型晶体,有助于加快科研人员对晶体的研究。
目前,一般是通过关键词识别的方式从文本中检索出晶体信息,但是有些文本晶体信息可能是缩写或者别名等等,比如,聚甲基丙烯酸甲酯可以表示为全称“polymethylmethacrylate”,也可以表示为缩写“PMMA”。
因此,现有检索晶体信息的方式单一,检索出的晶体信息的精度较低。
发明内容
本申请实施例提供了一种晶体信息检索方法、装置、电子设备及存储介质。提高晶体信息的检索精度。
第一方面,本申请实施例提供一种晶体信息检索方法,包括:
获取待识别文本;
从所述待识别文本中抽取用于表示晶体的关键词;
根据所述关键词在所述待识别文本中的位置信息和所述待识别文本的语义信息确定所述待识别文本中用于表示晶体特征的晶体信息。
第二方面,本申请实施例提供一种晶体信息检索装置,包括:
收发单元,用于获取待识别文本;
处理单元,用于从所述待识别文本中抽取用于表示晶体的关键词;
所述处理单元,还用于根据所述关键词在所述待识别文本中的位置信息和所述待识别文本的语义信息确定所述待识别文本中用于表示晶体特征的晶体信息。
第三方面,本申请实施例提供一种电子设备,包括:处理器,所述处理器与存储器相连,所述存储器用于存储计算机程序,所述处理器用于执行所述存储器中存储的计算机程序,以使得所述电子设备执行如第一方面所述的方法。
第四方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序使得计算机执行如第一方面所述的方法。
第五方面,本申请实施例提供一种计算机程序产品,所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,所述计算机可操作来使计算机执行如第一方面所述的方法。
实施本申请实施例,具有如下有益效果:
可以看出,在本申请实施例中,首先检测出待识别文本中用于表示晶体的关键词,然后基于该关键词在该待识别文本中的位置信息以及该待识别文本的语义特征信息,确定该待识别文本中的晶体信息。由于在识别晶体信息的过程中结合了晶体在待识别文本中的位置信息,而不是单纯的进行关键词识别,使检索出的晶体信息的精确度较高。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种晶体信息检索方法的流程示意图;
图2为本申请实施例提供的一种神经网络的结构示意图;
图3为本申请实施例提供的一神经网络训练方法的流程示意图;
图4为本申请实施例提供的一种晶体信息检索装置的功能单元组成框图;
图5为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、***、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结果或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
参阅图1,图1为本申请实施例提供的一种晶体信息检索方法。该方法应用于晶体信息检索装置。该方法包括以下步骤:
101:晶体信息检索装置获取待识别文本。
示例性的,该待识别文本可以是从医学文献中获取的。比如,可以对该医学文献进行关键词识别,得到关键词“晶体”,并将关键词“晶体”所在的语句作为该待识别文本;应理解,在英文医学文献中可以识别出与“晶体”对应的英文关键词,比如,“crystal”或者“lens”,等等,并将该英文关键词所在的语句作为该待识别文本。
示例性的,上述医学文献可以为医学数据库中的电子文章、电子论文、电子期刊或者电子病历,等等;其中,该医学数据库可以为公共医学(Public,Medicine,PUBMED)数据库。
102:晶体信息检索装置从所述待识别文本中抽取用于表示晶体的关键词。
应理解,本申请所提到的晶体包括“人工晶体”、“自然晶体”等其他各种种类的晶体。
示例性的,对该待识别文本中的每个单词进行关键词识别,得到该待识别文本中用于表征晶体的键词。
示例性的,可对该待识别文本进行语义特征提取,得到该待识别文本的语义特征向量;然后,根据该待识别文本的语义特征向量,确定该待识别文本中是否包含用于表示晶体的关键词,如果有,则输出该关键词,比如,可以输出该关键词在该待识别文本中的位置。
具体的,根据该语义特征向量,确定该待识别文本中的每个第一单词属于表示晶体的概率,并将概率大于阈值的第一单词作为该关键词;如果不存在大于阈值的第一单词,则说明该待识别文本中不存在可以表示晶体的关键词。
举例来说,若待识别文本为“硅胶人工晶状体的固定”(The fixation of asilicone intraocular lens),则可识别出该待识别文本中的关键词为人工晶体(intraocular lens),则可以输出关键词在待识别文本中的位置,即(6,7)。
103:晶体信息检索装置根据所述关键词在所述待识别文本中的位置信息和所述待识别文本的语义信息确定所述待识别文本中用于表示晶体特征的晶体信息。
示例性的,可对该待识别文本进行语义特征提取,得到语义特征向量;对该关键词在该待识别文本中的位置信息进行编码,得到位置特征向量;最后,将该语义特征向量和位置特征向量进行拼接,得到目标特征向量;并根据该目标特征向量,确定该待识别文本中的晶体信息。比如,可以根据该目标特征向量,确定该待识别文本中的每个第一单词属于晶体信息的概率,将概率大于第一阈值的第一单词输出,得到该晶体信息。
示例性的,可对该待识别文本中的每个单词进行编码(词嵌入),得到每个单词对应的第一词向量;然后,对该待识别文本中的每个单词对应的第一词向量进行特征提取,得到该待识别文本对应的语义特征向量。应理解,本申请所提到的单词,在中文中就是指一个完整的字,在英文中就是一个完整的单词。
示例性的,分别确定关键词中处于词首的第一关键词和处于词尾的第二关键词在该待识别文本中的位置标记;然后,按照该第一关键词和第二关键词的位置标记进行编码,得到该位置特征向量。
具体来说,获取预设向量维度,并将该位置特征向量的维度设置为该预设向量维度;然后,根据该第一关键词的位置标记,确定该第一关键词在该位置特征向量中的第一维度,即将该第一关键词在该文本信息中的位置作为该第一关键词在该位置特征向量中的第一维度;根据该第二关键词在该文本信息中的位置标记,确定该第二关键词在该位置特征向量中的第二维度,即将该第二单词在该文本信息中的位置作为该第二单词在该位置特征向量中的第二维度。最后,将该第一维度、第二维度、以及第一维度和第二维度之间的维度的取值均设置为第一预设值(比如1),将其余维度的取值均设置为第二预设值(比如0),得到该位置特征向量。
举例来说,若待识别文本为“The fixation of a silicone intraocular lens”,则关键词为intraocular lens,则第一关键词为“intraocular lens”,第二关键词为“lens”,则第一关键词“intraocular lens”的位置标记为6,第二关键词“lens”的位置标记为7。若预设向量维度为100,可确定出该位置特征向量为(0,0,0,0,0,1,1,……,0)。然后,将该语义特征向量与该位置特征向量进行拼接,即横向拼接,得到该目标特征向量。比如,语义特征向量为(0,1,0,1,……,1),位置特征向量为(0,1,1,0,……,0),则将该语义特征向量与该位置特征向量进行横向拼接,得到目标特征向量为(0,1,0,1,……,1,0,0,0,0,0,1,1,……,0)。最后,根据该目标特征向量进行分类,确定该待识别文本中的每个第一单词属于晶体信息的概率,并将概率大于阈值的第一单词“silicone”输出,得到晶体信息为“silicone”。
应理解,由于预先设定了位置特征向量的维度,则在该待识别文本的长度大于该预设向量维度的情况下,其中,该待识别文本的长度为该待识别文本包含的单词的数量,可对该待识别文本进行拆分,得多个子待识别文本,并将每个子待识别文本作为上述待识别文本,对每个子待识别文本进行晶体信息检索,并将多个子待识别文本中检索出的晶体信息拼接,得到该待识别文本对应的晶体信息。其中,每个子待识别文本包含的单词的数量小于或等于预设向量维度。
可以看出,在本申请实施例中,首先检测出待识别文本中用于表示晶体的关键词,然后基于该关键词在该待识别文本中的位置信息以及该待识别文本的语义信息,确定该待识别文本中的晶体信息。由于在识别晶体信息的过程中结合了关键词的位置信息,从而使确定出的晶体信息的精确度较高。
在一些可能的实施方式中,由于晶体信息很多存在缩写的情况,比如一种用于修饰晶体的修饰语,聚甲基丙烯酸甲酯,可以用全称“polymethylmethacrylate”表示,也可以用缩写“PMMA”表示。因此,为了提高对晶体信息描述的准确性,在确定出属于晶体信息的概率大于第一阈值的第一单词之后,可以将该概率大于第一阈值的第一单词进行标准化处理,得到该第一单词对应的标准化单词,并将该标准化单词作为该晶体信息输出。由于对该第一单词进行标准化处理,因此检索出的晶体信息中的每个单词都是标准化后的第二单词,从而使检索出的晶体信息的精确度比较高。
示例性的,可将概率大于第一阈值的第一单词与字典库中的每个第二单词进行匹配,得到与每个第二单词对应的第一编辑距离,其中,该字典库是预先构造的,该字典库中的每个第二单词均是标准化后的单词;编辑距离指的是在两个单词之间,由其中一个单词转换为另一个单词所需要的最少单字符编辑操作的次数,其中,单字符编辑操作包括以下三种操作:***操作、删除操作和替换操作。举例来说,由单词"kitten"转换为"sitting"需要的最少单字符编辑操作有:将字符“k”替换为“s”,将字符“e”替换为“i”,最后***字符“g”。因此,单词"kitten"和单词"sitting"之间的编辑距离为3;然后,根据概率大于第一阈值的第一单词的长度(即第一单词包含的字符数量)、每个第二单词的长度(第二单词包含的字符数量)以及与每个第二单词对应的第一编辑距离,确定概率大于第一阈值的第一单词与每个第二单词对应的第一相似度;最后,确定与每个第二单词对应的第一相似度中的最大第一相似度,并在该最大第一相似度大于或者等于第二阈值的情况下,将最大第一相似度对应的第二单词作为与该第一单词对应的标准化单词。
示例性的,该第一相似度可以通过公式(1)表示:
Figure BDA0002775473610000061
其中,S1为第一相似度,A为第一单词,B为第二单词,distance(AB)为第一单词和第二单词之间的第一编辑距离,L(A)为第一单词的长度,L(B)为第二单词的长度。
举例来说,若待识别文本为“The fixation of a PMMA intraocular lens”,并且根据该目标特征向量进行分类,得到晶体信息为单词“PMMA”,则将单词“PMMA”进行标准化处理,并将标准化处理后的单词“polymethylmethacrylate”、则可得到晶体信息“polymethylmethacrylate”。
此外,在该最大第一相似度小于该第二阈值的情况下,确定该概率大于第一阈值的第一单词中是否存在预设符号,并在确定出该第一单词中存在预设符号的情况下,则将该第一单词进行拆分处理,得到多个第一子单词,其中,该预设符号包括“-”、“~”、“_”,等等;在存在预设标识符号的情况下,该第一单词可能是由几个单词连接而成的单词,从而导致第一单词没有对应的标准化单词,则可以对该第一单词进行拆分,得到多个第一子单词;然后,在将每个第一子单词与字典库中的每个第二单词进行匹配,得到与每个第二子单词对应的第二编辑距离;根据每个第一子单词的长度、每个第二单词的长度以及与每个第二单词对应的第二编辑距离,确定与每个第二单词对应的第二相似度,其中,确定第二相似度的方式与确定第一相似度的方式类似,不再叙述;根据根据每个第一子单词与每个第二单词对应的第二相似度,确定与每个第一子单词对应的最大第二相似度;在最大第二相似度大于或者等于第二阈值的情况下,则将该最大相似度对应的第二单词作为每个第一子单词对应的标准化单词;最后,将每个第一子单词对应的标准化单词进行组合,得到该第一单词对应的标准化单词。
应理解,在某个第一子单词对应的最大第二相似度小于该第二阈值,则保留该第一子单词,确定该第一子单词没有对应的标准化单词,并将保留下的第一子单词和其他剩余第一子单词对应的标准化单词进行组合,得到该第一单词对应的标准化单词。
在一些可能的实施方式中,在对该待识别文本进行语义特征提取,得到语义特征向量的过程中,可以基于自注意机制进行语义特征提取,从而使得到的语义特征向量更加精确,进而提高晶体信息检索的精度。
具体的,对该待识别文本中的每个第一单词进行特征提取,得到每个第一单词对应的第一词向量;然后,对每个第一单词的第一词向量进行编码,得到每个第一单词对应的查询向量、关键值向量以及价值向量;分别确定第一单词A的查询向量与该待识别文本中每个第一单词的关键值向量之间的相似度,将第一单词A与该待识别文本中每个第一单词的关键值向量之间的相似度进行归一化处理,得到第一单词A与该待识别文本中每个第一单词之间的权重系数,其中,该第一单词A为该待识别文本中的任意一个第一单词;然后,根据第一单词A与该待识别文本中每个第一单词之间的权重系数,对每个第一单词的价值向量进行加权处理,得到第一单词A对应的第二词向量;最后,对该待识别文本中的每个第一单词对应的第二词向量进行语义特征提取,得到该待识别文本对应的语义特征向量。
在本申请的一个实施方式中,本申请的晶体信息检索方法还可以应用到智慧医疗领域,比如,医学研究者可以通过该晶体信息检索方法从医学文献中精确的检索出晶体信息,从而可以快速的了解到晶体的研究现状,辅助医生对晶体的研究制定出正确的战略方针,推动医疗科技的进步。
在本申请的一个实施方式中,上述晶体信息检索方法可以通过完成训练的神经网络实现,后面详细叙述对该神经网络的训练过程,在此不做过多描述。下面结合该神经网络的结构具体说明本申请的晶体信息检索方法的实现过程。
参阅图2,该神经网络包括词嵌入网络、语义特征提取网络、第一全连接层、位置编码网络、第二全连接层,示例性的,词嵌入网络可以为常用的自然语言处理,模型,比如,bert模型;语义特征提取网络可以为常用的特征提取网络,比如,长短期记忆网络LSTM。
其中,词嵌入网络用于对待识别文本[X1,X2,X3,…,Xn]中的每个第一单词进行词嵌入处理,得到每个第一单词对应的词向量;语义特征提取网络用于对该待识别文本中的每个第一单词对应的词向量进行特征提取,得到待识文本对应的语义特征向量;第一全连接层用于根据语义特征向量对待识别文本中的第一单词进行分类,得到用于表征晶体的关键词[X2,X3];然后,位置编码网络用于根据关键词[X2,X3]在待识别文本[X1,X2,X3,…,Xn]中的位置信息进行位置编码,得到位置特征向量;然后,将语义特征向量和位置特征向量进行拼接,得到目标特征向量;第二全连接层用于根据目标特征向量确定该待识别文本[X1,X2,X3,…,Xn]中每个第一单词属于晶体信息的概率。
最后,将属于晶体信息的概率大于第一阈值的第一单词进行标准化处理,并将与该第一单词对应的标准化单词输出,作为该待识别文本中的晶体信息。
参阅图3,图3为本申请实施例提供的一种神经网络训练方法的流程示意图。该实施例中与图1所示的实施例相同的内容,此处不再重复描述。本实施例的方法包括以下步骤:
301:获取训练文本,其中,所述训练文本包括第一训练标签和第二训练标签,所述第一训练标签用于表示所述训练文本中用于表示晶体的关键词的真实位置,所述第二训练标签用于表示所述训练文本中的真实晶体信息。
302:将所述训练样本输入到所述神经网络,对所述训练文本进行特征提取得到第一特征向量。
其中,该第一特征向量即为该训练文本的语义特征向量。
303:根据所述第三特征向量,通过所述神经网络,对所述训练文本中的关键词进行预测,得到所述训练文本中用于表示晶体的关键词的预测位置。
304:通过所述神经网络对所述预测位置进行位置编码,得到第二特征向量。
其中,该第二特征向量即为该关键词的位置特征向量。
305:将所述第一特征向量与所述第二特征向量进行拼接,得到第五特征向量,根据所述第三特征向量,得到所述训练文本中的预测晶体信息。
306:根据所述训练文本中的关键词的真实位置、所述训练文本中的关键词的预测位置、所述训练文本中的真实晶体信息以及所述训练文本中的预测晶体信息,调整所述神经网络的网络参数。
示例性的,根据该训练文本中的关键词的真实位置以及预测位置,得到第一损失,比如,可以对真实位置进行编码得到第四特征向量,将第特征向量和第二特征向量之间的欧式距离作为该第一损失;根据训练文本中的真实晶体信息以及预测晶体信息,得到第二损失,比如,将该训练文本中每个单词属于晶体信息的真实概率以及预测概率之间的欧式距离作为第二损失;最后,对该第一损失和第二损失进行加权处理,得到目标损失;根据该目标损失以及梯度下降法调整该神经网络的网络参数,直至该神经网络收敛,完成对该神经网络的训练。
参阅图4,图4本申请实施例提供的一种晶体信息检索装置的功能单元组成框图。晶体信息检索400包括:收发单元401和处理单元402,其中:
收发单元401,用于获取待识别文本;
处理单元402,用于从所述待识别文本中抽取用于表示晶体的关键词;
处理单元402,还用于根据所述关键词在所述待识别文本中的位置信息和所述待识别文本的语义信息确定所述待识别文本中用于表示晶体特征的晶体信息。
在一些可能的实施方式中,在根据所述关键词在所述待识别文本中的位置信息和所述待识别文本的语义信息确定所述待识别文本中用于表示晶体特征的晶体信息方面,处理单元402,具体用于:
对所述待识别文本进行语义特征提取,得到待识别文本的语义特征向量;
对所述关键词在所述待识别文本中的位置信息进行编码,得到位置特征向量;
将所述语义特征向量和所述位置特征向量进行拼接,得到目标特征向量;
根据所述目标特征向量,确定所述待识别文本中的晶体信息。
在一些可能的实施方式中,在对所述关键词在所述待识别文本中的位置信息进行编码,得到位置特征向量方面,处理单元402,具体用于:
分别确定所述关键词中处于词首的第一关键词和处于词尾的第二关键词在所述待识别文本中的位置标记;
按照所述第一关键词和所述第二关键词的位置标记进行编码,得到所述位置特征向量。
在一些可能的实施方式中,在根据所述目标特征向量,确定所述待识别文本中的晶体信息方面,处理单元402,具体用于:
根据所述目标特征向量,确定所述待识别文本中每个第一单词属于所述晶体信息的概率;
将概率大于第一阈值的第一单词进行标准化处理,得到所述概率大于第一阈值的第一单词对应的标准化单词;
将所述概率大于第一阈值的第一单词对应的标准化单词输出,作为所述晶体信息。
在一些可能的实施方式中,在将概率大于第一阈值的第一单词进行标准化处理,得到所述概率大于第一阈值的第一单词对应的标准化单词方面,处理单元402,具体用于:
将所述概率大于第一阈值的第一单词与字典库中的每个第二单词进行匹配,得到与所述每个第二单词对应的第一编辑距离;
根据所述概率大于第一阈值的第一单词的长度、所述每个第二单词的长度以及与所述每个第二单词对应的第一编辑距离,确定与所述每个第二单词对应的第一相似度;
确定所述每个第二单词对应的第一相似度中的最大第一相似度;
在所述最大第一相似度大于或等于第二阈值的情况下,将所述最大第一相似度对应的第二单词作为与所述第一单词对应的标准化单词。
在一些可能的实施方式中,处理单元402,还用于:
在所述最大第一相似度小于所述第二阈值的情况下,确定所述概率大于第一阈值的第一单词中是否存在预设符号;
在确定所述概率大于第一阈值的第一单词中存在所述预设符号的情况下,根据所述预设符号对所述概率大于第一阈值的第一单词进行拆分,得到多个第一子单词;
将所述多个第一子单词中的每个第一子单词与所述每个第二单词进行匹配,得到与所述每个第二单词对应的第二编辑距离;
根据所述每个第一子单词的长度、所述每个第二单词的长度以及与所述每个第二单词对应的第二编辑距离,确定与所述每个第二单词对应的第二相似度;
根据所述每个第一子单词与所述每个第二单词对应的第二相似度,确定与所述每个第一子单词对应的最大第二相似度;
在所述每个第一子单词对应的最大第二相似度大于或等于第二阈值的情况下,将所述每个第一子单词对应的最大第二相似度对应的第二单词作为所述每个第一子单词对应的标准化单词;
将所述每个第一子单词对应的标准化单词进行组合,得到所述概率大于第一阈值的第一单词对应的标准化单词。
在一些可能的实施方式中,在从所述待识别文本中抽取用于表示晶体的关键词之前,处理单元402,还用于:
确定所述待识别文本的长度,所述长度为所述待识别文本中包含的第一单词的数量;
在所述长度大于预设长度的情况下,将所述待识别文本分割为多个子文本,并将所述多个子文本中的每个子文本作为一个所述待识别文本,其中,所述每个子文本包含的第一单词的数量小于或等于所述预设长度。
参阅图5,图5为本申请实施例提供的一种电子设备的结构示意图。如图5所示,电子设备500包括收发器501、处理器502和存储器503。它们之间通过总线504连接。存储器503用于存储计算机程序和数据,并可以将存储503存储的数据传输给处理器502。
处理器502用于读取存储器503中的计算机程序执行以下操作:
控制收发器501获取待识别文本;
从所述待识别文本中抽取用于表示晶体的关键词;
根据所述关键词在所述待识别文本中的位置信息和所述待识别文本的语义信息确定所述待识别文本中用于表示晶体特征的晶体信息。
在一些可能的实施方式中,在根据所述关键词在所述待识别文本中的位置信息和所述待识别文本的语义信息确定所述待识别文本中用于表示晶体特征的晶体信息方面,处理器502用于读取存储器503中的计算机程序,具体执行以下操作:
对所述待识别文本进行语义特征提取,得到待识别文本的语义特征向量;
对所述关键词在所述待识别文本中的位置信息进行编码,得到位置特征向量;
将所述语义特征向量和所述位置特征向量进行拼接,得到目标特征向量;
根据所述目标特征向量,确定所述待识别文本中的晶体信息。
在一些可能的实施方式中,在对所述关键词在所述待识别文本中的位置信息进行编码,得到位置特征向量方面,处理器502用于读取存储器503中的计算机程序,具体执行以下操作:
分别确定所述关键词中处于词首的第一关键词和处于词尾的第二关键词在所述待识别文本中的位置标记;
按照所述第一关键词和所述第二关键词的位置标记进行编码,得到所述位置特征向量。
在一些可能的实施方式中,在根据所述目标特征向量,确定所述待识别文本中的晶体信息方面,处理器502用于读取存储器503中的计算机程序,具体执行以下操作:
根据所述目标特征向量,确定所述待识别文本中每个第一单词属于所述晶体信息的概率;
将概率大于第一阈值的第一单词进行标准化处理,得到所述概率大于第一阈值的第一单词对应的标准化单词;
将所述概率大于第一阈值的第一单词对应的标准化单词输出,作为所述晶体信息。
在一些可能的实施方式中,在将概率大于第一阈值的第一单词进行标准化处理,得到所述概率大于第一阈值的第一单词对应的标准化单词方面,处理器502用于读取存储器503中的计算机程序,具体执行以下操作:
将所述概率大于第一阈值的第一单词与字典库中的每个第二单词进行匹配,得到与所述每个第二单词对应的第一编辑距离;
根据所述概率大于第一阈值的第一单词的长度、所述每个第二单词的长度以及与所述每个第二单词对应的第一编辑距离,确定与所述每个第二单词对应的第一相似度;
确定所述每个第二单词对应的第一相似度中的最大第一相似度;
在所述最大第一相似度大于或等于第二阈值的情况下,将所述最大第一相似度对应的第二单词作为与所述第一单词对应的标准化单词。
在一些可能的实施方式中,处理器502还用于读取存储器503中的计算机程序执行以下操作:
在所述最大第一相似度小于所述第二阈值的情况下,确定所述概率大于第一阈值的第一单词中是否存在预设符号;
在确定所述概率大于第一阈值的第一单词中存在所述预设符号的情况下,根据所述预设符号对所述概率大于第一阈值的第一单词进行拆分,得到多个第一子单词;
将所述多个第一子单词中的每个第一子单词与所述每个第二单词进行匹配,得到与所述每个第二单词对应的第二编辑距离;
根据所述每个第一子单词的长度、所述每个第二单词的长度以及与所述每个第二单词对应的第二编辑距离,确定与所述每个第二单词对应的第二相似度;
根据所述每个第一子单词与所述每个第二单词对应的第二相似度,确定与所述每个第一子单词对应的最大第二相似度;
在所述每个第一子单词对应的最大第二相似度大于或等于第二阈值的情况下,将所述每个第一子单词对应的最大第二相似度对应的第二单词作为所述每个第一子单词对应的标准化单词;
将所述每个第一子单词对应的标准化单词进行组合,得到所述概率大于第一阈值的第一单词对应的标准化单词。
在一些可能的实施方式中,在从所述待识别文本中抽取用于表示晶体的关键词之前,处理器502还用于读取存储器503中的计算机程序执行以下操作:
确定所述待识别文本的长度,所述长度为所述待识别文本中包含的第一单词的数量;
在所述长度大于预设长度的情况下,将所述待识别文本分割为多个子文本,并将所述多个子文本中的每个子文本作为一个所述待识别文本,其中,所述每个子文本包含的第一单词的数量小于或等于所述预设长度。
具体地,上述收发器501可为图4所述的实施例的晶体信息检索装置400的收发单元401,上述处理器502可以为图4所述的实施例的晶体信息检索装置400的处理单元402。
应理解,本申请中的晶体信息检索装置可以包括智能手机(如Android手机、iOS手机、Windows Phone手机等)、平板电脑、掌上电脑、笔记本电脑、移动互联网设备MID(MobileInternet Devices,简称:MID)或穿戴式设备等。上述晶体信息检索装置仅是举例,而非穷举,包含但不限于上述晶体信息检索装置。在实际应用中,上述晶体信息检索装置还可以包括:智能车载终端、计算机设备,等等。
本申请实施例还提供一种计算机存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行以实现如上述方法实施例中记载的任何一种晶体信息检索方法的部分或全部步骤。
本申请实施例还提供一种计算机程序产品,所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,所述计算机程序可操作来使计算机执行如上述方法实施例中记载的任何一种晶体信息检索方法的部分或全部步骤。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于可选实施例,所涉及的动作和模块并不一定是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件程序模块的形式实现。
所述集成的单元如果以软件程序模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储器中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储器包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储器中,存储器可以包括:闪存盘、只读存储器(英文:Read-Only Memory,简称:ROM)、随机存取器(英文:Random Access Memory,简称:RAM)、磁盘或光盘等。
以上对本申请实施例进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (10)

1.一种晶体信息检索方法,其特征在于,包括:
获取待识别文本;
从所述待识别文本中抽取用于表示晶体的关键词;
根据所述关键词在所述待识别文本中的位置信息和所述待识别文本的语义信息确定所述待识别文本中用于表示晶体特征的晶体信息。
2.根据权利要求1所述的方法,其特征在于,所述根据所述关键词在所述待识别文本中的位置信息和所述待识别文本的语义信息确定所述待识别文本中用于表示晶体特征的晶体信息,包括:
对所述待识别文本进行语义特征提取,得到待识别文本的语义特征向量;
对所述关键词在所述待识别文本中的位置信息进行编码,得到位置特征向量;
将所述语义特征向量和所述位置特征向量进行拼接,得到目标特征向量;
根据所述目标特征向量,确定所述待识别文本中的晶体信息。
3.根据权利要求1所述的方法,其特征在于,所述对所述关键词在所述待识别文本中的位置信息进行编码,得到位置特征向量,包括:
分别确定所述关键词中处于词首的第一关键词和处于词尾的第二关键词在所述待识别文本中的位置标记;
按照所述第一关键词和所述第二关键词的位置标记进行编码,得到所述位置特征向量。
4.根据权利要求2或3所述的方法,其特征在于,所述根据所述目标特征向量,确定所述待识别文本中的晶体信息,包括:
根据所述目标特征向量,确定所述待识别文本中每个第一单词属于所述晶体信息的概率;
将概率大于第一阈值的第一单词进行标准化处理,得到所述概率大于第一阈值的第一单词对应的标准化单词;
将所述概率大于第一阈值的第一单词对应的标准化单词输出,作为所述晶体信息。
5.根据权利要求4所述的方法,其特征在于,所述将概率大于第一阈值的第一单词进行标准化处理,得到所述概率大于第一阈值的第一单词对应的标准化单词,包括:
将所述概率大于第一阈值的第一单词与字典库中的每个第二单词进行匹配,得到与所述每个第二单词对应的第一编辑距离;
根据所述概率大于第一阈值的第一单词的长度、所述每个第二单词的长度以及与所述每个第二单词对应的第一编辑距离,确定与所述每个第二单词对应的第一相似度;
确定所述每个第二单词对应的第一相似度中的最大第一相似度;
在所述最大第一相似度大于或等于第二阈值的情况下,将所述最大第一相似度对应的第二单词作为与所述第一单词对应的标准化单词。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
在所述最大第一相似度小于所述第二阈值的情况下,确定所述概率大于第一阈值的第一单词中是否存在预设符号;
在确定所述概率大于第一阈值的第一单词中存在所述预设符号的情况下,根据所述预设符号对所述概率大于第一阈值的第一单词进行拆分,得到多个第一子单词;
将所述多个第一子单词中的每个第一子单词与所述每个第二单词进行匹配,得到与所述每个第二单词对应的第二编辑距离;
根据所述每个第一子单词的长度、所述每个第二单词的长度以及与所述每个第二单词对应的第二编辑距离,确定与所述每个第二单词对应的第二相似度;
根据所述每个第一子单词与所述每个第二单词对应的第二相似度,确定与所述每个第一子单词对应的最大第二相似度;
在所述每个第一子单词对应的最大第二相似度大于或等于第二阈值的情况下,将所述每个第一子单词对应的最大第二相似度对应的第二单词作为所述每个第一子单词对应的标准化单词;
将所述每个第一子单词对应的标准化单词进行组合,得到所述概率大于第一阈值的第一单词对应的标准化单词。
7.根据权利要求1-6中任一项所述的方法,其特征在于,在从所述待识别文本中抽取用于表示晶体的关键词之前,所述方法还包括:
确定所述待识别文本的长度,所述待识别文本的长度为所述待识别文本中包含的第一单词的数量;
在所述长度大于预设长度的情况下,将所述待识别文本分割为多个子文本,并将所述多个子文本中的每个子文本作为一个所述待识别文本,其中,所述每个子文本包含的单词的数量小于或等于所述预设长度。
8.一种晶体信息检索装置,其特征在于,包括:
收发单元,用于获取待识别文本;
处理单元,用于从所述待识别文本中抽取用于表示晶体的关键词;
所述处理单元,还用于根据所述关键词在所述待识别文本中的位置信息和所述待识别文本的语义信息确定所述待识别文本中用于表示晶体特征的晶体信息。
9.一种电子设备,其特征在于,包括:处理器,所述处理器与存储器相连,所述存储器用于存储计算机程序,所述处理器用于执行所述存储器中存储的计算机程序,以使得所述电子设备执行如权利要求1-7中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行以实现如权利要求1-7任一项所述的方法。
CN202011265237.4A 2020-11-12 2020-11-12 晶体信息检索方法、装置、电子设备及存储介质 Pending CN112380869A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011265237.4A CN112380869A (zh) 2020-11-12 2020-11-12 晶体信息检索方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011265237.4A CN112380869A (zh) 2020-11-12 2020-11-12 晶体信息检索方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN112380869A true CN112380869A (zh) 2021-02-19

Family

ID=74583636

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011265237.4A Pending CN112380869A (zh) 2020-11-12 2020-11-12 晶体信息检索方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN112380869A (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08212230A (ja) * 1995-01-31 1996-08-20 Toshiba Corp 文書検索方法及び文書検索装置
CN106227891A (zh) * 2016-08-24 2016-12-14 广东华邦云计算股份有限公司 一种基于模式的商品查询短文本语义处理方法
CN108959239A (zh) * 2017-05-26 2018-12-07 上海醇聚信息科技有限公司 自然语言理解***及其工作方法
CN110020424A (zh) * 2019-01-04 2019-07-16 阿里巴巴集团控股有限公司 合同信息的提取方法、装置和文本信息的提取方法
CN110569846A (zh) * 2019-09-16 2019-12-13 北京百度网讯科技有限公司 图像文字识别方法、装置、设备及存储介质
CN111339255A (zh) * 2020-02-26 2020-06-26 腾讯科技(深圳)有限公司 目标情感分析的方法、模型训练方法、介质和设备
CN111639502A (zh) * 2020-05-26 2020-09-08 深圳壹账通智能科技有限公司 文本语义匹配方法、装置、计算机设备及存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08212230A (ja) * 1995-01-31 1996-08-20 Toshiba Corp 文書検索方法及び文書検索装置
CN106227891A (zh) * 2016-08-24 2016-12-14 广东华邦云计算股份有限公司 一种基于模式的商品查询短文本语义处理方法
CN108959239A (zh) * 2017-05-26 2018-12-07 上海醇聚信息科技有限公司 自然语言理解***及其工作方法
CN110020424A (zh) * 2019-01-04 2019-07-16 阿里巴巴集团控股有限公司 合同信息的提取方法、装置和文本信息的提取方法
CN110569846A (zh) * 2019-09-16 2019-12-13 北京百度网讯科技有限公司 图像文字识别方法、装置、设备及存储介质
CN111339255A (zh) * 2020-02-26 2020-06-26 腾讯科技(深圳)有限公司 目标情感分析的方法、模型训练方法、介质和设备
CN111639502A (zh) * 2020-05-26 2020-09-08 深圳壹账通智能科技有限公司 文本语义匹配方法、装置、计算机设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
戴璐;丁立新;薛兵;: "一种摘要中隐含的知识片段的挖掘方案", 计算机科学, vol. 40, no. 02, 15 February 2013 (2013-02-15), pages 218 - 221 *

Similar Documents

Publication Publication Date Title
CN109388795B (zh) 一种命名实体识别方法、语言识别方法及***
CN110442841B (zh) 识别简历的方法及装置、计算机设备、存储介质
CN110162782B (zh) 基于医学词典的实体提取方法、装置、设备及存储介质
CN111950303B (zh) 医疗文本翻译方法、装置及存储介质
CN112347758B (zh) 文本摘要的生成方法、装置、终端设备及存储介质
CN110347790B (zh) 基于注意力机制的文本查重方法、装置、设备及存储介质
CN111221944A (zh) 文本意图识别方法、装置、设备和存储介质
CN107832301A (zh) 分词处理方法、装置、移动终端及计算机可读存储介质
WO2021190662A1 (zh) 医学文献排序方法、装置、电子设备及存储介质
CN111967261B (zh) 癌症分期信息处理方法、装置及存储介质
CN112287069A (zh) 基于语音语义的信息检索方法、装置及计算机设备
CN112597300A (zh) 文本聚类方法、装置、终端设备及存储介质
CN112270178B (zh) 医疗文献簇的主题确定方法、装置、电子设备及存储介质
CN114118022A (zh) 文本表示方法、装置、电子设备与存储介质
CN112231537A (zh) 基于深度学习和网络爬虫的智能阅读***
CN112307175B (zh) 一种文本处理方法、装置、服务器及计算机可读存储介质
CN112199954A (zh) 基于语音语义的疾病实体匹配方法、装置及计算机设备
CN116910251A (zh) 基于bert模型的文本分类方法、装置、设备及介质
CN112287217B (zh) 医学文献检索方法、装置、电子设备及存储介质
CN112380869A (zh) 晶体信息检索方法、装置、电子设备及存储介质
CN112507388B (zh) 基于隐私保护的word2vec模型训练方法、装置及***
CN115115432A (zh) 基于人工智能的产品信息推荐方法及装置
CN111522957B (zh) 一种短语分割模型的训练方法和***
CN114818727A (zh) 关键句抽取方法及装置
CN114328894A (zh) 文档处理方法、装置、电子设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40040147

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination