CN116468046A - 基于人工智能的语义提取方法、装置、计算机设备及介质 - Google Patents

基于人工智能的语义提取方法、装置、计算机设备及介质 Download PDF

Info

Publication number
CN116468046A
CN116468046A CN202310430938.6A CN202310430938A CN116468046A CN 116468046 A CN116468046 A CN 116468046A CN 202310430938 A CN202310430938 A CN 202310430938A CN 116468046 A CN116468046 A CN 116468046A
Authority
CN
China
Prior art keywords
term
probability
extraction
semantic
original
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310430938.6A
Other languages
English (en)
Inventor
王璐
吴振宇
王建明
肖京
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202310430938.6A priority Critical patent/CN116468046A/zh
Publication of CN116468046A publication Critical patent/CN116468046A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及人工智能技术领域,尤其涉及一种基于人工智能的语义提取方法、装置、计算机设备及介质。该方法获取N个目标词项,针对任一目标词项,将原始词项输入语义匹配模型中得到第一概率,在检测到目标词项与原始词项不一致时,以第一概率作为提取概率,否则,将原始词项输入语义提取模型中,得到第二概率,以第二概率和第一概率的和作为提取概率,遍历N个目标词项,确定得到的N个提取概率中的最大值对应的目标词项为语义提取结果,在目标词项与原始词项一致时,额外计算第二概率来确定提取概率,使语义提取结果能够包含原始词项,保留原始词项的关键信息,避免语义匹配出现信息丢失,提高了语义提取结果的表征能力,提高语义提取的准确率。

Description

基于人工智能的语义提取方法、装置、计算机设备及介质
技术领域
本发明涉及人工智能技术领域,尤其涉及一种基于人工智能的语义提取方法、装置、计算机设备及介质。
背景技术
在语义提取任务中,待处理文本中通常包含较多的冗余信息,这些冗余信息会对待处理文本的语义提取造成干扰,导致语义提取的准确率较低,目前,语义提取模型通常采用命名实体技术对待处理文本进行线索提取,再利用生成模型将提取到的线索转换为总结性文本。
但是,由于待处理文本具有随机性,即通常待处理文本的内容是发散的,不会严格符合某一主题,导致难以为命名实体技术提供有效且完备的标注,从而导致语义提取准确率仍旧较低,因此,如何提高语义提取准确率成为亟待解决的问题。
发明内容
有鉴于此,本发明实施例提供了一种基于人工智能的语义提取方法、装置、计算机设备及介质,以解决语义提取准确率较低的问题。
第一方面,本发明实施例提供一种基于人工智能的语义提取方法,所述语义提取方法包括:
获取N个目标词项,针对任一目标词项,将待处理文本中的原始词项输入训练好的语义匹配模型中,得到所述目标词项与所述原始词项匹配的第一概率,N为大于一的整数;
在检测到所述目标词项与所述原始词项不一致时,以所述第一概率作为提取概率;
在检测到所述目标词项与所述原始词项一致时,将所述原始词项输入训练好的语义提取模型对所述原始词项进行特征提取,计算提取结果为所述原始词项的第二概率,以所述第二概率和所述第一概率的和作为所述提取概率;
遍历所述N个目标词项,得到N个提取概率,确定所述N个提取概率中的最大值,以所述最大值对应的目标词项作为语义提取结果。
第二方面,本发明实施例提供一种基于人工智能的语义提取装置,所述语义提取装置包括:
语义匹配模块,用于获取N个目标词项,针对任一目标词项,将待处理文本中的原始词项输入训练好的语义匹配模型中,得到所述目标词项与所述原始词项匹配的第一概率,N为大于一的整数;
概率确定模块,用于在检测到所述目标词项与所述原始词项不一致时,以所述第一概率作为提取概率;
语义提取模块,用于在检测到所述目标词项与所述原始词项一致时,将所述原始词项输入训练好的语义提取模型对所述原始词项进行特征提取,计算提取结果为所述原始词项的第二概率,以所述第二概率和所述第一概率的和作为所述提取概率;
结果确定模块,用于遍历所述N个目标词项,得到N个提取概率,确定所述N个提取概率中的最大值,以所述最大值对应的目标词项作为语义提取结果。
第三方面,本发明实施例提供一种计算机设备,所述计算机设备包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面所述的语义提取方法。
第四方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的语义提取方法。
本发明实施例与现有技术相比存在的有益效果是:
获取N个目标词项,针对任一目标词项,将待处理文本中的原始词项输入训练好的语义匹配模型中,得到目标词项与原始词项匹配的第一概率,在检测到目标词项与原始词项不一致时,以第一概率作为提取概率,在检测到目标词项与原始词项一致时,将原始词项输入训练好的语义提取模型对原始词项进行特征提取,计算提取结果为原始词项的第二概率,以第二概率和第一概率的和作为提取概率,遍历N个目标词项,得到N个提取概率,确定N个提取概率中的最大值,以最大值对应的目标词项作为语义提取结果,在目标词项与原始词项一致时,额外进行第二概率的预测,以第二概率和第一概率的和作为提取概率,提高了语义提取结果为原始词项的概率,在原始词项较为复杂时,能够保留待处理文本的关键信息,避免了因语义匹配造成待处理文本信息丢失的情况,提高了语义提取结果的语义表征能力,进而提高语义提取的准确率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一提供的一种基于人工智能的语义提取方法的一应用环境示意图;
图2是本发明实施例一提供的一种基于人工智能的语义提取方法的流程示意图;
图3是本发明实施例二提供的一种基于人工智能的语义提取装置的结构示意图;
图4是本发明实施例三提供的一种计算机设备的结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定***结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的***、装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
应当理解,当在本发明说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本发明说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
另外,在本发明说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
在本发明说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本发明的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
本发明实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
应理解,以下实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
为了说明本发明的技术方案,下面通过具体实施例来进行说明。
本发明实施例一提供的一种基于人工智能的语义提取方法,可应用在如图1的应用环境中,其中,客户端与服务端进行通信。其中,客户端包括但不限于掌上电脑、桌上型计算机、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本、云端终端设备、个人数字助理(personal digital assistant,PDA)等计算机设备。服务端可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
参见图2,是本发明实施例一提供的一种基于人工智能的语义提取方法的流程示意图,上述语义提取方法可以应用于图1中的客户端,客户端对应的计算机设备连接服务端,以从服务端获取N个目标词项,目标词项可以是由服务端存储的词库中获取,客户端对应的计算机设备部署有训练好的语义匹配模型和训练好的语义提取模型,训练好的语义匹配模型可以用于预测待处理文本的原始词项与目标词项的匹配概率,训练好的语义提取模型可以用于预测以原始词项自身作为语义的提取概率。如图2所示,该基于人工智能的语义提取方法可以包括以下步骤:
步骤S201,获取N个目标词项,针对任一目标词项,将待处理文本中的原始词项输入训练好的语义匹配模型中,得到目标词项与原始词项匹配的第一概率。
其中,N为大于一的整数,目标词项可以由预先存储的词库中获取,预先存储的词库可以包括根据场景语料库提取的常用词项,需要说明的是,目标词项可以为空白词项,空白词项可以用于对应无实际语义的原始词项,例如原始词项为语气词项等情况。
在本实施例中,待处理文本可以是在语音交互场景下,由采集到的语音数据经过语音识别模型处理后,得到的识别文本。
原始词项可以是指待处理文本中包含的词项,通常情况下,待处理文本包含至少一个原始词项。训练好的语义匹配模型可以用于预测目标词项与原始词项的语义匹配程度,第一概率可以用于表征目标词项与原始词项的语义匹配程度。
在一实施方式中,待处理文本还可以是在智能问答场景下,由用户手动输入至计算机设备的输入文本。
具体地,目标词项与原始词项匹配可以是指目标词项可以用于表征原始词项的语义,训练好的语义匹配模型其实质可以是二分类模型,二分类中的一个类别可以是目标词项与原始词项匹配,另一个类别可以是目标词项与原始词项不匹配。
在本实施例中,在将原始词项输入训练好的语义匹配模型时,目标词项可以通过模型内部嵌入的方式添加至训练好的语义匹配模型中,训练好的语义匹配模型的输出可以是上述两个类别的预测概率,上述两个类别的预测概率之和为1,且取值均在[0,1]范围内,其中,对应目标词项与原始词项匹配的类别的预测概率即为上述第一概率。
在一实施方式中,目标词项也可以作为模型输入的方式添加至训练好的语义匹配模型中。
可选的是,将待处理文本中的原始词项输入训练好的语义匹配模型中,得到目标词项与原始词项匹配的第一概率包括:
按照预设的编码维度,对原始词项进行独热编码,得到编码向量,将编码向量输入训练好的嵌入模型中进行特征映射,得到嵌入向量;
将嵌入向量输入训练好的语义匹配模型中,得到第一概率;
相应地,将原始词项输入训练好的语义提取模型对原始词项进行特征提取,计算提取结果为原始词项的第二概率包括:
将嵌入向量输入训练好的语义提取模型中,得到第二概率。
其中,编码维度可以是指编码后的编码向量的维度,编码维度可以根据目标词项确定,即设置编码维度为N。
编码向量可以是指原始词项经过独热编码后的向量,向量的尺寸为1*N,即向量的维度为N,编码向量中每个元素均对应一目标词项,编码向量中,与原始词项相同的目标词项对应的元素取值为1,其他元素取值为0。
具体地,训练好的嵌入模型可以采用词向量嵌入模型、语言模型等,例如可以采用现有的Word2Vec模型、BERT模型等,嵌入向量的尺寸与编码向量的尺寸一致,也为1*N,但嵌入向量中的元素值为[0,1]范围内的数值,从而使得原始词项的表征向量具有可加性,同时便于进行词项之间相似程度的计算。
本实施例通过嵌入模型将原始词项的编码向量映射为嵌入向量,从而提高了对原始词项的表征能力,使得后续进行语义匹配和语义提取处理时,得到更准确的结果,进而提高对待处理文本语义提取的准确率。
可选的是,在得到嵌入向量之后,还包括:
将嵌入向量输入训练好的分类模型中,得到分类结果;
相应地,将嵌入向量输入训练好的语义匹配模型中,得到第一概率包括:
在检测到分类结果满足预设第一条件时,执行将嵌入向量输入训练好的语义匹配模型中,得到第一概率的步骤;
将嵌入向量输入训练好的语义提取模型中,得到第二概率包括:
在检测到分类结果满足第一条件时,执行将嵌入向量输入训练好的语义提取模型中,得到第二概率的步骤。
其中,训练好的分类模型可以用于对嵌入向量对应的原始词项进行分类,分类为二分类,一类别为原始词项属于无语义词项,另一类别为原始词项属于有语义词项。第一条件可以用于判断原始词项是否为无语义词项。
具体地,第一条件可以是分类结果是原始词项属于有语义词项,即当原始词项属于有语义词项时,才进行将嵌入向量输入训练好的语义匹配模型中,得到第一概率的步骤,以及进行将嵌入向量输入训练好的语义提取模型中,得到第二概率的步骤,从而避免了对无语义词项的无效处理,无语义词项可以是指语气词,例如“啊”、“唉”、“嗯”等,由于在本实施例中,待处理文本是由语音识别得到,而语音的采集过程中,通常会由于说话人的说话习惯,在待处理文本中掺杂一些无语义词项,此类无语义词项在待处理文本对待处理文本的语义提取任务并无帮助,因此,仅在原始词项属于有语义词项时才进行后续处理,从而精简了语义提取的处理流程。
本实施例中,通过对嵌入向量进行分类,识别出无语义词项的嵌入向量,避免了后续语义提取模型和语义匹配模型的无效处理,能够有效提高语义提取的效率。
可选的是,待处理文本包括M个原始词项;
将嵌入向量输入训练好的语义匹配模型中,得到第一概率包括:
根据待处理文本的文本顺序,确定原始词项在待处理文本中的前一词项为关联词项;
将关联词项对应的语义提取结果、预设的历史信息和嵌入向量输入训练好的语义匹配模型中,得到第一概率。
其中,M为大于零的整数,M个原始词项为根据文本顺序从待处理文本中采集到的词项,采集过程可以采用基于预设词典的分词模型。
文本顺序可以是指在待处理文本中原始词项之间的先后顺序,待处理文本可以视作1*Q尺寸的向量,向量中的一个元素即为一原始词项,在按照向量从左至右的顺序,确定原始词项之间的先后顺序。
关联词项可以是指与原始词项相邻的前一词项,也即在向量中处于原始词项左一位置的词项。历史信息可以是指由待处理文本中原始词项之前的词项提供的信息。
本实施例中,在原始词项对应的嵌入向量输入训练好的语义匹配模型中时,额外添加了历史信息和关联词项的语义提取结果,从而为原始词项的语义匹配提供更丰富的待处理文本的上下文信息,进而能够有效提高语义提取的准确率。
可选的是,训练好的语义提取模型包括训练好的编码器和训练好的解码器;
将嵌入向量输入训练好的语义提取模型中,得到第二概率包括:
根据文本顺序,确定原始词项在待处理文本中的前K个词项组成相关词项集合;
将相关词项集合中K个词项对应的K个语义提取结果、历史信息和嵌入向量输入训练好的编码器中,得到对应原始词项的嵌入特征;
将嵌入特征输入训练好的解码器中,得到第二概率。
其中,训练好的编码器可以用于提取嵌入向量的特征,训练好的解码器可以用于将嵌入向量的特征映射为输出,嵌入特征可以用于表征嵌入向量的特征信息。
相关词项集合可以是指与原始词项在语义上可能存在关联的词项集合,K为大于一的整数,在本实施例中,K可以设置为5。
具体地,由于原始词项符合待处理文本的文本顺序,则在将一原始词项进行语义提取处理时,在该原始词项之前的词项均已完成了语义提取处理,即在该原始词项之前的词项均有对应的语义提取结果。
将相关词项集合中K个词项对应的K个语义提取结果、历史信息和嵌入向量输入训练好的编码器中时,可以先将K个语义提取结果、历史信息和嵌入向量进行尺寸归一化,在归一化后进行特征融合操作,特征融合可以采用联结的方式。
本实施例在语义提取时通过相关词项集合对应的语义提取结果提供了语义上下文信息,通过历史信息提供了待处理文本的上下文信息,结合原始词项自身的嵌入向量作为训练好的编码器的输入,从而为模型推理提供了丰富且有效的信息,有利于提高于语义提取的准确性。
可选的是,将相关词项集合中K个词项对应的K个语义提取结果、历史信息和嵌入向量输入训练好的编码器中,得到对应原始词项的嵌入特征包括:
获取相关词项集合中K个词项对应的K个嵌入特征,将K个嵌入特征加权相加,得到相加结果;
确定相加结果为历史信息,将相关词项集合中K个词项对应的K个语义提取结果、历史信息和嵌入向量输入训练好的编码器中,得到对应原始词项的嵌入特征。
其中,加权相加可以是指将嵌入特征与对应的预设权重相乘后,将所有的相乘结果相加。
具体地,由于相关词项集合中的所有词项均在待处理的原始词项之前,因此相关词项集合中的每个词项均已经过上述编码器处理,即相关词项集合中的每个词项均有已知的嵌入特征与其对应,在加权相加时,可以根据关词项集合中K个词项分别与原始词项在待处理文本中的距离确定其预设权重,与原始词项越近的词项,其嵌入特征对应的预设权重相应越大,该词项的语义对原始词项语义提取的影响程度越大,同样地,与原始词项越远的词项,其嵌入特征对应的预设权重相应越小,该词项的语义对原始词项语义提取的影响程度越小。
在本实施例中,采用指数函数进行预设权重的映射,即通过指数函数将词项与原始词项的距离映射为预设权重,映射方式形如其中,αk可以是相关词项集合中第k个词项的嵌入特征对应的预设权重,dk可以是相关词项集合中第k个词项与原始词项的距离,k为取值范围为[1,K]的整数,需要说明的是,K个嵌入特征的预设权重之和应当为1,因此,在得到相关词项集合中所有词项的嵌入特征对应的预设权重后,需要进行归一化操作,归一化公式可以是/>其中,αi可以是相关词项集合中第i个词项的嵌入特征对应的预设权重。
本实施例中,通过加权相加的方式将相关词项集合的词项对应的嵌入特征融合,并基于相关词项集合中词项与原始词项的距离为嵌入特征赋予相应的预设权重,从而更准确地表征相关词项集合中词项对原始词项的语义影响,进而提高语义提取的准确率。
上述获取N个目标词项,针对任一目标词项,将待处理文本中的原始词项输入训练好的语义匹配模型中,得到目标词项与原始词项匹配的第一概率的步骤,通过语义匹配的方式确定目标词项是否能够表征原始词项的语义,从而实现语义提取的作用。
步骤S202,在检测到目标词项与原始词项不一致时,以第一概率作为提取概率。
其中,提取概率可以是指提取目标词项作为表征原始词项语义的概率。
具体地,在检测到目标词项与原始词项不一致时,此时按照常规的预测方式,确定目标词项作为原始词项语义表示的概率为目标词项的提取概率,也即确定第一概率为目标词项的提取概率。
上述在检测到目标词项与原始词项不一致时,以第一概率作为提取概率的步骤,采用常规语义匹配的方式,确定目标词项的提取概率,便于后续根据N个目标词项的提取概率确定最终用于表征原始词项语义的词项,有利于提高语义提取的准确率。
步骤S203,在检测到目标词项与原始词项一致时,将原始词项输入训练好的语义提取模型对原始词项进行特征提取,计算提取结果为原始词项的第二概率,以第二概率和第一概率的和作为提取概率。
其中,训练好的语义提取模型可以用于确定原始词项以自身作为语义表征的第二概率,第二概率可以是指以原始词项自身作为语义表征的概率。
具体地,在检测到目标词项与原始词项一致时,说明此时目标词项出现于待处理文本中,在语义提取场景中,可能会出现目标词项是生僻词项的情况,此时,由于模型训练时采用的语料库对不同的词项具有偏好性,会导致目标词项是生僻词项时,难以被确定为语义提取结果,但存在该生僻词项包含重要信息的情况,因此,本实施例中在原始词项与目标词项一致时,采用训练好的语义提取模型对原始词项进行语义提取,得到第二概率,进而调整目标词项的提取概率,使为生僻词项的目标词项更容易被提取为语义提取结果,从而更好地表征待处理文本的语义。
举例说明,待处理文本可以是“我刚吃完午饭,现在在公园附近的‘小时光’等你。”其中,“小时光”可以是咖啡店的名称,其是专有词项,在一般的语料库中难以出现,而“午饭”、“公园”这些词项在语料库中的出现频率相对较高,导致最终语义提取结果会偏好于输出频率较高的词项,例如最终的语义提取结果为“我吃完午饭”或者“我在公园附近”,实际上,在具体场景下,其语义提取结果的最优形式应当是“我在小时光等你”,但由于小时光并未高频次出现的词项,即使根据待处理文本上下文信息预测到的“午饭”、“公园”的提取概率较小,也会比低频率词项“小时光”更高,从而导致语义提取结果出现偏差,因此,采用训练好的语义提取模型后,低频率词项“小时光”的提取概率将被增加,从而得到更为准确地语义提取结果,例如训练好的语义匹配模型输出的第一概率中,“午饭”词项的第一概率为0.1,“公园”词项的第一概率为0.15,“小时光”词项的第一概率为0.05,其他目标词项的概率之和为0.7,但其他目标词项的第一概率均小于0.05,此时,通过训练好的语义提取模型,确定“午饭”词项的第二概率为0.1,“公园”词项的第二概率为0.1,“小时光”词项的第二概率为0.3,则将第一概率与第二概率相加后,相加结果最大的词项为“小时光”。
在一实施方式中,在确定目标词项时,将待处理文本中的所有原始词项与预设的词库取并集,得到目标词项集合,此时目标词项集合内包含三个类别的目标词项,第一个类别为目标词项仅包含于待处理文本中的所有原始词项,第二个类别为目标词项仅包含于预设的词库,第三个类别为目标词项包含于待处理文本中的所有原始词项与预设的词库的交集,此时,第一个类别的目标词项以原始词项的形式输入训练好的语义提取模型进行处理,以得到的第二概率作为提取概率,第二个类别的目标词项通过训练好的语义匹配模型进行处理,以得到的第一概率作为提取概率,第三个类别的目标词项分别通过训练好的语义提取模型和训练好的语义匹配模型进行处理,以得到的第一概率和第二概率的和作为提取概率。
上述在检测到目标词项与原始词项一致时,将原始词项输入训练好的语义提取模型对原始词项进行特征提取,计算提取结果为原始词项的第二概率,以第二概率和第一概率的和作为提取概率的步骤,通过预测原始词项以自身作为语义表征的概率,从而修正对应目标词项的提取概率,有利于避免目标词项是包含于待处理文本中的生僻词项,能够更加有效地保留待处理文本的信息,从而提高了待处理文本语义提取的准确率。
步骤S204,遍历N个目标词项,得到N个提取概率,确定N个提取概率中的最大值,以最大值对应的目标词项作为语义提取结果。
其中,N个提取概率中的最大值可以表示最可能作为语义提取结果的目标词项的提取概率。
可选的是,待处理文本包含M个原始词项,M为大于零的整数,相应地,语义提取结果包括M个对应原始词项的语义提取结果;
在以最大值对应的目标词项作为语义提取结果之后,还包括:
按照待处理文本的文本顺序,将M个对应原始词项的语义提取结果进行拼接,将拼接结果输入训练好的判别模型中,得到判别结果;
在检测到判别结果不满足预设第二条件时,以拼接结果更新待处理文本,以语义提取结果更新原始词项,返回执行语义提取方法,得到更新后的语义提取结果。
其中,训练好的判别模型可以用于判别输入的拼接结果是否语义简洁通顺。
具体地,在语义提取时每个原始词项均对应于一语义提取结果,由于语义提取结果可以为空,在将M个对应原始词项的语义提取结果进行拼接时,可以先将为空的语义提取结果筛选掉,将保留的语义提取结果拼接。
同时,语义提取结果之间可能存在重复、冲突的情况,以及拼接后的文本语义不通顺的情况,因此,采用训练好的判别模型对拼接结果进行判别,以确保语义提取的准确性。
在在检测到判别结果不满足预设第二条件时,以拼接结果更新待处理文本,此时,更新后的待处理文本中的原始词项即为上述语义提取结果,返回执行本实施例的语义提取方法,得到更新后的语义提取结果,在实际应用时,实施者还可以对更新后的语义提取结果再次判别,并再次更新待处理文本,直至得到满足预设第二条件的语义提取结果。
本实施例中,对待处理文本的语义进行迭代精简,以确保语义提取结果语义简洁且通顺,从而有效确保了语义提取的准确率。
上述遍历N个目标词项,得到N个提取概率,确定N个提取概率中的最大值,以最大值对应的目标词项作为语义提取结果的步骤,保留待处理文本的关键信息,有效提高了语义提取结果的语义表征能力,进而提高语义提取的准确率。
本实施例在目标词项与原始词项一致时,额外进行第二概率的预测,以第二概率和第一概率的和作为提取概率,提高了语义提取结果为原始词项的概率,在原始词项较为复杂时,能够保留待处理文本的关键信息,避免了因语义匹配造成待处理文本信息丢失的情况,提高了语义提取结果的语义表征能力,进而提高语义提取的准确率。
对应于上文实施例的基于人工智能的语义提取方法,图3示出了本发明实施例二提供的基于人工智能的语义提取装置的结构框图,上述语义提取装置应用于客户端,客户端对应的计算机设备连接服务端,以从服务端获取N个目标词项,目标词项可以是由服务端存储的词库中获取,客户端对应的计算机设备部署有训练好的语义匹配模型和训练好的语义提取模型,训练好的语义匹配模型可以用于预测待处理文本的原始词项与目标词项的匹配概率,训练好的语义提取模型可以用于预测以原始词项自身作为语义的提取概率。为了便于说明,仅示出了与本发明实施例相关的部分。
参见图3,该语义提取装置包括:
语义匹配模块31,用于获取N个目标词项,针对任一目标词项,将待处理文本中的原始词项输入训练好的语义匹配模型中,得到目标词项与原始词项匹配的第一概率,N为大于一的整数;
概率确定模块32,用于在检测到目标词项与原始词项不一致时,以第一概率作为提取概率;
语义提取模块33,用于在检测到目标词项与原始词项一致时,将原始词项输入训练好的语义提取模型对原始词项进行特征提取,计算提取结果为原始词项的第二概率,以第二概率和第一概率的和作为提取概率;
结果确定模块34,用于遍历N个目标词项,得到N个提取概率,确定N个提取概率中的最大值,以最大值对应的目标词项作为语义提取结果。
可选的是,上述语义匹配模块31包括:
向量编码子模块,用于按照预设的编码维度,对原始词项进行独热编码,得到编码向量,将编码向量输入训练好的嵌入模型中进行特征映射,得到嵌入向量;
第一概率获取子模块,用于将嵌入向量输入训练好的语义匹配模型中,得到第一概率;
相应地,上述语义提取模块33包括:
第二概率获取子模块,将嵌入向量输入训练好的语义提取模型中,得到第二概率。
可选的是,上述语义匹配模块31还包括:
向量分类子模块,用于将嵌入向量输入训练好的分类模型中,得到分类结果;
相应地,上述第一概率获取子模块包括:
第一条件检测单元,用于在检测到分类结果满足预设第一条件时,执行将嵌入向量输入训练好的语义匹配模型中,得到第一概率的步骤;
上述第二概率获取子模块包括:
第二条件检测单元,在检测到分类结果满足第一条件时,执行将嵌入向量输入训练好的语义提取模型中,得到第二概率的步骤。
可选的是,待处理文本包括M个原始词项,M为大于零的整数;
上述第一概率获取子模块包括:
词项关联单元,用于根据待处理文本的文本顺序,确定原始词项在待处理文本中的前一词项为关联词项;
联合匹配单元,用于将关联词项对应的语义提取结果、预设的历史信息和嵌入向量输入训练好的语义匹配模型中,得到第一概率。
可选的是,训练好的语义提取模型包括训练好的编码器和训练好的解码器;
上述第二概率获取子模块包括:
词项相关单元,用于根据文本顺序,确定原始词项在待处理文本中的前K个词项组成相关词项集合,K为大于一的整数;
联合编码单元,用于将相关词项集合中K个词项对应的K个语义提取结果、历史信息和嵌入向量输入训练好的编码器中,得到对应原始词项的嵌入特征;
特征解码单元,用于将嵌入特征输入训练好的解码器中,得到第二概率。
可选的是,上述词项相关单元包括:
加权相加子单元,用于获取相关词项集合中K个词项对应的K个嵌入特征,将K个嵌入特征加权相加,得到相加结果;
特征嵌入子单元,用于确定相加结果为历史信息,将相关词项集合中K个词项对应的K个语义提取结果、历史信息和嵌入向量输入训练好的编码器中,得到对应原始词项的嵌入特征。
可选的是,待处理文本包含M个原始词项,M为大于零的整数,相应地,语义提取结果包括M个对应原始词项的语义提取结果;
上述语义提取装置还包括:
语义判别模块,用于按照待处理文本的文本顺序,将M个对应原始词项的语义提取结果进行拼接,将拼接结果输入训练好的判别模型中,得到判别结果;
词项更新模块,用于在检测到判别结果不满足预设第二条件时,以拼接结果更新待处理文本,以语义提取结果更新原始词项,返回执行语义提取方法,得到更新后的语义提取结果。
需要说明的是,上述模块、子模块、单元、子单元之间的信息交互、执行过程等内容,由于与本发明方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分,此处不再赘述。
图4为本发明实施例三提供的一种计算机设备的结构示意图。如图4所示,该实施例的计算机设备包括:至少一个处理器(图4中仅示出一个)、存储器以及存储在存储器中并可在至少一个处理器上运行的计算机程序,处理器执行计算机程序时实现上述任意各个基于人工智能的语义提取方法实施例中的步骤。
该计算机设备可包括,但不仅限于,处理器、存储器。本领域技术人员可以理解,图4仅仅是计算机设备的举例,并不构成对计算机设备的限定,计算机设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如还可以包括网络接口、显示屏和输入装置等。
所称处理器可以是CPU,该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific IntegratedCircuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器包括可读存储介质、内存储器等,其中,内存储器可以是计算机设备的内存,内存储器为可读存储介质中的操作***和计算机可读指令的运行提供环境。可读存储介质可以是计算机设备的硬盘,在另一些实施例中也可以是计算机设备的外部存储设备,例如,计算机设备上配备的插接式硬盘、智能存储卡(Smart Media Card,SMC)、安全数字(Secure Digital,SD)卡、闪存卡(Flash Card)等。进一步地,存储器还可以既包括计算机设备的内部存储单元也包括外部存储设备。存储器用于存储操作***、应用程序、引导装载程序(BootLoader)、数据以及其他程序等,该其他程序如计算机程序的程序代码等。存储器还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。上述装置中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述方法实施例的步骤。其中,计算机程序包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质至少可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、计算机存储器、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区,根据立法和专利实践,计算机可读介质不可以是电载波信号和电信信号。
本发明实现上述实施例方法中的全部或部分流程,也可以通过一种计算机程序产品来完成,当计算机程序产品在计算机设备上运行时,使得计算机设备执行时实现可实现上述方法实施例中的步骤。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的实施例中,应该理解到,所揭露的装置/计算机设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/计算机设备实施例仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于人工智能的语义提取方法,其特征在于,所述语义提取方法包括:
获取N个目标词项,针对任一目标词项,将待处理文本中的原始词项输入训练好的语义匹配模型中,得到所述目标词项与所述原始词项匹配的第一概率,N为大于一的整数;
在检测到所述目标词项与所述原始词项不一致时,以所述第一概率作为提取概率;
在检测到所述目标词项与所述原始词项一致时,将所述原始词项输入训练好的语义提取模型对所述原始词项进行语义提取,计算提取结果为所述原始词项的第二概率,以所述第二概率和所述第一概率的和作为所述提取概率;
遍历所述N个目标词项,得到N个提取概率,确定所述N个提取概率中的最大值,以所述最大值对应的目标词项作为语义提取结果。
2.根据权利要求1所述的语义提取方法,其特征在于,所述将待处理文本中的原始词项输入训练好的语义匹配模型中,得到所述目标词项与所述原始词项匹配的第一概率包括:
按照预设的编码维度,对所述原始词项进行独热编码,得到编码向量,将所述编码向量输入训练好的嵌入模型中进行特征映射,得到嵌入向量;
将所述嵌入向量输入所述训练好的语义匹配模型中,得到所述第一概率;
相应地,所述将所述原始词项输入训练好的语义提取模型对所述原始词项进行语义提取,计算提取结果为所述原始词项的第二概率包括:
将所述嵌入向量输入所述训练好的语义提取模型中,得到所述第二概率。
3.根据权利要求2所述的语义提取方法,其特征在于,在所述得到嵌入向量之后,还包括:
将所述嵌入向量输入训练好的分类模型中,得到分类结果;
相应地,所述将所述嵌入向量输入所述训练好的语义匹配模型中,得到所述第一概率包括:
在检测到所述分类结果满足预设第一条件时,执行所述将所述嵌入向量输入所述训练好的语义匹配模型中,得到所述第一概率的步骤;
所述将所述嵌入向量输入所述训练好的语义提取模型中,得到所述第二概率包括:
在检测到所述分类结果满足所述第一条件时,执行所述将所述嵌入向量输入所述训练好的语义提取模型中,得到所述第二概率的步骤。
4.根据权利要求3所述的语义提取方法,其特征在于,所述待处理文本包括M个原始词项,M为大于零的整数;
所述将所述嵌入向量输入所述训练好的语义匹配模型中,得到所述第一概率包括:
根据所述待处理文本的文本顺序,确定所述原始词项在所述待处理文本中的前一词项为关联词项;
将所述关联词项对应的语义提取结果、预设的历史信息和所述嵌入向量输入所述训练好的语义匹配模型中,得到所述第一概率。
5.根据权利要求4所述的语义提取方法,其特征在于,所述训练好的语义提取模型包括训练好的编码器和训练好的解码器;
所述将所述嵌入向量输入所述训练好的语义提取模型中,得到所述第二概率包括:
根据所述文本顺序,确定所述原始词项在所述待处理文本中的前K个词项组成相关词项集合,K为大于一的整数;
将所述相关词项集合中K个词项对应的K个语义提取结果、所述历史信息和所述嵌入向量输入所述训练好的编码器中,得到对应所述原始词项的嵌入特征;
将所述嵌入特征输入所述训练好的解码器中,得到所述第二概率。
6.根据权利要求5所述的语义提取方法,其特征在于,所述将所述相关词项集合中K个词项对应的K个语义提取结果、所述历史信息和所述嵌入向量输入所述训练好的编码器中,得到对应所述原始词项的嵌入特征包括:
获取所述相关词项集合中K个词项对应的K个嵌入特征,将所述K个嵌入特征加权相加,得到相加结果;
确定所述相加结果为所述历史信息,将所述相关词项集合中K个词项对应的K个语义提取结果、所述历史信息和所述嵌入向量输入所述训练好的编码器中,得到对应所述原始词项的嵌入特征。
7.根据权利要求1至6任一项所述的语义提取方法,其特征在于,所述待处理文本包含M个原始词项,M为大于零的整数,相应地,所述语义提取结果包括M个对应原始词项的语义提取结果;
在所述以所述最大值对应的目标词项作为语义提取结果之后,还包括:
按照所述待处理文本的文本顺序,将M个对应原始词项的语义提取结果进行拼接,将拼接结果输入训练好的判别模型中,得到判别结果;
在检测到所述判别结果不满足预设第二条件时,以所述拼接结果更新所述待处理文本,以所述语义提取结果更新所述原始词项,返回执行所述语义提取方法,得到更新后的语义提取结果。
8.一种基于人工智能的语义提取装置,其特征在于,所述语义提取装置包括:
语义匹配模块,用于获取N个目标词项,针对任一目标词项,将待处理文本中的原始词项输入训练好的语义匹配模型中,得到所述目标词项与所述原始词项匹配的第一概率,N为大于一的整数;
概率确定模块,用于在检测到所述目标词项与所述原始词项不一致时,以所述第一概率作为提取概率;
语义提取模块,用于在检测到所述目标词项与所述原始词项一致时,将所述原始词项输入训练好的语义提取模型对所述原始词项进行特征提取,计算提取结果为所述原始词项的第二概率,以所述第二概率和所述第一概率的和作为所述提取概率;
结果确定模块,用于遍历所述N个目标词项,得到N个提取概率,确定所述N个提取概率中的最大值,以所述最大值对应的目标词项作为语义提取结果。
9.一种计算机设备,其特征在于,所述计算机设备包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的语义提取方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的语义提取方法。
CN202310430938.6A 2023-04-14 2023-04-14 基于人工智能的语义提取方法、装置、计算机设备及介质 Pending CN116468046A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310430938.6A CN116468046A (zh) 2023-04-14 2023-04-14 基于人工智能的语义提取方法、装置、计算机设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310430938.6A CN116468046A (zh) 2023-04-14 2023-04-14 基于人工智能的语义提取方法、装置、计算机设备及介质

Publications (1)

Publication Number Publication Date
CN116468046A true CN116468046A (zh) 2023-07-21

Family

ID=87174875

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310430938.6A Pending CN116468046A (zh) 2023-04-14 2023-04-14 基于人工智能的语义提取方法、装置、计算机设备及介质

Country Status (1)

Country Link
CN (1) CN116468046A (zh)

Similar Documents

Publication Publication Date Title
CN111858843B (zh) 一种文本分类方法及装置
CN112528637B (zh) 文本处理模型训练方法、装置、计算机设备和存储介质
CN112347223B (zh) 文档检索方法、设备及计算机可读存储介质
CN113094478B (zh) 表情回复方法、装置、设备及存储介质
CN112613293B (zh) 摘要生成方法、装置、电子设备及存储介质
CN111368066B (zh) 获取对话摘要的方法、装置和计算机可读存储介质
CN112668333A (zh) 命名实体的识别方法和设备、以及计算机可读存储介质
CN111563161B (zh) 一种语句识别方法、语句识别装置及智能设备
CN114218945A (zh) 实体识别方法、装置、服务器及存储介质
CN113326702A (zh) 语义识别方法、装置、电子设备及存储介质
CN115840808A (zh) 科技项目咨询方法、装置、服务器及计算机可读存储介质
CN112417878A (zh) 实体关系抽取方法、***、电子设备及存储介质
CN115312033A (zh) 基于人工智能的语音情感识别方法、装置、设备及介质
CN113095072A (zh) 文本处理方法及装置
CN111898363B (zh) 文本长难句的压缩方法、装置、计算机设备及存储介质
CN113836297B (zh) 文本情感分析模型的训练方法及装置
CN116152551A (zh) 分类模型训练方法、分类方法、装置、设备及介质
CN115512176A (zh) 模型训练方法、图像理解方法、装置、介质与电子设备
CN116468046A (zh) 基于人工智能的语义提取方法、装置、计算机设备及介质
CN114417891A (zh) 基于粗糙语义的回复语句确定方法、装置及电子设备
CN114090781A (zh) 基于文本数据的容斥事件检测方法和装置
CN112528646A (zh) 词向量生成方法、终端设备及计算机可读存储介质
CN111626059A (zh) 一种信息处理方法及装置
CN117235137B (zh) 一种基于向量数据库的职业信息查询方法及装置
CN111540363B (zh) 关键词模型及解码网络构建方法、检测方法及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination