CN114519105A - 一种概念词语确定方法、装置、电子设备及存储介质 - Google Patents

一种概念词语确定方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN114519105A
CN114519105A CN202111597882.0A CN202111597882A CN114519105A CN 114519105 A CN114519105 A CN 114519105A CN 202111597882 A CN202111597882 A CN 202111597882A CN 114519105 A CN114519105 A CN 114519105A
Authority
CN
China
Prior art keywords
word
concept
sentence
target
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111597882.0A
Other languages
English (en)
Other versions
CN114519105B (zh
Inventor
梅立军
林闯
付瑞吉
李月雷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dajia Internet Information Technology Co Ltd
Original Assignee
Beijing Dajia Internet Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dajia Internet Information Technology Co Ltd filed Critical Beijing Dajia Internet Information Technology Co Ltd
Priority to CN202111597882.0A priority Critical patent/CN114519105B/zh
Publication of CN114519105A publication Critical patent/CN114519105A/zh
Application granted granted Critical
Publication of CN114519105B publication Critical patent/CN114519105B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Machine Translation (AREA)

Abstract

本公开关于一种概念词语确定方法、装置、电子设备及存储介质,涉及数据处理技术领域,解决了概念的识别率较低的问题。所述方法包括:获取待处理知识文本;采用数据处理模型对待处理知识文本进行处理,从待处理知识文本中确定目标句子,目标句子为包含概念词语的概率满足预设规则的句子;对目标句子进行全切分处理,得到词语集合;根据词语集合包括的每个词语所属的目标句子,从词语集合中确定概念词语集合。

Description

一种概念词语确定方法、装置、电子设备及存储介质
技术领域
本公开涉及数据处理技术领域,尤其涉及一种概念词语确定方法、装置、电子设备及存储介质。
背景技术
知识图谱是结构化的语义知识库,用于描述物理世界中的概念及其相互关系。知识图谱中主要包含有三种节点:实体、概念、属性。其中,概念指的是具有同种特性的实体构成的集合,如电脑、牛奶等。
现有技术中,经常需要从各个知识文本中抽取概念。电子设备可以根据预设词表对待提取文本进行术语抽取,得到该待提取文本包含的概念。或者,电子设备可以根据预设的知识图谱对待提取文本进行实体链接,得到该待提取文本包含的概念。
但是,现有技术中从知识文本中获取概念依赖于已有的概念词语集合,无法从知识文本中识别出新的概念词语,且当已有的概念词语集合不完善时,会导致从知识文本中识别出的概念的数量较少,从而导致概念的识别率较低。
发明内容
本公开提供一种概念词语确定方法、装置、电子设备及存储介质,解决了概念的识别率较低的问题。
本公开的技术方案如下:
根据本公开的第一方面,提供一种概念词语确定方法,该方法包括:
获取待处理知识文本;
采用数据处理模型对所述待处理知识文本进行处理,从所述待处理知识文本中确定目标句子,所述目标句子为包含概念词语的概率满足预设规则的句子;
对所述目标句子进行全切分处理,得到词语集合;
根据所述词语集合包括的每个词语所属的目标句子,从所述词语集合中确定概念词语集合。
可选的,数据处理模型包括第一处理模型,所述待处理知识文本包括至少一个段落,每个段落包括至少一个句子;
所述采用数据处理模型对所述待处理知识文本进行处理,从所述待处理知识文本中确定目标句子,包括:
采用所述第一处理模型对所述至少一个段落进行处理,得到每个段落包含概念词语的概率;
将所述至少一个段落中,段落包含概念词语的概率大于第一预设值的段落确定为目标段落;
根据所述目标段落确定所述目标句子。
可选的,根据所述目标段落确定所述目标句子,包括:
将每个所述目标段落包括的句子确定为所述目标句子;
或者,
所述数据处理模型还包括第二处理模型,采用所述第二处理模型对所述目标段落中的句子进行处理,得到所述目标段落中的每个句子包含概念词语的概率;
将所述目标段落中的句子中,句子包含概念词语的概率大于第二预设值的句子确定为所述目标句子。
可选的,采用数据处理模型对所述待处理知识文本进行处理,从所述待处理知识文本中确定目标句子,包括:
采用所述数据处理模型对所述待处理知识文本中的每个句子进行处理,得到每个句子包含概念词语的概率;
将所述待处理知识文本中,句子包含概念词语的概率大于第二预设值的句子确定为所述目标句子。
可选的,根据所述词语集合包括的每个词语所属的目标句子,从所述词语集合中确定概念词语集合,包括:
根据所述词语集合包括的每个词语所属的目标句子,从所述词语集合中确定候选概念集合;
采用预设的概念词语规则,从所述候选概念集合中确定所述概念词语集合。
可选的,根据所述词语集合包括的每个词语所属的目标句子,从所述词语集合中确定候选概念集合,包括:
当每个词语所属的目标句子为一个句子时,在所述词语所属的目标句子包含概念词语的概率大于预设概率值的情况下,确定所述词语为概念词语,得到所述候选概念集合;
当每个词语所属的目标句子包括多个句子时,根据所述多个句子中每个句子包含概念词语的概率,确定所述候选概念集合。
可选的,所述根据所述多个句子中每个句子包含概念词语的概率,确定所述候选概念集合,包括:
确定所述多个句子中每个句子包含概念词语的概率中的最大概率值,在所述最大概率值大于所述预设概率值的情况下,确定所述词语为概念词语,得到所述候选概念集合;
或者,
确定所述多个句子中每个句子包含概念词语的概率的平均值,在所述平均值大于所述预设概率值的情况下,确定所述词语为概念词语,得到所述候选概念集合。
可选的,概念词语确定方法还包括:
获取初始知识文本样本;
根据预设的知识图谱,从所述初始知识文本样本中,确定包括有概念词语的目标知识文本样本,所述目标知识文本样本中包括至少一个段落样本;
根据所述知识图谱,从所述至少一个段落样本中确定第一段落样本和第二段落样本,所述第一段落样本为包括概念词语的样本,所述第二段落样本为未包括概念词语的样本;
基于所述目标知识文本样本、所述第一段落样本和所述第二段落样本,对第一神经网络进行训练得到所述第一处理模型。
可选的,概念词语确定方法还包括:
根据所述知识图谱,从所述第一段落样本中确定第一句子样本和第二句子样本,所述第一句子样本为包括概念词语的样本,所述第二句子样本为未包括概念词语的样本;
基于所述第一段落样本、所述第一句子样本和所述第二句子样本,对第二神经网络进行训练得到第二处理模型。
根据本公开的第二方面,提供一种概念词语确定装置,包括:
获取模块,被配置为执行获取待处理知识文本;
确定模块,被配置为执行采用数据处理模型对所述获取模块获取到的所述待处理知识文本进行处理,从所述待处理知识文本中确定目标句子,所述目标句子为包含概念词语的概率满足预设规则的句子;
切分模块,被配置为执行对所述确定模块确定的所述目标句子进行全切分处理,得到词语集合;
所述确定模块,还被配置为执行根据所述切分模块得到的所述词语集合包括的每个词语所属的目标句子,从所述词语集合中确定概念词语集合。
可选的,数据处理模型包括第一处理模型,所述待处理知识文本包括至少一个段落,每个段落包括至少一个句子;
所述确定模块,具体被配置为执行:
采用所述第一处理模型对所述至少一个段落进行处理,得到每个段落包含概念词语的概率;
将所述至少一个段落中,段落包含概念词语的概率大于第一预设值的段落确定为目标段落;
根据所述目标段落确定所述目标句子。
可选的,确定模块,具体被配置为执行:
将每个所述目标段落包括的句子确定为所述目标句子;
或者,
所述数据处理模型还包括第二处理模型,采用所述第二处理模型对所述目标段落中的句子进行处理,得到所述目标段落中的每个句子包含概念词语的概率;
将所述目标段落中的句子中,句子包含概念词语的概率大于第二预设值的句子确定为所述目标句子。
可选的,确定模块,具体被配置为执行:
采用所述数据处理模型对所述待处理知识文本中的每个句子进行处理,得到每个句子包含概念词语的概率;
将所述待处理知识文本中,句子包含概念词语的概率大于第二预设值的句子确定为所述目标句子。
可选的,确定模块,具体被配置为执行:
根据所述词语集合包括的每个词语所属的目标句子,从所述词语集合中确定候选概念集合;
采用预设的概念词语规则,从所述候选概念集合中确定所述概念词语集合。
可选的,确定模块,具体被配置为执行:
当每个词语所属的目标句子为一个句子时,在所述词语所属的目标句子包含概念词语的概率大于预设概率值的情况下,确定所述词语为概念词语,得到所述候选概念集合;
当每个词语所属的目标句子包括多个句子时,根据所述多个句子中每个句子包含概念词语的概率,确定所述候选概念集合。
可选的,确定模块,具体被配置为执行:
确定所述多个句子中每个句子包含概念词语的概率中的最大概率值,在所述最大概率值大于所述预设概率值的情况下,确定所述词语为概念词语,得到所述候选概念集合;
或者,
确定所述多个句子中每个句子包含概念词语的概率的平均值,在所述平均值大于所述预设概率值的情况下,确定所述词语为概念词语,得到所述候选概念集合。
可选的,概念词语确定装置还包括:训练模块;
所述获取模块,还被配置为执行获取初始知识文本样本;
所述确定模块,还被配置为执行根据预设的知识图谱,从所述初始知识文本样本中,确定包括有概念词语的目标知识文本样本,所述目标知识文本样本中包括至少一个段落样本;根据所述知识图谱,从所述至少一个段落样本中确定第一段落样本和第二段落样本,所述第一段落样本为包括概念词语的样本,所述第二段落样本为未包括概念词语的样本;
所述训练模块,被配置为执行基于所述目标知识文本样本、所述第一段落样本和所述第二段落样本,对第一神经网络进行训练得到所述第一处理模型。
可选的,确定模块,还被配置为执行根据所述知识图谱,从所述第一段落样本中确定第一句子样本和第二句子样本,所述第一句子样本为包括概念词语的样本,所述第二句子样本为未包括概念词语的样本;
所述训练模块,还被配置为执行基于所述第一段落样本、所述第一句子样本和所述第二句子样本,对第二神经网络进行训练得到第二处理模型。
根据本公开的第三方面,提供一种电子设备,电子设备包括:
处理器;
用于存储处理器可执行指令的存储器;其中,处理器被配置为执行指令,以实现上述第一方面中任一种可选地概念词语确定方法。
根据本公开的第四方面,提供一种计算机可读存储介质,计算机可读存储介质上存储有指令,当计算机可读存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行上述第一方面中任一种可选地概念词语确定方法。
根据本公开的第五方面,提供一种计算机程序产品,包含指令,当其在电子设备上运行时,使得电子设备执行如第一方面中任一种可选地概念词语确定方法。
本公开提供的技术方案至少带来以下有益效果:概念词语确定装置获取到待处理知识文本后,能够采用数据处理模型对待处理知识文本进行处理,从待处理知识文本中确定出目标句子,并对目标句子进行全切分处理,得到词语集合。之后,概念词语确定装置可以根据词语集合包括的每个词语所属的目标句子,从词语集合中确定概念词语集合。由于目标句子是包含概念词语的概率满足预设规则的句子,即目标句子是可能性较大的、包括概念词语的句子。通过对目标句子进行全切分处理得到词语集合,降低了概念抽取的复杂度。在保证复杂度低的基础上,基于每个词语所属的目标句子包括概念词语的概率,来确定概念词语集合,能够极大地提高新概念词语的识别率和准确性,从而提高待处理知识文本中的概念的识别率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1是根据一示例性实施例示出的一种知识图谱的示意图。
图2是根据一示例性实施例示出的一种概念词语确定方法的流程图。
图3是根据一示例性实施例示出的一种概念词语确定装置的逻辑结构框图。
图4是根据一示例性实施例示出的一种电子设备的结构框图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
为了便于本领域技术人员理解,在此先对本公开实施例中涉及到的术语进行简要说明。
知识图谱是结构化的语义知识库,其基本组成单位是“实体、关系、实体”三元组,或者是“实体、属性、属性值”三元组。知识图谱中主要包含有三种节点:实体、概念、属性。
实体指的是具有可区别性且独立存在的某种事物,实体是知识图谱中的最基本元素,不同的实体之间存在不同的关系。例如,实体可以为人名、物体名称、地名、职业等。关系可以为父子、母子、配偶、地理区域所属关系等。
概念指的是具有同种特性的实体构成的集合。例如,概念可以为电脑、牛奶等。
属性用于区分概念的特征,不同概念具有不同的属性。例如,属性可以为姓名、年龄、身高、体重、经度、纬度、品牌、油耗等。属性值可以是实体,也可以是概念,还可以是具体的数值。当属性值是实体或者概念时,属性用于描述两个实体之间的关系,该属性可以称为对象属性。当属性值是具体的数值时,属性用于描述实体的某种属性,该属性可以称为数据属性。
知识图谱通常由节点和边组成,节点表示实体或属性值,边表示属性或关系。在知识图谱中,边将各个节点连接起来,形成网状结构。
示例性的,图1示出了知识图谱的基本结构。如图1所示,该知识图谱包括节点11、节点13和节点14,节点11和节点13通过边12连接,节点11和节点14通过边15连接。其中,节点11表示实体A,边12表示关系F,节点13表示实体B,节点14表示属性值C,边15表示属性J。节点11、边12和节点13形成“实体、关系、实体”的三元组,具体用于表示“实体A和实体B之间存在关系F”。节点11、节点14和边15形成“实体、属性、属性值”的三元组,具体用于表示“实体A的属性J的属性值为属性值C”。
例如,对于“用户A有一辆车”这一事实,“用户A”与“车”这两个实体可以分别为节点11和节点13,边12表明“用户A”对“车”的“拥有”关系。属性可以为年龄(边15),属性值可以为20岁(节点14),很容易知道,用户A的年龄为20岁。
概念抽取指的是从知识文本中识别概念的过程。概念抽取方法可以包括如下三类方法:关键词/短语抽取、概念链接和概念扩展。
关键词/短语抽取方法:通过分词等方法得到候选短语,然后对候选短语进行置信度排序,选取置信度较高的候选短语作为抽取结果。
概念链接方法:从知识文本中找出知识图谱中存在的概念的不同提及方式,即找出的不是新概念,而是已有概念的不同提及方式。
概念扩展方法:通过对大规模知识文本进行分析,找出与给定的少量概念属于同一集合的概念。
本公开实施例提供的概念词语确定方法可以应用于电子设备采用上述第一种方法,从知识文本中确定概念的场景中。相关技术中从知识文本中获取概念依赖于已有的概念词语,无法从知识文本中识别出新的概念词语,且当已有的概念词语不完善时,会导致从知识文本中识别出的概念的数量较少,从而导致概念的识别率较低。
为了提高概念的识别率,本公开实施例提供一种概念词语确定方法,电子设备获取到待处理知识文本后,采用数据处理模型对待处理知识文本进行处理,从待处理知识文本中确定目标句子,并对目标句子进行全切分处理,得到词语集合。之后,电子设备根据词语集合包括的每个词语所属的目标句子,从词语集合中确定概念词语集合。由于目标句子是包含概念词语的概率满足预设规则的句子,即目标句子是可能性较大的、包括概念词语的句子。通过对目标句子进行全切分处理得到词语集合,降低了概念抽取的复杂度。在保证复杂度低的基础上,基于每个词语所属的目标句子包括概念词语的概率值,通过对概率值的阈值控制(即是否大于预设概率值)来确定概念词语集合,能够极大地提高新概念词语的识别率和准确性,从而提高待处理知识文本中的概念的识别率。
图2是根据一示例性实施例示出的一种概念词语确定方法的流程图,如图2所示,该方法可以包括以下步骤201-步骤204。
201、获取待处理知识文本。
当电子设备需要对预设领域的知识文本进行概念抽取时,可以先从不同渠道获取预设领域的多个知识文本,并根据预设领域的知识图谱,从该多个知识文本中获取包括有已有概念词语的知识文本,将获取到的知识文本作为待处理知识文本。本公开实施例以一个待处理知识文本为例进行描述。
202、采用数据处理模型对待处理知识文本进行处理,从待处理知识文本中确定目标句子。
电子设备在获取到待处理知识文本之后,可以采用预存的数据处理模型对待处理知识文本进行处理,以从待处理知识文本中确定目标句子,该目标句子为包含概念词语的概率满足预设规则的句子。
可选的,在本公开实施例中,上述数据处理模型可以是一个注意力机制模型,还可以是神经网络模型,如卷积神经网络模型、序列生成式模型等,还可以包括两个注意力机制模型,如包括第一处理模型和第二处理模型。其中,第一处理模型用于确定包含概念词语的目标段落,第二处理模型用于确定包含概念词语的目标句子。本公开实施例在此对数据处理模型不做限制。
可选的,在本公开实施例中,电子设备可以采用以下几种方式,从待处理知识文本中确定目标句子。
方式1,从待处理知识文本中确定目标段落,并基于目标段落确定目标句子。
上述数据处理模型包括第一处理模型,待处理知识文本包括至少一个段落,每个段落包括至少一个句子的情况下,电子设备可以采用第一处理模型对至少一个段落进行处理,得到每个段落包含概念词语的概率。也就是说,将每个段落输入第一处理模型后,输出每个段落对应的结果(包含概念词语的概率)。然后,电子设备可以将至少一个段落中,段落包含概念词语的概率大于第一预设值的段落确定为目标段落,并根据目标段落确定目标句子。可见,电子设备在确定包含有概念词语的目标句子时,通过先确定包含有概念词语的目标段落,再在这些目标段落中确定目标句子,这样逐层缩小确定范围最终确定出目标句子,能够提高确定目标句子的效率。
作为一种可能的实现,电子设备可以将每个目标段落包括的所有句子确定为目标句子。
作为另一种可能的实现,数据处理模型还可以包括第二处理模型,在该情况下,电子设备可以采用第二处理模型对目标段落中的句子进行处理,得到目标段落中的每个句子包含概念词语的概率。之后,电子设备可以将目标段落中的句子中,句子包含概念词语的概率大于第二预设值的句子确定为目标句子。
上述两种方式相比,第一种方式比第二种方式简单易实现。第二种方式中通过对目标段落中的句子进行处理得到目标句子,使得需要全切分处理的目标句子的数量减少,从而降低了概念识别的复杂度。
值得注意的是,在本公开实施例中,电子设备在执行步骤202之前可以训练第一处理模型和第二处理模型,并预存在电子设备中备用。或者,第一处理模型和第二处理模型也可以是其他设备,如服务器训练好之后发送至电子设备的,本公开实施例在此不做限定。
电子设备训练第一处理模型的过程为:电子设备可以先获取预设领域的初始知识文本样本,并根据预设领域的预设知识图谱,从初始知识文本样本中,确定包括有概念词语的目标知识文本样本,该每个目标知识文本样本中包括至少一个段落样本。然后,电子设备可以根据知识图谱,从至少一个段落样本中确定第一段落样本和第二段落样本,第一段落样本为包括概念词语的样本,第二段落样本为未包括概念词语的样本。之后,电子设备可以基于目标知识文本样本、第一段落样本和第二段落样本,训练第一处理模型。第一处理模型可以是段落级注意力机制模型。这样,电子设备经过从初始知识文本样本中确定目标知识文本样本、从目标知识文本样本中确定第一段落样本和第二段落样本、基于目标知识文本样本、第一段落样本和第二段落样本训练第一神经网络,最终得到了第一处理模型。由于该第一处理模型是采用包含有概念词语的知识文本,以及这些知识文本中包含有概念词语的段落和未包含概念词语的段落的样本数据训练得到的,因此第一处理模型能够用于从待处理知识文本中确定包含概念词语的目标段落。
可以理解的是,上述初始知识文本样本可以与待处理知识文本不同,也可以部分不同,还可以相同,本公开实施例在此不做限制。
电子设备训练第二处理模型的过程为:电子设备先根据预设领域的知识图谱,从第一段落样本中确定第一句子样本和第二句子样本,第一句子样本为包括概念词语的样本,第二句子样本为未包括概念词语的样本。之后,电子设备可以基于第一段落样本、第一句子样本和第二句子样本,训练第二处理模型。该第二处理模型可以是句子级注意力机制模型。由于第二处理模型是采用包含有概念词语的段落样本,以及这些段落样本中包含概念词语的句子和未包含概念词语的句子的样本数据训练得到的,因此该第二处理模型能够用于从目标段落中确定包含概念词语的目标句子。
方式2,采用数据处理模型对待处理知识文本中的每个句子进行处理,得到目标句子。
电子设备可以采用数据处理模型对待处理知识文本中的每个句子进行处理,得到每个句子包含概念词语的概率,并将待处理知识文本中,句子包含概念词语的概率大于第二预设值的句子确定为目标句子。该情况下,数据处理模型可以是一个注意力机制模型、神经网络模型等。这样,电子设备通过对待处理文本中的每个句子逐个进行处理,来确定出包含有概念词语的目标句子,能够保证确定出的目标句子的准确性。
或者,电子设备也可以按照上述方式1,采用数据处理模型先确定目标段落,然后从目标段落中确定目标句子。
203、对目标句子进行全切分处理,得到词语集合。
电子设备在确定出目标句子之后,可以对每个目标句子进行全切分处理,以得到词语集合。全切分处理指的是对每个目标句子采用所有可能的切分方式进行切分。
示例性的,假设目标句子为“水牛奶就是水牛产的奶。”。那么电子设备可以对该句子进行全切分,在此列举部分切分方式。
全切分1:水牛奶就是水牛产的奶。
全切分2:水牛奶就是水牛产的奶。
全切分3:水牛奶就是水牛产的奶。
全切分4:水牛奶就是水牛产的奶。
全切分5:水牛奶就是水牛产的奶。
204、根据词语集合包括的每个词语所属的目标句子,从词语集合中确定概念词语集合。
电子设备在得到词语集合之后,可以根据词语集合包括的每个词语所属的目标句子,从词语集合中确定候选概念集合,并采用预设的概念词语规则,从候选概念集合中确定出概念词语集合。
可选的,在本公开实施例中,电子设备可以根据词语集合包括的每个词语所属的目标句子包含概念词语的概率,确定候选概念集合。在具体实现中,当每个词语所属的目标句子为一个句子时,电子设备可以在该词语所属的目标句子包含概念词语的概率大于预设概率值的情况下,确定该词语为概念词语,对每个词语进行确定后便得到候选概念集合。当每个词语所属的目标句子包括多个句子时,电子设备可以根据多个句子中每个句子包含概念词语的概率,确定候选概念集合。可见,每个词语所属的目标句子的数量不同时,电子设备可以通过不同的方式来确定候选概念集合。当目标句子为一个句子时,电子设备可以直接根据目标句子包含有概念词语的概率来确定该词语是否是概念词语。当目标句子包括多个句子时,电子设备结合多个句子包含有概念词语的概率来确定该词语是否是概念词语。使得确定出的候选概念集合更加准确、合理。
可以理解的是,上述目标句子包含概念词语的概率可以指的是目标段落包含概念词语的概率。
可选的,在本公开实施例中,电子设备根据多个句子中每个句子包含概念词语的概率,确定候选概念集合的过程为:作为一种实现方式,电子设备可以确定多个句子中每个句子包含概念词语的概率中的最大概率值,在最大概率值大于预设概率值的情况下,确定该词语为概念词语,从而得到候选概念集合。作为另一种实现方式,电子设备可以确定多个句子中每个句子包含概念词语的概率的平均值,在该平均值大于预设概率值的情况下,确定该词语为概念词语,从而得到候选概念集合。由于多个概率值的平均值或者是最大值能够反映该词语包含概念词语的概率,因此通过平均值或者是最大值大于预设概率值的方式,来确定该词语为概念词语。不仅实现方式多样,而且确定出的结果准确。
可选的,在本公开实施例中,上述采用预设的概念词语规则,从候选概念集合中确定出概念词语集合的具体实现中,电子设备可以利用词性,判断候选概念集合中的词语是否为名词,来确定候选概念集合中的概念词语。或者,电子设备可以利用句子中词语的结构信息,例如是否为主谓宾结构,来确定概念词语。或者,电子设备可以采用概念链接或者概念扩展的方式来确定概念词语集合。或者,电子设备也可以采用其他方式从候选概念集合中确定概念词语集合,在此不做限定。这样,电子设备先基于每个词语所属的目标句子包含概念词语的概率,来确定出候选概念集合,然后通过概念词语规则,如词性、词语的结构信息等来进一步从候选概念集合中筛选得到概念词语集合,经过两次筛选使得得到的概念词语集合更加准确。
需要说明的是,在本公开实施例中,上述涉及的预设概率值、第一预设值、第二预设值的三个值可以完全相同,也可以完全不同,还可以部分相同,本公开实施例在此不做限定。
上述实施例提供的技术方案至少带来以下有益效果:概念词语确定装置获取到待处理知识文本后,能够采用数据处理模型对待处理知识文本进行处理,从待处理知识文本中确定出目标句子,并对目标句子进行全切分处理,得到词语集合。之后,概念词语确定装置可以根据词语集合包括的每个词语所属的目标句子,从词语集合中确定概念词语集合。由于目标句子是包含概念词语的概率满足预设规则的句子,即目标句子是可能性较大的、包括概念词语的句子。通过对目标句子进行全切分处理得到词语集合,降低了概念抽取的复杂度。在保证复杂度低的基础上,基于每个词语所属的目标句子包括概念词语的概率,来确定概念词语集合,能够极大地提高新概念词语的识别率和准确性,从而提高待处理知识文本中的概念的识别率。
图3是根据一示例性实施例示出的一种概念词语确定装置的逻辑结构框图。参照图3,该概念词语确定装置应用于电子设备,该概念词语确定装置包括:获取模块31、确定模块32和切分模块33。
获取模块31,被配置为执行获取待处理知识文本;
确定模块32,被配置为执行采用数据处理模型对所述获取模块获取到的所述待处理知识文本进行处理,从所述待处理知识文本中确定目标句子,所述目标句子为包含概念词语的概率满足预设规则的句子;
切分模块33,被配置为执行对所述确定模块确定的所述目标句子进行全切分处理,得到词语集合;
所述确定模块32,还被配置为执行根据所述切分模块得到的所述词语集合包括的每个词语所属的目标句子,从所述词语集合中确定概念词语集合。
可选的,数据处理模型包括第一处理模型,所述待处理知识文本包括至少一个段落,每个段落包括至少一个句子;
所述确定模块32,具体被配置为执行:
采用所述第一处理模型对所述至少一个段落进行处理,得到每个段落包含概念词语的概率;
将所述至少一个段落中,段落包含概念词语的概率大于第一预设值的段落确定为目标段落;
根据所述目标段落确定所述目标句子。
可选的,确定模块32,具体被配置为执行:
将每个所述目标段落包括的句子确定为所述目标句子;
或者,
所述数据处理模型还包括第二处理模型,采用所述第二处理模型对所述目标段落中的句子进行处理,得到所述目标段落中的每个句子包含概念词语的概率;
将所述目标段落中的句子中,句子包含概念词语的概率大于第二预设值的句子确定为所述目标句子。
可选的,确定模块32,具体被配置为执行:
采用所述数据处理模型对所述待处理知识文本中的每个句子进行处理,得到每个句子包含概念词语的概率;
将所述待处理知识文本中,句子包含概念词语的概率大于第二预设值的句子确定为所述目标句子。
可选的,确定模块32,具体被配置为执行:
根据所述词语集合包括的每个词语所属的目标句子,从所述词语集合中确定候选概念集合;
采用预设的概念词语规则,从所述候选概念集合中确定所述概念词语集合。
可选的,确定模块32,具体被配置为执行:
当每个词语所属的目标句子为一个句子时,在所述词语所属的目标句子包含概念词语的概率大于预设概率值的情况下,确定所述词语为概念词语,得到所述候选概念集合;
当每个词语所属的目标句子包括多个句子时,根据所述多个句子中每个句子包含概念词语的概率,确定所述候选概念集合。
可选的,确定模块32,具体被配置为执行:
确定所述多个句子中每个句子包含概念词语的概率中的最大概率值,在所述最大概率值大于所述预设概率值的情况下,确定所述词语为概念词语,得到所述候选概念集合;
或者,
确定所述多个句子中每个句子包含概念词语的概率的平均值,在所述平均值大于所述预设概率值的情况下,确定所述词语为概念词语,得到所述候选概念集合。
可选的,如图3所示,概念词语确定装置还包括:训练模块34;
所述获取模块31,还被配置为执行获取初始知识文本样本;
所述确定模块32,还被配置为执行根据预设的知识图谱,从所述初始知识文本样本中,确定包括有概念词语的目标知识文本样本,所述目标知识文本样本中包括至少一个段落样本;根据所述知识图谱,从所述至少一个段落样本中确定第一段落样本和第二段落样本,所述第一段落样本为包括概念词语的样本,所述第二段落样本为未包括概念词语的样本;
所述训练模块34,被配置为执行基于所述目标知识文本样本、所述第一段落样本和所述第二段落样本,对第一神经网络进行训练得到所述第一处理模型。
可选的,确定模块32,还被配置为执行根据所述知识图谱,从所述第一段落样本中确定第一句子样本和第二句子样本,所述第一句子样本为包括概念词语的样本,所述第二句子样本为未包括概念词语的样本;
所述训练模块34,还被配置为执行基于所述第一段落样本、所述第一句子样本和所述第二句子样本,对第二神经网络进行训练得到第二处理模型。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图4是根据一示例性实施例示出的一种电子设备的结构框图,该电子设备可以是概念词语确定装置,该概念词语确定装置可以是:智能手机、平板电脑、笔记本电脑或台式电脑。
概念词语确定装置可以包括至少一个处理器41,通信总线42,存储器43以及至少一个通信接口44。
处理器41可以是一个处理器(central processing units,CPU),微处理单元,或一个或多个用于控制本公开方案程序执行的集成电路。
通信总线42可包括一通路,在上述组件之间传送信息。
通信接口44,使用任何收发器一类的装置,用于与其他设备或通信网络通信,如以太网,无线接入网(radio access network,RAN),无线局域网(wireless local areanetworks,WLAN)等。
存储器43可以是只读存储器(read-only memory,ROM)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(random access memory,RAM)或者可存储信息和指令的其他类型的动态存储设备,也可以是电可擦可编程只读存储器(electricallyerasable programmable read-only memory,EEPROM)、只读光盘(compact disc read-only memory,CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器可以是独立存在,通过总线与处理单元相连接。存储器也可以和处理单元集成在一起。
其中,存储器43用于存储执行本公开方案的应用程序代码,并由处理器41来控制执行。处理器41用于执行存储器43中存储的应用程序代码,从而实现本公开方法中的功能。
在具体实现中,作为一种实施例,处理器41可以包括一个或多个CPU,例如图4中的CPU0和CPU1。
在具体实现中,作为一种实施例,概念词语确定装置可以包括多个处理器,例如图4中的处理器41和处理器45。这些处理器中的每一个可以是一个单核(single-CPU)处理器,也可以是一个多核(multi-CPU)处理器。
在具体实现中,作为一种实施例,概念词语确定装置还可以包括输入设备46和输出设备47。输入设备46和处理器41通信,可以以多种方式接受用户的输入。例如,输入设备46可以是鼠标、键盘、触摸屏设备或传感设备等。输出设备47和处理器41通信,可以以多种方式来显示信息。例如,输出设备47可以是液晶显示器(liquid crystal display,LCD),发光二级管(light emitting diode,LED)显示设备等。
本领域技术人员可以理解,图4中示出的结构并不构成对电子设备的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
本公开还提供了一种包括指令的计算机可读存储介质,所述计算机可读存储介质上存储有指令,当所述计算机可读存储介质中的指令由计算机的处理器执行时,使得计算机能够执行上述所示实施例提供的概念词语确定方法。例如,计算机可读存储介质可以为包括指令的存储器43,上述指令可由电子设备的处理器41执行以完成上述方法。可选地,计算机可读存储介质可以是ROM、RAM、CD-ROM、磁带、软盘和光数据存储设备等。
本公开还提供了一种包含指令的计算机程序产品,当其在电子设备上运行时,使得电子设备执行上述所示实施例提供的概念词语确定方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (10)

1.一种概念词语确定方法,其特征在于,包括:
获取待处理知识文本;
采用数据处理模型对所述待处理知识文本进行处理,从所述待处理知识文本中确定目标句子,所述目标句子为包含概念词语的概率满足预设规则的句子;
对所述目标句子进行全切分处理,得到词语集合;
根据所述词语集合包括的每个词语所属的目标句子,从所述词语集合中确定概念词语集合。
2.根据权利要求1所述的概念词语确定方法,其特征在于,所述数据处理模型包括第一处理模型,所述待处理知识文本包括至少一个段落,每个段落包括至少一个句子;
所述采用数据处理模型对所述待处理知识文本进行处理,从所述待处理知识文本中确定目标句子,包括:
采用所述第一处理模型对所述至少一个段落进行处理,得到每个段落包含概念词语的概率;
将所述至少一个段落中,段落包含概念词语的概率大于第一预设值的段落确定为目标段落;
根据所述目标段落确定所述目标句子。
3.根据权利要求2所述的概念词语确定方法,其特征在于,所述根据所述目标段落确定所述目标句子,包括:
将每个所述目标段落包括的句子确定为所述目标句子;
或者,
所述数据处理模型还包括第二处理模型,采用所述第二处理模型对所述目标段落中的句子进行处理,得到所述目标段落中的每个句子包含概念词语的概率;
将所述目标段落的句子中,句子包含概念词语的概率大于第二预设值的句子确定为所述目标句子。
4.根据权利要求1所述的概念词语确定方法,其特征在于,所述采用数据处理模型对所述待处理知识文本进行处理,从所述待处理知识文本中确定目标句子,包括:
采用所述数据处理模型对所述待处理知识文本中的每个句子进行处理,得到每个句子包含概念词语的概率;
将所述待处理知识文本中,句子包含概念词语的概率大于第二预设值的句子确定为所述目标句子。
5.根据权利要求1-4中任一项所述的概念词语确定方法,其特征在于,所述根据所述词语集合包括的每个词语所属的目标句子,从所述词语集合中确定概念词语集合,包括:
根据所述词语集合包括的每个词语所属的目标句子,从所述词语集合中确定候选概念集合;
采用预设的概念词语规则,从所述候选概念集合中确定所述概念词语集合。
6.根据权利要求5所述的概念词语确定方法,其特征在于,所述根据所述词语集合包括的每个词语所属的目标句子,从所述词语集合中确定候选概念集合,包括:
当每个词语所属的目标句子为一个句子时,在所述词语所属的目标句子包含概念词语的概率大于预设概率值的情况下,确定所述词语为概念词语,得到所述候选概念集合;
当每个词语所属的目标句子包括多个句子时,根据所述多个句子中每个句子包含概念词语的概率,确定所述候选概念集合。
7.一种概念词语确定装置,其特征在于,包括:
获取模块,被配置为执行获取待处理知识文本;
确定模块,被配置为执行采用数据处理模型对所述获取模块获取到的所述待处理知识文本进行处理,从所述待处理知识文本中确定目标句子,所述目标句子为包含概念词语的概率满足预设规则的句子;
切分模块,被配置为执行对所述确定模块确定的所述目标句子进行全切分处理,得到词语集合;
所述确定模块,还被配置为执行根据所述切分模块得到的所述词语集合包括的每个词语所属的目标句子,从所述词语集合中确定概念词语集合。
8.一种电子设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1-6中任一项所述的概念词语确定方法。
9.一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,其特征在于,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得所述电子设备能够执行如权利要求1-6中任一项所述的概念词语确定方法。
10.一种计算机程序产品,包括计算机指令,其特征在于,所述计算机指令被处理器执行时实现权利要求1-6中任一项所述的概念词语确定方法。
CN202111597882.0A 2021-12-24 2021-12-24 一种概念词语确定方法、装置、电子设备及存储介质 Active CN114519105B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111597882.0A CN114519105B (zh) 2021-12-24 2021-12-24 一种概念词语确定方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111597882.0A CN114519105B (zh) 2021-12-24 2021-12-24 一种概念词语确定方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN114519105A true CN114519105A (zh) 2022-05-20
CN114519105B CN114519105B (zh) 2024-07-12

Family

ID=81597139

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111597882.0A Active CN114519105B (zh) 2021-12-24 2021-12-24 一种概念词语确定方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN114519105B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102750316A (zh) * 2012-04-25 2012-10-24 北京航空航天大学 基于语义共现模型的概念关系标签抽取方法
CN104598609A (zh) * 2015-01-29 2015-05-06 百度在线网络技术(北京)有限公司 一种用于垂直领域的概念处理方法和装置
US9645988B1 (en) * 2016-08-25 2017-05-09 Kira Inc. System and method for identifying passages in electronic documents
CN108073569A (zh) * 2017-06-21 2018-05-25 北京华宇元典信息服务有限公司 一种基于多层级多维度语义理解的法律认知方法、装置和介质
CN109472033A (zh) * 2018-11-19 2019-03-15 华南师范大学 文本中的实体关系抽取方法及***、存储介质、电子设备
CN111522863A (zh) * 2020-04-15 2020-08-11 北京百度网讯科技有限公司 一种主题概念挖掘方法、装置、设备以及存储介质
CN111581358A (zh) * 2020-04-08 2020-08-25 北京百度网讯科技有限公司 信息抽取方法、装置及电子设备
CN112784578A (zh) * 2021-03-16 2021-05-11 北京华宇元典信息服务有限公司 法律要素提取方法、装置和电子设备
CN113033210A (zh) * 2021-05-31 2021-06-25 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种基于社交媒体数据分析的药物潜在副作用挖掘方法
CN113392183A (zh) * 2021-05-31 2021-09-14 南京师范大学 一种儿童范畴图谱知识的表征与计算方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102750316A (zh) * 2012-04-25 2012-10-24 北京航空航天大学 基于语义共现模型的概念关系标签抽取方法
CN104598609A (zh) * 2015-01-29 2015-05-06 百度在线网络技术(北京)有限公司 一种用于垂直领域的概念处理方法和装置
US9645988B1 (en) * 2016-08-25 2017-05-09 Kira Inc. System and method for identifying passages in electronic documents
CN108073569A (zh) * 2017-06-21 2018-05-25 北京华宇元典信息服务有限公司 一种基于多层级多维度语义理解的法律认知方法、装置和介质
CN109472033A (zh) * 2018-11-19 2019-03-15 华南师范大学 文本中的实体关系抽取方法及***、存储介质、电子设备
CN111581358A (zh) * 2020-04-08 2020-08-25 北京百度网讯科技有限公司 信息抽取方法、装置及电子设备
CN111522863A (zh) * 2020-04-15 2020-08-11 北京百度网讯科技有限公司 一种主题概念挖掘方法、装置、设备以及存储介质
CN112784578A (zh) * 2021-03-16 2021-05-11 北京华宇元典信息服务有限公司 法律要素提取方法、装置和电子设备
CN113033210A (zh) * 2021-05-31 2021-06-25 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种基于社交媒体数据分析的药物潜在副作用挖掘方法
CN113392183A (zh) * 2021-05-31 2021-09-14 南京师范大学 一种儿童范畴图谱知识的表征与计算方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
KATRIN ERK: "Vector Space Models of Word Meaning and Phrase Meaning:A Survey", 《LANGUAGE AND LINGUISTICS》, vol. 6, no. 10, 31 October 2012 (2012-10-31), pages 635 - 653 *
唐忠 等: "面向认知概念的汉语语义关系库的构建和应用", 《电子技术与软件工程》, no. 10, 15 May 2020 (2020-05-15), pages 177 - 180 *
王宇 等: "基于HNC理论的中文文本词汇链构造方法", 《情报杂志》, no. 02, 18 February 2016 (2016-02-18), pages 186 - 191 *

Also Published As

Publication number Publication date
CN114519105B (zh) 2024-07-12

Similar Documents

Publication Publication Date Title
US11301637B2 (en) Methods, devices, and systems for constructing intelligent knowledge base
CN109416705B (zh) 利用语料库中可用的信息用于数据解析和预测
JP5901001B1 (ja) 音響言語モデルトレーニングのための方法およびデバイス
CN109948710B (zh) 基于api相似度的微服务识别方法
EP3848855A1 (en) Learning method and apparatus for intention recognition model, and device
CN111488468B (zh) 地理信息知识点抽取方法、装置、存储介质及计算机设备
CN110232112A (zh) 文章中关键词提取方法及装置
CN112579733B (zh) 规则匹配方法、规则匹配装置、存储介质及电子设备
CN111444906B (zh) 基于人工智能的图像识别方法和相关装置
CN116797195A (zh) 工单处理方法、装置、计算机设备和计算机可读存储介质
CN113947086A (zh) 样本数据生成方法、训练方法、语料生成方法和装置
CN115730597A (zh) 多级语义意图识别方法及其相关设备
CN113836316A (zh) 三元组数据的处理方法、训练方法、装置、设备及介质
CN115248890A (zh) 用户兴趣画像的生成方法、装置、电子设备以及存储介质
CN109657710B (zh) 数据筛选方法、装置、服务器及存储介质
CN115186738B (zh) 模型训练方法、装置和存储介质
CN114519105B (zh) 一种概念词语确定方法、装置、电子设备及存储介质
CN116431746A (zh) 基于编码库的地址映射方法、装置、电子设备及存储介质
CN114201607B (zh) 一种信息处理的方法和装置
CN115660695A (zh) 客服人员标签画像构建方法、装置、电子设备及存储介质
CN113032251B (zh) 应用程序服务质量的确定方法、设备和存储介质
CN114398482A (zh) 一种词典构造方法、装置、电子设备及存储介质
CN110781283B (zh) 连锁品牌词库生成方法、装置以及电子设备
RU2549118C2 (ru) Итеративное пополнение электронного словника
JP7168334B2 (ja) 情報処理装置、情報処理方法及びプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant