CN111553163A - 文本相关度的确定方法、装置、存储介质及电子设备 - Google Patents

文本相关度的确定方法、装置、存储介质及电子设备 Download PDF

Info

Publication number
CN111553163A
CN111553163A CN202010350443.9A CN202010350443A CN111553163A CN 111553163 A CN111553163 A CN 111553163A CN 202010350443 A CN202010350443 A CN 202010350443A CN 111553163 A CN111553163 A CN 111553163A
Authority
CN
China
Prior art keywords
text
word
entity
determining
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010350443.9A
Other languages
English (en)
Inventor
徐也
常景冬
邵一峰
邹鹏飞
刘艾婷
荆宁
张红林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Wuhan Co Ltd
Original Assignee
Tencent Technology Wuhan Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Wuhan Co Ltd filed Critical Tencent Technology Wuhan Co Ltd
Priority to CN202010350443.9A priority Critical patent/CN111553163A/zh
Publication of CN111553163A publication Critical patent/CN111553163A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了文本相关度的确定方法、装置、存储介质及电子设备。该方法包括:基于知识库确定与第一文本关联的第一组实体和与第二文本关联的第二组实体,知识库括由实体、实体间的关系及实体属性构成的知识表示;根据知识表示确定第一组实体与第二组实体间的实体相关度;根据第一文本中每个单词间、第二文本中每个单词间以及第一文本中单词与第二文本中单词间的关联关系,确定第一文本和第二文本中每一单词关于其他单词的注意力值;至少根据注意力值和实体相关度确定第一文本与第二文本的文本相关度。本方案中,在文本相关度计算时关注文本内、与文本间各单词之间的关系,进而关注有用信息忽略无用信息,提升了文本相关度计算结果的准确性。

Description

文本相关度的确定方法、装置、存储介质及电子设备
技术领域
本申请涉及信息处理技术领域,具体涉及一种文本相关度的确定方法、装 置、存储介质及电子设备。
背景技术
文本相关度也称为文本的匹配程度,在许多场景下都需要确定不同文本之 间的相关度。例如词条搜索场景,通常在执行搜索时需要确定各个文档中的文 本与搜索查询中词条的相关度,而后基于相关度的高低在搜索结果页面中来呈 现各个相关文档的排序。文本相关度的确定基于对文本的理解,不仅由两个文 本的语义相似度相关,而且还与文本之间的匹配程度相关。尤其对于长文本而 言,因存在信息弥散的问题,容易导致在计算文本相关度时的计算结果的准确 性较低。
发明内容
本申请实施例提供一种文本相关度的确定方法、装置、存储介质及电子设 备,可以提升了文本相关度结算结果的准确性。
本申请实施例提供了一种文本相关度的确定方法,包括:
基于预设知识库确定与第一文本关联的第一组实体和与第二文本关联的 第二组实体,所述预设知识库括由实体、实体之间的关系及实体属性构成的知 识表示;
根据所述知识表示确定所述第一组实体与所述第二组实体之间的实体相 关度;
根据所述第一文本中每个单词之间的关联关系、所述第二文本中每个单词 之间的关联关系以及所述第一文本中单词与所述第二文本中单词之间的关联 关系,确定所述第一文本和所述第二文本中每一单词关于其他单词的注意力 值,其中,所述注意力值用于反映所述第一文本和所述第二文本中每一单词对 其他单词的关注度;
至少根据所述注意力值和所述实体相关度,确定所述第一文本与所述第二 文本的文本相关度。
相应的,本申请实施例还提供了一种文本相关度的确定装置,包括:
实体确定单元,用于基于预设知识库确定与第一文本关联的第一组实体和 与第二文本关联的第二组实体,所述预设知识库括由实体、实体之间的关系及 实体属性构成的知识表示;
第一相关度确定单元,用于根据所述知识表示确定所述第一组实体与所述 第二组实体之间的实体相关度;
注意力确定单元,用于根据所述第一文本中每个单词之间的关联关系、所 述第二文本中每个单词之间的关联关系以及所述第一文本中单词与所述第二 文本中单词之间的关联关系,确定所述第一文本和所述第二文本中每一单词关 于其他单词的注意力值,其中,所述注意力值用于反映所述第一文本和所述第 二文本中每一单词对其他单词的关注度;
第二相关度确定单元,用于至少根据所述注意力值和所述实体相关度,确 定所述第一文本与所述第二文本的文本相关度。
相应的,本申请实施例还提供了一种计算机可读存储介质,所述存储介质 存储有多条指令,所述指令适于处理器进行加载,以执行如上所述的文本相关 度的确定方法。
相应的,本申请实施例还提供了一种电子设备,包括存储器,处理器及存 储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时 实现如上所述的文本相关度的确定方法。
本申请实施例中,基于预设知识库确定与第一文本关联的第一组实体和与 第二文本关联的第二组实体,预设知识库括由实体、实体之间的关系及实体属 性构成的知识表示;根据知识表示确定第一组实体与第二组实体之间的实体相 关度;根据第一文本中每个单词之间、第二文本中每个单词之间以及第一文本 中单词与第二文本中单词之间的关联关系,确定第一文本和第二文本中每一单 词关于其他单词的注意力值;至少根据注意力值和实体相关度,确定第一文本 与第二文本的文本相关度。本方案中,在文本相关度计算时关注文本内、与文 本间各单词之间的关系,进而关注有用信息忽略无用信息,提升了文本相关度 计算结果的准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所 需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请 的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还 可以根据这些附图获得其他的附图。
图1是本申请实施例提供的文本相关度的确定方法的流程示意图。
图2是本申请实施例提供的模型架构示意图。
图3是本申请实施例提供的应用场景的结构示意图。
图4是本申请实施例提供的文本相关度的确定装置的结构示意图。
图5是本申请实施例提供的电子设备的结构示意图。
图6是本申请实施例提供的服务器的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清 楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是 全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳 动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供一种文本相关度的确定方法、装置、存储介质及电子设 备。其中,该文本相关度的确定装置具体可以集成在平板PC(Personal Computer)、手机等具备储存单元并安装有微处理器而具有运算能力的电子设 备中。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,获取知识并使用知识获得最佳结果的理 论、方法、技术及应用***,使机器具有感知、推理与决策的功能。
自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工 智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有 效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学 于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语 言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本 处理、语义理解等技术。
在本方案中,引入了自注意力机制(self-attention),其可模仿生物观察 行为的内部过程,即可将内部经验和外部感觉对齐从而增加部分区域的观察精 细度的机制。通过自注意力机制可以快速提取文本中稀疏数据的重要特征,捕 捉数据或特征的内部相关性对文本信息进行分析处理,从而达到智能化处理文 本目的。
以下分别进行详细说明。需说明的是,以下实施例的序号不作为对实施例 优选顺序的限定。请参阅图1,图1为本申请实施例提供的文本相关度的确定方 法的流程示意图。该文本相关度的确定方法的具体流程可以如下:
101、基于预设知识库确定与第一文本关联的第一组实体和与第二文本关 联的第二组实体,预设知识库括由实体、实体之间的关系及实体属性构成的知 识表示。
其中,第一文本和第二文本分别可以为文本长度较长的文本。在本实施例 中,第一文本可以是待检索文本、第二文本可以是需要与待检索文本进行匹配 的候选文本。具体实施时,以问答场景为例,第一文本可以是用户通过电子设 备输入的问题文本,第二文本可以是针对该问题文本预先在答案库中设定的答 案文本。
例如,问题文本可以为“张三的妻子是谁”,而答案文本可以为“张三的 妻子是李四”、“李四的丈夫是张三”、或者“她出生于1990年2月,职业教 师,曾经……”、“张三的妻子是王五,职业歌手,1880年5月出生于S市……” 等一系列答案。可以看出,对于一个问题文本而言,答案文本的选择是有很多 的,为了节省用户准确查找到最相关答案的时间,如何根据答案与问题的相关 度对答案文本进行排序就变得尤其重要。
预设知识库,也即知识图谱或知识图。其中,实体指的是真实世界中存在 的各种对象和概念,诸如人物、地理位置、组织、品牌、职业、日期等等。实 体之间的关系指代两个实体之间的关联;实体属性指代实体本身的性质。以人 物为例,其属性可以包括职业、生日、代表作、年龄、身高、体重、性别等。 实体的属性有时也可以被认为是实体的一种名词性关系,因此知识库描述了各 个实体的一个或多个关系。以上述举例的问题文本、答案文本为例,实体可包 括人物“张三”和“李四”,实体属性可包括职业“教师”、日期“1990 年2月”,实体之间的关系可包括张三与李四之间的夫妻关系。
为了方便计算机的处理和理解,预设知识库中的知识可以以三元组“主语 -谓语-宾语(Subject-Predication-Object,SPO)”的形式来表示,如:(第一实 体,关系/属性,第二实体)。例如,知识“张三的妻子是李四”可以用三元组 表示为(张三,妻子,李四)。在本文中,关系或属性(诸如,妻子)也被称为 “谓词”,具有相应关系或属性的两个实体可以作为“主语”或“宾语”。如 果将一个实体看作是一个结点,将实体间的关系和属性等看作是一条边,那么 包含了大量三元组的知识库就形成了庞大的知识图。通过将实体、关系/属性 等知识元素进行关联,可以从知识库中容易地获取相应知识。
102、根据知识表示确定第一组实体与第二组实体之间的实体相关度。
其中,实体相关度为第一组实体与第二组实体两组间实体匹配程度的量化 表示,可以表示为第一组实体与第二组实体组间每一实体与另一组中各实体的 相似程度。在本实施例中,该相似程度具体可以由实体的词共现度、实体的本 质共现度确定。其中实体的词共现度可以表示第一组实体与第二组实体中的词 重合率,实体的本质共现度表示第一组实体与第二组实体中相同实体词对应的 实体标识的重合率。实际应用中,以上实体的词共现度、实体的本质共现度可 以由人工计算得到,可作为第一文本与第二文本相关度计算的浅层特征。
本实施例中,可以利用文本实体关联技术,识别出第一文本与第二文本中 的实体,并将其连接到知识图谱相应节点中。考虑到知识图谱收录的实体无法 保证完全覆盖,因此可同时利用从文本中识别的实体词(即实体mention)与 实体在预设知识库中的实体标识(即实体ID)对问题与答案的相关性进行描述。 也即,在根据知识表示确定第一组实体与第二组实体之间的实体相关度时,可 以包括以下流程:
(11)确定第一组实体和第二组实体中具有相同命名的实体的第一数目;
(12)确定第一组实体和第二组实体中在知识库中具有相同标识的实体的 第二数目,其中,实体的标识在预设知识库中唯一标识实体;
(13)根据第一数目、第二数目确定实体相关度。
具体的,可以根据预设知识库中的知识表示确定,确定第一组实体和第二 组实体中在知识库中具有相同标识的实体的第二数目。即通过知识表示确定第 一组实体和第二组实体中实体关系和实体属性等都相同的实体。
以问答场景为例,针对实体mention,可利用预训练的词向量mention embedding分别计算待检索文本与候选文本的实体mention相似度;针对实体 ID,可直接将待检索文本与候选文本中的实体词进行匹配,匹配结果作为实体 粒度的相似度。也即,在一些实施例中,第一文本为待检索文本,所述第二文 本为候选文本。则步骤“根据所述第一数目、第二数目确定所述实体相关度”, 可以包括以下流程:
基于第一数目和第一组实体的实体数目,确定待检索文本和候选文本的实 体词相似度;
基于第二数目和第一组实体的实体数目,确定待检索文本和候选文本的实 体标识相似度;
根据实体词相似度和实体标识相似度,确定实体相关度。
其中,在根据实体词相似度和实体标识相似度确定实体相关度时,可以将 实体词相似度和实体标识相似度共同作为实体相关度;也可以基于相应的权重 信息对实体词相似度和实体标识相似度进行加权处理,得到实体相关度。
关于实体mention相似度,其计算公式如下:
Figure RE-GDA0002532524300000061
其中:
Figure BDA0002471640300000062
其中,mention_qi为第一文本中第i个实体词的向量表示,mention_dj为第 二文本中第j个实体词的向量表示,n表示第一实体词组中实体词的数量,m表 示第二文本中实体词的数量,且n、m均为大于等于1的整数。上述公式指示, 针对第一文本中各实体词的向量表示中的任一个,确定与第二文本的各实体词 的向量表示之间的差异,然后选择最大差异值。针对第一文本中的所有实体词 的向量表示,统计所选择的相应最大差异值之和,并且在第一文本的实体词数 目上取平均,将取平均得到的值作为第一文本与第二文本的实体mention相似 度。
关于实体ID相似度,其计算公式如下:
Figure RE-GDA0002532524300000071
其中:
Figure BDA0002471640300000072
其中,id_qi为第一组实体中第i个实体,id_dj为第二组实体中第j个实体, n表示第一实体组中实体的数量,m表示第二实体组中实体的数量,且n、m均 为大于等于1的整数。上述公式指示,针对第一组实体中的任一个,确定在第 二组实体中是否存在具有相同标识的实体。然后将第一组实体中具有相同标识 的实体的数目与第一组中的总实体数目n的比例用于指示实体ID的相似度。可 以理解,确定两组实体之间在标识级别上的相似度。
例如,待检索文本mentions包括:小A(ID1)、E大学(ID2);候选文本 1mentions:小A(ID3)、小B(ID4)、小C(ID5)、小D(ID6);候选文 本2mentions:小A(ID1)、教授(ID7)、E大学(ID8)。
则,关于待检索文本和候选文本1的mention相似度:即待检索文本mention 个数为2作为分母,待检索文本mention和候选文本1mention中交集有1个(即 小A)作为分子,得到实体mention相似度为:1/2;
关于待检索文本和候选文本1的ID相似度:即待检索文本ID个数为2,作 为分母,待检索文本ID和候选文本1ID中没有交集,所以分子为0,得到实体 ID相似度为:0/2;
关于待检索文本和候选文本2的mention相似度:即待检索文本mention个数 为2作为分母;待检索文本mention和候选文本1mention中交集有1个(即小A), 作为分子,得到实体mention相似度为1/2;
关于待检索文本和候选文本2的ID相似度:因即待检索文本ID个数为2作 为分母,待检索文本ID和候选文本1ID中交集有1个(即ID1)作为分子,得到 实体ID相似度为:1/2。
103、根据第一文本中每个单词之间的关联关系、第二文本中每个单词之 间的关联关系以及第一文本中单词与第二文本中单词之间的关联关系,确定第 一文本和第二文本中每一单词关于其他单词的注意力值,其中,注意力值用于 反映第一文本和第二文本中每一单词对其他单词的关注度。
在一些实施例中,在对文本做深度表示时会通过在表示层中引入了RNN 来对文本进行处理,然而由于RNN只关注单词本身的词性,使得对于较长的句 文本则会存在信息弥散的问题。
例如,以某华的妻子为某倩的问答场景为例,问题为:“某华的妻子是谁”, 而答案是较长的文本为:“1984年,她和姐妹参加某国的某比赛获得季军,之 后赴某国学美容;1985年至1987年间做过平面模特;2008年6月23日与某华在 某地注册结婚”。可知,“结婚”与某华的妻子“某倩”的距离较长,通过RNN 是无法建模长距离实体间的关系的。因此,本方案中可通过引入self-attention 机制到这一场景中,由于self-attention机制可关注文本内部各个单词间的依赖 关系、学习句子内部结构的特性,可有效解决长距离单词依赖的问题。也即, 在本方案中可通过学习文本内部的单词与单词之间的关联关系、以及文本间的 单词与单词之间的关联关系来确定各个单词之间的依赖关系,判断出各单词对 于文本而言的重要程度(即关注度),在输出文本的深度表示时增加对注意力 值较高的单词的关注程度、减弱对注意力值较低的单词的关注程度,从而保留 对于文本本身而言相关度高的“有用信息”、去除相关度较低的“无用信息”。
在一些实施例中,在根据第一文本中每个单词之间的关联关系、第二文本 中每个单词之间的关联关系以及第一文本中单词与第二文本中单词之间的关 联关系,对拼接矩阵进行处理,得到处理后矩阵时,具体可以:根据第一文本 中每个单词之间的关联关系、及第一文本中单词与第二文本中单词之间的关联 关系,计算第一文本中每个单词与其他单词之间的相关度;根据第二文本中每 个单词之间的关联关系、及第一文本中单词与第二文本中单词之间的关联关 系,计算第二文本中每个单词与其他单词之间的相关度。最后,根据第一文本 中每个单词与其他单词之间的相关度、及第二文本中每个单词与其他单词之间 的相关度,确定第一文本和第二文本中每一单词关于其他单词的注意力值。
本实施例中,可以通过引入self-attention自注意力机制针对文本中不同的 单词或实体,找到与其最相关的上下文,并加权得到最终的隐层表示。在 self-attention机制中,每个单词有3个不同的向量,它们分别是Query向量(Q), Key向量(K)和Value向量(V),长度均是64。它们是通过3个不同的权值矩 阵由该单词的嵌入向量X乘以三个不同的权值矩阵WQ、WK、WV得到。其中, 三个权值矩阵WQ、WK、WV的尺寸都是相同的,例如尺寸可以为:512x 64。
具体实施时,可将输入的单词或实体转化成嵌入向量,然后根据嵌入向量 得到Q,K,V三个向量。将每个单词或实体计算一个与其他单词或实体的相 关度score(代表相关度),即socre=Q*K。为了梯度的稳定,可以利用激 活函数softmax对每个score进行数值归一化处理。将归一化处理后的值点乘 每个单词或实体的Value向量向量V,得到加权的每个输入向量的评分V,并 相加之后得到最终的输出结果:Z=sum(V),作为所述输入单词或实体的注意 力向量,通过对该注意力向量进行处理可以得到每一单词或实体的注意力值。
可知,通过计算不同词间的相关度,能够表征词与词之间的注意力大小, 进而保留“有用信息”去除“无用信息”,通过该自注意力机制的引入能够很好的 表示长文本。
参考图2,图2为本申请实施例提供的模型架构示意图。在一些实施例中, 需要预先分别构建第一文本对应的特征矩阵以及第二文本对应的特征矩阵,得 到第一特征矩阵和第二特征矩阵;将第一特征矩阵和第二特征矩阵进行拼接, 得到拼接矩阵。则,在根据第一文本中每个单词与其他单词之间的相关度、及 第二文本中每个单词与其他单词之间的相关度,确定第一文本和第二文本中每 一单词关于其他单词的注意力值时,具体可以对第一文本中每个单词与其他单 词之间的相关度、及第二文本中每个单词与其他单词之间的相关度进行归一化 处理,根据归一化处理后的相关度对拼接矩阵加权处理,得到加权后矩阵,基 于加权后矩阵确定第一文本和第二文本中每一单词关于其他单词的注意力值。
在一些实施例中,在分别构建第一文本对应的特征矩阵以及第二文本对应 的特征矩阵,得到第一特征矩阵和第二特征矩阵时,具体可以包括以下流程:
(21)对第一文本和第二文本进行分词处理,得到第一文本关联的第一组 单词和第二文本关联的第二组单词;
(22)基于第一组单词中每一单词、及每一单词在第一文本中的位置,构 建第一组单词中每一单词的第一向量表示;
(23)基于第二组单词中每一单词、及每一单词在第二文本中的位置,构 建第二组单词中每一单词的第二向量表示;
(24)至少根据构建的第一向量表示确定第一特征矩阵、以及至少根据构 建的第二向量表示确定第二特征矩阵。
具体的,首先针对输第一文本和第二文本,可通过word segment分词技术 (如Yaha分词、Jieba分词等)对第一文本和第二文本进行分词处理,并进行去 除停用词、清除标点符号、表情符号转换等处理操作,以将第一文本和第二文 本分别切分成单独的词语,得到第一文本关联的第一组单词和第二文本关联的 第二组单词。
本实施例中,可以通过结合单词本身词性、及单词在文本中的位置构建向 量表示,以更好地表达该单词在文本中的实际语义。也即,上述构建件的第一 向量表示、第二向量表示均包括:词嵌入向量(word embeddings)和位置嵌 入向量(position embeddings)。其中,词嵌入向量为文本中每个单词被映射 在实数域上的向量表示;位置嵌入向量为文本中每个单词在文本中的位置被映 射在实数域上的向量表示。
具体的,对于word embeddings,首先利用知识图谱已存储的实体SPO三元 组信息,基于cbow的方式训练词级别的embedding,以达到有一关系的实体的 embedding会相近的目的。本方案中通过利用实体的SPO三元组信息,更能刻 画关系相近实体的相似度。由于输入SPO信息较短,因此在具体实施时可将词 窗设置为1。
对于position embedding,引入目的是为了建模词序。例如,以将单词的位 置为p映射在一个dpos维的向量PE为例,其计算方式如下:
Figure BDA0002471640300000111
其中,上述公式标识向量PE的第i个元素的数值就是PEi(p),其中,PE2i为偶数位,PE2i+1为奇数位)。实际应用中,由于sin(α+β)=sinαcosβ+cosαsinβ、 cos(α+β)=cosαcosβ-sinαsinβ,因此,在本实施例中可通过这种表达方式可将位 置p+k的向量表示成位置p的向量的线性变换,提供了表达相对位置信息的可能 性。
随后,可利用预设模型(参考图2)中的深度表示层对切分得到的单词构 建向量表示、构建特征矩阵、矩阵变换、提取矩阵的特征向量等操作,针对文 本中不同的单词或实体,找到与其最相关的上下文,并加权输出最终的隐层表 示。
参考图2和图3,在一些实施例中,在至少根据构建的第一向量表示确定第 一特征矩阵时,具体可以包括以下流程:
将构建的第一向量表示进行拼接,得到第一子矩阵;
基于预设知识库从第一组单词中识别第一实体词,从预设知识库中确定第 一实体词相关的第一知识元素,并按照第一实体词在第一文本中的位置、及第 一知识元素构成的知识表示,将第一知识元素的向量表示进行拼接得到第二子 矩阵,其中,第一知识元素包括:与第一实体词对应在预设知识库中的第一目 标实体存在关系的第一相关实体、第一目标实体与第一相关实体之间的关系和 /或第一目标实体的实体属性;
基于第一子矩阵和第二子矩阵确定第一特征矩阵。
具体的,在进行实体词识别时,可以采用实体链接技术从第一组单词中识 别出实体词。在基于第一子矩阵和第二子矩阵确定第一特征矩阵时,可以直接 将于第一子矩阵和第二子矩阵进行拼接得到第一特征矩阵。其中,该第一特征 矩阵融合了第一文本中的各单词的word embedding、各单词在第一文本中位置 的、以及第一文本中各实体词的entityembedding。需要说明的是,实体嵌入向 量(entity embedding)为第一文本中每个实体词的相关知识元素被映射在实数 域上的向量表示。
本方案中,将实体的SPO建模成加法关系(即S+P=O)进行模型训练,目 标是使S的embedding与P的embedding的和尽可能等于O的embedding。如此训 练过后,使得S、P、O的embedding刻画的就是成立关系,即通过某实体的相 关知识元素的向量表示来刻画该实体,使相关知识元素的向量表示结合后的向 量表示与该实体本身的向量表示的距离尽可能接近。
例如,以SPO三元组知识表示为(张三,夫妻,李四)为例,若文本中实体 词为“张三”,则可通过获取实体词“张三”的相关知识元素(即相关实体“李 四”、实体间关系“夫妻”)的向量表示,作为实体词“张三”的entity embedding。
继续参考图2和图3,在至少根据构建的第二向量表示确定第二特征矩阵 时,具体可以包括以下流程:
将构建的第二向量表示进行拼接,得到第三子矩阵;
基于所述预设知识库从第二组单词中识别第二实体词,从所述预设知识库 中确定第二实体词相关的第二知识元素,并按照第二实体词在第二文本中的位 置、及第二知识元素构成的知识表示,将第二知识元素的向量表示进行拼接, 得到第四子矩阵,其中,第二知识元素包括:与第二实体词对应在预设知识库 中的第二目标实体存在关系的第二相关实体、第二目标实体与第二相关实体之 间的关系和/或第二目标实体的实体属性;
基于第三子矩阵和第四子矩阵确定第二特征矩阵。
同样的,在进行实体词识别时,可以采用实体链接技术从第二组单词中识 别出实体词。在基于第三子矩阵和第四子矩阵确定第二特征矩阵时,可以直接 将于第三子矩阵和第四子矩阵进行拼接得到第二特征矩阵。其中,该第二特征 矩阵融合了第二文本中的各单词的word embedding、各单词在第二文本中位置 的、以及第二文本中各实体词的entityembedding。需要说明的是,实体嵌入向 量为第二文本中每个实体词的相关知识元素被映射在实数域上的向量表示。
可知,本方案中的自注意力值综合了第一文本与第二文本中各单词的词嵌 入、位置嵌入和实体嵌入等深度特征的向量表示,通过深度表示层引入的self-attention机制对以上深度特征的向量表示构成的特征矩阵进行变换计算, 输出最终的隐层表示即为注意力向量。其中,该注意力向量可以是尺寸为1xn 的一维向量。该一维向量中则包含了第一文本和第二文本中每一单词关于其他 单词的注意力值。
104、至少根据注意力值和实体相关度,确定第一文本与第二文本的文本 相关度。
实际应用中,由于往往答案文本中出现越多问题文本中的词,则答案与问 题越相关。由于相比于答案来说问题相对较短,因此可利用答案文本中覆盖的 问题词比例,构建问题与答案词共现度特征,并可结合第一文本与第二文本之 间的词共现度进行文本相关度的计算。
也即,在确定第一文本与第二文本的相关度之前,还可以确定第一文本和 第二文本中相同单词的第三数目,并根据第三数目和第一文本中的单词数目, 确定第一文本和第二文本的词相关度。则在根据注意力值和实体相关度,确定 第一文本与第二文本的文本相关度时,具体可以根据注意力值、实体相关度和 词相关度,确定第一文本与第二文本的文本相关度。
另外,在其他实施例中,在计算文本相关度时还可以引入第一文本与第二 文本自身统计信息相关的特征。例如,相关特征可以包括第一文本字符长度和 词长度、第二文本字符长度和词长度、答案文本(即第二文本)来源置信度、 问题文本(即第一文本)分类与答案文本(即第二文本)分类相似度等特征, 其可以根据实际需求自行定义。
具体的,继续参考图3,在计算文本相关度时,可提取第一文本与第二文 本的浅层特征(即问题文本与答案文本的词共现度、问题文本与答案文本的实 体共现度、问题文本与答案文本的词长度、问题文本与答案文本的字符长度、 答案文本的置信度、问题文本与答案文本的分类相似度等等),并对浅层特征 构建特征向量(通常为一维特征向量)。随后,将构建的特征向量与模型的深 度表示层输出的特征向量(其表示了第一文本和第二文本中每一单词关于其他 单词的注意力值注意力值)进行拼接,得到拼接向量。最后,利用softmax激 活函数对拼接向量进行归一化处理,求得问题文本与答案文本的文本相关度。
实际应用中,以在某检索库中针对某问题进行相关答案搜索的场景为例, 在求得问题文本与每一答案文本之间的文本相关度之后,可基于文本相关度的 大小对各个答案文本进行排序显示,将文本相关度较大的答案文本显示在前 面,将相关度较小的答案文本显示在后面,从而提升准确答案的曝光度。
本申请实施例提供的文本相关度的确定方法,基于预设知识库确定与第一 文本关联的第一组实体和与第二文本关联的第二组实体,预设知识库括由实 体、实体之间的关系及实体属性构成的知识表示;根据知识表示确定第一组实 体与第二组实体之间的实体相关度;根据第一文本中每个单词之间、第二文本 中每个单词之间以及第一文本中单词与第二文本中单词之间的关联关系,确定 第一文本和第二文本中每一单词关于其他单词的注意力值;至少根据注意力值 和实体相关度,确定第一文本与第二文本的文本相关度。本方案中,在文本相 关度计算时关注文本内各单词、与文本间各单词之间的关系,并基于此关系提 升有用信息的权重、降低对无用信息的权重,提升了文本相关度计算结果的准 确性。
为便于更好的实施本申请实施例提供的文本相关度的确定方法,本申请实 施例还提供一种基于上述文本相关度的确定方法的装置。其中名词的含义与上 述文本相关度的确定方法中相同,具体实现细节可以参考方法实施例中的说 明。
请参阅图4,图4为本申请实施例提供的文本相关度的确定装置的结构示意 图,其中该处理装置可以包括:实体确定单元301、第一相关度确定单元302、 注意力确定单元303、及第二相关度确定单元304。具体可以如下:
实体确定单元301,用于基于预设知识库确定与第一文本关联的第一组实 体和与第二文本关联的第二组实体,所述预设知识库括由实体、实体之间的关 系及实体属性构成的知识表示;
第一相关度确定单元302,用于根据所述知识表示确定所述第一组实体与 所述第二组实体之间的实体相关度;
注意力确定单元303,用于根据所述第一文本中每个单词之间的关联关系、 所述第二文本中每个单词之间的关联关系以及所述第一文本中单词与所述第 二文本中单词之间的关联关系,确定所述第一文本和所述第二文本中每一单词 关于其他单词的注意力值,其中,所述注意力值用于反映所述第一文本和所述 第二文本中每一单词对其他单词的关注度;
第二相关度确定单元304,用于至少根据所述注意力值和所述实体相关度, 确定所述第一文本与所述第二文本的文本相关度。
在一些实施例中,所述注意力确定单元303,可以用于:
根据所述第一文本中每个单词之间的关联关系、及所述第一文本中单词与 所述第二文本中单词之间的关联关系,计算所述第一文本中每个单词与其他单 词之间的相关度;
根据所述第二文本中每个单词之间的关联关系、及所述第一文本中单词与 所述第二文本中单词之间的关联关系,计算所述第二文本中每个单词与其他单 词之间的相关度;
根据所述第一文本中每个单词与其他单词之间的相关度、及所述第二文本 中每个单词与其他单词之间的相关度,确定所述第一文本和所述第二文本中每 一单词关于其他单词的注意力值
在一些实施例中,该装置还可以包括:
构建单元,用于分别构建第一文本对应的特征矩阵以及第二文本对应的特 征矩阵,得到第一特征矩阵和第二特征矩阵;
拼接单元,用于将所述第一特征矩阵和所述第二特征矩阵进行拼接,得到 拼接矩阵;
所述注意力单元303还可以用于:
对所述第一文本中每个单词与其他单词之间的相关度、及所述第二文本中 每个单词与其他单词之间的相关度进行归一化处理;
根据归一化处理后的相关度对所述拼接矩阵加权处理,得到加权后矩阵;
基于所述加权后矩阵确定所述第一文本和所述第二文本中每一单词关于 其他单词的注意力值。
在一些实施例中,构建单元具体可以用于:
对第一文本和第二文本进行分词处理,得到所述第一文本关联的第一组单 词和所述第二文本关联的第二组单词;
基于所述第一组单词中每一单词、及每一单词在第一文本中的位置,构建 所述第一组单词中每一单词的第一向量表示;
基于所述第二组单词中每一单词、及每一单词在第二文本中的位置,构建 所述第二组单词中每一单词的第二向量表示;
至少根据构建的第一向量表示确定第一特征矩阵、以及至少根据构建的第 二向量表示确定第二特征矩阵。
在一些实施例中,构建单元进一步可以用于:
将构建的第一向量表示进行拼接,得到第一子矩阵;
基于所述预设知识库从第一组单词中识别第一实体词,从所述预设知识库 中确定第一实体词相关的第一知识元素,并按照第一实体词在第一文本中的位 置、及第一知识元素构成的知识表示,将第一知识元素的向量表示进行拼接得 到第二子矩阵,其中,第一知识元素包括:与第一实体词对应在预设知识库中 的第一目标实体存在关系的第一相关实体、第一目标实体与第一相关实体之间 的关系和/或第一目标实体的实体属性;以及
将构建的第二向量表示进行拼接,得到第三子矩阵;
基于所述预设知识库从第二组单词中识别第二实体词,从所述预设知识库 中确定第二实体词相关的第二知识元素,并按照第二实体词在第二文本中的位 置、及第二知识元素构成的知识表示,将第二知识元素的向量表示进行拼接, 得到第四子矩阵,其中,第二知识元素包括:与第二实体词对应在预设知识库 中的第二目标实体存在关系的第二相关实体、第二目标实体与第二相关实体之 间的关系和/或第二目标实体的实体属性;
基于第三子矩阵和第四子矩阵确定所述第二特征矩阵。
在一些实施例中,所述第一相关度确定单元302可以用于:
确定第一组实体和第二组实体中具有相同命名的实体的第一数目;
确定第一组实体和第二组实体中在所述知识库中具有相同标识的实体的 第二数目,其中,实体的标识在所述预设知识库中唯一标识实体;
根据所述第一数目、第二数目确定所述实体相关度。
在一些实施例中,所述第一文本为待检索文本,所述第二文本为候选文本; 第一相关度确定单元302进一步可以用于:
基于所述第一数目和所述第一组实体的实体数目,确定所述待检索文本和 所述候选文本的实体词相似度;
基于所述第二数目和所述第一组实体的实体数目,确定所述待检索文本和 所述候选文本的实体标识相似度;
根据所述实体词相似度和所述实体标识相似度,确定所述实体相关度。
在一些实施例中,该装置还可以包括第三相关度确定单元,用于:
确定所述第一文本和所述第二文本中相同单词的第三数目;
根据所述第三数目和第一文本中的单词数目,确定所述第一文本和所述第 二文本的词相关度;
所述第二相关度单元具体可以用于:
根据所述注意力值、所述实体相关度和所述词相关度,确定所述第一文本 与所述第二文本的文本相关度。
本方案提供的文本相关度确定方法,基于预设知识库确定与第一文本关联 的第一组实体和与第二文本关联的第二组实体,预设知识库括由实体、实体之 间的关系及实体属性构成的知识表示;根据知识表示确定第一组实体与第二组 实体之间的实体相关度;根据第一文本中每个单词之间、第二文本中每个单词 之间以及第一文本中单词与第二文本中单词之间的关联关系,确定第一文本和 第二文本中每一单词关于其他单词的注意力值;至少根据注意力值和实体相关 度,确定第一文本与第二文本的文本相关度。本方案中,在文本相关度计算时 关注文本内各单词、与文本间各单词之间的关系,并基于此关系提升有用信息 的权重、降低对无用信息的权重,提升了文本相关度计算结果的准确性。
本申请实施例还提供一种电子设备,该电子设备具体可以是智能手机、平 板电脑等终端设备。如图5所示,该电子设备可以包括射频(RF,Radio Frequency)电路601、包括有一个或一个以上计算机可读存储介质的存储器 602、输入单元603、显示单元604、传感器605、音频电路606、无线保真(WiFi, Wireless Fidelity)模块607、包括有一个或者一个以上处理核心的处理器608、 以及电源609等部件。本领域技术人员可以理解,图5中示出的电子设备结构 并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
RF电路601可用于收发信息或通话过程中,信号的接收和发送,特别地, 将基站的下行信息接收后,交由一个或者一个以上处理器608处理;另外,将 涉及上行的数据发送给基站。通常,RF电路601包括但不限于天线、至少一 个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM,Subscriber Identity Module)卡、收发信机、耦合器、低噪声放大器(LNA,Low Noise Amplifier)、 双工器等。此外,RF电路601还可以通过无线通信与网络和其他设备通信。 所述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯*** (GSM,Global System of Mobile communication)、通用分组无线服务(GPRS,General Packet Radio Service)、码分多址(CDMA,Code Division Multiple Access)、宽带码分多址(WCDMA,Wideband Code Division Multiple Access)、 长期演进(LTE,LongTerm Evolution)、电子邮件、短消息服务(SMS,Short Messaging Service)等。
存储器602可用于存储软件程序以及模块,处理器608通过运行存储在存 储器602的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器 602可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、 至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存 储数据区可存储根据电子设备的使用所创建的数据(比如音频数据、电话本等) 等。此外,存储器602可以包括高速随机存取存储器,还可以包括非易失性存 储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。 相应地,存储器602还可以包括存储器控制器,以提供处理器608和输入单元 603对存储器602的访问。
输入单元603可用于接收输入的数字或字符信息,以及产生与用户设置以 及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地, 在一个具体的实施例中,输入单元603可包括触敏表面以及其他输入设备。触 敏表面,也称为触摸显示屏或者触控板,可收集用户在其上或附近的触摸操作 (比如用户使用手指、触笔等任何适合的物体或附件在触敏表面上或在触敏表 面附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触敏 表面可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用 户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸 控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理 器608,并能接收处理器608发来的命令并加以执行。此外,可以采用电阻式、 电容式、红外线以及表面声波等多种类型实现触敏表面。除了触敏表面,输入 单元603还可以包括其他输入设备。具体地,其他输入设备可以包括但不限于 物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作 杆等中的一种或多种。
显示单元604可用于显示由用户输入的信息或提供给用户的信息以及电 子设备的各种图形用户接口,这些图形用户接口可以由图形、文本、图标、视 频和其任意组合来构成。显示单元604可包括显示面板,可选的,可以采用液 晶显示器(LCD,Liquid CrystalDisplay)、有机发光二极管(OLED,Organic Light-Emitting Diode)等形式来配置显示面板。进一步的,触敏表面可覆盖显 示面板,当触敏表面检测到在其上或附近的触摸操作后,传送给处理器608 以确定触摸事件的类型,随后处理器608根据触摸事件的类型在显示面板上提 供相应的视觉输出。虽然在图5中,触敏表面与显示面板是作为两个独立的部 件来实现输入和输入功能,但是在某些实施例中,可以将触敏表面与显示面板 集成而实现输入和输出功能。
电子设备还可包括至少一种传感器605,比如光传感器、运动传感器以及 其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环 境光传感器可根据环境光线的明暗来调节显示面板的亮度,接近传感器可在电 子设备移动到耳边时,关闭显示面板和/或背光。作为运动传感器的一种,重 力加速度传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检 测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关 游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于电子设备还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他 传感器,在此不再赘述。
音频电路606、扬声器,传声器可提供用户与电子设备之间的音频接口。 音频电路606可将接收到的音频数据转换后的电信号,传输到扬声器,由扬声 器转换为声音信号输出;另一方面,传声器将收集的声音信号转换为电信号, 由音频电路606接收后转换为音频数据,再将音频数据输出处理器608处理后, 经RF电路601以发送给比如另一电子设备,或者将音频数据输出至存储器602 以便进一步处理。音频电路606还可能包括耳塞插孔,以提供外设耳机与电子 设备的通信。
WiFi属于短距离无线传输技术,电子设备通过WiFi模块607可以帮助用 户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互 联网访问。虽然图5示出了WiFi模块607,但是可以理解的是,其并不属于 电子设备的必须构成,完全可以根据需要在不改变发明的本质的范围内而省 略。
处理器608是电子设备的控制中心,利用各种接口和线路连接整个手机的 各个部分,通过运行或执行存储在存储器602内的软件程序和/或模块,以及 调用存储在存储器602内的数据,执行电子设备的各种功能和处理数据,从而 对手机进行整体监控。可选的,处理器608可包括一个或多个处理核心;优选 的,处理器608可集成应用处理器和调制解调处理器,其中,应用处理器主要 处理操作***、用户界面和应用程序等,调制解调处理器主要处理无线通信。 可以理解的是,上述调制解调处理器也可以不集成到处理器608中。
电子设备还包括给各个部件供电的电源609(比如电池),优选的,电源 可以通过电源管理***与处理器608逻辑相连,从而通过电源管理***实现管 理充电、放电、以及功耗管理等功能。电源609还可以包括一个或一个以上的 直流或交流电源、再充电***、电源故障检测电路、电源转换器或者逆变器、 电源状态指示器等任意组件。
尽管未示出,电子设备还可以包括摄像头、蓝牙模块等,在此不再赘述。 具体在本实施例中,电子设备中的处理器608会按照如下的指令,将一个或一 个以上的应用程序的进程对应的可执行文件加载到存储器602中,并由处理器 608来运行存储在存储器602中的应用程序,从而实现各种功能:
基于预设知识库确定与第一文本关联的第一组实体和与第二文本关联的 第二组实体,所述预设知识库括由实体、实体之间的关系及实体属性构成的知 识表示;根据所述知识表示确定所述第一组实体与所述第二组实体之间的实体 相关度;根据所述第一文本中每个单词之间的关联关系、所述第二文本中每个 单词之间的关联关系以及所述第一文本中单词与所述第二文本中单词之间的 关联关系,确定所述第一文本和所述第二文本中每一单词关于其他单词的注意 力值,其中,所述注意力值用于反映所述第一文本和所述第二文本中每一单词 对其他单词的关注度;至少根据所述注意力值和所述实体相关度,确定所述第 一文本与所述第二文本的文本相关度。
本申请实施例提供的电子设备,可在文本相关度计算时关注文本内各单 词、与文本间各单词之间的关系,并基于此关系提升有用信息的权重、降低对 无用信息的权重,提升了文本相关度计算结果的准确性。
本申请实施例还提供一种服务器,该服务器具体可以是应用服务器。如图 6所示,该服务器可以包括射频(RF,Radio Frequency)电路701、包括有一 个或一个以上计算机可读存储介质的存储器702、包括有一个或者一个以上处 理核心的处理器704、以及电源703等部件。本领域技术人员可以理解,图6 中示出的服务器结构并不构成对服务器的限定,可以包括比图示更多或更少的 部件,或者组合某些部件,或者不同的部件布置。其中:
RF电路701可用于收发信息或通话过程中,信号的接收和发送,特别地, 将基站的下行信息接收后,交由一个或者一个以上处理器704处理;另外,将 涉及上行的数据发送给基站。通常,RF电路701包括但不限于天线、至少一 个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM,Subscriber Identity Module)卡、收发信机、耦合器、低噪声放大器(LNA,Low Noise Amplifier)、 双工器等。此外,RF电路701还可以通过无线通信与网络和其他设备通信。 所述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯*** (GSM,Global System of Mobile communication)、通用分组无线服务(GPRS,General Packet Radio Service)、码分多址(CDMA,Code Division Multiple Access)、宽带码分多址(WCDMA,Wideband Code Division Multiple Access)、 长期演进(LTE,LongTerm Evolution)、电子邮件、短消息服务(SMS,Short Messaging Service)等。
存储器702可用于存储软件程序以及模块,处理器704通过运行存储在存 储器702的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器 702可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、 至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存 储数据区可存储根据服务器的使用所创建的数据(比如音频数据、电话本等) 等。此外,存储器702可以包括高速随机存取存储器,还可以包括非易失性存 储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。 相应地,存储器702还可以包括存储器控制器,以提供处理器704和输入单元 703对存储器702的访问。
处理器704是服务器的控制中心,利用各种接口和线路连接整个手机的各 个部分,通过运行或执行存储在存储器702内的软件程序和/或模块,以及调 用存储在存储器702内的数据,执行服务器的各种功能和处理数据,从而对手 机进行整体监控。可选的,处理器704可包括一个或多个处理核心;优选的, 处理器704可集成应用处理器和调制解调处理器,其中,应用处理器主要处理 操作***、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以 理解的是,上述调制解调处理器也可以不集成到处理器704中。
服务器还包括给各个部件供电的电源703(比如电池),优选的,电源可 以通过电源管理***与处理器704逻辑相连,从而通过电源管理***实现管理 充电、放电、以及功耗管理等功能。电源703还可以包括一个或一个以上的直 流或交流电源、再充电***、电源故障检测电路、电源转换器或者逆变器、电 源状态指示器等任意组件。
具体在本实施例中,服务器中的处理器704会按照如下的指令,将一个或 一个以上的应用程序的进程对应的可执行文件加载到存储器702中,并由处理 器704来运行存储在存储器702中的应用程序,从而实现各种功能:
基于预设知识库确定与第一文本关联的第一组实体和与第二文本关联的 第二组实体,所述预设知识库括由实体、实体之间的关系及实体属性构成的知 识表示;根据所述知识表示确定所述第一组实体与所述第二组实体之间的实体 相关度;根据所述第一文本中每个单词之间的关联关系、所述第二文本中每个 单词之间的关联关系以及所述第一文本中单词与所述第二文本中单词之间的 关联关系,确定所述第一文本和所述第二文本中每一单词关于其他单词的注意 力值,其中,所述注意力值用于反映所述第一文本和所述第二文本中每一单词 对其他单词的关注度;至少根据所述注意力值和所述实体相关度,确定所述第 一文本与所述第二文本的文本相关度。
本申请实施例提供的电子设备,可在文本相关度计算时关注文本内各单 词、与文本间各单词之间的关系,并基于此关系提升有用信息的权重、降低对 无用信息的权重,提升了文本相关度计算结果的准确性。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步 骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储 于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本申请实施例提供一种计算机可读存储介质,其中存储有多条指令, 该指令能够被处理器进行加载,以执行本申请实施例所提供的任一种文本相关 度的确定方法中的步骤。例如,该指令可以执行如下步骤:
基于预设知识库确定与第一文本关联的第一组实体和与第二文本关联的 第二组实体,所述预设知识库括由实体、实体之间的关系及实体属性构成的知 识表示;根据所述知识表示确定所述第一组实体与所述第二组实体之间的实体 相关度;根据所述第一文本中每个单词之间的关联关系、所述第二文本中每个 单词之间的关联关系以及所述第一文本中单词与所述第二文本中单词之间的 关联关系,确定所述第一文本和所述第二文本中每一单词关于其他单词的注意 力值,其中,所述注意力值用于反映所述第一文本和所述第二文本中每一单词 对其他单词的关注度;至少根据所述注意力值和所述实体相关度,确定所述第 一文本与所述第二文本的文本相关度。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
其中,该存储介质可以包括:只读存储器(ROM,Read Only Memory)、 随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该存储介质中所存储的指令,可以执行本申请实施例所提供的任一种 文本相关度的确定方法中的步骤,因此,可以实现本申请实施例所提供的任一 种文本相关度的确定方法所能实现的有益效果,详见前面的实施例,在此不再 赘述。
以上对本申请实施例所提供的一种文本相关度的确定方法、装置、存储介 质及电子设备进行了详细介绍,本文中应用了具体个例对本申请的原理及实施 方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心 思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及 应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的 限制。

Claims (15)

1.一种文本相关度的确定方法,其特征在于,包括:
基于预设知识库确定与第一文本关联的第一组实体和与第二文本关联的第二组实体,所述预设知识库包括由实体、实体之间的关系及实体属性构成的知识表示;
根据所述知识表示确定所述第一组实体与所述第二组实体之间的实体相关度;
根据所述第一文本中每个单词之间的关联关系、所述第二文本中每个单词之间的关联关系以及所述第一文本中单词与所述第二文本中单词之间的关联关系,确定所述第一文本和所述第二文本中每一单词关于其他单词的注意力值,其中,所述注意力值用于反映所述第一文本和所述第二文本中每一单词对其他单词的关注度;
至少根据所述注意力值和所述实体相关度,确定所述第一文本与所述第二文本的文本相关度。
2.根据权利要求1所述的文本相关度确定方法,其特征在于,所述根据所述第一文本中每个单词之间的关联关系、所述第二文本中每个单词之间的关联关系以及所述第一文本中单词与所述第二文本中单词之间的关联关系,确定所述第一文本和所述第二文本中每一单词关于其他单词的注意力值,包括:
根据所述第一文本中每个单词之间的关联关系、及所述第一文本中单词与所述第二文本中单词之间的关联关系,计算所述第一文本中每个单词与其他单词之间的相关度;
根据所述第二文本中每个单词之间的关联关系、及所述第一文本中单词与所述第二文本中单词之间的关联关系,计算所述第二文本中每个单词与其他单词之间的相关度;
根据所述第一文本中每个单词与其他单词之间的相关度、及所述第二文本中每个单词与其他单词之间的相关度,确定所述第一文本和所述第二文本中每一单词关于其他单词的注意力值。
3.根据权利要求2所述的文本相关度确定方法,其特征在于,还包括:
分别构建第一文本对应的特征矩阵以及第二文本对应的特征矩阵,得到第一特征矩阵和第二特征矩阵;
将所述第一特征矩阵和所述第二特征矩阵进行拼接,得到拼接矩阵;
所述根据所述第一文本中每个单词与其他单词之间的相关度、及所述第二文本中每个单词与其他单词之间的相关度,确定所述第一文本和所述第二文本中每一单词关于其他单词的注意力值,包括:
对所述第一文本中每个单词与其他单词之间的相关度、及所述第二文本中每个单词与其他单词之间的相关度进行归一化处理;
根据归一化处理后的相关度对所述拼接矩阵加权处理,得到加权后矩阵;基于所述加权后矩阵确定所述第一文本和所述第二文本中每一单词关于其他单词的注意力值。
4.根据权利要求3所述的文本相关度确定方法,其特征在于,所述分别构建第一文本对应的特征矩阵以及第二文本对应的特征矩阵,得到第一特征矩阵和第二特征矩阵,包括:
对第一文本和第二文本进行分词处理,得到所述第一文本关联的第一组单词和所述第二文本关联的第二组单词;
基于所述第一组单词中每一单词、及每一单词在第一文本中的位置,构建所述第一组单词中每一单词的第一向量表示;
基于所述第二组单词中每一单词、及每一单词在第二文本中的位置,构建所述第二组单词中每一单词的第二向量表示;
至少根据构建的第一向量表示确定第一特征矩阵、以及至少根据构建的第二向量表示确定第二特征矩阵。
5.根据权利要求4所述文本相关度确定方法,其特征在于,所述至少根据构建的第一向量表示进行拼接得到第一特征矩阵,包括:
将构建的第一向量表示进行拼接,得到第一子矩阵;
基于所述预设知识库从第一组单词中识别第一实体词,从所述预设知识库中确定第一实体词相关的第一知识元素,并按照第一实体词在第一文本中的位置、及第一知识元素构成的知识表示,将第一知识元素的向量表示进行拼接得到第二子矩阵,其中,第一知识元素包括:与第一实体词对应在预设知识库中的第一目标实体存在关系的第一相关实体、第一目标实体与第一相关实体之间的关系和/或第一目标实体的实体属性;
基于第一子矩阵和第二子矩阵确定所述第一特征矩阵;
所述至少根据构建的第二向量表示确定第二特征矩阵,包括:
将构建的第二向量表示进行拼接,得到第三子矩阵;
基于所述预设知识库从第二组单词中识别第二实体词,从所述预设知识库中确定第二实体词相关的第二知识元素,并按照第二实体词在第二文本中的位置、及第二知识元素构成的知识表示,将第二知识元素的向量表示进行拼接,得到第四子矩阵,其中,第二知识元素包括:与第二实体词对应在预设知识库中的第二目标实体存在关系的第二相关实体、第二目标实体与第二相关实体之间的关系和/或第二目标实体的实体属性;
基于第三子矩阵和第四子矩阵确定所述第二特征矩阵。
6.根据权利要求1所述的文本相关度确定方法,其特征在于,所述根据所述知识表示确定所述第一组实体与所述第二组实体之间的实体相关度,包括:
确定第一组实体和第二组实体中具有相同命名的实体的第一数目;
确定第一组实体和第二组实体中在所述知识库中具有相同标识的实体的第二数目,其中,实体的标识在所述预设知识库中唯一标识实体;
根据所述第一数目、第二数目确定所述实体相关度。
7.根据权利要求6所述的文本相关度确定方法,其特征在于,所述第一文本为待检索文本,所述第二文本为候选文本;
所述根据所述第一数目、第二数目确定所述实体相关度,包括:
基于所述第一数目和所述第一组实体的实体数目,确定所述待检索文本和所述候选文本的实体词相似度;
基于所述第二数目和所述第一组实体的实体数目,确定所述待检索文本和所述候选文本的实体标识相似度;
根据所述实体词相似度和所述实体标识相似度,确定所述实体相关度。
8.根据权利要求7所述的文本相关度的确定方法,其特征在于,还包括:
确定所述第一文本和所述第二文本中相同单词的第三数目;
根据所述第三数目和第一文本中的单词数目,确定所述第一文本和所述第二文本的词相关度;
所述至少根据所述注意力值和所述实体相关度,确定所述第一文本与所述第二文本的文本相关度,包括:
根据所述注意力值、所述实体相关度和所述词相关度,确定所述第一文本与所述第二文本的文本相关度。
9.一种文本相关度的确定装置,其特征在于,包括:
实体确定单元,用于基于预设知识库确定与第一文本关联的第一组实体和与第二文本关联的第二组实体,所述预设知识库括由实体、实体之间的关系及实体属性构成的知识表示;
第一相关度确定单元,用于根据所述知识表示确定所述第一组实体与所述第二组实体之间的实体相关度;
注意力确定单元,用于根据所述第一文本中每个单词之间的关联关系、所述第二文本中每个单词之间的关联关系以及所述第一文本中单词与所述第二文本中单词之间的关联关系,确定所述第一文本和所述第二文本中每一单词关于其他单词的注意力值,其中,所述注意力值用于反映所述第一文本和所述第二文本中每一单词对其他单词的关注度;
第二相关度确定单元,用于至少根据所述注意力值和所述实体相关度,确定所述第一文本与所述第二文本的文本相关度。
10.根据权利要求9所述的文本相关度的确定装置,其特征在于,所述注意力确定单元,用于:
根据所述第一文本中每个单词之间的关联关系、及所述第一文本中单词与所述第二文本中单词之间的关联关系,计算所述第一文本中每个单词与其他单词之间的相关度;
根据所述第二文本中每个单词之间的关联关系、及所述第一文本中单词与所述第二文本中单词之间的关联关系,计算所述第二文本中每个单词与其他单词之间的相关度;
根据所述第一文本中每个单词与其他单词之间的相关度、及所述第二文本中每个单词与其他单词之间的相关度,确定所述第一文本和所述第二文本中每一单词关于其他单词的注意力值。
11.根据权利要求10所述的文本相关度的确定装置,其特征在于,还包括:
构建单元,用于分别构建第一文本对应的特征矩阵以及第二文本对应的特征矩阵,得到第一特征矩阵和第二特征矩阵;
拼接单元,用于将所述第一特征矩阵和所述第二特征矩阵进行拼接,得到拼接矩阵;
所述注意力单元还用于:
对所述第一文本中每个单词与其他单词之间的相关度、及所述第二文本中每个单词与其他单词之间的相关度进行归一化处理;
根据归一化处理后的相关度对所述拼接矩阵加权处理,得到加权后矩阵;
基于所述加权后矩阵确定所述第一文本和所述第二文本中每一单词关于其他单词的注意力值。
12.根据权利要求9所述的文本相关度的确定装置,其特征在于,所述第一相关度确定单元用于:
确定第一组实体和第二组实体中具有相同命名的实体的第一数目;
确定第一组实体和第二组实体中在所述知识库中具有相同标识的实体的第二数目,其中,实体的标识在所述预设知识库中唯一标识实体;
根据所述第一数目、第二数目确定所述实体相关度。
13.根据权利要求12所述的文本相关度的确定装置,其特征在于,所述第一文本为待检索文本,所述第二文本为候选文本;所述第一相关度确定单元进一步用于:
基于所述第一数目和所述第一组实体的实体数目,确定所述待检索文本和所述候选文本的实体词相似度;
基于所述第二数目和所述第一组实体的实体数目,确定所述待检索文本和所述候选文本的实体标识相似度;
根据所述实体词相似度和所述实体标识相似度,确定所述实体相关度。
14.一种计算机可读存储介质,其特征在于,所述存储介质存储有多条指令,所述指令适于处理器进行加载,以执行权利要求1-8任一项所述的文本相关度的确定方法。
15.一种电子设备,包括存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-8任一项所述文本相关度的确定方法。
CN202010350443.9A 2020-04-28 2020-04-28 文本相关度的确定方法、装置、存储介质及电子设备 Pending CN111553163A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010350443.9A CN111553163A (zh) 2020-04-28 2020-04-28 文本相关度的确定方法、装置、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010350443.9A CN111553163A (zh) 2020-04-28 2020-04-28 文本相关度的确定方法、装置、存储介质及电子设备

Publications (1)

Publication Number Publication Date
CN111553163A true CN111553163A (zh) 2020-08-18

Family

ID=71998248

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010350443.9A Pending CN111553163A (zh) 2020-04-28 2020-04-28 文本相关度的确定方法、装置、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN111553163A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112560466A (zh) * 2020-12-24 2021-03-26 北京百度网讯科技有限公司 链接实体关联方法、装置、电子设备和存储介质
CN113032580A (zh) * 2021-03-29 2021-06-25 浙江星汉信息技术股份有限公司 关联档案推荐方法、***及电子设备

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112560466A (zh) * 2020-12-24 2021-03-26 北京百度网讯科技有限公司 链接实体关联方法、装置、电子设备和存储介质
CN112560466B (zh) * 2020-12-24 2023-07-25 北京百度网讯科技有限公司 链接实体关联方法、装置、电子设备和存储介质
CN113032580A (zh) * 2021-03-29 2021-06-25 浙江星汉信息技术股份有限公司 关联档案推荐方法、***及电子设备

Similar Documents

Publication Publication Date Title
CN107943860B (zh) 模型的训练方法、文本意图的识别方法及装置
CN110852100B (zh) 关键词提取方法、装置、电子设备及介质
WO2021139701A1 (zh) 一种应用推荐方法、装置、存储介质及电子设备
CN109918669B (zh) 实体确定方法、装置及存储介质
CN111985240B (zh) 命名实体识别模型的训练方法、命名实体识别方法及装置
CN109033156B (zh) 一种信息处理方法、装置及终端
CN110334344A (zh) 一种语义意图识别方法、装置、设备及存储介质
CN110162600B (zh) 一种信息处理的方法、会话响应的方法及装置
CN111368525A (zh) 信息搜索方法、装置、设备及存储介质
CN111339737B (zh) 实体链接方法、装置、设备及存储介质
CN111177371A (zh) 一种分类方法和相关装置
CN111177180A (zh) 一种数据查询方法、装置以及电子设备
CN112131401B (zh) 一种概念知识图谱构建方法和装置
CN110852109A (zh) 语料生成方法、语料生成装置、和存储介质
CN111432347B (zh) 信息处理方法、装置、存储介质及电子设备
CN110209810A (zh) 相似文本识别方法以及装置
CN109543014B (zh) 人机对话方法、装置、终端及服务器
WO2021147421A1 (zh) 用于人机交互的自动问答方法、装置和智能设备
CN114357278B (zh) 一种话题推荐方法、装置及设备
CN111428522B (zh) 翻译语料生成方法、装置、计算机设备及存储介质
CN110597957B (zh) 一种文本信息检索的方法及相关装置
CN111553163A (zh) 文本相关度的确定方法、装置、存储介质及电子设备
CN112818080B (zh) 搜索方法、装置、设备及存储介质
CN116975295B (zh) 一种文本分类方法、装置及相关产品
CN112488157A (zh) 一种对话状态追踪方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40029143

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination