CN112507726A - 一种义项嵌入向量的训练方法及装置 - Google Patents
一种义项嵌入向量的训练方法及装置 Download PDFInfo
- Publication number
- CN112507726A CN112507726A CN202011465969.8A CN202011465969A CN112507726A CN 112507726 A CN112507726 A CN 112507726A CN 202011465969 A CN202011465969 A CN 202011465969A CN 112507726 A CN112507726 A CN 112507726A
- Authority
- CN
- China
- Prior art keywords
- item
- semantic
- meaning
- keywords
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000013598 vector Substances 0.000 title claims abstract description 100
- 238000012549 training Methods 0.000 title claims abstract description 64
- 238000000034 method Methods 0.000 title claims abstract description 42
- 230000006870 function Effects 0.000 claims description 14
- 230000001960 triggered effect Effects 0.000 claims description 7
- 238000012545 processing Methods 0.000 description 13
- 238000004891 communication Methods 0.000 description 10
- YMHOBZXQZVXHBM-UHFFFAOYSA-N 2,5-dimethoxy-4-bromophenethylamine Chemical compound COC1=CC(CCN)=C(OC)C=C1Br YMHOBZXQZVXHBM-UHFFFAOYSA-N 0.000 description 7
- 241000545067 Venus Species 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 230000005236 sound signal Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本申请公开了一种义项嵌入向量的训练方法,具体地,可以获取第一搜索词,所述第一搜索词包括至少两个义项,为方便描述,将所述至少两个义项中的任意一个义项称为第一义项,第一义项具备百科词条。在本申请中,在训练第一义项的嵌入向量时,可以基于第一义项相关的网页和第一义项的百科词条,确定与第一义项相关的关键词,并进一步利用所述与第一义项相关的关键词,训练得到第一义项的嵌入向量。由此可见,在本申请中,训练第一义项的嵌入向量时,不仅考虑了第一义项的百科词条,还考虑了第一义项相关的网页,从而提升了训练得到的第一义项的嵌入向量的准确性。
Description
技术领域
本申请涉及数据处理领域,特别是涉及一种义项嵌入向量的训练方法及装置。
背景技术
一个词可以有多个含义,每一个含义也可以被称为一个义项。在一些场景中,需要训练义项的嵌入向量,以便于利用该义项的嵌入向量进行进一步的分析处理。其中,义项的嵌入向量是该义项的语义信息的向量化表示。
目前,在一些场景中,并不能准确的训练得到义项的嵌入向量,因此,急需一种方案,可以解决该问题。
发明内容
本申请所要解决的技术问题是如何准确的训练得到义项的嵌入向量,提供一种义项嵌入向量的训练方法及装置。
第一方面,本申请实施例提供了一种义项嵌入向量的训练方法,所述方法包括:
获取第一搜索词,所述第一搜索词包括至少两个义项,所述至少两个义项包括第一义项,所述第一义项具备百科词条;
根据所述第一义项相关的网页和所述第一义项的百科词条,确定与所述第一义项相关的关键词;
利用所述与所述第一义项相关的关键词,训练得到所述第一搜索词对应第一义项的嵌入向量。
可选的,所述根据所述第一义项相关的网页和所述第一义项的百科词条,确定与所述第一义项相关的关键词,包括:
确定所述第一义项相关的网页,并提取所述网页的关键词;
将所述网页的关键词与所述第一义项的百科词条进行匹配,将匹配的关键词,确定为与所述第一义项相关的关键词。
可选的,所述网页的关键词,为所述网页包括的分词中术语词频-逆文本频率TF-IDF值大于第一阈值的分词;所述利用所述与所述第一义项相关的关键词,训练得到所述第一义项的嵌入向量,包括:
利用skipgarm模型以及所述与所述第一义项相关的关键词,训练得到所述第一义项的嵌入向量;
其中:
所述skipgarm模型的损失函数,根据所述与所述第一义项相关的关键词的TF-IDF值得到。
可选的,所述方法还包括:
获取与所述第一搜索词对应的网页;
确定所述第一搜索词对应的网页中各个网页分别对应的词嵌入向量;
根据所述第一搜索词对应每个义项的嵌入向量、以及所述各个网页对应的词嵌入向量,确定所述第一搜索词对应的网页中分别与每个义项对应的网页。
可选的,所述方法还包括:
响应于用户针对所述第一义项触发的搜索操作;
获取所述第一搜索词对应的网页中、与所述第一义项对应的网页;
显示所述与所述第一义项对应的网页。
第二方面,本申请实施例提供了一种义项嵌入向量的训练装置,所述装置包括:
第一获取单元,用于获取第一搜索词,所述第一搜索词包括至少两个义项,所述至少两个义项包括第一义项,所述第一义项具备百科词条;
第一确定单元,用于根据所述第一义项相关的网页和所述第一义项的百科词条,确定与所述第一义项相关的关键词;
训练单元,用于利用所述与所述第一义项相关的关键词,训练得到所述第一搜索词对应第一义项的嵌入向量。
可选的,所述第一确定单元,用于:
确定所述第一义项相关的网页,并提取所述网页的关键词;
将所述网页的关键词与所述第一义项的百科词条进行匹配,将匹配的关键词,确定为与所述第一义项相关的关键词。
可选的,所述网页的关键词,为所述网页包括的分词中术语词频-逆文本频率TF-IDF值大于第一阈值的分词;所述训练单元,用于:
利用skipgarm模型以及所述与所述第一义项相关的关键词,训练得到所述第一义项的嵌入向量;
其中:
所述skipgarm模型的损失函数,根据所述与所述第一义项相关的关键词的TF-IDF值得到。
可选的,所述装置还包括:
第二获取单元,用于获取与所述第一搜索词对应的网页;
第二确定单元,用于确定所述第一搜索词对应的网页中各个网页分别对应的词嵌入向量;
第三确定单元,用于根据所述第一搜索词对应每个义项的嵌入向量、以及所述各个网页对应的词嵌入向量,确定所述第一搜索词对应的网页中分别与每个义项对应的网页。
可选的,所述装置还包括:
响应单元,用于响应于用户针对所述第一义项触发的搜索操作;
第三获取单元,用于获取所述第一搜索词对应的网页中、与所述第一义项对应的网页;
显示单元,用于显示所述与所述第一义项对应的网页。
第三方面,本申请实施例提供了一种义项嵌入向量的训练装置,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
获取第一搜索词,所述第一搜索词包括至少两个义项,所述至少两个义项包括第一义项,所述第一义项具备百科词条;
根据所述第一义项相关的网页和所述第一义项的百科词条,确定与所述第一义项相关的关键词;
利用所述与所述第一义项相关的关键词,训练得到所述第一搜索词对应第一义项的嵌入向量。
可选的,所述根据所述第一义项相关的网页和所述第一义项的百科词条,确定与所述第一义项相关的关键词,包括:
确定所述第一义项相关的网页,并提取所述网页的关键词;
将所述网页的关键词与所述第一义项的百科词条进行匹配,将匹配的关键词,确定为与所述第一义项相关的关键词。
可选的,所述网页的关键词,为所述网页包括的分词中术语词频-逆文本频率TF-IDF值大于第一阈值的分词;所述利用所述与所述第一义项相关的关键词,训练得到所述第一义项的嵌入向量,包括:
利用skipgarm模型以及所述与所述第一义项相关的关键词,训练得到所述第一义项的嵌入向量;
其中:
所述skipgarm模型的损失函数,根据所述与所述第一义项相关的关键词的TF-IDF值得到。
可选的,所述操作还包括:
获取与所述第一搜索词对应的网页;
确定所述第一搜索词对应的网页中各个网页分别对应的词嵌入向量;
根据所述第一搜索词对应每个义项的嵌入向量、以及所述各个网页对应的词嵌入向量,确定所述第一搜索词对应的网页中分别与每个义项对应的网页。
可选的,所述操作还包括:
响应于用户针对所述第一义项触发的搜索操作;
获取所述第一搜索词对应的网页中、与所述第一义项对应的网页;
显示所述与所述第一义项对应的网页。
第四方面,本申请实施例提供了一种计算机可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行以上第一方面任意一项所述的方法
与现有技术相比,本申请实施例具有以下优点:
本申请实施例提供了一种义项嵌入向量的训练方法,具体地,可以获取第一搜索词,所述第一搜索词包括至少两个义项,为方便描述,将所述至少两个义项中的任意一个义项称为第一义项,第一义项具备百科词条。在本申请中,在训练第一义项的嵌入向量时,可以基于第一义项相关的网页和第一义项的百科词条,确定与第一义项相关的关键词,并进一步利用所述与第一义项相关的关键词,训练得到第一义项的嵌入向量。由此可见,在本申请中,训练第一义项的嵌入向量时,不仅考虑了第一义项的百科词条,还考虑了第一义项相关的网页,从而提升了训练得到的第一义项的嵌入向量的准确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种义项嵌入向量的训练方法的流程示意图;
图2为本申请实施例提供的一种义项嵌入向量的训练装置的结构示意图;
图3为本申请实施例提供的客户端的结构示意图;
图4为本申请实施例提供的服务器的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的发明人经过研究发现,目前,在训练义项的嵌入向量时,可以结合义项的百科词条来进行训练。在一个示例中,可以利用该义项的百科词条中超链接对应的上下文来训练该义项的嵌入向量。因此,训练得到的词嵌入向量的准确性,依赖于该义项的百科词条中超链接对应的上下文的准确性。若该义项的百科词条中超链接对应的上下文的准确性不高,则训练得到的该义项的嵌入向量的准确性也不高。
为了解决上述问题,本申请实施例提供了一种义项嵌入向量的训练方法,可以提升训练得到的义项嵌入向量的准确性。
下面结合附图,详细说明本申请的各种非限制性实施方式。
示例性方法
参见图1,该图为本申请实施例提供的一种义项嵌入向量的训练方法的流程示意图。
本申请实施例提供的义项嵌入向量的训练方法,可以由具备数据处理功能的控制器或者处理器执行,也可以由包括前述控制器或者处理器的设备执行,本申请实施例不具体限定。其中,包括控制器或者处理器的设备包括但不限于终端设备以及服务器。
在本实施例中,图1所示的义项嵌入向量的训练方法例如可以包括以下步骤S101-S103。
S101:获取第一搜索词,所述第一搜索词包括至少两个义项,所述至少两个义项包括第一义项,所述第一义项具备百科词条。
在本申请实施例中,第一搜索词可以是用户在搜索引擎提供的搜索输入区中输入的。在一个示例中,用户可以在搜索引擎提供的搜索输入区中输入搜索语句,所述第一搜索词可以是对所述搜索语句进行分词得到的。在又一个示例中,用户在搜索引擎提供的搜索输入区中输入的内容也可以仅包括该第一搜索词。
在本申请实施例中,第一搜索词包括多个义项。为方便描述,将所述多个义项中的任意一个义项称为第一义项。关于第一搜索词,现举例说明。例如,第一搜索词可以为“金星”,“金星”包括至少两个义项,其中一个义项为“中国脱口秀主持人”,另外一个义项为“太阳系中的行星”。
S102:根据所述第一义项相关的网页和所述第一义项的百科词条,确定与所述第一义项相关的关键词。
在本申请实施例中,在训练第一义项的嵌入向量时,可以利用与所述第一义项相关的关键词来进行训练。因此,与所述第一义项相关的关键词能够影响训练得到的第一义项的嵌入向量的准确性。
在本申请实施例中,考虑到第一义项相关的网页以及第一义项的百科词条中会包括与第一义项的相关程度比较高的词,因此,可以根据所述第一义项相关的网页和第一义项的百科词条,确定与所述第一义项相关的关键词。这样一来,训练得到的第一义项的嵌入向量的准确性,不再仅仅依赖于所述第一义项的百科词条。相应的,由于第一义项的百科词条不准确所带来的对训练得到的第一义项的嵌入向量的准确性的负面影响,在一定程度上可以由所述第一义项相关的网页来进行弥补,从而使得训练得到的第一义项的嵌入向量的准确性更高。
在本申请实施例的一种实现方式中,S102在具体实现时,例如可以包括如下步骤A-B。
步骤A:确定所述第一义项相关的网页,并提取所述网页的关键词。
在本申请实施例中,可以以“第一义项+第一搜索词”为搜索关键词进行搜索,以得到与第一义项相关的网页。例如,第一义项为“中国脱口秀主持人”,第一搜索词为“金星”,则可以以“中国脱口秀主持人金星”为搜索关键词进行搜索,从而得到所述第一义项相关的网页。又如,第一义项为“太阳系中的行星”,第一搜索词为“金星”,则可以以“太阳系中的行星金星”为搜索关键词进行搜索,从而得到所述第一义项相关的网页。
确定第一义项相关的网页之后,可以提取所述网页的关键词。其中,第一义项相关的网页可以包括多个,在本申请实施例中,可以分别提取各个网页的关键词,从而得到所述多个网页的关键词。以下以第一网页为例,介绍提取第一网页的关键词的具体实现方式。
在本申请实施例中,可以对第一网页所包括的文本进行分词,得到若干个分词。进一步地,计算各个分词的术语词频-逆文本频率(term frequency–inverse documentfrequency,TF-IDF)值,并从中筛选出TF-IDF值较大的分词,例如筛选出TF-IDF值大于第一阈值的分词,作为第一网页的关键词。举例说明,第一义项对应的网页包括5个网页,每个网页对应5个关键词,则执行步骤A之后,最多可以得到25个关键词。
步骤B:将所述网页的关键词与所述第一义项的百科词条进行匹配,将匹配的关键词,确定为与所述第一义项相关的关键词。
在本申请实施例中,为了进一步确保所述第一义项相关的关键词与第一义项之间的相关程度比较高。在步骤A得到所述网页的关键词之后,还可以将所述网页的关键词和第一义项的百科词条进行匹配。例如,将所述网页的关键词和所述第一义项的百科词条中的某一个或者某几个区域所包括的分词进行匹配,并将所述网页的关键词中与所述第一义项的百科词条匹配的关键词,确定为与所述第一义项相关的关键词。
此处提及的所述网页的关键词中与所述第一义项的百科词条匹配的关键词,指的是所述网页的关键词中、存在于所述第一义项的百科词条中的关键词;或者,所述网页的关键词中、语义与所述第一义项的百科词条中的分词的语义相同或者相近的关键词。可以理解的是,所述网页的关键词中与所述第一义项的百科词条匹配的关键词,与所述第一义项的相关程度比较高,因此,将所述网页的关键词中与所述第一义项的百科词条匹配的关键词,确定为与所述第一义项相关的关键词,可以提升训练得到的第一义项的嵌入向量的准确性。
S103:利用所述与所述第一义项相关的关键词,训练得到所述第一搜索词对应第一义项的嵌入向量。
在本申请实施例中,在S102确定与所述第一搜索词对应的第一义项相关的关键词之后,可以利用所述与所述第一义项相关的关键词,训练得到所述第一搜索词对应第一义项的嵌入向量。在本申请实施例中,可以利用skipgarm模型以及所述与所述第一义项相关的关键词,训练得到所述第一搜索词对应第一义项的嵌入向量,也可以称为第一义项的嵌入向量。
在本申请实施例中,为了进一步提升训练得到的第一义项的嵌入向量的准确性。在利用skipgarm模型以及所述与所述第一义项相关的关键词,训练所述第一义项的嵌入向量时,可以对所述skipgarm模型的损失函数进行改进,使得与所述第一义项相关的关键词中,与第一义项相关程度高的关键词,能够发挥更多的作用。
在本申请实施例中,与所述第一义项相关的关键词中各个关键词与第一义项相关程度,可以根据所述关键词的TF-IDF值确定。其中,关键词的TF-IDF值,指的是该关键词在其所属的、第一义项相关的网页中的TF-IDF值。
其中,TF-IDF值越大,表示该关键词与第一义项的相关程度越高。因此,在一个示例中,改进后的skipgarm模型的损失函数,可以根据所述与所述第一义项相关的关键词的TF-IDF值得到。在一个示例中,所述skipgarm模型的损失函数可以如下公式(1)所示。
在公式(1)中:
Loss为skipgarm模型的损失函数;
N为第一义项相关的关键词集合;
j为第一义项相关的关键词集合中的第j个关键词;
TFIDF(j)为第j个关键词的TF-IDF值;
u为第j个关键词对应第一义项的嵌入向量;
wj为第j个关键词的词嵌入向量;
Vj为第j个关键词及其对应的负采样关键词的词集合;
wj′为Vj中的第j′个关键词的词嵌入向量。
通过以上描述可知,利用本申请实施例的方案,可以提升训练得到的第一搜索词对应第一义项的嵌入向量的准确性。
在本申请实施例的一种实现方式中,在执行S101之后,还可以获取与所述第一搜索词对应的网页,以便于向用户显示与所述第一搜索词对应的网页。可以理解的是,由于第一搜索词包括至少两个义项,因此,所确定的第一搜索词对应的网页可以包括所述至少两个义项分别对应的网页。举例说明:所述第一搜索词为“金星”,“金星”包括“中国脱口秀主持人”和“太阳系中的行星”两个义项,则所获取的与“金星”对应的网页,可以包括与“中国脱口秀主持人金星”对应的网页,还包括与“太阳系中的行星金星”相关的网页。
在本申请实施例中,得到所述第一搜索词对应的网页之后,还可以根据以下步骤D和步骤E,对所述第一搜索词对应的网页进行分类,确定出所述第一搜索词对应的网页中与所述每个义项分别对应的网页。
步骤D:确定所述第一搜索词对应的网页中各个网页分别对应的词嵌入向量。
为方便描述,将“所述第一搜索词对应的网页中的任意一个网页”,称为“第二网页”。在本申请实施例的一种实现方式中,可以利用第二网页中的文本,训练得到所述第二网页的词嵌入向量。在又一种实现方式中,可以提取该第二网页的关键词,然后利用词袋模型和所述第二网页的关键词,得到所述第二网页的词嵌入向量。关于提取第二网页的关键词,可以参考步骤A中关于提取网页的关键词的相关描述部分,此处不再描述。关于利用词袋模型和所述第二网页的关键词,得到所述第二网页的词嵌入向量的具体实现方式,此处不做详述。
步骤E:根据所述第一搜索词对应每个义项的嵌入向量、以及所述各个网页对应的词嵌入向量,确定所述第一搜索词对应的网页中分别与每个义项对应的网页。
可以理解的是,第一搜索词对应每个义项的嵌入向量,可以体现第一搜索词在该义项下的语义,而网页的词嵌入向量,也可以体现该网页所包括的内容的语义。因此,对于所述第一搜索词的多个义项以及第二网页而言,可以根据第二网页的词嵌入向量和所述第一搜索词对应每个义项的嵌入向量,得到第二网页和所述第一搜索词的各个义项之间的相关程度。在一个示例中,可以分别计算第二网页的词嵌入向量和所述第一搜索词的每个义项的嵌入向量之间的余弦相似度,得到所述第二网页和所述第一搜索词的每个义项之间的相关程度。在对第二网页进行分类时,可以将所述第二网页确定为该相关程度最高的义项所对应的网页。举例说明:第一搜索词包括两个义项,分别为义项1和义项2。第二网页和义项1之间的相关程度,高于第二网页和义项2之间的相关程度,则确定第二网页为与义项1对应的网页。
关于步骤D-步骤E,现举例说明:第一搜索词为“金星”,与第一搜索词对应的网页包括10个网页。执行步骤D和步骤E之后,可以确定出这10个网页中与义项“中国脱口秀主持人”相关的网页、以及与义项“太阳系中的行星”相关的网页。例如,第1个网页、第3个网页、第5个网页为与“太阳系中的行星”相关的网页;第2个网页、第4个网页、第6个网页、7个网页、第8个网页、第9个网页和第10个网页为与“中国脱口秀主持人”相关的网页。
在一些实施例中,考虑到当第一搜索词包括多个义项时,用户往往希望基于其中一个义项进行搜索。因此,在本申请实施例中,当用户在搜索引擎提供的搜索输入区输入所述第一搜索词之后,还可以显示所述第一搜索词的各个义项。用户可以针对其中一个义项触发搜索操作。例如,用户可以通过点击其中一个义项,从而针对该第一搜索词在该义项下执行搜索操作。
为了为用户提供符合用户需求的搜索结果,在本申请实施例中,当用户针对第一义项触发搜索操作之后,搜索引擎可以获取与所述第一搜索词对应的网页中、与所述第一义项对应的网页,并显示所述与所述第一义项相关的网页。举例说明:第一搜索词为“金星”,搜索结果页中显示该搜索词对应两个义项,分别为“中国脱口秀主持人”和“太阳系中的行星”。而与该第一搜索词对应的网页包括10个网页,执行前述步骤D和步骤E之后,可以确定出这10个网页中第1个网页、第3个网页、第5个网页为与“太阳系中的行星”相关的网页,这10个网页中第2个网页、第4个网页、第6个网页、7个网页、第8个网页、第9个网页和第10个网页为与“中国脱口秀主持人”相关的网页。因此,当用户针对“金星”的第一义项“中国脱口秀主持人”触发了搜索操作时,可以获取这10个网页中与“中国脱口秀主持人”相关的网页,并显示给用户。
示例性设备
基于以上实施例提供的方法,本申请实施例还提供了一种装置,以下结合附图介绍该装置。
参见图2,该图为本申请实施例提供的一种义项嵌入向量的训练装置的结构示意图。所述装置200例如可以具体包括:第一获取单元201、第一确定单元202和训练单元203。
第一获取单元201,用于获取第一搜索词,所述第一搜索词包括至少两个义项,所述至少两个义项包括第一义项,所述第一义项具备百科词条;
第一确定单元202,用于根据所述第一义项相关的网页和所述第一义项的百科词条,确定与所述第一义项相关的关键词;
训练单元203,用于利用所述与所述第一义项相关的关键词,训练得到所述第一搜索词对应第一义项的嵌入向量。
在一种实现方式中,所述第一确定单元202,用于:
确定所述第一义项相关的网页,并提取所述网页的关键词;
将所述网页的关键词与所述第一义项的百科词条进行匹配,将匹配的关键词,确定为与所述第一义项相关的关键词。
在一种实现方式中,所述网页的关键词,为所述网页包括的分词中术语词频-逆文本频率TF-IDF值大于第一阈值的分词;所述训练单元203,用于:
利用skipgarm模型以及所述与所述第一义项相关的关键词,训练得到所述第一义项的嵌入向量;
其中:
所述skipgarm模型的损失函数,根据所述与所述第一义项相关的关键词的TF-IDF值得到。
在一种实现方式中,所述装置还包括:
第二获取单元,用于获取与所述第一搜索词对应的网页;
第二确定单元,用于确定所述第一搜索词对应的网页中各个网页分别对应的词嵌入向量;
第三确定单元,用于根据所述第一搜索词对应每个义项的嵌入向量、以及所述各个网页对应的词嵌入向量,确定所述第一搜索词对应的网页中分别与每个义项对应的网页。
在一种实现方式中,所述装置还包括:
响应单元,用于响应于用户针对所述第一义项触发的搜索操作;
第三获取单元,用于获取所述第一搜索词对应的网页中、与所述第一义项对应的网页;
显示单元,用于显示所述与所述第一义项对应的网页。
由于所述装置200是与以上方法实施例提供的方法对应的装置,所述装置200的各个单元的具体实现,均与以上方法实施例为同一构思,因此,关于所述装置200的各个单元的具体实现,可以参考以上方法实施例的描述部分,此处不再赘述。
本申请实施例提供的方法,可以由客户端执行也可以由服务器执行,以下对执行上述方法的客户端和服务器分别进行说明。
图3示出了一种客户端300的框图。例如,客户端300可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图3,客户端300可以包括以下一个或多个组件:处理组件302,存储器304,电源组件306,多媒体组件308,音频组件310,输入/输出(I/O)的接口33,传感器组件314,以及通信组件316。
处理组件302通常控制客户端300的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理元件302可以包括一个或多个处理器320来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件302可以包括一个或多个模块,便于处理组件302和其他组件之间的交互。例如,处理部件302可以包括多媒体模块,以方便多媒体组件308和处理组件302之间的交互。
存储器304被配置为存储各种类型的数据以支持在客户端300的操作。这些数据的示例包括用于在客户端300上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器304可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件306为客户端300的各种组件提供电力。电源组件306可以包括电源管理***,一个或多个电源,及其他与为客户端300生成、管理和分配电力相关联的组件。
多媒体组件308包括在所述客户端300和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件308包括一个前置摄像头和/或后置摄像头。当客户端300处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。
音频组件310被配置为输出和/或输入音频信号。例如,音频组件310包括一个麦克风(MIC),当客户端300处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器304或经由通信组件316发送。在一些实施例中,音频组件310还包括一个扬声器,用于输出音频信号。
I/O接口为处理组件302和***接口模块之间提供接口,上述***接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件314包括一个或多个传感器,用于为客户端300提供各个方面的状态评估。例如,传感器组件314可以检测到设备300的打开/关闭状态,组件的相对定位,例如所述组件为客户端300的显示器和小键盘,传感器组件314还可以检测客户端300或客户端300一个组件的位置改变,用户与客户端300接触的存在或不存在,客户端300方位或加速/减速和客户端300的温度变化。传感器组件314可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件314还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件314还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件316被配置为便于客户端300和其他设备之间有线或无线方式的通信。客户端300可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信部件316经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中,所述通信部件316还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,客户端300可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行下述方法:
获取第一搜索词,所述第一搜索词包括至少两个义项,所述至少两个义项包括第一义项,所述第一义项具备百科词条;
根据所述第一义项相关的网页和所述第一义项的百科词条,确定与所述第一义项相关的关键词;
利用所述与所述第一义项相关的关键词,训练得到所述第一搜索词对应第一义项的嵌入向量。
在一种实现方式中,所述根据所述第一义项相关的网页和所述第一义项的百科词条,确定与所述第一义项相关的关键词,包括:
确定所述第一义项相关的网页,并提取所述网页的关键词;
将所述网页的关键词与所述第一义项的百科词条进行匹配,将匹配的关键词,确定为与所述第一义项相关的关键词。
在一种实现方式中,所述网页的关键词,为所述网页包括的分词中术语词频-逆文本频率TF-IDF值大于第一阈值的分词;所述利用所述与所述第一义项相关的关键词,训练得到所述第一义项的嵌入向量,包括:
利用skipgarm模型以及所述与所述第一义项相关的关键词,训练得到所述第一义项的嵌入向量;
其中:
所述skipgarm模型的损失函数,根据所述与所述第一义项相关的关键词的TF-IDF值得到。
在一种实现方式中,所述方法还包括:
获取与所述第一搜索词对应的网页;
确定所述第一搜索词对应的网页中各个网页分别对应的词嵌入向量;
根据所述第一搜索词对应每个义项的嵌入向量、以及所述各个网页对应的词嵌入向量,确定所述第一搜索词对应的网页中分别与每个义项对应的网页。
在一种实现方式中,所述方法还包括:
响应于用户针对所述第一义项触发的搜索操作;
获取所述第一搜索词对应的网页中、与所述第一义项对应的网页;
显示所述与所述第一义项对应的网页。
图4是本申请实施例中服务器的结构示意图。该服务器400可因配置或性能不同而产生比较大的差异,可以包括一个或一个以***处理器(central processing units,CPU)422(例如,一个或一个以上处理器)和存储器432,一个或一个以上存储应用程序442或数据444的存储介质430(例如一个或一个以上海量存储设备)。其中,存储器432和存储介质430可以是短暂存储或持久存储。存储在存储介质430的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器422可以设置为与存储介质430通信,在服务器400上执行存储介质430中的一系列指令操作。
更进一步地,中央处理器422可以执行下述方法:
获取第一搜索词,所述第一搜索词包括至少两个义项,所述至少两个义项包括第一义项,所述第一义项具备百科词条;
根据所述第一义项相关的网页和所述第一义项的百科词条,确定与所述第一义项相关的关键词;
利用所述与所述第一义项相关的关键词,训练得到所述第一搜索词对应第一义项的嵌入向量。
在一种实现方式中,所述根据所述第一义项相关的网页和所述第一义项的百科词条,确定与所述第一义项相关的关键词,包括:
确定所述第一义项相关的网页,并提取所述网页的关键词;
将所述网页的关键词与所述第一义项的百科词条进行匹配,将匹配的关键词,确定为与所述第一义项相关的关键词。
在一种实现方式中,所述网页的关键词,为所述网页包括的分词中术语词频-逆文本频率TF-IDF值大于第一阈值的分词;所述利用所述与所述第一义项相关的关键词,训练得到所述第一义项的嵌入向量,包括:
利用skipgarm模型以及所述与所述第一义项相关的关键词,训练得到所述第一义项的嵌入向量;
其中:
所述skipgarm模型的损失函数,根据所述与所述第一义项相关的关键词的TF-IDF值得到。
在一种实现方式中,所述方法还包括:
获取与所述第一搜索词对应的网页;
确定所述第一搜索词对应的网页中各个网页分别对应的词嵌入向量;
根据所述第一搜索词对应每个义项的嵌入向量、以及所述各个网页对应的词嵌入向量,确定所述第一搜索词对应的网页中分别与每个义项对应的网页。
在一种实现方式中,所述方法还包括:
响应于用户针对所述第一义项触发的搜索操作;
获取所述第一搜索词对应的网页中、与所述第一义项对应的网页;
显示所述与所述第一义项对应的网页。
服务器400还可以包括一个或一个以上电源426,一个或一个以上有线或无线网络接口450,一个或一个以上输入输出接口456,一个或一个以上键盘456,和/或,一个或一个以上操作***441,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
本申请实施例还提供了一种计算机可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行以上方法实施例提供的义项嵌入向量的训练方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制
以上所述仅为本申请的较佳实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (10)
1.一种义项嵌入向量的训练方法,其特征在于,所述方法包括:
获取第一搜索词,所述第一搜索词包括至少两个义项,所述至少两个义项包括第一义项,所述第一义项具备百科词条;
根据所述第一义项相关的网页和所述第一义项的百科词条,确定与所述第一义项相关的关键词;
利用所述与所述第一义项相关的关键词,训练得到所述第一搜索词对应第一义项的嵌入向量。
2.根据权利要求1所述的方法,其特征在于,所述根据所述第一义项相关的网页和所述第一义项的百科词条,确定与所述第一义项相关的关键词,包括:
确定所述第一义项相关的网页,并提取所述网页的关键词;
将所述网页的关键词与所述第一义项的百科词条进行匹配,将匹配的关键词,确定为与所述第一义项相关的关键词。
3.根据权利要求2所述的方法,其特征在于,所述网页的关键词,为所述网页包括的分词中术语词频-逆文本频率TF-IDF值大于第一阈值的分词;所述利用所述与所述第一义项相关的关键词,训练得到所述第一义项的嵌入向量,包括:
利用skipgarm模型以及所述与所述第一义项相关的关键词,训练得到所述第一义项的嵌入向量;
其中:
所述skipgarm模型的损失函数,根据所述与所述第一义项相关的关键词的TF-IDF值得到。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取与所述第一搜索词对应的网页;
确定所述第一搜索词对应的网页中各个网页分别对应的词嵌入向量;
根据所述第一搜索词对应每个义项的嵌入向量、以及所述各个网页对应的词嵌入向量,确定所述第一搜索词对应的网页中分别与每个义项对应的网页。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
响应于用户针对所述第一义项触发的搜索操作;
获取所述第一搜索词对应的网页中、与所述第一义项对应的网页;
显示所述与所述第一义项对应的网页。
6.一种义项嵌入向量的训练装置,其特征在于,所述装置包括:
第一获取单元,用于获取第一搜索词,所述第一搜索词包括至少两个义项,所述至少两个义项包括第一义项,所述第一义项具备百科词条;
第一确定单元,用于根据所述第一义项相关的网页和所述第一义项的百科词条,确定与所述第一义项相关的关键词;
训练单元,用于利用所述与所述第一义项相关的关键词,训练得到所述第一搜索词对应第一义项的嵌入向量。
7.根据权利要求6所述的装置,其特征在于,所述第一确定单元,用于:
确定所述第一义项相关的网页,并提取所述网页的关键词;
将所述网页的关键词与所述第一义项的百科词条进行匹配,将匹配的关键词,确定为与所述第一义项相关的关键词。
8.根据权利要求7所述的装置,其特征在于,所述网页的关键词,为所述网页包括的分词中术语词频-逆文本频率TF-IDF值大于第一阈值的分词;所述训练单元,用于:
利用skipgarm模型以及所述与所述第一义项相关的关键词,训练得到所述第一义项的嵌入向量;
其中:
所述skipgarm模型的损失函数,根据所述与所述第一义项相关的关键词的TF-IDF值得到。
9.一种义项嵌入向量的训练装置,其特征在于,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
获取第一搜索词,所述第一搜索词包括至少两个义项,所述至少两个义项包括第一义项,所述第一义项具备百科词条;
根据所述第一义项相关的网页和所述第一义项的百科词条,确定与所述第一义项相关的关键词;
利用所述与所述第一义项相关的关键词,训练得到所述第一搜索词对应第一义项的嵌入向量。
10.一种计算机可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行权利要求1至5任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011465969.8A CN112507726A (zh) | 2020-12-14 | 2020-12-14 | 一种义项嵌入向量的训练方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011465969.8A CN112507726A (zh) | 2020-12-14 | 2020-12-14 | 一种义项嵌入向量的训练方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112507726A true CN112507726A (zh) | 2021-03-16 |
Family
ID=74972742
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011465969.8A Pending CN112507726A (zh) | 2020-12-14 | 2020-12-14 | 一种义项嵌入向量的训练方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112507726A (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110019888A (zh) * | 2017-12-01 | 2019-07-16 | 北京搜狗科技发展有限公司 | 一种搜索方法及装置 |
CN110888991A (zh) * | 2019-11-28 | 2020-03-17 | 哈尔滨工程大学 | 一种弱标注环境下的分段式语义标注方法 |
CN111368161A (zh) * | 2018-12-26 | 2020-07-03 | 北京搜狗科技发展有限公司 | 一种搜索意图的识别方法、意图识别模型训练方法和装置 |
-
2020
- 2020-12-14 CN CN202011465969.8A patent/CN112507726A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110019888A (zh) * | 2017-12-01 | 2019-07-16 | 北京搜狗科技发展有限公司 | 一种搜索方法及装置 |
CN111368161A (zh) * | 2018-12-26 | 2020-07-03 | 北京搜狗科技发展有限公司 | 一种搜索意图的识别方法、意图识别模型训练方法和装置 |
CN110888991A (zh) * | 2019-11-28 | 2020-03-17 | 哈尔滨工程大学 | 一种弱标注环境下的分段式语义标注方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110019675B (zh) | 一种关键词提取的方法及装置 | |
CN109918565B (zh) | 一种搜索数据的处理方法、装置及电子设备 | |
CN110391966B (zh) | 一种消息处理方法、装置和用于消息处理的装置 | |
CN109471919B (zh) | 零代词消解方法及装置 | |
CN108345625B (zh) | 一种信息挖掘方法和装置、一种用于信息挖掘的装置 | |
CN111382339A (zh) | 一种搜索处理方法、装置和用于搜索处理的装置 | |
CN112784142A (zh) | 一种信息推荐方法及装置 | |
CN111708943A (zh) | 一种搜索结果展示方法、装置和用于搜索结果展示的装置 | |
CN110110207B (zh) | 一种信息推荐方法、装置及电子设备 | |
CN110019885B (zh) | 一种表情数据推荐方法及装置 | |
CN110020082B (zh) | 一种搜索方法及装置 | |
CN112307294B (zh) | 一种数据处理方法及装置 | |
CN109799916B (zh) | 一种候选项联想方法和装置 | |
CN111241844A (zh) | 一种信息推荐方法及装置 | |
CN113033163A (zh) | 一种数据处理方法、装置和电子设备 | |
CN107784037B (zh) | 信息处理方法和装置、用于信息处理的装置 | |
CN109918624B (zh) | 一种网页文本相似度的计算方法和装置 | |
CN107436896B (zh) | 一种输入推荐方法、装置及电子设备 | |
CN110147426B (zh) | 一种查询文本的分类标签确定方法及相关装置 | |
CN107301188B (zh) | 一种获取用户兴趣的方法及电子设备 | |
CN112052395B (zh) | 一种数据处理方法及装置 | |
CN108073664B (zh) | 一种信息处理方法、装置、设备及客户端设备 | |
CN111177521A (zh) | 一种查询词分类模型的确定方法和装置 | |
CN112507726A (zh) | 一种义项嵌入向量的训练方法及装置 | |
CN114663901A (zh) | 图像处理方法、图像识别装置、电子设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |