CN112579870A - 检索匹配模型的训练方法、装置、设备及存储介质 - Google Patents
检索匹配模型的训练方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN112579870A CN112579870A CN202011529224.3A CN202011529224A CN112579870A CN 112579870 A CN112579870 A CN 112579870A CN 202011529224 A CN202011529224 A CN 202011529224A CN 112579870 A CN112579870 A CN 112579870A
- Authority
- CN
- China
- Prior art keywords
- model
- training
- text
- retrieved
- relevance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9532—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0623—Item investigation
- G06Q30/0625—Directed, with specific intent or strategy
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Probability & Statistics with Applications (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Mathematical Physics (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种检索匹配模型的训练方法、装置、设备及存储介质,属于机器学习领域。所述方法包括:获取生成模型,所述生成模型是根据已有领域的第一相关性训练语料对训练得到的;将目标领域的待检索文本输入至所述生成模型中,得到所述目标领域的第二相关性训练语料对,所述第二相关性训练语料对包括所述待检索文本和查询词之间的对应关系;将所述第二相关性训练语料对输入至初始化模型进行训练,得到与所述目标领域适配的检索匹配模型。
Description
技术领域
本申请实施例涉及机器学习领域,特别涉及一种检索匹配模型的训练方法、装置、设备及存储介质。
背景技术
搜索的本质就是满足用户和信息(比如商家商品)之间的供需匹配关系。检索匹配模型在搜索过程中起到了最根本重要的作用。
大量的检索匹配模型是采用神经网络进行构建和学习的。但神经网络十分依赖大量的人工标注语料进行训练。比如,人工标注语料包括:待检索文档(doc)和查询词(query)之间的相关性级别。通常情况下,人工标注语料中的样本数量越多,所训练得到的检索匹配模型的性能越好。
当出现新的搜索领域时,由于缺乏新的搜索领域的人工标注语料,无法及时训练得到新的搜索领域的检索匹配模型。
发明内容
本申请提供了一种检索匹配模型的训练方法、装置、设备及存储介质。所述技术方案如下:
根据本申请的一方面,提供了一种检索匹配模型的训练方法,所述方法包括:
获取生成模型,所述生成模型是根据已有领域的第一相关性训练语料对训练得到的;
将目标领域的待检索文本输入至所述生成模型中,得到所述目标领域的第二相关性训练语料对,所述第二相关性训练语料对包括所述待检索文本和查询词之间的对应关系;
将所述第二相关性训练语料对输入至初始化模型进行训练,得到与所述目标领域适配的检索匹配模型。
根据本申请的一方面,提供了一种检索匹配模型的训练装置,所述装置包括:
获取模块,用于获取生成模型,所述生成模型是根据已有领域的第一相关性训练语料对训练得到的;
输入模块,用于将目标领域的待检索文本输入至所述生成模型中,得到所述目标领域的第二相关性训练语料对,所述第二相关性训练语料对包括所述待检索文本和查询词之间的对应关系;
训练模块,用于将所述第二相关性训练语料对输入至初始化模型进行训练,得到与所述目标领域适配的检索匹配模型。
根据本申请的另一方面,提供了一种计算机设备,所述计算机设备包括:处理器和存储器,所述存储器存储有计算机程序,所述计算机程序由所述处理器加载并执行以实现如上所述的检索匹配模型的训练方法。
根据本申请的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序由处理器加载并执行以实现如上所述的检索匹配模型的训练方法。
根据本申请的另一方面,提供了一种计算机程序产品,所述计算机程序产品存储有计算机程序,所述计算机程序由所述处理器加载并执行以实现如上所述的检索匹配模型的训练方法。
本申请实施例提供的技术方案带来的有益效果至少包括:
通过已有领域的第一相关性训练语料对训练得到生成模型,调用生成模型对新领域的待检索文本进行处理,得到新领域的第二相关性训练语料对,从而解决了针对新领域的搜索场景下,没有相关性训练语料对,无法训练检索匹配模型的问题。使得针对新领域的搜索场景,在不需要人工标注语料和用户行为数据的情况下,即可快速部署检索匹配模型的效果。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本申请一个示例性实施例提供的搜索***的结构框图;
图2示出了本申请另一个示例性实施例提供的检索匹配模型的训练方法的流程图;
图3示出了本申请另一个示例性实施例提供的检索匹配模型的训练示意图;
图4示出了本申请一个示例性实施例提供的检索匹配模型的训练方法的流程图;
图5示出了本申请另一个示例性实施例提供的生成模型的训练示意图;
图6示出了本申请一个示例性实施例提供的检索匹配模型的训练方法的流程图;
图7示出了本申请另一个示例性实施例提供的检索匹配模型的模型架构图;
图8示出了本申请另一个示例性实施例提供的检索匹配模型的模型架构图;
图9示出了本申请一个示例性实施例提供的检索匹配模型的训练装置的框图;
图10示出了本申请一个示例性实施例提供的计算机设备的框图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
图1示出了本申请一个示例性实施例提供的检索***100的框图。该检索***100包括:用户终端120、搜索服务器140和开发终端160。
用户终端120是用户所使用的终端。用户终端120可以是台式电脑、笔记本电脑、平板电脑、电子书、MP3和MP4中的至少一种。用户终端120上运行有应用程序或网页客户端。该应用程序或网页客户端提供有搜索服务。
搜索服务器140是提供搜索服务的后台服务器。搜索服务器140中存储有检索匹配模型,检索匹配模型是基于神经网络的模型。检索匹配模型的输入是用户终端120发送的搜索词,检索匹配模型的输出是搜索文本(结果)。检索匹配模型可以是针对不同领域的多个模型。
开发终端160是开发人员所使用的终端。开发终端160用于训练得到检索匹配模型。
该检索匹配模型可以由计算机设备来训练得到,该计算机设备可以是搜索服务器140,也可以是与搜索服务器140不同的开发终端160,或者其它计算机设备。
图2示出了本申请一个示例性实施例提供的检索匹配模型的训练方法的流程图。本实施例以该方法应用于图1所示的计算机设备来举例说明。所述方法包括:
步骤202:获取生成模型;
生成模型是具有对输入的文本预测出查询词能力的神经网络模型。生成模型是根据已有领域的第一相关性训练语料对训练得到的。
在本申请中,领域是指对不同类型的搜索场景的划分。以外卖场景为例,用户在历史搜索场景中大多数是以美食、甜点、饮品等餐饮类领域的查询词居多,但随着用户认知的改变,越来越多的人会去搜索非餐饮类领域的商品,比如生鲜果蔬、书籍、手机等。这里的餐饮领域即为已有领域或原有领域,而书籍、手机等新闪购品类则为新领域。
示意性的,已有领域是通用领域,或,已使用的一个或多个搜索领域。第一相关性训练语料对包括:已有领域的多个第一语料对,每个第一语料对包括:搜索词(query)-待检索文本(doc),以及相关性等级。其中,相关性等级也称相关性分数、相关性档位等其它名称。比如,相关性等级包括:强相关、弱相关和不相关。
步骤204:将目标领域的待检索文本输入至生成模型中,得到目标领域的第二相关性训练语料对,第二相关性训练语料对包括待检索文本和查询词之间的对应关系;
目标领域是相对于已有领域的新领域,或者,目标领域是相对于已有领域的细分领域。以目标领域是新领域为例,新领域是存在待检索文本,但是不存在查询词,或仅存在少量查询词的领域。
如图3所示,将新领域的待检索文本输入至生成模型10中进行预测。由生成模型输出目标领域的第二相关性训练语料对。第二相关性训练语料对包括:目标领域的多个第二语料对,每个第二语料对包括:搜索词(query)-待检索文本(doc),以及相关性等级。其中,相关性等级也称相关性分数、相关性档位等其它名称。
步骤206:将第二相关性训练语料对输入至初始化模型进行训练,得到与目标领域适配的检索匹配模型。
初始化模型可以是尚未经过训练的基础模型,也可以是采用预训练语言模型进行模型参数初始化后的模型。
如图3所示,采用第二相关性训练语料对中的各个第二语料对作为训练样本,输入至初始化模型20进行训练,得到与目标领域适配的检索匹配模型30。
综上所述,本实施例提供的方法,通过已有领域的第一相关性训练语料对训练得到生成模型,调用生成模型对新领域的待检索文本进行处理,得到新领域的第二相关性训练语料对,从而解决了针对新领域的搜索场景下,没有相关性训练语料对,无法训练检索匹配模型的问题。使得针对新领域的搜索场景,在不需要人工标注语料和用户行为数据的情况下,即可快速部署检索匹配模型的效果。
图4示出了本申请另一个示例性实施例提供的检索匹配模型的训练方法的流程图。本实施例以该方法应用于图1所示的计算机设备来举例说明。所述方法包括:
阶段一:生成模型的训练阶段;
步骤402:获取已有领域的第一相关性训练语料对,第一相关性训练语料对中的每个语料对中包括:样本文本、样本查询词和样本相关性等级,相关性等级用于指示样本文本和样本查询词之间的相关性程度;
第一相关性训练语料对是根据已有领域构建的,可记为语料库1。
第一相关性训练语料对包括:样本查询词(query)、样本文本(doc)和样本相关性等级(label)。其中,样本文本依具体检索***的用途不同,在形式上各有差别。比如,在传统网页搜索场景中,样本文本以中长篇文章为主。而在电商和外卖类领域,则以店铺和商铺为主。其中,店铺可以用信息点(Point of Information,POI)表示,商品可以用标准化产品单元(Standard Product Unit,SPU)表示。示意性的,待检索文本除了店铺和商铺之外,还可以额外添加其它信息,本实施例对此不加以限定。
相关性等级包括两个以上的等级。在一个示例中,相关性等级包括相关和不相关。在另一个示例中,相关性等级包括:强相关、弱相关和不相关。相关性等级的来源方式包括但不限于如下至少一种:
·人工标注方式;
依赖于外包人员、研发人员、产品经理等人员,对查询词和待检索文本之间进行手动标注。
·无监督生成方式;
依靠用户的历史点击行为和历史下单行为进行自动生成。比如,用户搜索了“词语A”,在多个搜索结果中下单了“商品B”,则将词语A和商品B建立为具有强相关性的一个语料对。
已有领域在获取标注结果时,成本相对较低且大多已有数据积累。
步骤404:对样本文本进行分词得到文本分词;对样本查询词进行分词得到查询分词;
生成模型是具有对输入的文本预测出查询词能力的神经网络模型。示例性的,生成模型选用当前业界较为通用的基于双向编码器表示的转换器(Bidirectional EncoderRepresentations from Transformers,BERT)模型为基础的编码器-解码器(encoder-decoder)模型结构。
需要先行对样本文本进行分词得到文本分词,每个文本分词在进行向量化表示后,记为doc_tokens;对样本查询词进行分词得到查询分词,每个查询分词在进行向量化表示后,记为query_tokens。也即分词后的最小单元记为token。
在分词过程中可以使用BERT模型的分词模块进行分词(或称分字)。假设生成模型是采用用于语言表征的自我监督学习的小BERT模型(A Lite BERT for Self-supervisedLearning of Language Representations,ALBERT)模型,则分词模块选用ALBERT模型中的分词模块。
可选地,在使用ALBERT模型的编码器和解码器构造生成模型的过程中,使用通用语料训练得到的预训练语言模型的模型参数,对生成模型的编码器和解码器的模型参数进行初始化。其中,编码器和解码器在训练过程中共享模型参数。
步骤406:将文本分词输入编码器,得到编码输出;
示例性的,图5示出了生成模型10的结构示意图。生成模型10包括编码器12和解码器14。在训练过程中,计算机设备将待检索文本中的每个文本分词X顺序输入编码器12,得到编码输出。
可选地,在第i个编码时刻,编码器12对待检索文本中的第i个文本分词进行编码,得到第i个编码时刻对应的编码输出。在待检索文本中的所有文本分词均编码完毕后,得到待检索文本的编码输出。
步骤408:将编码输出和相关性等级输入解码器,得到预测查询分词;
为了体现相关性等级对待检索文本的影响,计算机设备将编码输出和相关性等级输入解码器,得到预测查询分词。
示意性的,编码器和解码器之间还设计有注意力矩阵。计算机设备将样本相关性等级进行嵌入处理,得到相关性等级向量。通过注意力矩阵将相关性等级向量和编码输出进行注意力加权,得到加权向量;将加权向量输入解码器,解码得到预测查询分词。
在一个示例中,加权向量仅在第一个解码时刻输入至解码器。在后续的每个解码时刻,将解码器在历史解码时刻输出的预测查询分词输入解码器,得到解码器在下一个解码时刻的预测查询分词。
在另一个示例中,在第一个解码时刻将加权向量输入至解码器后,在后续的每个解码时刻,将加权向量和解码器在历史解码时刻已输出的预测查询分词输入解码器,得到解码器在下一个解码时刻的预测查询分词。
示意性的如图5所示,在第1个解码时刻,将加权向量输入解码器14,得到第1个解码时刻对应的预测查询分词Y1;
在第2个解码时刻,将加权向量和解码器在历史解码时刻输出的预测查询分词Y1输入解码器,得到解码器在第2个解码时刻的预测查询分词;
在第3个解码时刻,将加权向量和解码器在在历史解码时刻输出的预测查询分词Y1至Y2输入解码器,得到解码器在第3个解码时刻的预测查询分词Y3,依次类推,不再赘述。
步骤410:根据预测查询分词和查询分词之间的误差,更新编码器和解码器的模型参数。
可选地,预测查询分词和查询分词之间的误差,采用标准的交叉熵来表示。
阶段二:新领域的训练语料生成阶段;
步骤412:获取生成模型;
计算机设备获取已经训练好的生成模型。
步骤414:将目标领域的待检索文本输入至生成模型中,得到目标领域的第二相关性训练语料对,第二相关性训练语料对包括待检索文本和查询词之间的对应关系;
目标领域是相对于已有领域的新领域,或者,目标领域是相对于已有领域的细分领域。以目标领域是新领域为例,新领域是存在待检索文本,但是不存在查询词,或仅存在少量查询词的领域。
计算机设备将目标领域的待检索文本输入至生成模型中,由生成模型预测出查询词以及相关性等级,从而得到目标领域的第二相关性训练语料对,第二相关性训练语料对包括待检索文本和查询词之间的对应关系。
在一个示例中,由于目标领域的待检索文本较少,还需要增强待检索文本的数量。如图6所示,可选包括如下步骤:
步骤61:采用目标领域的待检索文本训练得到第二预训练语言模型;
语言模型的目标是描述字/词在句子中的概率。语言模型是从多个语料信息中训练出的模型,用来“学习”某个词的概率在语料领域中的概率。
新领域下的领域知识可由第二预训练语言模型训练得到。示意性,依然选用以BERT模型为代表的语言模型进行预训练,得到预训练语言模型。此处的“预训练语言模型”与“生成模型”是不同的两个模型,但采用的模型架构可以相同或不同。
在训练第二预训练语言模型的过程中,首先采用分词模块对待检索文本进行分词得到文本分词,每个文本分词在进行向量化表示后,记为doc_tokens。需要说明的是,第二预训练语言模型和生成模型所使用的分词模块是相同或一致的。
示意性的,以采用通用语料库训练得到的开源模型checkpoint模型作为基础模型,使用新领域下的待检索文本的文本分词进行预训练,学习新领域下的领域知识。最终得到新领域下的第二预训练语言模型。
预训练语言模型可基于屏蔽语言模型任务(Masked Language Model Task,MLM)来进行训练。MLM是指在训练过程中会随机遮挡待检索文本中的某一个词,由第二预训练语言模型根据该词的上下位信息去预测出当前被遮挡的词(类似于完形填空),并且预测后并不改变原文顺序与结构。
步骤62:将目标领域的待检索文本输入至第二预训练语言模型,得到增强后的待检索文本;
由于新领域下的待检索文本数量偏少,将目标领域的待检索文本输入至预训练语言模型,得到增强后的待检索文本。
在示意性的增强过程中,计算机设备随机遮蔽目标领域的待检索文本中的词语位置,通过预训练语言模型对词语位置进行预测,得到预测词;将预测词代入词语位置,得到增强后的待检索文本。
可选地,每次掩蔽目标领域的待检索文本中的至少一个词语。也即,每次掩蔽目标领域的待检索文本中的一个词语或多个词语。其中,n为预设值。
比如,待检索文本是“西红柿炖牛肉”,在对“西红柿”进行掩蔽时,预训练模型预测出的待检索文本是“番茄炖牛肉”;在对“牛肉”进行掩蔽时,预训练模型预测出的待检索文本是“西红柿炖牛腩”。在对“西红柿”和“炖”进行掩蔽时,预训练模型预测出的待检索文本是“土豆烧牛肉”。
将新领域下原有的待检索文本,以及预训练语言模型预测的待检索文本的合集,确定为增强后的待检索文本。增强后的待检索文本的文本内容多于待检索文本的文本内容。
步骤63:将增强后的待检索文本输入至生成模型中,得到目标领域的第二相关性训练语料对。
第二相关性训练语料对包括待检索文本和查询词之间的对应关系;
将新领域的待检索文本输入至生成模型中进行预测。由生成模型输出目标领域的第二相关性训练语料对。第二相关性训练语料对包括:目标领域的多个第二语料对,每个第二语料对包括:搜索词(query)-待检索文本(doc),以及相关性等级。其中,相关性等级也称相关性分数、相关性档位等其它名称。
相关性等级为n个,示意性的以相关性等级为三个为例,相关性等级包括:强相关、弱相关和不相关。采用标签0代表强相关,采用标签1代表弱相关,采用标签3代表不相关。将每个新领域的待检索文本和三个标签输入至生成模型中,由生成模型生成属于不同的相关性等级下的查询词(query)。最终,对于每个待检索文本生成三个“query-doc”对,分别对应三个标签。
阶段三:检索匹配模型的训练阶段;
步骤416:将第二相关性训练语料对输入至初始化模型进行训练,得到与目标领域适配的检索匹配模型;
初始化模型可以是尚未经过训练的基础模型,也可以是采用预训练语言模型进行模型参数初始化后的模型。
采用第二相关性训练语料对中的各个第二语料对作为训练样本,输入至初始化模型进行训练,得到与目标领域适配的检索匹配模型。检索匹配模型是具有对输入的查询词,输出相应的待检索文本能力的神经网络模型。检索匹配模型的输入是查询词,输出是待检索文本。
示意性的,初始化模型中包括第二编码器,可使用第二预训练语言模型中编码器的模型参数,对初始化模型中的第二编码器的模型参数进行初始化。其中,第二预训练语言模型是基于新领域的待检索文本训练得到的。
在一个示例中,初始化模型采用深度语义匹配模型(Deep Structured SemanticModels,DSSM)为代表的经典孪生双塔语义匹配模型。DSSM模型的特点是对query和doc编码在同一向量空间下,可离线保留对应的向量结果,对线上性能的提升帮助明显。
如图7所示,DSSM模型包括:输入层71、表示层72和匹配层73。
在输入层71中,CLS代表第一个句子的首尾,Tok1代表句子的第1个词语,Tokn代表句子的第n个词语。SEP用于隔开2个句子。也即,计算机设备采用上述的分词模块对query和doc进行分词处理,然后输入到表示层72中进行编码。
在表示层72中,包括两组级联的BERT编码器(第二编码器)和平均池化层,两个BERT编码器均采用第二预训练语言模型的模型参数进行初始化。其中一组BERT编码器和平均池化层对应的输入是查询词,输出是查询词的第一特征表示;另一组BERT编码器和平均池化层对应的输入是待查询文本中的店铺名和商品名,输出是店铺名和商铺名的第二特征表示。以查询词包括N个查询分词为例,E[CLS]是输入层71对CLS的输入表示,E1是输入层71对第一个查询分词Tok1的输入表示,EN是输入层71对第N个查询分词TokN的输入表示。C是BERT编码器对E[CLS]的语义表征向量,T1是BERT编码器对E1的输入表示,TN是BERT编码器对EN的语义表征向量。依次类推,不再赘述。
在匹配层73中,计算第一特征表示和第二特征表示之间的余弦相似度。余弦相似度用于确定两个向量是否指向相同的方向。当两个向量具有相同的指向时,余弦相似度的值为1;当两个向量的夹角为90度时,余弦相似度的值为0。其中,匹配层73也称softmax层。
在实际模型训练中,可根据硬件条件、时间要求对深度语义匹配模型(DeepStructured Semantic Models,DSSM)模型的模型结构进行简化,比如可固定BERT编码器中的前n层的模型参数(或称网络权重),只对后几层进行训练等。
在另一个示例中,初始化模型采用改良版交互式深度语义匹配模型。如图8所示,该改良版交互式深度语义匹配模型分为左、右两侧网络结构。左侧网络结构主要包括:输入层81、交互层82和全连接层83。
输入层81包括两个第二编码器,第二编码器均采用第二预训练语言模型的模型参数进行初始化。其中一个第二编码器用于对待检索文本进行编码,输出待检索文本的语义表征向量doc-vec,另外一个第二编码器用于对查询词进行编码,输出查询词的语义表征向量query-vec。两个第二编码器会共享权重。
交互层82包括平均池化层、最大池化层和规范化(Norm)层,将query、doc的语义表征向量,分别通过最大池化层和平均池化层得到的向量结果计算相似度向量,相似度向量的计算可以采用多种方式,比如余弦(cosine)、杰卡德(jaccard)、点积(dot-product)等。规范化层用于对相似度向量进行规范化处理。
全连接层83用于将交互层82输出的两个相似度向量进行拼接后,输入至上层的全连接层中。
右侧网络架构为多层感知器模型(Multi-Layer Perception,MLP),具体结构不再赘述。右侧网络架构中会使用一些额外特征,依赖于特征工程方面的工作。示意性的,额外特征可以包括query和doc的字面文本特征,比如字数、词数、共现字/词数、共现位置等;或者,额外特征可以包括文本相似度,比如BM25、词频-逆文件频率(Term Frequency-InverseDocument Frequency,TF-IDF)、编辑距离等;或者,额外特征可以包括向量相似度,比如BERT、word2vec、fast-text等词向量的结果;或者,额外特征包括类别相似度,比如文本分类标签、商家品类、商品品类等、以及其他维度的特征等。
使用人工特征工程后可提高初始化模型的延展性,为后续迭代打下基础,同时可以有效提升初始化模型的预测准确率。最后,将左右两边网络结果输出的向量拼接在一起,经全连接层83、稠密(dense)层和输出(softmax)层后输出最终结果。
阶段四:检索匹配模型的使用阶段;
步骤418:使用训练后的检索匹配模型提供目标领域的检索服务。
示意性的,开发人员将训练后的检索匹配模型部署至搜索服务器上,由搜索服务器使用训练后的检索匹配模型提供目标领域的检索服务。比如,新领域是书籍领域,搜索服务器使用检索匹配模型提供书籍领域的检索服务;又比如,新领域是手机领域,搜索服务器使用检索匹配模型提供手机领域的检索服务。
综上所述,本实施例提供的方法,无须对新领域的样本训练数据进行人工标注,并且无须事先在新领域进行用户行为积累,即可自动生成相关语料进行检索匹配模型的学习,同时利用预训练语言模型,可以很好地对新领域做到适配。
另外,本实施例提供的方法适配性强,可扩展性优秀。不仅在业务高速扩展时面对更多新领域更加得心应手,同时在检索匹配模型上线前就可提供大量的候选标注数据,在后期有了人工标注数据或者大量用户行为积累之后,依然可以使用本方法训练得到的检索匹配模型进行持续学习,大大提高了检索匹配模型的迭代效率。
另外,本实施例提供的方法的准确率高,一方面预训练语言模型本身蕴含了领域知识,另一方面,由于检索匹配模型在训练时使用的文本就是新领域内的待检索文本,检索匹配模型的预测准确率将比只使用原有领域知识、或单纯字面匹配、或使用语义相似度等传统方法得到的相关度更为精准,提升了在新领域进行搜索时的整体用户体验,进而可以提升用户对品牌的信赖感。
图9示出了本申请一个示例性实施例提供的检索匹配模型的训练装置的框图。该装置包括:
获取模块920,用于获取生成模型,所述生成模型是根据已有领域的第一相关性训练语料对训练得到的;
输入模块940,用于将目标领域的待检索文本输入至所述生成模型中,得到所述目标领域的第二相关性训练语料对,所述第二相关性训练语料对包括所述待检索文本和查询词之间的对应关系;
训练模块960,用于将所述第二相关性训练语料对输入至初始化模型进行训练,得到与所述目标领域适配的检索匹配模型。
在本申请的一个可选设计中,所述生成模型包括第一编码器和第一解码器;所述装置还包括:分词模块980;
所述获取模块920,还用于获取所述已有领域的第一相关性训练语料对,所述第一相关性训练语料对中的每个语料对中包括:样本文本、样本查询词和样本相关性等级,所述相关性等级用于指示所述样本文本和所述样本查询词之间的相关性程度;
所述分词模块980,还用于对所述样本文本进行分词得到文本分词;对所述样本查询词进行分词得到查询分词;
所述输入模块940,还用于将所述文本分词输入所述编码器,得到编码输出;将所述编码输出和所述相关性等级输入所述解码器,得到预测查询分词;
所述训练模块960,用于根据所述预测查询分词和所述查询分词之间的误差,更新所述编码器和所述解码器的模型参数。
在本申请的一个可选设计中,所述输入模块940,还用于将所述样本相关性等级进行嵌入处理,得到相关性等级向量;通过注意力矩阵将所述相关性等级向量和所述编码输出进行注意力加权,得到加权向量;将所述加权向量输入所述解码器,解码得到所述预测查询分词。
在本申请的一个可选设计中,所述训练模块960,还用于使用第一预训练语言模型的模型参数,对所述编码器和所述解码器的模型参数进行初始化;所述第一预训练语言模型是采用通用语料训练得到的;
其中,所述编码器和所述解码器在训练过程中共享所述模型参数。
在本申请的一个可选设计中,所述输入模块940,还用于将所述目标领域的待检索文本输入至第二预训练语言模型,得到增强后的待检索文本;将所述增强后的待检索文本输入至所述生成模型中,得到所述目标领域的第二相关性训练语料对;
其中,所述增强后的待检索文本的文本内容多于所述待检索文本的文本内容,所述第二预训练语言模型是基于所述目标领域的待检索文本训练得到的。
在本申请的一个可选设计中,所述输入模块940,还用于随机遮蔽所述目标领域的待检索文本中的词语位置,通过所述第一预训练语言模型对所述词语位置进行预测,得到预测词;将所述预测词代入所述词语位置,得到所述增强后的待检索文本。
在本申请的一个可选设计中,所述初始化模型中包括第二编码器,所述训练模块960,还用于使用第二预训练语言模型中编码器的模型参数,对所述初始化模型中的所述第二编码器的模型参数进行初始化;
其中,所述第二预训练语言模型是基于所述目标领域的待检索文本训练得到的。
图10示出了本申请一个实施例提供的计算机设备1000的结构框架图。具体来讲:所述计算机设备1000包括中央处理单元(CPU)1001、包括随机存取存储器(RAM)1002和只读存储器(ROM)1003的***存储器1004,以及连接***存储器1004和中央处理单元1001的***总线1005。所述计算机设备1000还包括帮助计算机内的各个器件之间传输信息的基本输入/输出***(I/O***)1006,和用于存储操作***1013、应用程序1014和其他程序模块1015的大容量存储设备1007。
所述基本输入/输出***1006包括有用于显示信息的显示器1008和用于用户输入信息的诸如鼠标、键盘之类的输入设备1009。其中所述显示器1008和输入设备1009都通过连接到***总线1005的输入输出控制器1100连接到中央处理单元1001。所述基本输入/输出***1006还可以包括输入输出控制器1010以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器1010还提供输出到显示屏、打印机或其他类型的输出设备。
所述大容量存储设备1007通过连接到***总线1005的大容量存储控制器(未示出)连接到中央处理单元1001。所述大容量存储设备1007及其相关联的计算机可读介质为计算机设备1000提供非易失性存储。也就是说,所述大容量存储设备1007可以包括诸如硬盘或者CD-ROM驱动器之类的计算机可读介质(未示出)。
不失一般性,所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术,CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的***存储器1004和大容量存储设备1007可以统称为存储器。
根据本申请的各种实施例,所述计算机设备1000还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备1000可以通过连接在所述***总线1005上的网络接口单元1011连接到网络1012,或者说,也可以使用网络接口单元1011来连接到其他类型的网络或远程计算机***(未示出)。
所述存储器还包括一个或者一个以上的程序,所述一个或者一个以上程序存储于存储器中,所述一个或者一个以上程序包含用于进行本申请实施例提供的检索匹配模型的训练方法。
本申请还提供一种计算机可读存储介质,所述存储介质中存储有计算机程序,所述计算机程序由处理器加载并执行以实现上述方法实施例提供的检索匹配模型的训练方法。
可选地,本申请还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述各方面所述的检索匹配模型的训练方法。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (10)
1.一种检索匹配模型的训练方法,其特征在于,所述方法包括:
获取生成模型,所述生成模型是根据已有领域的第一相关性训练语料对训练得到的;
将目标领域的待检索文本输入至所述生成模型中,得到所述目标领域的第二相关性训练语料对,所述第二相关性训练语料对包括所述待检索文本和查询词之间的对应关系;
将所述第二相关性训练语料对输入至初始化模型进行训练,得到与所述目标领域适配的检索匹配模型。
2.根据权利要求1所述的方法,其特征在于,所述生成模型包括第一编码器和第一解码器,所述方法还包括:
获取所述已有领域的第一相关性训练语料对,所述第一相关性训练语料对中的每个语料对中包括:样本文本、样本查询词和样本相关性等级,所述相关性等级用于指示所述样本文本和所述样本查询词之间的相关性程度;
对所述样本文本进行分词得到文本分词;对所述样本查询词进行分词得到查询分词;
将所述文本分词输入所述编码器,得到编码输出;
将所述编码输出和所述相关性等级输入所述解码器,得到预测查询分词;
根据所述预测查询分词和所述查询分词之间的误差,更新所述编码器和所述解码器的模型参数。
3.根据权利要求2所述的方法,其特征在于,所述生成模型还包括注意力矩阵,所述将所述编码输出和所述相关性等级输入所述解码器,得到预测查询分词,包括:
将所述样本相关性等级进行嵌入处理,得到相关性等级向量;
通过注意力矩阵将所述相关性等级向量和所述编码输出进行注意力加权,得到加权向量;
将所述加权向量输入至所述解码器,解码得到所述预测查询分词。
4.根据权利要求2所述的方法,其特征在于,所述方法还包括:
使用第一预训练语言模型的模型参数,对所述编码器和所述解码器的模型参数进行初始化;所述第一预训练语言模型是采用通用语料训练得到的;
其中,所述编码器和所述解码器在训练过程中共享所述模型参数。
5.根据权利要求1至4任一所述的方法,其特征在于,所述将目标领域的待检索文本输入至所述生成模型中,得到所述目标领域的第二相关性训练语料对,包括:
将所述目标领域的待检索文本输入至第二预训练语言模型,得到增强后的待检索文本;
将所述增强后的待检索文本输入至所述生成模型中,得到所述目标领域的第二相关性训练语料对;
其中,所述增强后的待检索文本的文本内容多于所述待检索文本的文本内容,所述第二预训练语言模型是基于所述目标领域的待检索文本训练得到的。
6.根据权利要求5所述的方法,其特征在于,所述将目标领域的待检索文本输入至第一预训练语言模型,得到增强后的待检索文本,包括:
随机遮蔽所述目标领域的待检索文本中的词语位置,通过所述第一预训练语言模型对所述词语位置进行预测,得到预测词;
将所述预测词代入所述词语位置,得到所述增强后的待检索文本。
7.根据权利要求1至4任一所述的方法,其特征在于,所述初始化模型中包括第二编码器,所述方法还包括:
使用第二预训练语言模型中的编码器的模型参数,对所述初始化模型中的所述第二编码器的模型参数进行初始化;
其中,所述第二预训练语言模型是基于所述目标领域的待检索文本训练得到的。
8.一种检索匹配模型的训练装置,其特征在于,所述装置包括:
获取模块,用于获取生成模型,所述生成模型是根据已有领域的第一相关性训练语料对训练得到的;
输入模块,用于将目标领域的待检索文本输入至所述生成模型中,得到所述目标领域的第二相关性训练语料对,所述第二相关性训练语料对包括所述待检索文本和查询词之间的对应关系;
训练模块,用于将所述第二相关性训练语料对输入至初始化模型进行训练,得到与所述目标领域适配的检索匹配模型。
9.一种计算机设备,其特征在于,所述计算机设备包括:处理器和存储器,所述存储器存储有计算机程序,所述计算机程序由所述处理器加载并执行以实现如权利要求1至7任一所述的检索匹配模型的训练方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序由处理器加载并执行以实现如权利要求1至7任一所述的检索匹配模型的训练方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011529224.3A CN112579870A (zh) | 2020-12-22 | 2020-12-22 | 检索匹配模型的训练方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011529224.3A CN112579870A (zh) | 2020-12-22 | 2020-12-22 | 检索匹配模型的训练方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112579870A true CN112579870A (zh) | 2021-03-30 |
Family
ID=75138905
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011529224.3A Pending CN112579870A (zh) | 2020-12-22 | 2020-12-22 | 检索匹配模型的训练方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112579870A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113722422A (zh) * | 2021-04-14 | 2021-11-30 | 腾讯科技(深圳)有限公司 | 模型训练方法、文本标签生成方法、装置、设备及介质 |
CN113806487A (zh) * | 2021-09-23 | 2021-12-17 | 平安科技(深圳)有限公司 | 基于神经网络的语义搜索方法、装置、设备和存储介质 |
CN114510559A (zh) * | 2022-01-27 | 2022-05-17 | 福建博思软件股份有限公司 | 一种基于深度学习语义蕴含的商品检索方法及存储介质 |
CN115203377A (zh) * | 2022-09-09 | 2022-10-18 | 北京澜舟科技有限公司 | 基于检索的模型增强训练方法、***及存储介质 |
CN117786242A (zh) * | 2024-02-26 | 2024-03-29 | 腾讯科技(深圳)有限公司 | 一种基于位置的搜索方法及相关装置 |
-
2020
- 2020-12-22 CN CN202011529224.3A patent/CN112579870A/zh active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113722422A (zh) * | 2021-04-14 | 2021-11-30 | 腾讯科技(深圳)有限公司 | 模型训练方法、文本标签生成方法、装置、设备及介质 |
CN113806487A (zh) * | 2021-09-23 | 2021-12-17 | 平安科技(深圳)有限公司 | 基于神经网络的语义搜索方法、装置、设备和存储介质 |
CN113806487B (zh) * | 2021-09-23 | 2023-09-05 | 平安科技(深圳)有限公司 | 基于神经网络的语义搜索方法、装置、设备和存储介质 |
CN114510559A (zh) * | 2022-01-27 | 2022-05-17 | 福建博思软件股份有限公司 | 一种基于深度学习语义蕴含的商品检索方法及存储介质 |
CN114510559B (zh) * | 2022-01-27 | 2023-08-29 | 福建博思软件股份有限公司 | 一种基于深度学习语义蕴含的商品检索方法及存储介质 |
CN115203377A (zh) * | 2022-09-09 | 2022-10-18 | 北京澜舟科技有限公司 | 基于检索的模型增强训练方法、***及存储介质 |
CN117786242A (zh) * | 2024-02-26 | 2024-03-29 | 腾讯科技(深圳)有限公司 | 一种基于位置的搜索方法及相关装置 |
CN117786242B (zh) * | 2024-02-26 | 2024-05-28 | 腾讯科技(深圳)有限公司 | 一种基于位置的搜索方法及相关装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20200234102A1 (en) | Joint learning of local and global features for entity linking via neural networks | |
CN112579870A (zh) | 检索匹配模型的训练方法、装置、设备及存储介质 | |
CN112131350B (zh) | 文本标签确定方法、装置、终端及可读存储介质 | |
Meng et al. | GEMNET: Effective gated gazetteer representations for recognizing complex entities in low-context input | |
US11550871B1 (en) | Processing structured documents using convolutional neural networks | |
CN106462626B (zh) | 利用深度神经网络对兴趣度建模 | |
CN110162749A (zh) | 信息提取方法、装置、计算机设备及计算机可读存储介质 | |
EP3411835B1 (en) | Augmenting neural networks with hierarchical external memory | |
US11720761B2 (en) | Systems and methods for intelligent routing of source content for translation services | |
Suissa et al. | Text analysis using deep neural networks in digital humanities and information science | |
WO2014160344A1 (en) | Scoring concept terms using a deep network | |
CN110457682A (zh) | 电子病历词性标注方法、模型训练方法及相关装置 | |
KR20170004154A (ko) | 문서를 이미지 기반 컨텐츠로 요약하여 제공하는 방법 및 시스템 | |
CN112188312B (zh) | 用于确定新闻的视频素材的方法和装置 | |
US11704506B2 (en) | Learned evaluation model for grading quality of natural language generation outputs | |
Kumar et al. | BERT based semi-supervised hybrid approach for aspect and sentiment classification | |
CN111831924A (zh) | 内容推荐方法、装置、设备及可读存储介质 | |
CN110362663A (zh) | 自适应多感知相似度检测和解析 | |
Wang et al. | A Deep‐Learning‐Inspired Person‐Job Matching Model Based on Sentence Vectors and Subject‐Term Graphs | |
Parcheta et al. | Combining embeddings of input data for text classification | |
CN114282528A (zh) | 一种关键词提取方法、装置、设备及存储介质 | |
Suneera et al. | A bert-based question representation for improved question retrieval in community question answering systems | |
Milanova et al. | Automatic text generation in Macedonian using recurrent neural networks | |
Kandi | Language Modelling for Handling Out-of-Vocabulary Words in Natural Language Processing | |
CN115309865A (zh) | 基于双塔模型的交互式检索方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |