CN112948676A - 文本特征提取模型的训练方法、文本推荐方法及装置 - Google Patents
文本特征提取模型的训练方法、文本推荐方法及装置 Download PDFInfo
- Publication number
- CN112948676A CN112948676A CN202110220539.8A CN202110220539A CN112948676A CN 112948676 A CN112948676 A CN 112948676A CN 202110220539 A CN202110220539 A CN 202110220539A CN 112948676 A CN112948676 A CN 112948676A
- Authority
- CN
- China
- Prior art keywords
- title
- text
- feature
- titles
- feature extraction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/10—Machine learning using kernel methods, e.g. support vector machines [SVM]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Probability & Statistics with Applications (AREA)
- Medical Informatics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种文本特征提取模型的训练方法、文本推荐方法及装置,所述训练方法包括:获取多个包括标题及文本内容的文本,确定增强各文本语义表示的标签;根据各文本的标签,构建多个三元组,其中,每个三元组包括目标标题、与目标标题的文本语义相关的第一标题、以及与目标标题的文本语义不相关的第二标题;基于文本特征提取模型,提取每个三元组中的每个标题的特征表示;针对每个三元组,基于每个三元组中的目标标题的特征表示和第一标题的特征表示之间的相似度、以及目标标题的特征表示和第二标题的特征表示之间的相似度,确定每个三元组对应的损失值;基于多个三元组分别对应的损失值,更新文本特征提取模型的参数。
Description
技术领域
本申请涉及文本信息处理技术领域,尤其涉及一种文本特征提取模型的训练方法、文本推荐方法及装置。
背景技术
本部分旨在为权利要求书中陈述的本申请的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
目前通常使用大量的文本信息对应的标题作为训练数据,对基于人工智能的文本特征提取模型进行训练,使得文本特征提取模型能够根据标题中词语学习到相似标题中的静态语义特征,或者根据词语的语义结合上下文内容学习到相似标题中的动态语义特征,进而识别出内容相似的标题,将内容相似的标题及对应的文本信息作为相关文本信息推送给用户。但对文本特征提取模型训练时仅考虑标题的语义,使得在实际使用所述文本特征提取模型向用户推荐文本信息的过程中存在相当大的局限性。
发明内容
针对上述技术问题,目前需要一种改进的方法,能够对所述文本特征提取模型训练时,从除用于训练的标题的语义外的其它维度来增强标题的语义表达,进而提高文本推荐的精准度。
第一方面,本申请一实施例提供了一种文本特征提取模型的训练方法,包括:
获取多个包括标题及文本内容的文本,确定增强各文本语义表示的标签;
根据各文本的标签,构建多个三元组,其中,每个三元组包括目标标题、与所述目标标题的文本语义相关的第一标题、以及与所述目标标题的文本语义不相关的第二标题;
基于文本特征提取模型,提取每个三元组中的每个标题的特征表示;
针对每个三元组,基于所述每个三元组中的目标标题的特征表示和第一标题的特征表示之间的相似度、以及目标标题的特征表示和第二标题的特征表示之间的相似度,确定所述每个三元组对应的损失值;
基于所述多个三元组分别对应的损失值,更新所述文本特征提取模型的参数。
可选地,所述确定增强各文本语义表示的标签,包括:
利用标签抽取算法,根据每个文本的标题及内容,计算得到该文本的至少一个标签。
这样,通过对文本的标题及内容的语义综合考虑,从中提取出标签来增强所述标题的语义,可以使训练得到的所述文本特征提取模型,学习到相关文本的标题之间的隐式特征表示,从而提升利用所述文本特征提取模型进行推荐的精准度。
可选地,所述基于文本特征提取模型,提取每个三元组中的每个标题的特征表示之前,还包括:
若文本的标签位于所述文本的标题中时,利用标识符对所述标签进行标注,得到带标签标注的标题。
这样,通过对位于标题中的标签进行标注,可以辅助所述文本特征提取模型提取特征。
可选地,所述根据各文本的标签,构建多个三元组,具体包括:
从所述多个文本的标题中抽取一个目标标题;
根据各文本的标签,确定与所述目标标题存在至少一个相同标签的文本的标题为第一标题,与所述目标标题不存在相同标签的文本的标题为第二标题。
这样,通过是否具有相同标签来确定与所述目标标题对应的第一标题和第二标题,可以更好地区分用于训练的标题的语义是否具有相关性。
可选地,所述文本特征提取模型包括特征提取模块、特征池化层和全连接层;
所述基于文本特征提取模型,提取每个三元组中的每个标题的特征表示,具体包括:
基于特征提取模块,提取每个标题对应的特征向量并输出;
基于所述特征池化层,对所述特征提取模块输出的特征向量进行池化处理;
基于所述全连接层,将所述池化处理后的特征向量转换为固定维度的向量,以获得所述任一标题对应的特征表示。
这样,通过特征池化层进行池化处理,可以降低所述特征向量的维度;通过所述全连接层的处理,可以整合特征表示,实现隐含语义的表达。可选地,所述确定所述每个三元组对应的损失值,具体包括:
计算损失函数:L=max(d(a,p)-d(a,n)+margin,0)
其中,margin为设定值,d(a,p)表示目标标题a的特征表示和第一标题p的特征表示之间的相似度,d(a,n)表示目标标题a的特征表示和第二标题n的特征表示之间的相似度。
这样,基于损失函数得到的损失值可用来描述模型的预测值与实际值的差异程度,从而调整所述文本特征提取模型。
第二方面,本申请一实施例提供了一种文本推荐方法,包括:
获取用户点击的至少一个第三标题和多个候选标题;
将所述第三标题和多个所述候选标题输入到文本特征提取模型,分别提取所述第三标题和多个候选标题的特征表示,其中,所述文本特征提取模型是基于所述文本特征提取模型的训练方法训练得到的;
分别确定所述第三标题的特征表示和每个候选标题的特征表示之间的相似度;
基于所述多个候选标题对应的相似度,从所述多个候选标题中确定出推荐给所述用户的标题及对应的文本内容。
这样,通过使用第一方面的训练方法训练得到的文本特征提取模型确定与所述第三标题相似的候选标题,在用户点击率与用户使用时长方面与现有技术相比具有明显的提升。
可选地,所述分别确定所述第三标题的特征表示和每个候选标题的特征表示之间的相似度,包括:
针对每个第三标题,确定所述第三标题的特征表示和每个候选标题的特征表示之间的相似度;
或者,针对多个第三标题,根据用户对所述第三标题的操作确定各个第三标题的权重;
利用权重将多个第三标题对应的特征表示处理为用户偏好标题的特征表示,确定用户偏好标题的特征表示和每个候选标题的特征表示之间的相似度。
这样,通过对每个所述第三标题使用所述文本特征提取模型确定推荐的候选标题,或者通过多个第三标题确定用户的偏好特征来确定推荐的候选标题,可以提升利用所述文本特征提取模型进行推荐的精准度。
第三方面,本申请一实施例提供了一种文本特征提取模型的训练装置,包括:
标签确定单元,用于获取多个包括标题及文本内容的文本,确定增强各文本语义表示的标签;
训练数据构建单元,用于根据各文本的标签,构建多个三元组,其中,每个三元组包括目标标题、与所述目标标题的文本语义相关的第一标题、以及与所述目标标题的文本语义不相关的第二标题;
特征提取单元,用于基于文本特征提取模型,提取每个三元组中的每个标题的特征表示;
损失计算单元,用于针对每个三元组,基于所述每个三元组中的目标标题的特征表示和第一标题的特征表示之间的相似度、以及目标标题的特征表示和第二标题的特征表示之间的相似度,确定所述每个三元组对应的损失值;
更新单元,用于基于所述多个三元组分别对应的损失值,更新所述文本特征提取模型的参数。
可选地,所述确定增强各文本语义表示的标签,具体包括:
利用标签抽取算法,根据每个文本的标题及内容,计算得到该文本的至少一个标签。
可选地,所述基于文本特征提取模型,提取每个三元组中的每个标题的特征表示之前,还包括:
若文本的标签位于所述文本的标题中时,利用标识符对所述标签进行标注,得到带标签标注的标题。
可选地,所述根据各文本的标签,构建多个三元组,具体包括:
从所述多个文本的标题中抽取一个目标标题;
根据各文本的标签,确定与所述目标标题存在至少一个相同标签的文本的标题为第一标题,与所述目标标题不存在相同标签的文本的标题为第二标题。
可选地,所述文本特征提取模型包括特征提取模块、特征池化层和全连接层;
所述基于文本特征提取模型,提取每个三元组中的每个标题的特征表示,具体包括:
基于特征提取模块,提取每个标题对应的特征向量并输出;
基于所述特征池化层,对所述特征提取模块输出的特征向量进行池化处理;
基于所述全连接层,将所述池化处理后的特征向量转换为固定维度的向量,以获得所述任一标题对应的特征表示。
可选地,所述确定所述每个三元组对应的损失值,具体包括:
计算损失函数:L=max(d(a,p)-d(a,n)+margin,0)
其中,margin为设定值,d(a,p)表示目标标题a的特征表示和第一标题p的特征表示之间的相似度,d(a,n)表示目标标题a的特征表示和第二标题n的特征表示之间的相似度。
第四方面,本申请一实施例提供了一种文本推荐装置,包括:
获取单元,用于获取用户点击的至少一个第三标题和多个候选标题;
特征提取单元,用于将所述第三标题和多个所述候选标题输入到文本特征提取模型,分别提取所述第三标题和多个候选标题的特征表示,其中,所述文本特征提取模型是基于所述文本特征提取模型的训练方法训练得到的;
相似度计算单元,用于分别确定所述第三标题的特征表示和每个候选标题的特征表示之间的相似度;
推荐单元,用于基于所述多个候选标题对应的相似度,从所述多个候选标题中确定出推荐给所述用户的标题及对应的文本内容。
可选地,所述分别确定所述第三标题的特征表示和每个候选标题的特征表示之间的相似度,包括:
针对每个第三标题,确定所述第三标题的特征表示和每个候选标题的特征表示之间的相似度;
或者,针对多个第三标题,根据用户对所述第三标题的操作确定各个第三标题的权重;
利用权重将多个第三标题对应的特征表示处理为用户偏好标题的特征表示,确定用户偏好标题的特征表示和每个候选标题的特征表示之间的相似度。
第五方面,本申请一实施例提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述文本特征提取模型的训练方法的步骤,或执行所述计算机程序时实现所述文本推荐方法的步骤。
第六方面,本申请一实施例提供了一种计算机可读存储介质,其上存储有计算机程序指令,该计算机程序指令被处理器执行时实现所述文本特征提取模型的训练方法的步骤,或被处理器执行时实现所述文本推荐方法的步骤。
本申请提供的文本特征提取模型的训练方法、文本推荐方法及装置,基于增强各文本语义表示的标签构建的训练数据,使得模型能够学习到相关文本的标题之间的隐式特征表示,因而不会仅基于标题中词语的语义的相似度向用户推荐文本,使得文本特征学习目标能够与实际应用场景相契合,进而提高文本推荐的精准度。
附图说明
通过参考附图阅读下文的详细描述,本申请示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本申请的若干实施方式,其中:
图1为本申请实施例提供的文本推荐方法的应用场景示意图;
图2为本申请一实施例提供的文本特征提取模型的训练方法的流程示意图;
图3为本申请一实施例提供的根据各文本的标签构建多个三元组的流程示意图;
图4为本申请一实施例提供的文本特征提取模型的结构示意图;
图5为本申请一实施例提供的基于文本特征提取模型提取每个三元组中的每个标题的特征表示的流程示意图;
图6为本申请一实施例提供的基于文本特征提取模型提取每个三元组中的每个标题的特征表示的效果示意图;
图7本申请一实施例提供的文本推荐方法的流程示意图;
图8为本申请一实施例提供的基于文本特征提取模型提取第三标题或候选标题的特征表示的流程示意图;
图9为本申请一实施例提供的基于文本特征提取模型提取第三标题或候选标题的特征表示的效果示意图;
图10为本申请一实施例提供的文本特征提取模型的训练装置的结构示意图;
图11为本申请一实施例提供的文本推荐装置的结构示意图;
图12为本申请一实施例提供的电子设备的结构示意图;
图13为本申请一实施例提供的计算机程序产品的结构示意图。
具体实施方式
下面将参考若干示例性实施方式来描述本申请的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本申请,而并非以任何方式限制本申请的范围。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
本领域技术人员知道,本申请的实施方式可以实现为一种***、装置、设备、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
在本文中,需要理解的是,附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。
为了方便理解,下面对本申请实施例中涉及的名词进行解释:
点击行为:在本申请中是指用户在客户端中点击标题以阅读浏览对应的文本的行为。客户端会记录用户点击的标题以及点击时刻并发送给服务器,服务器存储各个用户历史点击的标题和对应的点击时刻,并按点击时刻有序排列,以获得各个用户对应的历史点击行为数据。
人工智能(Artificial Intelligence,AI):是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
深度学习:深度学习的概念源于人工神经网络的研究,含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。深度学习是机器学习研究中的一个新的领域,其动机在于建立、模拟人脑进行分析学习的神经网络,通过模仿人脑的机制来解释数据,例如图像,声音和文本等。常用的深度学习模型包括:卷积神经网络(Convolutional NeuralNetworks,CNN)、循环神经网络(Recurrent Neural Network,RNN)、长短期记忆网络(LongShort-Term Memory,LSTM)、深度神经网络(Deep Neural Network,DNN)、深度置信网(DeepBelief Nets,DBNs)等神经网络。数据在神经网络中的传播有两种方式,一种是沿着输入到输出的路径,被称为前向传播(Forwardpropagation),另一种是从输出返回到输入,被成为反向传播(Backpropagation)。在正向传播过程中,输入信息通过神经网络逐层处理并传向输出层,通过损失函数描述输出值与期望之间的误差,转入反向传播,逐层求出损失函数对各神经元的权重的偏导数,构成损失函数对权值向量的权重梯度数据,作为更新权重参数的依据,在不断更新权重参数的过程中完成神经网络的训练。
全连接层(Fully Connected Layers,FC):在整个卷积神经网络中起到“分类器”的作用,全连接层的每一个结点都与上一层的所有结点相连,用来把前边提取到的特征综合起来。如果说卷积层、池化层和激活函数层等操作是将原始数据映射到隐层特征空间的话,全连接层则起到将学到的“分布式特征表示”映射到样本标记空间的作用。
损失函数(Loss Function):是将随机事件或其有关随机变量的取值映射为非负实数以表示该随机事件的“风险”或“损失”的函数。在应用中,损失函数通常作为学习准则与优化问题相联系,即通过最小化损失函数求解和评估模型。例如,在机器学习中,损失函数被用于模型的参数估计(Parameteric Estimation),基于损失函数得到的损失值可用来描述模型的预测值与实际值的差异程度。常见的损失函数有均方误差损失函数、支持向量机(Support Vector Machine,SVM)合页损失函数、交叉熵损失函数等。
Word2vec模型:字向量转化(Word to vector,Word2vec)模型是一群用来产生词向量的相关模型。这些模型为浅层双层的神经网络,用来训练以重新建构语言学之词文本。网络以词表现,并且需猜测相邻位置的输入词,在Word2vec中词袋模型假设下,词的顺序是不重要的。训练完成之后,Word2vec模型可以把每个词映射到一个向量,来表示词与词之间的关系。所述向量为神经网络的隐藏层。Word2vec依赖Skip-grams模型或连续词袋(Continuous Bag-of-Word,CBOW)模型来建立神经词嵌入,所以得到的特征为静态的。
BERT模型:基于转换器的双向编码表征(Bidirectional EncoderRepresentation from Transformers,BERT)模型是一种深度双向的、无监督的语言表示,且仅使用纯文本语料库进行预训练的模型。它基于深度自注意力网络(Transformer)模型以及采用两阶段的过程结构,其中第一个阶段是利用语言模型和下句关系预测进行预训练,第二阶段通过微调(Fine-tuning)的模式解决下游任务。BERT模型通过考虑上下文的语义,可以建模一词多义现象,从而得到的特征为与上下文相关的动态特征。
召回:是推荐***的一个环节。推荐***一般由召回、排序、重排三个阶段组成,召回是指用一些高效的算法从整个大的推荐集中召回与用户兴趣或对应物品相关度高的一部分物品作为排序阶段的候选集合。
下面参考本申请的若干代表性实施方式,详细阐释本申请的原理和精神。
发明概述
现有的基于人工智能的文本特征提取模型,需要依托于大量的文本信息对应的标题作为训练数据,使得文本特征提取模型能够根据标题中词语学习到相似标题中的静态语义特征,或者根据词语的语义结合上下文内容学习到相似标题中的动态语义特征,进而识别出内容相似的标题,将内容相似的标题及对应的文本信息作为相关文本信息推送给用户。但对文本特征提取模型训练时仅考虑标题的语义,使得在实际使用所述文本特征提取模型向用户推荐文本信息的过程中存在相当大的局限性。
为了解决上述问题,本申请提供了一种文本特征提取模型的训练方法,包括:获取多个包括标题及文本内容的文本,确定增强各文本语义表示的标签;根据各文本的标签,构建多个三元组,其中,每个三元组包括目标标题、与所述目标标题的文本语义相关的第一标题、以及与所述目标标题的文本语义不相关的第二标题;基于文本特征提取模型,提取每个三元组中的每个标题的特征表示;针对每个三元组,基于所述每个三元组中的目标标题的特征表示和第一标题的特征表示之间的相似度、以及目标标题的特征表示和第二标题的特征表示之间的相似度,确定所述每个三元组对应的损失值;基于所述多个三元组分别对应的损失值,更新所述文本特征提取模型的参数。本申请的文本特征提取模型的训练方法,在训练过程中利用基于标题和对应文本得到的增强标题语义的标签来构建目标标题、语义相关标题和语义不相关标题的三元组作为训练数据,使得模型能够学习到语义相关标题之间的隐式特征表示,因而不会仅基于标题中词语的静态语义或动态语义的相似度向用户推荐文本内容,使得提高文本推荐的精准度。
在介绍了本申请的基本原理之后,下面具体介绍本申请的各种非限制性实施方式。
应用场景总览
参考图1,其为本申请实施例提供的文本推荐方法的应用场景示意图。在图1所示的应用场景中包括终端设备101和服务器102。其中,终端设备101和服务器102之间可通过无线通信网络或有线通信网络连接,终端设备101包括但不限于桌面计算机、移动电话、移动电脑、平板电脑、媒体播放器、智能可穿戴设备、智能电视、车载设备、个人数字助理(Personal Digital Assistant,PDA)等电子设备。服务器102可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式***,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
服务器102用于提供文本内容服务,例如可以是文本内容阅读浏览、文本内容发布等服务。终端设备101中安装有文本内容客户端,用户可通过文本内容客户端获取服务器102提供的文本内容服务,或者用户也可以通过终端设备101内的浏览器访问文本内容网站,以获取服务器102提供的文本内容服务。例如,任一用户可通过文本内容客户端向文本内容平台对应的服务器102上传文本内容,以通过文本内容平台发布所述文本内容,这样其他用户可阅读浏览到该用户发布的所述文本内容。服务器102对用户点击的所述文本内容的标题进行特征提取,并基于得到的特征表示根据相似度确定出推荐的候选标题,将候选标题及对应的文本内容发送至所述用户的终端设备;或者,服务器102对用户点击的多个历史标题进行特征提取,将基于得到的特征表示根据对所述历史标题的操作进行加权处理,确定用户偏好标题的特征表示,根据用户偏好标题的特征表示和候选标题的相似度确定出推荐的候选标题,将候选标题及对应的文本内容发送至所述用户的终端设备。
需要注意的是,上述应用场景仅是为了便于理解本申请的精神和原理而示出,本申请的实施方式在此方面不受任何限制。相反,本申请的实施方式可以应用于适用的任何场景。
示例性方法
参考图2,本申请实施例提供了一种文本特征提取模型的训练方法,应用于服务器,包括:
S201、获取多个包括标题及文本内容的文本,确定增强各文本语义表示的标签;
在具体实施过程中,所述文本的文本内容是与所述标题对应的,且非所述标题的文本。例如所述文本为一则新闻,那么所述标题为所述新闻的标题,所述文本内容为所述新闻的详细报道的文本。所述标签包括实体标签和抽象标签。其中,所述实体标签指的是词性为名词,且在语义上具有唯一指代的性质的标签。所述抽象标签是与所述实体标签相对的概念,即不具有唯一指代性质的,表示一类事物或概念的标签。例如,对于一则新闻为某汽车厂商发布某新款汽车,那么此新闻的实体标签可以为此汽车厂商的名称,此汽车的品牌名称、车型名称等;此新闻的抽象标签可以为“汽车”、“科技”、“工业”、“新能源”等。
在具体实施过程中,获取的所述文本的类别越多样时,所述所述文本特征提取模型的训练效果越好。所述文本的类别是对所述文本的粗略分类,例如:时政、军事、娱乐、科技、教育、历史、情感、健康等。
S202、根据各文本的标签,构建多个三元组,其中,每个三元组包括目标标题、与所述目标标题的文本语义相关的第一标题、以及与所述目标标题的文本语义不相关的第二标题;
在具体实施过程中,基于获取的文本,可构建出多个三元组。以构建一个三元组为例,先从获取的文本中任选出一个文本的标题作为目标标题,再获取一个与该目标标题文本语义相关的标题作为第一标题,然后获取一个与所述目标标题的文本语义不相关标题作为第二标题,即可构建出一个三元组。
S203、基于文本特征提取模型,提取每个三元组中的每个标题的特征表示;
S204、针对每个三元组,基于所述每个三元组中的目标标题的特征表示和第一标题的特征表示之间的相似度、以及目标标题的特征表示和第二标题的特征表示之间的相似度,确定所述每个三元组对应的损失值;
在具体实施过程中,可采用欧几里得距离、余弦相似度等计算方式,计算目标标题的特征表示和第一标题的特征表示之间的相似度、以及目标标题的特征表示和第二标题的特征表示之间的相似度,本申请实施例不作限定。
S205、基于所述多个三元组分别对应的损失值,更新所述文本特征提取模型的参数。
所述文本特征提取模型可以是任意一种用于提取文本特征的神经网络,提取的文本特征是一个多维的向量,文本特征提取模型采用的神经网络包括但不限于:卷积神经网络(Convolutional Neural Networks,CNN)、循环神经网络(Recurrent Neural Network,RNN)、长短期记忆网络(Long Short-Term Memory,LSTM)、深度神经网络(Deep NeuralNetwork,DNN)、深度置信网(Deep Belief Nets,DBNs)等。其中,更新文本特征提取模型的参数,即更新神经网络中各层网络中的权重参数。
在具体实施过程中,当所述三元组对应的损失值小于等于预设阈值时,可以确定此时所述文本特征提取模型的参数已经符合预期训练要求,此时可以结束对所述文本特征提取模型的训练。
本申请的文本特征提取模型的训练方法,基于增强各文本语义表示的标签构建的训练数据,使得模型能够学习到相关文本的标题之间的隐式特征表示,因而不会仅基于标题中词语的语义的相似度向用户推荐文本,使得文本特征学习目标能够与实际应用场景相契合,进而提高文本推荐的精准度。
可选地,所述步骤S201中确定增强各文本语义表示的标签,包括:
利用标签抽取算法,根据每个文本的标题及内容,计算得到该文本的至少一个标签。
在具体实施过程中,由于标题中的词语的语义不一定能反映出一些隐含的语义,所以在实施时对文本内容也进行标签抽取,可以增强所述标题的语义表达。例如对于一则人民网对高等教育工作的评论文章新闻,标题为:“严把出口,提升人才含金量”,所述标题中的所有词语均没有与高等教育相关的语义,但通过对所述新闻的内容进行标签抽取,可以得到包括“高等教育”、“毕业”、“本科”、“***”等与高等教育语义相关的标签,从而增强新闻的文本语义。
在具体实施过程中,所述标签抽取算法可以为支持向量机(Support VectorMachine,SVM)算法、逻辑斯蒂回归(Logistic Regression)算法、词频-逆向文档频率(TermFrequency-Inverse Document Frequency,TF-IDF)算法、词频-正态分布文档频率(TermFrequency-Normal Distribution Document Frequency,TF-NDDF)算法、文本等级(TextRank)算法、左右信息熵算法等,本申请不做限定。
这样,通过对文本的标题及内容的语义综合考虑,从中提取出标签来增强所述标题的语义,可以使训练得到的所述文本特征提取模型,学习到相关文本的标题之间的隐式特征表示,从而提升利用所述文本特征提取模型进行推荐的精准度。
作为一种可选的实施方式,所述步骤S103中,基于文本特征提取模型,提取每个三元组中的每个标题的特征表示之前,还包括:
S2031、若文本的标签位于所述文本的标题中时,利用标识符对所述标签进行标注,得到带标签标注的标题。
在具体实施过程中,可以对位于所述标题中的标签,利用[ENT]标记在标签文本的开始处和结束处进行标记。例如,对于所述三元组中其中一个标题为:“X型号轿车新款上市”,可以对所述标题中通过所述标签抽取算法得到的实体标签“X型号轿车”进行标记后,再将得到的标题“[ENT]X型号轿车[ENT]新款上市”提取特征表示。
作为另一种可选的实施方式,所述步骤S103中,基于文本特征提取模型,提取每个三元组中的每个标题的特征表示之前,还包括:
S2032、若文本的标签位于所述文本的标题中时,将所述标签置于所述标题的指定位置。
在具体实施过程中,可以将所述标签置于所述标题的结尾、开头等位置,在此不作限定。
上述两种实施方式可以单独实施,也可以结合实施,在此不作限定。
这样,通过对位于标题中的标签进行标注,可以辅助所述文本特征提取模型提取特征。
可选地,如图3所示,所述步骤S202中,根据各文本的标签,构建多个三元组,具体包括:
S301、从所述多个文本的标题中抽取一个目标标题;
S302、根据各文本的标签,确定与所述目标标题存在至少一个相同标签的文本的标题为第一标题,与所述目标标题不存在相同标签的文本的标题为第二标题。
这样,通过是否具有相同标签来确定与所述目标标题对应的第一标题和第二标题,可以更好地区分用于训练的标题的语义是否具有相关性。
可选地,如图4所示,所述文本特征提取模型包括特征提取模块401、特征池化层402和全连接层403。其中,所述特征提取模块401、所述特征池化层402和所述全连接层403中均包含多个神经元400。
在具体实施过程中,所述特征提取模块可以为BERT模型、Word2vec模型等,在此不作限定。当所述特征提取模块为BERT模型时,所述文本特征提取模型的训练方法为对应的Fine-tuning过程。由于BERT模型与Word2vec模型相比,能够根据上下文动态处理多义词的问题,因此使用BERT模型的效果更优。
在具体实施过程中,作为一种可选的实施方式,所述特征池化层为平均池化层(Mean Pooling)。这样,通过平均池化,可以对所述特征提取模块输出的特征向量计算平均值,以得到所述标题的整体的特征向量。
可选地,如图5和图6所示,所述步骤S203中,基于文本特征提取模型,提取每个三元组中的每个标题的特征表示,具体包括:
S501、基于特征提取模块,提取每个标题对应的特征向量并输出;
S502、基于所述特征池化层,对所述特征提取模块输出的特征向量进行池化处理;
S503、基于所述全连接层,将所述池化处理后的特征向量转换为固定维度的向量,以获得所述任一标题对应的特征表示。
这样,通过特征池化层进行池化处理,可以降低所述特征向量的维度;通过所述全连接层的处理,可以整合特征表示,实现隐含语义的表达。
可选地,所述步骤S205中,确定所述每个三元组对应的损失值,具体包括:
计算损失函数:L=max(d(a,p)-d(a,n)+margin,0)
其中,margin为设定值,d(a,p)表示目标标题a的特征表示和第一标题p的特征表示之间的相似度,d(a,n)表示目标标题a的特征表示和第二标题n的特征表示之间的相似度。
以余弦相似度为例,所述三元组主要可以分为简单三元组、半困难三元组和困难三元组三种等级。所述简单三元组表示所述目标标题和所述第一标题的余弦距离很近,所述目标标题和所述第二标题的余弦距离很远。所述困难三元组表示所述目标标题和所述第二标题的余弦距离近,所述目标标题和所述第一标题的余弦距离远,这种情况损失函数的函数值最大,需要优化。所述半困难三元组表示所述目标标题和所述第一标题的余弦距离比所述目标标题和所述第二标题的余弦距离更近,但损失函数的函数值较大,也需要进一步地优化。为了能够更好地优化所述文本特征提取模型,所述三元组中的第二标题中与所述目标标题为相同类别的标题与不相同类别的标题的数量各占一半。例如,对于一种具体的实施例,所述三元组中的第二标题的数量为6个,所述三元组中的目标标题为情感类别的标题,那么所述第二标题中有3个情感类别的标题,有3个非情感类别的标题。
这样,基于损失函数得到的损失值可用来描述模型的预测值与实际值的差异程度,从而调整所述文本特征提取模型。
基于上述任一实施方式中的训练方法获得的文本特征提取模型,参考图7,本申请实施例还提供了一种文本推荐方法,具体包括以下步骤:
S701、获取用户点击的至少一个第三标题和多个候选标题;
具体实施时,用户通过文本内容客户端阅读浏览文本内容,当用户点击某一文本的标题,即所述第三标题时,所述文本内容客户端向所述服务器发送获取所述第三标题对应的第三文本内容的请求,服务器将第三文本内容发送给所述文本内容客户端,所述文本内容客户端显示所述第三文本内容。同时,服务器根据用户点击的所述第三标题,确定出推荐给用户的候选标题。
S702、将所述第三标题和多个所述候选标题输入到文本特征提取模型,分别提取所述第三标题和多个候选标题的特征表示。
其中,所述文本特征提取模型是上述任一实施方式中的训练方法获得的,训练的具体过程不再赘述。
这样,通过使用第一方面的训练方法训练得到的文本特征提取模型确定与所述第三标题相似的候选标题并将其推送给用户,在用户点击率与用户使用时长方面与现有技术相比具有明显的提升。在具体实施过程中,如图8和图9所示,所述将所述第三标题和多个所述候选标题输入到文本特征提取模型,分别提取所述第三标题和多个候选标题的特征表示,具体包括:
S801、基于特征提取模块,提取输入到所述文本特征提取模型的标题对应的特征向量并输出;
S802、基于所述特征池化层,对所述特征提取模块输出的特征向量进行池化处理;
S803、基于所述全连接层,将所述池化处理后的特征向量转换为固定维度的向量,以获得所述标题对应的特征表示。
其中,候选标题是等待推荐给用户的标题,可以包括新增的标题,也可以包括之前的标题。
S703、分别确定所述第三标题的特征表示和每个候选标题的特征表示之间的相似度;
在具体实施过程中,可采用欧几里得距离、余弦相似度等计算方式,计算第三标题的特征表示和各个候选标题的特征表示之间的相似度,本申请实施例不作限定。
S704、基于所述多个候选标题对应的相似度,从所述多个候选标题中确定出推荐给所述用户的标题及对应的文本内容。
其中,两个标题的特征表示之间的相似度越高,则表示这两个标题越相关,反之,这两个标题越不相关。
在具体实施过程中,可根据各个候选标题对应的相似度,对候选标题进行降序排列,获取排序前N个候选标题,将这N个候选标题发送到用户对应的文本内容客户端。其中,N为不小于1的整数。
这样,通过所述步骤S704可以在召回阶段确定推荐给所述用户的标题及对应的文本内容,便于后续排序阶段和重排阶段的处理。
本申请的文本推荐方法,基于增强各文本语义表示的标签构建的训练数据,使得模型能够学习到相关文本的标题之间的隐式特征表示,因而不会仅基于标题中词语的语义的相似度向用户推荐文本,使得文本特征学习目标能够与实际应用场景相契合,进而提高文本推荐的精准度。
在具体实施过程中,作为一种可选的实施方式,所述步骤S703中,分别确定所述第三标题的特征表示和每个候选标题的特征表示之间的相似度,包括:
针对每个第三标题,确定所述第三标题的特征表示和每个候选标题的特征表示之间的相似度;
或者,作为另一种可选的实施方式,所述步骤S703中,分别确定所述第三标题的特征表示和每个候选标题的特征表示之间的相似度,包括:
针对多个第三标题,根据用户对所述第三标题的操作确定各个第三标题的权重;
利用权重将多个第三标题对应的特征表示处理为用户偏好标题的特征表示,确定用户偏好标题的特征表示和每个候选标题的特征表示之间的相似度。
在具体实施过程中,不同的用户对文本内容的偏好是不同的。例如,女性用户更加偏好情感、娱乐、时尚等文本内容,男性用户更加偏好科技、时政、体育等文本内容。对应地,对于某一个用户而言,其点击过的历史第三标题中,可以根据不同类型的操作信息确定用户的偏好,不同类型的操作信息可以但不限于包括点击次数、浏览时长及正向反馈等,在操作信息为点击次数时,可以筛选出多次点击的文本。若操作类型为浏览时长,可以筛选出浏览时长超过一定时长的文本,另外还可以根据正向反馈(例如,点赞、收藏、转发、下载、打赏)等筛选出对应的文本。可以得到从多个维度反应用户偏好的文本。通过对用户的历史点击的第三标题进行不同维度的分析时,对不同维度的第三标题的特征表示赋予不同的权重,利用该权重可以综合确定所述用户的偏好特征表示,使推荐过程更加精准。
示例性设备
在介绍了本申请示例性实施方式的方法之后,接下来对本申请示例性实施方式的文本特征提取模型的训练装置、文本推荐装置等进行介绍。
如图10所示,为本申请实施例提供的文本特征提取模型的训练装置1000的结构示意图。在一个实施例中,所述文本特征提取模型的训练装置1000包括:标签确定单元1001、训练数据构建单元1002、特征提取单元1003、损失计算单元1004和更新单元1005。
所述标签确定单元1001,用于获取多个包括标题及文本内容的文本,确定增强各文本语义表示的标签;
所述训练数据构建单元1002,用于根据各文本的标签,构建多个三元组,其中,每个三元组包括目标标题、与所述目标标题的文本语义相关的第一标题、以及与所述目标标题的文本语义不相关的第二标题;
所述特征提取单元1003,用于基于文本特征提取模型,提取每个三元组中的每个标题的特征表示;
所述损失计算单元1004,用于针对每个三元组,基于所述每个三元组中的目标标题的特征表示和第一标题的特征表示之间的相似度、以及目标标题的特征表示和第二标题的特征表示之间的相似度,确定所述每个三元组对应的损失值;
所述更新单元1005,用于基于所述多个三元组分别对应的损失值,更新所述文本特征提取模型的参数。
可选地,所述确定增强各文本语义表示的标签,具体包括:
利用标签抽取算法,根据每个文本的标题及内容,计算得到该文本的至少一个标签。
可选地,所述基于文本特征提取模型,提取每个三元组中的每个标题的特征表示之前,还包括:
若文本的标签位于所述文本的标题中时,利用标识符对所述标签进行标注,得到带标签标注的标题。
可选地,所述根据各文本的标签,构建多个三元组,具体包括:
从所述多个文本的标题中抽取一个目标标题;
根据各文本的标签,确定与所述目标标题存在至少一个相同标签的文本的标题为第一标题,与所述目标标题不存在相同标签的文本的标题为第二标题。
可选地,所述文本特征提取模型包括特征提取模块、特征池化层和全连接层;
所述基于文本特征提取模型,提取每个三元组中的每个标题的特征表示,具体包括:
基于特征提取模块,提取每个标题对应的特征向量并输出;
基于所述特征池化层,对所述特征提取模块输出的特征向量进行池化处理;
基于所述全连接层,将所述池化处理后的特征向量转换为固定维度的向量,以获得所述任一标题对应的特征表示。
可选地,所述确定所述每个三元组对应的损失值,具体包括:
计算损失函数:L=max(d(a,p)-d(a,n)+margin,0),
其中,margin为设定值,d(a,p)表示目标标题a的特征表示和第一标题p的特征表示之间的相似度,d(a,n)表示目标标题a的特征表示和第二标题n的特征表示之间的相似度。
如图11所示,为本申请实施例提供的文本推荐装置1100的结构示意图。在一个实施例中,所述文本推荐装置1100包括:获取单元1101、特征提取单元1102、相似度计算单元1103和推荐单元1104。
所述获取单元1101,用于获取用户点击的至少一个第三标题和多个候选标题;
所述特征提取单元1102,用于将所述第三标题和多个所述候选标题输入到文本特征提取模型,分别提取所述第三标题和多个候选标题的特征表示,其中,所述文本特征提取模型是基于所述文本特征提取模型的训练方法训练得到的;
所述相似度计算单元1103,用于分别确定所述第三标题的特征表示和每个候选标题的特征表示之间的相似度;
所述推荐单元1104,用于基于所述多个候选标题对应的相似度,从所述多个候选标题中确定出推荐给所述用户的标题及对应的文本内容。
可选地,所述分别确定所述第三标题的特征表示和每个候选标题的特征表示之间的相似度,包括:
针对每个第三标题,确定所述第三标题的特征表示和每个候选标题的特征表示之间的相似度;或者
针对多个第三标题,根据用户对所述第三标题的操作确定各个第三标题的权重;
利用权重将多个第三标题对应的特征表示处理为用户偏好标题的特征表示,确定用户偏好标题的特征表示和每个候选标题的特征表示之间的相似度。
本申请实施例提供的文本推荐装置,与上述文本推荐方法采用了相同的发明构思,能够取得相同的有益效果,在此不再赘述。
基于与上述文本特征提取模型的训练方法、文本推荐方法相同的发明构思,本申请实施例还提供了一种电子设备,该电子设备具体可以为单个物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式***,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器等。
下面参照图12来描述所述电子设备1200。图12显示的电子设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图12所示,所述电子设备1200可以通用计算设备的形式表现,例如其可以为终端设备所述电子设备1200的组件可以包括但不限于:上述至少一个处理单元1210、上述至少一个存储单元1220、连接不同***组件(包括存储单元1220和处理单元1210)的总线1230。
处理单元1210可以是通用处理器,例如中央处理器(Central Processing Unit,CPU)、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、现场可编程门阵列(Field Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,可以实现或者执行本申请实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
总线1230表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器、***总线、处理器或者使用多种总线结构中的任意总线结构的局域总线。
存储单元1220可以包括易失性存储器形式的可读介质,例如随机存取存储器(Random Access Memory,RAM)1221和/或高速缓存存储器1222,还可以进一步包括只读存储器(Read-Only Memory,ROM)1223。
存储单元1220还可以包括具有一组(至少一个)程序模块1224的程序/实用工具1225,这样的程序模块1224包括但不限于:操作***、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
当程序模块1224被处理单元1210执行时,使得处理单元1210执行本说明书上述“示例性方法”部分中描述的根据本申请各种示例性实施方式的文本特征提取模型的训练方法或文本推荐方法中的各种步骤。
例如,处理单元1210可以执行如图2中所示的文本特征提取模型的训练方法,包括:S201、获取多个包括标题及文本内容的文本,确定增强各文本语义表示的标签;S202、根据各文本的标签,构建多个三元组,其中,每个三元组包括目标标题、与所述目标标题的文本语义相关的第一标题、以及与所述目标标题的文本语义不相关的第二标题;S203、基于文本特征提取模型,提取每个三元组中的每个标题的特征表示;S204、针对每个三元组,基于所述每个三元组中的目标标题的特征表示和第一标题的特征表示之间的相似度、以及目标标题的特征表示和第二标题的特征表示之间的相似度,确定所述每个三元组对应的损失值;S205、基于所述多个三元组分别对应的损失值,更新所述文本特征提取模型的参数。例如,处理器1101还可以执行如图7中所示的文本推荐方法,包括:S701、获取用户点击的至少一个第三标题和多个候选标题;S702、将所述第三标题和多个所述候选标题输入到文本特征提取模型,分别提取所述第三标题和多个候选标题的特征表示,其中,所述文本特征提取模型是基于所述文本特征提取模型的训练方法训练得到的;S703、分别确定所述第三标题的特征表示和每个候选标题的特征表示之间的相似度;S704、基于所述多个候选标题对应的相似度,从所述多个候选标题中确定出推荐给所述用户的标题及对应的文本内容。
所述电子设备1200也可以与一个或多个外部设备1240(例如键盘、指向设备等)通信,还可与一个或者多个使得用户能与所述电子设备1200交互的设备通信,和/或与使得所述电子设备1200能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口1250进行。并且,所述电子设备1200还可以通过网络适配器1260与一个或者多个网络(例如局域网(Local Area Network,LAN),广域网(Wide Area Network,WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器1260通过总线1230与所述电子设备1200的其它模块通信。应当明白,尽管图中未示出,可以结合所述电子设备1200使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储***等。
示例性程序产品
本申请实施例提供了一种计算机可读存储介质,用于储存上述电子设备所用的计算机程序指令,其包含用于执行本申请任一示例性实施方式中的文本特征提取模型的训练方法或文本推荐方法的程序。
上述计算机存储介质可以是计算机能够存取的任何可用介质或数据存储设备,包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NAND FLASH)、固态硬盘(SSD))等。
在一些可能的实施方式中,如图13所示,本申请的各个方面还可以实现为一种计算机程序产品1300,其包括程序代码,当该计算机程序产品在服务器设备上运行时,该计算机程序产品用于使所述服务器设备执行本说明书上述“示例性方法”部分中描述的根据本申请各种示例性实施方式的文本特征提取模型的训练方法或文本推荐方法中的步骤,例如,所述服务器设备可以执行如图2中所示的文本特征提取模型的训练方法,包括:S201、获取多个包括标题及文本内容的文本,确定增强各文本语义表示的标签;S202、根据各文本的标签,构建多个三元组,其中,每个三元组包括目标标题、与所述目标标题的文本语义相关的第一标题、以及与所述目标标题的文本语义不相关的第二标题;S203、基于文本特征提取模型,提取每个三元组中的每个标题的特征表示;S204、针对每个三元组,基于所述每个三元组中的目标标题的特征表示和第一标题的特征表示之间的相似度、以及目标标题的特征表示和第二标题的特征表示之间的相似度,确定所述每个三元组对应的损失值;S205、基于所述多个三元组分别对应的损失值,更新所述文本特征提取模型的参数。
或者,所述服务器设备可以执行如图7中所示的文本推荐方法,包括:S701、获取用户点击的至少一个第三标题和多个候选标题;S702、将所述第三标题和多个所述候选标题输入到文本特征提取模型,分别提取所述第三标题和多个候选标题的特征表示,其中,所述文本特征提取模型是基于所述文本特征提取模型的训练方法训练得到的;S703、分别确定所述第三标题的特征表示和每个候选标题的特征表示之间的相似度;S704、基于所述多个候选标题对应的相似度,从所述多个候选标题中确定出推荐给所述用户的标题及对应的文本内容。
所述计算机程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
根据本申请的实施方式的用于训练文本特征提取模型或文本推荐的计算机程序产品,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在服务器设备上运行。然而,本申请的程序产品不限于此,在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。
可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
应当注意,尽管在上文详细描述中提及了装置的若干单元或子单元,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之,上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。
此外,尽管在附图中以特定顺序描述了本申请方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
虽然已经参考若干具体实施方式描述了本申请的精神和原理,但是应该理解,本申请并不限于所公开的具体实施方式,对各方面的划分也不意味着这些方面中的特征不能组合以进行受益,这种划分仅是为了表述的方便。本申请旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。
Claims (10)
1.一种文本特征提取模型的训练方法,其特征在于,包括:
获取多个包括标题及文本内容的文本,确定增强各文本语义表示的标签;
根据各文本的标签,构建多个三元组,其中,每个三元组包括目标标题、与所述目标标题的文本语义相关的第一标题、以及与所述目标标题的文本语义不相关的第二标题;
基于文本特征提取模型,提取每个三元组中的每个标题的特征表示;
针对每个三元组,基于所述每个三元组中的目标标题的特征表示和第一标题的特征表示之间的相似度、以及目标标题的特征表示和第二标题的特征表示之间的相似度,确定所述每个三元组对应的损失值;
基于所述多个三元组分别对应的损失值,更新所述文本特征提取模型的参数。
2.根据权利要求1所述的方法,其特征在于,所述确定增强各文本语义表示的标签,包括:
利用标签抽取算法,根据每个文本的标题及内容,计算得到该文本的至少一个标签。
3.根据权利要求1所述的方法,其特征在于,所述基于文本特征提取模型,提取每个三元组中的每个标题的特征表示之前,还包括:
若文本的标签位于所述文本的标题中时,利用标识符对所述标签进行标注,得到带标签标注的标题。
4.根据权利要求1所述的方法,其特征在于,所述根据各文本的标签,构建多个三元组,具体包括:
从所述多个文本的标题中抽取一个目标标题;
根据各文本的标签,确定与所述目标标题存在至少一个相同标签的文本的标题为第一标题,与所述目标标题不存在相同标签的文本的标题为第二标题。
5.根据权利要求1或2所述的方法,其特征在于,所述确定所述每个三元组对应的损失值,具体包括:
计算损失函数:L=max(d(a,p)-d(a,n)+margin,0)
其中,margin为设定值,d(a,p)表示目标标题a的特征表示和第一标题p的特征表示之间的相似度,d(a,n)表示目标标题a的特征表示和第二标题n的特征表示之间的相似度。
6.一种文本推荐方法,其特征在于,包括:
获取用户点击的至少一个第三标题和多个候选标题;
将所述第三标题和多个所述候选标题输入到文本特征提取模型,分别提取所述第三标题和多个候选标题的特征表示,其中,所述文本特征提取模型是基于权利要求1至5中任一项所述方法训练得到的;
分别确定所述第三标题的特征表示和每个候选标题的特征表示之间的相似度;
基于所述多个候选标题对应的相似度,从所述多个候选标题中确定出推荐给所述用户的标题及对应的文本内容。
7.一种文本特征提取模型的训练装置,其特征在于,包括:
标签确定单元,用于获取多个包括标题及文本内容的文本,确定增强各文本语义表示的标签;
训练数据构建单元,用于根据各文本的标签,构建多个三元组,其中,每个三元组包括目标标题、与所述目标标题的文本语义相关的第一标题、以及与所述目标标题的文本语义不相关的第二标题;
特征提取单元,用于基于文本特征提取模型,提取每个三元组中的每个标题的特征表示;
损失计算单元,用于针对每个三元组,基于所述每个三元组中的目标标题的特征表示和第一标题的特征表示之间的相似度、以及目标标题的特征表示和第二标题的特征表示之间的相似度,确定所述每个三元组对应的损失值;
更新单元,用于基于所述多个三元组分别对应的损失值,更新所述文本特征提取模型的参数。
8.一种文本推荐装置,其特征在于,包括:
获取单元,用于获取用户点击的至少一个第三标题和多个候选标题;
特征提取单元,用于将所述第三标题和多个所述候选标题输入到文本特征提取模型,分别提取所述第三标题和多个候选标题的特征表示,其中,所述文本特征提取模型是基于权利要求1至5中任一项所述方法训练得到的;
相似度计算单元,用于分别确定所述第三标题的特征表示和每个候选标题的特征表示之间的相似度;
推荐单元,用于基于所述多个候选标题对应的相似度,从所述多个候选标题中确定出推荐给所述用户的标题及对应的文本内容。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5任一项所述方法的步骤,或执行所述计算机程序时实现权利要求6所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序指令,其特征在于,该计算机程序指令被处理器执行时实现权利要求1至5任一项所述方法的步骤,或被处理器执行时实现权利要求6所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110220539.8A CN112948676A (zh) | 2021-02-26 | 2021-02-26 | 文本特征提取模型的训练方法、文本推荐方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110220539.8A CN112948676A (zh) | 2021-02-26 | 2021-02-26 | 文本特征提取模型的训练方法、文本推荐方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112948676A true CN112948676A (zh) | 2021-06-11 |
Family
ID=76246637
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110220539.8A Pending CN112948676A (zh) | 2021-02-26 | 2021-02-26 | 文本特征提取模型的训练方法、文本推荐方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112948676A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113378064A (zh) * | 2021-07-09 | 2021-09-10 | 小红书科技有限公司 | 一种确定内容相似度方法和基于相似度的内容推荐方法 |
CN113705811A (zh) * | 2021-10-29 | 2021-11-26 | 腾讯科技(深圳)有限公司 | 模型训练方法、装置、计算机程序产品及设备 |
CN114528482A (zh) * | 2022-01-25 | 2022-05-24 | 北京三快在线科技有限公司 | 一种推荐对象确定方法、装置、电子设备及存储介质 |
CN114595686A (zh) * | 2022-03-11 | 2022-06-07 | 北京百度网讯科技有限公司 | 知识抽取方法、知识抽取模型的训练方法及装置 |
CN114610905A (zh) * | 2022-03-23 | 2022-06-10 | 腾讯科技(深圳)有限公司 | 一种数据处理方法及相关装置 |
CN114662466A (zh) * | 2022-03-25 | 2022-06-24 | Oppo广东移动通信有限公司 | 模型训练方法、文本匹配方法、装置及电子设备 |
-
2021
- 2021-02-26 CN CN202110220539.8A patent/CN112948676A/zh active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113378064A (zh) * | 2021-07-09 | 2021-09-10 | 小红书科技有限公司 | 一种确定内容相似度方法和基于相似度的内容推荐方法 |
CN113705811A (zh) * | 2021-10-29 | 2021-11-26 | 腾讯科技(深圳)有限公司 | 模型训练方法、装置、计算机程序产品及设备 |
CN114528482A (zh) * | 2022-01-25 | 2022-05-24 | 北京三快在线科技有限公司 | 一种推荐对象确定方法、装置、电子设备及存储介质 |
CN114595686A (zh) * | 2022-03-11 | 2022-06-07 | 北京百度网讯科技有限公司 | 知识抽取方法、知识抽取模型的训练方法及装置 |
CN114595686B (zh) * | 2022-03-11 | 2023-02-03 | 北京百度网讯科技有限公司 | 知识抽取方法、知识抽取模型的训练方法及装置 |
CN114610905A (zh) * | 2022-03-23 | 2022-06-10 | 腾讯科技(深圳)有限公司 | 一种数据处理方法及相关装置 |
CN114610905B (zh) * | 2022-03-23 | 2024-04-26 | 腾讯科技(深圳)有限公司 | 一种数据处理方法及相关装置 |
CN114662466A (zh) * | 2022-03-25 | 2022-06-24 | Oppo广东移动通信有限公司 | 模型训练方法、文本匹配方法、装置及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110162749B (zh) | 信息提取方法、装置、计算机设备及计算机可读存储介质 | |
Yao et al. | Bi-directional LSTM recurrent neural network for Chinese word segmentation | |
CN112948676A (zh) | 文本特征提取模型的训练方法、文本推荐方法及装置 | |
CN109992646B (zh) | 文本标签的提取方法和装置 | |
Zhang et al. | A quantum-inspired sentiment representation model for twitter sentiment analysis | |
CN112131350B (zh) | 文本标签确定方法、装置、终端及可读存储介质 | |
CN112231569B (zh) | 新闻推荐方法、装置、计算机设备及存储介质 | |
CN114565104A (zh) | 语言模型的预训练方法、结果推荐方法及相关装置 | |
CN113392209B (zh) | 一种基于人工智能的文本聚类方法、相关设备及存储介质 | |
CN113569001A (zh) | 文本处理方法、装置、计算机设备及计算机可读存储介质 | |
Quan et al. | Weighted high-order hidden Markov models for compound emotions recognition in text | |
CN112580352B (zh) | 关键词提取方法、装置和设备及计算机存储介质 | |
WO2023108993A1 (zh) | 基于深度聚类算法的产品推荐方法、装置、设备及介质 | |
JP2021508391A (ja) | 対象領域およびクライアント固有のアプリケーション・プログラム・インタフェース推奨の促進 | |
CN112149604A (zh) | 视频特征提取模型的训练方法、视频推荐方法及装置 | |
CN113392179A (zh) | 文本标注方法及装置、电子设备、存储介质 | |
CN111881292A (zh) | 一种文本分类方法及装置 | |
CN112528136A (zh) | 一种观点标签的生成方法、装置、电子设备和存储介质 | |
CN111625715A (zh) | 信息提取方法、装置、电子设备及存储介质 | |
Liu et al. | High-quality domain expert finding method in CQA based on multi-granularity semantic analysis and interest drift | |
Karimvand et al. | Sentiment analysis of persian instagram post: a multimodal deep learning approach | |
CN112131345A (zh) | 文本质量的识别方法、装置、设备及存储介质 | |
CN117216535A (zh) | 推荐文本生成模型的训练方法、装置、设备及介质 | |
Khan et al. | Comparative analysis on Facebook post interaction using DNN, ELM and LSTM | |
Zhang et al. | SEMA: Deeply learning semantic meanings and temporal dynamics for recommendations |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |