CN112711942A

CN112711942A - 房源标题生成模型的训练方法、生成方法、装置以及设备

Info

Publication number: CN112711942A
Application number: CN202110330044.0A
Authority: CN
Inventors: 傅发佐; 孙毓钊; 宋鑫; 蔡白银
Original assignee: Seashell Housing Beijing Technology Co Ltd
Current assignee: Seashell Housing Beijing Technology Co Ltd
Priority date: 2021-03-29
Filing date: 2021-03-29
Publication date: 2021-04-27

Abstract

本公开提供了一种房源标题生成模型的训练方法、房源标题生成方法、装置以及电子设备、存储介质，涉及人工智能技术领域，其中的方法包括：根据房源特征词向量、用户偏好编码以及房源特征词标注信息生成训练样本，对预设的房源标题生成模型进行训练，并使用预设的损失函数获得与训练样本相对应的特征词选取损失，根据特征词选取损失对房源标题生成模型的参数进行调整；使用训练好的房源标题生成模型获取房源特征词选取标签，生成房源标题。本公开的方法、装置以及电子设备、存储介质，能够自动生成与用户偏好相对应的房源标题，节约了人力成本，并使房源标题具有个性化特点以及卖点创意，解决了房源标题重复性高、不够个性化的问题。

Description

房源标题生成模型的训练方法、生成方法、装置以及设备

技术领域

本公开涉及人工智能技术领域，尤其涉及一种房源标题生成模型的训练方法、房源标题生成方法、装置以及电子设备、存储介质。

背景技术

在房地产行业发展的过程中，越来越多的房源汇聚到平台中，因此，如何对房源进行真正有亮点的描述成为了引导更多的用户点击房源的关键，其中，房源标题是影响用户点击非常重要的因素。房源标题通常会总结出房源的优势，给用户一个简短且直观的信息总结，用户可根据房源标题来决定给是否查看房源的详细信息，能节省用户的时间、提高用户体验。但是，当前平台上的房源标题通常由经纪人手动填写，人力成本比较高，并且，房源标题没有结合用户的偏好进行个性化生成，对于用户不具有针对性，影响用户的在平台的浏览体验。

发明内容

为了解决上述技术问题，提出了本公开。本公开的实施例提供了一种房源标题生成模型的训练方法、房源标题生成方法、装置以及电子设备、存储介质。

根据本公开实施例的第一方面，提供一种房源标题生成模型的训练方法，包括：获取与房源相对应的房源特征词向量和用户偏好编码；根据所述房源特征词向量、所述用户偏好编码以及房源特征词标注信息生成训练样本；使用所述训练样本对预设的房源标题生成模型进行训练，并使用预设的损失函数计算与所述训练样本相对应的特征词选取损失；根据所述特征词选取损失对所述房源标题生成模型的参数进行调整，直至所述特征词选取损失低于预设的阈值，获得训练好的所述房源标题生成模型。

可选地，所述房源标题生成模型包括：特征提取层和全连接层；所述使用所述训练样本对预设的房源标题生成模型进行训练，并使用预设的损失函数计算与所述训练样本相对应的特征词选取损失包括：将所述房源特征词向量输入所述特征提取层，以使所述特征提取层基于语义关系进行上下文特征提取；将所述特征提取层输出的特征向量序列以及对应的所述用户偏好编码输入所述全连接层，进行Concat连接操作，输出与所述用户偏好编码相对应的房源特征词选取标签；根据所述房源特征词选取标签、所述房源特征词标注信息以及预设的损失函数计算交叉熵信息，作为特征词选取损失；其中，所述交叉熵信息用于度量所述房源特征词选取标签和所述房源特征词标注信息之间的差异性。

可选地，所述损失函数包括：Sigmoid cross entropy loss函数。

可选地，所述特征提取层包括：基于BiLSTM网络模型构建的特征提取层。

可选地，所述房源标题生成模型包括：Attention层和DropOut层；所述方法还包括：将所述特征提取层输出的所述特征向量序列输入所述Attention层，通过Attention机制为所述特征向量序列中的向量分配对应的权重；将所述Attention层的输出传入所述DropOut层，其中，DropOut层用于防止模型过拟合；将所述DropOut层的输出传入所述全连接层。

可选地，所述获取与房源相对应的房源特征词向量包括：获取与房源相对应的房源描述信息；基于预设的文本长度阈值对所述房源描述信息进行过滤处理；对通过所述过滤处理后的房源描述信息进行符号规范化处理，并对此房源描述信息中的编号类型数字进行替换处理，生成原始语料；基于所述原始语料生成所述房源语料；生成与所述房源语料相对应的所述房源特征词向量。

可选地，所述基于所述原始语料生成所述房源语料包括：基于预设的标点符号分割规则获取与所述原始语料相对应的独立语句，并对所述独立语句进行分割处理，获取对应的短句列表；对所述短句列表中的短句进行拼接处理，获取与所述短句列表相对应的所述房源语料；基于预设的连接词过滤规则对所述房源语料进行过滤处理，获取有效的房源语料。

可选地，所述生成与所述房源语料相对应的所述房源特征词向量包括：对所述房源语料进行分词处理，获取房源特征词数据；使用word2vec模型对所述房源特征词数据进行训练，获得所述房源特征词向量。

可选地，所述获取与房源相对应的用户偏好编码包括：获取与房源相对应的用户偏好标签信息；对所述用户偏好标签信息进行编码处理，获得所述用户偏好编码。

可选地，所述房源描述信息包括：业主自荐信息和经纪人房评信息。所述用户偏好编码包括：one-hot编码。

根据本公开实施例的第二方面，提供一种房源标题生成模型的训练装置，包括：特征获取模块，获取与房源相对应的房源特征词向量和用户偏好编码；样本构建模块，用于根据所述房源特征词向量、所述用户偏好编码以及房源特征词标注信息生成训练样本；模型训练模块，用于使用所述训练样本对预设的房源标题生成模型进行训练；损失确定模块，用于使用预设的损失函数计算与所述训练样本相对应的特征词选取损失；参数调整模块，根据所述特征词选取损失对所述房源标题生成模型的参数进行调整，直至所述特征词选取损失低于预设的阈值，获得训练好的所述房源标题生成模型。

可选地，所述房源标题生成模型包括：特征提取层和全连接层；所述模型训练模块，用于将所述房源特征词向量输入所述特征提取层，以使所述特征提取层基于语义关系进行上下文特征提取；将所述特征提取层输出的特征向量序列以及对应的所述用户偏好编码输入所述全连接层，进行Concat连接操作，输出与所述用户偏好编码相对应的房源特征词选取标签；所述损失确定模块，用于根据所述房源特征词选取标签、所述房源特征词标注信息以及预设的损失函数计算交叉熵信息，作为特征词选取损失；其中，所述交叉熵信息用于度量所述房源特征词选取标签和所述房源特征词标注信息之间的差异性。

可选地，所述损失函数包括：Sigmoid cross entropy loss函数。

可选地，所述房源标题生成模型包括：Attention层和DropOut层；所述模型训练模块，还用于将所述特征提取层输出的所述特征向量序列输入所述Attention层，通过Attention机制为所述特征向量序列中的向量分配对应的权重；将所述Attention层的输出传入所述DropOut层，其中，DropOut层用于防止模型过拟合；将所述DropOut层的输出传入所述全连接层。

可选地，所述特征获取模块，包括：信息获取单元，用于获取与房源相对应的房源描述信息；语料获取单元，包括：清洗单元，用于基于预设的文本长度阈值对所述房源描述信息进行过滤处理；对通过所述过滤处理后的房源描述信息进行符号规范化处理，并对此房源描述信息中的编号类型数字进行替换处理，生成原始语料；生成单元，用于基于所述原始语料生成所述房源语料；向量生成单元，用于生成与所述房源语料相对应的所述房源特征词向量；

可选地，所述生成单元，具体用于基于预设的标点符号分割规则获取与所述原始语料相对应的独立语句，并对所述独立语句进行分割处理，获取对应的短句列表；对所述短句列表中的短句进行拼接处理，获取与所述短句列表相对应的所述房源语料；基于预设的连接词过滤规则对所述房源语料进行过滤处理，获取有效的房源语料。

可选地，所述向量生成单元，用于对所述房源语料进行分词处理，获取房源特征词数据；使用word2vec模型对所述房源特征词数据进行训练，获得所述房源特征词向量。

可选地，所述特征获取模块，包括：编码生成单元，用于获取与房源相对应的用户偏好标签信息；对所述用户偏好标签信息进行编码处理，获得所述用户偏好编码。

根据本公开实施例的第三方面，提供一种房源标题获取方法,包括：获取与房源相对应的房源特征词向量和用户偏好编码；使用训练好的房源标题生成模型并基于所述房源特征词向量和所述用户偏好编码，获取房源特征词选取标签；基于所述房源特征词选取标签和所述房源特征词，生成房源标题；其中，所述房源标题生成模型是通过如上所述的训练方法训练得到。

根据本公开实施例的第四方面，提供一种房源标题获取装置,包括：信息获取模块，用于获取与房源相对应的房源特征词向量和用户偏好编码；模型使用模块，用于使用训练好的房源标题生成模型并基于所述房源特征词向量和所述用户偏好编码，获取房源特征词选取标签；标题生成模块，用于基于所述房源特征词选取标签和所述房源特征词，生成房源标题；其中，所述房源标题生成模型是通过如上所述的训练方法训练得到。

根据本公开实施例的第五方面，提供一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述的方法。

根据本公开实施例的第六方面，提供一种电子设备，所述电子设备包括：处理器；用于存储所述处理器可执行指令的存储器；所述处理器，用于执行上述的方法。

基于本公开上述实施例提供的房源标题生成模型的训练方法、房源标题生成方法、装置以及电子设备、存储介质，能够自动生成与用户偏好相对应的房源标题，节约了人力成本，并使房源标题具有个性化特点以及卖点创意，解决了房源标题重复性高、不够个性化的问题；能够个性化地将房源针对不同用户的特点展示给对应的用户，使生成的房源标题更具有吸引力，提高了用户体验。

下面通过附图和实施例，对本公开的技术方案做进一步的详细描述。

附图说明

通过结合附图对本公开实施例进行更详细的描述，本公开的上述以及其他目的、特征以及优势将变得更加明显。附图用来提供对本公开实施例的进一步的理解，并且构成说明书的一部分，与本公开实施例一起用于解释本公开，并不构成对本公开的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1为本公开的房源标题生成模型的训练方法的一个实施例的流程图；

图2为本公开的房源标题生成模型的训练方法的一个实施例中的获取房源特征词向量的流程图；

图3为本公开的房源标题生成模型的训练方法的一个实施例中的进行数据清洗处理的流程图；

图4为本公开的房源标题生成模型的训练方法的一个实施例中的生成房源语料的流程图；

图5为本公开的房源标题生成模型的训练方法的一个实施例中的生成房源特征词向量的流程图；

图6为本公开的进行短句划分的示意图；

图7为本公开的房源标题生成模型的训练方法的一个实施例中的进行模型训练的流程图；

图8为本公开的房源标题生成模型以及进行训练的示意图；

图9为本公开的房源标题获取方法的一个实施例的流程图；

图10为本公开的房源标题生成模型的训练装置的一个实施例的结构示意图；

图11为本公开的房源标题生成模型的训练装置的一个实施例中的特征获取模块的结构示意图；

图12为本公开的房源标题生成模型的训练装置的一个实施例中的语料获取单元的结构示意图；

图13为本公开的房源标题获取装置的一个实施例的结构示意图；

图14为本公开的电子设备的一个实施例的结构图。

具体实施方式

下面将参考附图详细地描述根据本公开的示例实施例。显然，所描述的实施例仅仅是本公开的一部分实施例，而不是本公开的全部实施例，应理解，本公开不受这里描述的示例实施例的限制。

应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

本领域技术人员可以理解，本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等，既不代表任何特定技术含义，也不表示它们之间的必然逻辑顺序。

还应理解，在本公开实施例中，“多个”可以指两个或者两个以上，“至少一个”可以指一个、两个或两个以上。

还应理解，对于本公开实施例中提及的任一部件、数据或结构，在没有明确限定或者在前后文给出相反启示的情况下，一般可以理解为一个或多个。

另外，本公开中术语“和/或”，仅是一种描述关联对象的关联关系，表示可以存在三种关系，如A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本公开中字符“/”，一般表示前后关联对象是一种“或”的关系。

还应理解，本公开对各个实施例的描述着重强调各个实施例之间的不同之处，其相同或相似之处可以相互参考，为了简洁，不再一一赘述。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本公开的实施例可以应用于终端设备、计算机***、服务器等电子设备，其可与众多其它通用或者专用计算***环境或配置一起操作。适于与终端设备、计算机***或者服务器等电子设备一起使用的众所周知的终端设备、计算***、环境和/或配置的例子包括但不限于：个人计算机***、服务器计算机***、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的***、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机***、大型计算机***和包括上述任何***的分布式云计算技术环境等等。

终端设备、计算机***、服务器等电子设备可以在由计算机***执行的计算机***可执行指令（诸如程序模块）的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机***/服务器可以在分布式云计算环境中实施。在分布式云计算环境中，任务可以是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算***存储介质上。

申请概述

在实现本公开的过程中，发明人发现，当前平台上的房源标题通常由经纪人手动填写，人力成本比较高，并且，房源标题没有结合用户的偏好进行个性化生成，对于用户不具有针对性；并且，平台积累了大量的房源描述数据，例如业主自荐、经纪人点评等房源描述语料，这些语料当前并没有得到较好的利用，而且没有结合用户的偏好，影响用户的在平台的浏览体验。

本公开提供的房源标题生成模型的训练方法、房源标题生成方法，根据房源特征词向量、用户偏好编码以及房源特征词标注信息生成训练样本，对预设的房源标题生成模型进行训练，并使用预设的损失函数获得与训练样本相对应的特征词选取损失，根据特征词选取损失对房源标题生成模型的参数进行调整；使用训练好的房源标题生成模型获取房源特征词选取标签，生成房源标题；能够自动生成与用户偏好相对应的房源标题，使房源标题具有个性化特点以及卖点创意，解决了房源标题重复性高、不够个性化的问题。

示例性方法

图1为本公开的房源标题生成模型的训练方法的一个实施例的流程图，如图1所示的方法包括步骤：S101-S104。下面对各步骤分别进行说明。

S101，获取与房源相对应的房源特征词向量和用户偏好编码。

在一实施例中，房源可以为多种房屋，例如为商品房、别墅、商住房等。房屋特征词包括关于楼层、朝向、装修、格局、价格、税费、房龄、学区等方面的特征词。词向量（Wordembedding）为将短语、特征词等映射到实数的向量，可以使用多种方法对房源特征词进行映射处理，获取房源特征词向量。用户偏好包括价格、楼层、学区等方面的偏好，可以使用多种方法生成用户偏好编码。

S102，根据房源特征词向量、用户偏好编码以及房源特征词标注信息生成训练样本。

在一实施例中，用户预先设置房源特征词标注信息，房源特征词标注信息用于表征房源特征词是否被选取。例如，房源特征词包括高楼层、低价格、低税费等，用户偏好包括价格偏好等，用户设置对应的房源特征词标注信息包括：高楼层为0，低价格为1，低税费为1，其中，高楼层、低价格、低税费为房源特征词，“0”表示未选取，“1”表示选取。可以使用现有的多种方法根据房源特征词向量、用户偏好编码以及对应的房源特征词标注信息生成训练样本，对房源标题生成模型进行训练。

S103，使用训练样本对预设的房源标题生成模型进行训练，并使用预设的损失函数计算获得与训练样本相对应的特征词选取损失。房源标题生成模型可以为多种，例如为神经网络模型等。

S104，根据特征词选取损失对房源标题生成模型的参数进行调整，直至特征词选取损失低于预设的阈值，获得训练好的房源标题生成模型。

在一实施例中，在训练阶段对房源标题生成模型进行参数优化，以达到训练目标。基于特征词选取损失对房源标题生成模型进行训练，可以通过现有的迭代训练等方法对房源标题生成模型进行调整，直至特征词选取损失低于预设的阈值。

图2为本公开的房源标题生成模型的训练方法的一个实施例中的获取房源特征词向量的流程图，如图2所示的方法包括步骤：S201-S203。下面对各步骤分别进行说明。

S201，获取与房源相对应的房源描述信息。房源描述信息包括业主自荐信息和经纪人房评信息等。

S202，对房源描述信息进行预处理，获取房源语料。

S203，生成与房源语料相对应的房源特征词向量。

预处理包括数据清洗处理等。在进行数据清洗处理时，基于预设的文本长度阈值对房源描述信息进行过滤处理，例如，文本长度阈值为50字，如果房源描述信息的字数小于50字，则将此房源描述信息过滤掉；对通过过滤处理后的房源描述信息进行符号规范化处理，并对此房源描述信息中的编号类型数字进行替换处理，生成原始语料，基于原始语料生成房源语料。符号规范化处理可以为多种规范化处理，例如，将连续多个逗号、句号或问号等统一合并成一个逗号、句号或问号；编号类型数字可以为如1.,[1],1等列举型文本，将1.,[1],1等统一替换成空白字符。

在一个实施例中，业主自荐信息和经纪人房评信息等是对房源进行介绍的文本，基于此文本生成语料库，对语料库中的文本进行数据清洗处理，数据清洗处理包括文本长度过滤、标题符号规范化和过滤数字列举型文本等步骤。文本长度过滤：通过统计语料库中各文本的长度分布情况，设置50字作为文本长度阈值，过滤掉字符长度小于50字的文本。标题符号规范化：将文本中的英文标点统一替换成中文标点，如果文本中使用连续多个逗号、句号或问号，则将连续多个符号统一合并成一个符号。过滤数字列举型文本：将形如1.,[1],1)的列举型文本，统一替换成空白字符。

例如，将数据清洗处理后的文本作为原始语料，建立原始语料库，原始语料如下表1所示：

序号	文本
		1	房子装修不到2年，可拎包入住。一楼开窗见花园视线好，接受换房客户，这个房子已经是商品房
2	我的房子卫位于中楼层，采光好，无遮挡。房子是南北通透的三居室，主卧和客厅朝南，两个次卧在北面！房子精装修，一直自住，保持干净整洁，免去您装修的繁琐与劳累！小区物业为中铁建物业，小区安全卫生！

表1-原始语料表

图3为本公开的房源标题生成模型的训练方法的一个实施例中的进行数据清洗处理的流程图，如图3所示的方法包括步骤：S301-S303。下面对各步骤分别进行说明。

S301，基于预设的标点符号分割规则获取与原始语料相对应的独立语句，并对独立语句进行分割处理，获取对应的短句列表。

在一实施例中，标点符号分割规则包括多种规则，例如，按照句号、感叹号、问号等将原始语料分割为多个独立语句，按照逗号等将独立语句分割为多个短句，生成短句列表。

S302，对短句列表中的短句进行拼接处理，获取与短句列表相对应的房源语料。可以使用多种拼接处理方法。

S303，基于预设的连接词过滤规则对房源语料进行过滤处理，获取有效的房源语料。

在一个实施例中，按照句号、感叹号、问号等符号将原始语料分成语义独立的语句列表；对于每个语句按照逗号将其分割成短句列表；遍历每个短句列表，按顺序将每条短句和其后面的短句拼接起来，生成房源语料。房源语料为以短句为粒度的2-gram形式，通过人工标注部分短句训练二分类模型，判断两个短句是否语义相似，具备融合的条件。使用2-gram形式融合句子，生成房源语料，一方面不会让短句过长或者过短，可以适用于多种业务场景；另一方面可以解决因单条短句长度过短，导致单条短句间相似度计算过高的问题，也引入了额外的上下文信息来辅助计算。

短句中会带有连接词，会导致房源语料的语义不通顺。构建连接词库，将连接词分为两类：前缀连接词、后缀连接词，例如“如果”通常出现在句子的前半部分，将其归类为前缀连接词，当其出现在房源语料（2-gram句子）的后半部分时，整条短句会被判定为无效短句过滤掉；对于后缀连接词的处理方法类似。

如图6所示，对原始语料“房子装修不到2年，可拎包入住。一楼开窗见花园视线好，接受换房客户，这个房子已是商品房”进行分割处理，获取对应的短句列表；对短句列表中的短句进行融合处理，获取与短句列表相对应的房源语料“房子装修不到2年，可拎包入住”、“一楼开窗见花园视线好，接受换房客户”和“接受换房客户，这个房子已是商品房”，并基于连接词过滤规则对房源语料进行过滤处理。

图4为本公开的房源标题生成模型的训练方法的一个实施例中的生成房源语料的流程图，如图4所示的方法包括步骤：S401-S402。下面对各步骤分别进行说明。

S401，对房源语料进行分词处理，获取房源特征词数据。分词处理可以使用多种分词算法，例如动态规划分词算法(结巴分词算法)等。

S402，使用word2vec模型对房源特征词数据进行训练，获得房源特征词向量。

在一个实施例中，将房源语料通过结巴分词算法进行分词处理后，利用word2vec模型进行训练词向量。可以使用现有的多种方法使用word2vec模型对房源特征词数据进行训练，获得房源特征词向量。

图5为本公开的房源标题生成模型的训练方法的一个实施例中的生成房源特征词向量的流程图，如图5所示的方法包括步骤：S501-S502。下面对各步骤分别进行说明。

S501，获取与房源相对应的用户偏好标签信息。用户偏好标签可以为户型偏好、价格偏好标签等。

S502，对用户偏好标签信息进行编码处理，获得用户偏好编码。用户偏好编码可以为one-hot编码等，可以使用现有的多种方法对用户偏好标签信息进行编码处理。

在一个实施例中，房源标题生成模型包括特征提取层和全连接层。图7为本公开的房源标题生成模型的训练方法的一个实施例中的进行模型训练的流程图，如图7所示的方法包括步骤：S701-S703。下面对各步骤分别进行说明。

S701，将房源特征词向量输入特征提取层，以使特征提取层基于语义关系进行上下文特征提取。

在一实施例中，特征提取层可以为多种，例如为基于BiLSTM(Bi-directionalLong Short-TermMemory，双向LSTM)网络模型构建的特征提取层等。BiLSTM层由前向LSTM与后向LSTM组合而成，可获取房源特征词向量中相邻的上下词的词义信息，以及相邻的上下语料之间的上下文语义信息。

S702，将特征提取层输出的特征向量序列以及对应的用户偏好编码输入全连接层，进行Concat连接操作，输出与用户偏好编码相对应的房源特征词选取标签。全连接层可以使用多种方法进行Concat连接操作，输出房源特征词选取标签。

S703，根据房源特征词选取标签和房源特征词标注信息，并使用预设的损失函数计算特征词选取损失。

在一个实施例中，房源特征词选取标签为全连接层输出的房源特征词以及相对应的选取标签，选取标签可以为“0”或“1”，其中，“0”表示未选取，“1”表示选取。例如，将房源特征词向量输入特征提取层，将特征提取层输出的特征向量序列以及对应的用户偏好编码输入全连接层，进行Concat连接操作，全连接层输出的输出与用户偏好编码相对应的房源特征词选取标签包括：高楼层为1，低价格为0，低税费为1，其中，高楼层、低价格、低税费为房源特征词，“0”表示未选取，“1”表示选取。

交叉熵(Cross Entropy)用于度量房源特征词选取标签和房源特征词标注信息之间的差异性信息，使用损失函数计算交叉熵信息，作为特征词选取损失。损失函数可以为多种，例如为Sigmoid cross entropy loss函数等，可以使用现有的多种方法使用预设的损失函数计算特征词选取损失。

在一个实施例中，房源标题生成模型包括Attention层和DropOut层，将特征提取层输出的特征向量序列输入Attention层，通过Attention机制为特征向量序列中的向量分配对应的权重。将Attention层的输出传入DropOut层，DropOut层用于防止模型过拟合，将DropOut层的输出传入全连接层。Attention层和DropOut层的结构为现有的多种Attention层和DropOut层的结构。

通过BiLSTM-Attention层可以更好的学习房源语料的表征向量，BiLSTM层能够很好的学习每个房源特征词表征在房源语料中的前向以及后向的语义，即上下文语义。Attention层能够综合房源语料中学习到的所有房源特征词表征的语义，使学习到的每个房源语料的表征向量更深层的语义信息。Dropout层用于缩减网络结构，防止模型过拟合，提高收敛速度。通过利用神经网络学习房源语料和对应标签的映射关系，最终利用模型的输出来实现房源标题的生成。

本公开的房源标题生成模型的架构为基于BiLSTM+Attention的模型框架，输入层是房源语料相对应的房源特征词向量（Embedding向量），通过BiLSTM层输入到Attention层，进行Dropout后接入全连接层，最后利用交叉熵输出判别。房源标题生成模型不仅可以对句子序列直接进行双向的语意建模，同时还可以利用注意力机制来对词级别进行自动加权，带来了更加鲁棒的模型输出；通过结合用户偏好，将用户偏好标签转化为one-hot编码，送入到全连接层进行模型训练，可以实现具有个性化特点的房源标题的生成。

在一个实施例中，如图8所示，房源标题生成模型包括BiLSTM层、Attention层和Dropout层、全连接层。房源标题生成模型的输入数据包括两种数据，一种是房源语料，另一种是用户偏好信息（用户偏好标签信息）。

对房源语料进行分词处理，获取房源特征词，获取每个房源特征词的词向量并输入到BiLSTM层中，用来学习输入序列的时序特征；然后将BiLSTM层的输出连接到Attention层，用来自动对词级别的输入进行加权，使模型学习到更有特点的表达；将Attention层的输出到DropOut层进行处理，避免模型过拟合，使模型的泛化能力更强；最后将DropOut层的输出接入到了全连接层。对用户偏好标签进行one-hot编码后直接送入到全连接层，用于和房源语料的输出进行concat操作，能够使用户的偏好信息直接参与最终的损失函数计算，能够使全连接层的输出在保证多样化的同时尽可能的考虑到用户的个性化需求。

在本公开中，通过将用户的偏好信息和房源语料信息统一到房源标题生成模型中，房源标题生成模型不仅可以实现对文本时序特征的挖掘，在保证了卖点创意多样性的同时又引入了用户的个性化信息，使得输出的结果更具有吸引力。

图9为本公开的房源标题获取方法的一个实施例的流程图，如图9所示的方法包括步骤：S901-S903。下面对各步骤分别进行说明。

S901，获取与房源相对应的房源特征词向量和用户偏好编码。

S902，使用训练好的房源标题生成模型并基于房源特征词向量和用户偏好编码，获取房源特征词选取标签。

S903，基于房源特征词选取标签和房源特征词，生成房源标题；其中，房源标题生成模型是通过如上任一实施例中的训练方法训练得到。

在一个实施例中，在进行房源标题获取时，获取房源特征词向量和用户偏好编码的方法与在房源标题生成模型训练中获取房源特征词向量和用户偏好编码的方法相同。

例如，获取房源语料“房子装修不到2年，可拎包入住”和“一楼开窗见花园视线好，接受换房客户”；对房源语料进行分词处理，获取房源特征词列表，房源特征词列表中包括的房源特征词包括：装修不到2年、可拎包入住、一楼、开窗见花园、接受换房客户等。使用word2vec模型对房源特征词列表中的房源特征词进行训练，获得房源特征词向量。获取用户偏好标签信息包括装修、价格、楼层等标签信息，对用户偏好标签信息进行编码处理，获得用户偏好编码，用户偏好编码为one-hot编码。

将房源特征词向量输入到BiLSTM层中，用于学习输入序列的时序特征；将BiLSTM层的输出连接到Attention层，用于自动对词级别的输入进行加权；将Attention层的输出到DropOut层进行处理，避免模型过拟合；将DropOut层的输出接入到了全连接层。将用户偏好编码输入全连接层，与基于房源特征词向量的输出进行concat操作，全连接层输出房源特征词选取标签。例如，房源特征词选取标签包括：装修不到2年的标签为“1”、可拎包入住的标签为“1”、一楼的标签为“1”、开窗见花园的标签为“0”、接受换房客户的标签为“0”等；基于房源特征词选取标签和房源特征词，生成房源标题。例如，生成的房源标题为“一楼装修不到2年可拎包入住”。

示例性装置

在一个实施例中，如图10所示，本公开提供一种房源标题生成模型的训练装置，包括：特征获取模块1001、样本构建模块1002、模型训练模块1003、损失确定模块1004和参数调整模块1005。

特征获取模块1001获取与房源相对应的房源特征词向量和用户偏好编码。样本构建模块1002根据房源特征词向量、用户偏好编码以及房源特征词标注信息生成训练样本。模型训练模块1003使用训练样本对预设的房源标题生成模型进行训练。损失确定模块1004使用预设的损失函数计算获得与训练样本相对应的特征词选取损失。参数调整模块1005根据特征词选取损失对房源标题生成模型的参数进行调整，直至特征词选取损失低于预设的阈值，获得训练好的房源标题生成模型。

在一个实施例中，房源标题生成模型包括特征提取层和全连接层，特征提取层包括基于BiLSTM网络模型构建的特征提取层等。模型训练模块1003将房源特征词向量输入特征提取层，以使特征提取层基于语义关系进行上下文特征提取；模型训练模块1003将特征提取层输出的特征向量序列以及对应的用户偏好编码输入全连接层，进行Concat连接操作，输出与用户偏好编码相对应的房源特征词选取标签。

损失确定模块1004根据房源特征词选取标签和房源特征词标注信息，并使用预设的损失函数计算特征词选取损失。例如，损失确定模块1004使用损失函数计算交叉熵信息，作为特征词选取损失，其中，损失函数包括：Sigmoid cross entropy loss函数等。

在一个实施例中，房源标题生成模型包括Attention层和DropOut层；模型训练模块1003将特征提取层输出的特征向量序列输入Attention层，通过Attention机制为特征向量序列中的向量分配对应的权重。模型训练模块1003将Attention层的输出传入DropOut层，DropOut层用于防止模型过拟合。模型训练模块1003将DropOut层的输出传入全连接层。

在一个实施例中，如图11所示，特征获取模块1001包括：信息获取单元1011、语料获取单元1012、向量生成单元1013和编码生成单元1014。信息获取单元1011获取与房源相对应的房源描述信息和用户偏好编码。语料获取单元1012对房源描述信息进行预处理，获取房源语料。向量生成单元1013生成与房源语料相对应的房源特征词向量。

在一个实施例中，预处理包括数据清洗处理等。如图12所示，语料获取单元1012包括：清洗单元1021和生成单元1022。清洗单元1021基于预设的文本长度阈值对房源描述信息进行过滤处理。清洗单元1021对通过过滤处理后的房源描述信息进行符号规范化处理，并对此房源描述信息中的编号类型数字进行替换处理，生成原始语料。

生成单元1022基于原始语料生成房源语料。例如，生成单元1022基于预设的标点符号分割规则获取与原始语料相对应的独立语句，并对独立语句进行分割处理，获取对应的短句列表；生成单元1022对短句列表中的短句进行拼接处理，获取与短句列表相对应的房源语料；生成单元1022基于预设的连接词过滤规则对房源语料进行过滤处理，获取有效的房源语料。

向量生成单元1013对房源语料进行分词处理，获取房源特征词数据。向量生成单元1013使用word2vec模型对房源特征词数据进行训练，获得房源特征词向量。编码生成单元1014获取与房源相对应的用户偏好标签信息，对用户偏好标签信息进行编码处理，获得用户偏好编码。

在一个实施例中，如图13所示，本公开提供一种房源标题获取装置,包括：信息获取模块1301、模型使用模块1302和标题生成模块1303。信息获取模块1301获取与房源相对应的房源特征词向量和用户偏好编码。模型使用模块1302使用训练好的房源标题生成模型并基于房源特征词向量和用户偏好编码，获取房源特征词选取标签。标题生成模块1303基于房源特征词选取标签和房源特征词，生成房源标题，房源标题生成模型是通过如上任一实施例中的训练方法训练得到。

图14是本公开的电子设备的一个实施例的结构图，如图14所示，电子设备141包括一个或多个处理器1411和存储器1412。

处理器1411可以是中央处理单元（CPU）或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备141中的其他组件以执行期望的功能。

存储器1412可以包括一个或多个计算机程序产品，计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。易失性存储器，例如，可以包括：随机存取存储器（RAM）和/或高速缓冲存储器（cache）等。非易失性存储器，例如，可以包括：只读存储器（ROM）、硬盘以及闪存等。在计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器1411可以运行程序指令，以实现上文的本公开的各个实施例的房源标题生成模型的训练方法和/或房源标题获取方法以及/或者其他期望的功能。在计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。

在一个示例中，电子设备141还可以包括：输入装置1413以及输出装置1414等，这些组件通过总线***和/或其他形式的连接机构（未示出）互连。此外，该输入设备1413还可以包括例如键盘、鼠标等等。该输出装置1414可以向外部输出各种信息。该输出设备1414可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图14中仅示出了该电子设备141中与本公开有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备141还可以包括任何其他适当的组件。

除了上述方法和设备以外，本公开的实施例还可以是计算机程序产品，其包括计算机程序指令，计算机程序指令在被处理器运行时使得处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的房源标题生成模型的训练方法和/或房源标题获取方法中的步骤。

计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本公开的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的房源标题生成模型的训练方法和/或房源标题获取方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子（非穷举的列举）可以包括：具有一个或者多个导线的电连接、便携式盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本公开的基本原理，但是，需要指出的是，在本公开中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势以及效果等是本公开的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本公开为必须采用上述具体的细节来实现。

上述实施例中的房源标题生成模型的训练方法、房源标题生成方法、装置以及电子设备、存储介质，根据房源特征词向量、用户偏好编码以及房源特征词标注信息生成训练样本，对预设的房源标题生成模型进行训练，并使用预设的损失函数获得与训练样本相对应的特征词选取损失，根据特征词选取损失对房源标题生成模型的参数进行调整；使用训练好的房源标题生成模型获取房源特征词选取标签，生成房源标题；能够自动生成与用户偏好相对应的房源标题，使房源标题具有个性化特点以及卖点创意，解决了房源标题重复性高、不够个性化的问题；提高了房源标题生成模型的运行效率和准确性，有效提升了模型的鲁棒性以及运算效率；在生成房源标题时，能够在保证多样化的同时尽可能的考虑到用户的个性化需求，个性化地将房源针对不同用户的特点展示给对应的用户，使生成的房源标题更具有吸引力，使用户可以快速地获取到一套房源的关键信息，节省时间，提高了用户体验。

本说明书中各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于***实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本公开中涉及的器件、装置、设备、***的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备以及***。诸如“包括”、“包含、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

可能以许多方式来实现本公开的方法和装置。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明，本公开的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本公开实施为记录在记录介质中的程序，这些程序包括用于实现根据本公开的方法的机器可读指令。因而，本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。

还需要指出的是，在本公开的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。

提供所公开的方面的以上描述，以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改等对于本领域技术人员而言，是非常显而易见的，并且在此定义的一般原理可以应用于其他方面，而不脱离本公开的范围。因此，本公开不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本公开的实施例限制到在此公开的形式中。尽管以上已经讨论了多个示例方面以及实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种房源标题生成模型的训练方法，包括：

获取与房源相对应的房源特征词向量和用户偏好编码；

根据所述房源特征词向量、所述用户偏好编码以及房源特征词标注信息生成训练样本；

使用所述训练样本对预设的房源标题生成模型进行训练，并使用预设的损失函数计算与所述训练样本相对应的特征词选取损失；

根据所述特征词选取损失对所述房源标题生成模型的参数进行调整，直至所述特征词选取损失低于预设的阈值，获得训练好的所述房源标题生成模型。

2.如权利要求1所述的方法，其中，所述房源标题生成模型包括：特征提取层和全连接层；所述使用所述训练样本对预设的房源标题生成模型进行训练，并使用预设的损失函数计算与所述训练样本相对应的特征词选取损失包括：

将所述房源特征词向量输入所述特征提取层，以使所述特征提取层基于语义关系进行上下文特征提取；

将所述特征提取层输出的特征向量序列以及对应的所述用户偏好编码输入所述全连接层，进行Concat连接操作，输出与所述用户偏好编码相对应的房源特征词选取标签；

根据所述房源特征词选取标签、所述房源特征词标注信息以及预设的损失函数计算交叉熵信息，作为特征词选取损失；其中，所述交叉熵信息用于度量所述房源特征词选取标签和所述房源特征词标注信息之间的差异性。

3.如权利要求2所述的方法，其中，所述房源标题生成模型包括：Attention层和DropOut层；所述方法还包括：

将所述特征提取层输出的所述特征向量序列输入所述Attention层，通过Attention机制为所述特征向量序列中的向量分配对应的权重；

将所述Attention层的输出传入所述DropOut层，其中，DropOut层用于防止模型过拟合；

将所述DropOut层的输出传入所述全连接层。

4.如权利要求1所述的方法，所述获取与房源相对应的房源特征词向量包括：

获取与房源相对应的房源描述信息；

基于预设的文本长度阈值对所述房源描述信息进行过滤处理；

对通过所述过滤处理后的房源描述信息进行符号规范化处理，并对此房源描述信息中的编号类型数字进行替换处理，生成原始语料；

基于所述原始语料生成所述房源语料；

生成与所述房源语料相对应的所述房源特征词向量。

5.如权利要求4所述的方法，所述基于所述原始语料生成所述房源语料包括：

基于预设的标点符号分割规则获取与所述原始语料相对应的独立语句，并对所述独立语句进行分割处理，获取对应的短句列表；

对所述短句列表中的短句进行拼接处理，获取与所述短句列表相对应的所述房源语料；

基于预设的连接词过滤规则对所述房源语料进行过滤处理，获取有效的房源语料。

6.一种房源标题生成模型的训练装置，包括：

特征获取模块，获取与房源相对应的房源特征词向量和用户偏好编码；

样本构建模块，用于根据所述房源特征词向量、所述用户偏好编码以及房源特征词标注信息生成训练样本；

模型训练模块，用于使用所述训练样本对预设的房源标题生成模型进行训练；

损失确定模块，用于使用预设的损失函数计算与所述训练样本相对应的特征词选取损失；

参数调整模块，根据所述特征词选取损失对所述房源标题生成模型的参数进行调整，直至所述特征词选取损失低于预设的阈值，获得训练好的所述房源标题生成模型。

7.一种房源标题获取方法,包括：

获取与房源相对应的房源特征词向量和用户偏好编码；

使用训练好的房源标题生成模型并基于所述房源特征词向量和所述用户偏好编码，获取房源特征词选取标签；

基于所述房源特征词选取标签和所述房源特征词，生成房源标题；

其中，所述房源标题生成模型是通过权利要求1至5中任一项所述的训练方法训练得到。

8.一种房源标题获取装置,包括：

信息获取模块，用于获取与房源相对应的房源特征词向量和用户偏好编码；

模型使用模块，用于使用训练好的房源标题生成模型并基于所述房源特征词向量和所述用户偏好编码，获取房源特征词选取标签；

标题生成模块，用于基于所述房源特征词选取标签和所述房源特征词，生成房源标题；

9.一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1-5任一项所述的方法和/或权利要求7所述的方法。

10.一种电子设备，所述电子设备包括：

处理器；用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述权利要求1-5任一项所述的方法和/或权利要求7所述的方法。