CN106874451A

CN106874451A - 一种自动建立个人专属语料库的方法

Info

Publication number: CN106874451A
Application number: CN201710076038.0A
Authority: CN
Inventors: 陈包容
Original assignee: Changsha Dove Software Co Ltd
Current assignee: Changsha Dove Software Co Ltd
Priority date: 2017-02-13
Filing date: 2017-02-13
Publication date: 2017-06-20

Abstract

本发明提供的自动建立个人专属语料库的方法，通过采集通讯方的会话内容，获取会话内容中的会话对，根据预设的场景标签，采集获得会话对与场景标签对应的场景标签值以及将会话对、场景标签以及与场景标签对应的场景标签值进行匹配组合，从而生成个人专属语料库，解决了现有采用人工建立会话语料库的工作量大且不具备个人专属性的技术问题。不仅大大减少了人工建立会话语料库的工作量，而且根据通讯方的会话内容提取的会话对和与之对应的场景标签值生成的个人专属语料库具有个人专属性和较强的针对性，体现了较高的个性化水平。

Description

一种自动建立个人专属语料库的方法

技术领域

本发明涉及通信技术领域，具体涉及一种自动建立个人专属语料库的方法。

背景技术

目前，智能会话***中用于自动回复的会话回复内容，往往是通过匹配会话语料库的方式获取。上述过程中的会话语料库，主要是通过人工创建的。人工建库的工作量大，且建库质量普遍不高。此外，现有技术方案中的会话语料库几乎都是通用于所有用户的，不具备个人专属性和针对性。针对该问题，故本实施例提出了一种基于会话内容自动建立个人专属语料库的方法。

发明内容

本发明提供了一种自动建立个人专属语料库的方法，以解决现有采用人工建立会话语料库的工作量大且不具备个人专属性的技术问题。

本发明提供的自动建立个人专属语料库的方法，包括：

采集通讯方的会话内容；

获取会话内容中的会话对；

根据预设的场景标签，采集获得会话对与场景标签对应的场景标签值；

将会话对、场景标签以及与场景标签对应的场景标签值进行匹配组合，从而生成个人专属语料库。

进一步地，获取会话内容中的会话对包括：

根据会话内容中会话句的语义，确定会话内容中的发起句和回复句；

根据预设的类型判断规则，确定发起句和回复句的类型；

根据发起句以及发起句与下一条发起句之间的回复句提取基础会话对；

根据基础会话对、基础会话对中发起句和回复句的类型，提取至少一个会话对。

进一步地，根据会话内容中会话句的语义，确定会话内容中的发起句和回复句包括：

判断会话内容中的会话句在预设时间区间内是否有通讯对方发送的上文，若无，则将会话句确定为发起句；

若有，则判断会话句是否与通讯对方发送的上文无语义关联，若是，则将会话句确定为发起句，否则将会话句确定为回复句。

进一步地，根据预设的类型判断规则，确定发起句的类型包括：

判断发起句是否为具有完整独立语义的语句，若是，则判断发起句是否由多个具有完整独立语义的单句组成，若是，则将发起句的类型确定为复句发起句类型，否则为单句发起句类型；若否，则判断发起句是否包含具有完整独立语义的单句，若包含，则将发起句的类型确定为非标准复句发起句类型，若不包含，则为非标准单句发起句类型；

搜索非标准单句发起句类型的发起句是否有自己的上文和下文连续会话句，若无，则不进行衍生扩展，若有，则进一步判断非标准单句发起句类型的发起句是否可与自己的上文和下文连续会话句合并成具有完整独立语义的语句，若能，则将非标准单句发起句类型的发起句的类型衍生扩展为非标准句群发起句类型，若不能，则不进行衍生扩展；

搜索非标准复句发起句类型的发起句是否有自己的上文和下文连续会话句，若无，则不进行衍生扩展，若有，则进一步判断非标准复句发起句类型的发起句是否可与自己的上文和下文连续会话句合并成具有完整独立语义的语句，若能，则将非标准复句发起句类型的发起句的类型衍生扩展为非标准句群发起句类型，若不能，则不进行衍生扩展；

判断单句、复句、非标准单句、非标准复句以及非标准句群类型的发起句是否有自己的上文和下文连续会话句，若有，则进一步判断发起句是否可与自己的上文和下文连续会话句合并成语义关联的句群，若是，则将发起句的类型衍生扩展为句群发起句类型，否则不进行衍生扩展。

进一步地，根据预设的类型判断规则，确定回复句的类型包括：

判断回复句是否为具有完整独立语义的语句，若是，则判断回复句是否由多个具有完整独立语义的单句组成，若是，则将回复句的类型确定为复句回复句类型，否则为单句回复句类型；若否，则判断回复句是否包含具有完整独立语义的单句，若包含，则将回复句的类型确定为非标准复句回复句类型，若不包含，则为非标准单句回复句类型；

搜索非标准单句回复句类型的回复句是否有自己的上文和下文连续会话句，若无，则不进行衍生扩展，若有，则进一步判断非标准单句回复句类型的回复句是否可与自己的上文和下文连续会话句合并成具有完整独立语义的语句，若能，则将非标准单句回复句类型的回复句的类型衍生扩展为非标准句群回复句类型，若不能，则不进行衍生扩展；

搜索非标准复句回复句类型的回复句是否有自己的上文和下文连续会话句，若无，则不进行衍生扩展，若有，则进一步判断非标准复句回复句类型的回复句是否可与自己的上文和下文连续会话句合并成具有完整独立语义的语句，若能，则将非标准复句回复句类型的回复句的类型衍生扩展为非标准句群回复句类型，若不能，则不进行衍生扩展；

判断单句、复句、非标准单句、非标准复句以及非标准句群类型的回复句是否有自己的上文和下文连续会话句，若有，则进一步判断回复句是否可与自己的上文和下文连续会话句合并成语义关联的句群，若是，则将回复句的类型衍生扩展为句群回复句类型，否则不进行衍生扩展。

进一步地，根据基础会话对、基础会话对中发起句的类型以及基础会话对中回复句的类型，提取至少一个会话对包括：

将基础会话对中发起句的类型进行衍生扩展，获得多种类型的发起句；

将基础会话对中回复句的类型进行衍生扩展，获得多种类型的回复句；

根据多种类型的发起句以及多种类型的回复句，组合至少一个语义关联的会话对进行提取。

进一步地，根据预设的场景标签，采集获得会话对与场景标签对应的场景标签值包括：

预设场景标签库，场景标签库至少包括一个场景标签；

在场景标签库中选择与会话对关联的场景标签；

采集获得会话对与场景标签对应的场景标签值。

进一步地，场景标签包括：

会话内容主题，会话通讯双方的时间、地点、日期、会话意图、天气、季节、性别、职业、职务、心情、兴趣爱好、体感数据、健康状况、实时行为状态、星座、血型，会话通讯双方之间的关系、年龄差距、辈分差距，双方会话通讯的间隔时间、频率、时间跨度，会话内容的句型、句类、句式结构类型，以及总量标签中的一种或多种组合。

本发明具有以下有益效果：

除了上面所描述的目的、特征和优点之外，本发明还有其它的目的、特征和优点。下面将参照图，对本发明作进一步详细的说明。

附图说明

构建本申请的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构建对本发明的不当限定。在附图中：

图1是本发明优选实施例自动建立个人专属语料库的方法流程图；

图2是本发明优选实施例针对的精简实施例一的自动建立个人专属语料库的方法的流程图；

图3是本发明优选实施例针对的精简实施例二的自动建立个人专属语料库的方法的流程图。

具体实施方式

以下结合附图对本发明的实施例进行详细说明，但是本发明可以由权利要求限定和覆盖的多种不同方式实施。

参照图1，本发明的优选实施例提供了一种自动建立个人专属语料库的方法，包括：

步骤S101，采集通讯方的会话内容；

步骤S102，获取会话内容中的会话对；

步骤S103，根据预设的场景标签，采集获得会话对与场景标签对应的场景标签值；

步骤S104，将会话对、场景标签以及与场景标签对应的场景标签值进行匹配组合，从而生成个人专属语料库。

本发明实施例提供的自动建立个人专属语料库的方法，通过采集通讯方的会话内容，获取会话内容中的会话对，根据预设的场景标签，采集获得会话对与场景标签对应的场景标签值以及将会话对、场景标签以及与场景标签对应的场景标签值进行匹配组合，从而生成个人专属语料库，解决了现有采用人工建立会话语料库的工作量大且不具备个人专属性的技术问题。不仅大大减少了人工建立会话语料库的工作量，而且根据通讯方的会话内容提取的会话对和与之对应的场景标签值生成的个人专属语料库具有个人专属性和较强的针对性，体现了较高的个性化水平。

此外，本发明实施例直接根据会话对、场景标签以及与场景标签对应的场景标签值生成个人专属语料库，完全模拟真实会话场景建立个人专属语料库，使得建立的个人专属语料库更精准和实用。且本实施例通过采集通讯方的个人会话内容建立个人专属语料库，使得生成的个人语料库均由通讯方与其他通讯对方进行会话的会话语料构成，从而使得自动建立的个人专属语料库具有个人专属性和较强的针对性。

需要说明是，本发明实施例将会话对、场景标签以及与场景标签对应的场景标签值进行匹配组合生成个人专属语料库，也即按照“会话对+场景标签+场景标签值”的内容匹配组合规则，生成个人专属语料库。此外，由于不同的会话内容具有不同的场景特性，例如会话内容主题、会话意图、会话时间、会话地点、会话双方关系等等，故本实施例获取会话内容中的会话对后，进一步根据预设的场景标签，采集获得会话对与场景标签对应的场景标签值，并将会话对、场景标签以及与场景标签对应的场景标签值进行匹配组合，从而生成个人专属语料库。本实施例中的场景标签由用户自定义或自动计算，例如可以是会话内容主题，会话通讯双方的时间、地点、日期、会话意图、天气、季节、性别、职业、职务、心情、兴趣爱好、体感数据、健康状况、实时行为状态、星座、血型，会话通讯双方之间的关系、年龄差距、辈分差距，双方会话通讯的间隔时间、频率、时间跨度，会话内容的句型、句类、句式结构类型，以及总量标签中的一种或多种组合等等。

且本实施例采集获得会话对与场景标签对应的场景标签值时，可以采取不同的方法实现，具体包括直接采集的方法，例如针对地点场景标签值，可以通过移动终端的GPS自动采集获得；推理的方法，例如针对通讯双方关系场景标签值，可以通过其他已经采集的场景标签值推理获得；计算与会话内容关联的词向量的方法，例如针对会话意图采集标签值，可以通过计算与会话内容关联的词向量获得；神经网络学习的方法，例如针对心情场景标签值，可以将会话内容或其他已经采集的场景标签值输入训练好的分类器分类获得。此外，本实施例还能结合上述所述的一种或多种方法自动获得场景标签值。

可选地，获取会话内容中的会话对包括：

根据预设的类型判断规则，确定发起句和回复句的类型；

现有从会话内容中提取的会话对或问答对，往往是一问一答的会话对形式，而在实际的会话过程中，通讯双方进行会话并非完全符合一问一答的会话模式，例如针对通讯对方发送的会话句，通讯方可能回复了几条会话句，或针对通讯对方发送的多条会话句，通讯方可能只回复了一条会话句。

故如果仅仅采取一问一答的形式提取对话对，可能存在以下问题：

(1)对于一些没有以一问一答形式展现的会话内容，从会话内容中提取会话对的难度较大，且精度较低。例如对于多个发起句+多个回复句形式的会话内容，从中提取会话对时，需要分析与每一个发起句匹配的回复句，过程复杂，难度大，且精度较低。

(2)由于现有根据会话内容提取的问答对或会话对一般都是比较标准的会话句，或结构比较简单的会话句，从而导致针对一些复杂或非标准结构的会话句不能精准提取完整性好和实用性高的会话对。

(3)此外，由于以一问一答形式提取的会话对的完整性容易被破坏，从而导致提取的会话对不能准确模拟真实会话。针对上述问题，本发明提出了一种根据发起句和回复句的类型从会话内容中提取会话对的方法。

针对该问题，本实施例通过根据会话内容中会话句的语义，确定会话内容中的发起句和回复句，根据预设的类型判断规则，确定发起句和回复句的类型，根据发起句以及发起句与下一条发起句之间的回复句提取基础会话对，以及根据基础会话对、基础会话对中发起句和回复句的类型，提取至少一个会话对，解决了现有技术提取会话对的难度较大、精度较低的技术问题，打破了传统的一问一答的会话对形式的局限性，并且根据发起句和回复句的类型，不仅能快速有效地提取会话对，而且提取的会话对的精度和准确度也大大提升。此外，针对一些复杂或非标准结构的会话句，本发明实施例能精准提取完整性好和实用性高的会话对，从而使得提取的会话对能准确模拟真实会话，智能化程度较高。进一步地，本发明实施例提取的会话对形式多样，有利于基于会话对精准匹配智能回复内容，以及匹配获得形式多样的智能回复内容，实用性较高。

需要说明的是，本实施例在确定发起句和回复句的类型之前，首先预设发起句和回复句的类型以及与类型对应的类型判断规则，从而根据预设的类型判断规则，可以快速确定发起句和回复句的类型。且本实施例中的发起句具体是指无通讯对方发送上文的会话句或与通讯对方发送的上文无语义关联的会话句。

本实施例可以通过采集通讯方的即时通讯账号、邮箱账号、微博号、手机号的会话内容获得会话内容，其中会话内容为文本、图片、语音、视频或动漫格式，且当会话内容是语音、图片、视频或动漫格式时，还包括将语音、图片、视频或动漫格式的会话内容转换为文本格式的会话内容。

可选地，根据会话内容中会话句的语义，确定会话内容中的发起句和回复句包括：

为了精准提取会话内容中的会话对，本实施例首先根据会话内容中会话句的语义，确定会话内容中的发起句和回复句，然后再进一步确定发起句和回复句的类型，从而根据发起句和回复句的类型精准提取会话对。其中，本实施例所指的根据会话内容中会话句的语义，确定会话内容中的发起句和回复句的具体过程为：判断会话内容中的会话句在预设时间区间内是否有通讯对方发送的上文，若无，则将会话句确定为发起句，若有，则判断会话句是否与通讯对方发送的上文无语义关联，若是，则将会话句确定为发起句，否则将会话句确定为回复句。

在实际的会话过程中，如果当前会话句在预设时间区间内无通讯对方发送的上文，一般将其认为是发起会话的起始句，也即发起句。例如假设当前会话句为12月3日发送的会话句，上一条会话句是通讯对方于12月1日发送的会话句，假设预设的时间区间为1天，则通过判断可知，当前会话句在预设时间区间内无通讯对方发送的上文，则将当前会话句认为是发起会话的起始句，也即将当前会话句判定为发起句。且本实施例预设的时间区间具体由用户自定义，例如可以是1小时、半天、一天、一个月等等，也即当判断出当前会话句在1小时、半天、一天、一个月内无通讯对方发送的上文，则判定当前会话句为发起句。

此外，当会话句有通讯对方发送的上文时，根据实际会话内容可判断，会话句可能是回复通讯对方发送的上文的回复句；也可能不是回复通讯对方发送的上文，而是重新发起会话的发起句；或者同时是回复通讯对方发送的上文的回复句和重新发起会话的发起句。针对这种情况，本实施例通过判断会话句是否与通讯对方发送的上文无语义关联来确定会话句的类型。需要说明的是，本实施例中会话句是否与通讯对方发送的上文无语义关联，具体是指会话句是否包括与通讯对方发送的上文无语义关联的语句。

例如，当会话句有通讯对方发送的上文，且通讯对方A发送的上文为“最近怎么样？”，则针对第一种情况的会话句(通讯方B:“挺好的”)，可判断出该会话句不包括与通讯对方发送的上文无语义关联的语句，此时确定该会话句为回复句；针对第二种情况的会话句(通讯方B:“帮我缴电话费了吗？”)，可判断出该会话句包括与通讯对方发送的上文无语义关联的语句，此时确定该会话句为发起句；针对第三种情况的会话句(通讯方B:“挺好的，帮我缴电话费了吗？”)，可判断出该会话句同样包括与通讯对方发送的上文无语义关联的语句(“帮我缴电话费了吗？”)，此时确定该会话句为发起句。

本实施例通过判断会话内容中的会话句在预设时间区间内是否有通讯对方发送的上文以及在有通讯对方发送的上文时判断会话句是否与通讯对方发送的上文无语义关联，可以精准确定会话内容中的发起句和回复句，为后续根据确定的发起句和回复句精准提取会话对以及根据提取的会话对建立个人专属语料库奠定基础。

可选地，根据预设的类型判断规则，确定发起句的类型包括：

判断单句、复句、非标准单句、非标准复句以及非标准句群类型的发起句是否有自己的上文和下文连续会话句，若有，则进一步判断发起句是否可与自己的上文和下文连续会话句合并成语义关联的句群，若是，则将已确定类型的发起句的类型衍生扩展为句群发起句类型，否则不进行衍生扩展。

在实际的实施过程中，发起句可能以多种类型进行呈现，例如单句、复句、非标准句等等，且不同类型的发起句可能会影响或导致提取的会话对不同。针对该问题，本实施例按照预设的类型判断规则，确定发起句的类型。具体地，首先在发起句具有完整独立语义的前提下，通过判断发起句是由一个还是多个完整独立语义的单句组成，确定发起句为单句还是复句发起句类型，以及在发起句不具有完整独立语义的前提下，通过判断发起句是否包含具有完整独立语义的单句来确定发起句的类型为非标准复句还是非标准单句发起句类型；然后通过搜索非标准单句和非标准复句发起句类型的发起句是否有自己的上文和下文连续会话句，以及是否可与自己的上文和下文连续会话句合并成具有完整独立语义的语句，确定是否将发起句的类型衍生扩展为非标准句群发起句类型；最后通过判断单句、复句、非标准单句、非标准复句以及非标准句群类型的发起句是否有自己的上文和下文连续会话句，确定发起句的类型是否可以衍生扩展为句群发起句类型。

具体地，本实施例确定发起句类型的过程本质上分为三个判别过程，即第一个判别过程是对每一条发起句按照四种发起句类型(单句、复句、非标准单句以及非标准复句)进行逐一判别；第二个判别过程是在进行完第一个判别过程后，接着判别非标准单句和非标准复句发起句类型的发起句是否可进一步衍生扩展为非标准句群发起句类型；第三个判别过程是在进行完第二个判别过程后，接着判别单句、复句、非标准单句、非标准复句以及非标准句群类型的发起句是否可进一步衍生扩展为句群发起句类型。

本实施例通过确定发起句的类型，一方面有利于对发起句进行句子结构和成分的深度分析，另一方面，基于对发起句进行类型判断和结构分析，有利于更精准提取实用性高且形式多样的会话对。需要说明的是，本实施例中发起句是否有自己的上文和下文连续会话句具体是指发起句是否有发送发起句的发送方发送的上文和下文连续会话句。

可选地，根据预设的类型判断规则，确定回复句的类型包括：

判断单句、复句、非标准单句、非标准复句以及非标准句群类型的回复句是否有自己的上文和下文连续会话句，若有，则进一步判断回复句是否可与自己的上文和下文连续会话句合并成语义关联的句群，若是，则将已确定类型的回复句的类型衍生扩展为句群回复句类型，否则不进行衍生扩展。

本实施例判断回复句的类型和判断发起句的类型的原理和过程基本相同，故不再详述。且本实施例通过确定回复句的类型，一方面有利于对回复句进行句子结构和成分的深度分析，另一方面，基于对回复句进行类型判断和结构分析，有利于更精准提取实用性高且形式多样的会话对。需要说明的是，本实施例中回复句是否有自己的上文和下文连续会话句具体是指回复句是否有发送所述回复句的发送方发送的上文和下文连续会话句。

可选地，根据基础会话对、基础会话对中发起句的类型以及基础会话对中回复句的类型，提取至少一个会话对包括：

由于本实施例中发起句和回复句的类型包括多种，例如单句、复句、非标准单句、非标准复句，非标准句群、句群发起句类型，以及单句、复句、非标准单句、非标准复句、非标准句群、句群回复句类型，故在提取到基础会话对后，为了更精准提取实用性高且形式多样的会话对，本实施例首先将基础会话对中发起句的类型进行衍生扩展，获得多种类型的发起句，然后将基础会话对中回复句的类型进行衍生扩展，获得多种类型的回复句，最后根据多种类型的发起句以及多种类型的回复句，组合至少一个语义关联的会话对进行提取，从而可以组合获得多个会话对。

例如假设发起句类型为复句发起句类型，回复句为复句回复句类型，则通过类型衍生扩展后，可以提取出单句发起句+单句回复句，复句发起句+单句回复句，单句发起句+复句回复句，复句发起句+复句回复句等多种形式的会话对。

可选地，根据预设的场景标签，采集获得会话对与场景标签对应的场景标签值包括：

预设场景标签库，场景标签库至少包括一个场景标签；

在场景标签库中选择与会话对关联的场景标签；

采集获得会话对与场景标签对应的场景标签值。

本实施例采集获得场景标签值一般是首先通过预设场景标签，然后根据场景标签采集获得会话对与场景标签对应的场景标签值两个步骤实现，而在实际的实施过程中，由于不同的会话对可能关联不同的场景标签，或者不同的会话对与不同的场景标签的关联度不同，故为了更精准获得与会话对对应的场景标签值，本实施例首先预设用于存储场景标签的场景标签库，然后在场景标签库中选择与会话对关联的场景标签，最后再根据与会话对关联的场景标签采集获得会话对与场景标签对应的场景标签值。

具体地，通过人工自定义或自动计算与会话对关联的场景标签，例如针对不同的会话对，人工选择不同的场景标签。且本方案定义的与会话对关联的场景标签，具体可以根据与会话对的会话内容关联，或与会话对的会话内容主题关联，或与会话对的会话时间关联的场景标签进行获取。

需要说明的是，本实施例中的场景标签值是与场景标签对应的结果，可以是数值，也可以是非数值，且当采集到场景标签值是非数值形式时，一般还需要根据预先定义的标识规则让其转换为计算机能处理的数值。例如采集到性别为女，可以根据预先定义的标识规则(“男”输出场景标签值为1，“女”输出场景标签值为2)输出场景标签值为2。又例如对于实时行为状态也可以根据预先定义标识规则输出计算机能处理的数值，例如采集到场景标签值为打球行为时，将该场景标签值转换为计算机能识别的数值(例如001)，采集到场景标签值为听歌行为时，将该场景标签值转换为计算机能识别的数值(例如002)等等。

可选地，场景标签包括：

具体地，本实施例的场景标签不限于只包括会话内容主题，会话通讯双方的时间、地点、日期、会话意图、天气、季节、性别、职业、职务、心情、兴趣爱好、体感数据、健康状况、实时行为状态、星座、血型，会话通讯双方之间的关系、年龄差距、辈分差距，双方会话通讯的间隔时间、频率、时间跨度，会话内容的句型、句类、句式结构类型，以及总量标签中的一种或多种组合，具体由用户根据需要自定义，也即用户可以增加或删除场景标签。

需要说明的是，本实施例采集与会话意图场景标签对应的场景标签值时，可以通过预先建立的用于识别通讯方和/或通讯对方的会话意图的会话意图识别模型实现。具体地，首先训练好与会话对样本对应的会话意图识别模型，然后根据训练好的会话意图识别模型识别通讯方和/或通讯对方针对会话对的会话意图。

下面针对二个精简实施例对本发明的自动建立个人专属语料库的方法进行更进一步说明。

精简实施例一

参照图2，本发明的精简实施例一提供的自动建立个人专属语料库的方法，包括：

步骤S201，采集通讯方的会话内容。

具体地，假设本实施例采集的会话内容为通讯方A的即时通讯账号、邮箱账号、微博号、手机号与通讯对方B进行会话的会话内容，其中，会话内容为文本、图片、语音、视频或动漫格式，且当会话内容是语音、图片、视频或动漫格式时，还包括将语音、图片、视频或动漫格式的会话内容转换为文本格式的会话内容。为了详细描述本实施例从会话内容中提取会话对的过程，本实施例以简单的通讯方A与通讯对方B的会话内容进行说明，具体如下：

A：吃了吗？

B：吃了。

B：你呢？

A：帮我缴

A：费了吗？

B：缴了总共100元。

B：排队的人可真多。

步骤S202，判断会话内容中的会话句在预设时间区间内是否有通讯对方发送的上文，若无，则将会话句确定为发起句；

具体地，根据上述判断规则，可以确定会话内容中的发起句和回复句，假设本实施例通过判断获得会话内容中的发起句和回复句具体见表1。

表1

发起句	回复句
		吃了吗？	吃了。
你呢？	缴了总共100元。
		帮我缴	排队的人可真多。
费了吗？

步骤S203，判断发起句是否为具有完整独立语义的语句，若是，则判断发起句是否由多个具有完整独立语义的单句组成，若是，则将发起句的类型确定为复句发起句类型，否则为单句发起句类型，若否，则判断发起句是否包含具有完整独立语义的单句，若包含，则将发起句的类型确定为非标准复句发起句类型，若不包含，则为非标准单句发起句类型；

具体地，假设本实施例首先根据步骤S203中的第一个判别过程，判断出发起句的类型如下，具体见表2所示。

表2

序号	发起句	类型
			第一条发起句	吃了吗？	单句
第二条发起句	你呢？	单句
			第三条发起句	帮我缴	非标准单句
第四条发起句	费了吗？	非标准单句

然后，根据步骤S203中的第二个判别过程，即通过判断非标准单句和非标准复句发起句类型的发起句是否有自己的上文和下文连续会话句，以及是否可与自己的上文和下文连续会话句合并成具有完整独立语义的语句，确定是否将非标准单句和非标准复句发起句的类型衍生扩展为非标准句群发起句类型。通过具体判断可知，本实施例的第三条和第四条发起句可以合并成具有完整独立语义的语句，也即此时可以将第三条和第四条发起句的类型衍生扩展为非标准句群发起句类型，具体见表3所示。

表3

最后，根据步骤S203中的第三个判别过程，判断单句、复句、非标准单句、非标准复句以及非标准句群类型的发起句是否可进一步衍生扩展为句群发起句类型。

具体地，根据表3可知，本实施例不能将发起句进一步合并成语义关联的句群，也即在最后一个过程，不对发起句进一步进行衍生扩展。故最终获得发起句的类型如表3所示。

步骤S204，根据预设的类型判断规则，确定回复句的类型。

本实施例确定回复句的类型的原理和过程和确定发起句的类型的原理和过程基本相同，故不再详述，假设本实施例判断出回复句的类型具体如表4所示。

表4

步骤S205，根据发起句以及发起句与下一条发起句之间的回复句提取基础会话对。

具体地，本实施例针对第一条发起句提取会话对时，首先判断第一条发起句与下一条发起句之间是否有回复句，若有，则根据所述发起句和所述回复句提取基础会话对，由于第一条和第二条发起句之间有回复句，则根据第一条发起句和回复句提取基础会话对。需要说明的是，本实施例在确定发起句与下一条发起句之间包含回复句后，还需计算发起句与回复句是否语义关联，且只有在语义关联的情况下，才提取基础会话对，否则不提取。本实施例假设第一条发起句和第一条回复句语义关联，则可以提取出基础会话对，假设为基础会话对1，基础会话对1的具体内容如表5所示。

同理，本实施例针对第二条发起句提取基础会话对时，首先判断第二条发起句与第三条发起句之间是否有回复句，通过判断可知，第二条和第三条发起句之间不包含回复句，则放弃第二条发起句作为发起句。同样地，根据第三条和第四条发起句，假设可以提取语义关联的基础会话对2，基础会话对2的具体内容如表5所示。

表5

步骤S206，将基础会话对中发起句的类型进行衍生扩展，获得多种类型的发起句。

具体地，由于本实施例中发起句的类型共有六种，分别为单句、复句、非标准单句、非标准复句、非标准句群以及句群发起句类型，故本实施例首先根据基础会话对中发起句的类型进行衍生扩展，由于本实施例中基础会话对1中的发起句的类型为单句发起句类型，其无法进一步衍生扩展成其他五种发起句类型，故此时只包含一种类型的发起句，即单句发起句类型的发起句，具体如表6所示。而根据基础会话对2中的发起句的类型，可以进一步衍生扩展成其他类型的发起句，例如单句发起句类型，具体如表6所示。

表6

步骤S207，将基础会话对中回复句的类型进行衍生扩展，获得多种类型的回复句。

具体地，由于本实施例中回复句的类型共有六种，分别为单句、复句、非标准单句、非标准复句、非标准句群以及句群回复句类型。故本实施例首先根据基础会话对中回复句的类型进行衍生扩展，由于本实施例中基础会话对1中的回复句的类型为单句回复句类型，其无法进一步衍生扩展成其他五种回复句类型，故此时只包含一种类型的回复句，即单句回复句类型的回复句，具体如表7所示。而根据基础会话对2中的回复句的类型，可以进一步衍生扩展成其他类型的回复句，例如复句回复句类型，具体如表7所示。

表7

步骤S208，根据多种类型的发起句以及多种类型的回复句，组合至少一个语义关联的会话对进行提取。

具体地，由于针对基础会话对1，发起句和回复句的类型只有一种，故此时只能提取一个会话对，而针对基础会话对2，由于发起句的类型和复句的类型为多种，故可组合获得多个会话对，具体见表8，表8为根据基础会话对2提取的6个会话对。

表8

步骤S209，根据预设的场景标签，采集获得会话对与场景标签对应的场景标签值。

具体地，本实施例在采集与会话对对应的且与预设的场景标签对应的场景标签值时，首先预设场景标签，然后针对每个会话对分别采集与预设的场景标签对应的场景标签值。假设本实施例预设的场景标签包括会话内容主题、会话意图、地点、天气、会话通讯双方关系、通讯对象的年龄、职业的多种组合，则可以采集到与每一个会话对对应的场景标签值，具体见表9所示。需要说明的是，本实施例中由于会话对1-会话对6均为基础会话对2的衍生扩展会话对，故与基础会话对2的场景标签对应的场景标签值相同。此外，本实施例针对不同的对话对可以设置不同的场景标签，且设置的场景标签的数目也可以不同。

表9

步骤S210，将会话对、场景标签以及与场景标签对应的场景标签值进行匹配组合，从而生成个人专属语料库。

具体地，本实施例将会话对、场景标签以及与场景标签对应的场景标签值进行匹配组合，从而生成个人专属语料库，也即按照“会话对+场景标签+场景标签值”的内容组合规则，生成个人专属语料库。

此外，本实施例通过根据会话内容中会话句的语义，确定会话内容中的发起句和回复句，根据预设的类型判断规则，确定发起句和回复句的类型，根据发起句以及发起句与下一条发起句之间的回复句提取基础会话对，以及根据基础会话对、基础会话对中发起句和回复句的类型，提取至少一个会话对，解决了现有技术提取会话对的难度较大、精度较低的技术问题，打破了传统的一问一答的会话对形式的局限性，并且根据发起句和回复句的类型，不仅能快速有效地提取会话对，而且提取的会话对的精度和准确度也大大提升。此外，针对一些复杂或非标准结构的会话句，本发明实施例能精准提取完整性好和实用性高的会话对，从而使得提取的会话对能准确模拟真实会话，智能化程度较高。进一步地，本发明实施例提取的会话对形式多样，有利于基于会话对精准匹配智能回复内容，以及匹配获得形式多样的智能回复内容，实用性较高。

精简实施例二

参照图3，本发明的精简实施例二提供的自动建立个人专属语料库的方法，包括：

步骤S301，采集通讯方的会话内容。

具体地，假设本实施例中的通讯方为A，则可以通过采集通讯方A的即时通讯账号、邮箱账号、微博号、手机号与其他通讯对方进行会话的会话内容，获得通讯方A的会话内容，其中会话内容为文本、图片、语音、视频或动漫格式，且当会话内容是语音、图片、视频或动漫格式时，还包括将语音、图片、视频或动漫格式的会话内容转换为文本格式的会话内容。为了详细描述本实施例建立个人专属语料库的过程，本实施例以二部分简单的通讯方A的会话内容进行说明，具体如下：

第一部分(通讯方A与通讯对方B的会话内容)：

A：军鸽机器人店长多少钱一套？

B：军鸽机器人店

B：长5000元一套。

B：现在购买还可以在5000元的基础上打8折。

第二部分(通讯方A与通讯对方C的会话内容)：

A：周姐在吗？

C：在的。

A：您的肩颈卡项的剩余次数还有5次。

C：我打算预约明天来店里做护理。

C：你明天在店里吗？

A：我明天会在店里。

步骤S302，获取会话内容中的会话对；

具体地，假设本实施通过根据会话内容中会话句的语义，可以确定会话内容中的发起句和回复句，具体见表10所示。

表10

且假设根据预设的类型判断规则，确定出第一部分和第二部分会话内容中发起句和回复句的类型，具体见表11和表12所示。

表11

表12

此外，假设本实施例根据发起句以及发起句与下一条发起句之间的回复句提取基础会话对以及根据基础会话对、基础会话对中发起句和回复句的类型，最终提取出11个会话对，具体见表13所示。

表13

步骤S303，预设场景标签库，场景标签库至少包括一个场景标签。

具体地，本实施例假设场景标签库包括至少一个场景标签，且假设场景标签为会话内容主题，会话通讯双方的时间、地点、日期、会话意图、天气、季节、性别、职业、职务、心情、兴趣爱好、体感数据、健康状况、实时行为状态、星座、血型，会话通讯双方之间的关系、年龄差距、辈分差距，双方会话通讯的间隔时间、频率、时间跨度，会话内容的句型、句类、句式结构类型，以及总量标签中的一种或多种组合。

步骤S304，在场景标签库中选择与会话对关联的场景标签。

具体地，本实施例在场景标签库中选择与会话对关联的场景标签时，需要针对每一个会话对选取与其关联的场景标签，且在选择与会话对关联的场景标签时可以人工选择，也可以通过计算会话对的会话内容主题的词向量与场景标签库中的场景标签的词向量之间的关联度获得与会话对关联的场景标签，假设本实施例通过计算获得与每一个会话对关联的场景标签，具体如表14所示。其中，表14中的场景标签下打“√”代表该场景标签与会话对关联。需要说明的是，本实施例针对不同的会话对可以选取不同数目的与会话对关联的场景标签。

表14

步骤S305，采集获得会话对与场景标签对应的场景标签值。

具体地，本实施例在获得与会话对关联的场景标签后，继续采集获得会话对与场景标签对应的场景标签值，也即针对每个会话对分别采集与其关联的场景标签对应的场景标签值，具体见表15所示。

表15

步骤S306，将会话对、场景标签以及与场景标签对应的场景标签值进行匹配组合，从而生成个人专属语料库。

本发明实施例提供的自动建立个人专属语料库的方法，通过采集通讯方的会话内容，获取会话内容中的会话对，根据预设的场景标签，采集获得会话对与场景标签对应的场景标签值以及将会话对、场景标签以及与场景标签对应的场景标签值进行匹配组合，从而生成个人专属语料库，解决了现有采用人工建立会话语料库的工作量大且不具备个人专属性的技术问题。不仅大大减少了人工建立会话语料库的工作量，而且根据通讯方的会话内容提取的会话对和与之对应的场景标签值生成的个人专属语料库具有个人专属性和较强的针对性，体现了较高的个性化水平。此外，本实施例从会话内容中提取的会话对形式和内容多样，更真实模拟人脑会话过程，为后续根据自动建立的个人专属语料库匹配获得精准的回复内容奠定基础。

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种自动建立个人专属语料库的方法，其特征在于，包括：

采集通讯方的会话内容；

获取所述会话内容中的会话对；

根据预设的场景标签，采集获得所述会话对与所述场景标签对应的场景标签值；

将所述会话对、所述场景标签以及与所述场景标签对应的场景标签值进行匹配组合，从而生成个人专属语料库。

2.根据权利要求1所述的自动建立个人专属语料库的方法，其特征在于，获取所述会话内容中的会话对包括：

根据所述会话内容中会话句的语义，确定所述会话内容中的发起句和回复句；

根据预设的类型判断规则，确定所述发起句和所述回复句的类型；

根据所述发起句以及所述发起句与下一条发起句之间的回复句提取基础会话对；

根据所述基础会话对、所述基础会话对中发起句和回复句的类型，提取至少一个会话对。

3.根据权利要求2所述的自动建立个人专属语料库的方法，其特征在于，根据所述会话内容中会话句的语义，确定所述会话内容中的发起句和回复句包括：

判断所述会话内容中的会话句在预设时间区间内是否有通讯对方发送的上文，若无，则将所述会话句确定为发起句；

若有，则判断所述会话句是否与所述通讯对方发送的上文无语义关联，若是，则将所述会话句确定为发起句，否则将所述会话句确定为回复句。

4.根据权利要求3所述的自动建立个人专属语料库的方法，其特征在于，根据预设的类型判断规则，确定所述发起句的类型包括：

判断所述发起句是否为具有完整独立语义的语句，若是，则判断所述发起句是否由多个具有完整独立语义的单句组成，若是，则将所述发起句的类型确定为复句发起句类型，否则为单句发起句类型；若否，则判断所述发起句是否包含具有完整独立语义的单句，若包含，则将所述发起句的类型确定为非标准复句发起句类型，若不包含，则为非标准单句发起句类型；

搜索非标准单句发起句类型的所述发起句是否有自己的上文和下文连续会话句，若无，则不进行衍生扩展，若有，则进一步判断非标准单句发起句类型的所述发起句是否可与所述自己的上文和下文连续会话句合并成具有完整独立语义的语句，若能，则将非标准单句发起句类型的所述发起句的类型衍生扩展为非标准句群发起句类型，若不能，则不进行衍生扩展；

搜索非标准复句发起句类型的所述发起句是否有自己的上文和下文连续会话句，若无，则不进行衍生扩展，若有，则进一步判断非标准复句发起句类型的所述发起句是否可与所述自己的上文和下文连续会话句合并成具有完整独立语义的语句，若能，则将非标准复句发起句类型的所述发起句的类型衍生扩展为非标准句群发起句类型，若不能，则不进行衍生扩展；

判断单句、复句、非标准单句、非标准复句以及非标准句群类型的所述发起句是否有自己的上文和下文连续会话句，若有，则进一步判断所述发起句是否可与自己的上文和下文连续会话句合并成语义关联的句群，若是，则将所述发起句的类型衍生扩展为句群发起句类型，否则不进行衍生扩展。

5.根据权利要求3所述的自动建立个人专属语料库的方法，其特征在于，根据预设的类型判断规则，确定所述回复句的类型包括：

判断所述回复句是否为具有完整独立语义的语句，若是，则判断所述回复句是否由多个具有完整独立语义的单句组成，若是，则将所述回复句的类型确定为复句回复句类型，否则为单句回复句类型；若否，则判断所述回复句是否包含具有完整独立语义的单句，若包含，则将所述回复句的类型确定为非标准复句回复句类型，若不包含，则为非标准单句回复句类型；

搜索非标准单句回复句类型的所述回复句是否有自己的上文和下文连续会话句，若无，则不进行衍生扩展，若有，则进一步判断非标准单句回复句类型的所述回复句是否可与所述自己的上文和下文连续会话句合并成具有完整独立语义的语句，若能，则将非标准单句回复句类型的所述回复句的类型衍生扩展为非标准句群回复句类型，若不能，则不进行衍生扩展；

搜索非标准复句回复句类型的所述回复句是否有自己的上文和下文连续会话句，若无，则不进行衍生扩展，若有，则进一步判断非标准复句回复句类型的所述回复句是否可与所述自己的上文和下文连续会话句合并成具有完整独立语义的语句，若能，则将非标准复句回复句类型的所述回复句的类型衍生扩展为非标准句群回复句类型，若不能，则不进行衍生扩展；

判断单句、复句、非标准单句、非标准复句以及非标准句群类型的所述回复句是否有自己的上文和下文连续会话句，若有，则进一步判断所述回复句是否可与自己的上文和下文连续会话句合并成语义关联的句群，若是，则将所述回复句的类型衍生扩展为句群回复句类型，否则不进行衍生扩展。

6.根据权利要求5所述的自动建立个人专属语料库的方法，其特征在于，根据基础会话对、所述基础会话对中发起句的类型以及所述基础会话对中回复句的类型，提取至少一个会话对包括：

将所述基础会话对中发起句的类型进行衍生扩展，获得多种类型的发起句；

将所述基础会话对中回复句的类型进行衍生扩展，获得多种类型的回复句；

根据多种类型的所述发起句以及多种类型的所述回复句，组合至少一个语义关联的会话对进行提取。

7.根据权利要求1-6任一所述的自动建立个人专属语料库的方法，其特征在于，根据预设的场景标签，采集获得所述会话对与所述场景标签对应的场景标签值包括：

预设场景标签库，所述场景标签库至少包括一个场景标签；

在所述场景标签库中选择与所述会话对关联的场景标签；

采集获得所述会话对与所述场景标签对应的场景标签值。

8.根据权利要求7所述的自动建立个人专属语料库的方法，其特征在于，所述场景标签包括：