CN111026835A

CN111026835A - 一种聊天主题检测方法、装置、存储介质

Info

Publication number: CN111026835A
Application number: CN201911365829.0A
Authority: CN
Inventors: 郑伟斌; 赵建强; 陈诚; 庄灿波
Original assignee: Xiamen Meiya Pico Information Co Ltd
Current assignee: Xiamen Meiya Pico Information Co Ltd
Priority date: 2019-12-26
Filing date: 2019-12-26
Publication date: 2020-04-17
Anticipated expiration: 2039-12-26
Also published as: CN111026835B

Abstract

本发明提供了一种聊天主题检测方法、装置及存储介质，该方法包括：将获取的聊天内容基于发送时间间隔分为M个段落；对所述M个段落进行预处理得到预处理后的M个段落；使用K种主题检测算法对所述预处理后的M个段落进行主题检测得到K*M个段落主题；对所述K*M个段落主题进行聚合排序，将排序在前n个的主题作为聊天主题。本发明针对聊天场景设计了基于发送时间间隔的分段方法对聊天文本建模，针对聊天数据特点设计一系列数据噪声过滤方法对聊天数据进行预处理，提升后续话题检测的性能，先使用多种算法进行主题检测，检测后基于概率再进行主题聚合，提高了主题检测的准确性，提高了用户体验。

Description

一种聊天主题检测方法、装置、存储介质

技术领域

本发明涉及人工智能技术领域，一种聊天主题检测方法、装置、存储介质。

背景技术

随着近些年移动终端的飞速发展，手机已经成为人们日常生活中不可或缺的工具。手机中的QQ、微信等即时通讯软件每天都会产生极为庞大的聊天数据。人们在这些软件上谈论着学习、工作、政治、娱乐等各式各样的内容，这些聊天记录中往往隐含一个或多个聊天话题。目前发现聊天中隐藏话题的方式主要是依靠人工通过浏览聊天内容进行归纳总结得到，在聊天数据量大时费时费力。

另外，目前话题检测技术主要的应用场景为新闻、微博、评论等文字结构规整、特征较为明显的文本中。而聊天中的文字较为随性、特征稀疏且内容中存在大量噪声，现有的话题检测算法无法有效的检测出聊天中的隐藏话题。

因此，现有技术中的缺陷为：1、传统挖掘聊天中话题的方式主要依靠人工从聊天记录中归纳总结，面对巨大的数据量力不从心；2、现有的话题检测算法多是应用于微博、新闻等文本上，在聊天数据场景的应用较少；3、聊天数据的特点导致现有话题(也就是说话的主题，也称为主题)检测算法(如微博、新闻)直接应用效果不佳。

可见，在现有技术中，对聊天内容中的主题检测效率低、准确度不高，现有技术中没有专门针对聊天内容进行主题检测的相关方法。

发明内容

本发明针对上述现有技术中的缺陷，提出了如下技术方案。

一种聊天主题检测方法，该方法包括：

分段步骤，将获取的聊天内容基于发送时间间隔分为M个段落；

预处理步骤，对所述M个段落进行预处理得到预处理后的M个段落；

主题检测步骤，使用K种主题检测算法对所述预处理后的M个段落进行主题检测得到K*M个段落主题；

聚合步骤，对所述K*M个段落主题进行聚合排序，将排序在前n个的主题作为聊天主题。

更进一步地，所述分段步骤的操作为：

a.获取聊天内容，并将所述聊天内容的起始位置设置为行号i＝0；

b.判断第i行与第i+1行的聊天时间间隔是否大于10分钟，如果是，则转到步骤c，如果否，则转到步骤d；

c.判断段落长度是否大于10行或段落字数是否大于150字，如果是，则转到步骤e，如果否，则转到步骤d；

d.将第i行和第i+1行进行段落合并，将行号i加1，转到步骤b；

e.判断段落行数是否大于80，如果是，则转到步骤f，如果否，则转到步骤g；

f.确定该段落50行到80行中时间间隔最大的两行进行段落切分，将行号i指向段落的最后一行，转到步骤e；

g.进行段落切分，行号i指向段落的最后一行，转到步骤h；

h.判断行号i是否指向所述聊天内容的最后一行，如果是，则结束，如果否，则转到步骤b。

更进一步地，所述预处理为聊天内容进行过滤。

更进一步地，所述主题检测步骤的操作为：将预处理后的M个段落中的每个段落通过K个主题检测算法获取该段落的主题概率分布p，p表示该段落属于各个主题的概率值，满足

其中N为总主题个数；每个算法取概率最大值p_max作为代表该段落的主题称为段落主题，所有段落计算完成后，得到K个段落主题集合，每个主题集合中含M个段落主题，共K*M个段落主题。

更进一步地，所述聚合步骤的操作为：对K个主题检测算法中的每个算法得到的M个段落主题进行主题合并，相同主题的概率值相加，将每个主题检测算法按照概率值排序后输出不超过5个反映整个聊天的主题称为表征主题，对所述表征主题的概率值分别进行归一化，若每个主题检测算法输出的表征主题个数为w，则归一化公式为：

其中p_j表示表征主题的第j个概率值，

表示归一化之后的概率值，将每个主题检测算法的相同表征主题进行合并，并对对应的归一化概率值相加，按概率值从高低排序输出n个主题作为所述聊天内容的主题。

本发明还提出了一种聊天主题检测装置，该装置包括：

分段单元，用于将获取的聊天内容基于发送时间间隔分为M个段落；

预处理单元，用于对所述M个段落进行预处理得到预处理后的M个段落；

主题检测单元，用于使用K种主题检测算法对所述预处理后的M个段落进行主题检测得到K*M个段落主题；

聚合单元，用于对所述K*M个段落主题进行聚合排序，将排序在前n个的主题作为聊天主题。

更进一步地，所述分段单元执行的操作为：

d.将第i行和第i+1行进行段落合并，将行号i加1，转到步骤b；

g.进行段落切分，行号i指向段落的最后一行，转到步骤h；

更进一步地，所述预处理为聊天内容进行过滤。

更进一步地，所述主题检测单元执行的操作为：将预处理后的M个段落中的每个段落通过K个主题检测算法获取该段落的主题概率分布p，p表示该段落属于各个主题的概率值，满足

更进一步地，所述聚合单元执行的操作为：对K个主题检测算法中的每个算法得到的M个段落主题进行主题合并，相同主题的概率值相加，将每个主题检测算法按照概率值排序后输出不超过5个反映整个聊天的主题称为表征主题，对所述表征主题的概率值分别进行归一化，若每个主题检测算法输出的表征主题个数为w，则归一化公式为：

其中p_j表示表征主题的第j个概率值，

本发明还提出了一种计算机可读存储介质，所述存储介质上存储有计算机程序代码，当所述计算机程序代码被计算机执行时执行上述之任一的装置。

本发明的技术效果在于：本发明的一种聊天主题检测方法，该方法包括：

将获取的聊天内容基于发送时间间隔分为M个段落；对所述M个段落进行预处理得到预处理后的M个段落；使用K种主题检测算法对所述预处理后的M个段落进行主题检测得到K*M个段落主题；对所述K*M个段落主题进行聚合排序，将排序在前n个的主题作为聊天主题。本发明针对聊天场景设计了基于发送时间间隔的分段方法对聊天文本建模，针对聊天数据特点设计一系列数据噪声过滤方法对聊天数据进行预处理，提升后续话题检测的性能，先使用多种算法进行主题检测，检测后基于概率再进行主题聚合，提高了主题检测的准确性，提高了用户体验。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显。

图1是根据本发明的实施例的一种聊天主题检测方法的流程图。

图2是根据本发明的实施例的分段方法的流程图。

图3是根据本发明的实施例的主题检测方法的流程图。

图4是根据本发明的实施例的具体聚类方法的流程图。

图5是根据本发明的实施例的一种聊天主题检测装置的结构图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1示出了本发明的一种聊天主题检测方法，该方法包括：

分段步骤S101，将获取的聊天内容基于发送时间间隔分为M个段落；本发明所称的聊天内容可以是来自即时通讯工具中的聊天记录，比如微信、QQ、支付宝等等的聊天记录，也可以是手机短信的聊天记录，其中M为大于或等于1的整数。

预处理步骤S102，对所述M个段落进行预处理得到预处理后的M个段落；针对群聊天数据存在大量数据噪声、数据特征稀疏的问题，本方法基于正则表达式设计了一系列数据预处理算法用以过滤多余信息，具体过滤内容包括：视频、图像、红包、网页等链接过滤、***消息过滤、表情符号过滤、停用词过滤、其他乱码过滤。比如，网址中包括http、www等等，可设计正则表达式将其过滤掉。

主题检测步骤S103，使用K种主题检测算法对所述预处理后的M个段落进行主题检测得到K*M个段落主题；通过K种话题检测算法(比如，LDA、pLSA、K-means等)分别获取每个段落的话题概率分布，K为大于或等于3的整数。LDA、pLSA、K-means这些算法是本领域成熟的算法，在使用前需要对其进行训练，训练一般采用人工标注的样本进行，训练完成后才可以使用这些算法进行主题检测。

聚合步骤S104，对所述K*M个段落主题进行聚合排序，将排序在前n个的主题作为聊天主题。

如图2所示，所述分段步骤S101的操作为：

d.将第i行和第i+1行进行段落合并，将行号i加1，转到步骤b；

g.进行段落切分，行号i指向段落的最后一行，转到步骤h；

本发明设计了基于发送时间间隔的分段方法，从而将聊天内容分成多个段落；这提现了聊天环境的特点，即在一段时间内的聊天主题一般来说更加近似，这样使得后续的主题检测更为准确，该分段方法是本发明独创的，属于本发明的一个重要发明点。

在一个实施例中，如图3所示，所述主题检测步骤S103的操作为：将预处理后的M个段落中的每个段落通过K个主题检测算法获取该段落的主题概率分布p，p表示该段落属于各个主题的概率值，满足

在一个实施例中，如图4所示，所述聚合步骤S104的操作为：对K个主题检测算法中的每个算法得到的M个段落主题进行主题合并，相同主题的概率值相加，将每个主题检测算法按照概率值排序后输出不超过5个反映整个聊天的主题称为表征主题，对所述表征主题的概率值分别进行归一化，若每个主题检测算法输出的表征主题个数为w，则归一化公式为：

其中p_j表示表征主题的第j个概率值，

表示归一化之后的概率值，将每个主题检测算法的相同表征主题进行合并，并对对应的归一化概率值相加，按概率值从高低排序输出n个主题作为所述聊天内容的主题，一般来说n＝3。

本方法先使用多种算法进行主题检测，检测后基于概率再进行主题聚合，提高了主题检测的准确性，提高了用户体验，并提出具体的主题聚合公式，这是本发明的另一个重要发明点。

图5示出了本发明的本发明的一种聊天主题检测装置，该装置包括：

分段单元501，将获取的聊天内容基于发送时间间隔分为M个段落；本发明所称的聊天内容可以是来自即时通讯工具中的聊天记录，比如微信、QQ、支付宝等等的聊天记录，也可以是手机短信的聊天记录，其中M为大于或等于1的整数。

预处理单元502，对所述M个段落进行预处理得到预处理后的M个段落；针对群聊天数据存在大量数据噪声、数据特征稀疏的问题，本发明基于正则表达式设计了一系列数据预处理算法用以过滤多余信息，具体过滤内容包括：视频、图像、红包、网页等链接过滤、***消息过滤、表情符号过滤、停用词过滤、其他乱码过滤。比如，网址中包括http、www等等，可设计正则表达式将其过滤掉

主题检测单元503，使用K种主题检测算法对所述预处理后的M个段落进行主题检测得到K*M个段落主题；通过K种话题检测算法(比如，LDA、pLSA、K-means等)分别获取每个段落的话题概率分布，K为大于或等于3的整数。LDA、pLSA、K-means这些算法是本领域成熟的算法，在使用前需要对其进行训练，训练一般采用人工标注的样本进行，训练完成后才可以使用这些算法进行主题检测。

聚合单元504，对所述K*M个段落主题进行聚合排序，将排序在前n个的主题作为聊天主题。

如图2所示，所述分段单元501执行的操作为：

d.将第i行和第i+1行进行段落合并，将行号i加1，转到步骤b；

g.进行段落切分，行号i指向段落的最后一行，转到步骤h；

在一个实施例中，如图3所示，所述主题检测单元503执行的操作为：将预处理后的M个段落中的每个段落通过K个主题检测算法获取该段落的主题概率分布p，p表示该段落属于各个主题的概率值，满足

在一个实施例中，如图4所示，所述聚合单元504执行的操作为：对K个主题检测算法中的每个算法得到的M个段落主题进行主题合并，相同主题的概率值相加，将每个主题检测算法按照概率值排序后输出不超过5个反映整个聊天的主题称为表征主题，对所述表征主题的概率值分别进行归一化，若每个主题检测算法输出的表征主题个数为w，则归一化公式为：

其中p_j表示表征主题的第j个概率值，

本装置先使用多种算法进行主题检测，检测后基于概率再进行主题聚合，提高了主题检测的准确性，提高了用户体验，并提出具体的主题聚合公式，这是本发明的另一个重要发明点。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的装置。

最后所应说明的是：以上实施例仅以说明而非限制本发明的技术方案，尽管参照上述实施例对本发明进行了详细说明，本领域的普通技术人员应当理解：依然可以对本发明进行修改或者等同替换，而不脱离本发明的精神和范围的任何修改或局部替换，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种聊天主题检测方法，其特征在于，该方法包括：

2.根据权利要求1所述的方法，其特征在于，所述分段步骤的操作为：

d.将第i行和第i+1行进行段落合并，将行号i加1，转到步骤b；

g.进行段落切分，行号i指向段落的最后一行，转到步骤h；

3.根据权利要求1或2所述的方法，其特征在于，所述预处理为聊天内容进行过滤。

4.根据权利要求3所述的方法，其特征在于，所述主题检测步骤的操作为：

将预处理后的M个段落中的每个段落通过K个主题检测算法获取该段落的主题概率分布p，p表示该段落属于各个主题的概率值，满足

5.根据权利要求4所述的方法，其特征在于，所述聚合步骤的操作为：对K个主题检测算法中的每个算法得到的M个段落主题进行主题合并，相同主题的概率值相加，将每个主题检测算法按照概率值排序后输出不超过5个反映整个聊天的主题称为表征主题，对所述表征主题的概率值分别进行归一化，若每个主题检测算法输出的表征主题个数为w，则归一化公式为：

其中p_j表示表征主题的第j个概率值，

6.一种聊天主题检测装置，其特征在于，该装置包括：

7.根据权利要求6所述的装置，其特征在于，所述分段单元执行的操作为：

d.将第i行和第i+1行进行段落合并，将行号i加1，转到步骤b；

g.进行段落切分，行号i指向段落的最后一行，转到步骤h；

8.根据权利要求6或7所述的装置，其特征在于，所述预处理为聊天内容进行过滤。

9.根据权利要求8所述的方法，其特征在于，所述主题检测单元执行的操作为：

10.根据权利要求9所述的装置，其特征在于，所述聚合单元执行的操作为：对K个主题检测算法中的每个算法得到的M个段落主题进行主题合并，相同主题的概率值相加，将每个主题检测算法按照概率值排序后输出不超过5个反映整个聊天的主题称为表征主题，对所述表征主题的概率值分别进行归一化，若每个主题检测算法输出的表征主题个数为w，则归一化公式为：

其中p_j表示表征主题的第j个概率值，

11.一种计算机可读存储介质，其特征在于，所述存储介质上存储有计算机程序代码，当所述计算机程序代码被计算机执行时执行权利要求1-5之任一的装置。