CN108197102A

CN108197102A - 一种文本数据统计方法、装置和服务器

Info

Publication number: CN108197102A
Application number: CN201711436235.5A
Authority: CN
Inventors: 雍倩; 尹存祥; 吴伟佳; 黎爱坤; 鄢胜利; 韦庭
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2017-12-26
Filing date: 2017-12-26
Publication date: 2018-06-22
Also published as: US10984031B2; US20190197129A1

Abstract

本发明提出一种文本数据统计方法、装置和服务器，所述方法包括：获取目标文本和第一待比对文本集合；其中，所述第一待比对文本集合包括多个待比对文本，每个待比对文本为用户在一次搜索中输入的搜索文本；根据短文本语义相似度算法，计算每个待比对文本与所述目标文本之间的文本相似度，并且将所述文本相似度大于第一阈值的待比对文本作为待分析对象；和基于用户的至少一个属性，对所述待分析对象对应的用户进行统计，生成并输出统计结果。本发明实施例中，能够实现针对对目标文本感兴趣的用户、即目标文本对应的事件所针对的受众的分析。

Description

一种文本数据统计方法、装置和服务器

技术领域

本发明涉及互联网领域，并具体涉及一种文本数据统计方法、装置和服务器。

背景技术

目前，互联网技术在全球范围内得到了广泛的应用，人们越来越多地通过互联网来进行各种活动，而网络媒体也成为了不容忽视的新兴媒体，得到了广泛关注。

与报纸、无线广播和电视等传统的传播媒体相比，网络媒体具有进入门槛低、信息超大规模、信息发布与传播迅速、参与群体庞大、实时交互性强等综合性特点。由于网络信息的发布成本极低，信息的提供者、传播者和阅读者之间已经没有明显的界限。信息网络已成为一个“虚拟社会”，具有非常明显的社会群体特征。特别是当有事件发生时，人们都会通过新闻评论、社区论坛、微博等方式参与讨论。而通过相应的舆情分析，则可以了解到民众的关心问题等重要信息。

舆情分析很重要的一点是对事件受众的分析和确定。如何通过对网络上产生的海量数据的分析来得到事件的准确受众，是一个亟待解决的重要问题。

发明内容

本发明实施例提供一种文本数据统计方法、装置和服务器，以至少解决现有技术中的以上技术问题。

第一方面，本发明实施例提供了一种文本数据统计方法，包括：

获取目标文本和第一待比对文本集合；其中，所述第一待比对文本集合包括多个待比对文本，每个待比对文本为用户在一次搜索中输入的搜索文本；

根据短文本语义相似度算法，计算每个待比对文本与所述目标文本之间的文本相似度，并且将所述文本相似度大于第一阈值的待比对文本作为待分析对象；和

基于用户的至少一个属性，对所述待分析对象对应的用户进行统计，生成并输出统计结果。

结合第一方面，本发明在第一方面的第一种实施方式中，所述根据短文本语义相似度算法，计算每个待比对文本与所述目标文本之间的文本相似度，并且将所述文本相似度大于第一阈值的待比对文本作为待分析对象包括：

利用Elasticsearch，计算每个待比对文本和所述目标文本之间的第一相似度；

从所述第一待比对文本集合中筛选出所述第一相似度大于第二阈值的待比对文本，并且将剩余的待比对文本作为第二待比对文本集合；

针对所述目标文本和所述第二待比对文本集合中的每个文本进行分词，得到用于每个文本的至少一个关键词；

利用word2vec模型对所述至少一个关键词进行向量表示，并且将用于每个文本的向量进行累加，得到相应的累加结果；和

根据用于所述目标文本的累加结果和用于所述第二待比对文本集合中的每个待比对文本的累加结果，计算所述第二待比对文本集合中的每个待比对文本和所述目标文本之间的文本相似度，并且将所述文本相似度大于第一阈值的待比对文本作为待分析对象。

结合第一方面的第一种实施方式，所述文本相似度为余弦相似度，并且利用以下公式来计算所述余弦相似度：

其中，x和y均为向量，sim(X,Y)为向量x和y之间的相似度。

结合第一方面，本发明在第一方面的第二实施方式中，基于用户的至少一个属性对所述待分析对象对应的用户进行统计分析，生成并输出统计结果包括：

获取每个待分析对象对应的用户的属性；

利用预设属性库，对所获取的属性进行筛选，选择置信度大于第三阈值的至少一个属性；和

基于所述至少一个属性，对所述待分析对象对应的用户进行统计分析，生成并输出统计结果。

结合第一方面，本发明在第一方面的第三实施方式中，，每个待比对文本为预设时间段内用户在一次搜索中输入的搜索文本。

第二方面，本发明实施例提供了一种文本数据统计装置，包括：

获取模块，用于获取目标文本和第一待比对文本集合；其中，所述第一待比对文本集合包括多个待比对文本，每个待比对文本为用户在一次搜索中输入的搜索文本；

相似度计算模块，用于根据短文本语义相似度算法，计算每个待比对文本与所述目标文本之间的文本相似度，并且将所述文本相似度大于第一阈值的待比对文本作为待分析对象；和

统计模块，用于基于用户的至少一个属性，对所述待分析对象对应的用户进行统计，生成并输出统计结果。

所述功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。

第三方面，本发明实施例提供了一种服务器，所述服务器包括：

一个或多个处理器；

存储装置，配置为存储一个或多个程序；

通信接口，配置为使所述处理器和存储装置与外部设备进行通信；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如上所述的方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，用于存储所述文本数据统计装置所用的计算机软件指令，其包括用于执行上述第一方面中的文本数据统计方法为所述文本数据统计装置所涉及的程序。

上述技术方案中的另一个技术方案具有如下优点或有益效果：本发明实施例中，通过短文本语义相似度算法计算每个待比对文本、即用户输入的搜索文本与所述目标文本之间的相似度，并且将相似度大于阈值的待比对文本作为待分析对象，进而基于用户属性输出统计分析结果，能够实现针对对目标文本感兴趣的用户、即目标文本对应的事件所针对的受众的分析。

上述概述仅仅是为了说明书的目的，并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外，通过参考附图和以下的详细描述，本发明进一步的方面、实施方式和特征将会是容易明白的。

附图说明

在附图中，除非另外规定，否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解，这些附图仅描绘了根据本发明公开的一些实施方式，而不应将其视为是对本发明范围的限制。

图1为根据本发明一个实施例的文本数据统计方法的流程图；

图2为根据本发明一个实施例的相似度计算方法的流程图；

图3为根据本发明一个实施例的属性统计方法的流程图；

图4为根据本发明另一实施例的文本数据统计装置的结构示意图；

图5为根据本发明另一实施例的文本数据统计装置的结构示意图；

图6为根据本发明另一实施例的文本数据统计装置的结构示意图；和

图7为根据本发明另一实施例的服务器的结构示意图。

具体实施方式

在下文中，仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样，在不脱离本发明的精神或范围的情况下，可通过各种不同方式修改所描述的实施例。因此，附图和描述被认为本质上是示例性的而非限制性的。

图1示出了根据本发明第一实施例的文本数据统计方法100的流程图。如图1所示，文本数据统计方法100包括：

S110，获取目标文本和第一待比对文本集合；其中，所述第一待比对文本集合包括多个待比对文本，每个待比对文本为用户在一次搜索中输入的搜索文本；

在本发明的一个优选实施方式中，目标文本为某事件的文字描述，优选为新闻标题，如“周杰伦北京演唱会”、“苹果发布iPhone8”等。下文中以“周杰伦北京演唱会”为目标文本，对本发明实施例提供的文本数据统一方法进行具体分析。

本发明实施例中，每个待比对文本为用户在一次搜索中输入的搜索文本。可以理解的是，本发明实施例提供的文本数据统计方法可以反复执行，在当前时间点所获取的待比对文本数量与下一次执行所述方法的时间点所获取的待比对文本数量是不同的，这是因为在两次执行所述方法的时间间隔内，可能有另外的搜索产生。

另外，在目标文本为新闻标题的情况下，为了保证得到的结果的准确性，需要考虑新闻的时效性，可以理解的是，S110中所获取的多个待比对文本可以是预设时间段内用户输入的搜索数据。特别地，该预设时间段可以是24小时、 48小时，甚至一周，可以根据目标文本的内容进行确定，在此不做具体限制。

S120：根据短文本语义相似度算法，计算每个待比对文本与所述目标文本之间的文本相似度，并且将所述文本相似度大于第一阈值的待比对文本作为待分析对象；

当前，在计算文本的相似度时，往往通过将文本进行拆分，选取关键词来进行。此外，由于本发明实施例中，目标文本和待比对文本长度较短，经常包含一个主题，鉴于此，本发明实施例中，采用针对短文本的语义相似度算法来进行相似度分析，从而更准确地筛选出所需要的文本。

例如，从字面上看，“北京”和“首都”并不相似，但是在汉语中，其含义是相同的。另外，语言的不同，也使得毫无相似之处的文本表达的意思相同，例如“周星驰”和“Stephen Chow”指的是一个人，而且“音乐”和“music”的具有相同的含义。此外，词汇之间有时具有特殊的关联性，例如“周杰伦鸟巢演唱会”和“周杰伦北京演唱会”，其中关键词“鸟巢”和“北京”看似毫无联系，实际上由于鸟巢位于北京市，且经常用于举办演唱会，实际上两次搜索之间具有很深的关联度。

在这种情况下，仅仅对文本中的文字进行比对的话，会遗漏许多信息。因此，本发明实施例采用短文本语义相似度算法，来对文本进行分析。

如图2所示，在本发明一个实施例中，S120可以包括以下步骤：

S121：利用Elasticsearch，计算每个待比对文本和所述目标文本之间的第一相似度；

ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎，基于RESTful web接口。Elasticsearch是用Java开发的，并作为Apache许可条款下的开放源码发布，是当前流行的企业级搜索引擎。设计用于云计算中，能够达到实时搜索，稳定，可靠，快速，安装使用方便。

本实施例中，利用Elasticsearch中自带的相似度算法来计算第一相似度。ElasticSearch底层采用了Lucene(一种全文搜索引擎)，而Lucene的分数计算综合了布尔模型(Boolean model)、TF-IDF、以及矢量空间模型。Elasticsearch 中提供了默认的tf/idf模型、bm25、drf和ib三种相似度模型。本实施例可以根据需要利用其中任一种或更多种相似度模型来计算第一相似度。

S122：从所述第一待比对文本集合中筛选出所述第一相似度大于第二阈值的待比对文本，并且将剩余的待比对文本作为第二待比对文本集合；

本实施例中，Elasticsearch用于做粗过滤，对待比对文本进行初步筛选，可以进一步提高文本筛选的准确性。

S123：针对所述目标文本和所述第二待比对文本集合中的每个文本进行分词，得到用于每个文本的至少一个关键词；

众所周知的是，汉语虽然以字为最小单位，但是在实际使用中，最小的且能够独立运用的语言单位是词。汉语的句子，也就是计算机中的字符串，往往很难被机器理解。因此，在实际应用中，对于汉语的处理，很关键的一种技术就是分词，在分词的基础上，可以进行句法分析、机器翻译和语义理解等上层应用。

因此，本发明实施例中，在进行相似度计算时，需要对目标文本和第二待比对文本集合中的每个进行分词。需要说明的是，在进行分词时，为了使得到的结果更为准确，可以先删除文本中的标点符号、特殊符号(例如下划线等)、或停用词，其中停用词是指在信息检索中，为节省存储空间和提高搜索效率，在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词，这些字或词即被称为Stop Words(停用词)。S123可以利用任何一种现有手段来完成，在此不做具体限制。

S124：利用word2vec模型对所述至少一个关键词进行向量表示，并且将用于每个文本的向量进行累加，得到相应的累加结果；

word2vec本质上来说就是一个矩阵分解的模型，简单地说，矩阵刻画了每个词和其上下文的词的集合的相关情况。对这个矩阵进行分解，只取每个词对应在隐含空间的向量。对于短文本而言，可以直接把文档里面所有的词对应的向量线性相加，作为文本的特征训练分类器，来进行文本分析。

S125：根据用于所述目标文本的累加结果和用于所述第二待比对文本集合中的每个待比对文本的累加结果，计算所述第二待比对文本集合中的每个待比对文本和所述目标文本之间的文本相似度，并且将所述文本相似度大于第一阈值的待比对文本作为待分析对象；

在本发明一个优选实施例中，文本相似度为余弦相似度。余弦相似度又称为余弦相似性，是通过计算两个向量的夹角余弦值来评估他们的相似度。但是可以理解的是，本发明实施例中的第一相似度还可以是其他种类的相似度，可以根据实际需要进行选择，在此不作具体限制。

特别地，可以利用以下公式来计算余弦相似度：

其中，x和y均为向量，sim(X,Y)为向量x和y之间的相似度。

经过S125，会对待比对文本进行第二步的筛选，使得到的待分析对象更准确以及更有针对性。

S130：基于用户的至少一个属性，对所述待分析对象对应的用户进行统计，生成并输出统计结果。

在通过S120对多个待比对文本进行筛选之后，需要对得到的待分析对象进行统计分析，以得到目标文本的受众。

本实施例中，进行统计分析的对象是待分析对象对应的用户，即输入的搜索数据与目标文本的相似度大于第一阈值的用户，且该统计分析是基于这些用户的至少一个属性进行的。

在本发明一个优选实施例中，用户的属性可以包括，性别、年龄、所在地域、行业等，但是可以设想用户还包括其他属性，此处不一一列举，凡是能够将用户分割为不同群体的特征，都可以称为用户属性，例如用户的学历。

本实施例中，用户的属性可以通过任何现有技术来获取，例如常见的抓取工具，在此不做具体限制。而对用户进行统计分析，是针对每个属性的用户数量进行统计，从而得到统计结果，并输出。

可以理解的是，对用户属性的选择可以根据实际情况而定。例如，对于娱乐相关的事件，可以选择用户年龄、性别等属性；而对于政治相关的事件，可以选择用户的学历、年龄等属性。而属性的选择，也关系着最后得到的统计结果的可参照度。

通过上述方法，能够对目标文本相关的搜索数据进行分析，继而得到对应用户、即目标文本受众的统计结果，可以为舆情分析提供参考。

在本发明一个实施例中，如图3所示，S130可以包括以下步骤：

S131：获取每个待分析对象对应的用户的属性；

该步骤可以利用任何一种现有技术实现，在此不做具体限制。

S132：利用预设属性库，对所获取的属性进行筛选，选择置信度大于第三阈值的至少一个属性；

本发明实施例中，预设属性库可以是包含了用户ID、用户属性的名称、每种属性的置信度以及其他信息的任何属性库，其中的信息、尤其是是置信度的评估可以利用任何现有技术获取，在此不做具体限制。

可以理解的是，所获取的用户的每种属性的置信度并不一定相同，置信度越高代表属性更为可信和准确，因此需要对属性进行筛选。在本发明一个优选实施例中，置信度的阈值可以为80，当然也可以是其他的数值，根据期望得到的结果准确度而定。

例如，如果预设属性库中用户user的信息为：性别：女，置信度：90；年龄：25-34，置信度：98；所在城市：广州市；置信度：60。

其中，性别、年龄、和所在城市都是属性名称，每种属性的置信度都不相同。由于user的“所在城市”这一属性的置信度为60，低于第三阈值80，因此不能用于对事件受众的统计分析。

S133：基于所述至少一个属性，对所述待分析对象对应的用户进行统计分析，生成并输出统计结果。

通过上述方法，能够对统计分析所针对的属性进行筛选，仅对置信度较高的属性进行统计分析，得到的结果更为准确，对用户的刻画也更为可信。

特别地，本发明实施例中，第一、第二、第三阈值可以根据实际需要设置，在此不做具体限制。

现在以一个具体示例对本发明实施例提供的文本数据统计方法进行详细描述。在该具体示例中，目标文本为“周杰伦北京演唱会”。

首先，事件的第一次受众分析结果是获取在一定时间段、例如48小时内的搜索数据。其次，对目标文本及获取的搜索数据进行短文本语义相似度分析，得到相似度大于第一阈值的待比对文本，将其作为待分析对象。例如，本示例中，类似于“周杰伦首都演唱会”、“Jay Zhou首都演唱会”等都会被认为是待分析对象。此后的受众采取增量更新的方式得到事件的累计受众，即间隔一段时间重新进行本发明实施例提供的文本数据统计方法，这样能够对得到的结果进行更新，使得结果更加准确。

本示例中，由于周杰伦是在北京开演唱会，为了提供参考，可以将用户属性选择为年龄、所处地域。并且为了方便统计，可以将年龄划分为年龄段来进行统计。例如，10-15、15-20……

在输出统计结果的时候，可以用比较直观的方式将结果进行输出，例如饼形图、柱形图等，直接显示在显示装置上，使得统计结果一目了然，能很明显地观察得到“周杰伦北京演唱会”这一事件的受众。

图4示出了根据本发明一个实施例的文本数据统计装置200的结构示意图，该装置200可以包括：

获取模块210，用于获取目标文本和第一待比对文本集合；其中，所述第一待比对文本集合包括多个待比对文本，每个待比对文本为用户在一次搜索中输入的搜索文本；

相似度计算模块220，用于根据短文本语义相似度算法，计算每个待比对文本与所述目标文本之间的文本相似度，并且将所述文本相似度大于第一阈值的待比对文本作为待分析对象；和

统计模块230，用于基于用户的至少一个属性，对所述待分析对象对应的用户进行统计，生成并输出统计结果。

其中，每个待比对文本可以为预设时间段内用户在一次搜索中输入的搜索文本。

如图5所示，在本发明一个优选实施例中，相似度计算模块220可以包括：

第一相似度计算单元221，用于利用Elasticsearch，计算每个待比对文本和所述目标文本之间的第一相似度；

筛选单元222，用于从所述第一待比对文本集合中筛选出所述第一相似度大于第二阈值的待比对文本，并且将剩余的待比对文本作为第二待比对文本集合；

分词单元223，用于针对所述目标文本和所述第二待比对文本集合中的每个文本进行分词，得到用于每个文本的至少一个关键词；

向量计算单元224，用于利用word2vec模型对所述至少一个关键词进行向量表示，并且将用于每个文本的向量进行累加，得到相应的累加结果；

文本相似度计算单元225，用于根据用于所述目标文本的累加结果和用于所述第二待比对文本集合中的每个待比对文本的累加结果，计算所述第二待比对文本集合中的每个待比对文本和所述目标文本之间的文本相似度，并且将所述文本相似度大于第一阈值的待比对文本作为待分析对象。

其中，所述文本相似度为余弦相似度，并且可以利用以下公式来计算所述余弦相似度：

其中，x和y均为向量，sim(X,Y)为向量x和y之间的相似度。

如图6所示，根据本发明一个优选实施例，统计模块230可以包括：

属性获取单元231，用于获取每个待分析对象对应的用户的属性；

属性筛选单元232，用于利用预设属性库，对所获取的属性进行筛选，选择置信度大于第三阈值的至少一个属性；

统计单元233，用于基于所述至少一个属性，对所述待分析对象对应的用户进行统计分析，生成并输出统计结果。

图7示出了根据本发明另一实施例的服务器700的结构示意图。如图7所示，服务器700包括：

一个或多个处理器710；

存储装置720，配置为存储一个或多个程序；

通信接口730，配置为使所述处理器710和存储装置720与外部设备进行通信；

当所述一个或多个程序被所述一个或多个处理器710执行时，使得所述一个或多个处理器710实现前述任一种文本数据统计方法。

根据本发明另一实施例，提供了一种计算机可读存储介质，其存储有计算机程序，该程序被处理器执行时实现前述任一种文本数据统计方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二” 的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***) 使用，或结合这些指令执行***、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行 ***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA) 等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读存储介质中。所述存储介质可以是只读存储器，磁盘或光盘等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到其各种变化或替换，这些都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种文本数据统计方法，其特征在于，包括：

2.根据专利要求1所述的方法，其特征在于，所述根据短文本语义相似度算法，计算每个待比对文本与所述目标文本之间的文本相似度，并且将所述文本相似度大于第一阈值的待比对文本作为待分析对象包括：

3.根据权利要求2所述的方法，其特征在于，所述文本相似度为余弦相似度，并且利用以下公式来计算所述余弦相似度：

其中，x和y均为向量，sim(X,Y)为向量x和y之间的相似度。

4.根据权利要求1所述的方法，其特征在于，基于用户的至少一个属性对所述待分析对象对应的用户进行统计分析，生成并输出统计结果包括：

获取每个待分析对象对应的用户的属性；

5.根据权利要求1所述的方法，其特征在于，每个待比对文本为预设时间段内用户在一次搜索中输入的搜索文本。

6.一种文本数据统计装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，所述相似度计算模块包括：

第一相似度计算单元，用于利用Elasticsearch，计算每个待比对文本和所述目标文本之间的第一相似度；

筛选单元，用于从所述第一待比对文本集合中筛选出所述第一相似度大于第二阈值的待比对文本，并且将剩余的待比对文本作为第二待比对文本集合；

分词单元，用于针对所述目标文本和所述第二待比对文本集合中的每个文本进行分词，得到用于每个文本的至少一个关键词；

向量计算单元，用于利用word2vec模型对所述至少一个关键词进行向量表示，并且将用于每个文本的向量进行累加，得到相应的累加结果；和

文本相似度计算单元，用于根据用于所述目标文本的累加结果和用于所述第二待比对文本集合中的每个待比对文本的累加结果，计算所述第二待比对文本集合中的每个待比对文本和所述目标文本之间的文本相似度，并且将所述文本相似度大于第一阈值的待比对文本作为待分析对象。

8.根据权利要求7所述的装置，其特征在于，所述文本相似度为余弦相似度，并且利用以下公式来计算所述余弦相似度：

其中，x和y均为向量，sim(X,Y)为向量x和y之间的相似度。

9.根据权利要求6所述的装置，其特征在于，所述统计模块包括：

属性获取单元，用于获取每个待分析对象对应的用户的属性；

属性筛选单元，用于利用预设属性库，对所获取的属性进行筛选，选择置信度大于第三阈值的至少一个属性；和

统计单元，用于基于所述至少一个属性，对所述待分析对象对应的用户进行统计分析，生成并输出统计结果。

10.根据权利要求6所述的装置，其特征在于，每个待比对文本为预设时间段内用户在一次搜索中输入的搜索文本。

11.一种服务器，其特征在于，所述服务器包括：

一个或多个处理器；

存储装置，配置为存储一个或多个程序；

通信接口，配置为使所述处理器和所述存储装置与外部设备进行通信；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1-5中任一所述的方法。

12.一种计算机可读存储介质，其存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-5中任一所述的方法。