CN108197102A - 一种文本数据统计方法、装置和服务器 - Google Patents

一种文本数据统计方法、装置和服务器 Download PDF

Info

Publication number
CN108197102A
CN108197102A CN201711436235.5A CN201711436235A CN108197102A CN 108197102 A CN108197102 A CN 108197102A CN 201711436235 A CN201711436235 A CN 201711436235A CN 108197102 A CN108197102 A CN 108197102A
Authority
CN
China
Prior art keywords
text
compared
similarity
attribute
analyzed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711436235.5A
Other languages
English (en)
Inventor
雍倩
尹存祥
吴伟佳
黎爱坤
鄢胜利
韦庭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201711436235.5A priority Critical patent/CN108197102A/zh
Publication of CN108197102A publication Critical patent/CN108197102A/zh
Priority to US16/116,678 priority patent/US10984031B2/en
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出一种文本数据统计方法、装置和服务器,所述方法包括:获取目标文本和第一待比对文本集合;其中,所述第一待比对文本集合包括多个待比对文本,每个待比对文本为用户在一次搜索中输入的搜索文本;根据短文本语义相似度算法,计算每个待比对文本与所述目标文本之间的文本相似度,并且将所述文本相似度大于第一阈值的待比对文本作为待分析对象;和基于用户的至少一个属性,对所述待分析对象对应的用户进行统计,生成并输出统计结果。本发明实施例中,能够实现针对对目标文本感兴趣的用户、即目标文本对应的事件所针对的受众的分析。

Description

一种文本数据统计方法、装置和服务器
技术领域
本发明涉及互联网领域,并具体涉及一种文本数据统计方法、装置和服务 器。
背景技术
目前,互联网技术在全球范围内得到了广泛的应用,人们越来越多地通过 互联网来进行各种活动,而网络媒体也成为了不容忽视的新兴媒体,得到了广 泛关注。
与报纸、无线广播和电视等传统的传播媒体相比,网络媒体具有进入门槛 低、信息超大规模、信息发布与传播迅速、参与群体庞大、实时交互性强等综 合性特点。由于网络信息的发布成本极低,信息的提供者、传播者和阅读者之 间已经没有明显的界限。信息网络已成为一个“虚拟社会”,具有非常明显的社 会群体特征。特别是当有事件发生时,人们都会通过新闻评论、社区论坛、微 博等方式参与讨论。而通过相应的舆情分析,则可以了解到民众的关心问题等 重要信息。
舆情分析很重要的一点是对事件受众的分析和确定。如何通过对网络上产 生的海量数据的分析来得到事件的准确受众,是一个亟待解决的重要问题。
发明内容
本发明实施例提供一种文本数据统计方法、装置和服务器,以至少解决现 有技术中的以上技术问题。
第一方面,本发明实施例提供了一种文本数据统计方法,包括:
获取目标文本和第一待比对文本集合;其中,所述第一待比对文本集合包 括多个待比对文本,每个待比对文本为用户在一次搜索中输入的搜索文本;
根据短文本语义相似度算法,计算每个待比对文本与所述目标文本之间的 文本相似度,并且将所述文本相似度大于第一阈值的待比对文本作为待分析对 象;和
基于用户的至少一个属性,对所述待分析对象对应的用户进行统计,生成 并输出统计结果。
结合第一方面,本发明在第一方面的第一种实施方式中,所述根据短文本 语义相似度算法,计算每个待比对文本与所述目标文本之间的文本相似度,并 且将所述文本相似度大于第一阈值的待比对文本作为待分析对象包括:
利用Elasticsearch,计算每个待比对文本和所述目标文本之间的第一相似 度;
从所述第一待比对文本集合中筛选出所述第一相似度大于第二阈值的待比 对文本,并且将剩余的待比对文本作为第二待比对文本集合;
针对所述目标文本和所述第二待比对文本集合中的每个文本进行分词,得 到用于每个文本的至少一个关键词;
利用word2vec模型对所述至少一个关键词进行向量表示,并且将用于每个 文本的向量进行累加,得到相应的累加结果;和
根据用于所述目标文本的累加结果和用于所述第二待比对文本集合中的每 个待比对文本的累加结果,计算所述第二待比对文本集合中的每个待比对文本 和所述目标文本之间的文本相似度,并且将所述文本相似度大于第一阈值的待 比对文本作为待分析对象。
结合第一方面的第一种实施方式,所述文本相似度为余弦相似度,并且利 用以下公式来计算所述余弦相似度:
其中,x和y均为向量,sim(X,Y)为向量x和y之间的相似度。
结合第一方面,本发明在第一方面的第二实施方式中,基于用户的至少一 个属性对所述待分析对象对应的用户进行统计分析,生成并输出统计结果包括:
获取每个待分析对象对应的用户的属性;
利用预设属性库,对所获取的属性进行筛选,选择置信度大于第三阈值的 至少一个属性;和
基于所述至少一个属性,对所述待分析对象对应的用户进行统计分析,生 成并输出统计结果。
结合第一方面,本发明在第一方面的第三实施方式中,,每个待比对文本为 预设时间段内用户在一次搜索中输入的搜索文本。
第二方面,本发明实施例提供了一种文本数据统计装置,包括:
获取模块,用于获取目标文本和第一待比对文本集合;其中,所述第一待 比对文本集合包括多个待比对文本,每个待比对文本为用户在一次搜索中输入 的搜索文本;
相似度计算模块,用于根据短文本语义相似度算法,计算每个待比对文本 与所述目标文本之间的文本相似度,并且将所述文本相似度大于第一阈值的待 比对文本作为待分析对象;和
统计模块,用于基于用户的至少一个属性,对所述待分析对象对应的用户 进行统计,生成并输出统计结果。
所述功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。所述 硬件或软件包括一个或多个与上述功能相对应的模块。
第三方面,本发明实施例提供了一种服务器,所述服务器包括:
一个或多个处理器;
存储装置,配置为存储一个或多个程序;
通信接口,配置为使所述处理器和存储装置与外部设备进行通信;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或 多个处理器实现如上所述的方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,用于存储所述 文本数据统计装置所用的计算机软件指令,其包括用于执行上述第一方面中的 文本数据统计方法为所述文本数据统计装置所涉及的程序。
上述技术方案中的另一个技术方案具有如下优点或有益效果:本发明实施 例中,通过短文本语义相似度算法计算每个待比对文本、即用户输入的搜索文 本与所述目标文本之间的相似度,并且将相似度大于阈值的待比对文本作为待 分析对象,进而基于用户属性输出统计分析结果,能够实现针对对目标文本感 兴趣的用户、即目标文本对应的事件所针对的受众的分析。
上述概述仅仅是为了说明书的目的,并不意图以任何方式进行限制。除上 述描述的示意性的方面、实施方式和特征之外,通过参考附图和以下的详细描 述,本发明进一步的方面、实施方式和特征将会是容易明白的。
附图说明
在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或 相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图 仅描绘了根据本发明公开的一些实施方式,而不应将其视为是对本发明范围的 限制。
图1为根据本发明一个实施例的文本数据统计方法的流程图;
图2为根据本发明一个实施例的相似度计算方法的流程图;
图3为根据本发明一个实施例的属性统计方法的流程图;
图4为根据本发明另一实施例的文本数据统计装置的结构示意图;
图5为根据本发明另一实施例的文本数据统计装置的结构示意图;
图6为根据本发明另一实施例的文本数据统计装置的结构示意图;和
图7为根据本发明另一实施例的服务器的结构示意图。
具体实施方式
在下文中,仅简单地描述了某些示例性实施例。正如本领域技术人员可认 识到的那样,在不脱离本发明的精神或范围的情况下,可通过各种不同方式修 改所描述的实施例。因此,附图和描述被认为本质上是示例性的而非限制性的。
图1示出了根据本发明第一实施例的文本数据统计方法100的流程图。如 图1所示,文本数据统计方法100包括:
S110,获取目标文本和第一待比对文本集合;其中,所述第一待比对文本 集合包括多个待比对文本,每个待比对文本为用户在一次搜索中输入的搜索文 本;
在本发明的一个优选实施方式中,目标文本为某事件的文字描述,优选为 新闻标题,如“周杰伦北京演唱会”、“苹果发布iPhone8”等。下文中以“周杰伦 北京演唱会”为目标文本,对本发明实施例提供的文本数据统一方法进行具体分 析。
本发明实施例中,每个待比对文本为用户在一次搜索中输入的搜索文本。 可以理解的是,本发明实施例提供的文本数据统计方法可以反复执行,在当前 时间点所获取的待比对文本数量与下一次执行所述方法的时间点所获取的待比 对文本数量是不同的,这是因为在两次执行所述方法的时间间隔内,可能有另 外的搜索产生。
另外,在目标文本为新闻标题的情况下,为了保证得到的结果的准确性, 需要考虑新闻的时效性,可以理解的是,S110中所获取的多个待比对文本可以 是预设时间段内用户输入的搜索数据。特别地,该预设时间段可以是24小时、 48小时,甚至一周,可以根据目标文本的内容进行确定,在此不做具体限制。
S120:根据短文本语义相似度算法,计算每个待比对文本与所述目标文本 之间的文本相似度,并且将所述文本相似度大于第一阈值的待比对文本作为待 分析对象;
当前,在计算文本的相似度时,往往通过将文本进行拆分,选取关键词来 进行。此外,由于本发明实施例中,目标文本和待比对文本长度较短,经常包 含一个主题,鉴于此,本发明实施例中,采用针对短文本的语义相似度算法来 进行相似度分析,从而更准确地筛选出所需要的文本。
例如,从字面上看,“北京”和“首都”并不相似,但是在汉语中,其含义是 相同的。另外,语言的不同,也使得毫无相似之处的文本表达的意思相同,例 如“周星驰”和“Stephen Chow”指的是一个人,而且“音乐”和“music”的具有相同 的含义。此外,词汇之间有时具有特殊的关联性,例如“周杰伦鸟巢演唱会”和“周 杰伦北京演唱会”,其中关键词“鸟巢”和“北京”看似毫无联系,实际上由于鸟巢 位于北京市,且经常用于举办演唱会,实际上两次搜索之间具有很深的关联度。
在这种情况下,仅仅对文本中的文字进行比对的话,会遗漏许多信息。因 此,本发明实施例采用短文本语义相似度算法,来对文本进行分析。
如图2所示,在本发明一个实施例中,S120可以包括以下步骤:
S121:利用Elasticsearch,计算每个待比对文本和所述目标文本之间的第一 相似度;
ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用 户能力的全文搜索引擎,基于RESTful web接口。Elasticsearch是用Java开发 的,并作为Apache许可条款下的开放源码发布,是当前流行的企业级搜索引擎。 设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。
本实施例中,利用Elasticsearch中自带的相似度算法来计算第一相似度。ElasticSearch底层采用了Lucene(一种全文搜索引擎),而Lucene的分数计算 综合了布尔模型(Boolean model)、TF-IDF、以及矢量空间模型。Elasticsearch 中提供了默认的tf/idf模型、bm25、drf和ib三种相似度模型。本实施例可以根 据需要利用其中任一种或更多种相似度模型来计算第一相似度。
S122:从所述第一待比对文本集合中筛选出所述第一相似度大于第二阈值 的待比对文本,并且将剩余的待比对文本作为第二待比对文本集合;
本实施例中,Elasticsearch用于做粗过滤,对待比对文本进行初步筛选,可 以进一步提高文本筛选的准确性。
S123:针对所述目标文本和所述第二待比对文本集合中的每个文本进行分 词,得到用于每个文本的至少一个关键词;
众所周知的是,汉语虽然以字为最小单位,但是在实际使用中,最小的且 能够独立运用的语言单位是词。汉语的句子,也就是计算机中的字符串,往往 很难被机器理解。因此,在实际应用中,对于汉语的处理,很关键的一种技术 就是分词,在分词的基础上,可以进行句法分析、机器翻译和语义理解等上层 应用。
因此,本发明实施例中,在进行相似度计算时,需要对目标文本和第二待 比对文本集合中的每个进行分词。需要说明的是,在进行分词时,为了使得到 的结果更为准确,可以先删除文本中的标点符号、特殊符号(例如下划线等)、 或停用词,其中停用词是指在信息检索中,为节省存储空间和提高搜索效率, 在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词,这些字 或词即被称为Stop Words(停用词)。S123可以利用任何一种现有手段来完成, 在此不做具体限制。
S124:利用word2vec模型对所述至少一个关键词进行向量表示,并且将用 于每个文本的向量进行累加,得到相应的累加结果;
word2vec本质上来说就是一个矩阵分解的模型,简单地说,矩阵刻画了每 个词和其上下文的词的集合的相关情况。对这个矩阵进行分解,只取每个词对 应在隐含空间的向量。对于短文本而言,可以直接把文档里面所有的词对应的 向量线性相加,作为文本的特征训练分类器,来进行文本分析。
S125:根据用于所述目标文本的累加结果和用于所述第二待比对文本集合 中的每个待比对文本的累加结果,计算所述第二待比对文本集合中的每个待比 对文本和所述目标文本之间的文本相似度,并且将所述文本相似度大于第一阈 值的待比对文本作为待分析对象;
在本发明一个优选实施例中,文本相似度为余弦相似度。余弦相似度又称 为余弦相似性,是通过计算两个向量的夹角余弦值来评估他们的相似度。但是 可以理解的是,本发明实施例中的第一相似度还可以是其他种类的相似度,可 以根据实际需要进行选择,在此不作具体限制。
特别地,可以利用以下公式来计算余弦相似度:
其中,x和y均为向量,sim(X,Y)为向量x和y之间的相似度。
经过S125,会对待比对文本进行第二步的筛选,使得到的待分析对象更准 确以及更有针对性。
S130:基于用户的至少一个属性,对所述待分析对象对应的用户进行统计, 生成并输出统计结果。
在通过S120对多个待比对文本进行筛选之后,需要对得到的待分析对象进 行统计分析,以得到目标文本的受众。
本实施例中,进行统计分析的对象是待分析对象对应的用户,即输入的搜 索数据与目标文本的相似度大于第一阈值的用户,且该统计分析是基于这些用 户的至少一个属性进行的。
在本发明一个优选实施例中,用户的属性可以包括,性别、年龄、所在地 域、行业等,但是可以设想用户还包括其他属性,此处不一一列举,凡是能够 将用户分割为不同群体的特征,都可以称为用户属性,例如用户的学历。
本实施例中,用户的属性可以通过任何现有技术来获取,例如常见的抓取 工具,在此不做具体限制。而对用户进行统计分析,是针对每个属性的用户数 量进行统计,从而得到统计结果,并输出。
可以理解的是,对用户属性的选择可以根据实际情况而定。例如,对于娱 乐相关的事件,可以选择用户年龄、性别等属性;而对于政治相关的事件,可 以选择用户的学历、年龄等属性。而属性的选择,也关系着最后得到的统计结 果的可参照度。
通过上述方法,能够对目标文本相关的搜索数据进行分析,继而得到对应 用户、即目标文本受众的统计结果,可以为舆情分析提供参考。
在本发明一个实施例中,如图3所示,S130可以包括以下步骤:
S131:获取每个待分析对象对应的用户的属性;
该步骤可以利用任何一种现有技术实现,在此不做具体限制。
S132:利用预设属性库,对所获取的属性进行筛选,选择置信度大于第三 阈值的至少一个属性;
本发明实施例中,预设属性库可以是包含了用户ID、用户属性的名称、每 种属性的置信度以及其他信息的任何属性库,其中的信息、尤其是是置信度的 评估可以利用任何现有技术获取,在此不做具体限制。
可以理解的是,所获取的用户的每种属性的置信度并不一定相同,置信度 越高代表属性更为可信和准确,因此需要对属性进行筛选。在本发明一个优选 实施例中,置信度的阈值可以为80,当然也可以是其他的数值,根据期望得到 的结果准确度而定。
例如,如果预设属性库中用户user的信息为:性别:女,置信度:90;年 龄:25-34,置信度:98;所在城市:广州市;置信度:60。
其中,性别、年龄、和所在城市都是属性名称,每种属性的置信度都不相 同。由于user的“所在城市”这一属性的置信度为60,低于第三阈值80,因 此不能用于对事件受众的统计分析。
S133:基于所述至少一个属性,对所述待分析对象对应的用户进行统计分 析,生成并输出统计结果。
通过上述方法,能够对统计分析所针对的属性进行筛选,仅对置信度较高 的属性进行统计分析,得到的结果更为准确,对用户的刻画也更为可信。
特别地,本发明实施例中,第一、第二、第三阈值可以根据实际需要设置, 在此不做具体限制。
现在以一个具体示例对本发明实施例提供的文本数据统计方法进行详细描 述。在该具体示例中,目标文本为“周杰伦北京演唱会”。
首先,事件的第一次受众分析结果是获取在一定时间段、例如48小时内的 搜索数据。其次,对目标文本及获取的搜索数据进行短文本语义相似度分析, 得到相似度大于第一阈值的待比对文本,将其作为待分析对象。例如,本示例 中,类似于“周杰伦首都演唱会”、“Jay Zhou首都演唱会”等都会被认为是待分 析对象。此后的受众采取增量更新的方式得到事件的累计受众,即间隔一段时 间重新进行本发明实施例提供的文本数据统计方法,这样能够对得到的结果进 行更新,使得结果更加准确。
本示例中,由于周杰伦是在北京开演唱会,为了提供参考,可以将用户属 性选择为年龄、所处地域。并且为了方便统计,可以将年龄划分为年龄段来进 行统计。例如,10-15、15-20……
在输出统计结果的时候,可以用比较直观的方式将结果进行输出,例如饼 形图、柱形图等,直接显示在显示装置上,使得统计结果一目了然,能很明显 地观察得到“周杰伦北京演唱会”这一事件的受众。
图4示出了根据本发明一个实施例的文本数据统计装置200的结构示意图, 该装置200可以包括:
获取模块210,用于获取目标文本和第一待比对文本集合;其中,所述第 一待比对文本集合包括多个待比对文本,每个待比对文本为用户在一次搜索中 输入的搜索文本;
相似度计算模块220,用于根据短文本语义相似度算法,计算每个待比对 文本与所述目标文本之间的文本相似度,并且将所述文本相似度大于第一阈值 的待比对文本作为待分析对象;和
统计模块230,用于基于用户的至少一个属性,对所述待分析对象对应的 用户进行统计,生成并输出统计结果。
其中,每个待比对文本可以为预设时间段内用户在一次搜索中输入的搜索 文本。
如图5所示,在本发明一个优选实施例中,相似度计算模块220可以包括:
第一相似度计算单元221,用于利用Elasticsearch,计算每个待比对文本和 所述目标文本之间的第一相似度;
筛选单元222,用于从所述第一待比对文本集合中筛选出所述第一相似度 大于第二阈值的待比对文本,并且将剩余的待比对文本作为第二待比对文本集 合;
分词单元223,用于针对所述目标文本和所述第二待比对文本集合中的每 个文本进行分词,得到用于每个文本的至少一个关键词;
向量计算单元224,用于利用word2vec模型对所述至少一个关键词进行向 量表示,并且将用于每个文本的向量进行累加,得到相应的累加结果;
文本相似度计算单元225,用于根据用于所述目标文本的累加结果和用于 所述第二待比对文本集合中的每个待比对文本的累加结果,计算所述第二待比 对文本集合中的每个待比对文本和所述目标文本之间的文本相似度,并且将所 述文本相似度大于第一阈值的待比对文本作为待分析对象。
其中,所述文本相似度为余弦相似度,并且可以利用以下公式来计算所述 余弦相似度:
其中,x和y均为向量,sim(X,Y)为向量x和y之间的相似度。
如图6所示,根据本发明一个优选实施例,统计模块230可以包括:
属性获取单元231,用于获取每个待分析对象对应的用户的属性;
属性筛选单元232,用于利用预设属性库,对所获取的属性进行筛选,选 择置信度大于第三阈值的至少一个属性;
统计单元233,用于基于所述至少一个属性,对所述待分析对象对应的用 户进行统计分析,生成并输出统计结果。
图7示出了根据本发明另一实施例的服务器700的结构示意图。如图7所 示,服务器700包括:
一个或多个处理器710;
存储装置720,配置为存储一个或多个程序;
通信接口730,配置为使所述处理器710和存储装置720与外部设备进行 通信;
当所述一个或多个程序被所述一个或多个处理器710执行时,使得所述一 个或多个处理器710实现前述任一种文本数据统计方法。
根据本发明另一实施例,提供了一种计算机可读存储介质,其存储有计算 机程序,该程序被处理器执行时实现前述任一种文本数据统计方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具 体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结 构、材料或者特点包含于本发明的至少一个实施例或示例中。而且,描述的具 体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方 式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中 描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相 对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二” 的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中,“多个”的 含义是两个或两个以上,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表 示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码 的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其 中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或 按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员 所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认 为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机 可读介质中,以供指令执行***、装置或设备(如基于计算机的***、包括处 理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***) 使用,或结合这些指令执行***、装置或设备而使用。就本说明书而言,“计算 机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行 ***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。计算 机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线 的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM), 只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光 纤装置,以及便携式只读存储器(CDROM)。另外,计算机可读介质甚至可以 是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其 他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理 来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。 在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执 行***执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方 式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有 用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合 逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA) 等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部 分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计 算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中, 也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块 中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的 形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品 销售或使用时,也可以存储在一个计算机可读存储介质中。所述存储介质可以 是只读存储器,磁盘或光盘等。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于 此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到 其各种变化或替换,这些都应涵盖在本发明的保护范围之内。因此,本发明的 保护范围应以所述权利要求的保护范围为准。

Claims (12)

1.一种文本数据统计方法,其特征在于,包括:
获取目标文本和第一待比对文本集合;其中,所述第一待比对文本集合包括多个待比对文本,每个待比对文本为用户在一次搜索中输入的搜索文本;
根据短文本语义相似度算法,计算每个待比对文本与所述目标文本之间的文本相似度,并且将所述文本相似度大于第一阈值的待比对文本作为待分析对象;和
基于用户的至少一个属性,对所述待分析对象对应的用户进行统计,生成并输出统计结果。
2.根据专利要求1所述的方法,其特征在于,所述根据短文本语义相似度算法,计算每个待比对文本与所述目标文本之间的文本相似度,并且将所述文本相似度大于第一阈值的待比对文本作为待分析对象包括:
利用Elasticsearch,计算每个待比对文本和所述目标文本之间的第一相似度;
从所述第一待比对文本集合中筛选出所述第一相似度大于第二阈值的待比对文本,并且将剩余的待比对文本作为第二待比对文本集合;
针对所述目标文本和所述第二待比对文本集合中的每个文本进行分词,得到用于每个文本的至少一个关键词;
利用word2vec模型对所述至少一个关键词进行向量表示,并且将用于每个文本的向量进行累加,得到相应的累加结果;和
根据用于所述目标文本的累加结果和用于所述第二待比对文本集合中的每个待比对文本的累加结果,计算所述第二待比对文本集合中的每个待比对文本和所述目标文本之间的文本相似度,并且将所述文本相似度大于第一阈值的待比对文本作为待分析对象。
3.根据权利要求2所述的方法,其特征在于,所述文本相似度为余弦相似度,并且利用以下公式来计算所述余弦相似度:
其中,x和y均为向量,sim(X,Y)为向量x和y之间的相似度。
4.根据权利要求1所述的方法,其特征在于,基于用户的至少一个属性对所述待分析对象对应的用户进行统计分析,生成并输出统计结果包括:
获取每个待分析对象对应的用户的属性;
利用预设属性库,对所获取的属性进行筛选,选择置信度大于第三阈值的至少一个属性;和
基于所述至少一个属性,对所述待分析对象对应的用户进行统计分析,生成并输出统计结果。
5.根据权利要求1所述的方法,其特征在于,每个待比对文本为预设时间段内用户在一次搜索中输入的搜索文本。
6.一种文本数据统计装置,其特征在于,包括:
获取模块,用于获取目标文本和第一待比对文本集合;其中,所述第一待比对文本集合包括多个待比对文本,每个待比对文本为用户在一次搜索中输入的搜索文本;
相似度计算模块,用于根据短文本语义相似度算法,计算每个待比对文本与所述目标文本之间的文本相似度,并且将所述文本相似度大于第一阈值的待比对文本作为待分析对象;和
统计模块,用于基于用户的至少一个属性,对所述待分析对象对应的用户进行统计,生成并输出统计结果。
7.根据权利要求6所述的装置,其特征在于,所述相似度计算模块包括:
第一相似度计算单元,用于利用Elasticsearch,计算每个待比对文本和所述目标文本之间的第一相似度;
筛选单元,用于从所述第一待比对文本集合中筛选出所述第一相似度大于第二阈值的待比对文本,并且将剩余的待比对文本作为第二待比对文本集合;
分词单元,用于针对所述目标文本和所述第二待比对文本集合中的每个文本进行分词,得到用于每个文本的至少一个关键词;
向量计算单元,用于利用word2vec模型对所述至少一个关键词进行向量表示,并且将用于每个文本的向量进行累加,得到相应的累加结果;和
文本相似度计算单元,用于根据用于所述目标文本的累加结果和用于所述第二待比对文本集合中的每个待比对文本的累加结果,计算所述第二待比对文本集合中的每个待比对文本和所述目标文本之间的文本相似度,并且将所述文本相似度大于第一阈值的待比对文本作为待分析对象。
8.根据权利要求7所述的装置,其特征在于,所述文本相似度为余弦相似度,并且利用以下公式来计算所述余弦相似度:
其中,x和y均为向量,sim(X,Y)为向量x和y之间的相似度。
9.根据权利要求6所述的装置,其特征在于,所述统计模块包括:
属性获取单元,用于获取每个待分析对象对应的用户的属性;
属性筛选单元,用于利用预设属性库,对所获取的属性进行筛选,选择置信度大于第三阈值的至少一个属性;和
统计单元,用于基于所述至少一个属性,对所述待分析对象对应的用户进行统计分析,生成并输出统计结果。
10.根据权利要求6所述的装置,其特征在于,每个待比对文本为预设时间段内用户在一次搜索中输入的搜索文本。
11.一种服务器,其特征在于,所述服务器包括:
一个或多个处理器;
存储装置,配置为存储一个或多个程序;
通信接口,配置为使所述处理器和所述存储装置与外部设备进行通信;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1-5中任一所述的方法。
12.一种计算机可读存储介质,其存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-5中任一所述的方法。
CN201711436235.5A 2017-12-26 2017-12-26 一种文本数据统计方法、装置和服务器 Pending CN108197102A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201711436235.5A CN108197102A (zh) 2017-12-26 2017-12-26 一种文本数据统计方法、装置和服务器
US16/116,678 US10984031B2 (en) 2017-12-26 2018-08-29 Text analyzing method and device, server and computer-readable storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711436235.5A CN108197102A (zh) 2017-12-26 2017-12-26 一种文本数据统计方法、装置和服务器

Publications (1)

Publication Number Publication Date
CN108197102A true CN108197102A (zh) 2018-06-22

Family

ID=62584366

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711436235.5A Pending CN108197102A (zh) 2017-12-26 2017-12-26 一种文本数据统计方法、装置和服务器

Country Status (2)

Country Link
US (1) US10984031B2 (zh)
CN (1) CN108197102A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110222709A (zh) * 2019-04-29 2019-09-10 上海暖哇科技有限公司 一种多标签智能打标方法及***
CN110737750A (zh) * 2018-07-03 2020-01-31 百度在线网络技术(北京)有限公司 分析文本受众的数据处理方法、装置与电子设备
CN110891010A (zh) * 2018-09-05 2020-03-17 百度在线网络技术(北京)有限公司 用于发送信息的方法和装置

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11170177B2 (en) * 2017-07-28 2021-11-09 Nia Marcia Maria Dowell Computational linguistic analysis of learners' discourse in computer-mediated group learning environments
CN108197102A (zh) * 2017-12-26 2018-06-22 百度在线网络技术(北京)有限公司 一种文本数据统计方法、装置和服务器
US11151325B2 (en) * 2019-03-22 2021-10-19 Servicenow, Inc. Determining semantic similarity of texts based on sub-sections thereof
CN111898360B (zh) * 2019-07-26 2023-09-26 创新先进技术有限公司 基于区块链的文本相似性检测方法及装置、电子设备
CN110532569B (zh) * 2019-09-05 2023-03-28 浪潮软件股份有限公司 一种基于中文分词的数据碰撞方法及***
CN112668322A (zh) * 2019-09-29 2021-04-16 北京国双科技有限公司 确定短文本类别的方法及装置
CN110929527B (zh) * 2019-11-15 2023-05-09 北京明略软件***有限公司 一种确定语义相似度方法及装置
CN110929018B (zh) * 2019-12-04 2023-03-21 Oppo(重庆)智能科技有限公司 文本处理方法、装置、存储介质及电子设备
CN111061842B (zh) * 2019-12-26 2023-06-30 上海众源网络有限公司 一种相似文本确定方法及装置
CN111666418B (zh) * 2020-04-23 2024-01-16 北京三快在线科技有限公司 文本重生成方法、装置、电子设备和计算机可读介质
CN113807940B (zh) * 2020-06-17 2024-04-12 马上消费金融股份有限公司 信息处理和欺诈行为识别方法、装置、设备及存储介质
CN111858834B (zh) * 2020-07-30 2023-12-01 平安国际智慧城市科技股份有限公司 基于ai的案件争议焦点确定方法、装置、设备及介质
CN112528197B (zh) * 2020-11-20 2023-07-07 四川新网银行股份有限公司 一种基于人工智能的网络舆情实时监测的***及方法
CN113361248B (zh) * 2021-06-30 2022-08-12 平安普惠企业管理有限公司 一种文本的相似度计算的方法、装置、设备及存储介质
CN114154477A (zh) * 2021-12-03 2022-03-08 北京京东拓先科技有限公司 文本数据处理方法及装置、电子设备和可读存储介质
CN116932702A (zh) * 2023-09-19 2023-10-24 湖南正宇软件技术开发有限公司 提案并案的方法、***、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102194013A (zh) * 2011-06-23 2011-09-21 上海毕佳数据有限公司 一种基于领域知识的短文本分类方法及文本分类***
CN102411583A (zh) * 2010-09-20 2012-04-11 阿里巴巴集团控股有限公司 一种文本匹配方法及装置
US20140297269A1 (en) * 2011-11-14 2014-10-02 Koninklijke Philips N.V. Associating parts of a document based on semantic similarity
CN104102626A (zh) * 2014-07-07 2014-10-15 厦门推特信息科技有限公司 一种用于短文本语义相似度计算的方法
CN105095223A (zh) * 2014-04-25 2015-11-25 阿里巴巴集团控股有限公司 文本分类方法及服务器
CN106782560A (zh) * 2017-03-06 2017-05-31 海信集团有限公司 确定目标识别文本的方法及装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010105216A2 (en) * 2009-03-13 2010-09-16 Invention Machine Corporation System and method for automatic semantic labeling of natural language texts
CN103258008A (zh) 2013-04-16 2013-08-21 武汉理工大学 基于用户情境的多层次服务资源发现方法和***
CN104834679B (zh) 2015-04-14 2018-01-19 苏州大学 一种行为轨迹的表示、查询方法及装置
US10394953B2 (en) * 2015-07-17 2019-08-27 Facebook, Inc. Meme detection in digital chatter analysis
US20170357890A1 (en) * 2016-06-09 2017-12-14 Sysomos L.P. Computing System for Inferring Demographics Using Deep Learning Computations and Social Proximity on a Social Data Network
CN106844350A (zh) 2017-02-15 2017-06-13 广州索答信息科技有限公司 一种短文本语义相似度的计算方法
CN108197102A (zh) * 2017-12-26 2018-06-22 百度在线网络技术(北京)有限公司 一种文本数据统计方法、装置和服务器

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102411583A (zh) * 2010-09-20 2012-04-11 阿里巴巴集团控股有限公司 一种文本匹配方法及装置
CN102194013A (zh) * 2011-06-23 2011-09-21 上海毕佳数据有限公司 一种基于领域知识的短文本分类方法及文本分类***
US20140297269A1 (en) * 2011-11-14 2014-10-02 Koninklijke Philips N.V. Associating parts of a document based on semantic similarity
CN105095223A (zh) * 2014-04-25 2015-11-25 阿里巴巴集团控股有限公司 文本分类方法及服务器
CN104102626A (zh) * 2014-07-07 2014-10-15 厦门推特信息科技有限公司 一种用于短文本语义相似度计算的方法
CN106782560A (zh) * 2017-03-06 2017-05-31 海信集团有限公司 确定目标识别文本的方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈鹏等: ""基于个体属性的微博用户特征行为统计分析"", 《知识管理论坛》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110737750A (zh) * 2018-07-03 2020-01-31 百度在线网络技术(北京)有限公司 分析文本受众的数据处理方法、装置与电子设备
CN110891010A (zh) * 2018-09-05 2020-03-17 百度在线网络技术(北京)有限公司 用于发送信息的方法和装置
CN110891010B (zh) * 2018-09-05 2022-09-16 百度在线网络技术(北京)有限公司 用于发送信息的方法和装置
CN110222709A (zh) * 2019-04-29 2019-09-10 上海暖哇科技有限公司 一种多标签智能打标方法及***

Also Published As

Publication number Publication date
US10984031B2 (en) 2021-04-20
US20190197129A1 (en) 2019-06-27

Similar Documents

Publication Publication Date Title
CN108197102A (zh) 一种文本数据统计方法、装置和服务器
Humphreys et al. Automated text analysis for consumer research
CN105069102B (zh) 信息推送方法和装置
Ortega Academic search engines: A quantitative outlook
Blismas et al. Computer-aided qualitative data analysis: panacea or paradox?
CN103870001B (zh) 一种生成输入法候选项的方法及电子装置
AU2010210014B2 (en) Systems, Methods and Apparatus for Relative Frequency Based Phrase Mining
US9582486B2 (en) Apparatus and method for classifying and analyzing documents including text
US20160357872A1 (en) Event networks and event view construction and display
WO2018069449A1 (en) Machine learning-based data aggregation using social media content
CN102708100A (zh) 挖掘相关实体词的关系关键词的方法和装置及其应用
JP2008097351A (ja) 広告配信装置およびプログラム
US9069880B2 (en) Prediction and isolation of patterns across datasets
CN104376114B (zh) 一种搜索结果展示方法及装置
CN103544321A (zh) 用于微博情感信息的数据处理方法和装置
Nualart et al. How we draw texts: a review of approaches to text visualization and exploration
CN111143547A (zh) 一种基于知识图谱的大数据显示方法
CN103514289A (zh) 一种兴趣本体库构建方法及装置
Nakashole et al. Real-time population of knowledge bases: opportunities and challenges
CN107066585B (zh) 一种概率主题计算与匹配的舆情监测方法及***
CN112328857A (zh) 一种产品知识聚合方法、装置、计算机设备及存储介质
JP5964149B2 (ja) 共起語を特定する装置およびプログラム
JP2005267095A (ja) 情報表示方法及び装置及び情報表示プログラム
CN110717008A (zh) 基于语意识别的搜索结果排序方法及相关装置
Portmann et al. Fuzzy online reputation analysis framework

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination