CN104424279A - 一种文本的相关性计算方法和装置 - Google Patents

一种文本的相关性计算方法和装置 Download PDF

Info

Publication number
CN104424279A
CN104424279A CN201310388496.XA CN201310388496A CN104424279A CN 104424279 A CN104424279 A CN 104424279A CN 201310388496 A CN201310388496 A CN 201310388496A CN 104424279 A CN104424279 A CN 104424279A
Authority
CN
China
Prior art keywords
character string
eigenwert
character
word
correlative
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310388496.XA
Other languages
English (en)
Other versions
CN104424279B (zh
Inventor
赫南
张文斌
姚伶伶
王莉峰
何琪
张博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201310388496.XA priority Critical patent/CN104424279B/zh
Publication of CN104424279A publication Critical patent/CN104424279A/zh
Application granted granted Critical
Publication of CN104424279B publication Critical patent/CN104424279B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施方式提出一种文本的相关性计算方法和装置。方法包括:接收第一字符串和第二字符串;计算第一字符串与第二字符串的文本相关性特征值以及第一字符串与第二字符串的语义相关性特征值;基于逻辑回归模型将所述文本相关性特征值与语义相关性特征值拟合成第一字符串与第二字符串的相关性特征值。本发明实施方式提高了相关性判定的准确率,节约了存储空间并降低了成本。

Description

一种文本的相关性计算方法和装置
技术领域
本发明实施方式涉及互联网应用技术领域,更具体地,涉及一种文本的相关性计算方法和装置。
背景技术
随着计算机技术和网络技术的飞速发展,互联网(Internet)在人们的日常生活、学习和工作中发挥的作用也越来越大。互联网上的各种应用层出不穷。
搜索广告是互联网广告生态***中一项非常重要的业务,它依附于搜索引擎,本质上是基于关键词的售卖匹配。广告主在商业推广的数据库中,除了提供用于展示的广告标题、描述之外,还要附加一些与该广告具有一定相关性的关键词(即购买词),并指定匹配类型及出价以及定向匹配目标流量(即符合检索意图的用户)。在经典的匹配流程中,购买词形成了对广告的直接索引。当用户的查询词与广告主的购买词“匹配”,相关性达到一定程度,即认为满足了广告触发的初选条件(这里假设先忽略其他定向及过滤环节),可以拉取对应的广告(标题、描述)出来做进一步的后续精选,例如点击率预估、广告排序、展示策略选择等。
在检索(Retrieve)阶段,广告***会利用用户的查询串,使用多种在线、离线的策略做购买词匹配。这里找到的购买词都是广告主在填写物料时指定的、与广告标题及描述相关的短文本。在线上***中度量查询词(query)与候选购买词(bidterm)的相关性的本质是短文本之间的相关性。
传统上有很多基于字符串字面匹配的方法,离线在线的评估方法也有差别,都存在一定的局限性。Google的Sahami等人提出利用短文本的网页搜索结果作为语义扩展,在此基础上计算短文本之间的语义相关性,比单纯的基于词的效果更好。马萨诸塞大学的Metzler和Microsoft的Dumais等人也尝试了多种短文本表示的方法用于计算语义相关性。
然而,传统的基于文档中词向量空间模型的计算方法,在短文本上面临特征稀疏的问题。同时,由于短文本的分词结果依赖于语言模型,并不能保证不同词切分的一致,也会在一定程度上加剧向量的稀疏。因此,传统的基于文档中词向量空间模型的计算方法,具有相关性判定准确率不高的缺点。
而且,在传统的基于文档中词向量空间模型的计算方法中,需要大量存储空间来储存词向量,因此还浪费了存储空间并提高了成本。
发明内容
本发明实施方式提出一种文本的相关性计算方法,以提高相关性判定的准确率。
本发明实施方式提出一种文本的相关性计算装置,以提高相关性判定的准确率。
本发明实施方式的技术方案如下:
一种文本的相关性计算方法,该方法包括:
接收第一字符串和第二字符串;
计算第一字符串与第二字符串的文本相关性特征值以及第一字符串与第二字符串的语义相关性特征值;
基于逻辑回归模型将所述文本相关性特征值与语义相关性特征值拟合成第一字符串与第二字符串的相关性特征值。
一种文本的相关性计算装置,该装置包括字符串接收单元、相关性特征值计算单元和相关性特征值拟合单元,其中:
字符串接收单元,用于接收第一字符串和第二字符串;
相关性特征值计算单元,用于计算第一字符串与第二字符串的文本相关性特征值以及第一字符串与第二字符串的语义相关性特征值;
相关性特征值拟合单元,用于基于逻辑回归模型将所述文本相关性特征值与语义相关性特征值拟合成第一字符串与第二字符串的相关性特征值。
从上述技术方案可以看出,在本发明实施方式中,接收第一字符串和第二字符串;计算第一字符串与第二字符串的文本相关性特征值以及第一字符串与第二字符串的语义相关性特征值;基于逻辑回归模型将所述文本相关性特征值与语义相关性特征值拟合成第一字符串与第二字符串的相关性特征值。由此可见,本发明实施方式避免了基于文档中词向量空间模型的计算方法,因此避免了特征稀疏的问题,从而提高了相关性判定的准确率,而且节约了存储空间并降低了成本。
而且,本发明实施方式提出基于编辑距离、最长公共子序列等字符串层面的文本相关性作为基础特征,它们能从多个维度表达短串间文本相似度,能够较好处理很多短文本不规范、分词不准或不一致的情况。
另外,本发明实施方式提出基于文本分类、概率隐含语义分析的相关性特征,可以充分挖掘短文本与构成短文本的单词之间的隐含关系,从而计算两个短文本之间的类别联系和主题联系,形成对文本相关性的特征补充。
还有,本发明实施方式提出了基于词的网页搜索结果的相关性特征,依赖的词典资源数目可控,单机存储空间、计算速度都有很大幅度的改进,使得在线实现短串间的轻量级语义相关性计算成为可能。
附图说明
图1为根据本发明实施方式文本的相关性计算方法流程图;
图2为根据本发明实施方式的相关性计算装置结构图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明作进一步的详细描述。
在各种应用中,经常会涉及到两个短文本的相关性计算。两个短文本的相关性指二者在语义上存在的关联程度,但不一定在字面上相似。相关性是一个比相似度(Similarity)更广泛的概念,在很多产品和***中都具有重要意义。短文本是指长度较短的字符串,比如在某些网络应用中不超过38个汉字等。
购买词(Bidterm)是竞价广告***中广告主提交的用于竞价的购买词;查询词(Query)是搜索引擎中用户提交的搜索关键词。查询词和购买词一般都是长度较短的文本字符串,可以把所有的查询词和购买词统称为短文本。
图1为根据本发明实施方式文本的相关性计算方法流程图。
如图1所示,该方法包括:
步骤101:接收第一字符串和第二字符串。
在这里,第一字符串和第二字符串优选均为短文本。比如,第一字符串和第二字符串分别可以是查询词、购买词等等。
步骤102:计算第一字符串与第二字符串的文本相关性特征值以及第一字符串与第二字符串的语义相关性特征值。
文本层面的相关性特征主要度量短串之间的文本相似度。文本层面的相关性特征只利用到了短串的文本信息,可以通过高效的优化算法即时计算得到。
比如,可以计算第一字符串与第二字符串基于编辑距离的相关性特征值,和/或计算第一字符串与第二字符串基于最长公共子序列的相关性特征值。
语义层面的相关性特征主要度量短串之间的概念、意义的相似度。
在一个实施方式中,计算第一字符串与第二字符串的语义相关性特征值包括:
构建行业类别特征词词典(比如一级行业类别特征词词典);
针对第一字符串,根据行业类别特征词词典获取每个词所属的类别分布,然后将各个词的类别分布乘以该词的全局逆文本频率指数权重再累加,以得到第一字符串类别分布;针对第二字符串,根据行业类别特征词词典获取每个词所属的类别分布,然后将各个词的类别分布乘以该词的全局逆文本频率指数权重再累加,以得到第二字符串类别分布;
计算第一字符串和第二字符串的类别分布的余弦夹角相似度,以得到第一字符串和第二字符串的语义相关性特征值。
优选地,所述构建行业类别特征词词典包括:
基于人工标注的行业类别特征词集合,采用全文匹配分类方式对各个网页进行分类;
对于拥有分类属性的网页进行全文切词,抽取类别特征词,并将所抽取的类别特征词合并入所述行业类别特征词集合,以构建行业类别特征词词典。
在一个实施方式中,计算第一字符串与第二字符串的语义相关性特征值包括:
针对第一字符串,获取每个词所属的主题分布,然后将该第一字符串中所有词的主题分布乘以该词的全局逆文本频率指数权重再累加,以得到该第一字符串的主题分布;针对第二字符串,获取每个词所属的主题分布,然后将该第二字符串中所有词的主题分布乘以该词的全局逆文本频率指数权重再累加,以得到该第二字符串的主题分布;
计算第一字符串和第二字符串的主题分布的余弦夹角相似度,以得到第一字符串和第二字符串的语义相关性特征值。
在一个实施方式中,计算第一字符串与第二字符串的语义相关性特征值包括:计算第一字符串与第二字符串基于统计机器翻译的相关性特征值。
在一个实施方式中,计算第一字符串与第二字符串的语义相关性特征值包括:计算第一字符串与第二字符串基于网页搜索结果的词粒度的语义相关性特征值。
实际上,可以同时采用多种计算方式计算第一字符串与第二字符串的文本相关性特征值。比如可以计算第一字符串与第二字符串基于编辑距离的相关性特征值,并计算第一字符串与第二字符串基于最长公共子序列的相关性特征值,再将基于编辑距离的相关性特征值以及基于最长公共子序列的相关性特征值同时作为计算出的文本相关性特征值以参与步骤103的拟合计算。
类似地,可以同时采用多种计算方式计算第一字符串与第二字符串的语义相关性特征值。
比如:计算第一字符串与第二字符串的语义相关性特征值包括下列中的至少一个:
计算第一字符串与第二字符串的基于编辑距离的相关性特征值;计算第一字符串与第二字符串的基于最长公共子序列的相关性特征值;计算第一字符串与第二字符串的基于文本分类的相关性特征值;计算第一字符串与第二字符串的基于概率潜在语义分析(PLSA)的主题相关性特征值;计算第一字符串与第二字符串的基于统计机器翻译的相关性特征值;计算第一字符串与第二字符串基于网页搜索结果的词粒度的相关性特征值。
然后将所有计算出的语义相关性特征值参与步骤103的拟合计算。
步骤103:基于逻辑回归模型将所述文本相关性特征值与语义相关性特征值拟合成第一字符串与第二字符串的相关性特征值。
在这里,针对计算出的第一字符串与第二字符串的文本相关性特征值以及语义相关性特征值,构建特征向量;
利用所述特征向量构建训练样例,并针对所述训练样例使用二分类逻辑回归模型做训练,分别得到文本相关性特征值的权重、语义相关性特征值的权重以及偏置;
利用文本相关性特征值的权重、文本相关性特征值、语义相关性特征值的权重、语义相关性特征值以及偏置,计算所述相关性特征值。
下面更详细地描述本发明实施方式的文本的相关性计算方法。
本发明解决的问题形式定义如下:
给定两个短文本T1、T2,计算反映其语义关联程度的语义相关性R(T1,T2),其中R(T1,T2)∈[0,1]。
对于一个短文本T,其字符串长度用|T|表示,其分词结果表示为T=t1t2...tn;则T1、T2的分词结果分别为T1=t11t12...t1n,T2=t21t22...t2n
首先对两个短文本分别计算多维度的相关性特征,然后使用逻辑回归模型将多个维度的相关性特征分值拟合成一个最终的语义相关性得分。
具体如下:
对于计算俩个短文本之间的文本相关性特征值,即计算文本层面的相关性特征,由于文本层面的相关性特征主要度量短串之间的文本相似度,只利用到了短串的文本信息,因此可以通过高效的优化算法即时计算得到。
比如:
(1)、基于编辑距离的相关性计算文本相关性特征值
编辑距离(Edit Distance),又称Levenshtein距离,是指两个字符串之间,由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,***一个字符,删除一个字符。
两个短文本T1、T2的编辑距离EditDist(T1,T2),可以通过时间复杂度O(|T1|*|T2|)的动态规划算法计算得到。
两个短文本基于编辑距离的相关性特征计算公式如下:
R ed ( T 1 , T 2 ) = 1 - 2 EditDist ( T 1 , T 2 ) | T 1 | + | T 2 | .
(2)、基于最长公共子序列的相关性计算文本相关性特征值
一个字符串的子序列是指可以由该字符串删除一些字符后得到的子串(sub-string)。
两个字符串的最长公共子序列是其所有相同的子序列中最长的一个。两个短文本T1、T2的最长公共子序列LCS(T1,T2),可以通过时间复杂度O(|T1|*|T2|)的动态规划算法计算得到。
两个短文本基于最长公共子序列的相关性特征计算公式如下:
R lcs ( T 1 , T 2 ) = 2 LCS ( T 1 , T 2 ) | T 1 | + | T 2 | .
对于计算俩个短文本之间的语义相关性特征值,即计算语义层面的相关性特征主要度量短串之间的概念、意义的相似度。
可以采用如下方式计算俩个短文本之间的语义相关性特征值:
(1)、基于文本分类的相关性特征计算语义相关性特征值
示范性地,本发明实施方式对短文本分类主要采用了基于特征词的方法,其基本流程为:
首先基于人工标注的初始的一级行业类别特征词集合(该集合中包括少量的人工标注的一级行业类别特征词),对数以亿计的网页采用全文匹配的分类方式,对每个网页进行分类;
对于拥有分类属性的网页进行全文切词,抽取类别特征词,计算抽取的类别特征词对于所属类别的权重贡献(即权重向量),然后将这些从网页中抽取的类别特征词合并入一级行业类别特征词集合中;
待全部网页特征词抽取完毕,就自动得到了一个全面的一级行业类别特征词集合,从而构建得到一级行业类别特征词词典。该词典用公式描述为:p(c|w),其中c表示类别,w表示单词,也就是说每个词都有一个类别分布。
给定两个短文本T1、T2,对于每个短文本,可以根据p(c|w)获取每个词所属的类别分布,然后将该短文本各个词的类别分布乘以该词的全局IDF权重再累加,最后得到该短文本的类别分布p(c|T)。
利用cosine公式,得到两个短文本T1、T2的文本分类相似度为:
R category ( T 1 , T 2 ) = p ( c | T 1 ) · p ( c | T 2 ) | | p ( c | T 1 ) | | | | p ( c | T 2 ) | | .
(2)、基于PLSA的主题相关性特征计算语义相关性特征值
PLSA模型是一种非监督的机器学习模型,用于识别文档中潜在的主题(Topic)信息,挖掘文档潜在的语义联系。PLSA模型认为在用户创作文档时,首先选择的是文档的主题信息分布,而后根据文档的主题分布选择合适的词,从而形成一篇完整的文档。用数学语言描述如下:
选定一篇文档的概率为p(d),每篇文档以概率p(z|d)属于一个主题,而给定一个主题,每个词以概率p(w|z)产生。将这个过程形成联合的概率模型表达式为:
p(d,w)=p(d)p(w|d)
p(w|d)=∑z∈Zp(w|z)p(z|d);
通过EM算法,进行PLSA模型参数训练,获得p(z|d)和p(w|z)。通过贝叶斯公式,p(z|w)=p(w|z)p(z)/p(w)得到p(z|w)。
给定两个短文本T1、T2,对于每个短文本,可以根据p(z|w)获取每个词所属的主题分布,然后将该短文本所有词的主题分布乘于该词的全局IDF权重再累加,则得到该短文本的主题分布p(z|T)。
利用cosine公式,得到两个短文本的PLSA相似度为:
R plsa ( T 1 , T 2 ) = p ( z | T 1 ) · p ( z | T 2 ) | | p ( z | T 1 ) | | | | p ( z | T 2 ) | | .
(3)、基于统计机器翻译的相关性特征计算语义相关性特征值
在统计机器翻译领域中双语句对的翻译概率思想,可以很自然地想到用于对短文本进行相关性建模。
给定两个短文本T1、T2,设给定T2,T1出现的概率为P(T1|T2),即似然度(likelihood)。
显然,T1、T2越相关,其似然度越大。由于文本千差万别,直接对其似然度进行建模较为困难,应用贝叶斯公式重写如下:
P ( T 1 | T 2 ) = P ( T 2 | T 1 ) P ( T 1 ) P ( T 2 ) ;
其中,P(T2|T1)为机器翻译中的翻译模型;表示T1翻译为T2的概率;P(T1)和P(T2)分别为T1和T2的语言模型;分别刻画的是T1和T2是否为一个合法短文本的概率。
基于BOW模型假设,则 P ( T 2 | T 1 ) = Π j P ( t 2 j | T 1 ) = Π j Σ i P ( t 2 j | t 1 i ) ;
其中P(t2j|t1i)为词t1i到t2j的翻译概率,即词对齐词典。词对之间的翻译概率可使用EM算法在平行语料上训练得到。
在具体应用中,翻译模型和语言模型,都可以利用大规模的网页搜索日志和广告主购买词,利用开源的机器翻译软件moses训练得到。
两个短文本T1、T2基于机器翻译模型的相关性特征计算公式,设计如下:
R mt ( T 1 , T 2 ) = P ( T 1 | T 2 ) + P ( T 2 | T 1 ) 2 .
在统计机器翻译领域,这种方法对不同语言之间的翻译映射效果很好。但在单一语言(例如同是中文短串)之间,实验表明翻译词典覆盖率有限,提升覆盖率需要增加的平行语料的数目较大。本发明实施方式借鉴机器翻译的思想,构造了一个短文本之间的相关性特征。
(4)、基于网页搜索结果的词粒度的相关性特征计算语义相关性特征值
上面基于机器翻译的相关性特征计算的核心是词对齐词典,受这种词粒度映射关系的启发,本发明实施方式进一步提出基于词的网页搜索结果的相关性特征,刻画短文本间的相关性。
给定一个词,从其网页搜索结果中抽取出TF-IDF值最大的N个特征词(实际***中N取64),把这些特征词的TF-IDF值构成的特征向量V(t)=(w1,w2...wn)作为对该词语义的表征。则两个词t1、t2基于词的网页搜索结果的相关性计算公式定义如下:
R bow ( t 1 , t 2 ) = V ( t 1 ) · V ( t 2 ) | | V ( t 1 ) | | × | | V ( t 2 ) | | ;
两个短文本T1、T2基于词的网页搜索结果的相关性特征计算公式,设计如下:
R bow ( T 1 , T 2 ) = Σ i max j ( R bow ( t 1 i , t 2 j ) ) + Σ j max i ( R bow ( t 1 i , t 2 j ) ) 2 ;
基于词粒度的特征,只需要存储常见的词的TF-IDF特征向量,就可以极大地减小磁盘空间的开销,不需要存储海量的长检索串了。每个检索串都可以用更细粒度的词的特征来表达,短文本之间的相关性,可以上面的公式进行度量。
按照上述算法,可以计算得到多个相关性特征值(包括文本相关和/或语义相关),然后可以将这些相关性特征值融合起来构成一个总的相关性特征值。
具体包括:
根据前述,可以为短串间计算得到多个不同维度的相关性特征值,具体选择的特征包括但不局限于:编辑距离、最长公共子序列、分类、PLSA主题模型、基于词粒度的相关性等,最后使用逻辑回归模型将所有的相关性特征值拟合成一个总的语义相关性分值。
语义相关性模型的训练语料的样例一般是两个短文本和编辑给出的相关性分值,希望模型输出的是一个0到1之间的相关性分值。然而,逻辑回归是一个分类模型,要求训练语料的样例是特征向量和一个类别标签,模型输出的也是一个类别标签。
本发明实施方式包括::
对每对编辑标注的短文本计算前述的多个相关性特征分值,组成的一个特征向量;
用每个特征向量构成M个训练样例,设编辑打分为S(S∈[0,1]),则将其中个样例的类别标记为1,其余样例标记为0;
采用二分类逻辑回归模型训练得到各个相关性特征的权值w1,w2...wn和偏置b;
对于给定两个短文本T1、T2,先计算其前述的多个相关性特征分值R1,R2...Rn,然后利用Sigmoid函数计算得到最终的相关性分值为
R ( T 1 , T 2 ) = 1 1 + e - ( Σ i R i W i + b ) ;
Sigmoid函数的输入域为(-∞,+∞),输出域为[0,1],非常适合用于计算相关性分值。
可以将本发明实施方式应用到多种领域中,比如可以应用到搜索广告实际的检索***中,利用逻辑回归模型对购买词做初选,并根据短串间的相关性分值,设置一定的阈值进行过滤,保留与查询串语义最相关的购买词作为候选。
综上所述,在传统的基于文档中词向量空间模型的计算方法中,在短文本上面临特征稀疏的问题。同时,由于短文本的分词结果依赖于语言模型,并不能保证不同词切分的一致,也会在一定程度上加剧向量的稀疏。
针对该问题,本发明实施方式提出基于编辑距离、最长公共子序列等字符串层面的文本相关性作为基础特征,它们能从多个维度表达短串间文本相似度,能够较好处理很多短文本不规范、分词不准或不一致的情况。
而且,传统基于字面相似的相关性计算方法,主要利用传统的BOW(bag-of-words)模型,一般建立在特征独立假设的基础上,按照特征向量的匹配情况来度量短文本的相关性,但在实际运用中,很多时候特征之间存在着很多的关联关系,特别在遇到一词多义和一义多词等情况时,语义上会有偏移,导致关联计算不准确。
针对该问题,本发明实施方式提出基于文本分类、概率隐含语义分析的相关性特征。它可以充分挖掘短文本与构成短文本的单词之间的隐含关系,从而计算两个短文本之间的类别联系和主题联系,形成对文本相关性的特征补充。
而且,传统的基于短文本网页搜索结果的计算方法,本质上是利用外部资源形成对短串的字面扩展。从效果上看,扩展结果严重依赖于所选择的搜索引擎等产品的相关性质量。从性能上看,其依赖的搜索结果数目巨大,每个短串都需要存储对应的结果,对下载和计算速度要求很高;两个同义但字面有略微差异,甚至词序不同的短文本,搜索结果也可能大不相同,且需要分别存储。此外,索引结果也是会定期更新的,相应存储的扩展结果也需要随之变化,如何保证扩展质量不下降,如何平衡数据更新的更新开销,都是不能回避的问题。
本发明实施方式提出了基于词的网页搜索结果的相关性特征,依赖的词典资源数目可控,单机存储空间、计算速度都有很大幅度的改进,使得在线实现短串间的轻量级语义相关性计算成为可能。
基于上述详细分析,本发明实施方式还提出了一种文本的相关性计算装置。
图2为根据本发明实施方式文本的相关性计算装置结构图。
如图2所示,该装置包括字符串接收单元201、相关性特征值计算单元202和相关性特征值拟合单元203,其中:
字符串接收单元201,用于接收第一字符串和第二字符串;
相关性特征值计算单元202,用于计算第一字符串与第二字符串的文本相关性特征值以及第一字符串与第二字符串的语义相关性特征值;
相关性特征值拟合单元203,用于基于逻辑回归模型将所述文本相关性特征值与语义相关性特征值拟合成第一字符串与第二字符串的相关性特征值。
在一个实施方式中:
相关性特征值计算单元202,用于计算第一字符串与第二字符串基于编辑距离的相关性特征值,和/或计算第一字符串与第二字符串基于最长公共子序列的相关性特征值。
在一个实施方式中:
相关性特征值计算单元,用于构建一级行业类别特征词词典;针对第一字符串,根据一级行业类别特征词词典获取每个词所属的类别分布,然后将各个词的类别分布乘以该词的全局逆文本频率指数权重再累加,以得到第一字符串类别分布;针对第二字符串,根据一级行业类别特征词词典获取每个词所属的类别分布,然后将各个词的类别分布乘以该词的全局逆文本频率指数权重再累加,以得到第二字符串类别分布;计算第一字符串和第二字符串的类别分布的余弦夹角相似度,以得到第一字符串和第二字符串的语义相关性特征值。
在一个实施方式中:
相关性特征值计算单元202,用于基于人工标注的一级行业类别特征词集合,采用全文匹配分类方式对各个网页进行分类;对于拥有分类属性的网页进行全文切词,抽取类别特征词,并将所抽取的类别特征词合并入所述一级行业类别特征词集合,以构建一级行业类别特征词词典。
在一个实施方式中:
相关性特征值计算单元202,用于针对第一字符串,获取每个词所属的主题分布,然后将该第一字符串中所有词的主题分布乘以该词的全局逆文本频率指数权重再累加,以得到该第一字符串的主题分布;针对第二字符串,获取每个词所属的主题分布,然后将该第二字符串中所有词的主题分布乘以该词的全局逆文本频率指数权重再累加,以得到该第二字符串的主题分布;计算第一字符串和第二字符串的主题分布的余弦夹角相似度,以得到第一字符串和第二字符串的语义相关性特征值。
在一个实施方式中:
相关性特征值计算单元202,用于计算第一字符串与第二字符串基于统计机器翻译的相关性特征值,和/或计算第一字符串与第二字符串基于网页搜索结果的词粒度的语义相关性特征值。
在一个实施方式中:
相关性特征值拟合单元202,用于针对计算出的第一字符串与第二字符串的文本相关性特征值以及语义相关性特征值,构建特征向量;利用所述特征向量构建训练样例,并针对所述训练样例使用二分类逻辑回归模型做训练,分别得到文本相关性特征值的权重、语义相关性特征值的权重以及偏置;利用文本相关性特征值的权重、文本相关性特征值、语义相关性特征值的权重、语义相关性特征值以及偏置,计算所述相关性特征值。
在一个实施方式中:
相关性特征值计算单元202,用于计算执行下列中的至少一个:
计算第一字符串与第二字符串的基于编辑距离的相关性特征值;
计算第一字符串与第二字符串的基于最长公共子序列的相关性特征值;
计算第一字符串与第二字符串的基于文本分类的相关性特征值;
计算第一字符串与第二字符串的基于概率潜在语义分析PLSA的主题相关性特征值;
计算第一字符串与第二字符串的基于统计机器翻译的相关性特征值;
计算第一字符串与第二字符串基于网页搜索结果的词粒度的相关性特征值。
实际上,可以通过多种形式来具体实施本发明实施方式所提出的文本的相关性计算方法。比如,可以遵循一定规范的应用程序接口,将文本的相关性计算方法编写为安装到服务器中的插件程序,也可以将其封装为应用程序以供用户自行下载使用。当编写为插件程序时,可以将其实施为ocx、dll、cab等多种插件形式。也可以通过Flash插件、RealPlayer插件、MMS插件、MI五线谱插件、ActiveX插件等具体技术来实施本发明实施方式所提出的文本的相关性计算方法。
可以通过指令或指令集存储的储存方式将本发明实施方式所提出的文本的相关性计算方法存储在各种存储介质上。这些存储介质包括但是不局限于:软盘、光盘、DVD、硬盘、闪存、U盘、CF卡、SD卡、MMC卡、SM卡、记忆棒(Memory Stick)、xD卡等。
另外,还可以将本发明实施方式所提出的文本的相关性计算方法应用到基于闪存(Nand flash)的存储介质中,比如U盘、CF卡、SD卡、SDHC卡、MMC卡、SM卡、记忆棒、xD卡等。
综上所述,在本发明实施方式中,在本发明实施方式中,接收第一字符串和第二字符串;计算第一字符串与第二字符串的文本相关性特征值以及第一字符串与第二字符串的语义相关性特征值;基于逻辑回归模型将所述文本相关性特征值与语义相关性特征值拟合成第一字符串与第二字符串的相关性特征值。由此可见,本发明实施方式避免了基于文档中词向量空间模型的计算方法,因此避免了特征稀疏的问题,从而提高了相关性判定的准确率,而且节约了存储空间并降低了成本。
而且,本发明实施方式提出基于编辑距离、最长公共子序列等字符串层面的文本相关性作为基础特征,它们能从多个维度表达短串间文本相似度,能够较好处理很多短文本不规范、分词不准或不一致的情况。
另外,本发明实施方式提出基于文本分类、概率隐含语义分析的相关性特征,可以充分挖掘短文本与构成短文本的单词之间的隐含关系,从而计算两个短文本之间的类别联系和主题联系,形成对文本相关性的特征补充。
还有,本发明实施方式提出了基于词的网页搜索结果的相关性特征,依赖的词典资源数目可控,单机存储空间、计算速度都有很大幅度的改进,使得在线实现短串间的轻量级语义相关性计算成为可能。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (17)

1.一种文本的相关性计算方法,其特征在于,该方法包括:
接收第一字符串和第二字符串;
计算第一字符串与第二字符串的文本相关性特征值以及第一字符串与第二字符串的语义相关性特征值;
基于逻辑回归模型将所述文本相关性特征值与语义相关性特征值拟合成第一字符串与第二字符串的相关性特征值。
2.根据权利要求1所述的文本的相关性计算方法,其特征在于,所述计算第一字符串与第二字符串的文本相关性特征值包括:
计算第一字符串与第二字符串基于编辑距离的相关性特征值,和/或计算第一字符串与第二字符串基于最长公共子序列的相关性特征值。
3.根据权利要求1所述的文本的相关性计算方法,其特征在于,所述计算第一字符串与第二字符串的语义相关性特征值包括:
构建行业类别特征词词典;
针对第一字符串,根据行业类别特征词词典获取每个词所属的类别分布,然后将各个词的类别分布乘以该词的全局逆文本频率指数权重再累加,以得到第一字符串类别分布;针对第二字符串,根据行业类别特征词词典获取每个词所属的类别分布,然后将各个词的类别分布乘以该词的全局逆文本频率指数权重再累加,以得到第二字符串类别分布;
计算第一字符串和第二字符串的类别分布的余弦夹角相似度,以得到第一字符串和第二字符串的语义相关性特征值。
4.根据权利要求3所述的文本的相关性计算方法,其特征在于,
所述构建行业类别特征词词典包括:
基于人工标注的行业类别特征词集合,采用全文匹配分类方式对各个网页进行分类;
对于拥有分类属性的网页进行全文切词,抽取类别特征词,并将所抽取的类别特征词合并入所述行业类别特征词集合,以构建行业类别特征词词典。
5.根据权利要求1所述的文本的相关性计算方法,其特征在于,
所述计算第一字符串与第二字符串的语义相关性特征值包括:
针对第一字符串,获取每个词所属的主题分布,然后将该第一字符串中所有词的主题分布乘以该词的全局逆文本频率指数权重再累加,以得到该第一字符串的主题分布;针对第二字符串,获取每个词所属的主题分布,然后将该第二字符串中所有词的主题分布乘以该词的全局逆文本频率指数权重再累加,以得到该第二字符串的主题分布;
计算第一字符串和第二字符串的主题分布的余弦夹角相似度,以得到第一字符串和第二字符串的语义相关性特征值。
6.根据权利要求1所述的文本的相关性计算方法,其特征在于,
所述计算第一字符串与第二字符串的语义相关性特征值包括:计算第一字符串与第二字符串基于统计机器翻译的相关性特征值。
7.根据权利要求1所述的文本的相关性计算方法,其特征在于,
所述计算第一字符串与第二字符串的语义相关性特征值包括:计算第一字符串与第二字符串基于网页搜索结果的词粒度的语义相关性特征值。
8.根据权利要求1-7中任一项所述的文本的相关性计算方法,其特征在于,所述基于逻辑回归模型将所述文本相关性特征值与语义相关性特征值拟合成相关性特征值包括:
针对计算出的第一字符串与第二字符串的文本相关性特征值以及语义相关性特征值,构建特征向量;
利用所述特征向量构建训练样例,并针对所述训练样例使用二分类逻辑回归模型做训练,分别得到文本相关性特征值的权重、语义相关性特征值的权重以及偏置;
利用文本相关性特征值的权重、文本相关性特征值、语义相关性特征值的权重、语义相关性特征值以及偏置,计算所述相关性特征值。
9.根据权利要求1-7中任一项所述的文本的相关性计算方法,其特征在于,
所述计算第一字符串与第二字符串的语义相关性特征值包括下列中的至少一个:
计算第一字符串与第二字符串的基于编辑距离的相关性特征值;
计算第一字符串与第二字符串的基于最长公共子序列的相关性特征值;
计算第一字符串与第二字符串的基于文本分类的相关性特征值;
计算第一字符串与第二字符串的基于概率潜在语义分析PLSA的主题相关性特征值;
计算第一字符串与第二字符串的基于统计机器翻译的相关性特征值;
计算第一字符串与第二字符串基于网页搜索结果的词粒度的相关性特征值。
10.一种文本的相关性计算装置,其特征在于,该装置包括字符串接收单元、相关性特征值计算单元和相关性特征值拟合单元,其中:
字符串接收单元,用于接收第一字符串和第二字符串;
相关性特征值计算单元,用于计算第一字符串与第二字符串的文本相关性特征值以及第一字符串与第二字符串的语义相关性特征值;
相关性特征值拟合单元,用于基于逻辑回归模型将所述文本相关性特征值与语义相关性特征值拟合成第一字符串与第二字符串的相关性特征值。
11.根据权利要求10所述的文本的相关性计算装置,其特征在于,
相关性特征值计算单元,用于计算第一字符串与第二字符串基于编辑距离的相关性特征值,和/或计算第一字符串与第二字符串基于最长公共子序列的相关性特征值。
12.根据权利要求10所述的文本的相关性计算装置,其特征在于,
相关性特征值计算单元,用于构建行业类别特征词词典;针对第一字符串,根据行业类别特征词词典获取每个词所属的类别分布,然后将各个词的类别分布乘以该词的全局逆文本频率指数权重再累加,以得到第一字符串类别分布;针对第二字符串,根据行业类别特征词词典获取每个词所属的类别分布,然后将各个词的类别分布乘以该词的全局逆文本频率指数权重再累加,以得到第二字符串类别分布;计算第一字符串和第二字符串的类别分布的余弦夹角相似度,以得到第一字符串和第二字符串的语义相关性特征值。
13.根据权利要求12所述的文本的相关性计算装置,其特征在于,
相关性特征值计算单元,用于基于人工标注的行业类别特征词集合,采用全文匹配分类方式对各个网页进行分类;对于拥有分类属性的网页进行全文切词,抽取类别特征词,并将所抽取的类别特征词合并入所述行业类别特征词集合,以构建行业类别特征词词典。
14.根据权利要求10所述的文本的相关性计算装置,其特征在于,
相关性特征值计算单元,用于针对第一字符串,获取每个词所属的主题分布,然后将该第一字符串中所有词的主题分布乘以该词的全局逆文本频率指数权重再累加,以得到该第一字符串的主题分布;针对第二字符串,获取每个词所属的主题分布,然后将该第二字符串中所有词的主题分布乘以该词的全局逆文本频率指数权重再累加,以得到该第二字符串的主题分布;计算第一字符串和第二字符串的主题分布的余弦夹角相似度,以得到第一字符串和第二字符串的语义相关性特征值。
15.根据权利要求10所述的文本的相关性计算装置,其特征在于,
相关性特征值计算单元,用于计算第一字符串与第二字符串基于统计机器翻译的相关性特征值,和/或计算第一字符串与第二字符串基于网页搜索结果的词粒度的语义相关性特征值。
16.根据权利要求10-15中任一项所述的文本的相关性计算装置,其特征在于,
相关性特征值拟合单元,用于针对计算出的第一字符串与第二字符串的文本相关性特征值以及语义相关性特征值,构建特征向量;利用所述特征向量构建训练样例,并针对所述训练样例使用二分类逻辑回归模型做训练,分别得到文本相关性特征值的权重、语义相关性特征值的权重以及偏置;利用文本相关性特征值的权重、文本相关性特征值、语义相关性特征值的权重、语义相关性特征值以及偏置,计算所述相关性特征值。
17.根据权利要求10-15中任一项所述的文本的相关性计算装置,其特征在于,
相关性特征值计算单元,用于计算执行下列中的至少一个:
计算第一字符串与第二字符串的基于编辑距离的相关性特征值;
计算第一字符串与第二字符串的基于最长公共子序列的相关性特征值;
计算第一字符串与第二字符串的基于文本分类的相关性特征值;
计算第一字符串与第二字符串的基于概率潜在语义分析PLSA的主题相关性特征值;
计算第一字符串与第二字符串的基于统计机器翻译的相关性特征值;
计算第一字符串与第二字符串基于网页搜索结果的词粒度的相关性特征值。
CN201310388496.XA 2013-08-30 2013-08-30 一种文本的相关性计算方法和装置 Active CN104424279B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310388496.XA CN104424279B (zh) 2013-08-30 2013-08-30 一种文本的相关性计算方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310388496.XA CN104424279B (zh) 2013-08-30 2013-08-30 一种文本的相关性计算方法和装置

Publications (2)

Publication Number Publication Date
CN104424279A true CN104424279A (zh) 2015-03-18
CN104424279B CN104424279B (zh) 2018-11-20

Family

ID=52973259

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310388496.XA Active CN104424279B (zh) 2013-08-30 2013-08-30 一种文本的相关性计算方法和装置

Country Status (1)

Country Link
CN (1) CN104424279B (zh)

Cited By (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105427138A (zh) * 2015-12-30 2016-03-23 芜湖乐锐思信息咨询有限公司 基于神经网络模型的产品市场占有率分析方法及***
CN105528335A (zh) * 2015-12-22 2016-04-27 北京奇虎科技有限公司 确定新闻之间相关性的方法和装置
CN105528336A (zh) * 2015-12-23 2016-04-27 北京奇虎科技有限公司 多标杆确定文章相关性的方法和装置
CN105550905A (zh) * 2015-12-30 2016-05-04 芜湖乐锐思信息咨询有限公司 基于网络的产品销售分析***
CN105550904A (zh) * 2015-12-30 2016-05-04 芜湖乐锐思信息咨询有限公司 基于网络化运营的产品布局分析***
CN105630767A (zh) * 2015-12-22 2016-06-01 北京奇虎科技有限公司 一种文本相似性的比较方法以及装置
CN105630766A (zh) * 2015-12-22 2016-06-01 北京奇虎科技有限公司 多新闻之间相关性计算方法和装置
CN105654346A (zh) * 2015-12-30 2016-06-08 芜湖乐锐思信息咨询有限公司 基于产品精细化运营的分析***
CN105678571A (zh) * 2015-12-30 2016-06-15 芜湖乐锐思信息咨询有限公司 基于互联网的网络化产品规划分析***
CN105930468A (zh) * 2016-04-22 2016-09-07 江苏金鸽网络科技有限公司 一种基于规则的信息相关性判定方法
CN106095845A (zh) * 2016-06-02 2016-11-09 腾讯科技(深圳)有限公司 文本分类方法和装置
CN106339371A (zh) * 2016-08-30 2017-01-18 齐鲁工业大学 一种基于词向量的英汉词义映射方法和装置
CN106445963A (zh) * 2015-08-10 2017-02-22 北京奇虎科技有限公司 App平台的广告索引关键词自动生成方法和装置
CN106484678A (zh) * 2016-10-13 2017-03-08 北京智能管家科技有限公司 一种短文本相似度计算方法及装置
CN106657016A (zh) * 2016-11-10 2017-05-10 北京奇艺世纪科技有限公司 一种非法用户名的识别方法和***
CN106776493A (zh) * 2015-11-19 2017-05-31 腾讯科技(深圳)有限公司 信息过滤方法和信息过滤装置
CN106951422A (zh) * 2016-01-07 2017-07-14 腾讯科技(深圳)有限公司 网页训练的方法和装置、搜索意图识别的方法和装置
CN107066443A (zh) * 2017-03-27 2017-08-18 成都优译信息技术股份有限公司 基于线性回归适用于多语种的句子相似度获取方法及***
CN107301248A (zh) * 2017-07-19 2017-10-27 百度在线网络技术(北京)有限公司 文本的词向量构建方法和装置、计算机设备、存储介质
WO2018006629A1 (zh) * 2016-07-06 2018-01-11 北京搜狗科技发展有限公司 一种药方匹配方法和装置、一种用于药方匹配的装置
CN107844559A (zh) * 2017-10-31 2018-03-27 国信优易数据有限公司 一种文件分类方法、装置及电子设备
CN108027812A (zh) * 2015-09-18 2018-05-11 迈克菲有限责任公司 用于多路径语言翻译的***和方法
CN108182182A (zh) * 2017-12-27 2018-06-19 传神语联网网络科技股份有限公司 翻译数据库中文档匹配方法、装置及计算机可读存储介质
CN108205757A (zh) * 2016-12-19 2018-06-26 阿里巴巴集团控股有限公司 电子支付业务合法性的校验方法和装置
CN108241867A (zh) * 2016-12-26 2018-07-03 阿里巴巴集团控股有限公司 一种分类方法及装置
CN108268465A (zh) * 2016-12-30 2018-07-10 广东精点数据科技股份有限公司 一种面向混合数据模型的文本搜索技术
CN108388480A (zh) * 2017-02-03 2018-08-10 百度在线网络技术(北京)有限公司 短串相关性校验方法和装置
CN108536800A (zh) * 2018-04-03 2018-09-14 有米科技股份有限公司 文本分类方法、***、计算机设备和存储介质
CN109271641A (zh) * 2018-11-20 2019-01-25 武汉斗鱼网络科技有限公司 一种文本相似度计算方法、装置及电子设备
CN109325509A (zh) * 2017-07-31 2019-02-12 北京国双科技有限公司 相似度确定方法及装置
US10217025B2 (en) 2015-12-22 2019-02-26 Beijing Qihoo Technology Company Limited Method and apparatus for determining relevance between news and for calculating relevance among multiple pieces of news
CN109522551A (zh) * 2018-11-09 2019-03-26 天津新开心生活科技有限公司 实体链接方法、装置、存储介质及电子设备
CN109947919A (zh) * 2019-03-12 2019-06-28 北京字节跳动网络技术有限公司 用于生成文本匹配模型的方法和装置
CN110019801A (zh) * 2017-12-01 2019-07-16 北京搜狗科技发展有限公司 一种文本相关性的确定方法和装置
CN110738220A (zh) * 2018-07-02 2020-01-31 百度在线网络技术(北京)有限公司 句子的情感极性分析方法、装置及存储介质
CN110895656A (zh) * 2018-09-13 2020-03-20 武汉斗鱼网络科技有限公司 一种文本相似度计算方法、装置、电子设备及存储介质
CN110929498A (zh) * 2018-09-20 2020-03-27 ***通信有限公司研究院 一种短文本相似度的计算方法及装置、可读存储介质
CN111191087A (zh) * 2019-12-31 2020-05-22 歌尔股份有限公司 字符匹配方法、终端设备及计算机可读存储介质
CN111382255A (zh) * 2020-03-17 2020-07-07 北京百度网讯科技有限公司 用于问答处理的方法、装置、设备和介质
CN111460110A (zh) * 2019-01-22 2020-07-28 阿里巴巴集团控股有限公司 异常文本检测方法、异常文本序列检测方法及装置
CN111522918A (zh) * 2020-04-24 2020-08-11 天津易维数科信息科技有限公司 数据汇聚方法、装置、电子设备及计算机可读存储介质
CN112185573A (zh) * 2020-09-25 2021-01-05 志诺维思(北京)基因科技有限公司 一种基于lcs和tf-idf的相似字符串确定方法及装置
CN112749252A (zh) * 2020-07-14 2021-05-04 腾讯科技(深圳)有限公司 一种基于人工智能的文本匹配方法和相关装置
CN113239666A (zh) * 2021-05-13 2021-08-10 深圳市智灵时代科技有限公司 一种文本相似度计算方法及***
CN113254596A (zh) * 2021-06-22 2021-08-13 湖南大学 基于规则匹配和深度学习的用户质检需求分类方法及***

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090259651A1 (en) * 2008-04-11 2009-10-15 Microsoft Corporation Search results ranking using editing distance and document information
CN101777042A (zh) * 2010-01-21 2010-07-14 西南科技大学 基于神经网络和标签库的语句相似度算法
CN102184169A (zh) * 2011-04-20 2011-09-14 北京百度网讯科技有限公司 用于确定字符串信息间相似度信息的方法、装置和设备
CN102332012A (zh) * 2011-09-13 2012-01-25 南方报业传媒集团 基于类别之间相关性学习的中文文本分类方法
CN102622338A (zh) * 2012-02-24 2012-08-01 北京工业大学 一种短文本间语义距离的计算机辅助计算方法
CN103049569A (zh) * 2012-12-31 2013-04-17 武汉传神信息技术有限公司 基于向量空间模型的文本相似性匹配方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090259651A1 (en) * 2008-04-11 2009-10-15 Microsoft Corporation Search results ranking using editing distance and document information
CN101777042A (zh) * 2010-01-21 2010-07-14 西南科技大学 基于神经网络和标签库的语句相似度算法
CN102184169A (zh) * 2011-04-20 2011-09-14 北京百度网讯科技有限公司 用于确定字符串信息间相似度信息的方法、装置和设备
CN102332012A (zh) * 2011-09-13 2012-01-25 南方报业传媒集团 基于类别之间相关性学习的中文文本分类方法
CN102622338A (zh) * 2012-02-24 2012-08-01 北京工业大学 一种短文本间语义距离的计算机辅助计算方法
CN103049569A (zh) * 2012-12-31 2013-04-17 武汉传神信息技术有限公司 基于向量空间模型的文本相似性匹配方法

Cited By (70)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106445963B (zh) * 2015-08-10 2021-11-23 北京奇虎科技有限公司 App平台的广告索引关键词自动生成方法和装置
CN106445963A (zh) * 2015-08-10 2017-02-22 北京奇虎科技有限公司 App平台的广告索引关键词自动生成方法和装置
CN108027812A (zh) * 2015-09-18 2018-05-11 迈克菲有限责任公司 用于多路径语言翻译的***和方法
CN106776493A (zh) * 2015-11-19 2017-05-31 腾讯科技(深圳)有限公司 信息过滤方法和信息过滤装置
CN106776493B (zh) * 2015-11-19 2020-03-03 腾讯科技(深圳)有限公司 信息过滤方法和信息过滤装置
CN105630766A (zh) * 2015-12-22 2016-06-01 北京奇虎科技有限公司 多新闻之间相关性计算方法和装置
CN105630767A (zh) * 2015-12-22 2016-06-01 北京奇虎科技有限公司 一种文本相似性的比较方法以及装置
CN105630767B (zh) * 2015-12-22 2018-06-15 北京奇虎科技有限公司 一种文本相似性的比较方法以及装置
CN105630766B (zh) * 2015-12-22 2018-11-06 北京奇虎科技有限公司 多新闻之间相关性计算方法和装置
CN105528335B (zh) * 2015-12-22 2018-10-09 北京奇虎科技有限公司 确定新闻之间相关性的方法和装置
CN105528335A (zh) * 2015-12-22 2016-04-27 北京奇虎科技有限公司 确定新闻之间相关性的方法和装置
US10217025B2 (en) 2015-12-22 2019-02-26 Beijing Qihoo Technology Company Limited Method and apparatus for determining relevance between news and for calculating relevance among multiple pieces of news
CN105528336A (zh) * 2015-12-23 2016-04-27 北京奇虎科技有限公司 多标杆确定文章相关性的方法和装置
CN105528336B (zh) * 2015-12-23 2018-09-21 北京奇虎科技有限公司 多标杆确定文章相关性的方法和装置
CN105550904A (zh) * 2015-12-30 2016-05-04 芜湖乐锐思信息咨询有限公司 基于网络化运营的产品布局分析***
CN105678571A (zh) * 2015-12-30 2016-06-15 芜湖乐锐思信息咨询有限公司 基于互联网的网络化产品规划分析***
CN105427138A (zh) * 2015-12-30 2016-03-23 芜湖乐锐思信息咨询有限公司 基于神经网络模型的产品市场占有率分析方法及***
CN105654346A (zh) * 2015-12-30 2016-06-08 芜湖乐锐思信息咨询有限公司 基于产品精细化运营的分析***
CN105550905A (zh) * 2015-12-30 2016-05-04 芜湖乐锐思信息咨询有限公司 基于网络的产品销售分析***
CN106951422A (zh) * 2016-01-07 2017-07-14 腾讯科技(深圳)有限公司 网页训练的方法和装置、搜索意图识别的方法和装置
CN105930468B (zh) * 2016-04-22 2019-05-17 江苏金鸽网络科技有限公司 一种基于规则的信息相关性判定方法
CN105930468A (zh) * 2016-04-22 2016-09-07 江苏金鸽网络科技有限公司 一种基于规则的信息相关性判定方法
CN106095845A (zh) * 2016-06-02 2016-11-09 腾讯科技(深圳)有限公司 文本分类方法和装置
WO2018006629A1 (zh) * 2016-07-06 2018-01-11 北京搜狗科技发展有限公司 一种药方匹配方法和装置、一种用于药方匹配的装置
CN106339371B (zh) * 2016-08-30 2019-04-30 齐鲁工业大学 一种基于词向量的英汉词义映射方法和装置
CN106339371A (zh) * 2016-08-30 2017-01-18 齐鲁工业大学 一种基于词向量的英汉词义映射方法和装置
CN106484678A (zh) * 2016-10-13 2017-03-08 北京智能管家科技有限公司 一种短文本相似度计算方法及装置
CN106657016A (zh) * 2016-11-10 2017-05-10 北京奇艺世纪科技有限公司 一种非法用户名的识别方法和***
CN108205757B (zh) * 2016-12-19 2022-05-27 创新先进技术有限公司 电子支付业务合法性的校验方法和装置
CN108205757A (zh) * 2016-12-19 2018-06-26 阿里巴巴集团控股有限公司 电子支付业务合法性的校验方法和装置
CN108241867A (zh) * 2016-12-26 2018-07-03 阿里巴巴集团控股有限公司 一种分类方法及装置
CN108268465A (zh) * 2016-12-30 2018-07-10 广东精点数据科技股份有限公司 一种面向混合数据模型的文本搜索技术
CN108388480A (zh) * 2017-02-03 2018-08-10 百度在线网络技术(北京)有限公司 短串相关性校验方法和装置
CN108388480B (zh) * 2017-02-03 2021-06-11 百度在线网络技术(北京)有限公司 短串相关性校验方法和装置
CN107066443A (zh) * 2017-03-27 2017-08-18 成都优译信息技术股份有限公司 基于线性回归适用于多语种的句子相似度获取方法及***
CN107301248B (zh) * 2017-07-19 2020-07-21 百度在线网络技术(北京)有限公司 文本的词向量构建方法和装置、计算机设备、存储介质
CN107301248A (zh) * 2017-07-19 2017-10-27 百度在线网络技术(北京)有限公司 文本的词向量构建方法和装置、计算机设备、存储介质
CN109325509A (zh) * 2017-07-31 2019-02-12 北京国双科技有限公司 相似度确定方法及装置
CN107844559A (zh) * 2017-10-31 2018-03-27 国信优易数据有限公司 一种文件分类方法、装置及电子设备
CN110019801B (zh) * 2017-12-01 2021-03-23 北京搜狗科技发展有限公司 一种文本相关性的确定方法和装置
CN110019801A (zh) * 2017-12-01 2019-07-16 北京搜狗科技发展有限公司 一种文本相关性的确定方法和装置
CN108182182A (zh) * 2017-12-27 2018-06-19 传神语联网网络科技股份有限公司 翻译数据库中文档匹配方法、装置及计算机可读存储介质
CN108536800B (zh) * 2018-04-03 2022-04-19 有米科技股份有限公司 文本分类方法、***、计算机设备和存储介质
CN108536800A (zh) * 2018-04-03 2018-09-14 有米科技股份有限公司 文本分类方法、***、计算机设备和存储介质
CN110738220A (zh) * 2018-07-02 2020-01-31 百度在线网络技术(北京)有限公司 句子的情感极性分析方法、装置及存储介质
CN110738220B (zh) * 2018-07-02 2022-09-30 百度在线网络技术(北京)有限公司 句子的情感极性分析方法、装置及存储介质
CN110895656B (zh) * 2018-09-13 2023-12-29 北京橙果转话科技有限公司 一种文本相似度计算方法、装置、电子设备及存储介质
CN110895656A (zh) * 2018-09-13 2020-03-20 武汉斗鱼网络科技有限公司 一种文本相似度计算方法、装置、电子设备及存储介质
CN110929498B (zh) * 2018-09-20 2023-05-09 ***通信有限公司研究院 一种短文本相似度的计算方法及装置、可读存储介质
CN110929498A (zh) * 2018-09-20 2020-03-27 ***通信有限公司研究院 一种短文本相似度的计算方法及装置、可读存储介质
CN109522551B (zh) * 2018-11-09 2024-02-20 天津新开心生活科技有限公司 实体链接方法、装置、存储介质及电子设备
CN109522551A (zh) * 2018-11-09 2019-03-26 天津新开心生活科技有限公司 实体链接方法、装置、存储介质及电子设备
CN109271641B (zh) * 2018-11-20 2023-09-08 广西三方大供应链技术服务有限公司 一种文本相似度计算方法、装置及电子设备
CN109271641A (zh) * 2018-11-20 2019-01-25 武汉斗鱼网络科技有限公司 一种文本相似度计算方法、装置及电子设备
CN111460110A (zh) * 2019-01-22 2020-07-28 阿里巴巴集团控股有限公司 异常文本检测方法、异常文本序列检测方法及装置
CN111460110B (zh) * 2019-01-22 2023-04-25 阿里巴巴集团控股有限公司 异常文本检测方法、异常文本序列检测方法及装置
CN109947919B (zh) * 2019-03-12 2020-05-15 北京字节跳动网络技术有限公司 用于生成文本匹配模型的方法和装置
WO2020182122A1 (zh) * 2019-03-12 2020-09-17 北京字节跳动网络技术有限公司 用于生成文本匹配模型的方法和装置
CN109947919A (zh) * 2019-03-12 2019-06-28 北京字节跳动网络技术有限公司 用于生成文本匹配模型的方法和装置
CN111191087A (zh) * 2019-12-31 2020-05-22 歌尔股份有限公司 字符匹配方法、终端设备及计算机可读存储介质
CN111191087B (zh) * 2019-12-31 2023-11-07 歌尔股份有限公司 字符匹配方法、终端设备及计算机可读存储介质
CN111382255A (zh) * 2020-03-17 2020-07-07 北京百度网讯科技有限公司 用于问答处理的方法、装置、设备和介质
CN111522918A (zh) * 2020-04-24 2020-08-11 天津易维数科信息科技有限公司 数据汇聚方法、装置、电子设备及计算机可读存储介质
CN112749252B (zh) * 2020-07-14 2023-11-03 腾讯科技(深圳)有限公司 一种基于人工智能的文本匹配方法和相关装置
CN112749252A (zh) * 2020-07-14 2021-05-04 腾讯科技(深圳)有限公司 一种基于人工智能的文本匹配方法和相关装置
CN112185573B (zh) * 2020-09-25 2023-11-03 志诺维思(北京)基因科技有限公司 一种基于lcs和tf-idf的相似字符串确定方法及装置
CN112185573A (zh) * 2020-09-25 2021-01-05 志诺维思(北京)基因科技有限公司 一种基于lcs和tf-idf的相似字符串确定方法及装置
CN113239666B (zh) * 2021-05-13 2023-09-29 深圳市智灵时代科技有限公司 一种文本相似度计算方法及***
CN113239666A (zh) * 2021-05-13 2021-08-10 深圳市智灵时代科技有限公司 一种文本相似度计算方法及***
CN113254596A (zh) * 2021-06-22 2021-08-13 湖南大学 基于规则匹配和深度学习的用户质检需求分类方法及***

Also Published As

Publication number Publication date
CN104424279B (zh) 2018-11-20

Similar Documents

Publication Publication Date Title
CN104424279A (zh) 一种文本的相关性计算方法和装置
CN102831184B (zh) 根据对社会事件的文字描述来预测社会情感的方法及***
Lind et al. Building the bridge: Topic modeling for comparative research
Lau et al. Automatic domain ontology extraction for context-sensitive opinion mining
CN110134799B (zh) 一种基于bm25算法的文本语料库的搭建和优化方法
US11893537B2 (en) Linguistic analysis of seed documents and peer groups
Ji et al. Data selection in semi-supervised learning for name tagging
CN112069312B (zh) 一种基于实体识别的文本分类方法及电子装置
Malandrakis et al. SAIL: A hybrid approach to sentiment analysis
Mertoğlu et al. Automated fake news detection in the age of digital libraries
Lin et al. NL2API: A framework for bootstrapping service recommendation using natural language queries
CN115329085A (zh) 一种社交机器人分类方法及***
Zhu et al. A multi-attribute decision making approach based on information extraction for real estate buyer profiling
Gong et al. A semantic similarity language model to improve automatic image annotation
Ay et al. Turkish abstractive text document summarization using text to text transfer transformer
Bulut et al. Generating campaign ads & keywords for programmatic advertising
Pan et al. Video clip recommendation model by sentiment analysis of time-sync comments
CN109582958B (zh) 一种灾难故事线构建方法及装置
Rubtsova et al. Aspect extraction from reviews using conditional random fields
Swamy et al. Nit-agartala-nlp-team at semeval-2020 task 8: Building multimodal classifiers to tackle internet humor
Qiu et al. Automatic corpus expansion for chinese word segmentation by exploiting the redundancy of web information
Kavyashree et al. Survey on automatic text summarization using NLP and deep learning
CN110516069B (zh) 一种基于FastText-CRF的引文元数据抽取方法
Wadawadagi et al. A multi-layer approach to opinion polarity classification using augmented semantic tree kernels
Milošević et al. From web crawled text to project descriptions: automatic summarizing of social innovation projects

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant