CN106294736A - 基于关键词频率的文本特征提取方法 - Google Patents

基于关键词频率的文本特征提取方法 Download PDF

Info

Publication number
CN106294736A
CN106294736A CN201610649942.1A CN201610649942A CN106294736A CN 106294736 A CN106294736 A CN 106294736A CN 201610649942 A CN201610649942 A CN 201610649942A CN 106294736 A CN106294736 A CN 106294736A
Authority
CN
China
Prior art keywords
text
entry
word frequency
class bunch
webpage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610649942.1A
Other languages
English (en)
Inventor
张俤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Light Horse Network Technology Co Ltd
Original Assignee
Chengdu Light Horse Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Light Horse Network Technology Co Ltd filed Critical Chengdu Light Horse Network Technology Co Ltd
Priority to CN201610649942.1A priority Critical patent/CN106294736A/zh
Publication of CN106294736A publication Critical patent/CN106294736A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • G06F16/83Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • G06F16/83Querying
    • G06F16/835Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于关键词频率的文本特征提取方法,循环读取用户搜索文本中的词条,以预定义类簇集合、各个类簇中的文本和每个词条在类簇的词频为初始条件,对搜索文本进行分词和索引;然后在训练集内每个类簇文本中,统计特征词词频高于阈值的数量;在各个类簇中计算词条特征值,存储在网页特征集合中;将网页特征值作为关键词排序并建立索引;用待分析网页的整句特征值在已有的网页库中进行索引,检索到候选网页;对候选网页与待分析网页执行相似度计算,根据计算结果决定是否将待分析网页推荐至用户。本发明提出了一种基于关键词频率的文本特征提取方法,快速挖掘到有价值的信息,提升搜索引擎的用户体验。

Description

基于关键词频率的文本特征提取方法
技术领域
本发明涉及自然语言处理,特别涉及一种基于关键词频率的文本特征提取方法。
背景技术
随着互联网技术及相关产业的迅猛发展,数据正以前所未有的规模急速增加,大数据在带给推动力的同时,也带来了挑战。如何在海量互联网数据中探寻有价值的资源,根据用户的搜索推荐相似内容,是大数据文本处理的重要任务。针对于网页的相似检测,要求算法的空间复杂度和时间复杂度都要尽可能地降低,以满足用户的需求。现有的基于文本相似度的推荐方法存在以下不足,当数据规模非常庞大时,网页特征值的生成和计算将耗费很长的时间;对专业领域,过多依赖基础语料库来计算词语权值;短文本相似度识别率低。
发明内容
为解决上述现有技术所存在的问题,本发明提出了一种基于关键词频率的文本特征提取方法,包括:
循环读取用户搜索文本中的词条,以预定义类簇集合、各个类簇中的文本和每个词条在类簇的词频为初始条件,对搜索文本进行分词和索引;然后在训练集内每个类簇文本中,统计特征词词频高于阈值的数量;在各个类簇中计算词条特征值,存储在网页特征集合中;
将网页特征值作为关键词排序并建立索引;用待分析网页的整句特征值在已有的网页库中进行索引,检索到候选网页;对候选网页与待分析网页执行相似度计算,根据计算结果决定是否将待分析网页推荐至用户。
优选地,所述在各个类簇中计算词条特征值,进一步包括:
预定义类簇集合{c1,c2,…,cm},各个类簇cj中包括文本(dj1,dj2,…djn),每个文本dj包括词条(t1,t2,…tk),词条tk在类簇cj中出现的阈值词频MM;特征词选取的个数NM;
(1)分词并对文本集合建立索引,初始化特征集合S为空;
(2)循环读取索引文件中的词条;
(3)计算词条tk在训练集的每个类簇的文本中词频不少于MM次的文本个数DF(tk,ci);
(4)计算tk相对于每个类簇的特征频率FF和平均词频AN:
F F = Σ k = 1 n tf i k / Σ i = 1 m Σ k = 1 n tf i k
其中tfik为特征t在文本dik中出现的词频;
A N = Σ k = 1 n tf i k n
(5)计算tk在各个类簇中的特征权值MI(tk,ci):
MI(tk,ci)=FF×AN×log(Pm(tk,ci)/P(ci)Pm(tk))
其中Pm(tk,ci)=DF(tk,ci)/DF(tk)
P(ci)=n/N
Pm(tk)=DF(tk)/N
其中DF(tk)表示整个训练文本中特征tk的词频达到最小值的文本个数,N为整个训练集的文本总数;
(6)选择MI值最大的特征词条,并入到集合S中,作为第一个特征词,并以集合S中词条之间相互关联性最小为原则选择下一个特征词条;
(7)重复步骤6,直到特征词个数达到阈值NM。
本发明相比现有技术,具有以下优点:
本发明提出了一种基于关键词频率的文本特征提取方法,针对大规模数据集,快速、高效地检查出相似数据,快速挖掘到有价值的信息,提升搜索引擎的用户体验。
附图说明
图1是根据本发明实施例的基于关键词频率的文本特征提取方法的流程图。
具体实施方式
下文与图示本发明原理的附图一起提供对本发明一个或多个实施例的详细描述。结合这样的实施例描述本发明,但是本发明不限于任何实施例。本发明的范围仅由权利要求书限定,并且本发明涵盖诸多替代、修改和等同物。在下文描述中阐述诸多具体细节以便提供对本发明的透彻理解。出于示例的目的而提供这些细节,并且无这些具体细节中的一些或所有细节也可以根据权利要求书实现本发明。
本发明的一方面提供了一种基于关键词频率的文本特征提取方法。图1是根据本发明实施例的基于关键词频率的文本特征提取方法流程图。
本发明将网页相似检测中,循环读取用户搜索文本中的词条,以预定义类簇集合、各个类簇中文本和每个词条在类簇的词频为初始条件,对搜索文本进行分词和索引;然后在训练集内每个类簇文本中,统计特征词词频高于阈值的数量;在各个类簇中计算词条特征值,存储在网页特征集合中,完成对文本特征的提取。在获得网页的特征值后,将该特征值作为关键词排序并建立索引;用待分析网页的整句特征值在已有的网页库中进行索引,检索到候选网页;最后,对候选网页与待分析网页执行相似度计算,根据计算结果,决定是否将待分析网页推荐至用户。
本发明首先基于爬取的网页数据源,定义特征提取策略,包括页面结构、位置信息、抽取流程、规则转变、输出结果等;然后,进行页面预处理,确定获取网页的内容,丢弃与提取信息无关的词条属性;根据提取策略,获得所需要的数据项,并保存到XML文档;将XML文档通过特征提取获得特征向量并聚类。将聚类后的文档,按类簇存储到对应数据库中。
其中,特征提取过程进一步包括:
预定义类簇集合{c1,c2,…,cm},各个类簇cj中包括文本(dj1,dj2,…djn),每个文本dj包括词条(t1,t2,…tk),词条tk在类簇cj中出现的阈值词频MM;特征词选取的个数NM。
(1)分词并对文本集合建立索引,初始化特征集合S为空;
(2)循环读取索引文件中的词条;
(3)计算词条tk在训练集的每个类簇的文本中词频不少于MM次的文本个数DF(tk,ci);
(4)计算tk相对于每个类簇的特征频率FF和平均词频AN:
F F = Σ k = 1 n tf i k / Σ i = 1 m Σ k = 1 n tf i k
其中tfik为特征t在文本dik中出现的词频;
A N = Σ k = 1 n tf i k n
(5)计算tk在各个类簇中的特征权值MI(tk,ci):
MI(tk,ci)=FF×AN×log(Pm(tk,ci)/P(ci)Pm(tk))
其中Pm(tk,ci)=DF(tk,ci)/DF(tk)
P(ci)=n/N
Pm(tk)=DF(tk)/N
其中DF(tk)表示整个训练文本中特征tk的词频达到最小值的文本个数,N为整个训练集的文本总数。
(6)选择MI值最大的特征词条,并入到集合S中,作为第一个特征词,并以集合S中词条之间相互关联性最小为原则选择下一个特征词条;
(7)重复步骤6,直到特征词个数达到阈值NM。
替代性地,对于带有摘要的网页,其特征抽取采用如下准确率更高的方法,具体步骤是:
(1)、过滤掉网页文本首尾与特征抽取无关的信息,得到去噪处理后的网页文本;
(2)、分别得到摘要和原文内容的中文分词结果;
(3)、对摘要和原文内容的中文分词结果进行词性分类,完成分类后,对原文内容和摘要的词性分类结果进行谓语提取和实词识别;
(4)、根据预设归并规则集对所述谓语提取后的网页文本的词性分类结果和所述网页文本的实词识别结果进行归并,得到原文的归并结果;对所述谓语提取后的摘要的词性分类结果和所述摘要的实词识别结果进行归并,得到摘要的归并结果;
(5)、对网页文本的归并结果和摘要的归并结果进行单元归并,得到网页文本的信息单元归并结果和摘要的单元归并结果;
(6)、对网页文本的单元归并结果进行聚类,根据特征规则集得到聚类之后网页文本的特征抽取结果;所述特征规则集由权值分配策略、网页文本的单元归并结果的语句切分规则、原子句切分规则、语态抽取规则、语气识别规则构成。
所述聚类过程进一步包括:
(6.1)、对所输入的网页文本内容进行降维处理,获得网页文本中的每个特征词和词频的组对,记为<word,value>;
(6.2)、对所述组对按照字典顺序进行排序,并根据所述排序建立索引;
(6.3)、将所述索引与所述特征词建立对应关系,即将每个特征词和其频率的组对<word,value>转换为每个索引与其词频的对应关系,记为向量<index,value>;
(6.4)定义循环次数t、最大循环次数tmax;并初始化t=0;在t轮从索引向量集<index,value>中获取n个索引向量,记为N(t)={N1 (t),N2 (t),…,Nn (t)},Ni (t)表示t轮的第i个索引向量<indexi (t),value i (t)>;计算t轮的第i个索引向量Ni (t)与第j个索引向量Nj (t)的正则化相似度Nsim(i,j)=Nj (t)·Ni (t)
(6.5)、将所述t轮的n个索引向量N(t)的权值记为WEN(t)={WEN1 (t),WEN2 (t),…,WENn (t)},WENi (t)表示t轮的第i个索引向量Ni (t)的权值;初始化WENi (t)=1;计算t轮的第i个索引向量Ni (t)与第j个索引向量Nj (t)的相似距离矩阵S(t)(i,j):
S(t)(i,j)=(1+WENi (t)/WENj (t))/Nsim(i,j)
(6.6)、将t轮的S(t)(i,j)赋值给Affinity Propagation算法,对所述t轮的n个索引向量N(t)进行聚类,获得第t轮的mt个初步聚类中心,记为C(t)={C1 (t),C2 (t),…,Cmt (t)};将t增1;并判断t=tmax是否成立,若成立,则执行步骤2.11;否则从所述索引向量集<index,value>中获得t轮的n个索引向量N(t)={N1 (t),N2 (t),…,Nn (t)}
(6.7)、将所述t-1轮的mt-1个聚类中心C(t-1)追加到所述t轮的n个索引向量N(t)中,从而获得n+mt-1个索引向量,将更新的n+mt-1个索引向量N(t)’赋值给所述t轮的索引向量N(t),并返回步骤6.5顺序执行;从而获得t轮的mt个最终聚类中心C(t)
(6.8);获得每一轮的聚类中心,完成所述聚类。
在得到特征值之后,本发明的相似度计算一方面使用整句为单位来获取和计算整句特征值,然后采用编辑距离计算相似度。针对一个多维特征向量映射到一个降维向量空间,并根据该降维后的向量产生一个x维特征值(x>1),每一维的值是1或-1,将每个特征项在x维向量空间进行加权处理,最后将这个x维向量中每一维的权值按照预定规则映射为0或1,再将这些二进制数字连接起来,得到网页向量的x位散列值。并进行相似度检测过程:
步骤1;将一个x维的向量v初始化为0,x位的二进制数fbin初始化为0。
步骤2:对整句集合SP中语句si,使用SHA1散列算法得到一个x位的散列值。
步骤3:定义函数g(hj(si)):
g ( h j ( S i ) ) = 1 h j ( s i ) = 1 - 1 h j ( s i ) = 0
其中hj(si)表示si第j位对应的二进制数值;定义vj表示向量v的第j维,对1到x,计算vj的权值
vj=vj+W(si)×g(hj(si))
其中,W(si)表示语句si的权值。
步骤4,若集合SP中存在尚未处理的语句,则跳转到步骤2进行迭代计算;否则转步骤5。
步骤5,定义fbinj表示fbin中的第j位数值,对1到x,若vj>0,则fbinj=1;若vj≤0,则fbinj=0。
步骤6,将得到的二进制序列fbin作为当前整句的特征值;然后对于给定的网页X和网页Y,分别将每个整句的特征值组合形成整句特征值集合SX和SY,用|SX|和|SY|分别表示各集合中的元素个数,|SX∩SY|表示两个集合中近似句的个数,计算网页X和Y的相似度:
sim(X,Y)=|SX∩SY|/(|SX|+|SY|-|SX∩SY|)
其中近似句的判断准则为,如果两个整句a,b各自的特征值满足高于预定义阈值η,则判断为两个整句为近似句。
步骤7,若sim(X,Y)>λ(预设相似度阈值),则确定网页X和Y相似,否则不相似。
而在搜索引擎网页推荐过程中,本发明对浏览次数不同的网页使用不同的方法进行推荐。
对于浏览次数大于预定阈值α的网页,使用以下方法完成用户推荐,具体的步骤如下:
1.1查找用户集合U中每个用户u的相似用户u’,其中将浏览过相同网页的用户为相似用户。对每一个相似用户u’所浏览的词条t,根据词条的序号赋予权值;针对每一个词条,计算总权值:
Wgh(ti)=θ×Fr(ti)+ζ×Se(ti);
其中Fr(ti)表示所有用户使用词条浏览网页的次数,Se(ti)表示词条的浏览顺序,θ,ζ为调整系数,并满足θ+ζ=1;
1.2按词条总权值降序排列,合并同义词条;最后,将预设数量的权值最大的多个词条对应的网页推荐给用户u。
对于浏览次数小于预定阈值α的网页,查找与当前网页相似度最高且浏览次数最多的网页,将计算得到的网页中总权值较大的词条推荐给用户。具体的步骤如下:
2.1使用以下方法评价词条w的区别度,
W D ( w ) = | 1 - Σ p ∈ P ( F P ( p , w ) Σ w ∈ T F P ( p , w ) ) 2 | 2
其中P为采集过程中爬取的所有网页集合,T为所有词条的集合,FP(p,w)表示词条w在网页p中出现的词频。
2.2具有较多高区别度词条的网页权值高,计算网页权值如下:
I M ( p ) = Σ w ∈ T Σ p ∈ P ( F P ( p , w ) Σ w ∈ T F P ( p , w ) ) × W D ( w )
再根据前述网页相似度sim(X,Y),计算带有网页权值的候选推荐相似度sim(X,Y)×IM(X)×IM(Y),保存最终相似度大于预设阈值Φ且浏览次数大于阈值α的网页结果进行推荐。
进一步可选地,对于上述网页权值,可以使用词条语义相似度四叉树,然后与原相似度sim(X,Y)的计算进行加权求和。词条语义相似度四叉树包含叶节点和非叶节点,叶节点中,所有相似度超过阈值Φ的词条都按降序排列,并按序保存在叶节点。而词条个数信息保存在非叶节点中。在计算特征词条向量之间的语义相似度过程中,如果特征词向量vi和vj的某一维度的特征wik和wjl满足下列条件1或2,则对特征词条向量vi和vj的相似度结果进行加权处理。
条件1:如果wjl属于四叉树中某一个叶节点的词条降序队列,而wik不属于上述降序队列,则根据wik和所在词条降序队列中其它词条的相似度,在含有wjl的词条降序队列中来确定wik在词条降序队列中的顺序位置。
条件2:如果wik和wjl都不属于四叉树中某一个叶节点的词条降序队列,wik和wjl和四叉树中某个叶节点的词条降序队列中的具有最大相似度的特征词条以及具有最小相似度的特征词条的相似度值都小于某一阈值Φ时,则建立一个分支,并且将wik和wjl***到这个分支叶节点的特征词条队列中。
当词条语义相似度四叉树构建完成以后,从vi中的每个词条开始,寻找vj中与wjl最相似的词条,记录词条间的相似度。将vi中的其他词条重复上述寻找过程,直到vi中所有词条都在vj中找到了相应的最相似的词条。将得到的词条间的相似度累加,除以vi中所有词条个数,作为vi和vj的相似度sim(vi,vj)。然后计算sim(vi,vj)和sim(vj,vi)的平均值,作为向量vi和vj的语义相似度。对向量vi和vj的语义相似度进行加权处理,最终得到加权语义相似度。
综上所述,本发明提出了一种基于关键词频率的文本特征提取方法,针对大规模数据集,快速、高效地检查出相似数据,快速挖掘到有价值的信息,提升搜索引擎的用户体验。
显然,本领域的技术人员应该理解,上述的本发明的各模块或各步骤可以用通用的计算***来实现,它们可以集中在单个的计算***上,或分布在多个计算***所组成的网络上,可选地,它们可以用计算***可执行的程序代码来实现,从而,可以将它们存储在存储***中由计算***来执行。这样,本发明不限制于任何特定的硬件和软件结合。
应当理解的是,本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或这种范围和边界的等同形式内的全部变化和修改例。

Claims (2)

1.一种基于关键词频率的文本特征提取方法,其特征在于,包括:
循环读取用户搜索文本中的词条,以预定义类簇集合、各个类簇中的文本和每个词条在类簇的词频为初始条件,对搜索文本进行分词和索引;然后在训练集内每个类簇文本中,统计特征词词频高于阈值的数量;在各个类簇中计算词条特征值,存储在网页特征集合中;
将网页特征值作为关键词排序并建立索引;用待分析网页的整句特征值在已有的网页库中进行索引,检索到候选网页;对候选网页与待分析网页执行相似度计算,根据计算结果决定是否将待分析网页推荐至用户。
2.根据权利要求1所述的方法,其特征在于,所述在各个类簇中计算词条特征值,进一步包括:
预定义类簇集合{c1,c2,…,cm},各个类簇cj中包括文本(dj1,dj2,…djn),每个文本dj包括词条(t1,t2,…tk),词条tk在类簇cj中出现的阈值词频MM;特征词选取的个数NM;
(1)分词并对文本集合建立索引,初始化特征集合S为空;
(2)循环读取索引文件中的词条;
(3)计算词条tk在训练集的每个类簇的文本中词频不少于MM次的文本个数DF(tk,ci);
(4)计算tk相对于每个类簇的特征频率FF和平均词频AN:
F F = Σ k = 1 n tf i k / Σ i = 1 m Σ k = 1 n tf i k
其中tfik为特征t在文本dik中出现的词频;
A N = Σ k = 1 n tf i k n
(5)计算tk在各个类簇中的特征权值MI(tk,ci):
MI(tk,ci)=FF×AN×log(Pm(tk,ci)/P(ci)Pm(tk))
其中Pm(tk,ci)=DF(tk,ci)/DF(tk)
P(ci)=n/N
Pm(tk)=DF(tk)/N
其中DF(tk)表示整个训练文本中特征tk的词频达到最小值的文本个数,N为整个训练集的文本总数;
(6)选择MI值最大的特征词条,并入到集合S中,作为第一个特征词,并以集合S中词条之间相互关联性最小为原则选择下一个特征词条;
(7)重复步骤6,直到特征词个数达到阈值NM。
CN201610649942.1A 2016-08-10 2016-08-10 基于关键词频率的文本特征提取方法 Pending CN106294736A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610649942.1A CN106294736A (zh) 2016-08-10 2016-08-10 基于关键词频率的文本特征提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610649942.1A CN106294736A (zh) 2016-08-10 2016-08-10 基于关键词频率的文本特征提取方法

Publications (1)

Publication Number Publication Date
CN106294736A true CN106294736A (zh) 2017-01-04

Family

ID=57667587

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610649942.1A Pending CN106294736A (zh) 2016-08-10 2016-08-10 基于关键词频率的文本特征提取方法

Country Status (1)

Country Link
CN (1) CN106294736A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107608965A (zh) * 2017-09-14 2018-01-19 掌阅科技股份有限公司 书籍主人公姓名的提取方法、电子设备及存储介质
CN107992477A (zh) * 2017-11-30 2018-05-04 北京神州泰岳软件股份有限公司 文本主题确定方法、装置及电子设备
CN109918624A (zh) * 2019-03-18 2019-06-21 北京搜狗科技发展有限公司 一种网页文本相似度的计算方法和装置
CN110069630A (zh) * 2019-03-20 2019-07-30 重庆信科设计有限公司 一种改进的互信息特征选择方法
CN113239687A (zh) * 2021-05-08 2021-08-10 北京天空卫士网络安全技术有限公司 一种数据处理方法和装置
CN117648409A (zh) * 2024-01-30 2024-03-05 北京点聚信息技术有限公司 一种基于ocr的版式文件防伪识别方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101122909A (zh) * 2006-08-10 2008-02-13 株式会社日立制作所 文本信息检索装置以及文本信息检索方法
CN101414300A (zh) * 2008-11-28 2009-04-22 电子科技大学 一种互联网舆情信息的分类处理方法
CN101441663A (zh) * 2008-12-02 2009-05-27 西安交通大学 一种基于lzw压缩算法的中文文本分类特征词典生成方法
CN104598532A (zh) * 2014-12-29 2015-05-06 中国联合网络通信有限公司广东省分公司 一种信息处理方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101122909A (zh) * 2006-08-10 2008-02-13 株式会社日立制作所 文本信息检索装置以及文本信息检索方法
CN101414300A (zh) * 2008-11-28 2009-04-22 电子科技大学 一种互联网舆情信息的分类处理方法
CN101441663A (zh) * 2008-12-02 2009-05-27 西安交通大学 一种基于lzw压缩算法的中文文本分类特征词典生成方法
CN104598532A (zh) * 2014-12-29 2015-05-06 中国联合网络通信有限公司广东省分公司 一种信息处理方法及装置

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
丁益斌: "相似网页去重算法的并行化研究与实现", 《中国优秀硕士学位论文全文数据库信息科技辑》 *
冷强奎,等: "基于句子相似度的论文抄袭检测模型研究", 《计算机工程与应用》 *
王文 主编: "《现代图书馆建设》", 31 October 2012 *
赵晓永 著: "《面向云计算的数据存储关键技术研究》", 31 December 2014 *
邓彩凤: "中文文本分类中互信息特征选择方法研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107608965A (zh) * 2017-09-14 2018-01-19 掌阅科技股份有限公司 书籍主人公姓名的提取方法、电子设备及存储介质
CN107608965B (zh) * 2017-09-14 2018-10-19 掌阅科技股份有限公司 书籍主人公姓名的提取方法、电子设备及存储介质
CN107992477A (zh) * 2017-11-30 2018-05-04 北京神州泰岳软件股份有限公司 文本主题确定方法、装置及电子设备
CN107992477B (zh) * 2017-11-30 2019-03-29 北京神州泰岳软件股份有限公司 文本主题确定方法及装置
CN109918624A (zh) * 2019-03-18 2019-06-21 北京搜狗科技发展有限公司 一种网页文本相似度的计算方法和装置
CN109918624B (zh) * 2019-03-18 2022-10-04 北京搜狗科技发展有限公司 一种网页文本相似度的计算方法和装置
CN110069630A (zh) * 2019-03-20 2019-07-30 重庆信科设计有限公司 一种改进的互信息特征选择方法
CN113239687A (zh) * 2021-05-08 2021-08-10 北京天空卫士网络安全技术有限公司 一种数据处理方法和装置
CN113239687B (zh) * 2021-05-08 2024-03-22 北京天空卫士网络安全技术有限公司 一种数据处理方法和装置
CN117648409A (zh) * 2024-01-30 2024-03-05 北京点聚信息技术有限公司 一种基于ocr的版式文件防伪识别方法
CN117648409B (zh) * 2024-01-30 2024-04-05 北京点聚信息技术有限公司 一种基于ocr的版式文件防伪识别方法

Similar Documents

Publication Publication Date Title
CN106294733B (zh) 基于文本分析的网页检测方法
CN109190117B (zh) 一种基于词向量的短文本语义相似度计算方法
CN106294736A (zh) 基于关键词频率的文本特征提取方法
US20230195773A1 (en) Text classification method, apparatus and computer-readable storage medium
CN110750640B (zh) 基于神经网络模型的文本数据分类方法、装置及存储介质
CN108132927B (zh) 一种融合图结构与节点关联的关键词提取方法
CN106599054B (zh) 一种题目分类及推送的方法及***
CN106156272A (zh) 一种基于多源语义分析的信息检索方法
Wang et al. Ptr: Phrase-based topical ranking for automatic keyphrase extraction in scientific publications
JP2002014999A (ja) 類似文書検索装置及び関連キーワード抽出装置
JP2012524314A (ja) データ検索およびインデクシングの方法および装置
CN106844632A (zh) 基于改进支持向量机的产品评论情感分类方法及装置
CN108875065B (zh) 一种基于内容的印尼新闻网页推荐方法
US20220180317A1 (en) Linguistic analysis of seed documents and peer groups
CN108090178A (zh) 一种文本数据分析方法、装置、服务器和存储介质
US9652997B2 (en) Method and apparatus for building emotion basis lexeme information on an emotion lexicon comprising calculation of an emotion strength for each lexeme
CN112527958A (zh) 用户行为倾向识别方法、装置、设备及存储介质
CN101187919A (zh) 一种对文档集进行批量单文档摘要的方法及***
CN111241410A (zh) 一种行业新闻推荐方法及终端
Bhutada et al. Semantic latent dirichlet allocation for automatic topic extraction
CN110990003B (zh) 一种基于词嵌入技术的api推荐方法
CN106294295B (zh) 基于词频的文章相似度识别方法
CN114138979B (zh) 基于词拓展无监督文本分类的文物安全知识图谱创建方法
CN111563361B (zh) 文本标签的提取方法及装置、存储介质
Amini Interactive learning for text summarization

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170104