CN101149739A - 一种面向互联网的有意义串的挖掘方法和*** - Google Patents

一种面向互联网的有意义串的挖掘方法和*** Download PDF

Info

Publication number
CN101149739A
CN101149739A CNA2007101207555A CN200710120755A CN101149739A CN 101149739 A CN101149739 A CN 101149739A CN A2007101207555 A CNA2007101207555 A CN A2007101207555A CN 200710120755 A CN200710120755 A CN 200710120755A CN 101149739 A CN101149739 A CN 101149739A
Authority
CN
China
Prior art keywords
character
string
strings
word
adjacent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2007101207555A
Other languages
English (en)
Inventor
张华平
贺敏
黄玉兰
龚才春
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Computing Technology of CAS
Original Assignee
Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Computing Technology of CAS filed Critical Institute of Computing Technology of CAS
Priority to CNA2007101207555A priority Critical patent/CN101149739A/zh
Publication of CN101149739A publication Critical patent/CN101149739A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种面向互联网的有意义串的挖掘方法和***。该方法包括下列步骤:步骤A,重复字符串发现;步骤B,通过上下文邻接分析过滤所述字符串;步骤C,通过语言模型分析过滤所述字符串。其能够有效的提取网页或大规模文本数据中的有意义串。

Description

一种面向互联网的有意义串的挖掘方法和***
技术领域
本发明涉及一种信息检索领域和操作***领域,特别是一种面向互联网的有意义串的挖掘方法和***。
背景技术
互联网上有着浩瀚如海的信息,但其庞大的数目使得Web用户很难从中有效获取有用信息,用户们面对汪洋大海般的日夜更新的信息,往往感到不知所措,不知道如何从海量信息中寻求自己真正想要的信息,更不知道如何获取或把握海量信息中的关键信息,及时掌握当前的重要资讯。同时面对时时刻刻不断涌现的新信息,任何人都无法做到“眼观六路、耳听八方”。在这个时候,人们更加迫切需要自然语言处理技术的强力支持,以应对日益严重的信息过载问题。
从海量的网络信息中提取出有用的关键信息,成为了一大难题,也成为了在网络信息***时代亟待解决的需求。而此问题的解决,也将有着广泛的应用前景:对于个人,能通过它更方便地发现和组织当前重要资讯,它能够成为人们掌控海量信息的切入点。对于企业,能通过它及时掌握企业相关领域的最新动态,战略伙伴的发展方向,竞争对手的最新动作,为企业制定战略方针提供资讯方面的帮助。对于国家,能通过它了解当前社会重要事件,流行趋向,舆论方向等等,成为了解和掌握社会状况的信息窗口,为相关决策的制定提供帮助。
在这样的背景下,如何提取网络文本中的有用信息,凸现出了其自身的重要性,成为一个值得深入研究的方向。
发明内容
本发明的目的是提供一种面向互联网的有意义串的挖掘方法和***,其能够有效的提取网页或大规模文本数据中的有意义串。
为实现本发明目的而提供的一种面向互联网的有意义串的挖掘方法,包括下列步骤:
步骤A,重复字符串发现;
步骤B,通过上下文邻接分析过滤所述字符串;
步骤C,通过语言模型分析过滤所述字符串。
所述步骤A包括下列步骤:
步骤A1,将网页语料处理得到格式化的纯文本文件,对文本文件进行分类,记录文本中重复出现的字符串及其出现的频次,将出现次数小于一定阈值的字符串滤掉。
所述步骤B包括下列步骤:
步骤B1,计算每条重复串的上下文邻接特征量,并判断这些特征量是否达到设定的阈值,根据判断结果过滤掉没有达到阈值的文本串。
所述步骤C包括下列步骤:
步骤C1,对文本串逐字扫描相邻字对,查找相邻字对的耦合度,根据耦合度过滤文本串,然后根据文本串的位置成词概率,进一步进行过滤而得到有意义串。
所述步骤A1包括下列步骤:
步骤A11,将网页语料处理得到格式化的纯文本文件,然后将汉字转化为对应的ID;
步骤A12,对处理好的ID序列建立索引,从每个单字索引的信息开始扩展得到所有重复串,新产生的重复串写入文件之后,继续扩展得到长串,反复迭代,直到出现间隔符号或者长度达到指定阈值,停止扩展;
步骤A13,记录每个串的邻接词信息以及文档信息,每类信息独立保存在一个文件中。
所述步骤B1包括下列步骤:
步骤B11,计算每条重复串的上下文邻接特征量,判断这些特征量是否达到设定的阈值;
步骤B12,如果达到阈值,则转入步骤C;
步骤B13,如果特征量未达到阈值,则将其过滤掉。
所述步骤C1包括下列步骤:
步骤C11,对一部分训练语料进行标注,生成相邻字的耦合度词典和单字位置成词概率词典;
步骤C12,逐字扫描相邻字对,查找相邻字对的耦合度;
步骤C13,当相邻字对的耦合度小于设定阈值时,不构成词的一部分,作为垃圾串过滤掉;
步骤C14,对相邻字对没有过滤掉的字符串,查找单字位置成词概率,判断其串首和串尾是否包含常用功能字;
步骤C15,如果是功能字,则将其过滤掉;
步骤C16,还没有被过滤掉的字符中确定为有意义串。
为实现本发明目的还提供一种面向互联网的有意义串的挖掘***,包括:
重复串发现模块,用于将网页语料处理得到格式化的纯文本文件,对文本文件进行分类,记录文本中重复出现的字符串及其出现的频次,将出现次数小于一定阈值的字符串滤掉;
上下文邻接分析模块,用于计算每条重复串的上下文邻接特征量,并判断这些特征量是否达到设定的阈值,根据判断结果过滤掉没有达到阈值的文本串;
统计语言模型分析模块,用于对文本串逐字扫描相邻字对,查找相邻字对的耦合度,根据耦合度过滤文本串,得到有意义串。
所述统计语言模型分析模块,还用于在扫描相邻字对后,根据文本串的位置成词概率,进一步进行过滤字符串而得到有意义串。
所述上下文邻接特征量为邻接集合、邻接种类、邻接熵、邻接对集合、邻接对种类、邻接对熵中的一种或者一种以上的组合。
所述记录文本中重复出现的字符串及其出现的频次,是通过后缀树算法、sequitur算法、n元递增分布算法或者改进的n元递增分布算法进行重复串发现而得到的。
本发明的有益效果是:本发明的面向互联网的有意义串的挖掘方法和***,将待识别文本经过重复串发现、上下文邻接分析、统计语言模型分析三个阶段达到挖掘有意义串的目的。本发明在预处理中做了分词,进一步降低重复串发现的时间复杂度,同时也大幅提高了提取结果的准确率和召回率;重复串发现的空间复杂度是O(N)(N为语料规模大小),能够对与内存大小相当的纯文本数据进行分析,比传统的后缀树方法处理规模大10倍左右;邻接分析时可以根据应用需要采用不同的特征量,邻接熵倾向于发现各种语用环境分布比较均匀的串,这些串空间分布较广泛,往往具有通用性;最后,采用双字耦合度来衡量两个字结合的紧密程度,与停用字判断相结合,更加灵活和智能。
附图说明
图1为本发明面向互联网的有意义串的挖掘方法过程示意图;
图2为图1中从重复串提取有意义串过程流程图;
图3为本发明面向互联网的有意义串的串首串尾判断过程流程图;
图4为本发明面向互联网的有意义串的挖掘***示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明的一种面向互联网的有意义串的挖掘方法和***进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明将在互联网中具有有用信息,在多种环境下应用的字符串定义为有意义串。有意义串最主要的特点是语义完整性,本发明从统计、结构、语用、语义几方面来分析,提出一种普适性的有意义串的挖掘方法和***。
本发明将有意义串挖掘方法过程分为重复串发现、上下文邻接分析、语言模型分析三个阶段,整个过程如图1所示,包括下列步骤:
步骤S100,在重复串发现阶段,将网页语料处理得到格式化的纯文本文件,对文本文件进行分类,记录文本中重复出现的字符串及其出现的频次,将出现次数小于一定阈值的字符串滤掉。
步骤S200,在上下文邻接分析阶段,计算每条重复串的上下文邻接特征量,并判断这些特征量是否达到设定的阈值,根据判断结果过滤掉没有达到阈值的文本串。
步骤S300,在统计语言模型分析阶段,对文本串逐字扫描相邻字对,查找相邻字对的耦合度,根据耦合度过滤文本串,然后根据文本串的位置成词概率,进一步进行过滤而得到有意义串。
本发明主要使用了两个标准来衡量。首先,本发明计算一个字符串中相邻的两个词结合的紧密程度,如果紧密程度小于一定阈值,就删除这个字符串。
其次,本发明还要测试一个词中的字,出现在它现在位置(位置指词首或词尾)的概率,如果概率低于一定的阈值,就删除该词。
下面详细说明步骤S100中,将网页语料处理得到格式化的纯文本文件,对文本文件进行分类,记录文本中重复出现的字符串及其出现的频次,将出现次数小于一定阈值的字符串滤掉的过程。
将网页语料处理得到格式化的纯文本文件,然后进行预处理,包括分词,将汉字转化为对应的ID。分词部分采用速度较快的最大匹配分词法。实验表明,分词词典包含6迈出多核心词汇,而且分词过程不做未登录词识别而进行分词,最大匹配分词这一步骤的效果要明显好于没有分词的结果。
对处理好的ID序列建立索引,从每个单字索引的信息开始扩展得到所有重复串,新产生的重复串写入文件之后,继续扩展得到长串,反复迭代,直到出现间隔符号或者长度达到指定阈值时,停止扩展。同时,还要记录每个串的邻接词信息以及文档信息,每类信息独立保存在一个文件中。
目前比较成熟的、应用于中文文本的重复串发现算法有后缀树算法、sequitur算法和n元递增分布算法等。应用其中任何一种算法都可以达到统计重复串的目的。本发明实施例采用的是改进的n元递增分布算法。具体做法如下。
本发明的方法比n元递增算法时间复杂度有所降低,因为索引记录了每个串的地址信息,扩展时根据地址信息和串长直接定位到下一个扩展字符,统计频次信息的范围仅仅是当前扩展串,而不需要遍历整个语料进行全局比较统计。
同时,还要记录每个串的邻接词信息以及文档信息,每类信息独立保存在一个文件中。在后面的有意义串分析中需要利用串的文档信息和邻接对信息,如果重复串发现后再进行上述统计,则要对整个语料做多次遍历,增加时间开销。而发现重复串时每个串的地址信息是已知的,几乎在不增加时间复杂度的同时,能够获得上述信息。
通过实验验证,如果在查找重复串之前对文本进行分词,有意义串挖掘的效果将比较好。
下面详细描述步骤S200中,计算每条重复串的上下文邻接特征量,并判断这些特征量是否达到设定的阈值,根据判断结果过滤掉没有达到阈值的文本串的过程。
为了描述字符串S的上下文环境灵活程度,本发明提出了一系列上下文邻接特征量概念,即邻接集合、邻接种类、邻接熵,以及邻接对集合、邻接对种类、邻接对熵。
邻接集合:分为左邻接集合LNB和右邻接集合RNB,分别指真实文本中,与字符串S左边或者右边相邻的字或词元素的集合。
邻接种类:分为左邻接种类VL和右邻接种类VR,分别指左邻接集合中和右邻接集合种字或词元素的数目,它们反映了字符串S上文和下文语境种类的多少。
邻接熵:表示字符串S的邻接集合的信息熵,字符串S有左邻接熵和右邻接熵。
相应地,还提出了邻接对集合、邻接对种类、邻接对熵等上下文邻接特征值的概念。
邻接对集合:字符串S每次出现的左邻接元素和右邻接元素构成一个邻接对<Li,Ri>,字符串S的所有邻接对组成邻接对集合PNB。
邻接对种类:邻接对集合PNB中元素的个数称为邻接对种类VP。
邻接对熵:表示邻接对集合的信息熵。
这些上下文邻接特征量都可以用来衡量一个字符串上下文环境。
如图2所示,上下文邻接分析主要计算每条重复串的上下文邻接特征量,包括邻接集合、邻接种类、邻接熵,以及邻接对集合、邻接对种类、邻接对熵等,判断这些特征量是否达到设定的阈值,如果达到,则说明该串在语言用途上比较灵活,进入统计语言模型分析阶段。
计算重复串的上下文邻接特征量,包括邻接集合、邻接种类,以及邻接对集合、邻接对种类,是通过对重复串语料统计而得到。
熵(包括邻接熵、邻接对熵)是通过计算而得到。
计算熵的公式如下:
如邻接集合(如左邻接集合)LNB中每个元素li在真实文本中对应一个出现频次ni,频次总和记为N,则熵的计算公式为:
E L = - &Sigma; i = 1 | V L | n i n log ( n i n )
例如:新词“禽流感”从2000年开始频繁使用,出现在以下句子中:
钟南山透露禽流感病毒尚未明显变异。
广东的防控禽流感形势趋缓。
有7人感染禽流感事件。
发现一宗禽流感疑似病例。
颁布5条禁令防控禽流感。
如果将词做为邻接分析的粒度,“禽流感”这些字符串中的上下文邻接特征量计算结果为:
左邻接集合:LNB={透露,防控,感染,一宗}
右邻接集合:RNB={病毒,形势,事件,疑似,EOS}
左邻接种类:VL=4
右邻接种类:VR=5
左邻接熵: E L = - ( 1 5 log 1 5 + 2 5 log 2 5 + 1 5 log 1 5 + 1 5 log 1 5 ) = - 0.718
右邻接熵: E R = - ( 1 5 log 1 5 + 1 5 log 1 5 + 1 5 log 1 5 + 1 5 log 1 5 + 1 5 log 1 5 ) = - 0.699
邻接对集合PNB={<透露,病毒>,<防控,形势>,<感染,事件>,<一宗,疑似>,<防控,EOS>}
邻接对种类:PNB=5
邻接对熵 E P = - ( 1 5 log 1 5 + 1 5 log 1 5 + 1 5 log 1 5 + 1 5 log 1 5 + 1 5 log 1 5 ) = - 0.699
若特征量未达到阈值,则说明该串是垃圾串,将其过滤掉。其中,阈值是由训练语料训练得来的。
语料是在语言的实际使用中真实出现过的语言材料;以电子计算机为载体承载语言知识的基础资源。真实语料需要经过加工(分析和处理),才能成为有用的资源。
语料训练方法是一种现有技术,如通过隐马尔可夫模型(Hidden MarkovModel,HMM)对训练语料进行训练的方法。其不是本发明的发明点,因此,在本发明中不再一一详细描述。
通过实验验证,相邻元素的单位是词的准确率比是字的准确率要高。
下面详细描述步骤S300中,对文本串逐字扫描相邻字对,查找相邻字对的耦合度,根据耦合度过滤文本串,然后根据文本串的成词概率,进一步进行过滤而得到有意义串的过程。
为了描述一个词中连续两个字的结合紧密程度,本发明定义了相邻字对的耦合度的概念。其定义是:在切分好的训练语料中扫描所有出现过的连续字对,统计出每组字对出现的总次数以及该字对作为某个词子串的总次数,后者与前者之比就叫做相邻字对的耦合度,用符号Coup表示。例如“过目”这一双字对在本文的统计中共出现16次,其中出现在“过目不忘”,“一一过目”这样的词中12次,而在“超过目前”这样的语境中共出现了4次,所以Coup(<过,目>)=12/(12+4)=0.75。
Coup值越高,表明该字对的结合程度越高,反之表明该字对越不可能出现在一个词中。耦合度是由训练语料求得的。
另外,本发明引入位置成词概率来表示某个汉字在某个位置(词首或词位等)出现的概率。如“阿”字的词首概率很大,但是词尾概率很小,如果“阿”出现在一个词的词尾,基本可以认为该词是一个垃圾串。位置成词概率也是由训练语料求得。
在语言模块分析之前,应当对一部分训练语料进行人工标注,生成相邻字的耦合度词典(如双字耦合度词典)和单字位置成词概率词典。
如图3所示,首先逐字扫描相邻两字对,查找其相邻字对的耦合度,如双字耦合度,小于设定阈值时,不构成某个词的一部分,应该作为垃圾串删除。
而双字对扫描没有删除的文字串要进入下一步过滤,查找单字位置成词概率。首先查找首字的位置成词概率,如果概率低于一定的阈值,代表这个字不应出现在字首,则将其过滤。
没有被删除的字符串,查找其尾字的位置成词概率,来判断其串首和串尾是否包含常用功能字,如果是功能字,则将其过滤。即如果位置成词概率低于设置的阈值,代表这个字符串不应该出现在字尾,将其过滤。
较佳地,还取出串中首字对判断其双字耦合度,如果大于某个阈值,则认为该字对结合紧密,够成某个词的首部,不再对首字的单字位置成词概率进行判断,这样能够避免垃圾头词典的绝对化问题。如“的士”这个双字对是构成词的,如果仅仅判断首字“的”的位置成词概率,也许需要过滤,但是首先判断字对的双字耦合度,发现其耦合程度高,应该保留。
经过这一步骤,还没有被过滤掉的字符串确定为有意义串。输出这些有意义串,过程结束。
其中,这一过程中的所有阈值都是由训练语料,训练得到的。
以来自新浪,网易等9个国内新闻网站实验的原始网页,作为测试数据的原始网页一部分,采集时间介于2006年4月19日到2006年6月14日之间,共有31万多张网页为测试数据,大小12G,提取正文后,最终正文的大小为470MB。本发明的有意义串的挖掘方法在这些新闻网页上提取有意义串的正确率可以达到70.55%。
与所述面向互联网的有意义串的挖掘方法相对应,本发明还提供一种面向互联网的有意义串的挖掘***400,如图4所示,其包括:
重复串发现模块410,用于将网页语料处理得到格式化的纯文本文件,对文本文件进行分类,记录文本中重复出现的字符串及其出现的频次,将出现次数小于一定阈值的字符串滤掉。
上下文邻接分析模块420,用于计算每条重复串的上下文邻接特征量,并判断这些特征量是否达到设定的阈值,根据判断结果过滤掉没有达到阈值的文本串。
统计语言模型分析模块430,用于对文本串逐字扫描相邻字对,查找相邻字对的耦合度,根据耦合度过滤文本串,然后根据文本串的位置成词概率,进一步进行过滤而得到有意义串。
本发明的面向互联网的有意义串的挖掘***400,采用与面向互联网的有意义串的挖掘方法相同的过程工作,因此,在本发明实施例中,不再对该***进行重复描述。
以上对本发明的具体实施例进行了描述和说明,这些实施例应被认为其只是示例性的,并不用于对本发明进行限制,本发明应根据所附的权利要求进行解释。

Claims (12)

1.一种面向互联网的有意义串的挖掘方法,其特征在于,包括下列步骤:
步骤A,重复字符串发现;
步骤B,通过上下文邻接分析过滤所述字符串;
步骤C,通过语言模型分析过滤所述字符串。
2.根据权利要求1所述的面向互联网的有意义串的挖掘方法,其特征在于,所述步骤A包括下列步骤:
步骤A1,将网页语料处理得到格式化的纯文本文件,对文本文件进行分类,记录文本中重复出现的字符串及其出现的频次,将出现次数小于一定阈值的字符串滤掉。
3.根据权利要求2所述的面向互联网的有意义串的挖掘方法,其特征在于,所述步骤B包括下列步骤:
步骤B1,计算每条重复串的上下文邻接特征量,并判断这些特征量是否达到设定的阈值,根据判断结果过滤掉没有达到阈值的文本串。
4.根据权利要求3所述的面向互联网的有意义串的挖掘方法,其特征在于,所述步骤C包括下列步骤:
步骤C1,对文本串逐字扫描相邻字对,查找相邻字对的耦合度,根据耦合度过滤文本串,然后根据文本串的位置成词概率,进一步进行过滤而得到有意义串。
5.根据权利要求2所述的面向互联网的有意义串的挖掘方法,其特征在于,所述步骤A1包括下列步骤:
步骤A11,将网页语料处理得到格式化的纯文本文件,然后将汉字转化为对应的ID;
步骤A12,对处理好的ID序列建立索引,从每个单字索引的信息开始扩展得到所有重复串,新产生的重复串写入文件之后,继续扩展得到长串,反复迭代,直到出现间隔符号或者长度达到指定阈值,停止扩展;
步骤A13,记录每个串的邻接词信息以及文档信息,每类信息独立保存在一个文件中。
6.根据权利要求3所述的面向互联网的有意义串的挖掘方法,其特征在于,所述步骤B1包括下列步骤:
步骤B11,计算每条重复串的上下文邻接特征量,判断这些特征量是否达到设定的阈值;
步骤B12,如果达到阈值,则转入步骤C;
步骤B13,如果特征量未达到阈值,则将其过滤掉。
7.根据权利要求4所述的面向互联网的有意义串的挖掘方法,其特征在于,所述步骤C1包括下列步骤:
步骤C11,对一部分训练语料进行标注,生成相邻字的耦合度词典和单字位置成词概率词典;
步骤C12,逐字扫描相邻字对,查找相邻字对的耦合度;
步骤C13,当相邻字对的耦合度小于设定阈值时,不构成词的一部分,作为垃圾串过滤掉;
步骤C14,对相邻字对没有过滤掉的字符串,查找单字位置成词概率,判断其串首和串尾是否包含常用功能字;
步骤C15,如果是功能字,则将其过滤掉;
步骤C16,还没有被过滤掉的字符确定为有意义串。
8.根据权利要求4所述的面向互联网的有意义串的挖掘方法,其特征在于,所述步骤C1包括下列步骤:
步骤C11′,对一部分训练语料进行标注,生成相邻字的耦合度词典和单字位置成词概率词典;
步骤C12′,取出字符串中首的字对,判断其相邻字的耦合度,如果大于阈值,则认为该字对结合紧密,构成词的首部,则不再对首字的单字位置成词概率进行判断。
9.一种面向互联网的有意义串的挖掘***,其特征在于,包括:
重复串发现模块,用于将网页语料处理得到格式化的纯文本文件,对文本文件进行分类,记录文本中重复出现的字符串及其出现的频次,将出现次数小于一定阈值的字符串滤掉;
上下文邻接分析模块,用于计算每条重复串的上下文邻接特征量,并判断这些特征量是否达到设定的阈值,根据判断结果过滤掉没有达到阈值的文本串;
统计语言模型分析模块,用于对文本串逐字扫描相邻字对,查找相邻字对的耦合度,根据耦合度过滤文本串,得到有意义串。
10.根据权利要求9所述的面向互联网的有意义串的挖掘***,其特征在于,所述统计语言模型分析模块,还用于在扫描相邻字对后,根据文本串的位置成词概率,进一步进行过滤字符串而得到有意义串。
11.根据权利要求9或10所述的面向互联网的有意义串的挖掘***,其特征在于,所述上下文邻接特征量为邻接集合、邻接种类、邻接熵、邻接对集合、邻接对种类、邻接对熵中的一种或者一种以上的组合。
12.根据权利要求9或10所述的面向互联网的有意义串的挖掘***,其特征在于,所述记录文本中重复出现的字符串及其出现的频次,是通过后缀树算法、sequitur算法、n元递增分布算法或者改进的n元递增分布算法进行重复串发现而得到的。
CNA2007101207555A 2007-08-24 2007-08-24 一种面向互联网的有意义串的挖掘方法和*** Pending CN101149739A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNA2007101207555A CN101149739A (zh) 2007-08-24 2007-08-24 一种面向互联网的有意义串的挖掘方法和***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNA2007101207555A CN101149739A (zh) 2007-08-24 2007-08-24 一种面向互联网的有意义串的挖掘方法和***

Publications (1)

Publication Number Publication Date
CN101149739A true CN101149739A (zh) 2008-03-26

Family

ID=39250268

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2007101207555A Pending CN101149739A (zh) 2007-08-24 2007-08-24 一种面向互联网的有意义串的挖掘方法和***

Country Status (1)

Country Link
CN (1) CN101149739A (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101853284A (zh) * 2010-05-24 2010-10-06 哈尔滨工程大学 面向互联网的有意义串的提取方法及装置
CN102411563A (zh) * 2010-09-26 2012-04-11 阿里巴巴集团控股有限公司 一种识别目标词的方法、装置及***
CN101963965B (zh) * 2009-07-23 2013-03-20 阿里巴巴集团控股有限公司 基于搜索引擎的文档索引方法、数据查询方法及服务器
CN103593427A (zh) * 2013-11-07 2014-02-19 清华大学 新词搜索方法及***
CN103870459A (zh) * 2012-12-07 2014-06-18 阿里巴巴集团控股有限公司 有意义串的识别方法和装置
CN104317883A (zh) * 2014-10-21 2015-01-28 北京国双科技有限公司 网络文本处理方法及装置
WO2016000511A1 (zh) * 2014-06-30 2016-01-07 北京奇虎科技有限公司 互联网稀有资源的挖掘方法及装置
CN106294336A (zh) * 2015-05-11 2017-01-04 国家计算机网络与信息安全管理中心 一种用于微博的突发特征检测方法及装置
CN106294333A (zh) * 2015-05-11 2017-01-04 国家计算机网络与信息安全管理中心 一种微博突发话题检测方法及装置
CN103678336B (zh) * 2012-09-05 2017-04-12 阿里巴巴集团控股有限公司 实体词识别方法及装置
CN107291952A (zh) * 2017-07-28 2017-10-24 广州多益网络股份有限公司 一种提取有意义串的方法及装置
WO2018041036A1 (zh) * 2016-08-29 2018-03-08 中兴通讯股份有限公司 关键词的查找方法、装置及终端
CN107870925A (zh) * 2016-09-26 2018-04-03 华为技术有限公司 一种字符串过滤方法和相关装置
CN108062305A (zh) * 2017-12-29 2018-05-22 北京时空迅致科技有限公司 一种基于迭代的三步式无监督中文分词方法
CN109918503A (zh) * 2019-01-29 2019-06-21 华南理工大学 基于动态窗口自注意力机制提取语义特征的槽填充方法

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101963965B (zh) * 2009-07-23 2013-03-20 阿里巴巴集团控股有限公司 基于搜索引擎的文档索引方法、数据查询方法及服务器
CN101853284B (zh) * 2010-05-24 2012-02-01 哈尔滨工程大学 面向互联网的有意义串的提取方法及装置
CN101853284A (zh) * 2010-05-24 2010-10-06 哈尔滨工程大学 面向互联网的有意义串的提取方法及装置
CN102411563A (zh) * 2010-09-26 2012-04-11 阿里巴巴集团控股有限公司 一种识别目标词的方法、装置及***
CN102411563B (zh) * 2010-09-26 2015-06-17 阿里巴巴集团控股有限公司 一种识别目标词的方法、装置及***
CN103678336B (zh) * 2012-09-05 2017-04-12 阿里巴巴集团控股有限公司 实体词识别方法及装置
CN103870459B (zh) * 2012-12-07 2017-10-27 阿里巴巴集团控股有限公司 有意义串的识别方法和装置
CN103870459A (zh) * 2012-12-07 2014-06-18 阿里巴巴集团控股有限公司 有意义串的识别方法和装置
CN103593427A (zh) * 2013-11-07 2014-02-19 清华大学 新词搜索方法及***
WO2016000511A1 (zh) * 2014-06-30 2016-01-07 北京奇虎科技有限公司 互联网稀有资源的挖掘方法及装置
CN104317883A (zh) * 2014-10-21 2015-01-28 北京国双科技有限公司 网络文本处理方法及装置
CN104317883B (zh) * 2014-10-21 2017-11-21 北京国双科技有限公司 网络文本处理方法及装置
CN106294333A (zh) * 2015-05-11 2017-01-04 国家计算机网络与信息安全管理中心 一种微博突发话题检测方法及装置
CN106294336A (zh) * 2015-05-11 2017-01-04 国家计算机网络与信息安全管理中心 一种用于微博的突发特征检测方法及装置
CN106294333B (zh) * 2015-05-11 2019-10-29 国家计算机网络与信息安全管理中心 一种微博突发话题检测方法及装置
CN106294336B (zh) * 2015-05-11 2020-02-14 国家计算机网络与信息安全管理中心 一种用于微博的突发特征检测方法及装置
WO2018041036A1 (zh) * 2016-08-29 2018-03-08 中兴通讯股份有限公司 关键词的查找方法、装置及终端
CN107870925A (zh) * 2016-09-26 2018-04-03 华为技术有限公司 一种字符串过滤方法和相关装置
CN107291952A (zh) * 2017-07-28 2017-10-24 广州多益网络股份有限公司 一种提取有意义串的方法及装置
CN107291952B (zh) * 2017-07-28 2020-05-19 广州多益网络股份有限公司 一种提取有意义串的方法及装置
CN108062305A (zh) * 2017-12-29 2018-05-22 北京时空迅致科技有限公司 一种基于迭代的三步式无监督中文分词方法
CN109918503A (zh) * 2019-01-29 2019-06-21 华南理工大学 基于动态窗口自注意力机制提取语义特征的槽填充方法
CN109918503B (zh) * 2019-01-29 2020-12-22 华南理工大学 基于动态窗口自注意力机制提取语义特征的槽填充方法

Similar Documents

Publication Publication Date Title
CN101149739A (zh) 一种面向互联网的有意义串的挖掘方法和***
CN107229668B (zh) 一种基于关键词匹配的正文抽取方法
CN103544255B (zh) 基于文本语义相关的网络舆情信息分析方法
CN100405371C (zh) 一种提取新词的方法和***
CN102662952B (zh) 一种基于层次的中文文本并行数据挖掘方法
US7424421B2 (en) Word collection method and system for use in word-breaking
CN110825877A (zh) 一种基于文本聚类的语义相似度分析方法
CN101079031A (zh) 一种网页主题提取***和方法
US20060206306A1 (en) Text mining apparatus and associated methods
CN110807326B (zh) 结合gpu-dmm与文本特征的短文本关键词提取方法
CN108647322B (zh) 基于词网识别大量Web文本信息相似度的方法
CN104572849A (zh) 基于文本语义挖掘的标准化自动建档方法
CN103309852A (zh) 一种基于统计和规则的特定领域的合成词发现方法
CN110162632B (zh) 一种新闻专题事件发现的方法
CN111460153A (zh) 热点话题提取方法、装置、终端设备及存储介质
CN102214241A (zh) 一种基于图聚类的用户生成文本流中的突发话题检测方法
CN111324801B (zh) 基于热点词的司法领域热点事件发现方法
CN112989831B (zh) 一种应用在网络安全领域的实体抽取方法
CN103678412A (zh) 一种文档检索的方法及装置
CN103246644A (zh) 一种网络舆情信息处理方法和装置
CN111831794A (zh) 一种基于知识图谱的综合管廊行业知识问答***构建方法
CN111061837A (zh) 话题识别方法、装置、设备及介质
CN112559747A (zh) 事件分类处理方法、装置、电子设备和存储介质
CN114064851A (zh) 一种政府办公文档多机检索方法及***
CN109857869A (zh) 一种基于Ap增量聚类和网络基元的热点话题预测方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication