CN1641634A - 一种中文新词语的检测方法及其检测*** - Google Patents

一种中文新词语的检测方法及其检测*** Download PDF

Info

Publication number
CN1641634A
CN1641634A CN 200410000651 CN200410000651A CN1641634A CN 1641634 A CN1641634 A CN 1641634A CN 200410000651 CN200410000651 CN 200410000651 CN 200410000651 A CN200410000651 A CN 200410000651A CN 1641634 A CN1641634 A CN 1641634A
Authority
CN
China
Prior art keywords
speech
string
neologisms
data base
noun
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN 200410000651
Other languages
English (en)
Other versions
CN100555276C (zh
Inventor
邹纲
刘群
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Computing Technology of CAS filed Critical Institute of Computing Technology of CAS
Priority to CNB2004100006517A priority Critical patent/CN100555276C/zh
Publication of CN1641634A publication Critical patent/CN1641634A/zh
Application granted granted Critical
Publication of CN100555276C publication Critical patent/CN100555276C/zh
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种中文新词语的检测方法及其检测***。本发明基于Internet的中文新词语自动检测的方法,包括网页采集,网页信息处理和新词查找三个部分,且充分利用了从Internet采集而来的网页上的时间信息,从网页中提取时间信息和内容,对其切分并在切分的基础上查找重复串,然后存入原始数据库,再在给定时间的基础上,将原始数据库划分成给定时间以前和给定时间以后的两个数据库,将这两个数据库进行对比,得到新词候选列表,最后的结果由人工确认一下。本发明通过对比寻找某个时间点以后的新词语,可以寻找不限长度和构成的多字词与多字词组成的新词,并利用词的构成规律来滤除垃圾串,具有时效性高的特点。

Description

一种中文新词语的检测方法及其检测***
技术领域
本发明涉及新词语的检测方法,特别涉及一种中文新词语的检测方法及其检测***。
技术背景
自然语言中新词的不断涌现是一个客观规律,随着经济、社会的飞速发展和对外交流的日渐频繁,特别是Internet的普遍使用,这一现象变得更加明显,有研究统计,中国20年来平均每年产生800多个词语。
但是,对于汉语这样词与词之间没有明确边界的语言,识别新词比较困难。大体上,汉语中的新词语按来源可以分为以下几类:
1.命名实体:包括人名、地名、音译名、商品名、公司字号、机构名等;
2.缩略语:如“非典”、“计生委”等;
3.方言词:如“靓”、“买单”等;
4.新造词:如“伊妹儿”、“美眉”等;
5.专业术语:如“非典型肺炎”、“蓝光光盘”等;
6.音译词:如“酷”、“秀”、“克隆”等;
7.外来字母词:如WTO、APEC、SARS等。
这些类型的新词语中,除了第一类“命名实体”有一定的构成规律、最后一类“外来字母词”可以直接识别外,其他各类新词都没有明显的构成规律,识别非常困难。目前的新词识别研究以“命名实体”类的研究较多,其中又以人名、地名、音译名识别率为较高,正确率和召回率都可以达到90%以上,机构名构成规律较为复杂,识别正确率和召回率较低一些。除命名实体外,其他类型的新词语的自动识别研究比较少。
现在,编辑出版的专门的新词语词典,影响较大的如商务印书馆出版的《新华新词语词典》,新增词语四千多条,分成信息、财经、环保、医药、体育、军事、科技等类别,日常生活惯用新词语,如‘克隆’、‘双赢’等已被收录,而具争议性的词语,如‘***’、‘泡妞’,经讨论后也被涵括在内,主要还是以人工方式为主进行编辑的,不仅效率不高,检索内容不全面,而且,现有的基于语料库的新词自动提取的技术,其主要步骤是:先利用公共词汇表以及标点符号,新词模板等等对原始语料库进行分段,然后通过构建GAST结构将分段的语料库分割成子串并统计子串在语料库中出现的次数,最后过滤掉假词,输出新词,该方法的主要不足在于:
1)只是单纯的提取子串作为新词,并没有考虑词语的时间的因素。
2)提取的子串也只是限于单字词组成的串以及单字词和多字词组成的串,没有考虑多字词与多字词组成的串。
3)滤除假词的方法比较简单。
发明内容
本发明的目的在于:克服现有新词检测的方法采用人工检索的低效问题,以及基于语料库的新词自动提取的技术在时效性低以及新词查找范围不全的缺陷,从而为除命名实体外的其他类型的新词语提供一种中文新词语的检测方法及其检测***。
本发明的目的是这样实现的:
为实现上述目的,本发明提供的中文新词语的检测方法基于Internet提取含有时间信息的网页信息进行词法分析,查找出在网页中所有的重复串,并连同重复串的时间信息一并存入原始数据库,同时把词和词的时间信息也存入原始数据库,根据给定的时间,将原始数据库中该时间点前、后的所有重复串和词分别存入背景数据库和过滤数据库,对比背景数据库和过滤数据库中的词和串,生成符合阈值条件的新词候选列表,然后,根据构词的词性规则过滤新词候选列表中的垃圾串,最终检测出新词语;
所述重复串的查找,首先搜索出网页正文内容中连续出现的次数大于1次以上的至少由两个符号组成的符号串,记录下每一种符号出现的所有的位置;然后,按照符号从少到多的顺序对尾字相同的符号串进行排序,当前一个串是后一个串的子串,且两者的频率完全一样时,将前一个串从数组中删除,归并得到文本中所有的重复串。
所述网页信息的提取,首先是对其进行基于模板的网页内容和时间信息的提取,如果网页提取解析失败,则再进行一次基于特征的网页内容和时间信息的提取。
所述的词法分析是采用概率词法分析***ICTCLAS切分所提取的网页正文内容得到词和词性。
所述原始数据库中建有两个表,一个是用于存放文档信息的文档索引表,另一个是按文档存放的词串表。
所述的阈值条件为:未曾出现在背景数据库的词在过滤数据库中的文档频率大于等于5,出现频率大于等于10次是新词。
所述的垃圾串的过滤,依照以下规则进行:
①对于新词候选里面出现功能词,则加以滤除;
②对于新词候选是由单个字组成的串,不予过滤;
③对于新词候选是由两个字以上的词与词组成的串以及由单个字和两字以上的词组成的串,串的词性序列一旦不符合下面的规则,则将被过滤掉;
形容词+形容词=形容词;
名词+名词=名词;
形容词+名词=名词;
④对于新词候选是单个词的,不予过滤。
本发明提供的中文新词语的检测***,该检测***利用一计算机基于Internet提取含有时间信息的网页信息检测新词,该计算机包括:
网页采集模块,用于采集指定新闻网站的网页,并按照网站结构存入硬盘;
网页处理模块,用于提取网页中正文的内容和时间、进行词法分析、执行重复串查找指令和生成原始数据库;
新词查找模块,用于对比原始数据库中给定的时间前后的词和串,生成符合阈值条件的新词候选列表,并进行新词候选列表的垃圾串过滤;
输出模块,用于输出检测出的不限长度和构成的新词语;
所述重复串的查找,首先搜索出网页正文内容中连续出现的次数大于1次以上的至少由两个符号组成的符号串,记录下每一种符号出现的所有的位置;然后,按照符号从少到多的顺序对尾字相同的符号串进行排序,当前一个串是后一个串的子串,且两者的频率完全一样时,将前一个串从数组中删除,归并得到文本中所有的重复串。
所述网页处理模块,首先是对其进行基于模板的网页内容和时间信息的提取,如果网页提取解析失败,则再进行一次基于特征的网页内容和时间信息的提取。
所述网页处理模块采用概率词法分析***ICTCLAS切分所提取的网页正文内容得到词和词性。
所述网页处理模块生成的原始数据库中建有两个表,一个是用于存放文档信息的文档索引表,另一个是按文档存放的词串表。
所述的阈值条件为:未曾出现在背景数据库的词在过滤数据库中的文档频率大于等于5,出现频率大于等于10次的重复串是新词。
所述的垃圾串的过滤,依照以下规则进行:
①对于新词候选里面出现功能词,则加以滤除;
②对于新词候选是由单个字组成的串,不予过滤;
③对于新词候选是由两个字以上的词与词组成的串以及由单个字和两字以上的词组成的串,串的词性序列一旦不符合下面的规则,则将被过滤掉:
形容词+形容词=形容词;
名词+名词=名词;
形容词+名词=名词;
④对于新词候选是单个词的,不予过滤。
本发明的优点在于:本发明中文新词语的检测方法及其检测***,与现有的技术相比,优点有:
1)引入词语的时间概念,可以寻找某个时间点以后的新词语。根据某个时间点将所有的词和重复串(其中包括多字词与多字词组成的串)划分成两个可供对比的集合,通过对比寻找某个时间点以后的新词语。
2)在对比的同时也已经将大部分常用的在一起的词与词搭配的重复串都滤掉了(比如“本报讯”等),起到了一部分过滤的作用。
3)可以寻找不限长度和构成的多字词与多字词组成的新词(比如“邪恶轴心”)。
4)利用词的构成规律来滤除垃圾串。
5)随着Internet的蓬勃发展,Internet上面蕴藏着海量的信息量,因此与从语料库中寻找新词相比,从Internet上寻找新词具有时效性高的特点。
附图说明
图1是依据本发明实现的***框架图
图2是网页处理模块实现的流程图
图3是新词查找模块实现的流程图
图4是图1中重复串查找的示意图
图5是图2中重复串查找的示意图
具体实施方式
下面通过实施例并结合附图描述本发明中文新词语的检测方法,如图1所示,其步骤为:
1、网页采集,利用了一个共享的网页采集软件Offline Explorer采集指定新闻网站的网页,并按照网站结构存入硬盘。网页的采集也可以利用其他的采集软件,只要该软件能够完成采集网页的任务就可以。
2、网页处理,如图2所示,分为四个步骤:
1)提取网页正文内容和时间信息;主要功能是从网页中提取正文的内容和正文的时间,在处理每一个网页时,先对其进行基于模板的网页内容和时间信息的提取,如果由于不存在该网页的模板或者现有的模板不匹配而导致基于模板的网页提取解析失败时,再进行基于特征的网页内容和时间信息的提取;采用两种提取网页内容和时间信息的方法,实现两者的集成可以取得比较好的效果。
2)词法切分;对提取出来的网页正文内容进行词法切分,用计算所开发的已公开发表的概率词法分析***ICTCLAS切分得到词和词性。
3)重复串查找;对经过词法切分的网页正文内容进行基于词的重复串查找,寻找出该篇文章中出现次数大于1次以上的所有重复串,这个过程又称为“基于词的重复串识别”,其目的是找出所有符合下列条件的串:①这些串是由文本中连续出现的符号串构成的;②这些串在文本中重复出现指定次数或以上;③这些串最少由两个符号组成,最大长度可以没有限制;④一个符号是一个词。
整个重复串算法分成两个过程:搜索串的过程和归并串的过程,搜索串的过程开始先扫描整个文本一遍,记录下每一种符号出现的所有的位置,依次对每一种符号的向后进行扫描,搜索结束后归并搜索中产生的子串,得到文本中所有的重复串。
如图4所示,这个扫描过程:(假定出现次数为2次及2次以上被认为是重复串)假设从x符号开始对后面进行扫描。x(p1,q1,r1)^表示x的后继位置是p1,q1,r1,同时也说明p1,q1,r1的前一个位置p0,q0,r0上的符号都相同。^表示可以继续扫描下去,!表示已经不需要扫描下去了,称x(p1,q1,r1)^为活跃结点,表示它还要继续从p1,q1,r1这三个位置扫描下去,于是继续扫描位置p1,q1,r1,比较这三个位置上的字符是否一样,得到y(p2,q2,r2)^,继续扫描p2,q2,r2这三个位置,***成z(p3,q3)^,w(r3)!两个,w(r3)!的!表明中止了,说明不能扫描下去了,此时要把w前面的xy作为一个串存入结果数组,而z(p3,q3)^仍旧是活跃结点,因此从p3,q3这两个位置继续扫描,生成u(p4)!和v(q4)!,这两个都不是活跃节点,所以将u和v以前的搜索所走过的符号xyz存入结果数组中,结束对x的搜索过程。依此类推,继续从另一种符号y开始搜索,直到所有种类的符号被搜索完为止。
如图5所示,对每一种符号搜索的过程其实是结点***,形成一棵树的过程。所形成的串就是从根走到叶子结点的父亲的所经过的符号集合。
搜索过程结束后,还有个归并的过程。归并是为了解决搜索中产生的子串的问题。因为搜索过程是对于每一种符号依次进行搜索的,所以如果有下面这一个串:abcd...abcd...abcd在文中出现3次,依次从a,b,c,d开始搜索,将产生出下面几个串:abcd,bcd,cd,归并就是要去掉bcd,cd这两个子串,bcd和cd的特点是频率和abcd频率完全一样,因此,对结果数组进行尾字排序,在结果数组中形成cd,bcd,abcd这种顺序,归并的时候,从数组头开始扫描,一旦前一个串是后一个串的子串,且两者的频率完全一样时,就把前一个串从数组中删除,最后的结果就是文本中所有的重复串了。
4)数据库存储
将寻找出的重复串和切分出来的词,再加上提取出来的正文时间信息一并存入原始数据库。串和词的存储是按照文档的顺序存入数据库,因此数据库中有两个表,一个表是文档索引表,存放文档信息,另一个表是词串表,按文档存放词和串。原始数据库的表的结构分别如下:
文档索引表的结构:
    字段名称     字段说明
    TextId     主键,自动递增
    SourceHtmlName     源html文件的带路径名称
    SourceDate     源html的日期
    PaperName     报纸名称
    Finished     指示这篇html是否处理完
词串表的结构:
    字段名称     字段说明
    ForeignTextId     对应上表中的TextId
    Cluster     切分的去标注的词或者查找出的串
    Pos     词性标注
    Freq     在该篇文章中的频率
3、新词查找,如图3所示,分为建立数据库和新词检测过滤两个步骤。
1)建立背景数据库和过滤数据库。
根据给定的时间,将原始数据库划分成背景数据库和过滤数据库,并且统计所有的词和串的总频率和文档频率,分别存入背景数据库和过滤数据库。
背景数据库的表的结构:
    字段名称     字段说明
    Word     词或者串
    Pos     词性标注
    TotalFreq     一共出现的频率
    DocFreq     文档频率
过滤数据库的表的结构:
    字段名称     字段说明
    Word     词或者串
    Pos     词性标注
    TotalFreq     一共出现的频率
    DocFreq     文档频率
    Paperpage1     该词所出现的报纸名称1
    Page1     该词所出现的报纸1中的具体网页
    Paperpage2     该词所出现的报纸名称2
    Page2     该词所出现的报纸2中的具体网页
    Paperpage3     该词所出现的报纸名称3
    Page3     该词所出现的报纸3中的具体网页
2)检测新词和自动过滤。
对过滤数据库中出现的每一个词或者串,寻找背景数据库中是否出现,如果背景数据库中未出现该词或串,则根据预先设定的频率和文档频率阈值来决定是否将其列入新词候选列表。
阈值条件可以根据情况调整,本例中,阈值设定条件是:如果过滤数据库中的某个词在背景数据库中未出现,并且其文档频率大于等于5,频率大于等于10次,则该词将被认为是新词候选。
生成所有的新词候选列表后,利用切分时的词性信息,采用自动过滤的方法,过滤垃圾串(即非新词的串)。自动过滤的方法主要是利用词性信息,根据新词候选的不同情况进行:
①对于新词候选里面出现功能词,则加以滤除;
②对于新词候选是由单个字组成的串,不予过滤;
③对于新词候选是由两个字以上的词与词组成的串以及由单个字和两字以上的词组成的串,串的词性序列一旦不符合下面的规则,则将被过滤掉:
形容词+形容词=形容词;
名词+名词=名词;
形容词+名词=名词;
④对于新词候选是单个词的,不予过滤。
最后生成的结果中包含新词,新词例句和新词的出处,由人工进行最后的确定。

Claims (12)

1、一种中文新词语的检测方法,该方法基于Internet提取含有时间信息的网页信息进行词法分析,查找出在网页中所有的重复串,并连同重复串的时间信息一并存入原始数据库,同时把词和词的时间信息也存入原始数据库,根据给定的时间,将原始数据库中该时间点前、后的所有重复串和词分别存入背景数据库和过滤数据库,对比背景数据库和过滤数据库中的词和串,生成符合阈值条件的新词候选列表,然后,根据构词的词性规则过滤新词候选列表中的垃圾串,最终检测出新词语;
所述重复串的查找,首先搜索出网页正文内容中连续出现的次数大于1次以上的至少由两个符号组成的符号串,记录下每一种符号出现的所有的位置;然后,按照符号从少到多的顺序对尾字相同的符号串进行排序,当前一个串是后一个串的子串,且两者的频率完全一样时,将前一个串从数组中删除,归并得到文本中所有的重复串。
2、按权利要求1所述的中文新词语的检测方法,其特征在于,所述网页信息的提取,首先是对其进行基于模板的网页内容和时间信息的提取,如果网页提取解析失败,则再进行一次基于特征的网页内容和时间信息的提取。
3、按权利要求1所述的中文新词语的检测方法,其特征在于,所述的词法分析是采用概率词法分析***ICTCLAS切分所提取的网页正文内容得到词和词性。
4、按权利要求1所述的中文新词语的检测方法,其特征在于,所述原始数据库中建有两个表,一个是用于存放文档信息的文档索引表,另一个是按文档存放的词串表。
5、按权利要求1所述的中文新词语的检测方法,其特征在于,所述的阈值条件为:未曾出现在背景数据库的词在过滤数据库中的文档频率大于等于5,出现频率大于等于10次是新词。
6、按权利要求1所述的中文新词语的检测方法,其特征在于,所述的垃圾串的过滤,依照以下规则进行:
①对于新词候选里面出现功能词,则加以滤除;
②对于新词候选是由单个字组成的串,不予过滤;
③对于新词候选是由两个字以上的词与词组成的串以及由单个字和两字以上的词组成的串,串的词性序列一旦不符合下面的规则,则将被过滤掉:
形容词+形容词=形容词;
名词+名词=名词;
形容词+名词=名词;
④对于新词候选是单个词的,不予过滤。
7、一种中文新词语的检测***,该检测***利用一计算机基于Internet提取含有时间信息的网页信息检测新词,该计算机包括:
网页采集模块,用于采集指定新闻网站的网页,并按照网站结构存入硬盘;
网页处理模块,用于提取网页中正文的内容和时间、进行词法分析、执行重复串查找指令和生成原始数据库;
新词查找模块,用于对比原始数据库中给定的时间前后的词和串,生成符合阈值条件的新词候选列表,并进行新词候选列表的垃圾串过滤;
输出模块,用于输出检测出的不限长度和构成的新词语;
所述重复串的查找,首先搜索出网页正文内容中连续出现的次数大于1次以上的至少由两个符号组成的符号串,记录下每一种符号出现的所有的位置;然后,按照符号从少到多的顺序对尾字相同的符号串进行排序,当前一个串是后一个串的子串,且两者的频率完全一样时,将前一个串从数组中删除,归并得到文本中所有的重复串。
8、按权利要求7所述的中文新词语的检测***,其特征在于,所述网页处理模块,首先是对其进行基于模板的网页内容和时间信息的提取,如果网页提取解析失败,则再进行一次基于特征的网页内容和时间信息的提取。
9、按权利要求7所述的中文新词语的检测***,其特征在于,所述网页处理模块采用概率词法分析***ICTCLAS切分所提取的网页正文内容得到词和词性。
10、按权利要求7所述的中文新词语的检测***,其特征在于,所述网页处理模块生成的原始数据库中建有两个表,一个是用于存放文档信息的文档索引表,另一个是按文档存放的词串表。
11、按权利要求7所述的中文新词语的检测***,其特征在于,所述的阈值条件为:未曾出现在背景数据库的词在过滤数据库中的文档频率大于等于5,出现频率大于等于10次的重复串是新词。
12、按权利要求7所述的中文新词语的检测***,其特征在于,所述的垃圾串的过滤,依照以下规则进行:
①对于新词候选里面出现功能词,则加以滤除;
②对于新词候选是由单个字组成的串,不予过滤;
③对于新词候选是由两个字以上的词与词组成的串以及由单个字和两字以上的词组成的串,串的词性序列一旦不符合下面的规则,则将被过滤掉:
形容词+形容词=形容词;
名词+名词=名词;
形容词+名词=名词;
④对于新词候选是单个词的,不予过滤。
CNB2004100006517A 2004-01-15 2004-01-15 一种中文新词语的检测方法及其检测*** Expired - Lifetime CN100555276C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNB2004100006517A CN100555276C (zh) 2004-01-15 2004-01-15 一种中文新词语的检测方法及其检测***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB2004100006517A CN100555276C (zh) 2004-01-15 2004-01-15 一种中文新词语的检测方法及其检测***

Publications (2)

Publication Number Publication Date
CN1641634A true CN1641634A (zh) 2005-07-20
CN100555276C CN100555276C (zh) 2009-10-28

Family

ID=34866841

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2004100006517A Expired - Lifetime CN100555276C (zh) 2004-01-15 2004-01-15 一种中文新词语的检测方法及其检测***

Country Status (1)

Country Link
CN (1) CN100555276C (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100405371C (zh) * 2006-07-25 2008-07-23 北京搜狗科技发展有限公司 一种提取新词的方法和***
WO2008144964A1 (en) * 2007-06-01 2008-12-04 Google Inc. Detecting name entities and new words
CN101794308A (zh) * 2010-03-04 2010-08-04 哈尔滨工程大学 一种面向有意义串挖掘的重复串提取方法及装置
CN101950306A (zh) * 2010-09-29 2011-01-19 北京新媒传信科技有限公司 新词发现中的字符串过滤方法
CN101706807B (zh) * 2009-11-27 2011-06-01 清华大学 一种中文网页新词自动获取方法
CN101645066B (zh) * 2008-08-05 2011-08-24 北京大学 一种互联网新颖词监测方法
CN102207946A (zh) * 2010-06-29 2011-10-05 天津海量信息技术有限公司 一种知识网络的半自动生成方法
CN102207948A (zh) * 2010-07-13 2011-10-05 天津海量信息技术有限公司 一种事件陈述句素材库的生成方法
CN102467548A (zh) * 2010-11-15 2012-05-23 腾讯科技(深圳)有限公司 一种新词的识别方法及***
CN102929862A (zh) * 2012-11-06 2013-02-13 深圳市宜搜科技发展有限公司 一种新词获取方法及***
CN103377217A (zh) * 2012-04-24 2013-10-30 苏州引角信息科技有限公司 专业英语词库的建构方法及***
CN107180025A (zh) * 2017-03-31 2017-09-19 北京奇艺世纪科技有限公司 一种新词的识别方法及装置
CN107391504A (zh) * 2016-05-16 2017-11-24 华为技术有限公司 新词识别方法与装置
WO2018054352A1 (zh) * 2016-09-23 2018-03-29 腾讯科技(深圳)有限公司 项集确定方法、装置、处理设备及存储介质
CN110866400A (zh) * 2019-11-01 2020-03-06 中电科大数据研究院有限公司 一种自动化更新的词法分析***

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100405371C (zh) * 2006-07-25 2008-07-23 北京搜狗科技发展有限公司 一种提取新词的方法和***
WO2008144964A1 (en) * 2007-06-01 2008-12-04 Google Inc. Detecting name entities and new words
CN101645066B (zh) * 2008-08-05 2011-08-24 北京大学 一种互联网新颖词监测方法
CN101706807B (zh) * 2009-11-27 2011-06-01 清华大学 一种中文网页新词自动获取方法
CN101794308A (zh) * 2010-03-04 2010-08-04 哈尔滨工程大学 一种面向有意义串挖掘的重复串提取方法及装置
CN102207946B (zh) * 2010-06-29 2013-10-23 天津海量信息技术有限公司 一种知识网络的半自动生成方法
CN102207946A (zh) * 2010-06-29 2011-10-05 天津海量信息技术有限公司 一种知识网络的半自动生成方法
CN102207948B (zh) * 2010-07-13 2013-07-24 天津海量信息技术有限公司 一种事件陈述句素材库的生成方法
CN102207948A (zh) * 2010-07-13 2011-10-05 天津海量信息技术有限公司 一种事件陈述句素材库的生成方法
CN101950306A (zh) * 2010-09-29 2011-01-19 北京新媒传信科技有限公司 新词发现中的字符串过滤方法
CN102467548B (zh) * 2010-11-15 2015-09-16 腾讯科技(深圳)有限公司 一种新词的识别方法及***
CN102467548A (zh) * 2010-11-15 2012-05-23 腾讯科技(深圳)有限公司 一种新词的识别方法及***
CN103377217A (zh) * 2012-04-24 2013-10-30 苏州引角信息科技有限公司 专业英语词库的建构方法及***
CN102929862A (zh) * 2012-11-06 2013-02-13 深圳市宜搜科技发展有限公司 一种新词获取方法及***
CN102929862B (zh) * 2012-11-06 2015-06-10 深圳市宜搜科技发展有限公司 一种新词获取方法及***
CN107391504A (zh) * 2016-05-16 2017-11-24 华为技术有限公司 新词识别方法与装置
CN107391504B (zh) * 2016-05-16 2021-01-29 华为技术有限公司 新词识别方法与装置
WO2018054352A1 (zh) * 2016-09-23 2018-03-29 腾讯科技(深圳)有限公司 项集确定方法、装置、处理设备及存储介质
CN107180025A (zh) * 2017-03-31 2017-09-19 北京奇艺世纪科技有限公司 一种新词的识别方法及装置
CN107180025B (zh) * 2017-03-31 2020-05-29 北京奇艺世纪科技有限公司 一种新词的识别方法及装置
CN110866400A (zh) * 2019-11-01 2020-03-06 中电科大数据研究院有限公司 一种自动化更新的词法分析***
CN110866400B (zh) * 2019-11-01 2023-08-04 中电科大数据研究院有限公司 一种自动化更新的词法分析***

Also Published As

Publication number Publication date
CN100555276C (zh) 2009-10-28

Similar Documents

Publication Publication Date Title
CN108829658B (zh) 新词发现的方法及装置
CN1641634A (zh) 一种中文新词语的检测方法及其检测***
CN101706807B (zh) 一种中文网页新词自动获取方法
CN1226717C (zh) 自动新词提取方法和***
CN105260359B (zh) 语义关键词提取方法及装置
CN1834955A (zh) 多语种翻译存储器、翻译方法以及翻译程序
CN1912872A (zh) 一种提取新词的方法和***
CN1910573A (zh) 用来识别并分类命名实体的***
CN1928862A (zh) 基于数据挖掘获取词或词组单元译文信息的***和方法
CN103729402A (zh) 一种基于图书目录的知识图谱的构建方法
CN101196898A (zh) 将词组索引技术应用在互联网搜索引擎中的方法
CN103440252B (zh) 一种中文句子中并列信息提取方法及装置
CN1193779A (zh) 中文语句分词方法及其在中文查错***中的应用
CN102915299A (zh) 一种分词方法及装置
CN103106227A (zh) 一种基于网页文本的新词查找***及方法
CN102955771A (zh) 中文单字串模式和词缀模式的新词自动识别技术及***
CN101079024A (zh) 一种专业词表动态生成***和方法
CN112527948B (zh) 基于句子级索引的数据实时去重方法及***
Crestan et al. Web-scale knowledge extraction from semi-structured tables
CN1601520A (zh) 识别文本文档中的有机化学名称的***和方法
CN102789464A (zh) 基于语意识别的自然语言处理方法、装置和***
CN107526841A (zh) 一种基于Web的藏文文本自动摘要生成方法
CN109885641B (zh) 一种数据库中文全文检索的方法及***
CN1627294A (zh) 用学习数据有效提取检索者合意的文档的过滤方法和设备
CN1916889A (zh) 语料库制作装置及其方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: HUAWEI TECHNOLOGY CO., LTD.

Free format text: FORMER OWNER: INSTITUTE OF COMPUTING TECHNOLOGY, CHINESE ACADEMY OF SCIENCES

Effective date: 20130528

C41 Transfer of patent application or patent right or utility model
COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: 100080 HAIDIAN, BEIJING TO: 518129 SHENZHEN, GUANGDONG PROVINCE

TR01 Transfer of patent right

Effective date of registration: 20130528

Address after: 518129 Bantian HUAWEI headquarters office building, Longgang District, Guangdong, Shenzhen

Patentee after: HUAWEI TECHNOLOGIES Co.,Ltd.

Address before: 100080 Haidian District, Zhongguancun Academy of Sciences, South Road, No. 6, No.

Patentee before: Institute of Computing Technology, Chinese Academy of Sciences

CX01 Expiry of patent term
CX01 Expiry of patent term

Granted publication date: 20091028