CN105488098B - 一种基于领域差异性的新词提取方法 - Google Patents

一种基于领域差异性的新词提取方法 Download PDF

Info

Publication number
CN105488098B
CN105488098B CN201510711219.7A CN201510711219A CN105488098B CN 105488098 B CN105488098 B CN 105488098B CN 201510711219 A CN201510711219 A CN 201510711219A CN 105488098 B CN105488098 B CN 105488098B
Authority
CN
China
Prior art keywords
word
field
candidate
difference
corpus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510711219.7A
Other languages
English (en)
Other versions
CN105488098A (zh
Inventor
史树敏
周新宇
黄河燕
史胜清
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN201510711219.7A priority Critical patent/CN105488098B/zh
Publication of CN105488098A publication Critical patent/CN105488098A/zh
Application granted granted Critical
Publication of CN105488098B publication Critical patent/CN105488098B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种基于领域差异性的新词提取的方法,属于自然语言处理应用技术领域。本发明首先通过比较不同领域间字分布的差异性,获得差异字种子,然后通过n‑gram方式拓展差异字种子,构建候选词集,接下来根据领域差异大小去除候选词集合中的重复词,最后对候选词集合中每一个词,分别以领域差异值、凝合度,以及成词率作为衡量标准,剔除领域差异较低的候选词得到新词。对比现有技术,本发明通过利用不同语料领域间差异信息,选取种子字,并通过n‑gram拓展获得候选词集合;然后再次利用词本身以及领域间差异信息,自动地选择候选词中的新词,从而明显提高了新词发现的数目和准确度。

Description

一种基于领域差异性的新词提取方法
技术领域
本发明涉及一种新词提取的方法,特别涉及一种基于领域差异性的新词提取的方法,属于自然语言处理应用技术领域。
背景技术
网络新词是指伴随着互联网出现并流行使用的一些特殊语言或文字。通常来源于影视网络热门用语,或因某一社会现象而产生的一些为大家所接受的用词。网络新词在网络领域文本,如:贴吧、微博中频繁出现。统计发现,中国每年超过1000个新词出现在人们的日常生活中。根据相关研究成果,超过60%的分词错误来自网络新词,新词识别的准确程度直接影响着智能信息处理***的性能。例如:在智能信息处理的文本情感分析任务中,固定词组搭配能够体现出情感极性,对于新词词组,如果无法对其正确识别,会导致所判断出的情感极性失真。如:“表达十分高大上”(这是一条产品的网友评论),这里“高大上”实际应该作为一个网络新词,整体来表示“高端大气上档次”的积极情感,然而目前几乎所有的应用***中,分词处理后形成的标注序列为“表达/v十分/adv高/adj大/adj上/adv”,即:将该网络新词切分成单字,错误的分词处理使该句丢失了积极情感倾向的含义,对后续信息的智能分析产生了严重影响。因此对新词的有效识别在自然语言处理领域中有着非常重要的意义。
目前,新词提取主要分为基于规则的方法和基于统计的方法两类。基于规则方法的主要思路是:着眼于新词的构词原理,将其作为理论依据并建立一个有助于识别新词的常用语料库;然后研究词语的自身语言特性,建造一个以词语的自然属性为基础的特殊构词规则库。基于规则的方法对新词的识别准确率较高,但需要极强的语言素养与相关领域知识背景。基于统计的方法实现新词识别主要有两种手段,一种是将新词提取作为分词必不可少的一部分,通过特定统计模型最终推断出最有可能的分隔点进而得到新词。经典的统计模型有条件随机场(Conditional Random Fields,CRF)、基于特征频率信息的梯度下降训练模型等。另一种手段是将新词提取作为一个单独的任务,通常需要做词性标注(Part-Of-Speech,POS)的预处理。由于网络新词具有实时性,流通性强、动态变化等特点,因此纯粹的基于规则的方法往往效果不佳;而完全采用统计手段获取网络新词也存在训练数据稀疏、有效特征抽取困难等不足。目前大部分研究者使用规则和统计相结合的方法,以期发挥各自的优势,然而这些方法都忽略了语料库本身的信息特征优势,即:相同词在不同领域主题之间的信息(内涵)差异,具体体现为不同领域主题下相同词对应的词分布表现不同。
发明内容
本发明针对网络中不断产生和使用的新词,提出一种基于领域差异性的新词提取方法,本方法充分利用不同领域语料自身的特性,在现有通用评价体系下,有效提高了新词识别的准确率。
本发明的思想是通过比较不同领域间字分布的差异性,获得差异字种子,通过n-gram方式拓展差异字,构建候选词集,然后对候选词集合中每一个词,分别以领域差异值、凝合度,以及成词率作为衡量标准,进一步提取得到新词。
本发明中涉及的相关定义如下:
定义1:领域差异字,指能够体现领域差异性的单字,该单字能反映领域特征,其在不同领域语料中出现频率有很大区别。如,若单字c在网络语料中出现频率finternet(c)与在新闻领域中出现频率fnews(c)之比超过阈值λ,则称c为领域差异字。对于单字成词的语言现象,若其能够体现出差异性。本发明亦认定其具有词分布的差异表现。
定义2:重复词,当词WA和词WB满足条件称WB和WA互为重复词。如:“喜大普奔”(WA)与“大普奔”(WB)。
定义3:领域差异值DV(Difference Value),领域差异性的度量,利用词W在网络语料出现频率finternet(W)与新闻语料出现频率fnews(W)计算得出;其中finternet(W)表示词W在网络语料中出现频率,fnews(W)表示词W在新闻语料中出现频率。
定义4:凝合度CV(Concrete Value),衡量词被正确切分的量化指标。如“电影院”有“电影”+“院”和“电”+“影院”两种凝合方式。对任意词W=c1c2(其中,c1或c2表示构成该词的字或者词),通过枚举其所有可能的凝合方式,计算对应权值,取其中最小值,作为该词凝合度。
定义5:成词率NWP(New Word Probability),判断某单字序列是否组成词语的指标。如:“爱说”、“爱吃”均由单字组成,但NWP很低,即表示二者均不构成词。
本发明的的目的是通过以下步骤实现的:
一种基于领域差异性的新词提取方法,包括以下步骤:
步骤一,将待获取新词的某领域输入语料S1与其它领域语料S2进行对比获取领域差异字种子;
作为优选,通过以下步骤得到领域差异字种子:
(1)分别统计S1和S2中每一个字“c”出现的频率fs1(c)和fs2(c);
(2)通过下述公式计算每个字在S1和S2中的差异值:
Dword_seg(c)=fs1(c)/1+fs2(c)
(3)设定阈值λ,如果字“c”的差异值Dword_seg(c)超过阈值λ,将字“c”作为差异字种子。
步骤二,拓展领域差异字种子,构建候选词集合Setcandidate
作为优选,通过以下步骤采用n-gram方式进行拓展,具体过程如下:
(1)在语料S1中,分别取n=2,3,4,5,获取其对应的所有的n-gram词,对这些n-gram词,如果包含有任意差异字,则保留,并统计这些n-gram词出现频率,加入候选词集合Setcandidate
(2)对候选词集合Setcandidate中所有候选词W,与预设阈值比较,如果其词频在候选词集合Setcandidate中删去W;
步骤三:根据候选词的领域差异大小去除候选词集合Setcandidate中的重复词;
作为优选,候选词W的领域差异可以通过以下公式计算:
DV(W)=log(1+fs1(W)/(1+fs2(W)))
其中fs1(W)表示W在语料S1中出现的频率,fs2(W)表示词W在语料S2中出现的频率。
进一步的,为了得到更好的去重效果,重复词的领域差异可以综合考虑凝合度与领域差异值得到,即根据定义2,找出候选词集合SetCandidate中所有的重复词,对重复词进行比较,选出重复词中权重较大的保留,较小的舍弃;重复该过程直到候选词集合SetCandidate中不再含有重复词,具体过程如下:
(1)根据定义2,取n=2,3,4,5,对SetCandidate中所有词比较,找出所有重复词,n表示SetCandidate集合的词中包含的单字个数;
(2)根据定义3、定义4计算每个重复词的凝合度CV(W)和领域差异值DV(W),其计算公式分别如下:
凝合度:
领域差异值:
DV(W)=log(1+fs1(W)/(1+fs2(W)))
进一步地,对重复词两两比较如下公式所示加权后权值V大小,留下权值较大的词:
V(W)=αn*DV(W)+CV(W)
其中,a为参数,表示不同n-gram之间所允许的差异的度量,n表示词W中单字数目,ci表示词W中第i个字或词,w1和w2为互为重复的两个词。
(3)重复进行步骤(1)、(2),直到候选词集合中不再含有重复词。
步骤四、去除SetCandidate中领域差异较低的候选词,将高于预设阈值γ的候选词加入新词集合Y并输出得到所有新词。
作为优选,候选词W的领域差异可以通过以下公式计算:
DV(W)=log(1+fs1(W)/(1+fs2(W)))
其中fs1(W)表示W在语料S1中出现的频率,fs2(W)表示词W在语料S2中出现的频率。
进一步的,所述领域差异可以通过对候选词集合Setcandidate中的每一个候选词,分别根据定义3、4、5,计算其领域差异值(DV),成词率(NWP)以及凝合度(CV),并将其按一定的比例综合来表征,具体如下:
(1)根据下式计算候选词W差异值DV(W):
DV(W)=log(1+fs1(W)/(1+fs2(W)))
(2)根据下式计算候选词W成词率NWP(W):
其中,f(ci)表示W中单字ci出现频率;Single(ci)表示使用分词工具后,ci出现频率;
(3)根据下式计算候选词W凝合度CV(W):
(4)将差异值(DV)、成词率(NWP),及凝合度(CV)分别进行归一化处理,归一化公式如下:
其中,Xj对应第j个词当前值(差异值,成词率或者凝合度)、Xmin表示所有词中该值的最低值、Xmax表示所有词中该值的最高值;
(5)根据下式计算候选词W权重V:
V(W)=a*DV(W)+b*CV(W)+c*NWP(W)
其中,a、b和c分别表示差异值、凝合度、成词率占权重V的比例。
有益效果
本发明对比现有技术,通过利用不同语料领域间差异信息,选取种子字,并通过n-gram拓展获得候选词集合;然后再次利用词本身以及领域间差异信息,自动地选择候选词中的新词,从而明显提高了新词发现的数目和准确度。
附图说明
图1为本发明实施例一种基于领域差异性的新词提取方法的流程示意图;
图2为本发明方法与现有四种新词提取方法在新词识别数量以及准确率方面的对比结果示意图。
具体实施方式
下面结合附图与实施例对本发明方法做进一步详细说明。
实施例
本实施例以网络语料作为S1、新闻语料作为S2为例对本发明方法进行详细说明。
网络语料选择如表1所示贴吧中的一个帖子:
表1:
新闻语料选择如表2所示2001年4月4日某新闻:
表2:
一种基于领域差异性的新词提取方法,其处理流程如图1所示,包括以下步骤:
步骤一、获取领域差异字种子:
领域差异字即是在一种语料中出现次数明显多于其它语料的字,获取领域差异字的方式多种多样,本实施简单的以字在两种语料中出现的频次差是否高于某预设阈值来判定是否将其作为领域差异字种子,具体如下:
分别统计网络语料中每一个字出现的频次以及其在新闻语料中出现的频次;然后计算二者的差异值,最后设定阈值λ为2,将差异值大于等于λ的字作为差异字;得到差异字集合如表3所示:
表3:
步骤二、拓展差异字种子,获取候选词集合
对差异字进行拓展来获取候选词的方式多种多样,如通过字典或采用n-gram方式进行拓展,本实施例中采用n-gram方式,具体如下:在网络语料中,分别取n=2、3、4或5,获取所有的n-gram组合词串,对这些n-gram词,如果包含有任意差异字,则保留,如果是无意义词串,则删除。如:“好漂亮的喵星人”,可以分别提取出如下n-gram形式:
2-gram{“好漂”,“漂亮”,“亮的”,“的喵”,“喵星”,“星人”},
3-gram{“好漂亮”,“漂亮的”,“亮的喵”,“的喵星”,“喵星人”},
4-gram{“好漂亮的”,“漂亮的喵”,“亮的喵星”,“的喵星人”},以及5-gram{“好漂亮的喵”,“漂亮的喵星”,“亮的喵星人”}
然后,分别统计这些n-gram的词频,设置阈值当词语W词频f(W)超过阈值且包含上述任一差异字时,选为候选词,最终得到的候选词集合如表4所示:
表4:
步骤三、去除重复词。
首先根据定义2,找出候选词集合SetCandidate所有的重复词;下面为以“喵星人”为例找出的所有重复词:{喵星,喵星人},{星人,喵星人},{喵星人,的喵星人},{喵星人,爱的喵星人};
其次根据两两重复词之间的领域差异大小保留领域差异较大候选词;在此,领域差异可以简单的以候选词在两种语料中出现的频次来表征,本实施例中为克服简单的频次差带来的因语料不同的影响,采用二者比值求对数来表征,如下公式所示:
DV(W)=log(1+fs1(W)/(1+fs2(W)))
进一步的,实验结果证明,如果领域差异不但能考虑如上公式所示领域差异值DV,还能考虑凝合度CV的话将能得到更好的去重效果,即领域差异通过如下公式所示二者综合之后的权值得到:
V(W)=αn*DV(W)+CV(W)
因此,根据定义3、4,计算以上每个词的凝合度以及差异值。以{喵星人,爱的喵星人}为例去除重复词,喵星人词频为6,爱的喵星人词频为3,在新闻语料中词频均为0,则:
DV(喵星人)=log((6+1)/(0+1))=0.845
DV(爱的喵星人)=log((3+1)/(0+1))=0.602
CV(喵星人)有“喵”+“星人”和“喵星”+“人”两种凝合方式,其凝合度值分别为
CV(“喵”+“星人”)=6/(8*6)=0.125
CV(“喵星”+“人”)=6/(6*7)=0.143.
取其较小值作为词语“喵星人”凝合度
CV(喵星人)=0.125
同理CV(爱的喵星人)有“爱”+“的喵星人”、“爱的”+“喵星人”、“爱的喵”+“星人”、“爱的喵星”+“人”四种凝合方式。
其凝合度值分别为:
CV(“爱”+“的喵星人”)=3/(4*4)=0.185
CV(“爱的”+“喵星人”)=3/(3*6)=0.167
CV(“爱的喵”+“星人”)=3/(3*6)=0.167
CV(“爱的喵星”+“人”)=3/(3*7)=0.143取其较小值作为词语“爱的喵星人”凝合度
CV(爱的喵星人)=0.143
取a参数为1.1
V(喵星人)=0.845*1.13+0.125=1.249
V(爱的喵星人)=0.602*1.15+0.143=1.113
所以在本次候选词去重中保留“喵星人”,删去“爱的喵星人”。对SetCandidate中所有的重复词,执行步骤三,直至没有重复词产生。最终确定的候选词如表5所示:
表5:
步骤四、根据领域差异筛选候选词得到新词集合并输出。
同步骤三,所述领域差异可以通过候选词在不同语料间频次比值取对数后表征,但经实验证明,如果领域差异能够综合考虑领域差异值DV、成词率NWP以及凝合度CV,按照如下公式所示将三者按照一定的比例综合的话将取得更好的效果:
V(W)=a*DV(W)+b*CV(W)+c*NWP(W)
对候选词集合SetCandidate中的每一个候选词,分别根据定义3、4、5,计算其领域差异值,成词率以及凝合度:
仍以“喵星人”一词为例:
差异值:DV(喵星人)=log((6+1)/(0+1))=0.845
凝合度:CV(喵星人)=6/(8*6)=0.125(取“喵”+“星人”得最低)
成词率:
本实施例采用ICTCLAS分词工具将上文分词后得到single(喵)=8,single(星)=6,single(人)=7;又f(喵)=8,f(星)=6,f(人)=7,f(喵星人)=6;因此
进一步的,为取得更好的提取效果,需要将以上三种值进行归一化后再综合得到领域差异的权值;
表5所示7个词中三种值的最大、最小值分别为:
DVmax=0.903;DVmin=0.176;
CVmax=0.25;CVmin=0.071;
NWPmax=1;NWPmin=0;
归一化后,“喵星人”三种值分别为:
取a=0.6,b=0.4,c=-0.2;
V喵星人=0.6*0.920+0.4*0.302-0.2*0=0.6728
由此得到表5所示所有的词的领域差异如表6所示:
表6:
取阈值γ=0.4,滤除所有领域差异低于阈值γ的词得到新词集合为{楼主,喵星人,玲体}。
实验结果:
为了验证本发明实施例基于领域差异性的新词提取方法的有效性,本实验采用新浪微博6月6-8日三天微博,共计10,237,813条,以及百度“李毅大帝吧”共计3,524,584个帖子作为网络语料,使用***1993年到2004年所有发布的新闻数据,共计9,517,292个句子作为新闻语料,分别利用现有新词提取方法CV、NWP、EMI、PNWD以及本发明提出的DV以及DV+CV+NWP方法在新词识别数量以及准确率方面进行对比,对比结果如图2所示。
CV和NWP为本领域技术人员普遍了解的新词提取统计方法,此处不再赘述。
EMI:Zhang等人于2009年提出的Enhanced Mutual Information算法,其公式:
其中,词语W=w1w2…wn,wi为构成词语的每一个字,n为构成词语的字的个数。F表示词语W出现次数,Fi表示字wi出现次数。该算法思想在于衡量词语对每个字的依赖性,值越大,则成为词语的可能性越大。
PNWD:Huang等人于2014年提出的基于模式的新词识别(Patten New WordDetection)算法。该算法核心思想是利用POS标注信息并通过种子词汇自动地选择符合短语模式如<ad,*,au>的模型,再通过这些模型自动提取出新出现词汇的方法。
如图2所示,图中x轴表示前k个词,y轴表示前k个词的平均准确率AP(k)。由图中可以看到,与基准实验EMI相比,CV,NWP,DV,DV+CV+NWP均取得更好的效果,与基准实验PNWD相比,DV和DV+CV+NWP效果更好,而CV和NWP在结果集合较小时,准确度比PNWD稍差,而随着结果数据的扩大,CV和NWP又有着明显的提升。这是因为PWND只能发现形容词性的新词,而忽略了其他词性的新词,所以,在高效的识别出形容词性的新词后,PWND对于其他词性的新词识别率下降。对于DV,取得非常好的效果,主要因为该方法充分利用了不同领域之间差异性,而新词很能体现这种领域差异性。对于CV和NWP,其识别准确率稍差,主要因为CV和NWP对于2-gram词汇判断稍差,对2-gram词汇,会把他分成2个单字,而单字出现的概率很大,造成2-gram的这2个值极低,不易被识别,而新词中2-gram词汇有很大一部分,故而该2种方法效果不太理想。DV+CV+NWP综合了DV,CV以及NWP三种方法的优势,得到最好的结果。因此,与传统方法相比,本发明提出的基于领域差异性的新词提取方法能得到更高准确率和发现更多的新词。
以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都在要求保护的本发明范围内,本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (8)

1.一种基于领域差异性的新词提取方法,其特征在于,包括以下步骤:
步骤1、将待获取新词的某领域输入语料S1与其它领域语料S2进行对比获取领域差异字种子;所述领域差异字,指能够体现领域差异性的单字,即若单字c在某类领域语料中出现频率finternet(c)与在另一类领域语料中出现频率fnews(c)之比超过阈值λ,则称c为领域差异字;
步骤2、通过n-gram方式拓展领域差异字种子,构建候选词集合SetCandidate,具体过程如下:
(1)在语料S1中,分别取n=2,3,4,5,获取其对应的所有的n-gram词,对这些n-gram词,如果包含有任意领域差异字,则保留,并统计这些n-gram词出现频率,加入候选词集合SetCandidate
(2)对候选词集合SetCandidate中所有候选词W,与预设阈值比较,如果其词频在候选词集合SetCandidate中删去W;步骤3、根据候选词的领域差异大小去除候选词集合SetCandidate中的重复词;
所述候选词W的领域差异通过以下公式计算:
DV(W)=log(1+fs1(W)/(1+fs2(W)))
其中fs1(W)表示词W在语料S1中出现的频率,fs2(W)表示词W在语料S2中出现的频率;
步骤4、去除SetCandidate中领域差异较低的候选词,将高于预设阈值γ的候选词加入新词集合Y并输出得到所有新词。
2.根据权利要求1所述的一种基于领域差异性的新词提取方法,其特征在于,所述领域差异字种子通过以下过程获取:
(1)分别统计S1和S2中每一个字“c”出现的频率fs1(c)和fs2(c);
(2)通过下述公式计算每个字在S1和S2中的差异值:
Dword_seg(c)=fs1(c)/fs2(c)
(3)设定阈值λ,如果字“c”的差异值Dword_seg(c)超过差异阈值λ,将字“c”作为差异字种子。
3.根据权利要求2所述的一种基于领域差异性的新词提取方法,其特征在于,λ=2。
4.根据权利要求1-3任一所述的一种基于领域差异性的新词提取方法,其特征在于,所述根据领域差异大小去除候选词集合SetCandidate中的重复词通过以下步骤进行:
(1)取n=2、3、4或5,对SetCandidate中所有词进行比较,找出所有重复词,n表示SetCandidate集合的词中包含的字的个数;
(2)对于找到的重复词综合考虑凝合度CV以及领域差异值DV通过下式计算其权重V,并保留权重较大的词、去除权重较小的词从而达到去重的目的:
V(W)=αn*DV(W)+CV(W);
DV(W)=log(1+fs1(W)/(1+fs2(W)));
其中,α为参数,表示不同n-gram之间所允许的差异的度量,ci表示词W中第i个字或词,且W=c1c2;其中,f(W)表示词W在文本语料中出现的频率;
(3)重复进行步骤(1)、(2),直到候选词集合中不再含有重复词。
5.根据权利要求4所述的一种基于领域差异性的新词提取方法,其特征在于,α =1.1。
6.根据权利要求1-3任一所述的一种基于领域差异性的新词提取方法,其特征在于,所述去除SetCandidate中领域差异较低的候选词中的“领域差异”为将领域差异值DV、成词率NWP以及凝合度CV按一定的比例综合后的值,即权重V,具体通过以下过程得到:
(1)根据下式计算候选词W差异值DV(W):
DV(W)=log(1+fs1(W)/(1+fs2(W)))
(2)根据下式计算候选词W成词率NWP(W):
其中,f(ci)表示字ci出现频率;Single(ci)表示使用分词工具后,ci出现频率;i表示构成W的字词的标号,n表示构成词W的所有字词的数量;
(3)根据下式计算候选词W凝合度CV(W):
(4)将差异值(DV)、成词率(NWP),及凝合度(CV)分别进行归一化处理,归一化公式如下:
其中,Xj对应第j个词当前值,所述当前值为差异值、成词率或者凝合度、Xmin表示所有词中该值的最低值、Xmax表示所有词中该值的最高值;
(4)根据下式计算候选词W权重V:
V(W)=a*DV(W)+b*CV(W)+c*NWP(W)
其中,a、b和c分别表示差异值、凝合度、成词率占权重V的比例。
7.根据权利要求6所述的一种基于领域差异性的新词提取方法,其特征在于,a=0.6,b=0.4,c=-0.2。
8.根据权利要求1-3、5或7任一所述的一种基于领域差异性的新词提取方法,其特征在于,γ=0.4。
CN201510711219.7A 2015-10-28 2015-10-28 一种基于领域差异性的新词提取方法 Active CN105488098B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510711219.7A CN105488098B (zh) 2015-10-28 2015-10-28 一种基于领域差异性的新词提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510711219.7A CN105488098B (zh) 2015-10-28 2015-10-28 一种基于领域差异性的新词提取方法

Publications (2)

Publication Number Publication Date
CN105488098A CN105488098A (zh) 2016-04-13
CN105488098B true CN105488098B (zh) 2019-02-05

Family

ID=55675073

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510711219.7A Active CN105488098B (zh) 2015-10-28 2015-10-28 一种基于领域差异性的新词提取方法

Country Status (1)

Country Link
CN (1) CN105488098B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106126495B (zh) * 2016-06-16 2019-03-12 北京捷通华声科技股份有限公司 一种基于大规模语料提词方法和装置
CN108845982B (zh) * 2017-12-08 2021-08-20 昆明理工大学 一种基于词的关联特征的中文分词方法
CN110634145B (zh) * 2018-06-22 2022-04-12 日日顺供应链科技股份有限公司 基于图像处理的仓库盘点方法
CN110472140B (zh) * 2019-07-17 2023-10-31 腾讯科技(深圳)有限公司 对象词推荐方法、装置及电子设备
CN112668331A (zh) * 2021-03-18 2021-04-16 北京沃丰时代数据科技有限公司 一种专有词挖掘方法、装置、电子设备及存储介质
CN113051912B (zh) * 2021-04-08 2023-01-20 云南电网有限责任公司电力科学研究院 一种基于成词率的领域词识别方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1340804A (zh) * 2000-08-30 2002-03-20 国际商业机器公司 自动新词提取方法和***
CN101119334A (zh) * 2007-09-21 2008-02-06 腾讯科技(深圳)有限公司 一种获取新词的方法、***及设备
CN102708147A (zh) * 2012-03-26 2012-10-03 北京新发智信科技有限责任公司 一种科技术语的新词识别方法
CN103294664A (zh) * 2013-07-04 2013-09-11 清华大学 开放领域新词发现的方法及***

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1340804A (zh) * 2000-08-30 2002-03-20 国际商业机器公司 自动新词提取方法和***
CN101119334A (zh) * 2007-09-21 2008-02-06 腾讯科技(深圳)有限公司 一种获取新词的方法、***及设备
CN102708147A (zh) * 2012-03-26 2012-10-03 北京新发智信科技有限责任公司 一种科技术语的新词识别方法
CN103294664A (zh) * 2013-07-04 2013-09-11 清华大学 开放领域新词发现的方法及***

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
A Method f or Automatic POS Guessing of Chinese Unknown Words;Qiu L等;《Proceedings of the 22nd International Conference on Computational Linguistics》;20081231;第705-712页
New Word Detection for Sentiment Analysis;Minlie Huang等;《Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics》;20141231;第531–541页
一种快速获取领域新词语的新方法;刘华;《中文信息学报》;20061231;第17-23页
中文新词识别技术综述;张海军等;《计算机科学》;20100331;第6-10页
基于N-Gram的专业领域中文新词识别研究;段宇锋等;《现代图书情报技术》;20121231;第41-47页
面向互联网数据的新词发现平台的设计与实现;杜聪慧;《万方数据》;20140331;第1-60页

Also Published As

Publication number Publication date
CN105488098A (zh) 2016-04-13

Similar Documents

Publication Publication Date Title
CN105488098B (zh) 一种基于领域差异性的新词提取方法
CN109241538B (zh) 基于关键词和动词依存的中文实体关系抽取方法
CN106156204B (zh) 文本标签的提取方法和装置
CN109815336B (zh) 一种文本聚合方法及***
CN108920456A (zh) 一种关键词自动抽取方法
CN107608999A (zh) 一种适用于自动问答***的问句分类方法
CN103793447B (zh) 音乐与图像间语义相似度的估计方法和估计***
CN106933972B (zh) 利用自然语言处理技术定义数据元素的方法以及装置
CN107480122A (zh) 一种人工智能交互方法及人工智能交互装置
CN107992542A (zh) 一种基于主题模型的相似文章推荐方法
CN112989802B (zh) 一种弹幕关键词提取方法、装置、设备及介质
CN106202211A (zh) 一种基于微博类型的集成微博谣言识别方法
CN108804595B (zh) 一种基于word2vec的短文本表示方法
CN107688630B (zh) 一种基于语义的弱监督微博多情感词典扩充方法
CN106126605B (zh) 一种基于用户画像的短文本分类方法
CN110502742A (zh) 一种复杂实体抽取方法、装置、介质及***
CN109214445A (zh) 一种基于人工智能的多标签分类方法
CN110134781A (zh) 一种金融文本摘要自动抽取方法
CN107341142B (zh) 一种基于关键词提取分析的企业关系计算方法及***
CN114048310A (zh) 基于lda主题ap聚类的动向情报事件时间线提取方法
Song et al. A novel automatic ontology construction method based on web data
CN112528640A (zh) 一种基于异常子图检测的领域术语自动抽取方法
CN104331396A (zh) 一种智能识别广告的方法
CN110413985B (zh) 一种相关文本片段搜索方法及装置
CN108920475A (zh) 一种短文本相似度计算方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant