CN103116573A - 一种基于词汇注释的领域词典自动扩充方法 - Google Patents

一种基于词汇注释的领域词典自动扩充方法 Download PDF

Info

Publication number
CN103116573A
CN103116573A CN2013100466473A CN201310046647A CN103116573A CN 103116573 A CN103116573 A CN 103116573A CN 2013100466473 A CN2013100466473 A CN 2013100466473A CN 201310046647 A CN201310046647 A CN 201310046647A CN 103116573 A CN103116573 A CN 103116573A
Authority
CN
China
Prior art keywords
node
field
vocabulary
dictionary
language material
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2013100466473A
Other languages
English (en)
Other versions
CN103116573B (zh
Inventor
黄河燕
史树敏
朱朝勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN201310046647.3A priority Critical patent/CN103116573B/zh
Publication of CN103116573A publication Critical patent/CN103116573A/zh
Application granted granted Critical
Publication of CN103116573B publication Critical patent/CN103116573B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明涉及到一种基于词汇注释的领域词典自动扩充方法,属于自然语言处理技术领域。其步骤为:①通过分析领域词典所属领域间的相关度,生成一棵领域分类树。②为每一个待扩充的领域词典获取一个训练集。③对训练集进行预处理,得到语料特征集。④统计每个节点对应的语料特征集中每个词汇在该语料特征集中出现的次数以及其子节点对应的语料特征集中包含某一词汇的语料特征集的个数。⑤计算各语料特征集中每个词汇的置信度。⑥将新词汇加入到待扩充的领域词典中。本发明提出的基于词汇注释的领域词典自动扩充方法不需要人工搜集领域语料库,因此避免了受领域语料库的质量和规模的局限以及领域语料库非平衡性的影响。

Description

一种基于词汇注释的领域词典自动扩充方法
技术领域
本发明涉及到一种领域词典的自动扩充方法,特别涉及一种基于词汇注释的领域词典自动扩充方法,属于自然语言处理技术领域。
背景技术
领域词典(Domain Dictionary)是指特定领域特有的术语或表达方式的集合。领域词典是自然语言处理的基本资源,领域知识被广泛应用于机器翻译、信息检索、数据挖掘以及文本分类等多种任务的词义消歧、句法分析等环节,领域词典的规模及质量直接关系到相关应用的性能。
领域词典的构建和扩充方法按照自动化程度可以分为三类:基于专家知识的人工构建和扩充方法,半自动生成和扩充方法和全自动生成和扩充方法。人工构建和扩充方法准确率高,但是需要大量的领域专家长时间参与,人工成本和时间成本太高,且缺乏实时性。全自动生成和扩充方法通过分析词汇在不同领域语料库中统计特性的差异,判定词汇的领域属性,该方法无需领域专家的参与,节省了大量的人工成本,但是词典收录的准确率不高。半自动的生成和扩充方法介于人工编撰和全自动生成方法之间,通过领域专家指定少量的领域知识,实现领域词典的自动扩充。现有的半自动和全自动的领域词典方法大多需要领域语料库的支持,所生成的领域词典的质量依赖于所采用的领域语料库的质量,领域词典的完备性受到领域语料库规模的限制,同时,考虑到语料库非平衡性的影响,词语的领域标注更容易向语料库规模大的领域偏斜。上述两种方法都未能有效地利用已有的词典资源,并且未考虑领域之间的相关性。
发明内容
本发明的目的是针对目前已有领域词典自动扩充方法存在的不足,提出一种基于词汇注释的领域词典自动扩充方法。
本发明的目的是通过如下技术方案实现的。
一种基于词汇注释的领域词典自动扩充方法,其具体操作步骤为:
步骤一、通过分析领域词典所属领域间的相关度,生成一棵领域分类树。具体为:
步骤1.1:用符号D表示待处理节点集合,并设定待处理节点集合的初始状态为空;
步骤1.2:将每个待扩充的领域词典分别作为一个节点放入到待处理节点集合中。节点名称为该领域词典的名称,节点内容为该领域词典中的全部词条;所述词条包括词汇及该词汇的解释信息。
步骤1.3:通过公式(1)分别计算待处理节点集合中的任意两个节点所代表的领域词典所属领域间的相关度,用符号R(d1,d2)表示。
R ( d 1 , d 2 ) = | d 1 ∩ d 2 | min ( | d 1 , d 2 | ) - - - ( 1 )
其中,R(d1,d2)表示待处理节点集合中某一领域词典(用符号D1表示)的所属领域(用符号d1表示)和另一领域词典(用符号D2表示)的所属领域(用符号d2表示)的相关度;|d1∩d2|表示领域词典D1和领域词典D2所包含的相同词汇的个数;min(|d1,d2|)表示领域词典D1和领域词典D2中数量较少的领域词典所包含的词汇个数。
步骤1.4:从步骤1.3中得到的待处理节点集合中的任意两个节点所代表的领域词典间的相关度R(d1,d2)中找出最大值,用符号Rmax表示;该最大值Rmax对应的两个领域词典分别用符号D1′和D2′表示,领域词典D1′和D2′的所属领域分别用符号d1′和d2′表示,领域词典D1′和D2′的中的内容分别用符号c1和c2表示。
步骤1.5:将领域词典D1′和D2′中的词条和并,并给和并后的词典定义一个新的名称,用Dnew表示;该和并后的词典Dnew的内容用符号cnew表示,cnew=c1∪c2。然后建立一个新节点,新节点的名称为Dnew,新节点的内容为cnew。领域词典D1′和D2′作为节点Dnew的子节点。
步骤1.6:将新节点Dnew加入到待处理节点集合中,并将节点D1′和D2′从待处理节点集合中删除。
步骤1.7:统计待处理节点集合中节点的个数,用符号N表示。如果N≥2,则返回到步骤1.3;否则,结束操作。
经过上述步骤的操作,即得到一棵领域分类树。
步骤二、为每一个待扩充的领域词典获取一个训练集。
此步骤可以与步骤一同步操作:确定一个带注释的通用电子词典,然后对于每个待扩充的领域词典中的词汇,分别做如下操作:依次从带注释的通用电子词典中查找该领域词典中的每个词汇,然后将每个词汇对应的注释作为一条训练数据放入该领域对应的训练集中,即可得到该领域的训练集。
经过步骤二的操作,对应一个待扩充的领域词典,可得到一个待扩充的领域词典所属领域对应的训练集。
步骤三、对训练集进行预处理,得到语料特征集。
在步骤二操作的基础上,依次对每个待扩充的领域词典的训练集中的训练语料进行预处理,得到该领域的训练集对应的语料特征集,具体为:对某一个领域的训练集中的每条训练数据进行分词、短语抽取、词形还原以及去停用词等预处理,获得该条训练数据对应的一组词汇,称为语料特征子集。该领域的训练集中的全部训练数据对应的语料特征子集的集合称为该领域词典对应的语料特征集。
步骤四、在步骤一和步骤三的基础上,对于步骤一得到的领域分类树上的叶子节点,统计每个叶子节点对应的语料特征集中每个词汇在该语料特征集中出现的次数。对于非叶子节点,首先将每个非叶子节点的子节点的语料特征集进行和并,将合并的结果作为该非叶子节点的语料特征集,然后统计以下数据:①该非叶子节点的语料特征集中每个词汇在该非叶子节点的语料特征集中出现的次数;②对于该非叶子节点的语料特征集中每个词汇,该非叶子节点的子节点对应的语料特征集中包含该词汇的语料特征集的个数。
步骤五、在步骤四操作的基础上,根据公式(2)计算各语料特征集中每个词汇的置信度。
wdc = wd Σwd × log ( wd dt + 1 ) - - - ( 2 )
其中,wdc表示某一领域(用符号d表示)对应的语料特征集中的某一个词汇(用符号w表示)的置信度;wd表示词汇w在领域d中出现的次数;Σwd表示词汇w所在的语料特征集的对应节点的父节点对应的语料特征集中出现的总次数;dt表示词汇w所在的语料特征集的对应节点的兄弟节点对应的语料特征集中包含该词汇w的语料特征集的个数。
步骤六、将新词汇加入到待扩充的领域词典中。
在步骤五操作的基础上,将步骤二中所述带注释的通用电子词典中新收录的词汇作为新词汇,添加到待扩充的领域词典中,具体操作步骤为:
步骤6.1:对新词汇的注释进行分词、短语抽取、词形还原以及去停用词等预处理,获得该词汇注释对应的一组词汇,用n表示该组词汇的数量。
步骤6.2:将领域分类树中的根节点作为当前节点。
步骤6.3:根据公式(3)依次计算新词汇与领域分类树中的当前节点的每一个子节点对应的领域之间的归属度,并找出其中的最大值,用符号sdcmax表示。
sdc k = m k × Π j = 1 n wdc jk - - - ( 3 )
其中,sdck表示新词汇与领域分类树中当前节点的每个子节点对应的领域(用符号k表示)之间的归属度;wdcjk表示新词汇注释对应的一组词汇中第j个词汇与领域k的置信度;mk表示新词汇注释对应的n个词汇中,在领域k的置信度最高的个数。
步骤6.4:如果步骤6.3得到的归属度的最大值sdcmax大于预先指定的阈值,则进一步判断该最大值sdcmax对应的节点是否为叶子节点,如果是叶子节点,则将新词汇添加到该节点对应的领域词典中;如果不是叶子节点,则将该最大值sdcmax对应的节点作为当前节点,然后返回到步骤6.3。如果步骤6.3得到的归属度的最大值sdcmax不大于预先指定的阈值,则将新词汇作为普通词汇,不添加到任何一个待扩充的领域词典中,结束操作。
经过上述步骤的操作,即可实现对领域词典的自动扩充。
有益效果
本发明提出基于词汇注释的领域词典自动扩充方法与已有的领域词典自动扩充方法相比较,其优点是不需要人工搜集领域语料库,因此避免了受领域语料库的质量和规模的局限以及领域语料库非平衡性的影响。
附图说明
图1为本发明具体实施方式中的领域分类树。
具体实施方式
下面结合附图和具体实施例,对本发明做进一步的详细描述。
华建机器翻译词典中通信、航空、机械和计算机四个领域词典的词汇信息及词典间的交集如表1所示。表1中,通信、航空、机械和计算机四个领域的领域词典中分别包含12626个词汇、7592个词汇、19250个词汇、5156个词汇。通信和航空领域词典的交集数量为4432个;通信和机械领域词典的交集数量为6210个;通信和计算机的交集数量为2705个;航空和机械领域词典的交集数量为4908个;航空和计算机领域词典的交集数量为2064个;机械和计算机的交集数量为2383个。
表1四个领域词典的词汇信息及词典间的交集情况表
通信 航空 机械 计算机
通信 12626 4432 6210 2705
航空 4432 7592 4908 2064
机械 6210 4908 19250 2383
计算机 2705 2064 2383 5156
使用本发明提出的基于词汇注释的领域词典自动扩充方法对华建机器翻译词典中通信、航空、机械和计算机四个领域词典自动扩充,其具体操作步骤为:
步骤一、通过分析领域词典所属领域间的相关度,生成一棵领域分类树。具体为:
步骤1.1:设定待处理节点集合D的初始状态为空;
步骤1.2:将“通信”、“航空”、“机械”和“计算机”四个领域词典分别作为一个节点放入到待处理节点集合中。节点名称为该领域词典的名称,节点内容为该领域词典中的全部词条;所述词条包括词汇及该词汇的解释信息。
步骤1.3:通过公式(1)分别计算待处理节点集合中的任意两个节点所代表的领域词典所属领域间的相关度R(d1,d2)。
步骤1.4:通过计算可知相关度最高的两个领域为航空和机械。
步骤1.5:将航空和机械合并成一个节点,计算新的节点“航空&机械”分别同计算机和通信的相关度
步骤1.6:将新节点“航空&机械”加入到待处理节点集合中,并将“航空”和“机械”从待处理节点集合中删除。
步骤1.7:待处理节点集合中节点的个数为3,然后重复步骤1.3至1.7。直到待处理节点集合中只有一个节点,即可得到一棵领域分类树,如图1所示。领域分类树的根节点Root有两个子节点,分别是“航空&机械”和“通信&计算机”;节点“航空&机械”下有两个子节点,分别是“航空”和“机械”;节点“通信&计算机”下有两个子节点,分别是“通信”和“计算机”。
步骤二、为每一个待扩充的领域词典获取一个训练集。
此步骤可以与步骤一同步操作:确定一个带注释的通用电子词典,然后对于每个待扩充的领域词典中的词汇,分别做如下操作:依次从带注释的通用电子词典中查找该领域词典中的每个词汇,然后将每个词汇对应的注释作为一条训练数据放入该领域对应的训练集中,即可得到该领域的训练集。
经过步骤二的操作,对应一个待扩充的领域词典,可得到一个待扩充的领域词典所属领域对应的训练集。
步骤三、对训练集进行预处理,得到语料特征集。
在步骤二操作的基础上,依次对每个待扩充的领域词典的训练集中的训练语料进行预处理,得到该领域的训练集对应的语料特征集,具体为:对某一个领域的训练集中的每条训练数据进行分词、短语抽取、词形还原以及去停用词等预处理,获得该条训练数据对应的一组词汇,称为语料特征子集。该领域的训练集中的全部训练数据对应的语料特征子集的集合称为该领域词典对应的语料特征集。
步骤四、在步骤一和步骤三的基础上,对于步骤一得到的领域分类树上的叶子节点,统计每个叶子节点对应的语料特征集中每个词汇在该语料特征集中出现的次数。对于非叶子节点,首先将每个非叶子节点的子节点的语料特征集进行和并,将合并的结果作为该非叶子节点的语料特征集,然后统计以下数据:①该非叶子节点的语料特征集中每个词汇在该非叶子节点的语料特征集中出现的次数;②对于该非叶子节点的语料特征集中每个词汇,该非叶子节点的子节点对应的语料特征集中包含该词汇的语料特征集的个数。
步骤五、在步骤四操作的基础上,根据公式(2)计算各语料特征集中每个词汇的置信度。
步骤六、将新词汇加入到待扩充的领域词典中。
在步骤五操作的基础上,将步骤二中所述带注释的通用电子词典中新收录的词汇作为新词汇,添加到待扩充的领域词典中,具体操作步骤为:
步骤6.1:对新词汇的注释进行分词、短语抽取、词形还原以及去停用词等预处理,获得该词汇注释对应的一组词汇,用n表示该组词汇的数量。
步骤6.2:将领域分类树中的根节点作为当前节点。
步骤6.3:根据公式(3)依次计算新词汇与领域分类树中的当前节点的每一个子节点对应的领域之间的归属度,并找出其中的最大值sdcmax
步骤6.4:如果步骤6.3得到的归属度的最大值sdcmax大于预先指定的阈值0.7,则进一步判断该最大值sdcmax对应的节点是否为叶子节点,如果是叶子节点,则将新词汇添加到该节点对应的领域词典中;如果不是叶子节点,则将该最大值sdcmax对应的节点作为当前节点,然后返回到步骤6.3。如果步骤6.3得到的归属度的最大值sdcmax不大于预先指定的阈值,则将新词汇作为普通词汇,不添加到任何一个待扩充的领域词典中,结束操作。
经过上述步骤的操作,即可实现对领域词典的自动扩充。

Claims (1)

1.一种基于词汇注释的领域词典自动扩充方法,其特征在于:其具体操作步骤为:
步骤一、通过分析领域词典所属领域间的相关度,生成一棵领域分类树;具体为:
步骤1.1:用符号D表示待处理节点集合,并设定待处理节点集合的初始状态为空;
步骤1.2:将每个待扩充的领域词典分别作为一个节点放入到待处理节点集合中;节点名称为该领域词典的名称,节点内容为该领域词典中的全部词条;所述词条包括词汇及该词汇的解释信息;
步骤1.3:通过公式(1)分别计算待处理节点集合中的任意两个节点所代表的领域词典所属领域间的相关度;
R ( d 1 , d 2 ) = | d 1 ∩ d 2 | min ( | d 1 , d 2 | ) - - - ( 1 )
其中,R(d1,d2)表示待处理节点集合中某一领域词典D1的所属领域d1和另一领域词典D2的所属领域d2的相关度;|d1∩d2|表示领域词典D1和领域词典D2所包含的相同词汇的个数;min(|d1,d2|)表示领域词典D1和领域词典D2中数量较少的领域词典所包含的词汇个数;
步骤1.4:从步骤1.3中得到的待处理节点集合中的任意两个节点所代表的领域词典间的相关度R(d1,d2)中找出最大值,用符号Rmax表示;该最大值Rmax对应的两个领域词典分别用符号D1′和D2′表示,领域词典D1′和D2′的所属领域分别用符号d1′和d2′表示,领域词典D1′和D2′的中的内容分别用符号c1和c2表示;
步骤1.5:将领域词典D1′和D2′中的词条和并,并给和并后的词典定义一个新的名称,用Dnew表示;该和并后的词典Dnew的内容用符号cnew表示,cnew=c1∪c2;然后建立一个新节点,新节点的名称为Dnew,新节点的内容为cnew;领域词典D1′和D2′作为节点Dnew的子节点;
步骤1.6:将新节点Dnew加入到待处理节点集合中,并将节点D1′和D2′从待处理节点集合中删除;
步骤1.7:统计待处理节点集合中节点的个数,用符号N表示;如果N≥2,则返回到步骤1.3;否则,结束操作;
经过上述步骤的操作,即得到一棵领域分类树;
步骤二、为每一个待扩充的领域词典获取一个训练集;
此步骤可以与步骤一同步操作:确定一个带注释的通用电子词典,然后对于每个待扩充的领域词典中的词汇,分别做如下操作:依次从带注释的通用电子词典中查找该领域词典中的每个词汇,然后将每个词汇对应的注释作为一条训练数据放入该领域对应的训练集中,即可得到该领域的训练集;
经过步骤二的操作,对应一个待扩充的领域词典,可得到一个待扩充的领域词典所属领域对应的训练集;
步骤三、对训练集进行预处理,得到语料特征集;
在步骤二操作的基础上,依次对每个待扩充的领域词典的训练集中的训练语料进行预处理,得到该领域的训练集对应的语料特征集,具体为:对某一个领域的训练集中的每条训练数据进行预处理,获得该条训练数据对应的一组词汇,称为语料特征子集;该领域的训练集中的全部训练数据对应的语料特征子集的集合称为该领域词典对应的语料特征集;
所述预处理包括分词、短语抽取、词形还原和去停用词;
步骤四、在步骤一和步骤三的基础上,对于步骤一得到的领域分类树上的叶子节点,统计每个叶子节点对应的语料特征集中每个词汇在该语料特征集中出现的次数;对于非叶子节点,首先将每个非叶子节点的子节点的语料特征集进行和并,将合并的结果作为该非叶子节点的语料特征集,然后统计以下数据:①该非叶子节点的语料特征集中每个词汇在该非叶子节点的语料特征集中出现的次数;②对于该非叶子节点的语料特征集中每个词汇,该非叶子节点的子节点对应的语料特征集中包含该词汇的语料特征集的个数;
步骤五、在步骤四操作的基础上,根据公式(2)计算各语料特征集中每个词汇的置信度;
wdc = wd Σwd × log ( wd dt + 1 ) - - - ( 2 )
其中,wdc表示某一领域d对应的语料特征集中的某一个词汇w的置信度;wd表示词汇w在领域d中出现的次数;Σwd表示词汇w所在的语料特征集的对应节点的父节点对应的语料特征集中出现的总次数;dt表示词汇w所在的语料特征集的对应节点的兄弟节点对应的语料特征集中包含该词汇w的语料特征集的个数;
步骤六、将新词汇加入到待扩充的领域词典中;
在步骤五操作的基础上,将步骤二中所述带注释的通用电子词典中新收录的词汇作为新词汇,添加到待扩充的领域词典中,具体操作步骤为:
步骤6.1:对新词汇的注释进行预处理,获得该词汇注释对应的一组词汇,用n表示该组词汇的数量;
所述预处理包括分词、短语抽取、词形还原和去停用词;
步骤6.2:将领域分类树中的根节点作为当前节点;
步骤6.3:根据公式(3)依次计算新词汇与领域分类树中的当前节点的每一个子节点对应的领域之间的归属度,并找出其中的最大值,用符号sdcmax表示;
sdc k = m k × Π j = 1 n wdc jk - - - ( 3 )
其中,sdck表示新词汇与领域分类树中当前节点的每个子节点对应的领域k之间的归属度;wdcjk表示新词汇注释对应的一组词汇中第j个词汇与领域k的置信度;mk表示新词汇注释对应的n个词汇中,在领域k的置信度最高的个数;
步骤6.4:如果步骤6.3得到的归属度的最大值sdcmax大于预先指定的阈值,则进一步判断该最大值sdcmax对应的节点是否为叶子节点,如果是叶子节点,则将新词汇添加到该节点对应的领域词典中;如果不是叶子节点,则将该最大值sdcmax对应的节点作为当前节点,然后返回到步骤6.3;如果步骤6.3得到的归属度的最大值sdcmax不大于预先指定的阈值,则将新词汇作为普通词汇,不添加到任何一个待扩充的领域词典中,结束操作;
经过上述步骤的操作,即可实现对领域词典的自动扩充。
CN201310046647.3A 2013-02-06 2013-02-06 一种基于词汇注释的领域词典自动扩充方法 Active CN103116573B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310046647.3A CN103116573B (zh) 2013-02-06 2013-02-06 一种基于词汇注释的领域词典自动扩充方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310046647.3A CN103116573B (zh) 2013-02-06 2013-02-06 一种基于词汇注释的领域词典自动扩充方法

Publications (2)

Publication Number Publication Date
CN103116573A true CN103116573A (zh) 2013-05-22
CN103116573B CN103116573B (zh) 2015-10-28

Family

ID=48414950

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310046647.3A Active CN103116573B (zh) 2013-02-06 2013-02-06 一种基于词汇注释的领域词典自动扩充方法

Country Status (1)

Country Link
CN (1) CN103116573B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103324692A (zh) * 2013-06-04 2013-09-25 北京大学 分类知识获取方法和装置
CN104268160A (zh) * 2014-09-05 2015-01-07 北京理工大学 一种基于领域词典和语义角色的评价对象抽取方法
CN105955958A (zh) * 2016-05-06 2016-09-21 长沙市麓智信息科技有限公司 英文专利申请文件撰写辅助***及其撰写辅助方法
CN106681986A (zh) * 2016-12-13 2017-05-17 成都数联铭品科技有限公司 一种多维度情感分析***
CN108197243A (zh) * 2017-12-29 2018-06-22 北京奇虎科技有限公司 一种基于用户身份的输入联想推荐方法及装置
CN109299453A (zh) * 2017-07-24 2019-02-01 华为技术有限公司 一种用于构建词典的方法和装置
CN109325224A (zh) * 2018-08-06 2019-02-12 中国地质大学(武汉) 一种基于语义元语的词向量表征学习方法及***

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102360383A (zh) * 2011-10-15 2012-02-22 西安交通大学 一种面向文本的领域术语与术语关系抽取方法
EP2515242A2 (en) * 2011-04-21 2012-10-24 Palo Alto Research Center Incorporated Incorporating lexicon knowledge to improve sentiment classification

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2515242A2 (en) * 2011-04-21 2012-10-24 Palo Alto Research Center Incorporated Incorporating lexicon knowledge to improve sentiment classification
CN102360383A (zh) * 2011-10-15 2012-02-22 西安交通大学 一种面向文本的领域术语与术语关系抽取方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CHAOYONG ZHU等: "Gloss-based Word Domain Assignment", 《NATURAL LANGUAGE PROCESSING ANDKNOWLEDGE ENGINEERING (NLP-KE), 2011 7TH INTERNATIONAL CONFERENCE ON》, 29 November 2011 (2011-11-29), pages 150 - 155, XP032101542, DOI: 10.1109/NLPKE.2011.6138184 *
ZHU CHAOYONG等: "Hierarchical Domain Assignment Based on Word-Gloss", 《中国通信》, no. 03, 31 March 2012 (2012-03-31), pages 19 - 27 *
张海军等: "中文新词识别技术综述", 《计算机科学》, vol. 37, no. 3, 31 March 2010 (2010-03-31) *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103324692A (zh) * 2013-06-04 2013-09-25 北京大学 分类知识获取方法和装置
CN103324692B (zh) * 2013-06-04 2016-05-18 北京大学 分类知识获取方法和装置
CN104268160A (zh) * 2014-09-05 2015-01-07 北京理工大学 一种基于领域词典和语义角色的评价对象抽取方法
CN104268160B (zh) * 2014-09-05 2017-06-06 北京理工大学 一种基于领域词典和语义角色的评价对象抽取方法
CN105955958A (zh) * 2016-05-06 2016-09-21 长沙市麓智信息科技有限公司 英文专利申请文件撰写辅助***及其撰写辅助方法
CN106681986A (zh) * 2016-12-13 2017-05-17 成都数联铭品科技有限公司 一种多维度情感分析***
CN109299453A (zh) * 2017-07-24 2019-02-01 华为技术有限公司 一种用于构建词典的方法和装置
CN108197243A (zh) * 2017-12-29 2018-06-22 北京奇虎科技有限公司 一种基于用户身份的输入联想推荐方法及装置
CN109325224A (zh) * 2018-08-06 2019-02-12 中国地质大学(武汉) 一种基于语义元语的词向量表征学习方法及***

Also Published As

Publication number Publication date
CN103116573B (zh) 2015-10-28

Similar Documents

Publication Publication Date Title
CN103116573B (zh) 一种基于词汇注释的领域词典自动扩充方法
CN104391942B (zh) 基于语义图谱的短文本特征扩展方法
CN103207905B (zh) 一种基于目标文本的计算文本相似度的方法
CN103123618B (zh) 文本相似度获取方法和装置
CN104636466B (zh) 一种面向开放网页的实体属性抽取方法和***
CN106844658A (zh) 一种中文文本知识图谱自动构建方法及***
CN102693279B (zh) 一种快速计算评论相似度的方法、装置及***
CN104778256B (zh) 一种领域问答***咨询的快速可增量聚类方法
CN105243152A (zh) 一种基于图模型的自动文摘方法
CN101702167A (zh) 一种基于互联网的模板抽取属性和评论词的方法
CN104484380A (zh) 个性化搜索方法及装置
CN109670039A (zh) 基于三部图和聚类分析的半监督电商评论情感分析方法
CN107133223B (zh) 一种自动探索更多参考译文信息的机器翻译优化方法
CN106569993A (zh) 一种挖掘领域术语间上下位关系的方法及装置
CN105138514A (zh) 一种基于词典的正向逐次加一字最大匹配中文分词方法
CN103646112A (zh) 利用了网络搜索的依存句法的领域自适应方法
CN103049470A (zh) 基于情感相关度的观点检索方法
CN104008106A (zh) 一种获取热点话题的方法及装置
CN106528524A (zh) 一种基于MMseg算法与逐点互信息算法的分词方法
CN100543735C (zh) 基于文档结构的文档相似性度量方法
CN104866558A (zh) 一种社交网络账号映射模型训练方法及映射方法和***
CN109522396B (zh) 一种面向国防科技领域的知识处理方法及***
CN104484433A (zh) 一种基于机器学习的图书本体匹配方法
CN109614626A (zh) 基于万有引力模型的关键词自动抽取方法
CN102760121B (zh) 依存映射方法及***

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant