CN109670170B - 专业词汇挖掘方法、装置、可读存储介质及电子设备 - Google Patents
专业词汇挖掘方法、装置、可读存储介质及电子设备 Download PDFInfo
- Publication number
- CN109670170B CN109670170B CN201811394144.4A CN201811394144A CN109670170B CN 109670170 B CN109670170 B CN 109670170B CN 201811394144 A CN201811394144 A CN 201811394144A CN 109670170 B CN109670170 B CN 109670170B
- Authority
- CN
- China
- Prior art keywords
- phrase combination
- phrase
- combination
- word
- participles
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本公开涉及一种专业词汇挖掘方法、装置、可读存储介质及电子设备。该方法包括:对目标领域下的原始文本数据进行分句和分词,确定每个分词对应的词性;构建含多个词组组合对象的词组组合对象集,每个词组组合对象含一词组组合、词组组合的邻接分词、构成词组组合的各分词、及上述各分词对应的词性,构成词组组合的各分词在原始文本数据中依次相邻;根据词组组合的聚合度、邻接分词的发散度、及上述各分词对应的词性,从词组组合对象集中确定满足预设条件的目标词组组合对象;将目标词组组合对象中的词组组合确定为目标领域的专业词汇。这样,无需通过人工标注数据这种方式就能够得到针对某一领域的专业词汇,节省人力成本且实施难度小。
Description
技术领域
本公开涉及计算机技术领域,具体地,涉及一种专业词汇挖掘方法、装置、可读存储介质及电子设备。
背景技术
目前,大多数的文本分析都需要用到分词技术,分词效果的优劣将会直接影响到文本分析的质量。现有技术中,分词技术通常需要结合统计模型来实现,在具体应用时还需要训练数据,而训练数据往往需要对大量的数据进行人工标注,成本极高且存在实施难度。若针对专业垂直领域,例如医疗领域,统计模型则需要对该专业垂直领域的相关专业词汇进行统计,以更好地对该领域的相关文本分词,这样,就需要在训练数据时针对该专业垂直领域的数据进行人工标注,这不仅增加了实施难度,也极大增加了人工成本,因此,上述人工标注数据的方式是行不通的。
发明内容
本公开的目的是提供一种专业词汇挖掘方法、装置、可读存储介质及电子设备,以挖掘出针对相应领域的专业词汇。
为了实现上述目的,根据本公开的第一方面,提供一种专业词汇挖掘方法。所述方法包括:
对目标领域下的原始文本数据进行分句和分词处理,并确定每一个分词对应的词性;
构建包含多个词组组合对象的词组组合对象集,每个所述词组组合对象包含一词组组合、所述词组组合的邻接分词、构成所述词组组合的各个分词、以及构成所述词组组合的各分词对应的词性,其中,构成所述词组组合的各个分词在所述原始文本数据中依次相邻;
根据词组组合对象中词组组合的聚合度、词组组合对象中邻接分词的发散度、以及构成词组组合的各分词对应的词性,从所述词组组合对象集中确定出满足预设条件的目标词组组合对象,其中,所述聚合度用于反映构成词组组合的分词之间的紧密程度,所述发散度用于反映词组组合使用场景的随机性;
将所述目标词组组合对象中的词组组合确定为所述目标领域的专业词汇。
可选地,所述构建包含多个词组组合对象的词组组合对象集,包括:
根据分句及分词结果,对其进行停用词过滤处理,同时在停用词所在位置设置断点,并以所述断点和分句间隔为界限,将经停用词过滤处理后得到的多个分词划分为若干个分词集合,其中,每个所述分词集合包含至少一个所述分词;
针对每一个所述分词集合进行窗口内分词组合,确定出包含多个词组组合的词组组合集,其中,所述窗口的长度从1开始依次递增至预设的最大窗口长度,所述窗口长度对应于待组合的分词个数;
针对所述词组组合集中的各个词组组合,构建所述词组组合对象集。
可选地,所述预设条件包括:
词组组合的聚合度大于或者等于预设的聚合度阈值;
邻接分词的发散度大于或者等于预设的发散度阈值;以及
构成词组组合的各分词对应的词性满足预设的词性组合。
可选地,所述词组组合对象中词组组合的聚合度通过如下方式确定:
计算词组组合对象中的词组组合在所述原始文本数据中的词频;
根据所述词频,按照如下公式(1)计算词组组合w所对应的出现概率:
根据所述出现概率,按照如下公式(2)计算所述词组组合w对应的独立性倍数:
其中,P(w)为词组组合w所对应的出现概率,wset为词组组合w中包含的分词,∏word in wsetP(word)为词组组合w中各分词出现概率的乘积;
根据计算出的所述独立性倍数,按照如下公式(3)计算词组组合w的聚合度:
C(w)=log2(H(w)) (3)
其中,C(w)为词组组合w对应的聚合度,H(w)为词组组合w对应的独立性倍数。
可选地,所述词组组合的邻接分词包括左侧邻接分词和右侧邻接分词;
所述词组组合对象中邻接分词的发散度通过如下方式确定:
通过公式(4)计算词组组合对象中词组组合w的左侧邻接分词的第一信息熵,同时,通过公式(5)计算所述词组组合w的右侧邻接分词的第二信息熵:
其中,LD(w)为词组组合w对应的第一信息熵,RD(w)为词组组合w对应的第二信息熵,wleft为词组组合w的左侧邻接分词,wright为词组组合w的右侧邻接分词,Q1(x)为邻接分词x在左侧所有邻接分词中的出现概率,Q2(x)为邻接分词x在右侧所有邻接分词中的出现概率;
将词组组合对应的第一信息熵和第二信息熵中的最大值确定为相应词组组合对象中邻接分词的发散度。
根据本公开的第二方面,提供一种专业词汇挖掘装置。所述装置包括:
处理模块,用于对目标领域下的原始文本数据进行分句和分词处理,并确定每一个分词对应的词性;
构建模块,用于构建包含多个词组组合对象的词组组合对象集,每个所述词组组合对象包含一词组组合、所述词组组合的邻接分词、构成所述词组组合的各个分词、以及构成所述词组组合的各分词对应的词性,其中,构成所述词组组合的各个分词在所述原始文本数据中依次相邻;
第一确定模块,用于根据词组组合对象中词组组合的聚合度、词组组合对象中邻接分词的发散度、以及构成词组组合的各分词对应的词性,从所述词组组合对象集中确定出满足预设条件的目标词组组合对象,其中,所述聚合度用于反映构成词组组合的分词之间的紧密程度,所述发散度用于反映词组组合使用场景的随机性;
第二确定模块,用于将所述目标词组组合对象中的词组组合确定为所述目标领域的专业词汇。
可选地,所述构建模块包括:
处理子模块,用于根据分句及分词结果,对其进行停用词过滤处理,同时在停用词所在位置设置断点,并以所述断点和分句间隔为界限,将经停用词过滤处理后得到的多个分词划分为若干个分词集合,其中,每个所述分词集合包含至少一个所述分词;
确定子模块,用于针对每一个所述分词集合进行窗口内分词组合,确定出包含多个词组组合的词组组合集,其中,所述窗口的长度从1开始依次递增至预设的最大窗口长度,所述窗口长度对应于待组合的分词个数;
构建子模块,用于针对所述词组组合集中的各个词组组合,构建所述词组组合对象集。
可选地,所述预设条件包括:
词组组合的聚合度大于或者等于预设的聚合度阈值;
邻接分词的发散度大于或者等于预设的发散度阈值;以及
构成词组组合的各分词对应的词性满足预设的词性组合。
可选地,所述第一确定模块用于通过如下方式确定词组组合对象中词组组合的聚合度:
计算词组组合对象中的词组组合在所述原始文本数据中的词频;根据所述词频,按照如下公式(1)计算词组组合w所对应的出现概率:
其中,tfw为词组组合w在原始文本数据中的词频,tfi为词组组合i在原始文本数据中的词频,n为词组组合对象集中词组组合对象的总数,为词组组合对象集中所有词组组合的词频之和;根据所述出现概率,按照如下公式(2)计算所述词组组合w对应的独立性倍数:
其中,P(w)为词组组合w所对应的出现概率,wset为词组组合w中包含的分词,∏word in wsetP(word)为词组组合w中各分词出现概率的乘积;根据计算出的所述独立性倍数,按照如下公式(3)计算词组组合w的聚合度:
C(w)=log2(H(w)) (3)
其中,C(w)为词组组合w对应的聚合度,H(w)为词组组合w对应的独立性倍数。
可选地,所述词组组合的邻接分词包括左侧邻接分词和右侧邻接分词;
所述第一确定模块用于通过如下方式确定词组组合对象中邻接分词的发散度:
通过公式(4)计算词组组合对象中词组组合w的左侧邻接分词的第一信息熵,同时,通过公式(5)计算所述词组组合w的右侧邻接分词的第二信息熵:
其中,LD(w)为词组组合w对应的第一信息熵,RD(w)为词组组合w对应的第二信息熵,wleft为词组组合w的左侧邻接分词,wright为词组组合w的右侧邻接分词,Q1(x)为邻接分词x在左侧所有邻接分词中的出现概率,Q2(x)为邻接分词x在右侧所有邻接分词中的出现概率;将词组组合对应的第一信息熵和第二信息熵中的最大值确定为相应词组组合对象中邻接分词的发散度。
根据本公开的第三方面,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本公开第一方面所述方法的步骤。
根据本公开的第四方面,提供一种电子设备包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现本公开第一方面所述方法的步骤。
通过上述技术方案,对目标领域下的原始文本数据进行分句及分词处理,确定每个分词对应的词性,并构建含多个词组组合对象的词组组合对象集,根据各词组组合对象中词组组合的聚合度、邻接分词的发散度以及构成该词组组合的分词对应的词性,从词组组合对象集中确定出满足预设条件的目标词组组合对象,并将该目标词组组合对象中的词组组合确定为目标领域的专业词汇。针对某一领域的原始文本数据进行数据预处理后,通过构建词组组合对象集的方式确定出原始文本数据中出现的可能的词组组合以及每种词组组合的相关信息,并通过例如词组组合的聚合度、邻接分词的发散度以及各分词的词性等能够反映词汇构成特性的信息从词组组合对象集中筛选出符合要求的词组组合对象,并将其中所包含的词组组合确定为该领域的专业词汇。这样,无需通过人工标注数据这种方式就能够得到针对某一领域的专业词汇,节省人力成本且实施难度小。
本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:
图1是根据本公开的一种实施方式提供的专业词汇挖掘方法的流程图;
图2是根据本公开提供的专业词汇挖掘方法中,构建包含多个词组组合对象的词组组合对象集的步骤的一种示例性实现方式的流程图;
图3A是根据本公开提供的专业词汇挖掘方法中,对分词集合进行窗口内分词组合的一种示例性场景示意图;
图3B是根据本公开提供的专业词汇挖掘方法中,对分词集合进行窗口内分词组合的一种示例性场景示意图;
图3C是根据本公开提供的专业词汇挖掘方法中,对分词集合进行窗口内分词组合的一种示例性场景示意图;
图4是根据本公开提供的专业词汇挖掘方法中,确定词组组合对象中词组组合的聚合度的步骤的一种示例性实现方式的流程图;
图5是根据本公开的一种实施方式提供的专业词汇挖掘装置的框图;
图6是根据一示例性实施例示出的一种电子设备的框图。
具体实施方式
以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本公开,并不用于限制本公开。
图1是根据本公开的一种实施方式提供的专业词汇挖掘方法的流程图。如图1所示,该方法可以包括以下步骤。
在步骤11中,对目标领域下的原始文本数据进行分句和分词处理,并确定每一个分词对应的词性。
在利用本公开的方法针对某领域的专业词汇进行挖掘前,可以预先收集该领域的相关文本数据。示例地,若目标领域为医疗领域,那么可以预先收集例如电子病历、诊断报告、医疗专业论文文献等,并将其作为该目标领域的原始文本数据,从而可以针对医学领域进行专业词汇挖掘。
在对原始文本数据进行分句和分词处理时,可以首先对原始文本数据进行分句处理得到多个分句,进而针对得到的各个分句进行分词处理以及词性标注处理,得到分词结果以及分词结果中每一个分词对应的词性。
在步骤12中,构建包含多个词组组合对象的词组组合对象集。
每个词组组合对象可以包含一词组组合、该词组组合的邻接分词、构成该词组组合的各个分词、以及构成该词组组合的各分词对应的词性。构成词组组合的各个分词在原始文本数据中依次相邻。词组组合的邻接分词为与该词组组合相邻的分词,可以包括左侧邻接分词和右侧邻接分词。示例地,若词组组合对象为下列形式:(“词组组合”,“词组组合的左侧邻接分词”,“词组组合的右侧邻接分词”,“构成词组组合的分词”,“构成词组组合的各分词对应的词性”),且从原始文本数据中截取一部分分词结果为:v1、v2、v3、v4、v3、v5、v6(此处,在各分词间加入顿号以示区分,无实际意义),已知v1~v6的词性依次对应k1~k6,那么对于词组组合v4v3v5,其左侧邻接分词为v3,其右侧邻接分词为v6,构成该词组组合的各个分词为v4、v3、v5,构成该词组组合的各分词对应的词性为k4、k3、k5,因此,相应的词组组合对象则可以为(“v4v3v5”,“v3”,“v6”,“v4v3v5”,“k4k3k5”)。
在一种可能的情况中,如词组组合不存在左侧邻接分词(例如,该词组组合左侧为标点符号)、或者不存在右侧邻接分词(例如,该词组组合右侧为标点符号)、或者不存在左侧邻接分词和右侧邻接分词(例如,该词组组合左右两侧均为标点符号),可以将不存在邻接分词的一侧所对应的邻接分词记为预设标识符。
在步骤13中,根据词组组合对象中词组组合的聚合度、词组组合对象中邻接分词的发散度、以及构成词组组合的各分词对应的词性,从词组组合对象集中确定出满足预设条件的目标词组组合对象。
其中,聚合度可以用于反映构成词组组合的分词之间的紧密程度,发散度可以用于反映词组组合使用场景的随机性。通过上述聚合度、发散度、词性,并结合预设条件,可以从词组组合对象集中筛选出符合该预设条件的目标词组组合对象。
在步骤14中,将目标词组组合对象中的词组组合确定为目标领域的专业词汇。
根据确定出的目标词组组合对象,可以从各个目标词组组合对象中提取出词组组合,并将提取出的词组组合确定为该目标领域的专业词汇。
通过上述方案,对目标领域下的原始文本数据进行分句及分词处理,确定每个分词对应的词性,并构建含多个词组组合对象的词组组合对象集,根据各词组组合对象中词组组合的聚合度、邻接分词的发散度以及构成该词组组合的分词对应的词性,从词组组合对象集中确定出满足预设条件的目标词组组合对象,并将该目标词组组合对象中的词组组合确定为目标领域的专业词汇。针对某一领域的原始文本数据进行数据预处理后,通过构建词组组合对象集的方式确定出原始文本数据中出现的可能的词组组合以及每种词组组合的相关信息,并通过例如词组组合的聚合度、邻接分词的发散度以及各分词的词性等能够反映词汇构成特性的信息从词组组合对象集中筛选出符合要求的词组组合对象,并将其中所包含的词组组合确定为该领域的专业词汇。这样,无需通过人工标注数据这种方式就能够得到针对某一领域的专业词汇,节省人力成本且实施难度小。
为了使本领域技术人员更加理解本发明实施例提供的技术方案,下面对上文中的相应步骤进行详细的说明。
首先,针对步骤12中的构建包含多个词组组合对象的词组组合集进行举例说明。在一种可能的实施例中,步骤12可以包括以下步骤,如图2所示。
在步骤21中,根据分句及分词结果,对其进行停用词过滤处理,同时在停用词所在位置设置断点,并以断点和分句间隔为界限,将经停用词过滤处理后得到的多个分词划分为若干个分词集合。其中,每个分词集合可以包含至少一个分词。
利用预先给定的停用词表,对分句及分词得到的结果进行停用词过滤处理,将其中处于停用词表内的停用词删除,同时在停用词所在的位置设置断点,经停用词过滤处理后得到的多个分词中已经不再包含停用词,这样可以减小停用词产生的噪声,对后续的词汇挖掘有积极效果。
而后,可以以断点和分句间隔为界限,将经停用词过滤处理后得到的多个分词划分为若干个分词集合。
示例地,若对原始文本数据D进行分句处理后得到分句结果{S1,S2},表示D中所包含的各个句子,再对各句进行分词处理后,得到分词结果{{v1,v7,v2,v3,v8,v2},{v4,v6,v5,v4,v5}},其中,v7和v8为停用词,则在经过停用词过滤处理以及断点设置后可得到{{v1,/,v2,v3,/,v2},{v4,v6,v5,v4,v5}},其中,符号“/”表示设置在停用词位置的断点,那么,以断点和分句间隔为界限,将经停用词过滤处理后得到的多个分词划分为若干个分词集合后,则会得到{“v1”,“v2,v3”,“v2”,“v4,v6,v5,v4,v5”},也就是四个分词集合。
需要说明的是,上述示例中的分句结果、分词结果、停用词符号等数据表示形式仅用作解释说明,并不代表实际应用时的数据形式。对于实际应用时的数据形式,本公开不进行限制。
在步骤22中,针对每一个分词集合进行窗口内分词组合,确定出包含多个词组组合的词组组合集。
其中,窗口的长度从1开始依次递增至预设的最大窗口长度,窗口长度对应于待组合的分词个数。示例地,预设的最大窗口长度可以为4,那么在对分词集合进行窗口内分词组合时,窗口的长度为1、2、3、4,也就是说,在针对分词集合进行窗口内分词组合时,分别以窗口长度为1~4进行窗口内分词组合。示例地,若某分词集合为“v4,v6,v5,v4,v5”,预设的最大窗口长度为3,那么在对其进行窗口内分词组合时,窗口长度分别为1、2、3,具体情形可以如图3A~图3C中所示。在图3A中,示出了窗口长度为1时,针对分词集合“v4,v6,v5,v4,v5”进行窗口内分词组合的一种示例场景,其中,箭头方向可以表示窗口的移动方向,图3A所示情景中所得到的词组组合为v4,窗口长度为1时得到的全部词组组合为v4、v6、v5、v4、v5。在图3B中,示出了窗口长度为2时对该分词集合进行窗口内分词组合的一种示例场景,其中,箭头方向表示窗口的移动方向,图3B所示情景中所得到的词组组合为v6v5,窗口长度为2时得到的全部词组组合为v4v6、v6v5、v5v4、v4v5。在图3C中,示出了窗口长度为3时对该分词集合进行窗口内分词组合的一种示例场景,其中,箭头方向表示窗口的移动方向,图3C所示情景中得到的词组组合为v5v4v5,窗口长度为3时得到的全部词组组合为v4v6v5、v6v5v4、v5v4v5。
针对从原始文本数据得到的所有分词集合,均采用上述步骤,则可以得到原始文本数据对应的包含多个词组组合的词组组合集。
在步骤23中,针对词组组合集中的各个词组组合,构建词组组合对象集。
根据步骤22得到的词组组合集,针对其中的各个词组组合,构建词组组合对象集。以步骤22所示示例中的词组组合v6v5为例,其词组组合对象为(v6v5,v4,v4,v6v5,k6k5),其中k6为分词v6对应的词性,k5为分词v5对应的词性。
采用上述方式,以停用词所在位置和分句间隔为界限,将原始文本数据中分为多个分词集合,并针对每个分词集合确定其可能的词组组合,并以此确定词组组合对象集,从而为后续的词汇挖掘提供较为全面的数据准备。
在构建出词组组合对象集后,可以执行步骤13,即根据各词组组合对象中词组组合的聚合度、邻接分词的发散度、以及构成词组组合的各分词对应的词性,从词组组合对象集中确定出满足预设条件的目标词组组合对象。
下面首先针对词组组合对象中词组组合的聚合度的确定方式进行详细说明。聚合度可以用于反映构成词组组合的分词之间的紧密程度,若构成词组组合的各分词之间的紧密程度越高,则该词组组合为专业词汇的可能性就越大,类似于词语的固定搭配。
聚合度可以以构成词组组合的各分词之间的独立性作为衡量指标,也就是说,词组组合中各分词之间的独立性越高,则说明该分词可组合的随机性越大,聚合度越低;而词组组合中各分词之间的独立性越低,则说明该分词可组合的随机性越小,聚合度越高。因此,在一种实施方式中,词组组合对象中词组组合的聚合度可以通过如图4所示的方式确定,可包含下列步骤。
在步骤41中,计算词组组合对象中的词组组合在原始文本数据中的词频。
某词组组合在原始文本数据中的词频可以通过该词组组合在原始文本数据中的出现次数除以原始文本数据分词所得到的总词数计算。
在步骤42中,根据该词频,计算该词组组合所对应的出现概率。
示例地,词组组合的出现概率可以通过该词组组合的词频除以词组组合对象集中各词组组合的词频之和得到。因此,可以按照如下公式(1)计算词组组合w所对应的出现概率:
在步骤43中,根据该出现概率,计算该词组组合对应的独立性倍数。
对于分词v1和分词v2及二者组成的词组组合v1v2,三者在原始文本数据的出现概率依次为P1、P2、P3,若分词v1和分词v2间相互独立,那么P1与P2的乘积和P3是非常接近的。而若分词v1和分词v2间并不是绝对的相互独立,则有P3≈独立性倍数*P1*P2,因此,依据此原理可求得独立性倍数。并且,分词间独立性越高,独立性倍数越小,聚合度越低;分词间独立性越低,独立性倍数越高,聚合度越高。
示例地,可以按照如下公式(2)计算词组组合w对应的独立性倍数:
其中,P(w)为词组组合w所对应的出现概率,wset为词组组合w中包含的分词,∏word in wsetP(word)为词组组合w中各分词出现概率的乘积。其中,对分词出现概率的计算与上文中对词组组合出现概率的计算原理相同。
示例地,对于词组组合v6v5v5v6,其出现概率为P7,且分词v6的出现概率为P6,分词v5的出现概率为P5,那么该词组组合的独立性倍数可以通过P7/(P6*P5*P5*P6)计算得出。
在步骤44中,根据计算出的独立性倍数,计算该词组组合的聚合度。
示例地,可按照如下公式(3)计算词组组合w的聚合度:
C(w)=log2(H(w)) (3)
其中,C(w)为词组组合w对应的聚合度,H(w)为词组组合w对应的独立性倍数。
采用上述方式,可通过词组组合的出现概率以及构成词组组合的各分词的出现概率确定词组组合的独立性倍数,并通过独立性倍数确定词组组合的聚合度,可以较为准确地对词组组合的聚合度进行衡量。
词组组合的聚合度反映的是构成词组组合的各分子之间的紧密程度,它着重反映的是词组组合内部的情况,而要确定专业词汇,还需要考虑各词组组合在不同上下文环境中的发散情况,也就是词组组合使用场景的随机性。词组组合使用的场景越随机,说明其发散运用的程度越高,该词组组合是专业词汇的可能性越大,相应地,其邻接分词则越丰富;而若词组组合使用的场景越单一,说明其发散运用的程度越低,该词组组合是专业词汇的可能性越低,相应地,其邻接分词则越单一。
下面将针对词组组合对象中邻接分词的发散度的确定方式进行详细说明。发散度可以通过信息熵来衡量,信息熵越大,其使用场景越随机。因此,在一种可能的实施方式中,对词组组合对象中邻接分词的发散度可以通过如下方式确定:
计算词组组合对象中左侧邻接分词的第一信息熵,同时,计算右侧邻接分词的第二信息熵;
将词组组合对应的第一信息熵和第二信息熵中的最大值确定为相应词组组合对象中邻接分词的发散度。
示例地,可以通过公式(4)计算词组组合对象中词组组合w的左侧邻接分词的第一信息熵,同时,通过公式(5)计算所述词组组合w的右侧邻接分词的第二信息熵:
其中,LD(w)为词组组合w对应的第一信息熵,RD(w)为词组组合w对应的第二信息熵,wleft为词组组合w的左侧邻接分词,wright为词组组合w的右侧邻接分词,Q1(x)为邻接分词x在左侧所有邻接分词中的出现概率,Q2(x)为邻接分词x在右侧所有邻接分词中的出现概率。示例地,log(Q1(x))和log(Q2(x))通常以2作为底数进行计算。
示例地,若词组组合w的左侧邻接分词为x1、x2、x3、x4、x5,且依次作为词组组合w的左侧邻接分词出现x10、x20、x30、x40、x50次,那么可得Q1(x1)=x10/(x10+x20+x30+x40+x50)。
在一实施例中,在确定第一信息熵和第二信息熵后,可以将其中较大值作为发散度。
在另一实施例中,还可以对第一信息熵和第二信息熵取平均值,从而确定相应词组组合对应的发散度。
采用上述方式,可通过词组组合对象中邻接分词的信息熵确定邻接分词的发散度,可以较为准确地反映词组组合的使用场景的随机性。
下面针对步骤13中对于目标词组组合对象的确定进行详细说明。
在一实施例中,预设条件可以包括以下几者:
词组组合的聚合度大于或者等于预设的聚合度阈值;
邻接分词的发散度大于或者等于预设的发散度阈值;以及
构成词组组合的各分词对应的词性满足预设的词性组合。
针对计算得到的各词组组合对象对应的聚合度,确定出其中大于或等于预设的聚合度阈值的词组组合对象,以确定出分词间紧密度较高的词组组合对象。
针对计算得到的各词组组合对象对应的发散度,确定出其中大于或等于预设的发散度阈值的词组组合对象,以确定出使用场景更为随机的词组组合对象。
可以预先存储一成词词性组合表,其中包含预设的词性组合,针对词组组合对象中构成词组组合的各分词对应的词性,结合预设的词性组合可以确定出词性组成符合成词词性组合表的词组组合对象。示例地,若预设的词性组合为k2k3k4、k3k5k1、k3k2,其中,k1~k5表示词性,那么构成词组组合的各分词对应的词性为k3k5k1的词组组合对象满足上述预设的词性组合,而构成词组组合的各分词对应的词性为k3k1k5的词组组合对象则不满足上述预设的词性组合。
在一种实施方式中,可以依次根据聚合度、发散度、词性对词组组合对象集中的各词组组合对象进行筛选,以确定目标词组组合对象。需要说明的是,这里对于聚合度、发散度、词性的筛选顺序并不是唯一的,可以最先根据聚合度筛选、也可以最先根据发散度筛选、还可以最先根据词性筛选,本公开对此不进行限定。
采用上述方式,可以依据聚合度、发散度、词性层层筛选,逐渐减小计算量,保证目标词组组合对象的确定效率。
在另一种实施方式中,可以根据聚合度、发散度以及词性同时对词组组合对象集中的各词组组合对象进行筛选,以确定目标词组组合对象。
采用上述方式,将词组组合对象中词组组合聚合度较高、邻接分词发散度较高且各分词词性符合要求的词组组合对象确定为目标词组组合对象,可以保证目标词组组合对象中,词组组合内、外以及整体都符合专业词汇的特征,以便为专业词汇挖掘提供优质的备选方案。
图5是根据本公开的一种实施方式提供的专业词汇挖掘装置的框图。如图5所示,该装置50包括:
处理模块51,用于对目标领域下的原始文本数据进行分句和分词处理,并确定每一个分词对应的词性;
构建模块52,用于构建包含多个词组组合对象的词组组合对象集,每个所述词组组合对象包含一词组组合、所述词组组合的邻接分词、构成所述词组组合的各个分词、以及构成所述词组组合的各分词对应的词性,其中,构成所述词组组合的各个分词在所述原始文本数据中依次相邻;
第一确定模块53,用于根据词组组合对象中词组组合的聚合度、词组组合对象中邻接分词的发散度、以及构成词组组合的各分词对应的词性,从所述词组组合对象集中确定出满足预设条件的目标词组组合对象,其中,所述聚合度用于反映构成词组组合的分词之间的紧密程度,所述发散度用于反映词组组合使用场景的随机性;
第二确定模块54,用于将所述目标词组组合对象中的词组组合确定为所述目标领域的专业词汇。
可选地,所述构建模块52包括:
处理子模块,用于根据分句及分词结果,对其进行停用词过滤处理,同时在停用词所在位置设置断点,并以所述断点和分句间隔为界限,将经停用词过滤处理后得到的多个分词划分为若干个分词集合,其中,每个所述分词集合包含至少一个所述分词;
确定子模块,用于针对每一个所述分词集合进行窗口内分词组合,确定出包含多个词组组合的词组组合集,其中,所述窗口的长度从1开始依次递增至预设的最大窗口长度,所述窗口长度对应于待组合的分词个数;
构建子模块,用于针对所述词组组合集中的各个词组组合,构建所述词组组合对象集。
可选地,所述预设条件包括:
词组组合的聚合度大于或者等于预设的聚合度阈值;
邻接分词的发散度大于或者等于预设的发散度阈值;以及
构成词组组合的各分词对应的词性满足预设的词性组合。
可选地,所述第一确定模块53用于通过如下方式确定词组组合对象中词组组合的聚合度:
计算词组组合对象中的词组组合在所述原始文本数据中的词频;根据所述词频,按照如下公式(1)计算词组组合w所对应的出现概率:
其中,tfw为词组组合w在原始文本数据中的词频,tfi为词组组合i在原始文本数据中的词频,n为词组组合对象集中词组组合对象的总数,为词组组合对象集中所有词组组合的词频之和;根据所述出现概率,按照如下公式(2)计算所述词组组合w对应的独立性倍数:
其中,P(w)为词组组合w所对应的出现概率,wset为词组组合w中包含的分词,∏word in wsetP(word)为词组组合w中各分词出现概率的乘积;根据计算出的所述独立性倍数,按照如下公式(3)计算词组组合w的聚合度:
C(w)=log2(H(w)) (3)
其中,C(w)为词组组合w对应的聚合度,H(w)为词组组合w对应的独立性倍数。
可选地,所述词组组合的邻接分词包括左侧邻接分词和右侧邻接分词;
所述第一确定模块53用于通过如下方式确定词组组合对象中邻接分词的发散度:
通过公式(4)计算词组组合对象中词组组合w的左侧邻接分词的第一信息熵,同时,通过公式(5)计算所述词组组合w的右侧邻接分词的第二信息熵:
其中,LD(w)为词组组合w对应的第一信息熵,RD(w)为词组组合w对应的第二信息熵,wleft为词组组合w的左侧邻接分词,wright为词组组合w的右侧邻接分词,Q1(x)为邻接分词x在左侧所有邻接分词中的出现概率,Q2(x)为邻接分词x在右侧所有邻接分词中的出现概率;将词组组合对应的第一信息熵和第二信息熵中的最大值确定为相应词组组合对象中邻接分词的发散度。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图6是根据一示例性实施例示出的一种电子设备的框图。例如,电子设备1900可以被提供为一服务器。参照图6,电子设备1900包括处理器1922,其数量可以为一个或多个,以及存储器1932,用于存储可由处理器1922执行的计算机程序。存储器1932中存储的计算机程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理器1922可以被配置为执行该计算机程序,以执行上述的专业词汇挖掘方法。
另外,电子设备1900还可以包括电源组件1926和通信组件1950,该电源组件1926可以被配置为执行电子设备1900的电源管理,该通信组件1950可以被配置为实现电子设备1900的通信,例如,有线或无线通信。此外,该电子设备1900还可以包括输入/输出(I/O)接口1958。电子设备1900可以操作基于存储在存储器1932的操作***,例如WindowsServerTM,Mac OS XTM,UnixTM,LinuxTM等等。
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述的专业词汇挖掘方法的步骤。例如,该计算机可读存储介质可以为上述包括程序指令的存储器1932,上述程序指令可由电子设备1900的处理器1922执行以完成上述的专业词汇挖掘方法。
以上结合附图详细描述了本公开的优选实施方式,但是,本公开并不限于上述实施方式中的具体细节,在本公开的技术构思范围内,可以对本公开的技术方案进行多种简单变型,这些简单变型均属于本公开的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合。为了避免不必要的重复,本公开对各种可能的组合方式不再另行说明。
此外,本公开的各种不同的实施方式之间也可以进行任意组合,只要其不违背本公开的思想,其同样应当视为本公开所公开的内容。
Claims (10)
1.一种专业词汇挖掘方法,其特征在于,所述方法包括:
对目标领域下的原始文本数据进行分句和分词处理,并确定每一个分词对应的词性;
构建包含多个词组组合对象的词组组合对象集,每个所述词组组合对象包含一词组组合、所述词组组合的邻接分词、构成所述词组组合的各个分词、以及构成所述词组组合的各分词对应的词性,其中,构成所述词组组合的各个分词在所述原始文本数据中依次相邻;
根据词组组合对象中词组组合的聚合度、词组组合对象中邻接分词的发散度、以及构成词组组合的各分词对应的词性,从所述词组组合对象集中确定出满足预设条件的目标词组组合对象,其中,所述聚合度用于反映构成词组组合的分词之间的紧密程度,所述发散度用于反映词组组合使用场景的随机性;其中,所述词组组合的邻接分词包括左侧邻接分词和右侧邻接分词;所述词组组合对象中邻接分词的发散度通过如下方式确定:计算所述词组组合对象中所述左侧邻接分词的第一信息熵,以及所述右侧邻接分词的第二信息熵;将所述第一信息熵和所述第二信息熵中的最大值确定为所述词组组合对象中邻接分词的发散度;
将所述目标词组组合对象中的词组组合确定为所述目标领域的专业词汇。
2.根据权利要求1所述的方法,其特征在于,所述构建包含多个词组组合对象的词组组合对象集,包括:
根据分句及分词结果,对其进行停用词过滤处理,同时在停用词所在位置设置断点,并以所述断点和分句间隔为界限,将经停用词过滤处理后得到的多个分词划分为若干个分词集合,其中,每个所述分词集合包含至少一个所述分词;
针对每一个所述分词集合进行窗口内分词组合,确定出包含多个词组组合的词组组合集,其中,所述窗口的长度从1开始依次递增至预设的最大窗口长度,所述窗口长度对应于待组合的分词个数;
针对所述词组组合集中的各个词组组合,构建所述词组组合对象集。
3.根据权利要求1所述的方法,其特征在于,所述预设条件包括:
词组组合的聚合度大于或者等于预设的聚合度阈值;
邻接分词的发散度大于或者等于预设的发散度阈值;以及
构成词组组合的各分词对应的词性满足预设的词性组合。
4.根据权利要求1所述的方法,其特征在于,所述词组组合对象中词组组合的聚合度通过如下方式确定:
计算词组组合对象中的词组组合在所述原始文本数据中的词频;
根据所述词频,按照如下公式(1)计算词组组合w所对应的出现概率:
根据所述出现概率,按照如下公式(2)计算所述词组组合w对应的独立性倍数:
其中,P(w)为词组组合w所对应的出现概率,wset为词组组合w中包含的分词,∏wordinwsetP(word)为词组组合w中各分词出现概率的乘积;
根据计算出的所述独立性倍数,按照如下公式(3)计算词组组合w的聚合度:
C(w)=log2(H(w)) (3)
其中,C(w)为词组组合w对应的聚合度,H(w)为词组组合w对应的独立性倍数。
6.一种专业词汇挖掘装置,其特征在于,所述装置包括:
处理模块,用于对目标领域下的原始文本数据进行分句和分词处理,并确定每一个分词对应的词性;
构建模块,用于构建包含多个词组组合对象的词组组合对象集,每个所述词组组合对象包含一词组组合、所述词组组合的邻接分词、构成所述词组组合的各个分词、以及构成所述词组组合的各分词对应的词性,其中,构成所述词组组合的各个分词在所述原始文本数据中依次相邻;
第一确定模块,用于根据词组组合对象中词组组合的聚合度、词组组合对象中邻接分词的发散度、以及构成词组组合的各分词对应的词性,从所述词组组合对象集中确定出满足预设条件的目标词组组合对象,其中,所述聚合度用于反映构成词组组合的分词之间的紧密程度,所述发散度用于反映词组组合使用场景的随机性;
所述词组组合的邻接分词包括左侧邻接分词和右侧邻接分词,所述第一确定模块,还用于计算所述词组组合对象中所述左侧邻接分词的第一信息熵,以及所述右侧邻接分词的第二信息熵;将所述第一信息熵和所述第二信息熵中的最大值确定为所述词组组合对象中邻接分词的发散度;
第二确定模块,用于将所述目标词组组合对象中的词组组合确定为所述目标领域的专业词汇。
7.根据权利要求6所述的装置,其特征在于,所述构建模块包括:
处理子模块,用于根据分句及分词结果,对其进行停用词过滤处理,同时在停用词所在位置设置断点,并以所述断点和分句间隔为界限,将经停用词过滤处理后得到的多个分词划分为若干个分词集合,其中,每个所述分词集合包含至少一个所述分词;
确定子模块,用于针对每一个所述分词集合进行窗口内分词组合,确定出包含多个词组组合的词组组合集,其中,所述窗口的长度从1开始依次递增至预设的最大窗口长度,所述窗口长度对应于待组合的分词个数;
构建子模块,用于针对所述词组组合集中的各个词组组合,构建所述词组组合对象集。
8.根据权利要求6所述的装置,其特征在于,所述预设条件包括:
词组组合的聚合度大于或者等于预设的聚合度阈值;
邻接分词的发散度大于或者等于预设的发散度阈值;以及
构成词组组合的各分词对应的词性满足预设的词性组合。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-5中任一项所述方法的步骤。
10.一种电子设备,其特征在于,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现权利要求1-5中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811394144.4A CN109670170B (zh) | 2018-11-21 | 2018-11-21 | 专业词汇挖掘方法、装置、可读存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811394144.4A CN109670170B (zh) | 2018-11-21 | 2018-11-21 | 专业词汇挖掘方法、装置、可读存储介质及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109670170A CN109670170A (zh) | 2019-04-23 |
CN109670170B true CN109670170B (zh) | 2023-04-07 |
Family
ID=66142251
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811394144.4A Active CN109670170B (zh) | 2018-11-21 | 2018-11-21 | 专业词汇挖掘方法、装置、可读存储介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109670170B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110309513B (zh) * | 2019-07-09 | 2023-07-25 | 北京金山数字娱乐科技有限公司 | 一种文本依存分析的方法和装置 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102411563A (zh) * | 2010-09-26 | 2012-04-11 | 阿里巴巴集团控股有限公司 | 一种识别目标词的方法、装置及*** |
CN102930055A (zh) * | 2012-11-18 | 2013-02-13 | 浙江大学 | 结合内部聚合度和外部离散信息熵的网络新词发现方法 |
CN103870447A (zh) * | 2014-03-11 | 2014-06-18 | 北京优捷信达信息科技有限公司 | 一种基于隐含狄利克雷模型的关键词抽取方法 |
CN103955450A (zh) * | 2014-05-06 | 2014-07-30 | 杭州东信北邮信息技术有限公司 | 一种新词自动提取方法 |
CN106919627A (zh) * | 2015-12-28 | 2017-07-04 | 北京国双科技有限公司 | 热词的处理方法和装置 |
WO2017185674A1 (zh) * | 2016-04-29 | 2017-11-02 | 乐视控股(北京)有限公司 | 新词发现方法及装置 |
CN108595433A (zh) * | 2018-05-02 | 2018-09-28 | 北京中电普华信息技术有限公司 | 一种新词发现方法及装置 |
CN108647205A (zh) * | 2018-05-02 | 2018-10-12 | 深圳前海微众银行股份有限公司 | 细粒度情感分析模型构建方法、设备及可读存储介质 |
CN109344406A (zh) * | 2018-09-30 | 2019-02-15 | 阿里巴巴集团控股有限公司 | 词性标注方法、装置和电子设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107092588B (zh) * | 2016-02-18 | 2022-09-09 | 腾讯科技(深圳)有限公司 | 一种文本信息处理方法、装置和*** |
-
2018
- 2018-11-21 CN CN201811394144.4A patent/CN109670170B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102411563A (zh) * | 2010-09-26 | 2012-04-11 | 阿里巴巴集团控股有限公司 | 一种识别目标词的方法、装置及*** |
CN102930055A (zh) * | 2012-11-18 | 2013-02-13 | 浙江大学 | 结合内部聚合度和外部离散信息熵的网络新词发现方法 |
CN103870447A (zh) * | 2014-03-11 | 2014-06-18 | 北京优捷信达信息科技有限公司 | 一种基于隐含狄利克雷模型的关键词抽取方法 |
CN103955450A (zh) * | 2014-05-06 | 2014-07-30 | 杭州东信北邮信息技术有限公司 | 一种新词自动提取方法 |
CN106919627A (zh) * | 2015-12-28 | 2017-07-04 | 北京国双科技有限公司 | 热词的处理方法和装置 |
WO2017185674A1 (zh) * | 2016-04-29 | 2017-11-02 | 乐视控股(北京)有限公司 | 新词发现方法及装置 |
CN108595433A (zh) * | 2018-05-02 | 2018-09-28 | 北京中电普华信息技术有限公司 | 一种新词发现方法及装置 |
CN108647205A (zh) * | 2018-05-02 | 2018-10-12 | 深圳前海微众银行股份有限公司 | 细粒度情感分析模型构建方法、设备及可读存储介质 |
CN109344406A (zh) * | 2018-09-30 | 2019-02-15 | 阿里巴巴集团控股有限公司 | 词性标注方法、装置和电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN109670170A (zh) | 2019-04-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ng et al. | Chinese part-of-speech tagging: One-at-a-time or all-at-once? word-based or character-based? | |
JP6258191B2 (ja) | 入力方法及びシステム | |
US10691890B2 (en) | Word segmentation method and system for language text | |
CN110457672B (zh) | 关键词确定方法、装置、电子设备及存储介质 | |
CN108182215B (zh) | 一种结构化查询语言sql性能统计的方法及装置 | |
CN108090043B (zh) | 基于人工智能的纠错举报处理方法、装置及可读介质 | |
CN110222328B (zh) | 基于神经网络的分词和词类标注方法、装置、设备及存储介质 | |
RU2003136812A (ru) | Разделитель чернил и интерфейс соответствующей прикладной программы | |
CN106897290B (zh) | 一种建立关键词模型的方法及装置 | |
CN107862046A (zh) | 一种基于短文本相似度的税务商品编码分类方法及*** | |
CN106445906A (zh) | 领域词典中中长词词组的生成方法及装置 | |
WO2022267353A1 (zh) | 文本纠错的方法、装置、电子设备及存储介质 | |
CN112199602B (zh) | 岗位推荐方法、推荐平台及服务器 | |
CN105335360A (zh) | 生成文档结构的方法和装置 | |
CN111931491B (zh) | 领域词典构建方法及装置 | |
CN109670170B (zh) | 专业词汇挖掘方法、装置、可读存储介质及电子设备 | |
CN111177375A (zh) | 一种电子文档分类方法及装置 | |
CN104484391A (zh) | 字符串相似度的计算方法和装置 | |
CN116796726A (zh) | 简历解析方法、装置、终端设备及介质 | |
CN105404903B (zh) | 信息处理方法、装置及电子设备 | |
JP2020042771A (ja) | データ分析方法及びデータ分析システム | |
CN111492364A (zh) | 数据标注方法、装置及存储介质 | |
CN107844526B (zh) | 一种基于知识库的词汇关系链分析方法、***及装置 | |
CN114385891B (zh) | 数据搜索方法、装置、电子设备及存储介质 | |
CN113486169B (zh) | 基于bert模型的同义语句生成方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |