CN113705227B - 中文无分词词嵌入模型的构建方法、***、介质及设备 - Google Patents

中文无分词词嵌入模型的构建方法、***、介质及设备 Download PDF

Info

Publication number
CN113705227B
CN113705227B CN202010437000.3A CN202010437000A CN113705227B CN 113705227 B CN113705227 B CN 113705227B CN 202010437000 A CN202010437000 A CN 202010437000A CN 113705227 B CN113705227 B CN 113705227B
Authority
CN
China
Prior art keywords
word
word frequency
candidate
constructing
frequency information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010437000.3A
Other languages
English (en)
Other versions
CN113705227A (zh
Inventor
张一帆
王茂华
顾倩荣
黄永健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Advanced Research Institute of CAS
Original Assignee
Shanghai Advanced Research Institute of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Advanced Research Institute of CAS filed Critical Shanghai Advanced Research Institute of CAS
Priority to CN202010437000.3A priority Critical patent/CN113705227B/zh
Publication of CN113705227A publication Critical patent/CN113705227A/zh
Application granted granted Critical
Publication of CN113705227B publication Critical patent/CN113705227B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种中文无分词词嵌入模型的构建方法、***、介质及设备,所述中文无分词词嵌入模型的构建方法包括:统计语料集中的候选片段及所述候选片段对应的词频信息;结合所述词频信息确定所述候选片段的关联强度,并根据所述关联强度生成词嵌入的词汇表;根据所述词汇表构建正采样集合和负采样集合,并结合所述正采样集合和负采样集合构建词嵌入模型。本发明针对目前无分词词嵌入模型词汇表中噪音n‑gram过多的问题,以中文语料为研究对象,利用负采样的skip‑gram模型,提供了一种使用无监督关联度量指标改进无分词词嵌入模型的方法。

Description

中文无分词词嵌入模型的构建方法、***、介质及设备
技术领域
本发明属于自然语言处理的技术领域,涉及一种词嵌入模型的设计方法,特别是涉及一种中文无分词词嵌入模型的构建方法、***、介质及设备。
背景技术
词嵌入作为自然语言处理领域的一项基础性任务,在机器翻译、词性标注等下游任务中发挥着重要的作用。由于中文语料中的词语之间并没有明显的分隔符,现有的中文词嵌入通常需要首先进行中文分词,以获取分词后的词汇作为词嵌入的目标。但是目前的中文分词仍存在许多问题,而这些问题会严重影响到中文词嵌入的质量。因而,针对类似中文这样的语言,为了避免分词错误带来的影响,无分词词嵌入模型被提出并被证明优于传统的词嵌入方法。
目前的无分词词嵌入模型主要是通过收集Top-K词频最高的n-gram片段作为模型训练的对象。但是仅仅考虑词频会导致词嵌入的词汇表中出现大量噪音n-gram片段,这些噪音片段会影响最终生成的词嵌入的质量。
因此,如何提供一种无分词词嵌入模型的设计方法,降低大量噪音n-gram片段对最终生成的词嵌入模型质量的影响,提高词嵌入模型的质量,实已成为本领域技术人员亟待解决的技术问题。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种中文无分词词嵌入模型的构建方法、***、介质及设备,用于解决现有技术无法降低大量噪音n-gram片段对最终生成的词嵌入模型质量的影响,提高词嵌入模型的质量的问题。
为实现上述目的及其他相关目的,本发明一方面提供一种中文无分词词嵌入模型的构建方法,所述中文无分词词嵌入模型的构建方法包括:统计语料集中的候选片段及所述候选片段对应的词频信息;结合所述词频信息确定所述候选片段的关联强度,并根据所述关联强度生成词嵌入的词汇表;根据所述词汇表构建正采样集合和负采样集合,并结合所述正采样集合和负采样集合构建词嵌入模型。
于本发明的一实施例中,所述候选片段为汉语语言模型片段,所述统计语料集中的候选片段及所述候选片段对应的词频信息的步骤包括:在所述语料集中统计出不同固定长度值对应的汉语语言模型片段及其词频信息。
于本发明的一实施例中,所述结合所述词频信息确定所述候选片段的关联强度,并根据所述关联强度生成词嵌入的词汇表的步骤包括:结合所述词频信息确定所述候选片段的无监督关联度量指标,所述无监督关联度量指标表征所述候选片段的关联强度;将所述关联强度由大到小依次排列,选取关联强度前K个的候选片段作为词嵌入的词汇表。
于本发明的一实施例中,所述结合所述词频信息确定所述候选片段的无监督关联度量指标的步骤包括:计算所述候选片段的互信息值,确定所述互信息值最小时对应的片段组合;根据所述片段组合确定第一集合与第二集合,并计算所述片段组合与第一集合或第二集合的统计关系数值;将所述词频信息、互信息值与统计关系数值三者的乘积作为无监督关联度量指标。
于本发明的一实施例中,所述根据所述片段组合确定第一集合与第二集合,并计算所述片段组合与第一集合或第二集合的统计关系数值的步骤包括:将所述词频信息与第一集合的词频的比值、与第二集合的词频的比值中的最大值作为分子,选取所述第一集合与第二集合中词频最小的集合,取该集合中元素个数的倒数作为分母;将所述分子与分母构成的分式计算值作为所述片段组合在所述第一集合或第二集合的相对重要程度计算值;根据所述相对重要程度计算值确定所述统计关系数值。
于本发明的一实施例中,对每一种长度的所述候选片段进行关联强度的计算;根据不同长度的候选片段,在每一种长度下,将所述关联强度由大到小依次排列,选取关联强度前K个的候选片段作为词嵌入的词汇表,以根据不同长度选取不同数量的候选片段作为词嵌入的词汇表。
于本发明的一实施例中,所述根据所述词汇表构建正采样集合和负采样集合,并结合所述正采样集合和负采样集合构建词嵌入模型的步骤包括:以skip-gram模型结合负采样为基础,采用参数优化的方法,最大化正采样概率,最小化负采样概率,构建所述词嵌入模型。
本发明另一方面提供一种中文无分词词嵌入模型的构建***,所述中文无分词词嵌入模型的构建***包括:片段统计模块,用于统计语料集中的候选片段及所述候选片段对应的词频信息;关联度量模块,用于结合所述词频信息确定所述候选片段的关联强度,并根据所述关联强度生成词嵌入的词汇表;模型生成模块,用于根据所述词汇表构建正采样集合和负采样集合,并结合所述正采样集合和负采样集合构建词嵌入模型。
本发明又一方面提供一种介质,其上存储有计算机程序,该计算机程序被处理器执行时实现所述的中文无分词词嵌入模型的构建方法。
本发明最后一方面提供一种设备,包括:处理器及存储器;所述存储器用于存储计算机程序,所述处理器用于执行所述存储器存储的计算机程序,以使所述设备执行所述的中文无分词词嵌入模型的构建方法。
如上所述,本发明所述的中文无分词词嵌入模型的构建方法、***、介质及设备,具有以下有益效果:
提出一种新的无监督关联度量指标,用于筛选具有强关联度的n-gram片段。将此种无监督关联度量指标与词嵌入模型相结合,构建了一种新的面向中文语料的无分词中文词嵌入模型。通过本发明获得的词嵌入模型能够在下游任务中表现出更好的性能。
附图说明
图1显示为本发明的中文无分词词嵌入模型的构建方法于一实施例中的原理流程图。
图2显示为本发明的中文无分词词嵌入模型的构建方法于一实施例中的关联度量流程图。
图3显示为本发明的中文无分词词嵌入模型的构建方法于一实施例中的关联强度计算流程图。
图4显示为本发明的中文无分词词嵌入模型的构建方法与basic字典对照的效果图。
图5显示为本发明的中文无分词词嵌入模型的构建方法与rich字典对照的效果图。
图6显示为本发明的中文无分词词嵌入模型的构建***于一实施例中的结构原理图。
图7显示为本发明的中文无分词词嵌入模型的构建设备于一实施例中的结构连接示意图。
元件标号说明
6              中文无分词词嵌入模型的构建***
61             片段统计模块
62             关联度量模块
63             模型生成模块
7              设备
71             处理器
72             存储器
73             通信接口
74             ***总线
S11~S13       步骤
S121~S122     步骤
S121A~S121C   步骤
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
本发明提供的中文无分词词嵌入模型的构建方法针对目前无分词词嵌入模型词汇表中噪音n-gram过多的问题,以中文语料为研究对象,利用负采样的skip-gram模型,提供了一种使用无监督关联度量指标改进无分词词嵌入模型的方法。
以下将结合图1至图7详细阐述本实施例的一种中文无分词词嵌入模型的构建方法、***、介质及设备的原理及实施方式,使本领域技术人员不需要创造性劳动即可理解本实施例的中文无分词词嵌入模型的构建方法、***、介质及设备。
请参阅图1,显示为本发明的中文无分词词嵌入模型的构建方法于一实施例中的原理流程图。如图1所示,所述中文无分词词嵌入模型的构建方法具体包括以下几个步骤:
S11,统计语料集中的候选片段及所述候选片段对应的词频信息。
在本实施例中,所述候选片段为汉语语言模型片段,例如,所述候选片段为n-gram片段,在所述语料集中统计出不同固定长度值对应的n-gram片段及其词频信息。
具体地,通过n-gram模型实现一个简单的分词器,得到n-gram片段。该模型基于这样一种假设,第n个词的出现只与前面n-1个词相关,而与其它任何词都不相关,整句的概率就是各个词出现概率的乘积。一般情况下我们只计算一个单词前后各两个词的概率,即n取2,计算n-2,.n-1,n+1,n+2的概率。如果n=3,计算效果会更好;n=4,计算量会变得很大。
具体地,对语料集进行整理,统计出固定长度下的所有可能的n-gram片段及其词频信息。将不同长度的n-gram片段与相应的词频信息进行列表管理,形成表1。例如,表1中长度为1个汉字的“一”,词频数为529285。
表1候选字段表
Figure BDA0002502653860000051
S12,结合所述词频信息确定所述候选片段的关联强度,并根据所述关联强度生成词嵌入的词汇表。
在本实施例中,对每一种长度的所述候选片段进行关联强度的计算。
进一步地,根据不同长度的候选片段,在每一种长度下,将所述关联强度由大到小依次排列,选取关联强度前K个的候选片段作为词嵌入的词汇表,以根据不同长度选取不同数量的候选片段作为词嵌入的词汇表。
请参阅图2,显示为本发明的中文无分词词嵌入模型的构建方法于一实施例中的关联度量流程图。如图2所示,S12包括:
S121,结合所述词频信息确定所述候选片段的无监督关联度量指标,所述无监督关联度量指标表征所述候选片段的关联强度。本发明的PATI(Pointwise Associationwith Times Information,无监督关联度量指标)通过考虑更多的统计量信息,能够发掘更多的强关联n-gram片段。
请参阅图3,显示为本发明的中文无分词词嵌入模型的构建方法于一实施例中的关联强度计算流程图。如图3所示,S121包括:
S121A,计算所述候选片段的互信息值,确定所述互信息值最小时对应的片段组合。
具体地,所述互信息值为MP值,对于每个长度为s的n-gram片段g=wiwi+1...wi+s(0≤i≤N-s),g的左、右两部分分别为a=wi...wk-1,b=wk...wi+s(i<k<i+s),即g=concat(a,b)。fa,fb和fg分别代表字符串a,b以及n-gram片段g在语料集中的词频。
对于一个n-gram片段g=concat(a,b),其对应的MP定义为:
Figure BDA0002502653860000052
对于固定长度为s的n-gram片段g,总会存在一个特定的左右a,b组合(am,bm)能够最小化MP。随后,AT的计算也将基于这一特定组合(am,bm)。
S121B,根据所述片段组合确定第一集合与第二集合,并计算所述片段组合与第一集合或第二集合的统计关系数值。
在本实施例中,S121B包括:
(1)将所述词频信息与第一集合的词频的比值、与第二集合的词频的比值中的最大值作为分子,选取所述第一集合与第二集合中词频最小的集合,取该集合中元素个数的倒数作为分母。
对于n-gram片段g的特定组合(am,bm),有一批与其长度相同的n-gram片段(am,bh)和(aj,bm),那么第一集合{am,*}和第二集合{*,bm}有如下定义:
{am,*}={(am,b1),(am,b2),…,(am,bh)}       公式(2)
{*,bm}={(a1,bm),(a2,bm),…,(aj,bm)}        公式(3)
Figure BDA0002502653860000061
Figure BDA0002502653860000062
分别表示在集合{am,*}和{*,bm}中的所有n-gram片段的词频的总和,则其定义为:
Figure BDA0002502653860000063
Figure BDA0002502653860000064
对于n-gram片段g及其特定组合(am,bm),变量rate代表的是fg
Figure BDA0002502653860000065
比值以及fg
Figure BDA0002502653860000066
比值中的最大值,即rate的定义如下:
Figure BDA0002502653860000067
对于两个集合{am,*}和{*,bm}及其对应的
Figure BDA0002502653860000068
Figure BDA0002502653860000069
令sizeof代表集合内n-gram元素的个数,则AC可定义为:
Figure BDA00025026538600000610
(2)将所述分子与分母构成的分子计算值作为所述片段组合在所述第一集合或第二集合的相对重要程度计算值。
具体地,给定变量rate和变量AC,此时n-gram片段g的times值的定义如下:
Figure BDA00025026538600000611
(3)根据所述相对重要程度计算值确定所述统计关系数值。
具体地,对于长度为s的n-gram片段g的特定组合(am,bm),有唯一的变量times,则AT的计算公式为:
AT=1+|logtimes|           公式(9)
S121C,将所述词频信息、互信息值与统计关系数值三者的乘积作为无监督关联度量指标。
具体地,PATI(Pointwise Association with Times Information,无监督关联度量指标)的公式如下:
PATI=F×MP×AT      公式(10)
其中,F=fg为词频信息,MP为互信息值,AT是统计关系数值。
MP是对于互信息PMI的改进版,其在关联强度的计算过程中更多的考虑到了每个n-gram片段g=concat(a,b)的边际变量,即n-gram的左、右两部分a和b的统计量,从而能够对n-gram的局部信息更为敏感。
AT通过利用每个n-gram片段的特定组合(am,bm)在集合{am,*}或{*,bm}中的统计信息来进一步衡量n-gram的关联强度。变量times通过考虑
Figure BDA0002502653860000071
和(am,bm)的词频信息以及(am,bm)的前、后邻接数,来评估(am,bm)在集合中的相对重要程度,times值越高,通常说明(am,bm)作为一个整体是合理的。一般来说,大部分关联强度较高的合理n-gram的times值要远大于那些不合理的n-gram片段的times值。
S122,将所述关联强度由大到小依次排列,选取关联强度前K个的候选片段作为词嵌入的词汇表。
具体地,使用提出的无监督关联度量指标来计算每一种片段长度下候选n-gram片段的关联强度。然后选取Top-K关联强度最高的n-gram片段作为词嵌入模型的词汇表。其中,在一大堆数中求其前k大或前k小的问题,简称Top-K问题。
S13,根据所述词汇表构建正采样集合和负采样集合,并结合所述正采样集合和负采样集合构建词嵌入模型。
在本实施例中,以skip-gram模型结合负采样为基础,采用极大似然估计的方法,最大化正采样概率,最小化负采样概率,构建所述词嵌入模型。本发明使用无监督关联度量指标来筛选词嵌入的词汇表,重构词嵌入模型的正采样和负采样,降低了噪音n-gram片段对于模型的影响,从而提升了词嵌入在下游任务中的表现。
需要说明的是,极大似然估计仅为本发明进行参数估计和优化的一种实施方式,其他的可实现参数估计与优化的方法也包含在本发明保护的范围内。
具体地,PFNE基于负采样的skip-gram模型来学习词嵌入,从而降低模型梯度下降时的计算量,加快模型训练。模型的正采样集合Np就是词汇表和语料相结合生成的“中心词-上下文对”(wt,wc),负采样集合Nn则是通过构建一个足够大的一元语言模型词表,在表中对每个n-gram片段进行索引,根据词汇表中n-gram的词频大小来随机获取负采样样本。PFNE模型的目标函数如下定义:
Figure BDA0002502653860000081
其中,
Figure BDA0002502653860000082
Figure BDA0002502653860000083
分别是中心词wt和其上下文wc的向量表示,模型使用极大似然估计,根据中心词来预测上下文,最大化正样本的概率,同时最小化负采样的概率,以使目标函数生成的词嵌入模型最优。对该目标函数的优化采用的是基于正、负采样的随机梯度下降方法。
请参阅图4和图5,分别显示为本发明的中文无分词词嵌入模型的构建方法与basic字典对照的效果图和本发明的中文无分词词嵌入模型的构建方法与rich字典对照的效果图。在图4和图5中,PFNE代表利用PATI算法筛选出的n-gram片段与词典相对照的结果;sembei为利用频率(词频)筛选出的n-gram片段与词典相对照的结果;SGNS-PMI为利用PMI(Pointwise Mutual Information,互信息)筛选出的n-gram片段与词典相对照的结果。纵轴为精确率,横轴为召回率。其中,精确率和召回率的表达式如下:
Figure BDA0002502653860000084
Figure BDA0002502653860000085
进一步地,曲线越高越长,说明筛选出的合理n-gram片段越多。在图4和图5中可以看出,利用PATI算法的实线PFNE的曲线在三条曲线中最高、最长,由此说明,本发明的中文无分词词嵌入模型的构建方法与现有技术的词嵌入模型(basic字典或rich字典)相比,可以筛选出更多合理的n-gram片段。
本发明所述的中文无分词词嵌入模型的构建方法的保护范围不限于本实施例列举的步骤执行顺序,凡是根据本发明的原理所做的现有技术的步骤增减、步骤替换所实现的方案都包括在本发明的保护范围内。
本实施例提供一种计算机存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现所述中文无分词词嵌入模型的构建方法。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过计算机程序相关的硬件来完成。前述的计算机程序可以存储于一计算机可读存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的计算机可读存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的计算机存储介质。
以下将结合图示对本实施例所提供的中文无分词词嵌入模型的构建***进行详细描述。需要说明的是,应理解以下***的各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现,也可以全部以硬件的形式实现,还可以部分模块通过处理元件调用软件的形式实现,部分模块通过硬件的形式实现。例如:某一模块可以为单独设立的处理元件,也可以集成在下述***的某一个芯片中实现。此外,某一模块也可以以程序代码的形式存储于下述***的存储器中,由下述***的某一个处理元件调用并执行以下某一模块的功能。其它模块的实现与之类似。这些模块全部或部分可以集成在一起,也可以独立实现。这里所述的处理元件可以是一种集成电路,具有信号的处理能力。在实现过程中,上述方法的各步骤或以下各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。
以下这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit,简称ASIC),一个或多个数字信号处理器(Digital Signal Processor,简称DSP),一个或者多个现场可编程门阵列(Field Programmable Gate Array,简称FPGA)等。当以下某个模块通过处理元件调用程序代码的形式实现时,该处理元件可以是通用处理器,如中央处理器(Central ProcessingUnit,简称CPU)或其它可以调用程序代码的处理器。这些模块可以集成在一起,以片上***(System-on-a-chip,简称SOC)的形式实现。
请参阅图6,显示为本发明的中文无分词词嵌入模型的构建***于一实施例中的结构原理图。如图6所示,所述中文无分词词嵌入模型的构建***6包括:片段统计模块61、关联度量模块62和模型生成模块63。
所述片段统计模块61用于统计语料集中的候选片段及所述候选片段对应的词频信息。
在本实施例中,所述候选片段为汉语语言模型片段,所述片段统计模块61具体用于在所述语料集中统计出不同固定长度值对应的汉语语言模型片段及其词频信息。
所述关联度量模块62用于结合所述词频信息确定所述候选片段的关联强度,并根据所述关联强度生成词嵌入的词汇表。
在本实施例中,所述关联度量模块62具体用于结合所述词频信息确定所述候选片段的无监督关联度量指标,所述无监督关联度量指标表征所述候选片段的关联强度;将所述关联强度由大到小依次排列,选取关联强度前K个的候选片段作为词嵌入的词汇表。
所述模型生成模块63用于根据所述词汇表构建正采样集合和负采样集合,并结合所述正采样集合和负采样集合构建词嵌入模型。
在本实施例中,所述模型生成模块63具体用于以skip-gram模型结合负采样为基础,采用参数优化的方法,最大化正采样概率,最小化负采样概率,构建所述词嵌入模型。
本发明所述的中文无分词词嵌入模型的构建***可以实现本发明所述的中文无分词词嵌入模型的构建方法,但本发明所述的中文无分词词嵌入模型的构建方法的实现装置包括但不限于本实施例列举的中文无分词词嵌入模型的构建***的结构,凡是根据本发明的原理所做的现有技术的结构变形和替换,都包括在本发明的保护范围内。
请参阅图7,显示为本发明的中文无分词词嵌入模型的构建设备于一实施例中的结构连接示意图。如图7所示,本实施例提供一种设备7,所述设备7包括:处理器71、存储器72、通信接口73或/和***总线74;存储器72和通信接口73通过***总线74与处理器71连接并完成相互间的通信,存储器72用于存储计算机程序,通信接口73用于和其他设备进行通信,处理器71用于运行计算机程序,使所述设备7执行所述中文无分词词嵌入模型的构建方法的各个步骤。
上述提到的***总线74可以是外设部件互连标准(Peripheral ComponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,简称EISA)总线等。该***总线可以分为地址总线、数据总线、控制总线等。通信接口73用于实现数据库访问装置与其他设备(如客户端、读写库和只读库)之间的通信。存储器72可能包含随机存取存储器(Random Access Memory,简称RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
上述的处理器71可以是通用处理器,包括中央处理器(Central ProcessingUnit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Alication SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
综上所述,本发明所述中文无分词词嵌入模型的构建方法、***、介质及设备提出一种新的无监督关联度量指标,用于筛选具有强关联度的n-gram片段。将此种无监督关联度量指标与词嵌入模型相结合,构建了一种新的面向中文语料的无分词中文词嵌入模型。通过本发明获得的词嵌入模型能够在下游任务中表现出更好的性能。本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。

Claims (7)

1.一种中文无分词词嵌入模型的构建方法,其特征在于,所述中文无分词词嵌入模型的构建方法包括:
统计语料集中的候选片段及所述候选片段对应的词频信息;
结合所述词频信息确定所述候选片段的关联强度,并根据所述关联强度生成词嵌入的词汇表;
根据所述词汇表构建正采样集合和负采样集合,并结合所述正采样集合和负采样集合构建词嵌入模型;
结合所述词频信息确定所述候选片段的关联强度,并根据所述关联强度生成词嵌入的词汇表,包括:结合所述词频信息确定所述候选片段的无监督关联度量指标,所述无监督关联度量指标表征所述候选片段的关联强度;将所述关联强度由大到小依次排列,选取关联强度前K个的候选片段作为词嵌入的词汇表;
其中,结合所述词频信息确定所述候选片段的无监督关联度量指标,包括:
A,计算所述候选片段的互信息值,确定所述互信息值最小时对应的片段组合;所述互信息值为MP值,MP定义为:
Figure FDA0004126341740000011
fa,fb和fg分别代表字符串a,b以及n-gram片段g在语料集中的词频;
B,根据所述片段组合确定第一集合与第二集合,并计算所述片段组合与第一集合或第二集合的统计关系数值,包括:
(1)将所述词频信息与第一集合的词频的比值、与第二集合的词频的比值中的最大值作为分子,选取所述第一集合与第二集合中词频最小的集合,取该集合中元素个数的倒数作为分母;
对于n-gram片段g的特定组合(am,bm),设一批与其长度相同的n-gram片段(am,bh)和(aj,bm),则第一集合{am,*}和第二集合{*,bm}分别定义为:{am,*}={(am,b1),(am,b2),…,(am,bh)}以及{*,bm}={(a1,bm),(a2,bm),…,(aj,bm)};令
Figure FDA0004126341740000012
Figure FDA0004126341740000013
分别表示在集合{am,*}和{*,bm}中的所有n-gram片段的词频的总和,分别定义为:
Figure FDA0004126341740000014
以及
Figure FDA0004126341740000015
对于n-gram片段g及其特定组合(am,bm),变量rate表示fg
Figure FDA0004126341740000016
比值以及fg
Figure FDA0004126341740000017
比值中的最大值,则rate定义为:
Figure FDA0004126341740000018
对于两个集合{am,*}和{*,bm}及其对应的
Figure FDA0004126341740000019
Figure FDA00041263417400000110
令sizeof代表集合内n-gram元素的个数,则AC定义为:
Figure FDA0004126341740000021
(2)将所述分子与分母构成的分子计算值作为所述片段组合在所述第一集合或第二集合的相对重要程度计算值;给定变量rate作为分子,给定变量AC作为分母,则n-gram片段g的相对重要程度计算值times值定义为:
Figure FDA0004126341740000022
(3)根据所述相对重要程度计算值times确定所述统计关系数值AT;所述统计关系数值AT的计算公式为:AT=1+|logtimes|;
C,令所述词频信息F等于fg,将所述词频信息F、互信息值MP与统计关系数值AT三者的乘积作为无监督关联度量指标;所述无监督关联度量指标PATI的公式为:PATI=F×MP×AT。
2.根据权利要求1所述的中文无分词词嵌入模型的构建方法,其特征在于,所述候选片段为汉语语言模型片段,所述统计语料集中的候选片段及所述候选片段对应的词频信息的步骤包括:
在所述语料集中统计出不同固定长度值对应的汉语语言模型片段及其词频信息。
3.根据权利要求1所述的中文无分词词嵌入模型的构建方法,其特征在于:
对每一种长度的所述候选片段进行关联强度的计算;
根据不同长度的候选片段,在每一种长度下,将所述关联强度由大到小依次排列,选取关联强度前K个的候选片段作为词嵌入的词汇表,以根据不同长度选取不同数量的候选片段作为词嵌入的词汇表。
4.根据权利要求1所述的中文无分词词嵌入模型的构建方法,其特征在于,所述根据所述词汇表构建正采样集合和负采样集合,并结合所述正采样集合和负采样集合构建词嵌入模型的步骤包括:
以skip-gram模型结合负采样为基础,采用参数优化的方法,最大化正采样概率,最小化负采样概率,构建所述词嵌入模型。
5.一种中文无分词词嵌入模型的构建***,其特征在于,所述中文无分词词嵌入模型的构建***包括:
片段统计模块,用于统计语料集中的候选片段及所述候选片段对应的词频信息;
关联度量模块,用于结合所述词频信息确定所述候选片段的关联强度,并根据所述关联强度生成词嵌入的词汇表;
模型生成模块,用于根据所述词汇表构建正采样集合和负采样集合,并结合所述正采样集合和负采样集合构建词嵌入模型;
结合所述词频信息确定所述候选片段的关联强度,并根据所述关联强度生成词嵌入的词汇表,包括:结合所述词频信息确定所述候选片段的无监督关联度量指标,所述无监督关联度量指标表征所述候选片段的关联强度;将所述关联强度由大到小依次排列,选取关联强度前K个的候选片段作为词嵌入的词汇表;
其中,结合所述词频信息确定所述候选片段的无监督关联度量指标,包括:
A,计算所述候选片段的互信息值,确定所述互信息值最小时对应的片段组合;所述互信息值为MP值,MP定义为:
Figure FDA0004126341740000031
fa,fb和fg分别代表字符串a,b以及n-gram片段g在语料集中的词频;
B,根据所述片段组合确定第一集合与第二集合,并计算所述片段组合与第一集合或第二集合的统计关系数值,包括:
(1)将所述词频信息与第一集合的词频的比值、与第二集合的词频的比值中的最大值作为分子,选取所述第一集合与第二集合中词频最小的集合,取该集合中元素个数的倒数作为分母;
对于n-gram片段g的特定组合(am,bm),设一批与其长度相同的n-gram片段(am,bh)和(aj,bm),则第一集合{am,*}和第二集合{*,bm}分别定义为:{am,*}={(am,b1),(am,b2),…,(am,bh)}以及{*,bm}={(a1,bm),(a2,bm),…,(aj,bm)};令
Figure FDA0004126341740000032
Figure FDA0004126341740000033
分别表示在集合{am,*}和{*,bm}中的所有n-gram片段的词频的总和,分别定义为:
Figure FDA0004126341740000034
以及
Figure FDA0004126341740000035
对于n-gram片段g及其特定组合(am,bm),变量rate表示fg
Figure FDA0004126341740000036
比值以及fg
Figure FDA00041263417400000311
比值中的最大值,则rate定义为:
Figure FDA0004126341740000037
对于两个集合{am,*}和{*,bm}及其对应的
Figure FDA0004126341740000038
Figure FDA0004126341740000039
令sizeof代表集合内n-gram元素的个数,则AC定义为:
Figure FDA00041263417400000310
(2)将所述分子与分母构成的分子计算值作为所述片段组合在所述第一集合或第二集合的相对重要程度计算值;给定变量rate作为分子,给定变量AC作为分母,则n-gram片段g的相对重要程度计算值times值定义为:
Figure FDA0004126341740000041
(3)根据所述相对重要程度计算值times确定所述统计关系数值AT;所述统计关系数值AT的计算公式为:AT=1+|logtimes|;
C,令所述词频信息F等于fg,将所述词频信息F、互信息值MP与统计关系数值AT三者的乘积作为无监督关联度量指标;所述无监督关联度量指标PATI的公式为:PATI=F×MP×AT。
6.一种介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至4中任一项所述的中文无分词词嵌入模型的构建方法。
7.一种设备,其特征在于,包括:处理器及存储器;
所述存储器用于存储计算机程序,所述处理器用于执行所述存储器存储的计算机程序,以使所述设备执行如权利要求1至4中任一项所述的中文无分词词嵌入模型的构建方法。
CN202010437000.3A 2020-05-21 2020-05-21 中文无分词词嵌入模型的构建方法、***、介质及设备 Active CN113705227B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010437000.3A CN113705227B (zh) 2020-05-21 2020-05-21 中文无分词词嵌入模型的构建方法、***、介质及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010437000.3A CN113705227B (zh) 2020-05-21 2020-05-21 中文无分词词嵌入模型的构建方法、***、介质及设备

Publications (2)

Publication Number Publication Date
CN113705227A CN113705227A (zh) 2021-11-26
CN113705227B true CN113705227B (zh) 2023-04-25

Family

ID=78645861

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010437000.3A Active CN113705227B (zh) 2020-05-21 2020-05-21 中文无分词词嵌入模型的构建方法、***、介质及设备

Country Status (1)

Country Link
CN (1) CN113705227B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104933183A (zh) * 2015-07-03 2015-09-23 重庆邮电大学 一种融合词向量模型和朴素贝叶斯的查询词改写方法
CN106095736A (zh) * 2016-06-07 2016-11-09 华东师范大学 一种领域新词抽取的方法
CN107015963A (zh) * 2017-03-22 2017-08-04 重庆邮电大学 基于深度神经网络的自然语言语义分析***及方法
CN107273352A (zh) * 2017-06-07 2017-10-20 北京理工大学 一种基于Zolu函数的词嵌入学习模型及训练方法
CN107491444A (zh) * 2017-08-18 2017-12-19 南京大学 基于双语词嵌入技术的并行化词对齐方法
CN108959431A (zh) * 2018-06-11 2018-12-07 中国科学院上海高等研究院 标签自动生成方法、***、计算机可读存储介质及设备
CN110390018A (zh) * 2019-07-25 2019-10-29 哈尔滨工业大学 一种基于lstm的社交网络评论生成方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104933183A (zh) * 2015-07-03 2015-09-23 重庆邮电大学 一种融合词向量模型和朴素贝叶斯的查询词改写方法
CN106095736A (zh) * 2016-06-07 2016-11-09 华东师范大学 一种领域新词抽取的方法
CN107015963A (zh) * 2017-03-22 2017-08-04 重庆邮电大学 基于深度神经网络的自然语言语义分析***及方法
CN107273352A (zh) * 2017-06-07 2017-10-20 北京理工大学 一种基于Zolu函数的词嵌入学习模型及训练方法
CN107491444A (zh) * 2017-08-18 2017-12-19 南京大学 基于双语词嵌入技术的并行化词对齐方法
CN108959431A (zh) * 2018-06-11 2018-12-07 中国科学院上海高等研究院 标签自动生成方法、***、计算机可读存储介质及设备
CN110390018A (zh) * 2019-07-25 2019-10-29 哈尔滨工业大学 一种基于lstm的社交网络评论生成方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Geewook Kim 等.Segmentation-free compositional n-gram embedding.《arxiv.org》.2018,1-9. *
Xiaobin Wang 等.Unsupervised Learning Helps Supervised Neural Word Segmentation.《AAA-19》.2019,7200-7207. *

Also Published As

Publication number Publication date
CN113705227A (zh) 2021-11-26

Similar Documents

Publication Publication Date Title
US11604956B2 (en) Sequence-to-sequence prediction using a neural network model
CN108073568B (zh) 关键词提取方法和装置
CN111898366B (zh) 文献主题词聚合方法、装置、计算机设备及可读存储介质
CN108091372B (zh) 医疗字段映射校验方法及装置
CN107194430B (zh) 一种样本筛选方法及装置,电子设备
US10789225B2 (en) Column weight calculation for data deduplication
CN110442516B (zh) 信息处理方法、设备及计算机可读存储介质
CN110210028A (zh) 针对语音转译文本的领域特征词提取方法、装置、设备及介质
CN110728313B (zh) 一种用于意图分类识别的分类模型训练方法及装置
CN109740660A (zh) 图像处理方法及装置
WO2015192798A1 (zh) 主题挖掘方法和装置
CN111291824A (zh) 时间序列的处理方法、装置、电子设备和计算机可读介质
CN113705227B (zh) 中文无分词词嵌入模型的构建方法、***、介质及设备
CN111125329B (zh) 一种文本信息筛选方法、装置及设备
CN110335628B (zh) 智能设备的语音测试方法、装置及电子设备
CN116881432A (zh) 文本推送方法、装置、电子设备和存储介质
CN114281983B (zh) 分层结构的文本分类方法、***、电子设备和存储介质
CN112561569B (zh) 基于双模型的到店预测方法、***、电子设备及存储介质
CN114021699A (zh) 一种基于梯度的卷积神经网络剪枝方法及装置
JP7272846B2 (ja) 文書分析装置および文書分析方法
CN113011503A (zh) 一种电子设备的数据取证方法、存储介质及终端
CN115374775A (zh) 一种确定文本相似度的方法、装置、设备及存储介质
CN116702018B (zh) 基于ga-pdpl算法的跨被试脑电情感识别方法及装置
CN113268494B (zh) 待优化数据库语句处理方法及装置
CN116127053B (zh) 实体词消歧、知识图谱生成和知识推荐方法以及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant