CN116842148B - 无标注语料下的问答自动抽取方法及*** - Google Patents
无标注语料下的问答自动抽取方法及*** Download PDFInfo
- Publication number
- CN116842148B CN116842148B CN202310554383.6A CN202310554383A CN116842148B CN 116842148 B CN116842148 B CN 116842148B CN 202310554383 A CN202310554383 A CN 202310554383A CN 116842148 B CN116842148 B CN 116842148B
- Authority
- CN
- China
- Prior art keywords
- question
- answer
- pairs
- divergence
- answer pairs
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 23
- 238000002372 labelling Methods 0.000 title claims abstract description 21
- 238000009826 distribution Methods 0.000 claims abstract description 50
- 238000000034 method Methods 0.000 claims abstract description 44
- 239000013598 vector Substances 0.000 claims abstract description 42
- 238000004364 calculation method Methods 0.000 claims description 23
- 230000006870 function Effects 0.000 claims description 21
- 238000001914 filtration Methods 0.000 claims description 12
- 238000012549 training Methods 0.000 claims description 4
- 238000013145 classification model Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 238000012545 processing Methods 0.000 abstract description 7
- 238000012795 verification Methods 0.000 description 7
- 238000005070 sampling Methods 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 206010023126 Jaundice Diseases 0.000 description 1
- 241001061076 Melanonus zugmayeri Species 0.000 description 1
- 235000013290 Sagittaria latifolia Nutrition 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 235000015246 common arrowhead Nutrition 0.000 description 1
- 230000001143 conditioned effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000012850 discrimination method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3335—Syntactic pre-processing, e.g. stopword elimination, stemming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种无标注语料下的问答自动抽取方法及***,包括识别对话记录中的疑问句和陈述句;将对话记录组合为问答句,采用TF‑IDF模型计算问答句的特征词向量,利用LDA模型预测问句和答句在主题上的概率分布,计算问答对的对称KL散度,根据对称KL散度确定主题相关的问答对;将主题相关的问答对中问句语义相似且答句语义相似的问答对归并为一个问答对集合,抽取各问答对集合的中心问答对作为该集合的代表问答对;排除代表问答对中的对特定垂域无效的问答对以及出现频率低、可靠性低的问答对。优点是:能够在多个领域的对话数据中抽取出问答对,无需对问答对进行人工标注,抽取过程可完全自动化,极大降低人力成本,保证了处理结果的稳定性和一致性。
Description
技术领域
本发明涉及自然语言文字处理技术领域,尤其涉及一种无标注语料下的问答自动抽取方法及***。
背景技术
问答句对(QA pair)是自动问答***的主要语料素材,目前获得问答句对的方式主要采用人工方式收集,或以人工为基础,将收集的问答句对作为标注语料,训练基于神经网络的端对端模型,然后基于模型预测(生成)问题或答案。采用人工方式效率很低,难以满足复杂多变的实际应用需要,而基于端对端模型,也需要大量标注数据及极高算力,而生成结果通常异于原始数据,效果无法控制,面对不同应用场景时,需要重新收集语料和训练高耗时模型。
发明内容
本发明的目的在于提供一种无标注语料下的问答自动抽取方法及***,从而解决现有技术中存在的前述问题。
为了实现上述目的,本发明采用的技术方案如下:
一种无标注语料下的问答自动抽取方法,包括如下步骤,
S1、问答单句识别:识别对话记录中的疑问句和陈述句;
S2、问答句对齐:将对话记录组合为问答句,采用TF-IDF模型计算问答句的特征词向量,将特征词向量输入到训练好的LDA模型中预测问句和答句在主题上的概率分布,基于概率分布计算问答对的对称KL散度,并将对称KL散度小于对称KL散度阈值的问答句视为主题相关的问答对;
S3、问答句归并:将主题相关的问答对中问句语义相似且答句语义相似的问答对归并为一个问答对集合,抽取各问答对集合的中心问答对作为该问答对集合的代表问答对;
S4、问答句过滤:排除代表问答对中的对特定垂域无效的问答对及出现频率低、可靠性低的问答对,将剩余的代表问答对作为最终的问答句。
优选的,步骤S2中将对话记录组合为问答句具体为,根据对话记录中的角色、时间顺序、句型,按照组合规则将对话记录中的问句和答句组合为问答句。
优选的,所述组合规则包括,问句和答句必须分属不同的角色;在时间顺序上问句先于答句,并且邻接;问句是疑问句,答句是陈述句。
优选的,步骤S2中采用TF-IDF计算问答句的特征词向量具体为,
S211、对问答句进行语料分词并停用词表过滤;
S212、利用TF-IDF模型获取问答句的特征词向量,公式如下,
TF-IDF(w,s,i,j)=TF(w,s,i,j)×IDF(w,s,i,j)
Contain(wi,sj)=[In(wi,sj)]Iverson
wi∈W={w1,w2,…,wN}
sj∈S={s1,s2,…,sM}
其中,W为词条集合,集合基数为N;S为句子集合,集合基数为M,i为W中词条的索引,j为S中句子的索引;TF-IDF模型包括词项频率模型TF和逆向文档频率模型IDF;TF-IDF(w,s,i,j)为TF-IDF模型的计算函数,由TF模型的计算函数TF(w,s,i,j)和IDF模型的计算函数IDF(w,s,i,j)构成,即给定包含N个词条的词条集合W和包含M个句子的句子集合S,计算第i个词条在第j个单句的TF-IDF值;Contain(wi,sj)为计数函数,即词条wi在单句sj中的数量,Contain(wi,sj)通过艾佛森括号[]Iverson判断命题In(wi,sj)是否成立,进而确定词条wi是否存在单句sj中,成立时Contain(wi,sj)为1,不成立时Contain(wi,sj)为0;命题In(wi,sj)指词条wi是否存在单句sj中。
优选的,步骤S2中,将特征词向量输入到训练好的LDA模型中预测问句和答句在主题上的概率分布,基于概率分布计算问答对的对称KL散度,并将对称KL散度小于对称KL散度阈值的问答句视为主题相关的问答对,具体为,
S221、将问答对的特征词向量输入到训练好的LDA模型中,获取问句和答句在主题上的概率分布A和B;
S222、计算两个概率分布之间的对称KL散度,
其中,SKLD是对称KL散度计算函数;A和B为两组需要比较的概率分布,具体为由LDA模型生成的两组主题分布向量;为A对于B和B对于A的KL散度的协调均值;KLD(A||B)为A对于B的KL散度,KLD(B||A)为B对于A的KL散度;
对于连续型随机变量x,A对于B的KL散度为,
对于离散型随机变量x,A对于B的KL散度为,
其中,KLD为KL散度计算函数;p(x)为随机向量x的分布,当x的状态给定时,p(x)为该状态下的概率,q(x)为随机向量x的比较分布,当x的状态给定时,q(x)为该状态下的比较概率;p(xt)为随机变量x在第t状态下的概率,q(xt)为随机变量x在第t状态下的比较概率;t=1,2,…,T,T为状态总数;
S223、将对称KL散度小于对称KL散度阈值的问答对视为主题相关的问答对。
优选的,对称KL散度阈值的获取方式为,将少量人工确定的样本问答对采用S221-S222获取对应的对称KL散度,并将其中最大的对称KL散度作为对称KL散度阈值。
优选的,步骤S3中问答对集合的中心问答对确定方式为,计算问答对集合中每个问答对与集合中其他问答对之间的语义距离,将语义距离平均值小且语义距离方差小的问答对作为问答对集合的中心问答对。
优选的,语义距离平均值小且语义距离方差小的问答对筛选方式为,
S31、对语义距离平均值和语义距离方差按大小二分,形成四象限;
S32、选择语义距离平均值和语义距离方差小的象限中的问答对;
S33、重复上述过程,直至仅剩唯一的问答对即为该问答对集合的中心问答对。
优选的,步骤S4具体为,
对特定垂域无效的问答对:该类问答对指的是在非特定领域出现频率超过预设频率阈值的问答对;基于无效问答对语料训练文本分类模型预测各代表问答对在非特定领域出现频率,并根据预测结果与预设频率阈值之间的大小关系,自动排除此类对特定垂域无效的问答对;
出现频率低、可靠性低的问答对:该类问答对即为其所属的问答对集合的基数小于基数阈值;则排除所属的问答对集合的基数小于基数阈值的代表问答对。
本发明的目的还在于提供一种无标注预料下的问答自动抽取***,***用于实现上述任一所述的方法,***包括,
问答单句识别模块:用于识别对话记录中的疑问句和陈述句;
问答句对齐模块:用于将对话记录组合为问答句,采用TF-I DF模型计算问答句的特征词向量,将特征词向量输入到训练好的LDA模型中预测问句和答句在主题上的概率分布,基于概率分布计算问答对的对称KL散度,并将对称KL散度小于对称KL散度阈值的问答句视为主题相关的问答对;
问答句归并模块:用于将主题相关的问答对中问句语义相似且答句语义相似的问答对归并为一个问答对集合,抽取各问答对集合的中心问答对作为该问答对集合的代表问答对;
问答句过滤模块:用于排除代表问答对中的对特定垂域无效的问答对以及出现频率低、可靠性低的问答对,将剩余的代表问答对作为最终的问答句。
本发明的有益效果是:1、本发明方法能够在多个领域的对话数据中抽取出问答对,无需在该领域下对问答对进行人工标注,同时抽取过程可完全自动化,极大降低人力成本,同时保证了处理结果的稳定性和一致性。2、本发明方法中所采用的通用领域问答对(特定领域无效)仅需少量人工标注,如果在实际应用中不需要排除这类通用问答对,那么所提出的方法可以完全不需要人工标注的问答对。3、本发明方法在对低频问答对的处理中,也可以采用阈值自动校验,而不采用人工校验,确保所提出的方法完全自动化。
附图说明
图1是本发明实施例中方法的原理流程图;
图2是本发明实施例中LDA模型的示意图;
图3是本发明实施例中***的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不用于限定本发明。
实施例一
如图1所示,本实施例中,提供了一种无标注语料下的问答自动抽取方法,具体包括四个步骤,分别如下,
一、问答单句识别
识别对话记录中的疑问句和陈述句。识别方法可以采用现有技术中的方法,如专利ZL202210126096.0“无标注语料下的句型自动判别方法”。
二、问答句对齐
将对话记录组合为问答句,采用TF-I DF模型计算问答句的特征词向量,将特征词向量输入到训练好的LDA模型中预测问句和答句在主题上的概率分布,基于概率分布计算问答对的对称KL散度,并将对称KL散度小于对称KL散度阈值的问答句视为主题相关的问答对。
1、将对话记录组合为问答句,具体为,
根据对话记录中的角色、时间顺序、句型(疑问、陈述),按照组合规则将对话记录中的问句和答句组合为问答句。所述组合规则包括,
(1)问句和答句必须分属不同的角色;
(2)在时间顺序上问句先于答句,并且邻接;
(3)问句是疑问句,答句是陈述句。
2、采用TF-IDF计算问答句的特征词向量,具体包括如下步骤,
2.1、对问答句进行语料分词并停用词表过滤;
2.2、利用TF-IDF模型获取问答句的特征词向量,公式如下,
TF-IDF(w,s,i,j)=TF(w,s,i,j)×IDF(w,s,i,j)
Contain(wi,sj)=[In(wi,sj)]Iverson
wi∈W={w1,w2,…,wN}
sj∈S={s1,s2,…,sM}
其中,W为词条集合(项集合),集合基数为N;S为句子集合(文档集合),集合基数为M,i为W中词条的索引(第i词条),j为S中句子的索引(第j句子);TF-IDF模型包括词项频率模型TF和逆向文档频率模型IDF;TF-IDF(w,s,i,j)为TF-IDF模型的计算函数,由TF模型的计算函数TF(w,s,i,j)和IDF模型的计算函数IDF(w,s,i,j)构成,即给定包含N个词条的词条集合W和包含M个句子的句子集合S,计算第i个词条在第j个单句的TF-IDF值;Contain(wi,sj)为计数函数,即词条wi在单句sj中的数量,Contain(wi,sj)通过艾佛森括号[]Iverson判断命题In(wi,sj)是否成立,进而确定词条wi是否存在单句sj中,成立时Contain(wi,sj)为1,不成立时Contain(wi,sj)为0;命题In(wi,sj)指词条wi是否存在单句sj中。
本实施例中,TF-IDF模型构造特征词矩阵,具体为句子转化为特征词向量,句子集合转化为多个同维度特征词向量,组成特征词矩阵,为降低复杂度也可采用词袋(wordbag)计数的稀疏矩阵结构。为降低特征向量数量,可采用分领域文档集合,即分领域的句子集合,以文档(多句集合)替代单句。特征向量维度为采用的有效词条数,为降低维度,可加大停用词表,或给定有效词表。
3、将特征词向量输入到训练好的LDA模型中预测问句和答句在主题上的概率分布,基于概率分布计算问答对的对称KL散度,并将对称KL散度小于对称KL散度阈值的问答句视为主题相关的问答对,具体包括如下步骤,
3.1、将问答对的特征词向量输入到训练好的LDA模型中,获取问句和答句在主题上的概率分布(即概率向量)A和B。
本实施例中,对于LDA模型,需要提前对其进行训练,使其达到最佳状态,获取训练好的LDA模型,可以选取部分历史问答句,经该步骤之前的相关内容进行处理后获取相应的特征词向量,输入到LDA模型中对其进行训练,获取训练好的LDA模型。
本实施例中,LDA模型是一种典型的概率图模型(Probabilistic GraphicalModels),参见附图2,其中节点(α、β、θ、φ、z、w)表示服从特定分布的随机变量,z代表主题编号,w代表词条,其他希腊字母代表随机变量为超参数和隐变量,图整体代表一个由这些随机变量组成的联合分布。箭头表示条件分布,即箭头头部随机变量服从以箭头尾部随机变量为条件(参数)的特定分布,尾部随机变量称为先验随机变量,其服从的分布称为先验分布,θ服从α为超参数的狄利克雷分布(Dirichlet),φ服从β为超参数的狄利克雷分布,z服从以θ为超参数的多项分布(Multinomial),w服从z为条件并以φ为超参数的多项分布。方框(plate,也称盘子)表示其内部的随机变量为多个,数量被标记在方框内(如n、m、k表示序号),双环节点w为观察变量。对于概率图模型一般可采用采样法进行训练(即参数估计),如马尔科夫链蒙特卡洛(MCMC),具体到LDA可采用吉布斯采样法(Gibbs sampling)。实践中,可采用python开发包scikit-learn中的LatentDirichletAllocation协助实现该模型算法。
3.2、计算两个概率分布之间的对称KL散度,
其中,SKD是对称KL散度计算函数;A和B为两组需要比较的概率分布,具体为由LDA模型生成的两组主题分布向量;为A对于B和B对于A的KL散度的协调均值;KLD(A||B)为A对于B的KL散度,KLD(B||A)为B对于A的KL散度。
为了与KL散度值意义保持一致,当主题分布A和B相等时(每个分量都相等),SKLD为0,否则计算A对于B和B对于A的KL散度的协调均值。
对于连续型随机变量x,A对于B的KL散度为,
对于离散型随机变量x,A对于B的KL散度为,
其中,KLD为KL散度计算函数;p(x)为随机向量x的分布,当x的状态给定时,p(x)为该状态下的概率,q(x)为随机向量x的比较分布,当x的状态给定时,q(x)为该状态下的比较概率;p(xt)为随机变量x在第t状态下的概率,q(xt)为随机变量x在第t状态下的比较概率;t=1,2,…,T,T为状态总数。
本实施例中,A和B可视为离散型分布,对称函数采用协调均值(harmonic mean),主要考虑KL散度为0时A和B相等,我们倾向于对称值更偏向更小值,即偏向于0,而相对与算术均值和几何均值,协调均值更小。(加权)协调均值为标准形式为,
其中,HM是协调均值计算函数;x1,x2,…xN为需要计算均值的样例值,下角标w1,w2,…wN为对应样例的值的权重集合。结合离散KL散度和协调均值,构造对称KL散度函数,进而计算两个概率分布之间的对称KL散度。
3.3、将对称KL散度小于对称KL散度阈值的问答对视为主题相关的问答对。
对称KL散度阈值的获取方式为,将少量人工确定的样本问答对采用3.1-3.2获取对应的对称KL散度,并将其中最大的对称KL散度作为对称KL散度阈值。
三、问答句归并
将主题相关的问答对中问句语义相似且答句语义相似的问答对归并为一个问答对集合,抽取各问答对集合的中心问答对作为该问答对集合的代表问答对。
该阶段将问答对中,问句语义相似且回答语义相似的问答对归并。实际应用中,当存在一定量的特定领域(垂域)对话数据时,其中特定语义的问答对通常不会孤立存在,即通常存在多组语义相似的问答对集合,且集合的基数(集合元素数量)越大,该集合中的问答对在该垂域中约典型,从统计角度上看,该集合所包含的问答对越可靠。
生成上述问答对集合采用问答句聚类算法可以为现有方法,如专利ZL202210423090.X“一种适应低算力的大规模相似语句自动抽取方法”中的聚类算法,其包含增量层次化聚类及聚类相似度阈值下限启发算法两个部分。基于问答句聚类结果,将问句及回答同属一类的问答对归为一个问答对集合,之后抽取问答对集合中的中心问答对作为该问答对集合的代表问答对。
问答对集合的中心问答对确定方式为,计算问答对集合中每个问答对与集合中其他问答对之间的语义距离,将语义距离平均值小且语义距离方差小的问答对作为问答对集合的中心问答对。其中,语义距离平均值小且语义距离方差小的问答对筛选方式为,
(1)、对语义距离平均值和语义距离方差按大小二分,形成四象限;
(2)、选择语义距离平均值和语义距离方差小的象限中的问答对;
(3)、重复上述过程,直至仅剩唯一的问答对即为该问答对集合的中心问答对。
本实施例中,语义距离的计算方式也采用专利ZL202210423090.X“一种适应低算力的大规模相似语句自动抽取方法”中的语义距离计算方式。
四、问答句过滤
排除代表问答对中的对特定垂域无效的问答对及出现频率低、可靠性低的问答对,将剩余的代表问答对作为最终的问答句。
1、对特定垂域无效的问答对:该类问答对指的是在非特定领域出现频率超过预设频率阈值的问答对,比如‘A:你怎么样,B:很好’,‘A:能等一下吗,B:好的’;基于无效问答对语料训练文本分类模型预测各代表问答对在非特定领域出现频率,并根据预测结果与预设频率阈值之间的大小关系,自动排除此类对特定垂域无效的问答对;
2、出现频率低、可靠性低的问答对:该类问答对即为其所属的问答对集合的基数小于基数阈值;则排除所属的问答对集合的基数小于基数阈值的代表问答对。在问答句归并阶段,已经将问答对根据语义相似性聚类,所生成的语义相似的问答对集合的基数如果很低,那么该问答对可能偶然发生,不具代表性。采用人工方式校验时,可以仅将这类基数低的问答对集合作为校验对象,降低人工校验量,而自动排除时,可以根据实际经验指定基数最小阈值,低于该阈值的问答对集合将被抛弃。
如图3所示,本实施例中,提供了一种无标注预料下的问答自动抽取***,***用于实现上述所述的方法,***包括,
问答单句识别模块:用于识别对话记录中的疑问句和陈述句;
问答句对齐模块:用于将对话记录组合为问答句,采用TF-I DF模型计算问答句的特征词向量,将特征词向量输入到训练好的LDA模型中预测问句和答句在主题上的概率分布,基于概率分布计算问答对的对称KL散度,并将对称KL散度小于对称KL散度阈值的问答句视为主题相关的问答对;
问答句归并模块:用于将主题相关的问答对中问句语义相似且答句语义相似的问答对归并为一个问答对集合,抽取各问答对集合的中心问答对作为该问答对集合的代表问答对;
问答句过滤模块:用于排除代表问答对中的对特定垂域无效的问答对以及出现频率低、可靠性低的问答对,将剩余的代表问答对作为最终的问答句。
实施例二
本实施例中,本发明方法对算力要求较低,在4核16G内存服务器上便可正常实施,处理时间与对话数据规模呈线性正相关关系,处理10万通级别规模对话记录的时间约1天。以我们在某领域上的实施情况为例,规模为85000通(1通指从对话开始到对话结束的1次完整多轮对话,按句计约100万句)的原始对话记录,执行问答句型判别时间约为2小时,对齐8小时,归并12小时,过滤1小时,总共约23小时,抽取出问答对约为23000对,人工抽检500对,确认为正确问答对(正确指,问答对中问句和回答为正确的对应关系,记为标准A)496对,正确率99.2%,通过对过滤算法调节,可以更严格的确定领域相关性和统计可靠性,约获得12500对,人工抽检300对(除正确的问答对应关系外,考虑领域相关性,记为标准B),标准A正确率为100%,标准B正确率94.3%。正确率满足实际需求,直接作为后续计算模型的训练语料及输入数据。
本实施例中,给出如下实例,具体说明本发明方法的执行过程:
对话记录如下表:
抽取结果如下表:
计算过程:
“我家有新生儿*天黄疸值比较高需要照蓝光。我想问问您这有没有母婴同室照蓝光的服务,妈妈可以和孩子待在一起陪她的”作为A句;
“我院是可以照蓝光的,但是没有母婴同室的”作为B句;
1、问答单句识别:A识别为疑问句,B识别为陈述句。
2、问答句对齐:A和B为不同的角色且时序邻接,主题近似(母婴,蓝光治疗)。
3、问答句归并:A为问句与其它问句语义聚类为C,B为回答与其它回答聚类为D,C和D中,A与其它问句、B与其它回答的语义距离均值、方差较小,被选出作为此类问答代表问答句对。
4、问答句过滤:与已有的通用问答对比计算,A和B不属于通用问答句(比如寒暄),而且作为同类问答在对话记录中总频次高于阈值(此例中为3)。确定A和B保留为结果。
通过采用本发明公开的上述技术方案,得到了如下有益的效果:
本发明提供了一种无标注语料下的问答自动抽取方法及***,本发明方法能够在多个领域的对话数据中抽取出问答对,无需在该领域下对问答对进行人工标注,同时抽取过程可完全自动化,极大降低人力成本,同时保证了处理结果的稳定性和一致性。本发明方法中所采用的通用领域问答对(特定领域无效)仅需少量人工标注,如果在实际应用中不需要排除这类通用问答对,那么所提出的方法可以完全不需要人工标注的问答对。本发明方法在对低频问答对的处理中,也可以采用阈值自动校验,而不采用人工校验,确保所提出的方法完全自动化。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视本发明的保护范围。
Claims (10)
1.一种无标注语料下的问答自动抽取方法,其特征在于:包括如下步骤,
S1、问答单句识别:识别对话记录中的疑问句和陈述句;
S2、问答句对齐:将对话记录组合为问答句,采用TF-IDF模型计算问答句的特征词向量,将特征词向量输入到训练好的LDA模型中预测问句和答句在主题上的概率分布,基于概率分布计算问答对的对称KL散度,并将对称KL散度小于对称KL散度阈值的问答句视为主题相关的问答对;
S3、问答句归并:将主题相关的问答对中问句语义相似且答句语义相似的问答对归并为一个问答对集合,抽取各问答对集合的中心问答对作为该问答对集合的代表问答对;
S4、问答句过滤:排除代表问答对中的对特定垂域无效的问答对及出现频率低、可靠性低的问答对,将剩余的代表问答对作为最终的问答句。
2.根据权利要求1所述的无标注语料下的问答自动抽取方法,其特征在于:步骤S2中将对话记录组合为问答句具体为,根据对话记录中的角色、时间顺序、句型,按照组合规则将对话记录中的问句和答句组合为问答句。
3.根据权利要求2所述的无标注语料下的问答自动抽取方法,其特征在于:所述组合规则包括,问句和答句必须分属不同的角色;在时间顺序上问句先于答句,并且邻接;问句是疑问句,答句是陈述句。
4.根据权利要求1所述的无标注语料下的问答自动抽取方法,其特征在于:步骤S2中采用TF-IDF计算问答句的特征词向量具体为,
S211、对问答句进行语料分词并停用词表过滤;
S212、利用TF-IDF模型获取问答句的特征词向量,公式如下,
TF-IDF(w,s,i,j)=TF(w,s,i,j)×IDF(w,s,i,j)
Contain(wi,sj)=[In(wi,sj)]Iverson
wi∈W={w1,w2,…,wN}
sj∈S={s1,s2,…,sM}
其中,W为词条集合,集合基数为N;S为句子集合,集合基数为M,i为W中词条的索引,j为S中句子的索引;TF-IDF模型包括词项频率模型TF和逆向文档频率模型IDF;TF-IDF(w,s,i,j)为TF-IDF模型的计算函数,由TF模型的计算函数TF(w,s,i,j)和IDF模型的计算函数IDF(w,s,i,j)构成,即给定包含N个词条的词条集合W和包含M个句子的句子集合S,计算第i个词条在第j个单句的TF-IDF值;Contain(wi,sj)为计数函数,即词条wi在单句sj中的数量,Contain(wi,sj)通过艾佛森括号[]Iverson判断命题In(wi,sj)是否成立,进而确定词条wi是否存在单句sj中,成立时Contain(wi,sj)为1,不成立时Contain(wi,sj)为0;命题In(wi,sj)指词条wi是否存在单句sj中。
5.根据权利要求1所述的无标注语料下的问答自动抽取方法,其特征在于:步骤S2中,将特征词向量输入到训练好的LDA模型中预测问句和答句在主题上的概率分布,基于概率分布计算问答对的对称KL散度,并将对称KL散度小于对称KL散度阈值的问答句视为主题相关的问答对,具体为,
S221、将问答对的特征词向量输入到训练好的LDA模型中,获取问句和答句在主题上的概率分布A和B;
S222、计算两个概率分布之间的对称KL散度,
其中,SKLD是对称KL散度计算函数;A和B为两组需要比较的概率分布,具体为由LDA模型生成的两组主题分布向量;为A对于B和B对于A的KL散度的协调均值;KLD(A||B)为A对于B的KL散度,KLD(B||A)为B对于A的KL散度;
对于连续型随机变量x,A对于B的KL散度为,
对于离散型随机变量x,A对于B的KL散度为,
其中,KLD为KL散度计算函数;p(x)为随机向量x的分布,当x的状态给定时,p(x)为该状态下的概率,q(x)为随机向量x的比较分布,当x的状态给定时,q(x)为该状态下的比较概率;p(xt)为随机变量x在第t状态下的概率,q(xt)为随机变量x在第t状态下的比较概率;t=1,2,…,T,T为状态总数;
S223、将对称KL散度小于对称KL散度阈值的问答对视为主题相关的问答对。
6.根据权利要求5所述的无标注语料下的问答自动抽取方法,其特征在于:对称KL散度阈值的获取方式为,将少量人工确定的样本问答对采用S221-S222获取对应的对称KL散度,并将其中最大的对称KL散度作为对称KL散度阈值。
7.根据权利要求1所述的无标注语料下的问答自动抽取方法,其特征在于:步骤S3中问答对集合的中心问答对确定方式为,计算问答对集合中每个问答对与集合中其他问答对之间的语义距离,将语义距离平均值小且语义距离方差小的问答对作为问答对集合的中心问答对。
8.根据权利要求7所述的无标注语料下的问答自动抽取方法,其特征在于:语义距离平均值小且语义距离方差小的问答对筛选方式为,
S31、对语义距离平均值和语义距离方差按大小二分,形成四象限;
S32、选择语义距离平均值和语义距离方差小的象限中的问答对;
S33、重复上述过程,直至仅剩唯一的问答对即为该问答对集合的中心问答对。
9.根据权利要求1所述的无标注语料下的问答自动抽取方法,其特征在于:步骤S4具体为,
对特定垂域无效的问答对:该类问答对指的是在非特定领域出现频率超过预设频率阈值的问答对;基于无效问答对语料训练文本分类模型预测各代表问答对在非特定领域出现频率,并根据预测结果与预设频率阈值之间的大小关系,自动排除此类对特定垂域无效的问答对;
出现频率低、可靠性低的问答对:该类问答对即为其所属的问答对集合的基数小于基数阈值;则排除所属的问答对集合的基数小于基数阈值的代表问答对。
10.无标注预料下的问答自动抽取***,其特征在于,***用于实现上述权利要求1至9任一所述的方法,***包括,
问答单句识别模块:用于识别对话记录中的疑问句和陈述句;
问答句对齐模块:用于将对话记录组合为问答句,采用TF-IDF模型计算问答句的特征词向量,将特征词向量输入到训练好的LDA模型中预测问句和答句在主题上的概率分布,基于概率分布计算问答对的对称KL散度,并将对称KL散度小于对称KL散度阈值的问答句视为主题相关的问答对;
问答句归并模块:用于将主题相关的问答对中问句语义相似且答句语义相似的问答对归并为一个问答对集合,抽取各问答对集合的中心问答对作为该问答对集合的代表问答对;
问答句过滤模块:用于排除代表问答对中的对特定垂域无效的问答对以及出现频率低、可靠性低的问答对,将剩余的代表问答对作为最终的问答句。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310554383.6A CN116842148B (zh) | 2023-05-17 | 2023-05-17 | 无标注语料下的问答自动抽取方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310554383.6A CN116842148B (zh) | 2023-05-17 | 2023-05-17 | 无标注语料下的问答自动抽取方法及*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116842148A CN116842148A (zh) | 2023-10-03 |
CN116842148B true CN116842148B (zh) | 2023-12-05 |
Family
ID=88173239
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310554383.6A Active CN116842148B (zh) | 2023-05-17 | 2023-05-17 | 无标注语料下的问答自动抽取方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116842148B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104391942A (zh) * | 2014-11-25 | 2015-03-04 | 中国科学院自动化研究所 | 基于语义图谱的短文本特征扩展方法 |
CN105975499A (zh) * | 2016-04-27 | 2016-09-28 | 深圳大学 | 一种文本主题检测方法及*** |
CN110472005A (zh) * | 2019-06-27 | 2019-11-19 | 中山大学 | 一种无监督关键词提取方法 |
WO2022095368A1 (zh) * | 2020-11-04 | 2022-05-12 | 平安科技(深圳)有限公司 | 基于文本生成模型的问答语料生成方法和装置 |
CN115129834A (zh) * | 2022-05-20 | 2022-09-30 | 网易(杭州)网络有限公司 | 一种问答方法及*** |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11610113B2 (en) * | 2019-10-22 | 2023-03-21 | Intuit Inc. | System and method for understanding questions of users of a data management system |
-
2023
- 2023-05-17 CN CN202310554383.6A patent/CN116842148B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104391942A (zh) * | 2014-11-25 | 2015-03-04 | 中国科学院自动化研究所 | 基于语义图谱的短文本特征扩展方法 |
CN105975499A (zh) * | 2016-04-27 | 2016-09-28 | 深圳大学 | 一种文本主题检测方法及*** |
CN110472005A (zh) * | 2019-06-27 | 2019-11-19 | 中山大学 | 一种无监督关键词提取方法 |
WO2022095368A1 (zh) * | 2020-11-04 | 2022-05-12 | 平安科技(深圳)有限公司 | 基于文本生成模型的问答语料生成方法和装置 |
CN115129834A (zh) * | 2022-05-20 | 2022-09-30 | 网易(杭州)网络有限公司 | 一种问答方法及*** |
Non-Patent Citations (1)
Title |
---|
OneStop QAMaker: Extract Qustion-Answer Pairs from Text in a One-Stop Approach;Shaob o Cui et al.;《arxiv》;1-8 * |
Also Published As
Publication number | Publication date |
---|---|
CN116842148A (zh) | 2023-10-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108363743B (zh) | 一种智能问题生成方法、装置和计算机可读存储介质 | |
CN106570708B (zh) | 一种智能客服知识库的管理方法及*** | |
CN109598995B (zh) | 基于贝叶斯知识跟踪模型的智能教学*** | |
CN114064918B (zh) | 一种多模态事件知识图谱构建方法 | |
CN111738004A (zh) | 一种命名实体识别模型的训练方法及命名实体识别的方法 | |
CN111709242B (zh) | 一种基于命名实体识别的中文标点符号添加方法 | |
CN111143571B (zh) | 实体标注模型的训练方法、实体标注方法以及装置 | |
CN109741824B (zh) | 一种基于机器学习的医疗问诊方法 | |
CN111291188A (zh) | 一种智能信息抽取方法及*** | |
CN110188189B (zh) | 一种基于知识的自适应事件索引认知模型提取文档摘要的方法 | |
CN115017303A (zh) | 基于新闻文本进行企业风险评估的方法、计算设备和介质 | |
CN113343690A (zh) | 一种文本可读性自动评估方法及装置 | |
CN115659947A (zh) | 基于机器阅读理解及文本摘要的多项选择答题方法及*** | |
CN111597349A (zh) | 一种基于人工智能的轨道交通规范实体关系自动补全方法 | |
CN113486174B (zh) | 模型训练、阅读理解方法、装置、电子设备及存储介质 | |
CN113869054A (zh) | 一种基于深度学习的电力领域项目特征识别方法 | |
CN113220964B (zh) | 一种基于网信领域短文本的观点挖掘方法 | |
CN114219248A (zh) | 一种基于lda模型、依存句法和深度学习的人岗匹配方法 | |
CN111597330A (zh) | 一种基于支持向量机的面向智能专家推荐的用户画像方法 | |
CN116522165B (zh) | 一种基于孪生结构的舆情文本匹配***及方法 | |
CN116842148B (zh) | 无标注语料下的问答自动抽取方法及*** | |
CN115878847B (zh) | 基于自然语言的视频引导方法、***、设备及存储介质 | |
CN115757775B (zh) | 基于文本蕴含的无触发词文本事件检测方法及*** | |
CN116362591A (zh) | 基于情感分析的多维度教师评价辅助方法和*** | |
CN114862006A (zh) | 一种基于人工智能的社会工作服务方案自动化生成方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |