CN111191450A - 语料清洗方法、语料录入设备及计算机可读存储介质 - Google Patents

语料清洗方法、语料录入设备及计算机可读存储介质 Download PDF

Info

Publication number
CN111191450A
CN111191450A CN201911379646.4A CN201911379646A CN111191450A CN 111191450 A CN111191450 A CN 111191450A CN 201911379646 A CN201911379646 A CN 201911379646A CN 111191450 A CN111191450 A CN 111191450A
Authority
CN
China
Prior art keywords
corpus
vocabulary
information content
sample
vocabularies
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911379646.4A
Other languages
English (en)
Other versions
CN111191450B (zh
Inventor
马力
熊友军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Ubtech Technology Co ltd
Original Assignee
Shenzhen Ubtech Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Ubtech Technology Co ltd filed Critical Shenzhen Ubtech Technology Co ltd
Priority to CN201911379646.4A priority Critical patent/CN111191450B/zh
Publication of CN111191450A publication Critical patent/CN111191450A/zh
Priority to US16/886,826 priority patent/US11580299B2/en
Application granted granted Critical
Publication of CN111191450B publication Critical patent/CN111191450B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Algebra (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种语料请求方法、语料录入设备及计算机可读存储介质,该语料清洗方法包括:获取输入的语料;由预先训练好的通用模型对语料中各个词汇的信息含量进行预测以获取各个词汇的信息含量预测值;根据各个词汇的信息含量预测值而确定冗余词汇,并进一步确定是否将冗余词汇从语料中去除。本申请所提供的语料清洗方法能够提高语料清洗时的客观性和准确性。

Description

语料清洗方法、语料录入设备及计算机可读存储介质
技术领域
本申请涉及语料清洗技术领域,特别是涉及一种语料清洗方法、语料录入设备及计算机可读存储介质。
背景技术
在面向用户的人机对话开放式平台中,需要商户针对不同场景和意图录入相应的训练语料,而后***利用这些训练语料进行训练,在实际对话场景中利用训练得到的模型对终端用户输入的话语进行识别。
这类开放式平台面临的一个技术难点是商户掌握的语料往往非常有限,在训练语料稀疏的情况下,机器学***台中创建了“查询天气”和“查询航班”两个意图,而在录入语料时只在“查询天气”意图中出现了“请问”这个前缀,那么当对“请问我的航班几点起飞”这句话进行意图识别时,***可能仅仅因为语句中出现了“请问”一词,就把意图判定为“查询天气”,这显然是不合理的。
目前针对该现象一个直接的解决方案是构建停用词表,在进行训练和预测时把无关词汇去除,目前网上有很多停用词表供下载,但这些停用词表不是针对于对话***中的意图识别任务特别整理的,此外,一个词语能否从一句话里去除而不影响语义,不仅取决于其字面构成,还取决于上下文的信息。例如,“请问今天会下雨吗”这句话里去掉“请问”不会对语义解析造成任何干扰,但在“我想听‘请问’这首歌”中,如果把“请问”去掉,则会对语义解析造成干扰。因此目前的这种解决方法存在缺陷。
发明内容
本申请主要解决的技术问题是提供一种语料清洗方法、语料录入设备及计算机可读存储介质,能够提高语料清洗时的客观性和准确性。
为解决上述技术问题,本申请采用的一个技术方案是:提供一种语料清洗方法,所述方法包括:获取输入的语料;由预先训练好的通用模型对所述语料中各个词汇的信息含量进行预测以获取各个词汇的信息含量预测值;根据所述各个词汇的信息含量预测值而确定冗余词汇,并进一步确定是否将所述冗余词汇从所述语料中去除。
为解决上述技术问题,本申请采用的另一个技术方案是:提供一种语料录入设备,包括处理器、存储器以及通信电路,所述处理器分别耦接所述存储器以及所述通信电路,所述处理器通过执行所述存储器内的程序指令以实现上述方法中的步骤。
为解决上述技术问题,本申请采用的另一个技术方案是:提供一种计算机可读存储介质,存储有程序指令,所述程序指令能够被处理器执行以实现如上述方法中的步骤。
本申请的有益效果是:本申请利用预先训练并达到收敛的通用模型对语料中各词汇的信息含量进行预测,从而根据预测的结果将冗余词汇从语料中去除,达到清洗语料的目的,相比较停用词表的构建具有主观性和随意性,通用模型由于预先训练并达到收敛,其客观性和严谨性更强,因此能够保证清洗语料时的客观性和准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。其中:
图1是本申请语料清洗方法一实施方式的流程示意图;
图2是图1实施方式中的部分具体流程示意图;
图3是本申请语料录入设备一实施方式的结构示意图;
图4是本申请计算机可读存储介质一实施方式的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性的劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
首先在介绍本申请之前,对本申请的背景做如下介绍:
本发明的应用场景是B2B的人机对话开放式平台。下文中把人机对话开放式平台的开发者称为甲方,把平台的使用者称为乙方,把进行人机交互的用户称为丙方。甲方的职责是设计人机对话开放式平台的整体架构以及机器学***台录入意图、语料和词槽,并制定特定条件下***的回复策略,其服务对象是丙方;丙方是人机对话开放式平台的终端用户,他们向***输入文字信息,以期望***给出满意的回复。乙方需要根据自己客户(丙方)的交互需要,利用人机对话开放式平台录入不同的意图类别,并向不同的意图类别录入语料,在甲方预先设计好的机器学习模型结构上利用自己录入的语料进行训练,并利用训练好的机器学习模型对丙方输入的信息进行判别。甲方拥有所有乙方客户录入的数据,但并不直接面向丙方部署服务。
参阅图1,图1是本申请语料清洗方法一实施方式的流程示意图,该方法包括:
S110:获取输入的语料。
此处所涉及的语料既可以由上述的乙方输入,也可以由上述的丙方输入。
当语料由乙方输入时,输入的语料为训练语料,后续利用训练语料对甲方预先设计好的机器学习模型进行训练,最后利用训练好的机器学习模型对丙方输入的语料进行意图判别,并进行回复。
当语料由丙方输入时,输入的语料为需要进行意图判别并回复的语料。
其中不管是乙方输入的语料还是丙方输入的语料,输入的语料中均包括若干个词汇。
S120:由预先训练好的通用模型对语料中各个词汇的信息含量进行预测以获取各个词汇的信息含量预测值。
各个词汇在语料中均对应有信息含量,其信息含量越高,表明其对语料意图的识别越重要,为冗余词汇的概率越低。
通用模型预先训练好,已达到收敛,其能够对输入的、各种不同领域的语料中的各个词汇的信息含量进行预测,且预测的各个词汇的信息含量预测值与各个词汇的真实信息含量非常接近,甚至是相等。
S130:根据各个词汇的信息含量预测值而确定冗余词汇,并进一步确定是否将冗余词汇从语料中去除。
当步骤S110中语料的输入方为乙方时,可由乙方根据各个词汇的信息含量预测值确定语料中的词汇是否为冗余词汇,并确定是否要删除该冗余词汇。
在一应用场景中,由乙方设置一预测值阈值,当乙方点击触发按钮时,将信息含量预测值低于该预测值阈值的词汇确定为冗余词汇,并将其从语料中去除,可选的,为了让乙方能够根据词汇的信息含量预测值和词汇在语料中的实际情况而准确设置预测值阈值,在步骤S130之前还会显示输入的语料,同时显示语料中各个词汇的信息含量预测值,从而乙方可根据呈现的结果而设置预测值阈值,当然为了节省时间,在其他应用场景中也可以不显示输入的语料,此时预测值阈值可由乙方提前设定好。
在另一应用场景中,与上述应用场景不同的是,在步骤S130之前均会显示输入的语料,同时显示语料中各个词汇的信息含量预测值,由乙方结合各个词汇的实际情况和各个词汇的信息含量预测值确定词汇是否为冗余词汇,此时当用户确定某个词汇为冗余词汇时,可直接以手动点击的方式选中该词汇,后续将用户选中的词汇从语料中去除。
在上述两个应用场景中,在显示语料时,各个词汇的背景色深度与其信息含量预测值对应,例如,信息含量预测值越大,其背景色深度越深,即将语料中各个词汇的信息含量预测值以可视化的方式呈现给用户,以便用户能够直观地进行判断和选择,或者,在显示语料时,将各个词汇的信息含量预测值直接以文字的方式显示,总而言之本申请对如何显示语料及语料中各个词汇的信息含量预测值不做限制。
当步骤S110中语料的输入方为丙方时,可直接根据乙方预先设置的预测值阈值(该预测值阈值与前述的预测值阈值可相等,也可不等)将信息含量预测值低于该预测值阈值的词汇确定为冗余词汇,并将其从语料中去除。
其中当步骤S110中语料的输入方为乙方时,本实施方式中的方法可以实现对训练语料的清洗,保证最终训练好的机器学习模型具有去冗余词汇的能力;而当步骤S110中语料的输入方为丙方时,本实施方式中的方法可以实现对用户输入语料的清洗,为后续准确判别其意图提供有利条件。
从上述内容可以看出,本申请利用预先训练并达到收敛的通用模型对语料中各词汇的信息含量进行预测,从而根据预测的结果将冗余词汇从语料中去除,达到清洗语料的目的,相比较停用词表的构建具有主观性和随意性,通用模型由于预先训练并达到收敛,其客观性和严谨性更强,因此能够保证清洗语料时的客观性和准确性。
在本实施方式中,步骤S120之前进一步包括:
A:获取多个样本语料。
B:获取样本语料中各个词汇的信息含量。
C:利用多个样本语料以及样本语料中词汇的信息含量对通用模型训练。
具体地,步骤A中的多个样本语料为来自各个不同领域的样本语料,在获取时可以以随机的方式进行获取。例如,多个样本语料来自“天气”、“交通”、“景色”等各种不同的领域。
步骤B中获取的各个词汇的信息含量为各个词汇在对应样本语料中的真实信息含量。
步骤C在对通用模型进行训练时,将通用模型所预测的各个词汇的信息含量预测值与各个词汇的真实信息含量进行比较,当两者相差较大时,则不断对通用模型进行训练,只有当两者相差较小或者相等时,才会判断通用模型已经被训练好而得到收敛。
通过上述步骤,利用来自不同领域的多个样本语料以及样本语料中词汇的信息含量对通用模型训练也可以保证训练好的通用模型为跨领域的通用模型,即能够对来自不同领域的语料中各个词汇的信息含量进行预测。
在本实施方式中,步骤B中获取样本语料中各个词汇的信息含量具体包括:
B1:由预先训练好的意图识别模型对样本语料在各个意图类别上的概率进行预测而得到第一概率向量。
具体地,每个领域都有预先训练好的意图识别模型,该意图识别模型能够对该领域的样本语料的意图进行预测。
其中每个领域均包括若干意图,例如,“天气”和“交通”为两个不同的领域,“天气”领域包含“查询天气”、“查询温度”、“查询湿度”“、着装建议”等意图,“交通”领域包含“查询路线”、“查询拥挤情况”、“路线推荐”等意图。
当意图识别模型对样本语料进行预测之后,其输出一个向量,该向量中每个分量表示样本语料在各个意图类别上的概率。例如,当样本语料为“我想查询星期一的天气”时,意图识别模型可输出与之对应的向量(0.8,0.1,0.1),该向量表示样本语料的意图为查询天气的概率为0.8,为查询温度的概率为0.1,为着装建议的概率为0.1。
为便于理解,如图2所示,结合数学表示式对步骤B1进行介绍,具体地,步骤B1可以表示为:由意图识别模型对由词汇序列{w1,w2,……,wn}构成的样本语料S在各个意图类别上的概率进行预测,而得到第一概率向量P(S),wi为样本语料S中的第i个词汇。
也就是说,将一条样本语料记为S,其由n个词汇组成,将样本语料S输入意图识别模型后,意图识别模型输出第一概率向量P(S)。
B2:由意图识别模型对分别去除各个词汇后的样本语料在各个意图类别上的概率进行预测而分别得到词汇各自对应的第二概率向量。
将样本语料每次只去掉一个词汇后输入意图识别模型,意图识别模型对去掉某一词汇的样本语料在各个意图类别上的概率进行预测而得到与去掉的词汇对应的第二概率向量。
如图2所示,步骤B2可以表示为:先将词汇wi从样本语料S中去除,而后将去除wi的样本语料S输入意图识别模型,而后意图识别模型输出词汇wi对应的第二概率向量P(S-i),可以理解的是,第二概率向量P(S-i)中分量的个数和第一概率向量P(S)中分量的个数相同。
B3:根据第一概率向量和词汇各自对应的第二概率向量得到词汇各自的信息增益率。
因为第一概率向量表示完整的样本语料在各个意图类别上的概率,第二概率向量表示去掉某一词汇后的样本语料在各个意图类别上的概率,因此根据第一概率向量和第二概率向量能够得到去除的词汇对该样本语料的意图判别的重要性,即词汇的信息增益率。
如图2所示,步骤B3可以表示为:根据第一概率向量P(S)和词汇wi各自对应的第二概率向量P(S-i)得到词汇wi各自的信息增益率di
在一应用场景中,计算第一概率向量和词汇各自对应的第二概率向量的欧式距离而得到词汇各自的信息增益率。
即,此时词汇wi各自的信息增益率di的计算公式为:
Figure BDA0002341932760000071
其中,di表示样本语料S中第i个词汇的信息增益率,p(x)表示P(S)中的第x个元素,p-i(x)表示P(S-i)中的第x个元素,m表示意图类别的总个数,即P(S)或P(S-i)中向量的个数。
在另一应用场景中,计算第一概率向量和词汇各自对应的第二概率向量的相对熵而得到词汇各自的信息增益率。
即词汇各自的信息增益率的计算公式为:
Figure BDA0002341932760000081
与上述应用场景相同,p(x)表示P(S)中的第x个元素,p-i(x)表示P(S-i)中的第x个元素,m表示意图类别的总个数,即P(S)或P(S-i)中向量的个数。
在其他应用场景中,还可以根据其他的公式计算词汇各自的信息增益率,在此不做限制。
B4:对包括所有词汇的信息增益率的序列进行归一化处理而得到词汇各自的信息含量。
经过步骤B3后,得到与样本语料S对应的一个序列D(S),D(S)表示为{d1,d2,……,dn},其中,di表示为样本语料S中第i个词汇的信息增益率。
步骤B3得到的词汇各自的信息增益率可能在0到正无穷之间,例如,欧式距离的值域为0到正无穷,相对熵的值域也在0到正无穷,因此为了方便后续的训练过程,在此对包括所有词汇的信息增益率的序列即序列D(S)进行归一化处理得到T(S),T(S)表示为{t1,t2,……,tn},其中,ti表示样本语料S中第i个词汇的信息含量。
如图2所示,步骤B4可以表示为:对{d1,d2,……,dn}进行归一化处理得到T(S),T(S)表示为{t1,t2,……,tn},ti表示样本语料S中第i个词汇的信息含量。
在一应用场景中,在对{d1,d2,……,dn}进行归一化处理时,对{d1,d2,……,dn}中的每个元素进行sigmod变换,其中,sigmod变换的公式如下:
Figure BDA0002341932760000082
其中,di表示为样本语料S中第i个词汇的信息增益率。
为了进一步对步骤B进行理解,在此结合具体实例进行介绍:
当样本语料S为“我想查询星期一的天气”时,首先自动将其进行分词而将样本语料S记为{我想,查询,星期一,的,天气},也就是说,该样本语料S包括5个词汇。
而后意图识别模型对样本语料S在查询天气、查询温度、着装建议3个意图类别上进行预测,输出第一概率向量P(S),假设第一概率向量P(S)为(0.8,0.1,0.1),其表示样本语料S的意图为查询天气的概率为0.8,为查询温度的概率为0.1,为着装建议的概率为0.1。
而后依次将这5个词汇分别从样本语料S中去除,并将5个去除词汇后的样本语料S输入意图识别模型,意图识别模型再次在查询天气、查询温度、着装建议3个意图类别上分别对5个语料进行预测,得到5个第二概率向量P(S-i),假设在这5个第二概率向量P(S-i)中,第5个词汇“天气”对应的第二概率向量P(S-5)为(0.4,0.3,0.3),其表示去除“天气”后的样本语料S的意图为查询天气的概率为0.4,为查询温度的概率为0.3,为着装建议的概率为0.3。
而后根据第一概率向量P(S)和这5个词汇分别对应的第二概率向量P(S-i)计算出这5个词汇各自的信息增益率di,例如根据上述举例的P(S)和P(S-5)可计算出“天气”的信息增益率d5,具体地,以欧式距离计算的方式为例:
Figure BDA0002341932760000091
在具体得到d1至d5的各个值之后,将各个词汇的信息增益率组成序列D(S)为{d1,d2,d3,d4,d5},而后对该序列D(S)进行归一化处理得到序列T(S):{t1,t2,t3,t4,t5},即得到上述5个词分别对应的信息含量。
上述在获取词汇信息含量的过程中,结合了词汇对整个语料在意图判别上的影响,即充分考虑了词汇出现的上下文,因此可以保证最终训练出的通用模型的准确性。
在本实施方式中,步骤A具体包括:
A1:获取初始语料。
A2:若初始语料包括词槽,则从词槽对应的词典中随机抽取一词汇对词槽进而填充而得到样本语料。
A3:若初始语料不包括词槽,则直接将初始语料作为样本语料。
具体地,当步骤S110中的语料由乙方输入时,乙方输入的初始语料可能包括词槽,例如,包括词槽“地点”,然后对初始语料进行填充,具体从“地点”对应的词典中随机抽取一词汇例如“北京”对词槽“地点”进而填充而得到样本语料,也就是说,最终得到的样本语料中不包括词槽。
此时考虑到词槽值对语料意图的判别重要性非常高,因此在步骤B4之后,还包括:
B5:判断样本语料中的词汇是否是经过对初始语料中的词槽进行填充而得到的。
B6:若判断结果为是,则将词汇的信息含量更新为1。
B7:若判断结果为否,则保持词汇的信息含量不变。
在对序列D(S)进行归一化处理后,若发现样本语料中的某一词汇是经过对初始语料中的词槽进行填充而得到的,即该词汇为词槽值,则不管经过之前的计算过程算出的信息含量实际值为多少,都强行将其设置为1,若词汇不是对词槽进行填充而得到的,则保持之前计算的信息含量不变。
在本实施方式中,所训练的通用模型的结构为双向LSTM网络模型或双向GRU网络模型。
在一应用场景中,在训练过程中,将样本语料S中各个词汇wi对应的词嵌入向量作为模型每个时间步的输入,将词汇wi对应的隐藏层输出,并经过线性变换后映射为一个标量,再经过sigmoid激活函数映射为一个值域(0,1)的标量,作为输出,即词汇wi对应的信息含量预测值。
同时在训练的过程中,通用模型使用Binary Cross Entropy作为损失函数。
在一应用场景中,按照如下公式作为训练过程中通用模型是否达到收敛的依据:
Figure BDA0002341932760000101
其中,ti表示样本语料S中第i个词汇的真实信息含量,
Figure BDA0002341932760000102
表示通用模型对样本语料S中第i个词汇进行预测的信息含量预测值,当计算出的BCE(w1,w2……,wn)值越小,表示通用模型所预测的信息含量预测值与真实信息含量越接近,从而后续可以根据BCE(w1,w2……,wn)值判断通用模型的收敛程度。
参阅图3,图3是本申请语料录入设备一实施方式的结构示意图,该语料录入设备200包括处理器210、存储器220以及通信电路230,处理器210分别耦接存储器220以及通信电路230,处理器210通过执行存储器220内的程序指令以实现上述任一项实施方式方法中的步骤,详细的方法可参见上述相关内容,在此不在赘述。
其中,语料录入设备200可以是手机、电脑等具有任何语料录入功能的设备,在此不做限制。
参阅图4,图4是本申请计算机可读存储介质一实施方式的结构示意图,该计算机可读存储介质300存储有程序指令310,程序指令310能够被处理器执行以实现上述任一项实施方式方法中的步骤。
计算机可读存储介质300可以是服务端、U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种装置。
总而言之,本申请利用预先训练并达到收敛的通用模型对语料中各词汇的信息含量进行预测,从而根据预测的结果将冗余词汇从语料中去除,达到清洗语料的目的,相比较停用词表的构建具有主观性和随意性,通用模型由于预先训练并达到收敛,其客观性和严谨性更强,因此能够保证清洗语料时的客观性和准确性。
以上所述仅为本申请的实施方式,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (10)

1.一种语料清洗方法,其特征在于,所述方法包括:
获取输入的语料;
由预先训练好的通用模型对所述语料中各个词汇的信息含量进行预测以获取各个词汇的信息含量预测值;
根据所述各个词汇的信息含量预测值而确定冗余词汇,并进一步确定是否将所述冗余词汇从所述语料中去除。
2.根据权利要求1所述的方法,其特征在于,所述由预先训练好的通用模型对所述语料中各个词汇的信息含量进行预测以获取各个词汇的信息含量预测值的步骤之前,进一步包括:
获取多个样本语料;
获取所述样本语料中各个词汇的信息含量;
利用所述多个样本语料以及所述样本语料中词汇的信息含量对所述通用模型训练。
3.根据权利要求2所述的方法,其特征在于,所述获取所述样本语料中各个词汇的信息含量的步骤,包括:
由预先训练好的意图识别模型对所述样本语料在各个意图类别上的概率进行预测而得到第一概率向量;
由所述意图识别模型对分别去除各个词汇后的样本语料在各个意图类别上的概率进行预测而分别得到所述词汇各自对应的第二概率向量;
根据所述第一概率向量和所述词汇各自对应的第二概率向量得到所述词汇各自的信息增益率;
对包括所有所述词汇的信息增益率的序列进行归一化处理而得到所述词汇各自的信息含量。
4.根据权利要求3所述的方法,其特征在于,所述根据所述第一概率向量和所述词汇各自对应的第二概率向量得到所述词汇各自的信息增益率的步骤,包括:
计算所述第一概率向量和所述词汇各自对应的第二概率向量的欧式距离而得到所述词汇各自的信息增益率,或者,计算所述第一概率向量和所述词汇各自对应的第二概率向量的相对熵而得到所述词汇各自的信息增益率。
5.根据权利要求3所述的方法,其特征在于,
所述获取多个样本语料的步骤,包括:
获取初始语料;
若所述初始语料包括词槽,则从所述词槽对应的词典中随机抽取一词汇对所述词槽进而填充而得到所述样本语料;
若所述初始语料不包括词槽,则直接将所述初始语料作为所述样本语料;
所述对包括所有所述词汇的信息增益率的序列进行归一化处理而得到所述词汇各自的信息含量的步骤之后,还包括:
判断所述样本语料中的所述词汇是否是经过对所述初始语料中的词槽进行填充而得到的;
若判断结果为是,则将所述词汇的信息含量更新为1;
若判断结果为否,则保持所述词汇的信息含量不变。
6.根据权利要求2所述的方法,其特征在于,所述通用模型的结构为双向LSTM网络模型或双向GRU网络模型,在训练的过程中,所述通用模型使用Binary Cross Entropy作为损失函数。
7.根据权利要求1所述的方法,其特征在于,所述根据所述各个词汇的信息含量预测值而确定冗余词汇,并进一步确定是否将所述冗余词汇从所述语料中去除的步骤之前,还包括:
显示所述语料,其中所述语料中各个词汇的背景色深度与所述词汇的信息含量预测值对应。
8.根据权利要求7所述的方法,其特征在于,所述根据所述各个词汇的信息含量预测值而确定冗余词汇,并进一步确定是否将所述冗余词汇从所述语料中去除的步骤,包括:
将用户选中的词汇从所述语料中去除,或者,响应于触发指令,将信息含量预测值低于预测值阈值的词汇从所述语料中去除。
9.一种语料录入设备,其特征在于,包括处理器、存储器以及通信电路,所述处理器分别耦接所述存储器以及所述通信电路,所述处理器通过执行所述存储器内的程序指令以实现如权利要求1至8任一项所述方法中的步骤。
10.一种计算机可读存储介质,其特征在于,存储有程序指令,所述程序指令能够被处理器执行以实现如权利要求1至8任一项所述方法中的步骤。
CN201911379646.4A 2019-12-27 2019-12-27 语料清洗方法、语料录入设备及计算机可读存储介质 Active CN111191450B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201911379646.4A CN111191450B (zh) 2019-12-27 2019-12-27 语料清洗方法、语料录入设备及计算机可读存储介质
US16/886,826 US11580299B2 (en) 2019-12-27 2020-05-29 Corpus cleaning method and corpus entry system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911379646.4A CN111191450B (zh) 2019-12-27 2019-12-27 语料清洗方法、语料录入设备及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN111191450A true CN111191450A (zh) 2020-05-22
CN111191450B CN111191450B (zh) 2023-12-01

Family

ID=70710578

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911379646.4A Active CN111191450B (zh) 2019-12-27 2019-12-27 语料清洗方法、语料录入设备及计算机可读存储介质

Country Status (2)

Country Link
US (1) US11580299B2 (zh)
CN (1) CN111191450B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111767697A (zh) * 2020-07-24 2020-10-13 腾讯科技(深圳)有限公司 文本处理方法、装置、计算机设备以及存储介质
CN111831823A (zh) * 2020-07-10 2020-10-27 湖北亿咖通科技有限公司 一种语料生成、模型训练方法
CN113468880A (zh) * 2021-07-20 2021-10-01 北京字跳网络技术有限公司 一种冗余词过滤方法及其相关设备
CN113468305A (zh) * 2021-06-29 2021-10-01 竹间智能科技(上海)有限公司 一种识别口语冗余成分的方法及装置
US11302314B1 (en) * 2021-11-10 2022-04-12 Rammer Technologies, Inc. Tracking specialized concepts, topics, and activities in conversations
US11361167B1 (en) 2020-12-01 2022-06-14 Rammer Technologies, Inc. Determining conversational structure from speech
US11593566B2 (en) 2020-09-01 2023-02-28 Rammer Technologies, Inc. Determining topics and action items from conversations
US11599713B1 (en) 2022-07-26 2023-03-07 Rammer Technologies, Inc. Summarizing conversational speech

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106503231A (zh) * 2016-10-31 2017-03-15 北京百度网讯科技有限公司 基于人工智能的搜索方法和装置
CN108027814A (zh) * 2015-12-01 2018-05-11 华为技术有限公司 停用词识别方法与装置
US20180307724A1 (en) * 2017-04-24 2018-10-25 Oath Inc. Reducing query ambiguity using graph matching

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9805022B2 (en) * 2010-12-09 2017-10-31 Apple Inc. Generation of topic-based language models for an app search engine
US20120209605A1 (en) * 2011-02-14 2012-08-16 Nice Systems Ltd. Method and apparatus for data exploration of interactions
US20150095017A1 (en) * 2013-09-27 2015-04-02 Google Inc. System and method for learning word embeddings using neural language models
JP6815184B2 (ja) * 2016-12-13 2021-01-20 株式会社東芝 情報処理装置、情報処理方法、および情報処理プログラム
US11238508B2 (en) * 2018-08-22 2022-02-01 Ebay Inc. Conversational assistant using extracted guidance knowledge
WO2020261479A1 (ja) * 2019-06-27 2020-12-30 株式会社島津製作所 関連文書を検索して表示する方法およびシステム
KR20190096853A (ko) * 2019-07-30 2019-08-20 엘지전자 주식회사 음성 처리 방법 및 음성 처리 장치
US11870804B2 (en) * 2019-08-01 2024-01-09 Akamai Technologies, Inc. Automated learning and detection of web bot transactions using deep learning
US11061980B2 (en) * 2019-09-18 2021-07-13 Capital One Services, Llc System and method for integrating content into webpages
US11763230B2 (en) * 2019-12-16 2023-09-19 Asapp, Inc. Trend detection via machine learning models

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108027814A (zh) * 2015-12-01 2018-05-11 华为技术有限公司 停用词识别方法与装置
CN106503231A (zh) * 2016-10-31 2017-03-15 北京百度网讯科技有限公司 基于人工智能的搜索方法和装置
US20180307724A1 (en) * 2017-04-24 2018-10-25 Oath Inc. Reducing query ambiguity using graph matching

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111831823A (zh) * 2020-07-10 2020-10-27 湖北亿咖通科技有限公司 一种语料生成、模型训练方法
CN111831823B (zh) * 2020-07-10 2022-05-13 亿咖通(湖北)技术有限公司 一种语料生成、模型训练方法
CN111767697A (zh) * 2020-07-24 2020-10-13 腾讯科技(深圳)有限公司 文本处理方法、装置、计算机设备以及存储介质
US11593566B2 (en) 2020-09-01 2023-02-28 Rammer Technologies, Inc. Determining topics and action items from conversations
US11361167B1 (en) 2020-12-01 2022-06-14 Rammer Technologies, Inc. Determining conversational structure from speech
US11562149B2 (en) 2020-12-01 2023-01-24 Rammer Technologies, Inc. Determining conversational structure from speech
CN113468305A (zh) * 2021-06-29 2021-10-01 竹间智能科技(上海)有限公司 一种识别口语冗余成分的方法及装置
CN113468880A (zh) * 2021-07-20 2021-10-01 北京字跳网络技术有限公司 一种冗余词过滤方法及其相关设备
US11302314B1 (en) * 2021-11-10 2022-04-12 Rammer Technologies, Inc. Tracking specialized concepts, topics, and activities in conversations
US11580961B1 (en) * 2021-11-10 2023-02-14 Rammer Technologies, Inc. Tracking specialized concepts, topics, and activities in conversations
US11599713B1 (en) 2022-07-26 2023-03-07 Rammer Technologies, Inc. Summarizing conversational speech
US11842144B1 (en) 2022-07-26 2023-12-12 Rammer Technologies, Inc. Summarizing conversational speech

Also Published As

Publication number Publication date
US20210200948A1 (en) 2021-07-01
CN111191450B (zh) 2023-12-01
US11580299B2 (en) 2023-02-14

Similar Documents

Publication Publication Date Title
CN111191450B (zh) 语料清洗方法、语料录入设备及计算机可读存储介质
CN113962315B (zh) 模型预训练方法、装置、设备、存储介质以及程序产品
US11315560B2 (en) Method for conducting dialog between human and computer
US9269354B2 (en) Semantic re-ranking of NLU results in conversational dialogue applications
CN112100354B (zh) 人机对话方法、装置、设备及存储介质
CN112487173B (zh) 人机对话方法、设备和存储介质
WO2020155619A1 (zh) 带情感的机器聊天方法、装置、计算机设备及存储介质
CN108538294B (zh) 一种语音交互方法及装置
CN111062220B (zh) 一种基于记忆遗忘装置的端到端意图识别***和方法
CN110069612B (zh) 一种回复生成方法及装置
US11636272B2 (en) Hybrid natural language understanding
CN111858854B (zh) 一种基于历史对话信息的问答匹配方法及相关装置
CN116127046A (zh) 生成式大语言模型训练方法、基于模型的人机语音交互方法
CN112860871B (zh) 自然语言理解模型训练方法、自然语言理解方法及装置
CN110597968A (zh) 一种回复选择方法及装置
CN112084769A (zh) 依存句法模型优化方法、装置、设备及可读存储介质
CN111402864A (zh) 语音处理方法及电子设备
CN112925894B (zh) 对话中标问匹配方法、***及装置
CN109002498B (zh) 人机对话方法、装置、设备及存储介质
CN111428487A (zh) 模型训练方法、歌词生成方法、装置、电子设备及介质
CN115689603A (zh) 用户反馈信息收集方法、装置及用户反馈***
CN111739518B (zh) 音频的识别方法和装置、存储介质及电子设备
CN111091011B (zh) 领域预测方法、领域预测装置及电子设备
CN111046151A (zh) 一种消息处理方法及装置
CN111460106A (zh) 一种信息交互方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant