CN112380855B - 确定语句通顺度的方法、确定概率预测模型的方法和装置 - Google Patents

确定语句通顺度的方法、确定概率预测模型的方法和装置 Download PDF

Info

Publication number
CN112380855B
CN112380855B CN202011316695.6A CN202011316695A CN112380855B CN 112380855 B CN112380855 B CN 112380855B CN 202011316695 A CN202011316695 A CN 202011316695A CN 112380855 B CN112380855 B CN 112380855B
Authority
CN
China
Prior art keywords
probability
word
determining
model
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011316695.6A
Other languages
English (en)
Other versions
CN112380855A (zh
Inventor
念天磊
刘丽
韩友
郑立涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202011316695.6A priority Critical patent/CN112380855B/zh
Publication of CN112380855A publication Critical patent/CN112380855A/zh
Application granted granted Critical
Publication of CN112380855B publication Critical patent/CN112380855B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种确定语句通顺度的方法、确定概率预测模型的方法和装置。可应用于自然语言处理领域和深度学习领域。具体实现方案为:获取待处理语句;对待处理语句进行分字处理,得到第一文字序列;对待处理语句进行分词处理,得到第一词语序列;采用预训练的概率预测模型,确定第一文字序列中目标文字在待处理语句中出现的第一概率,以及确定第一词语序列中目标词语在待处理语句中出现的第二概率;以及根据第一概率和第二概率,确定待处理语句的通顺度。

Description

确定语句通顺度的方法、确定概率预测模型的方法和装置
技术领域
本申请涉及人工智能领域,具体涉及自然语言处理领域和深度学习领域,更具体地涉及一种确定语句通顺度的方法和装置、以及确定概率预测模型的方法和装置、设备和存储介质。
背景技术
在文本生成场景中,采用文字识别软件从图片中提取文字时经常会存在识别错误、缺失信息的情况,且采用文本生成策略生成的语句具有局限性,不一定是优质可用的。为了提高生成语句的优质性,可以对语句进行通顺度检测,并从生成的文本中挑选出高质语句。
相关技术中,对语句进行通顺度检测的模型通常基于词频原理来检测,存在泛化性差,检测结果受分词质量限制的缺陷。
发明内容
提供了一种用于提高准确性和鲁棒性的确定语句通顺度的方法和装置,以及确定概率预测模型的方法和装置、设备以及存储介质。
根据第一方面,提供了一种确定语句通顺度的方法,包括:获取待处理语句;对待处理语句进行分字处理,得到第一文字序列;对待处理语句进行分词处理,得到第一词语序列;采用预训练的概率预测模型,确定第一文字序列中目标文字在待处理语句中出现的第一概率,以及确定第一词语序列中目标词语在待处理语句中出现的第二概率,以及根据第一概率和第二概率,确定所述待处理语句的通顺度。
根据第二方面,提供了一种确定概率预测模型的方法,包括:获取多个样本语句和初始概率预测模型;针对多个样本语句依次执行以下操作,以得到与多个样本语句一一对应的多个调整后概率预测模型:采用初始概率预测模型,确定当前样本语句中目标文字在当前样本语句中出现的第三概率,以及确定当前样本语句中目标词语在当前样本语句中出现的第四概率;根据第三概率和第四概率,确定初始概率预测模型针对当前样本语句的损失值;根据损失值调整初始概率预测模型中的参数,得到调整后概率预测模型,并以调整后概率预测模型更新初始概率预测模型;以及根据测试语句,确定多个调整后概率预测模型中的一个为预训练的概率预测模型。
根据第三方面,提供了一种确定语句通顺度的装置,包括:第一获取模块,用于获取待处理语句;分字模块,用于对待处理语句进行分字处理,得到第一文字序列;分词模块,用于对待处理语句进行分词处理,得到第一词语序列;第一概率确定模块,用于采用预训练的概率预测模型,确定第一文字序列中目标文字在待处理语句中出现的第一概率,以及确定第一词语序列中目标词语在待处理语句中出现的第二概率;以及通顺度确定模块,用于根据第一概率和第二概率,确定待处理语句的通顺度。
根据第四方面,提供了一种确定概率预测模型的装置,包括:第二获取模块,用于获取多个样本语句和初始概率预测模型;模型调整模块,用于针对多个样本语句依次得到一一对应的多个调整后概率预测模型,该模型调整模块包括:概率确定子模块,用于采用初始概率预测模型,确定当前样本语句中目标文字在当前样本语句中出现的第三概率,以及确定当前样本语句中目标词语在当前样本语句中出现的第四概率;损失值确定子模块,用于根据第三概率和第四概率,确定初始概率预测模型针对当前样本语句的损失值;参数调整子模块,用于根据损失值调整初始概率预测模型中的参数,得到调整后概率预测模型,并以调整后概率预测模型更新初始概率预测模型;以及模型确定模块,用于根据测试语句,确定多个调整后概率预测模型中的一个为预训练的概率预测模型。
根据第五方面,提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行本申请提供的确定语句通顺度的方法,并且/或者确定概率预测模型的方法。
根据第六方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行本申请提供的确定语句通顺度的方法,并且/或者确定概率预测模型的方法。
根据第七方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现本申请提供的确定语句通顺度的方法,并且/或者确定概率预测模型的方法。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1是根据本申请实施例的确定语句通顺度的方法和装置,以及确定概率预测模型的方法和装置的应用场景示意图;
图2是根据本申请实施例的确定概率预测模型的方法的流程示意图;
图3是根据本申请实施例的确定概率预测模型针对样本语句的损失值的原理示意图;
图4是根据本申请实施例的确定预训练的概率预测模型的原理示意图;
图5是根据本申请实施例的确定概率预测模型的原理示意图;
图6是根据本申请实施例的确定语句通顺度的方法的流程示意图;
图7是根据本申请实施例的确定待处理语句的通顺度的原理示意图;
图8是根据本申请实施例的确定目标文字的第一概率的原理示意图;
图9是根据本申请实施例的确定语句通顺度的装置的结构框图;
图10是根据本申请实施例的确定概率预测模型的装置的结构框图;以及
图11是根据本申请实施例的确定语句通顺度和/或确定概率预测模型的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
本申请提供了一种确定语句通顺度的方法,该方法先获取待处理语句。随后对待处理语句进行分字处理,得到第一文字序列;并对待处理语句进行分词处理,得到第一词序列。接着采用预训练的概率预测模型,确定第一文字序列中目标文字在待处理语句中出现的第一概率,以及确定第一词序列中目标词语在待处理语句中出现的第二概率。最终根据第一概率和第二概率,确定待处理语句的通顺度。
本申请还提供了一种确定概率预测模型的方法,该方法先获取多个样本语句和初始概率预测模型。随后针对所述多个样本语句依次执行以下操作,以得到与多个样本语句一一对应的多个调整后概率预测模型:采用初始概率预测模型,确定当前样本语句中目标文字在当前样本语句中出现的第三概率,以及确定当前样本语句中目标词语在当前样本语句中出现的第四概率;根据第三概率和第四概率,确定初始概率预测模型针对当前样本语句的损失值;根据损失值调整初始概率预测模型中的参数,得到调整后概率预测模型,并以调整后概率预测模型更新初始概率预测模型。最终根据针对多个样本语句的多个损失值,确定多个调整后概率预测模型中的一个为预训练的概率预测模型。
以下将结合图1对本申请提供的方法和装置的应用场景进行描述。
图1是根据本申请实施例的确定语句通顺度的方法和装置,以及确定概率预测模型的方法和装置的应用场景示意图。
如图1所示,该实施例的应用场景100例如可以包括终端设备110。
该终端设备110例如可以为具有处理功能的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机、台式计算机等。该终端设备110例如可以具有文字识别功能,以从终端设备110待输出的文本111或图片112中提取语句113。
示例性地,该终端设备110例如还可以根据预先训练的处理模型确定提取得到的语句113的通顺度。终端设备110可以根据语句的通顺度,从待输出的多个文本111或多个图片112中过滤出高质文本或高质图片,并进行展示。
示例性地,文本111或图片112例如可以为网络中落地页的内容。例如,文本111或图片112中可以记载有落地页中引导悬浮层、页面吸顶区、或视频转化区等各展示板块的展示内容。其中,落地页可以为动态落地页或静态落地页。可以理解的是,上述文本111或图片112的类型仅作为示例,本申请对此不作限定,文本111或图片112为需要对记载的语句进行通顺度检测的任意文本或图片。
根据本申请的实施例,如图1所示,该应用场景100中例如还可以包括服务器120,终端设备110可以通过网络与服务器120通信。服务器120可以是提供各种服务的服务器,例如对终端设备110中的客户端应用的运行提供支持的后台管理服务器(仅为示例)。服务器120例如可以为应用程序服务器、分布式***的服务器,或者是结合了区块链的服务器。或者,服务器还可以为虚拟服务器或云服务器等。
在一实施例中,终端设备110在从文本111或图片112中提取语句113后,例如可以通过网络将语句113发送给服务器120,由服务器120根据预先训练的处理模型对语句113进行处理,以得到语句113的通顺度121。随后,通过网络将通顺度122反馈给终端设备110,以便于终端设备对文本或图片进行过滤。
根据本申请的实施例,如图1所示,该应用场景100中例如还可以包括数据库130,服务器120例如可以访问该数据130,以从数据库130中获取数据。其中,数据库130中例如可以存储有大量的语句。服务器可以从数据库130中获取多个语句作为训练数据,对设定的初始模型进行优化训练,得到用于对语句进行处理从而得到通顺度的处理模型。或者,该数据库130中可以存储有预训练好的处理模型。服务器120在获取到语句113后,可以先从数据库130中获取处理模型,随后根据获取的处理模型对语句进行处理。在一实施例中,类似于服务器120,终端设备110也可以访问数据库130,在此不再赘述。
需要说明的是,本申请实施例提供的确定语句通顺度的方法一般可以由终端设备110执行,或者由服务器120执行。相应地,本申请实施例提供的确定语句通顺度的装置一般可以设置在终端设备110中,或者可以设置在服务器120中。本申请实施例提供的确定概率预测模型的方法一般可以由服务器120执行,或者由终端设备110执行。相应地,本申请实施例提供的概率预测模型的装置一般可以设置在服务器120中,或者可以设置在终端设备110中。
应该理解,图1中的终端设备、服务器和数据库的类型仅仅是示意性的。根据实现需要,可以具有任意类型的终端设备、服务器和数据库。
以下将结合图1描述的应用场景,通过图2~图5对本申请实施例提供的确定概率预测模型的方法进行详细描述。本申请确定的概率预测模型可以用于确定语句通顺度的方法中。
图2是根据本申请实施例的确定概率预测模型的方法的流程示意图。
如图2所示,该实施例的确定概率预测模型的方法200可以包括操作S210~操作S250。其中,操作S220~操作S240用于对多个样本语句中的每个样本语句进行处理,以依次调整概率预测模型。
在操作S210,获取多个样本语句和初始概率预测模型。
根据本申请的实施例,样本语句例如可以为数据库中存储的多个语句。初始概率预测模型例如可以包括用于对字出现在语句的概率和词出现在语句的概率进行预测的模型。
示例性地,该初始概率预测模型可以基于马尔科夫假设(Markov Assumption)算法构建的模型,例如可以为2-GRAM模型。或者,该初始概率预测模型例如可以包括双向转换编码器(Bidirectional Encoder Representations from Transformers,BERT)。该初始概率预测模型中参数的初始值可以根据经验或需求进行设定,本申请对此不作限定。
在操作S220,采用初始概率预测模型,确定当前样本语句中目标文字在当前样本语句中出现的第三概率,以及确定当前样本语句中目标词语在当前样本语句中出现的第四概率。
根据本申请的实施例,当前样本语句为操作S210获取的多个样本语句中操作S220当前处理的样本语句。目标文字可以为从当前样本语句中包括的多个字中随机确定得到,目标词语可以从当前样本语句中包括的多个词中随机确定得到。
示例性地,操作S220例如可以先对当前样本语句进行分字处理,得到当前样本语句包括的多个文字。对当前样本语句进行分词处理,得到当前样本语句包括的多个词语。随后从多个文字中随机确定出目标文字,从多个词语中随机确定出目标词语。其中,可以间隔预定字符划分样本语句,实现对样本语句的分字处理。或者,可以采用Word Piece工具来对样本语句进行分字处理。可以采用基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法中的任一种来实现对样本语句的分词处理。也可以根据预定规则来确定目标文字和目标词语,例如可以规定目标词语中名词和动词的比例,根据该比例从多个词语中挑选得到目标词语。例如可以规定目标文字为除人称代词外的其他文字等。可以理解的是,前述分字处理和分词处理的方法仅作为示例以利于理解本申请,本申请对此不作限定。
在得到目标文字和目标词语后,可以对目标文字和目标词语做遮蔽(Mask)处理,将目标文字被遮蔽后的样本语句输入初始概率预测模型,得到被遮蔽处的文字为预先构建的字典库中每个字的概率值。将目标词语被遮蔽后的样本语句输入初始概率预测模型,得到被遮蔽处的词语为预先构建的词语库中每个词语的概率值。最终从得到的概率值中挑选到目标文字对应的概率值为第三概率,目标词语对应的概率值为第四概率。
可以理解的是,目标文字和目标词语的数量可以根据语句的长度来确定,或者可以根据实际需求来设定,本申请对此不作限定。例如,在一实施例中,目标文字的个数可以为样本语句包括的文字总个数的第一比例的取值,且目标词语的个数可以为样本语句包括的词语总个数的第二比例的取值等,该第一比例和第二比例可以相等或不等,本申请对此不作限定。例如,第一比例和第二比例可以均为20%等,或者第一比例为15%,第二比例为20%等。
在操作S230,根据第三概率和第四概率,确定初始概率预测模型针对当前样本语句的损失值。
根据本申请的实施例,由于目标文字和目标词语属于当前样本语句,即目标文字和目标词语在当前样本语句中出现的实际概率均为1。因此,该实施例可以通过将第三概率和第四概率与1的差值来确定初始概率预测模型针对当前样本语句的损失值。
示例性地,可以通过将目标文字出现的实际概率1、第三概率、目标词语出现的实际概率1和第四概率输入损失函数中,计算得到损失值。其中,损失函数例如可以为逻辑回归损失函数(例如log对数损失函数)、平方损失函数、绝对值损失函数等。
在操作S240,根据损失值调整初始概率预测模型中的参数,得到调整后概率预测模型,并以调整后概率预测模型更新初始概率预测模型。
根据本申请的实施例,该操作S240例如可以为将损失值基于梯度反向传播到初始概率预测模型的每一层,通过链式法则计算每一层的梯度,以损失值在每一层梯度上的表现乘以每一层的学习率得到每一层参数的更新量。最后根据该更新量调整每一层参数的取值,完成对初始概率预测模型的调整。该调整后概率预测模型可以作为处理下一样本语句的初始概率预测模型,以实现对概率预测模型的循环调整和优化。
根据本申请的实施例,损失值例如可以为由初始概率预测模型中参数表示的损失函数得到。该实施例可以通过梯度下降算法,确定使得损失值最小时参数的取值,以此来更新初始概率预测模型。
以上调整初始概率预测模型中参数的方法仅作为示例以利于理解本申请。根据实际需求,可以采用任意方法来对模型中参数进行调整,本申请对此不作限定。
根据本申请的实施例,在对概率预测模型进行调整时,也可以一次性向概率预测模型输入多个语句。此种情况下,前述获取的多个样本语句中,每个样本语句可以包括多个语句,且该多个语句经遮蔽目标文字和目标词语处理后依次输入概率预测模型,依次得到第三概率和第四概率,总共得到多组概率值,每组概率值包括一个第三概率和一个第四概率。根据多组概率值可以得到多组损失值,即对于每个样本语句,可以得到多个损失值。最后以该多个损失值的平均值作为初始概率预测模型针对当前样本语句的损失值,以对初始概率预测模型进行训练。
在操作S250,根据测试语句,确定多个调整后概率预测模型中的一个为预训练的概率预测模型。
根据本申请的实施例,在通过重复执行操作S220~操作S240,根据多个样本语句得到多个损失值,并根据多个损失值对概率预测模型进行多次调整能够得到多个调整后概率预测模型。
该操作S250可以先获取测试语句,该测试语句例如可以为人工认定的通顺度高的语句。然后根据多个调整后概率预测模型分别确定测试语句中目标文字出现的概率和目标词语出现的概率。最后确定多个调整后概率预测模型中,得到的概率值最高的模型为预训练的概率预测模型。
根据本申请的实施例,为了提高模型训练的效率,降低计算量,可以在根据多个样本语句对概率预测模型进行调整的过程中,在间隔预设数量个样本语句对概率预测模型进行调整后,存储一次概率预测模型的参数。在多个样本语句为P个,预设数量为r的情况下,可以得到P/r组参数。将采用该P/r组参数的P/r个调整后概率预测模型作为备选预测模型,并根据测试语句从该备选预测模型中选择一个作为预训练的概率预测模型。
综上可知,本申请实施例的确定概率预测模型的方法,由于概率预测模型的参数是综合目标文字出现的概率和目标词语出现的概率来进行调整的。因此,确定的概率预测模型不仅可以学习到词语维度的词汇知识,还可以学习到文字维度的泛化能力。从而可以降低预训练的概率预测模型的预测结果对分词质量的依赖,提高模型的鲁棒性和准确性。
根据本申请的实施例,可以采用双向转换编码器与分类器相结合的架构来确定目标文字和目标词语出现的概率值。本申请实施例的预训练的概率预测模型分别包括文字概率模型和词语概率模型。该两个模型均包括依次连接的嵌入层、双向转换编码器和分类器。其中,该两个模型的嵌入层均用于对输入语句进行转换,得到双向转换编码器的输入。两个模型的双向转换编码器均用于从输入的向量中提取语句特征,并将提取的语句特征输出后输入分类器中。文字概率模型中的分类器用于根据语句特征来得到文字库中各文字出现在样本语句中的概率。词语概率模型中的分类器用于根据语句特征来得到词语库中各文字出现在样本语句中的概率。
示例性地,文字概率模型中嵌入层的输入为被遮蔽一个目标文字的文字序列,其用于将每一个文字转换为一维向量,作为双向转换编码器的输入。该一维向量中除了指示文字的向量外,例如还可以包括指示样本语句的文本向量和指示被遮蔽目标文字在样本语句中位置的位置向量。文本向量用于刻画文本的全局语义信息。类似地,词语概率模型中嵌入层的输入为被遮蔽一个目标词语的词语序列,转换得到的一维向量除了指示词语的向量外,还包括文本向量和位置向量,位置向量指示被遮蔽词语在样本语句中的位置。
示例性地,在目标文字为至少两个的情况下,对于一个样本语句,嵌入层的输入可以为依次输入的至少两个文字序列。例如,对于样本语句“昨天下了一场大雨”,若目标文字为“昨”和“雨”,则可以先将文字序列“mask”、“天”、“下”、“了”、“一”、“场”、“大”、“雨”输入嵌入层,经由分类器得到一个概率向量A,该概率向量A中的多个元素分别表示文字库中各文字为样本语句中第一个字的概率。根据文字“昨”在文字库中的排序,从概率向量A中可以得到概率预测模型预测的“昨”为样本语句中第一个字的概率。随后,再将文字序列“昨”、“天”、“下”、“了”、“一”、“场”、“大”、“mask”输入嵌入层,经由分类器得到一个概率向量B,该概率向量B中的多个元素分别表示文字库中各文字为样本语句中最后一个字的概率。根据丈字“雨”在丈字库中的排序,从概率向量A中可以得到概率预测模型预测的“雨”为样本语句中最后一个字的概率。因此,在目标文字为m个的情况下,可以总共得到m个第三概率。在目标文字为n个的情况下,可以通过与以上方法类似的方法得到n个第四概率。
根据本申请的实施例,前述对初始概率预测模型调整时,例如可以根据第三概率对文字概率模型中的参数进行调整,根据第四概率对词语概率模型中的参数进行调整。
图3是根据本申请实施例的预训练的概率预测模型的结构架构图。
根据本申请的实施例,文字概率模型和词语概率模型例如可以共用双向转换编码器,以此来减少初始概率预测模型训练的计算量,使得词语维度特征和文字维度特征能够更好的互相融合,得到更加丰富的语句特征。
示例性地,如图3所示,该实施例的预训练的概率预测模型300包括并列的第一嵌入层311和第二嵌入层312,双向转换编码器320、并列的第一分类器331和第二分类器332。其中,第一嵌入层311例如可以用于以目标文字被遮蔽的字序列作为输入,以将输入的字序列转换为向量。该转换得到的向量用于作为双向转换编码器320的输入,经由双向转换编码器320进行特征提取得到特征向量。特征向量作为第一分类器331的输入,能够得到文字库中各文字出现在被遮蔽目标文字处的概率组成的概率向量。类似地,第二嵌入层312可以用于以目标词语被遮蔽的词序列作为输入,第二嵌入层312的输出作为双向转换编码器320的输入,双向转换编码器320的输出作为第二分类器332的输入,得到词语库中各词语出现在被遮蔽目标词语处的概率组成的概率向量。
根据本申请的实施例,在概率预测模型中,可以在分类器与双向转换编码器之间设置全连接层。例如,在第一分类器331与双向转换编码器320之间设置第一全连接层,在第二分类器332与双向转换编码器320之间设置第二全连接层,第一全连接层和第二全连接层并列设置。第一全连接层和第二全连接层用于对双向转换编码器320输出的特征向量进行降维,并将降维后的向量输入全连接层连接的分类器中。通过全连接层的设置,可以提高分类器输出的概率向量的准确性。
根据本申请的实施例,在采用如图3所示的模型结构时,对初始概率预测模型进行调整时,除了依据第三概率和第四概率外,还可以依据丈字特征向量和词语特征向量的差值。
示例性地,前述确定初始概率模型针对当前样本语句的损失值的操作可以先获取文字概率模型中双向转换编码器针对当前样本语句的输出向量,作为文字特征向量。同时获取词语概率模型中双向转换编码器针对当前样本语句的输出向量,作为文字特征向量。最后根据第三概率、第四概率、文字特征向量和词语特征向量的差值,确定初始概率预测模型针对当前样本语句的损失值。例如,文字特征向量为双向转换编码器320以第一嵌入层311输出的向量为输入,提取特征后输出的向量。词语特征向量为双向转换编码器320以第二嵌入层312输出的向量为输入,提取特征后输出的向量。
图4是根据本申请实施例的确定概率预测模型针对样本语句的损失值的原理示意图。
根据本申请的实施例,在得到第三概率、第四概率、文字特征向量和词语特征向量之后,如图4所示的实施例400中,可以先确定文字特征向量411和词语特征向量412之间的距离420。随后将第三概率413、第四概率414和两个向量之间的距离420作为损失函数430的输入,通过计算损失函数430得到初始概率预测模型针对当前样本语句的损失值440。
示例性地,损失值例如可以通过以下损失函数计算得到。
L=-∑i[logp(xi|xi-1)]+-∑j[logp(wj|wj-1)]+λf(embx,embw)
其中,L为损失值,p(xi|xi-1)为第i个目标文字被遮挡时,该第i个目标文字针对当前样本语句出现的第三概率,p(wj|wj-1)为第j个目标文字被遮挡时,该第j个目标文字针对当前样本语句出现的第三概率,embx为文字特征向量,embw为词语特征向量。f为关于文字特征向量和词语特征向量的函数。示例性地,f用于表示文字特征向量和词语特征向量之间的距离,该距离例如可以为欧式距离、曼哈顿距离或马式(Mahalanobis)距离等。λ为超参,可以根据实际需求进行设定。因此,本申请实施例可以通过将第三概率、第四概率、文字特征向量和词语特征向量代入上述公式中,计算得到损失函数。
示例性地,超参λ例如可以通过固定模型中各层参数的学习率,根据初始概率预测模型对多个样本语句中部分样本语句的损失值表示来确定。例如,超参λ的取值应使得该部分的损失值表示的取值尽可能的相近。
示例性地,f例如可以表示文字特征向量和词语特征向量之间的欧式距离,损失值例如可以通过以下损失函数计算得到。
L=-∑i[logp(xi|xi-1)]-∑j[logp(wj|wj-1)]+λ||embx-embw||2
其中,||embx-embw||2为文字特征向量和词语特征向量之差的2范数取值。根据损失函数可知,在确定损失值时,可以先确定文字特征向量和所述词语特征向量之差的二范数取值||embx-embw||2。随后确定第三概率的对数和第四概率的对数之和,得到概率之和{∑i[logp(xi|xi-1)]+∑j[logp(wj|wj-1)]}。最后确定二范数取值和预设超参的乘积λ||embx-embw||2与所述概率之和的差值,得到初始概率预测模型针对当前样本语句的损失值。
根据本申请的实施例,通过在确定损失值时考虑文字特征向量和语句特征向量之间的距离,可以保证文字概率模型和词语概率模型共用的双向转换编码器在文字维度和词语维度特征提取的一致性,防止概率预测模型学习偏向文字维度或词语维度。从而使得向转换编码器不仅具有文字维度的泛化性,还能够学习到词语维度的词汇信息。
根据本申请的实施例,在根据多个样本语句调整初始概率预测模型的过程中,例如还可以对调整后的概率预测模型进行实时的测试,以确定调整后的概率预测模型用于确定语句通顺度场景中的准确性。测试过程中,可以进行多次测试,根据多次测试结果确定预训练的概率预测模型。以此来避免概率预测模型的调整陷入局部最优的情况,使得概率预测模型尽可能的达到全局最优。
图5是根据本申请实施例的确定预训练的概率预测模型的原理示意图。
根据本申请的实施例,可以将多个样本语句根据输入概率预测模型的顺序(即确定第三概率的顺序)划分为多组语句,每组语句包括至少两个样本语句。
示例性地,本申请可以根据获取的多个样本语句对初始概率预测模型进行迭代优化。对于每个样本语句可以得到一个损失值,该损失值可以反应迭代优化过程中概率预测模型的实时精准度。
示例性地,如图5所示的实施例500,前述获取的多个样本语句例如可以总共为P个,包括第一样本语句511、第二样本语句512、第三样本语句513、…、第P样本语句514。该实施例可以将该P个样本语句划分为Q组语句,得到第一语句组521、第二语句组522、…、第(Q-1)语句组523和第Q语句组524。设定每个语句组包括的样本语句个数均为r,则本申请可以先根据第一语句组521中的r个样本语句对初始概率预测模型530进行迭代优化,将最终调整后的概率预测模型作为第一备选模型531。
根据本申请的实施例,在确定多个调整概率预测模型中的一个为预训练的概率预测模型时,可以先针对每组语句,确定针对至少两个样本语句得到的至少两个调整后概率预测模型中最后得到的模型为备选模型,得到多个备选模型。
示例性地,如图5所示,在根据第一语句组521对初始概率预测模型530进行迭代优化后,可以将最终调整后的概率预测模型作为第一备选模型531。通过根据第二语句组522中的r个样本语句对第一备选模型531进行迭代优化后,可以将最终调整后的概率预测模型作为第二备选模型532。依次类推,可以得到第三备选模型、…、第(Q-1)备选模型533和第Q备选模型534。
在得到多个备选模型后,可以先获取测试语句540,该测试语句540可以为通过ORC技术实时识别到的语句。然后采用Q个备选模型中的每个备选模型,确定测试语句540中目标文字的第五概率和测试语句540中目标词语的第六概率。该第五概率和第六概率通过采用与前文描述的确定第三概率和第四概率的方法类似的方法得到。在得到第五概率和第六概率后,根据第五概率和第六概率,来确定测试语句的通顺度。因此,如图5所述,采用第一备选模型531,可以得到测试语句540的第一通顺度551。采用第二备选模型532,可以得到测试语句540的第二通顺度552。以此类推,采用第(Q-1)备选模型533,可以得到测试语句540的第(Q-1)通顺度553。采用第Q备选模型534,可以得到测试语句540的第Q通顺度554。其中,根据目标文字出现的概率和根据目标词语出现的概率确定语句通顺度的具体流程详见下文描述,在此不再详述。
在得到的Q个通顺度中,可以确定出Q个通顺度中的最大通顺度560。最后将得到该最大通顺度所依据的备选模型为预训练的概率预测模型。例如,若最大通顺度560为第二通顺度552,则可以确定第二备选模型532为预训练的概率预测模型570。
根据本申请的实施例,在测试语句为多个的情况下,该实施例可以分别采用Q个备选模型,得到多个测试语句各自的通顺度,最后将多个测试语句通顺度的平均值作为测试语句的通顺度。例如,若测试语句包括a个测试语句,且a大于1的情况下,可以采用第一备选模型得到a个测试语句的a个通顺度。最后将a个通顺度的平均值作为第一通顺度551。
根据本申请的实施例,在需要采用多个样本语句对概率预测模型进行b轮训练时,可以得到b*Q个备选模型,采用与前文描述的类似方法,可以从b*Q个备选模型中选择一个作为预训练的概率预测模型。
综上可知,本申请实施例通过在概率预测模型的迭代优化过程中,多次存储模型的参数,最后从存储的多组参数中选择一组作为预训练得到的参数,可以避免概率预测模型在优化过程中因过拟合或欠拟合原因而使得模型不收敛,或者仅达到局部最优的情况,从而可以提高最终训练得到的模型的精准度。再者,通过根据测试语句的通顺度从多组参数中选择一组,可以使得训练得到的模型能够更贴合确定语句通顺度的场景,从而可以保证概率预测模型在确定语句通顺度场景中的准确性,提高该场景中语句通顺度的准确性。
根据本申请的实施例,在获取到样本语句后,例如可以通过同义词替换、随机删除字词等预处理操作,对样本语句进行增强处理,得到与样本语句对应的扩充后样本语句。最终将获取的样本语句和扩充后样本语句作为训练样本,对初始概率预测模型进行迭代优化。
根据本申请的实施例,在获取多个样本语句时,例如可以根据概率预测模型的应用场景获取高质量的样本语句。例如,若该概率预测模型用于确定线上广告中文本的通顺度,可以先从海量语句中剔除包含敏感字词(例如医疗、医美等)的语句,再从剩余语句中随机抽取,得到样本语句。再者,还可以均衡获取各行业中的语句作为样本语句,以防止样本语句所针对的行业单一导致的概率预测模型过拟合,训练后的模型鲁棒性差,通用性差的情况。
根据本申请的实施例,在确定语句通顺度的应用场景中,可以在采用预训练的概率预测模型确定目标文字和目标语句出现的概率之前,先采用语句识别工具,挑选出样本语句中表示时间、地点等对语句通顺度的影响较小的字词。在确定目标文字和目标语句时,降低该些挑选出的字词作为目标字词的概率,以此来提高对语句通顺度影响较大的字词被选中进行预测的概率,提高最终确定的语句通顺度的准确性。
基于以上确定概率预测模型得到的预训练的概率预测模型,本申请提供了一种确定语句通顺度的方法。以下将结合图6~图8对该确定语句通顺度的方法进行详细描述。
图6是根据本申请实施例的确定语句通顺度的方法的流程示意图。
如图6所示,该实施例的确定语句通顺度的方法600包括操作S610~操作S650。
在操作S610,获取待处理语句。
根据本申请的实施例,该待处理语句可以为终端设备中实时生成的语句。在一实施例中,该语句可以为采用文字识别工具从文本或图片中实时提取的语句。
在操作S620,对待处理语句进行分字处理,得到第一文字序列。
根据本申请的实施例,可以采用前文描述的间隔预定字符划分样本语句或采用Word Piece工具来实现对待处理语句的分字处理。第一文字序列为分字处理得到的多个文字组成的序列。
在操作S630,对待处理语句进行分词处理,得到第一词语序列。
根据本申请的实施例,可以采用前文描述的基于字符串匹配的分词方法等来对待处理语句进行分词处理。第一词语序列为待处理语句包括分词处理得到的多个词组成的序列。
在操作S640,采用预训练的概率预测模型,确定第一文字序列中目标文字在待处理语句中出现的第一概率,以及确定第一词语序列中目标词语在待处理语句中出现的第二概率。
根据本申请的实施例,该操作S640可以采用与前文确定样本语句中目标文字的第三概率,及确定样本语句中目标词语的第四概率的方法类似的方法,得到第一文字序列中目标文字的第一概率及目标词语的第二概率,在此不再赘述。
在操作S650,根据第一概率和第二概率,确定待处理语句的通顺度。
根据本申请的实施例,该操作S650可以根据预定的第一概率和第二概率与通顺度的对应关系来确定待处理语句的通顺度。例如,若第一概率和第二概率越大,则说明目标文字和目标语句在待处理语句中的出现是恰当的,则待处理语句的通顺度高。否则,待处理语句的通顺度低。
根据本申请的实施例,可以将第一概率和第二概率求和,得到概率和。根据预定的概率和与通顺度的对应关系来确定待处理语句的通顺度。对应关系例如可以根据实际需求预先制定,本申请对此不作限定。
根据本申请的实施例,在确定语句通顺度时,通过综合考虑目标词出现的概率和目标字出现的概率,相较于仅根据目标文字的概率确定通顺度,可以避免因无法获取词法信息,文字含义宽泛、容易存在歧义导致的通顺度不准确的情况。相较于仅根据目标词语的概率确定通顺度,可以避免通顺度准确性在很大程度上受分词质量影响的问题。
以下将结合图7对根据第一概率和第二概率确定通顺度的原理进行描述。
图7是根据本申请实施例的确定待处理语句的通顺度的原理示意图。
根据本申请的实施例,在确定待处理语句的通顺度后,可以先根据第一概率的对数和第二概率的对数之和,来确定待处理语句的困惑值。随后将该困惑值与预设值之和的倒数作为待处理语句的通顺度。
示例性地,如图7所示的实施例700,先对第一概率711进行对数运算,然后对第二概率712进行对数运算,分别得到第一概率的对数值和第二概率的对数值。然后将该两个对数值求和,得到对数和720。其中,在对数运算中,可以以常数e作为底数。在得到对数和后,考虑第一概率和第二概率均为小于1的值,在进行对数运算后的取值均为负数。为了使得最后的通顺度为正数,且考虑到第一概率与第二概率与通顺度之间正相关,可以将对数和720的负数作为待处理语句的困惑值730。该困惑值730与通顺度负相关。最后,对困惑值730与预设值740求和,并求和得到的值的倒数作为通顺度750。其中,预设值740为不小于1的任意值,以此保证最终得到的通顺度的取值小于1且大于0。
根据本申请的实施例,在待处理语句中具有多个目标文字的情况下,可以得到多个第一概率。在计算第一概率的对数时,可以确定多个目标文字的多个第一概率对数的第一平均值,作为所述第一概率的对数。例如,先对多个第一概率分别进行对数运算,得到多个第一概率中每个第一概率的对数。最后确定多个第一概率的对数的平均值为第一概率的对数。
根据本申请的实施例,在待处理语句中具有多个目标词语的情况下,可以得到多个第二概率。在计算第二概率的对数时,可以确定多个目标词语的多个第二概率对数的第二平均值,作为所述第二概率的对数。例如,先对多个第二概率分别进行对数运算,得到多个第二概率中每个第二概率的对数。最后确定多个第二概率的对数的平均值为第二概率的对数。
根据本申请的实施例,在确定对数和时,可以根据预设权重,来确定第一概率的对数和第二概率的对数的加权和,并以该加权和的负数作为待处理语句的困惑值。或者,也可以将预设权重设置为负数,则将根据预设权重确定的第一概率的对数和第二概率的对数的加权和,作为待处理语句的困惑值。其中,第一概率的对数的预设权重和第二概率的对数的预设权重之和为1或-1。该预设权重例如可以根据经验设定,也可以以0.5为初始值,根据确定的通顺度与实际通顺度的差值进行适当调整。以此可以避免因预训练的概率预测模型针对字维度或针对词维度的预测概率精度不一致导致的通顺度不准确的情况。若预训练的概率预测模型针对字维度的精度比针对词维度的精度高,则可以将第一概率的预设权重调高。
根据本申请的实施例,在目标文字和目标词语均为多个的情况下,可以确定前文描述的第一平均值为第一概率的对数,前文描述的第二平均值为第二概率的对数。最后根据预设权重确定第一平均值和第二平均值的加权和,作为待处理语句的困惑值。
根据本申请的实施例,待处理语句的困惑度例如可以通过以下公式计算得到。
其中,H(x,w)为通顺度,α为向第一概率分配的预设权重,|x|为目标文字的总个数,p(xi|x-i)为|x|个目标文字中第i个目标文字在待处理语句中出现的第一概率。|w|目标词语的总个数,p(wj|w-j)为|w|个目标文字中第j个目标文字在待处理语句中出现的第二概率。
待处理语句的通顺度可以通过以下公式计算得到。
综上分析,本申请在具有多个目标文字和多个目标词语时,通过根据多个第一概率的对数的平均值与第二概率的对数的平均值之和确定困惑值,相较于现有技术中计算困惑值的技术方案,能够避免因单个文字或单个词语的概率值较低导致的困惑值很高的情况,从而可以降低单个目标文字和单个目标词语对语句通顺度的较大影响,提高确定语句通顺度的方法的鲁棒性。
图8是根据本申请实施例的确定目标文字的第一概率的原理示意图。
根据本申请的实施例,预训练的概率预测模型包括文字概率模型和词语概率模型;文字概率模型和词语概率模型均包括依次连接的嵌入层、双向转换编码器和分类器。
在确定目标文字的第一概率时,可以以目标文字被遮蔽的第一文字序列作为文字概率模型的输入,确定目标文字在待处理语句中出现的第一概率。
示例性地,确定目标文字的第一概率的操作可以先确定第一文字序列中第一预设比例的文字为目标文字,得到至少一个目标文字。随后在第一文字序列中依次遮蔽至少一个目标文字,得到包含被遮蔽文字的至少一个第二文字序列,每个第二丈字序列具有一个被遮蔽文字。随后将至少一个第二文字序列依次输入文字概率模型,确定针对至少一个第二文字序列中每个第二文字序列的第一概率向量。最后确定第一概率向量中指示每个第二文字序列所包含被遮蔽文字的出现概率的元素值,作为被遮蔽文字的第一概率。
示例性地,如图8所示的实施例800,在待处理语句810为“昨天下了一天的雨”时,得到的文字序列820包括文字“昨”、“天”、“下”、“了”、“一”、“天”、“的”、“雨”。遮蔽目标文字可以为采用预设字符(例如mask)替代目标文字。在确定目标文字为“昨”和“雨”,时,遮蔽目标文字后得到两个第二文字序列,分别为文字序列831和文字序列832。其中,文字序列831为“mask”、天”、“下”、“了”、“一”、“天”、“的”、“雨”,文字序列832为“昨”、天”、“下”、“了”、“一”、“天”、“的”、“mask”。随后,将文字序列831输入文字概率模型840中,得到指示文字库中各个文字为待处理语句810中第一个文字的概率向量851,并从中挑选出文字“昨”为待处理语句810中第一个文字的概率,作为文字“昨“的第一概率861。类似的,将文字序列832输入文字概率模型840中,得到指示文字库中各个文字为待处理语句810中最后一个文字的概率向量852,并从中挑选出文字“雨”为待处理语句810中最后一个文字的概率,作为文字“雨“的第一概率862。
类似与目标文字的第一概率的方法,在确定目标词语的第二概率时,可以以目标词语被遮蔽的第一词语序列作为文字概率模型的输入,确定目标词语在待处理语句中出现的第二概率。
示例性地,确定目标词语的第二概率的操作可以先确定第一词语序列中第二预设比例的词语为目标词语,得到至少一个目标词语。随后在第一词语序列中依次遮蔽至少一个目标词语,得到包含被遮蔽文字的至少一个第二词语序列,每个第二词语序列具有一个被遮蔽文字。随后将至少一个第二词语序列依次输入词语概率模型,确定针对至少一个第二词语序列中每个第二词语序列的第二概率向量。最后确定第二概率向量中指示每个第二词语序列所包含被遮蔽词语的出现概率的元素值,作为被遮蔽词语的第二概率。
根据本申请的实施例,在文字概率模型和词语概率模型共用双向转换编码器的情况下,前述确定目标文字的第一概率时,可以将第二文字序列作为前文描述的第一嵌入层的输入,由前文描述的第一分类器输出第一概率向量。确定目标词语的第二概率时,可以将第二词语序列作为前文描述的第二嵌入层的输入,由前文描述的第二分类器输出第二概率向量。
根据本申请的实施例,在确定目标文字和目标词语时,所采用的第一预设比例和第二预设比例可以根据实际需求进行设定,且该第一预设比例与第二预设比例可以相等,也可以不相等。
示例性地,在第一文字序列中,被遮蔽的文字为动态抽取的18%的文字。其中,例如可以基于词频-逆文本频率指数(term frequency-inverse document frequency,TF-IDF)来抽取目标文字。可以采用基于embedding的方法等抽取目标文字。基于以上类似的方法,还可以从第一词语序列中,遮蔽动态抽取的词语。
根据本申请的实施例,与前文对样本语句的处理类似,本申请在确定待处理语句中的目标文字之前,也可以先采用语句识别工具,挑选出待处理语句中表示时间、地点等对语句通顺度的影响较小的字词。在确定目标文字和目标语句时,降低该些挑选出的字词作为目标字词的概率,以此来提高对语句通顺度影响较大的字词被选中进行预测的概率,提高最终确定的语句通顺度的准确性。
示例性地,可以先采用文字识别模型,识别得到第一文字序列中的特定文字。该文字识别模型例如可以为命名实体识别模型,特定文字为前述时间、地点等对通顺度的影响较小的字。随后降低向特定文字分配的作为目标文字的权重。例如,第一字向量中每个文字被选为目标文字的概率均为20%,在降低特定文字的权重后,特定文字被选为目标文字的概率例如可以为10%。最后,根据第一文字序列中各文字作为目标文字的权重,随确定第一文字序列中的目标文字。其中,命名实体识别模型例如可以采用BERT与CRF融合得到的模型,该模型可以是根据实际需求预先训练得到的。其中,向第一文字序列中各文字分配的作为目标文字的初始的权重例如可以相等。
类似地,在确定目标词语时,可以先采用文字识别模型,识别得到第一词语序列中的特定词语。随后降低向特定词语分配的作为目标词语的权重。最后根据第一词语序列中各词语作为目标词语的权重,随机确定第一词语序列中的目标词语。可以根据前述的第二预定比例来随机确定目标词语。向第一词语序列中各词语分配的作为目标词语的初始的权重例如可以相等。
图9是根据本申请实施例的确定语句通顺度的装置的结构框图。
如图9所示,该实施例的确定语句通顺度的装置900可以包括第一获取模块910、分字模块920、分词模块930、第一概率确定模块940和通顺度确定模块950。
第一获取模块910用于获取待处理语句。在一实施例中,第一获取模块910可以用于执行前文描述的操作S610,在此不再赘述。
分字模块920用于对待处理语句进行分字处理,得到第一文字序列。在一实施例中,分字模块920可以用于执行前文描述的操作S620,在此不再赘述。
分词模块930用于对待处理语句进行分词处理,得到第一词语序列。在一实施例中,分词模块930可以用于执行前文描述的操作S630,在此不再赘述。
第一概率确定模块940用于采用预训练的概率预测模型,确定第一文字序列中目标文字在待处理语句中出现的第一概率,以及确定第一词语序列中目标词语在待处理语句中出现的第二概率。在一实施例中,第一概率确定模块940可以用于执行前文描述的操作S640,在此不再赘述。
通顺度确定模块950用于根据第一概率和所述第二概率,确定待处理语句的通顺度。在一实施例中,通顺度确定模块950可以用于执行前文描述的操作S650,在此不再赘述。
图10是根据本申请实施例的确定概率预测模型的装置的结构框图。
如图10所示,该实施例的确定概率预测模型的装置1000可以包括第二获取模块1010、模型调整模块1020和模型确定模块1030。
第二获取模块1010用于获取多个样本语句和初始概率预测模型。在一实施例中,第二获取模块1010可以用于前文描述的操作S210,在此不再赘述。
模型调整模块1020用于针对多个样本语句依次得到一一对应的多个调整后概率预测模型。
示例性地,如图10所示,模型调整模块1020包括概率确定子模块1021、损失值确定子模块1022和参数调整子模块1023。概率确定子模块1021用于采用初始概率预测模型,确定当前样本语句中目标文字在当前样本语句中出现的第三概率,以及确定当前样本语句中目标词语在当前样本语句中出现的第四概率。损失值确定子模块1022用于根据第三概率和第四概率,确定初始概率预测模型针对当前样本语句的损失值。参数调整子模块1023用于根据损失值调整初始概率预测模型中的参数,得到调整后概率预测模型,并以调整后概率预测模型更新初始概率预测模型。在一实施例中,概率确定子模块1021、损失值确定子模块1022和参数调整子模块1023例如可以分别用于执行前文描述的操作S220~操作S240,在此不再赘述。
模型确定模块1030用于根据测试语句,确定多个调整后概率预测模型中的一个为预训练的概率预测模型。在一实施例中,模型确定模块1030用于执行前文描述的操作S250,在此不再赘述。
根据本申请的实施例,本申请还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。计算机程序产品包括计算机程序,所述计算机程序在被处理器执行时可以实现上述任意实施例的方法。
如图11所示,是根据本申请实施例的确定语句通顺度和/或确定概率预测模型的电子设备的框图。
电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图11所示,该电子设备1100包括:一个或多个处理器1101、存储器1102,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器***)。图11中以一个处理器1101为例。
存储器1102即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的确定语句通顺度的方法,和/或执行本申请所提供的确定概率预测模型的方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的确定语句通顺度的方法,和/或执行本申请所提供的确定概率预测模型的方法。
存储器1102作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的确定语句通顺度的方法,和/或确定概率预测模型的方法对应的程序指令/模块(例如,附图9所示的第一获取模块910、分字模块920、分词模块930、第一概率确定模块940和通顺度确定模块950,并且/或者,附图10所示的第二获取模块1010、模型调整模块1020和模型确定模块1030)。处理器1101通过运行存储在存储器1102中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的确定语句通顺度的方法,和/或确定概率预测模型的方法。
存储器1102可以包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需要的应用程序;存储数据区可存储根据确定语句通顺度和/或确定概率预测模型的电子设备的使用所创建的数据等。此外,存储器1102可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器1102可选包括相对于处理器1101远程设置的存储器,这些远程存储器可以通过网络连接至确定语句通顺度和/或确定概率预测模型的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
确定语句通顺度和/或确定概率预测模型的电子设备还可以包括:输入装置1103和输出装置1104。处理器1101、存储器1102、输入装置1103和输出装置1104可以通过总线或者其他方式连接,图11中以通过总线连接为例。
输入装置1103可接收输入的数字或字符信息,以及产生与确定语句通顺度和/或确定概率预测模型的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置1104可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的***和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的***和技术实施在包括后台部件的计算***(例如,作为数据服务器)、或者包括中间件部件的计算***(例如,应用服务器)、或者包括前端部件的计算***(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将***的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。

Claims (14)

1.一种确定语句通顺度的方法,包括:
获取待处理语句;
对所述待处理语句进行分字处理,得到第一文字序列;
对所述待处理语句进行分词处理,得到第一词语序列;
采用预训练的概率预测模型,确定所述第一文字序列中目标文字在所述待处理语句中出现的第一概率,以及确定所述第一词语序列中目标词语在所述待处理语句中出现的第二概率,以及
根据所述第一概率和所述第二概率,确定所述待处理语句的通顺度;
其中,所述预训练的概率预测模型包括文字概率模型和词语概率模型;所述文字概率模型和所述词语概率模型均包括依次连接的嵌入层、双向转换编码器和分类器;
确定所述第一文字序列中目标文字在所述待处理语句中出现的第一概率,以及所述第一词语序列中目标词语在所述待处理语句中出现的第二概率包括:
以目标文字被遮蔽的第一文字序列作为所述文字概率模型的输入,确定被遮蔽目标文字的第一概率;以及
以目标词语被遮蔽的第一词语序列作为所述词语概率模型的输入,确定被遮蔽目标词语的第二概率;
其中,确定所述待处理语句的通顺度包括:
根据所述第一概率的对数与所述第二概率的对数之和,确定所述待处理语句的困惑值;以及
确定所述待处理语句的困惑值与预设值之和的倒数为所述待处理语句的通顺度。
2.根据权利要求1所述的方法,其中,所述第一词语序列中目标词语的个数为多个,所述第一文字序列中目标文字的个数为多个;确定所述待处理语句的困惑值包括:
确定多个目标文字的多个第一概率对数的第一平均值,作为所述第一概率的对数;
确定多个目标词的多个第二概率对数的第二平均值,作为所述第二概率的对数之和;以及
根据预设权重确定所述第一平均值和所述第二平均值的加权和,作为所述待处理语句的困惑值。
3.根据权利要求1所述的方法,其中,所述文字概率模型和所述词语概率模型共用所述双向转换编码器。
4.根据权利要求1或3所述的方法,其中,所述文字概率模型和所述词语概率模型均包括全连接层,所述全连接层连接在所述双向转换编码器和所述分类器之间。
5.根据权利要求1所述的方法,其中,确定所述第一文字序列中目标文字的第一概率包括:
确定所述第一文字序列中第一预设比例的文字为目标文字,得到至少一个目标文字;
在所述第一文字序列中依次遮蔽所述至少一个目标文字,得到包含被遮蔽文字的至少一个第二文字序列,每个第二文字序列具有一个被遮蔽文字;
将所述至少一个第二文字序列依次输入所述文字概率模型,确定针对至少一个第二文字序列中每个第二文字序列的第一概率向量;以及
确定所述第一概率向量中指示所述每个第二文字序列所包含被遮蔽文字的出现概率的元素值,作为所述被遮蔽文字的第一概率。
6.根据权利要求1所述的方法,其中,确定所述第一词语序列中目标词语的第二概率包括:
确定所述第一词语序列中第二预设比例的词语为目标词语,得到至少一个目标词语;
在所述第一词语序列中依次遮蔽所述至少一个目标词语,得到包含被遮蔽文字的至少一个第二词语序列,每个第二词语序列具有一个被遮蔽文字;
将所述至少一个第二词语序列依次输入所述词语概率模型,确定针对至少一个第二词语序列中每个第二词语序列的第二概率向量;以及
确定所述第二概率向量中指示所述每个第二词语序列所包含被遮蔽词语的出现概率的元素值,作为所述被遮蔽词语的第二概率。
7.根据权利要求5所述的方法,其中,确定所述第一文字序列中第一预设比例的文字为目标文字包括:
采用文字识别模型,识别得到所述第一文字序列中的特定文字;
降低向所述特定文字分配的作为目标文字的权重;以及
根据所述第一文字序列中各文字作为目标文字的权重,随机确定所述第一文字序列中所述第一预设比例的文字为目标文字,
其中,向所述第一文字序列中各文字分配的作为目标文字的初始权重相等。
8.根据权利要求6所述的方法,其中,确定所述第一词语序列中第二预设比例的词语为目标词语包括:
采用文字识别模型,识别得到所述第一词语序列中的特定词语;
降低向所述特定词语分配的作为目标词语的权重;以及
根据所述第一词语序列中各词语作为目标词语的权重,随机确定所述第一词语序列中第二预设比例的词语为目标词语,
其中,向所述第一词语序列中各词语分配的作为目标词语的初始权重相等。
9.一种确定概率预测模型的方法,包括:
获取多个样本语句和初始概率预测模型;
针对所述多个样本语句依次执行以下操作,得到与所述多个样本语句一一对应的多个调整后概率预测模型:
采用所述初始概率预测模型,确定当前样本语句中目标文字在所述当前样本语句中出现的第三概率,以及确定所述当前样本语句中目标词语在所述当前样本语句中出现的第四概率;
根据所述第三概率和所述第四概率,确定所述初始概率预测模型针对所述当前样本语句的损失值;
根据所述损失值调整所述初始概率预测模型中的参数,得到调整后概率预测模型,并以所述调整后概率预测模型更新所述初始概率预测模型;以及
根据测试语句,确定所述多个调整后概率预测模型中的一个为预训练的概率预测模型;
其中,所述预训练的概率预测模型包括文字概率模型和词语概率模型;所述文字概率模型和所述词语概率模型均包括依次连接的嵌入层、双向转换编码器和分类器;所述文字概率模型和所述词语概率模型共用所述双向转换编码器;确定所述初始概率预测模型针对所述当前样本语句的损失值包括:
获取所述文字概率模型中双向转换编码器针对所述当前样本语句的输出向量,作为文字特征向量;
获取所述词语概率模型中双向转换编码器针对所述当前样本语句的输出向量,作为词语特征向量;以及
根据所述第三概率、所述第四概率、所述文字特征向量和所述词语特征向量之间的距离,确定所述初始概率预测模型针对所述当前样本语句的损失值;
其中,所述多个样本语句根据确定第三概率的顺序被划分为多组语句,每组语句包括至少两个样本语句;确定所述多个调整后概率预测模型中的一个为预训练的概率预测模型包括:
针对每组语句,确定针对所述至少两个样本语句得到的最后一个调整后概率预测模型为备选模型,得到多个备选模型;
根据所述多个备选模型中每个备选模型执行以下操作,以得到针对所述多个备选模型的多个通顺度:
确定所述测试语句中目标文字的第五概率和所述测试语句中目标词语的第六概率;
根据所述第五概率和所述第六概率,确定所述测试语句的通顺度;以及
确定得到所述多个通顺度中最大通顺度所依据的备选模型为预训练的概率预测模型。
10.根据权利要求9所述的方法,其中,确定所述初始概率预测模型针对所述当前样本语句的损失值包括:
确定所述文字特征向量和所述词语特征向量之差的二范数取值;
确定所述第三概率的对数和所述第四概率的对数之和,得到概率之和;以及
确定所述二范数取值和预设超参的乘积与所述概率之和的差值,作为针对所述当前样本语句的损失值。
11.一种确定语句通顺度的装置,包括:
第一获取模块,用于获取待处理语句;
分字模块,用于对所述待处理语句进行分字处理,得到第一文字序列;
分词模块,用于对所述待处理语句进行分词处理,得到第一词语序列;
概率确定模块,用于采用预训练的概率预测模型,确定所述第一文字序列中目标文字在所述待处理语句中出现的第一概率,以及确定所述第一词语序列中目标词语在所述待处理语句中出现的第二概率;以及
通顺度确定模块,用于根据所述第一概率和所述第二概率,确定所述待处理语句的通顺度;
其中,所述预训练的概率预测模型包括文字概率模型和词语概率模型;所述文字概率模型和所述词语概率模型均包括依次连接的嵌入层、双向转换编码器和分类器;所述概率确定模块包括:
第一概率确定单元,用于以目标文字被遮蔽的第一文字序列作为所述文字概率模型的输入,确定被遮蔽目标文字的第一概率;以及
第二概率确定单元,用于以目标词语被遮蔽的第一词语序列作为所述词语概率模型的输入,确定被遮蔽目标词语的第二概率;
其中,所述通顺度确定模块包括:
困惑值确定单元,用于根据所述第一概率的对数与所述第二概率的对数之和,确定所述待处理语句的困惑值;以及
通顺度确定单元,用于确定所述待处理语句的困惑值与预设值之和的倒数为所述待处理语句的通顺度。
12.一种确定概率预测模型的装置,包括:
第二获取模块,用于获取多个样本语句和初始概率预测模型;
模型调整模块,用于针对所述多个样本语句依次得到一一对应的多个调整后概率预测模型;所述模型调整模块包括:
概率确定子模块,用于采用所述初始概率预测模型,确定当前样本语句中目标文字在所述当前样本语句中出现的第三概率,以及确定所述当前样本语句中目标词语在所述当前样本语句中出现的第四概率;
损失值确定子模块,用于根据所述第三概率和所述第四概率,确定所述初始概率预测模型针对所述当前样本语句的损失值;
参数调整子模块,用于根据所述损失值调整所述初始概率预测模型中的参数,得到调整后概率预测模型,并以所述调整后概率预测模型更新所述初始概率预测模型;以及
模型确定模块,用于根据测试语句,确定所述多个调整后概率预测模型中的一个为预训练的概率预测模型;
其中,所述预训练的概率预测模型包括文字概率模型和词语概率模型;所述文字概率模型和所述词语概率模型均包括依次连接的嵌入层、双向转换编码器和分类器;所述文字概率模型和所述词语概率模型共用所述双向转换编码器;
所述损失值确定子模块,还用于获取所述文字概率模型中双向转换编码器针对所述当前样本语句的输出向量,作为文字特征向量;获取所述词语概率模型中双向转换编码器针对所述当前样本语句的输出向量,作为词语特征向量;以及根据所述第三概率、所述第四概率、所述文字特征向量和所述词语特征向量之间的距离,确定所述初始概率预测模型针对所述当前样本语句的损失值;
其中,所述多个样本语句根据确定第三概率的顺序被划分为多组语句,每组语句包括至少两个样本语句;
所述模型确定模块,还用于针对每组语句,确定针对所述至少两个样本语句得到的最后一个调整后概率预测模型为备选模型,得到多个备选模型;根据所述多个备选模型中每个备选模型执行以下操作,以得到针对所述多个备选模型的多个通顺度:确定所述测试语句中目标文字的第五概率和所述测试语句中目标词语的第六概率;根据所述第五概率和所述第六概率,确定所述测试语句的通顺度;以及确定得到所述多个通顺度中最大通顺度所依据的备选模型为预训练的概率预测模型。
13. 一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行:权利要求1~8中任一项所述的方法;并且/或者权利要求9~10中任一项所述的方法。
14.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行:权利要求1~8中任一项所述的方法;并且/或者权利要求9~10中任一项所述的方法。
CN202011316695.6A 2020-11-20 2020-11-20 确定语句通顺度的方法、确定概率预测模型的方法和装置 Active CN112380855B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011316695.6A CN112380855B (zh) 2020-11-20 2020-11-20 确定语句通顺度的方法、确定概率预测模型的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011316695.6A CN112380855B (zh) 2020-11-20 2020-11-20 确定语句通顺度的方法、确定概率预测模型的方法和装置

Publications (2)

Publication Number Publication Date
CN112380855A CN112380855A (zh) 2021-02-19
CN112380855B true CN112380855B (zh) 2024-03-08

Family

ID=74587239

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011316695.6A Active CN112380855B (zh) 2020-11-20 2020-11-20 确定语句通顺度的方法、确定概率预测模型的方法和装置

Country Status (1)

Country Link
CN (1) CN112380855B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113515592B (zh) * 2021-04-23 2024-01-09 平安科技(深圳)有限公司 文本预测方法、装置、电子设备及存储介质
CN114492426B (zh) * 2021-12-30 2023-04-07 北京百度网讯科技有限公司 子词切分方法、模型训练方法、装置和电子设备
CN114547266B (zh) * 2022-02-21 2023-06-30 北京百度网讯科技有限公司 信息生成模型的训练方法、生成信息的方法、装置和设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA3065841A1 (en) * 2016-06-12 2018-12-20 Royal Bank Of Canada System and method for adaptive data visualization
CN109670147A (zh) * 2017-10-16 2019-04-23 三星电子株式会社 更新句子生成模型的方法以及句子生成设备
CN109711121A (zh) * 2018-12-27 2019-05-03 清华大学 基于马尔可夫模型和哈夫曼编码的文本隐写方法及装置
WO2019208070A1 (ja) * 2018-04-23 2019-10-31 日本電信電話株式会社 質問応答装置、質問応答方法及びプログラム
CN110489727A (zh) * 2019-07-12 2019-11-22 深圳追一科技有限公司 人名识别方法及相关装置
JP2020071737A (ja) * 2018-10-31 2020-05-07 富士通株式会社 学習方法、学習プログラム及び学習装置
WO2020147393A1 (zh) * 2019-01-17 2020-07-23 平安科技(深圳)有限公司 基于卷积神经网络的文本分类方法及相关设备
WO2020215550A1 (zh) * 2019-04-26 2020-10-29 平安科技(深圳)有限公司 错句检测方法、装置及计算机可读存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA3065841A1 (en) * 2016-06-12 2018-12-20 Royal Bank Of Canada System and method for adaptive data visualization
CN109670147A (zh) * 2017-10-16 2019-04-23 三星电子株式会社 更新句子生成模型的方法以及句子生成设备
WO2019208070A1 (ja) * 2018-04-23 2019-10-31 日本電信電話株式会社 質問応答装置、質問応答方法及びプログラム
JP2020071737A (ja) * 2018-10-31 2020-05-07 富士通株式会社 学習方法、学習プログラム及び学習装置
CN109711121A (zh) * 2018-12-27 2019-05-03 清华大学 基于马尔可夫模型和哈夫曼编码的文本隐写方法及装置
WO2020147393A1 (zh) * 2019-01-17 2020-07-23 平安科技(深圳)有限公司 基于卷积神经网络的文本分类方法及相关设备
WO2020215550A1 (zh) * 2019-04-26 2020-10-29 平安科技(深圳)有限公司 错句检测方法、装置及计算机可读存储介质
CN110489727A (zh) * 2019-07-12 2019-11-22 深圳追一科技有限公司 人名识别方法及相关装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于自然语言网络教学答疑中无词典分词算法的研究;高晓梅等;西安工程大学学报;20190630;第23卷(第3期);全文 *
汉语语句中短语间停顿的自动预测方法;聂鑫, 王作英;中文信息学报;20030425(04);全文 *

Also Published As

Publication number Publication date
CN112380855A (zh) 2021-02-19

Similar Documents

Publication Publication Date Title
JP7317791B2 (ja) エンティティ・リンキング方法、装置、機器、及び記憶媒体
JP7166322B2 (ja) モデルを訓練するための方法、装置、電子機器、記憶媒体およびコンピュータプログラム
US11704492B2 (en) Method, electronic device, and storage medium for entity linking by determining a linking probability based on splicing of embedding vectors of a target and a reference text
EP4027268A1 (en) Training method for classification model, sample classification method and apparatus, and device
CN112560912B (zh) 分类模型的训练方法、装置、电子设备和存储介质
CN112380855B (zh) 确定语句通顺度的方法、确定概率预测模型的方法和装置
US11275904B2 (en) Method and apparatus for translating polysemy, and medium
CN111783451B (zh) 用于增强文本样本的方法和装置
US20210312139A1 (en) Method and apparatus of generating semantic feature, method and apparatus of training model, electronic device, and storage medium
JP7108675B2 (ja) 意味マッチング方法、装置、電子機器、記憶媒体及びコンピュータプログラム
KR20210040851A (ko) 텍스트 인식 처리 방법, 장치, 전자 기기 및 저장매체
JP7301922B2 (ja) 意味検索方法、装置、電子機器、記憶媒体およびコンピュータプログラム
JP7149993B2 (ja) 感情分析モデルの事前トレーニング方法、装置及び電子機器
CN111259671B (zh) 文本实体的语义描述处理方法、装置及设备
US20220067439A1 (en) Entity linking method, electronic device and storage medium
US20210334659A1 (en) Method and apparatus for adversarial training of machine learning model, and medium
JP7133002B2 (ja) 句読点予測方法および装置
CN113053367A (zh) 语音识别方法、语音识别的模型训练方法以及装置
CN114444462B (zh) 模型训练方法及人机交互方法、装置
EP3855341A1 (en) Language generation method and apparatus, electronic device and storage medium
CN111753759A (zh) 模型生成方法、装置、电子设备及存储介质
CN116502649A (zh) 文本生成模型的训练方法、装置、电子设备及存储介质
US11893977B2 (en) Method for recognizing Chinese-English mixed speech, electronic device, and storage medium
CN110516127B (zh) 多需求搜索请求的划分方法、装置、电子设备及存储介质
CN116244432B (zh) 语言模型的预训练方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant