CN108628819A - 处理方法和装置、用于处理的装置 - Google Patents
处理方法和装置、用于处理的装置 Download PDFInfo
- Publication number
- CN108628819A CN108628819A CN201710157267.5A CN201710157267A CN108628819A CN 108628819 A CN108628819 A CN 108628819A CN 201710157267 A CN201710157267 A CN 201710157267A CN 108628819 A CN108628819 A CN 108628819A
- Authority
- CN
- China
- Prior art keywords
- optimal
- punctuate
- point
- cut
- result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例提供了一种处理方法和装置、以及一种用于处理的装置,其中的方法具体包括:获取待处理文本;依据基于所述待处理文本包含的预置标点符号得到的分割点,获取所述待处理文本对应的最优断句结果;其中,所述最优断句结果的综合翻译质量最优,所述最优断句结果包括:至少一个句子,所述综合翻译质量为断句结果包含的所有句子对应翻译质量的综合;输出所述处理文本对应的最优断句结果。本发明实施例能够提高待处理文本对应的断句结果的翻译质量。
Description
技术领域
本发明涉及自然语言处理技术领域,特别是涉及一种处理方法和装置、以及一种用于处理的装置。
背景技术
断句技术为自然语言处理领域中的一项重要的基础技术。所谓断句,就是将文本切分成语义完整的句子。由于将文本切分成语义完整的句子,是实现机器识别人类语言的第一步,因此断句技术被广泛应用于机器翻译、语音识别、信息服务等自然语言处理的应用分支中。
机器翻译技术是指利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。传统的机器翻译技术在进行机器翻译前,通常将用户输入的源文本或者通过语音识别得到的源文本进行断句处理,再依据断句处理结果进行机器翻译;因此,断句处理结果的准确率对机器翻译质量有着至关重要的影响,断句处理结果的准确率高低将直接影响机器翻译质量的高低。
现有方案通常采用设置阈值的方式进行文本断句。例如,若文本包含的逗号数量超过第一阈值、或者当文本所包含的字数超过第二阈值时,则对该文本进行断句。
然而,现有方案得到的断句处理结果中容易出现语义不完整的句子,而该语义不完整的句子将会影响机器翻译的翻译质量,因此现有方案的断句处理结果导致机器翻译的翻译质量较低。
发明内容
鉴于上述问题,提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的处理方法、处理装置、及用于处理的装置,本发明实施例能够提高待处理文本对应的断句结果的翻译质量。
为了解决上述问题,本发明公开了一种处理方法,包括:
获取待处理文本;
依据基于所述待处理文本包含的预置标点符号得到的分割点,获取所述待处理文本对应的最优断句结果;其中,所述最优断句结果的综合翻译质量最优,所述最优断句结果包括:至少一个句子,所述综合翻译质量为断句结果包含的所有句子对应翻译质量的综合;
输出所述处理文本对应的最优断句结果。
可选地,所述依据基于所述待处理文本包含的预置标点符号得到的分割点,获取所述待处理文本对应的最优断句结果,包括:
利用动态规划算法,依据基于所述待处理文本包含的预置标点符号得到的分割点,获取所述待处理文本对应的最优断句结果。
可选地,所述利用动态规划算法,依据基于所述待处理文本包含的预置标点符号得到的分割点,获取所述待处理文本对应的最优断句结果,包括:
依据所述待处理文本包含的预置标点符号,确定所述待处理文本对应的分句序列集合;
按照所述分句序列集合的子集从小到大的顺序,通过递推方式确定各子集对应最优子集断句结果的回溯分割点;所述最优子集断句结果对应的综合翻译质量最优;
依据所述分句序列集合的各子集对应最优子集断句结果的回溯分割点,得到所述待处理文本对应的最优断句结果。
可选地,所述分句序列集合的子集包括:所述待处理文本的前i个分句,前i个分句对应的最优子集综合翻译质量得分表示为F(i),0≤i≤所述待处理文本的分句数量M,则所述按照所述分句序列集合的子集从小到大的顺序,通过递推方式确定各子集对应最优子集断句结果的回溯分割点,包括:
利用分割点k对所述前i个分句进行断句,以得到所述前i个分句和所述分割点k对应的第一语义单元的最优子集综合翻译质量得分F(k)、以及第二语义单元的翻译质量得分;其中,所述第一语义单元包括:所述前i个分句包括的位于分割点k之前的分句,所述第二语义单元包括:所述前i个分句包括的位于分割点k之后的分句,0≤k<i;
对F(k)以及所述第二语义单元的翻译质量得分进行综合,以得到所述前i个分句和分割点k对应的综合翻译质量得分;
依据所述前i个分句和分割点k对应的综合翻译质量得分,从所述前i个分句对应的至少一个分割点k中获取最优综合翻译质量得分对应的目标分割点;
将所述目标分割点作为所述前i个分句对应最优子集断句结果的回溯分割点,以及,将所述目标分割点对应的综合翻译质量得分作为所述前i个分句对应的最优子集综合翻译质量得分F(i)。
可选地,所述依据所述分句序列集合的各子集对应最优子集断句结果的回溯分割点,得到所述待处理文本对应的最优断句结果,包括:
对所述分句序列集合的各子集对应最优子集断句结果的回溯分割点进行回溯,以得到所述分句序列集合的最大子集对应最优子集断句结果的回溯分割点;
依据所述分句序列集合的最大子集对应最优子集断句结果的回溯分割点,对所述待处理文本进行断句,以得到所述待处理文本对应的最优断句结果。
可选地,所述对所述分句序列集合的各子集对应最优子集断句结果的回溯分割点进行回溯,包括:
获取前i个分句对应的第一回溯分割点P1;
获取所述待处理文本包括的位于所述第一回溯分割点P1之前的分句对应的第二回溯分割点P2。
可选地,所述依据基于所述待处理文本包含的预置标点符号得到的分割点,获取所述待处理文本对应的最优断句结果,包括:
依据基于所述待处理文本包含的预置标点符号得到的分割点,对所述待处理文本进行断句处理,以得到所述待处理文本对应的多种断句结果;
确定所述断句结果对应的综合翻译质量;
从所述待处理文本对应的多种断句结果中选择综合翻译质量最优的断句结果,作为所述待处理文本对应的最优断句结果。
可选地,所述预置标点符号包括:逗号和/或分号和/或分号。
另一方面,本发明公开了一种处理装置,包括:
待处理文本获取模块,用于获取待处理文本;
最优断句结果获取模块,用于依据基于所述待处理文本包含的预置标点符号得到的分割点,获取所述待处理文本对应的最优断句结果;其中,所述最优断句结果的综合翻译质量最优,所述最优断句结果包括:至少一个句子,所述综合翻译质量为断句结果包含的所有句子对应翻译质量的综合;以及
最优断句结果输出模块,用于输出所述处理文本对应的最优断句结果。
可选地,所述最优断句结果获取模块包括:
动态规划获取子模块,用于利用动态规划算法,依据基于所述待处理文本包含的预置标点符号得到的分割点,获取所述待处理文本对应的最优断句结果。
可选地,所述动态规划获取子模块包括:
分句序列集合确定单元,用于依据所述待处理文本包含的预置标点符号,确定所述待处理文本对应的分句序列集合;
递推单元,用于按照所述分句序列集合的子集从小到大的顺序,通过递推方式确定各子集对应最优子集断句结果的回溯分割点;以及
最优断句结果获取单元,用于依据所述分句序列集合的各子集对应最优子集断句结果的回溯分割点,得到所述待处理文本对应的最优断句结果。
可选地,所述分句序列集合的子集包括:所述待处理文本的前i个分句,前i个分句对应的最优子集综合翻译质量得分表示为F(i),0≤i≤所述待处理文本的分句数量M,则所述递推单元包括:
子集断句子单元,用于利用分割点k对所述前i个分句进行断句,以得到所述前i个分句和所述分割点k对应的第一语义单元的最优子集综合翻译质量得分F(k)、以及第二语义单元的翻译质量得分;其中,所述第一语义单元包括:所述前i个分句包括的位于分割点k之前的分句,所述第二语义单元包括:所述前i个分句包括的位于分割点k之后的分句,0≤k<i;
质量综合子单元,用于对F(k)以及所述第二语义单元的翻译质量得分进行综合,以得到所述前i个分句和分割点k对应的综合翻译质量得分;
目标分割点获取子单元,用于依据所述前i个分句和分割点k对应的综合翻译质量得分,从所述前i个分句对应的至少一个分割点k中获取最优综合翻译质量得分对应的目标分割点;
回溯分割点获取子单元,用于将所述目标分割点作为所述前i个分句对应最优子集断句结果的回溯分割点,以及,将所述目标分割点对应的综合翻译质量得分作为所述前i个分句对应的最优子集综合翻译质量得分F(i)。
可选地,所述最优断句结果获取单元包括:
回溯子单元,用于对所述分句序列集合的各子集对应最优子集断句结果的回溯分割点进行回溯,以得到所述分句序列集合的最大子集对应最优子集断句结果的回溯分割点;
回溯断句子单元,用于依据所述分句序列集合的最大子集对应最优子集断句结果的回溯分割点,对所述待处理文本进行断句,以得到所述待处理文本对应的最优断句结果。
可选地,所述回溯子单元包括:
第一回溯单元,用于获取前i个分句对应的第一回溯分割点P1;
第二回溯单元,用于获取所述待处理文本包括的位于所述第一回溯分割点P1之前的分句对应的第二回溯分割点P2。
可选地,所述最优断句结果获取模块包括:
穷举子模块,用于依据基于所述待处理文本包含的预置标点符号得到的分割点,对所述待处理文本进行断句处理,以得到所述待处理文本对应的多种断句结果;
综合质量确定子模块,用于确定所述断句结果对应的综合翻译质量;
结果选择子模块,用于从所述待处理文本对应的多种断句结果中选择综合翻译质量最优的断句结果,作为所述待处理文本对应的最优断句结果。
可选地,所述预置标点符号包括:逗号和/或分号和/或分号。
再一方面,本发明公开了一种用于处理的装置,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
获取待处理文本;
依据基于所述待处理文本包含的预置标点符号得到的分割点,获取所述待处理文本对应的最优断句结果;其中,所述最优断句结果的综合翻译质量最优,所述最优断句结果包括:至少一个句子,所述综合翻译质量为断句结果包含的所有句子对应翻译质量的综合;
输出所述处理文本对应的最优断句结果。
本发明实施例包括以下优点:
本发明实施例依据基于待处理文本包含的预置标点符号得到的分割点,获取所述待处理文本对应的最优断句结果;由于本发明实施例的上述最优断句结果的综合翻译质量最优,所述最优断句结果可以包括:至少一个句子,所述综合翻译质量可以为一种断句结果包含的所有句子对应翻译质量的综合;故本发明实施例的最优断句结果能够实现综合翻译质量的全局最优,因此本发明实施例的最优断句结果能够提高待处理文本对应的断句结果的翻译质量。
附图说明
图1是本发明实施例的一种处理***的示例性结构示意图;
图2是本发明的一种处理方法实施例流程图;
图3是本发明实施例的一种待处理文本的路径规划的示意图;
图4是本发明的一种处理装置实施例的结构框图;
图5是根据一示例性实施例示出的一种用于处理的装置作为终端时的框图;及
图6是根据一示例性实施例示出的一种用于处理的装置作为服务器时的框图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
本发明实施例提供了一种处理方案,该信息方案可以依据基于所述待处理文本包含的预置标点符号得到的分割点,获取所述待处理文本对应的最优断句结果;由于本发明实施例的上述最优断句结果的综合翻译质量最优,所述最优断句结果可以包括:至少一个句子,所述综合翻译质量可以为一种断句结果包含的所有句子对应翻译质量的综合;故本发明实施例的最优断句结果能够实现综合翻译质量的全局最优,此处的全局可用于表示待处理文本对应的最优断句结果对应的整体,因此本发明实施例的最优断句结果能够提高待处理文本对应的断句结果的翻译质量。
本发明实施例可以应用于在机器翻译、语音识别、信息服务等需要断句和机器翻译的任意场景,可以理解,本发明实施例对于具体的应用场景不加以限制。
例如,参照图1,示出了本发明实施例的一种处理***的示例性结构示意图,其具体可以包括:处理装置101、机器翻译装置102和翻译结果输出装置103。其中,处理装置101、机器翻译装置102和翻译结果输出装置103可以作为单独的服务器,也可以共同设置于同一个服务器中,也即,本发明实施例对于处理装置101、机器翻译装置102和翻译结果输出装置103的具***置不加以限制。
其中,处理装置101可以获取待处理文本;依据基于所述待处理文本包含的预置标点符号得到的分割点,对所述待处理文本进行断句处理,以得到所述待处理文本对应的最优断句结果;并向机器翻译装置102输出所述处理文本对应的最优断句结果。
可选地,处理装置101可以依据讲话用户的语音信号获取待处理文本。此种情况下,处理装置101可以将讲话用户的语音信号转换为文本信息,并从该文本信息中获取待处理文本。在实际应用中,讲话用户可以包括:同声翻译的场景中讲话并发出语音信号的用户、和/或、通过终端产生语音信号的用户等,可以通过麦克风或其他语音采集器件接收讲话用户的语音信号。
可选地,处理装置101可以采用语音识别技术将讲话用户的语音信号转换为文本信息。如果将用户讲话用户的语音信号记作S,对S进行一系列处理后得到与之相对应的语音特征序列O,记作O={O1,O2,…,Oi,…,OT},其中Oi是第i个语音特征,T为语音特征总个数。语音信号S对应的句子可看作是由许多词组成的一个词串,记作W={w1,w2,…,wn}。语音识别的过程就是根据已知的语音特征序列O,求出最可能的词串W。
具体来说,语音识别是一个模型匹配的过程,在这个过程中,可以首先根据人的语音特点建立语音模型,通过对输入的语音信号的分析,抽取所需的特征,来建立语音识别所需的模板;对用户所输入语音进行识别的过程即是将用户所输入语音的特征与所述模板比较的过程,最后确定与所述用户所输入语音匹配的最佳模板,从而获得语音识别的结果。具体的语音识别算法,可采用基于统计的隐含马尔可夫模型的训练和识别算法,也可采用基于神经网络的训练和识别算法、基于动态时间归整匹配的识别算法等等其他算法,本发明实施例对于具体的语音识别过程不加以限制。
或者,可选地,处理装置101可以依据用户输入的文本获取待处理文本。例如,用户在即时通讯、办公文档等场景下输入的文本,均可以作为待处理文本的来源。
在实际应用中,处理装置101可以根据实际应用需求,从语音信号对应的文本或者用户输入的文本中获取待处理文本。可选地,可以依据语音信号S的间隔时间,从语音信号S对应的文本中获取待处理文本;例如,在语音信号S的间隔时间大于时间阈值时,可以依据该时间点确定对应的第一分界点,将该第一分界点之前的语音信号S对应的文本作为待处理文本,并对该第一分界点之后的语音信号S对应的文本进行处理,以继续从中获取待处理文本。可选地,可以依据语音信号对应的文本或者用户输入的文本所包含的字数,从语音信号对应的文本或者用户输入的文本中获取待处理文本;例如,在语音信号对应的文本或者用户输入的文本包含的字数大于字数阈值时,可以依据该字数阈值确定对应的第二分界点,可以将该第二分界点之前的语音信号S对应的文本作为待处理文本,并对该第二分界点之后的语音信号S对应的文本进行处理,以继续从中获取待处理文本。
本发明实施例中,句子是由词或短语按照一定的语法规则构成的、表达相对完整的意思、有明显语气和句调的语法单位。可选地,句子可以包括:单句和/或复句。其中,单句是由短语或单个的词构成的句子,独立的表达一个相对完整的意思并且有一定的语气语调,如“同学们已经回到学校了”、“他非常健康”等。复句中相对独立的单句形式被称为分句,分句和分句之间一般有停顿,在书面上用逗号或者分号表示;分句和分句在意义上有一定的联系,常用一些关联词语(连词、有关联作用的副词或词组)来连接,如“中国要富强,这是十几亿中国人民的愿望”等。
可选地,处理装置101可以依据语音信号S的间隔时间及其语言模型,在讲话用户的语音信号对应的文本信息中***对应的预置标点符号。可选地,***的预置标点符号可用于标识句子内各分句之间的停顿,该预置标点符号可以包括但不限于:逗号、顿号、分号等。
处理装置101依据基于所述待处理文本包含的预置标点符号得到的分割点,获取所述待处理文本对应的最优断句结果;具体地,本发明实施例中,所述待处理文本包含的预置标点符号均有可能作为或不作为断句处理的分割点,也即,可以依据所述待处理文本包含的预置标点符号作为或者不作为断句处理的分割点的情形,对所述待处理文本进行断句处理,这样,一个待处理文本将对应有多种断句方案及其对应的断句结果,本发明实施例最终得到的是综合翻译质量最优的断句结果。
在本发明的一种应用示例中,假设待处理文本[A,B,C]包含的2个逗号标点均有可能或者不可能作为断句处理的分割点,且假设相应的断句结果可以包括:{(A,B,C)}、{(A),(B,C)}、{(A),(B),(C)}和{(A,B),(C)}等,则本发明实施例可以获取综合翻译质量最优的断句结果;其中,[]表示待处理文本,()表示断句得到的句子,{}表示断句结果。
机器翻译装置102,可以从处理装置101接收所述处理文本对应的最优断句结果,并将所述所述处理文本对应的最优断句结果翻译为目标语言的文字,其中,机器翻译装置102可以采用机器翻译技术进行最优断句结果的翻译,机器翻译技术可以利用计算机将一种自然语言(源语言)的目标分句转换为另一种自然语言(目标语言)的文字的过程,例如,源语言和目标语言可以分别为中文和英文,或者,源语言和目标语言可以分别为英文和中文等,本发明实施例对于具体的源语言、目标语言及具体的机器翻译技术不加以限制。可选地,上述机器翻译装置102的类型可以包括:统计类型和/或神经网络类型等,可以理解,本发明实施例对于机器翻译装置102的具体类型不加以限制。
翻译结果输出装置103可以从机器翻译装置102接收目标语言的文字,并对该目标语言的文字进行输出,相应的输出方式可以包括:语音方式和/或界面方式等。例如,在同声翻译的场景下,可以将所述目标语言的文字转换为目标语言的语音,并输出。可选地,可以利用文本到语音的转换技术(如语音合成技术),将所述目标语言的文字转换为目标语言的语音,并通过耳机、扬声器等语音播放器件将目标语言的语音输出。可以理解,本发明实施例对于将所述目标语言的文字转换为目标语言的语音并输出的具体过程不加以限制。又如,在信息服务(如翻译网站或者翻译APP)的场景下,可以直接将机器翻译装置102得到的目标语言的文字输出,例如,将目标语言的文字显示在例如屏幕的显示装置上,供用户查看。
可以理解,图1所示处理***只是作为可以示例,实际上,处理装置101可以向除了机器翻译装置102之外的其他装置输出处理文本对应的最优断句结果,本发明实施例对于具体的处理***不加以限制。
方法实施例
参照图2,示出了本发明的一种处理方法实施例流程图,具体可以包括如下步骤:
步骤201、获取待处理文本;
步骤202、依据基于所述待处理文本包含的预置标点符号得到的分割点,获取所述待处理文本对应的最优断句结果;其中,所述最优断句结果的综合翻译质量最优,所述最优断句结果可以包括:至少一个句子,所述综合翻译质量可以为断句结果包含的所有句子对应翻译质量的综合;
步骤203、输出所述处理文本对应的最优断句结果。
本发明实施例提供的处理方法可应用于终端或者服务器等计算设备的应用环境中。可选地,上述终端可以包括但不限于:智能手机、平板电脑、膝上型便携计算机、车载电脑、台式计算机、智能电视机、可穿戴设备等等。上述服务器可以为云服务器或者普通服务器,用于向客户端提供待处理文本的处理服务。
本发明实施例提供的处理方法可适用于中文、日文、韩文等语言的处理,用于提高待处理文本对应的断句结果的翻译质量。可以理解,任意的需要进行断句的语言均在本发明实施例的处理方法的适用范围内。
本发明实施例中,待处理文本可用于表示需要进行处理的文本,该待处理文本可以来源于用户通过计算设备输入的文本或者语音,也可以来自其他计算设备。需要说明的是,上述待处理文本中可以包括:一种语言、或者一种以上的语言,例如,上述待处理文本中可以包括中文,也可以包括中文与例如英文的其他语言的混合,本发明实施例对具体的待处理文本不加以限制。
在实际应用中,本发明实施例的计算设备可以通过客户端APP(应用,Application)执行本发明实施例的处理方法流程,客户端应用可以运行在计算设备上,例如,该客户端应用可以为终端上运行的任意APP,则该客户端应用可以从计算设备的其他应用获取待处理文本。或者,本发明实施例的计算设备可以通过客户端应用的功能装置执行本发明实施例的处理方法流程,则该功能装置可以从其他功能装置获取待处理文本。或者,本发明实施例的计算设备可以作为服务器执行本发明实施例的处理方法。
在本发明的一种可选实施例中,本发明实施例的方法还可以包括:将步骤201所获取的至少一个待处理文本写入缓存区;则步骤202可以首先从所述缓存区读取待处理文本,并依据基于所读取的待处理文本包含的预置标点符号得到的分割点,获取所述待处理文本对应的最优断句结果。可选地,可以在计算设备的内存区建立例如队列、数组、或者链表的数据结构作为上述缓存区,本发明实施例对于具体的缓存区不加以限制。上述采用缓存区存储待处理文本的方式能够提高待处理文本的处理效率,可以理解,采用磁盘存储待处理文本的方式也是可行的,本发明实施例对于待处理文本的具体存储方式不加以限制。
本发明实施例中,所述待处理文本包含的预置标点符号均有可能作为或不作为断句处理的分割点,也即,可以依据所述待处理文本包含的预置标点符号作为或者不作为断句处理的分割点的情形,对所述待处理文本进行断句处理,这样,一个待处理文本将对应有多种断句方案及其对应的断句结果,本发明实施例最终得到的是综合翻译质量最优的断句结果。
本发明实施例可以提供依据基于所述待处理文本包含的预置标点符号得到的分割点,获取所述待处理文本对应的最优断句结果的如下最优结果获取方案:
最优结果获取方案1、
最优结果获取方案1可以包括:依据基于所述待处理文本包含的预置标点符号得到的分割点,对所述待处理文本进行断句处理,以得到所述待处理文本对应的多种断句结果;确定所述断句结果对应的综合翻译质量;并从所述待处理文本对应的多种断句结果中选择综合翻译质量最优的断句结果,作为所述待处理文本对应的最优断句结果。
在实际应用中,可以采用路径规划算法,依据基于所述待处理文本包含的预置标点符号得到的分割点,对所述待处理文本进行断句处理,以得到所述待处理文本对应的多种路径及每种路径对应的断句结果。上述路径规划算法的原理可以为,在具有障碍物的环境中,按照一定的评价标准,寻找一条从起始状态到目标状态的无碰撞路径,具体到本发明实施例,障碍物可用于表示待处理文本对应的分割点,起始状态和目标状态分别表示待处理文本的首分句和末尾分句。
参照图3,示出了本发明实施例的一种待处理文本的路径规划的示意图,其中,待处理文本为[A,B,C],假设待处理文本[A,B,C]包含的2个逗号标点均有可能或者不可能作为断句处理的分割点,图3中,分句A、B、C分别用矩形表示,逗号标点分别用圆形表示,在逗号标点被用作分割点时、对应的圆形***设置有六边形,则[A,B,C]的断句结果可以包括:0分割点对应的{(A,B,C)}、第1个逗号标点作为分割点对应的{(A),(B,C)}、第1个逗号标点和第2个逗号标点作为分割点对应的{(A),(B),(C)}和第2个逗号标点作为分割点对应的{(A,B),(C)}等。
可以理解,路径规划算法只是作为本发明实施例的可选实施例,实际上本领域技术人员可以根据实际应用需求,采用其他算法得到所述待处理文本对应的多种断句结果,可以理解,本发明实施例对于所述待处理文本对应的多种断句结果的具体获取算法不加以限制。
在本发明的一种可选实施例中,所述确定所述断句结果对应的综合翻译质量可以包括:针对各断句结果包含的句子,确定对应的翻译质量得分;对各断句结果包含的所有句子对应的翻译质量得分进行融合,以得到对应的综合翻译质量得分;则可以从所有断句结果中获取综合翻译质量得分最高的断句结果,作为所述待处理文本对应的最优断句结果。
可选地,上述针对各断句结果包含的句子,确定对应的翻译质量得分的过程可以包括:可采用机器翻译评价方法确定句子对应的翻译质量得分。其中,上述机器翻译评价方法可以包括:自动评价方法和/或人工评价方法;上述自动评价方法可以预先获取评测集合(包括源语言输入句子和参考译文),则可以依据句子对应的机器翻译结果与参考译文重叠的N-gram(N元文法,如“热爱家园”是一个二元文法,“喜欢吃苹果”是一个三元文法),计算句子对应的翻译质量得分。可以理解,任意的机器翻译评价方法均是可行的,本发明实施例对于针对各断句结果包含的句子,确定对应的翻译质量得分的具体过程不加以限制。
可选地,上述对各断句结果包含的所有句子对应的翻译质量得分进行融合的过程可以包括:对各断句结果包含的所有句子对应的翻译质量得分进行求和、或者乘积、或者加权平均处理等,可以理解,本发明实施例对于对各断句结果包含的所有句子对应的翻译质量得分进行融合的具体过程不加以限制。
最优结果获取方案2、
最优结果获取方案2可以包括:利用动态规划算法,依据基于所述待处理文本包含的预置标点符号得到的分割点,获取所述待处理文本对应的最优断句结果。
上述动态规划算法的原理可以为,通过拆分问题,定义问题状态和状态之间的关系,使得问题能够以递推(或者说分治)的方式去解决。具体到本发明实施例,问题可以为待处理文本对应的断句结果对应的综合翻译质量最优,状态可以为待处理文本对应的分句序列集合的各子集对应的断句结果对应的综合翻译质量最优。相对于最优结果获取方案1穷举所述待处理文本对应的多种断句结果并确定多种断句结果的综合翻译质量,最优结果获取方案2采用的动态规划算法能够降低运算量,且随着所述待处理文本包含的预置标点符号的数量的增加,运算量的降低幅度将越来越大。
可选地,上述利用动态规划算法,依据基于所述待处理文本包含的预置标点符号得到的分割点,获取所述待处理文本对应的最优断句结果,具体可以包括:依据所述待处理文本包含的预置标点符号,确定所述待处理文本对应的分句序列集合;按照所述分句序列集合的子集从小到大的顺序,通过递推方式确定各子集对应最优子集断句结果的回溯分割点;依据所述分句序列集合的各子集对应最优子集断句结果的回溯分割点,得到所述待处理文本对应的最优断句结果。
其中,上述分句序列集合可用于表示所述待处理文本所包含的连续分句组成的序列的集合,可选地,上述分句序列集合所包括的分句序列可由目标词汇的前i个连续分句组成,例如,待处理文本[C1C2…CM]对应的分句序列集合可以包括:{C1,C1C2,C1C2C3,…,C1C2…CM},该分句序列集合所包含的子集按照序列长度(也即序列包含分句的数量)从小到大的顺序可以表示为:{C1}、{C1C2}、{C1C2C3}…{C1C2…CM},其中,上述子集对应分句序列中相邻分句之间可以通过预置标点符号连接;可选地,本发明实施例的子集可以包含一个分句序列,其中,Ci用于表示待处理文本包含的第i个分句,i为大于等于0的正整数,M表示所述待处理文本的分句数量,M为正整数。
对于分句序列集合的各子集而言,其对应的子集断句结果也对应有综合翻译质量,故本发明实施例可以确定各子集对应最优子集断句结果的回溯分割点;所述最优子集断句结果的回溯分割点可用于表示子集对应最优子集断句结果最优时、在哪个预置标点符号处被分割或者断句。假设子集{C1C2C3}对应最优子集断句结果为{(C1),(C2C3)},则说明子集{C1C2C3}是在“C1”处被分割或者断句,相应的回溯分割点可以表示为“C1”的编号1,可以理解,本发明实施例对于回溯分割点的具体表示方式不加以限制。
本发明实施例可以按照所述分句序列集合的子集从小到大的顺序,通过递推方式确定各子集对应最优子集断句结果的回溯分割点,假设按照所述分句序列集合的子集从小到大的顺序将各子集表示为:G1、G2、G3…Gu,其中,u为正整数,则可以依次获取G1、G2、G3…Gu对应最优子集断句结果的回溯分割点;并且,对于Go(1≤o≤u)而言,需要Go之前的子集(如Go-1、Go-2等)的最优子集断句结果,确定Go对应最优子集断句结果的回溯分割点。
在本发明的一种可选实施例中,所述分句序列集合的子集可以包括:所述待处理文本的前i个分句,前i个分句对应的最优子集综合翻译质量得分表示为F(i),0≤i≤所述待处理文本的分句数量M,则所述按照所述分句序列集合的子集从小到大的顺序,通过递推方式确定各子集对应最优子集断句结果的回溯分割点,具体可以包括:
利用分割点k对所述前i个分句进行断句,以得到所述前i个分句和所述分割点k对应的第一语义单元的最优子集综合翻译质量得分F(k)、以及第二语义单元的翻译质量得分;其中,所述第一语义单元可以包括:所述前i个分句包括的位于分割点k之前的分句,所述第二语义单元可以包括:所述前i个分句包括的位于分割点k之后的分句,0≤k<i;
对F(k)以及所述第二语义单元的翻译质量得分进行综合,以得到所述前i个分句和分割点k对应的综合翻译质量得分;
依据所述前i个分句和分割点k对应的综合翻译质量得分,从所述前i个分句对应的至少一个分割点k中获取最优综合翻译质量得分对应的目标分割点k’;在实际应用中,分割点k的数量可以为一个或者多个,目标分割点k’的数量可以为一个或者多个,但目标分割点k’对应的集合可以小于等于分割点k对应的集合。假设分割点k对应的集合为{0,1,2,3…k},则目标分割点k’对应的集合可以为{0,1,2,3…k}的子集,例如,目标分割点k’对应的集合可以为{0,1}等。
将所述目标分割点k’作为所述前i个分句对应最优子集断句结果的回溯分割点,以及,将所述目标分割点k’对应的综合翻译质量得分作为所述前i个分句对应的最优子集综合翻译质量得分F(i)。
本发明实施例中,语义单元可用于表示表达一个意思的单元,本发明实施例中可通过第一语义单元和第二语义单元表示利用分割点k对所述前i个分句进行断句得到的两个语义单元。在实际应用中,利用分割点k对所述前i个分句进行断句,将得到前i个分句包括的位于分割点k之前的第一语义单元、以及前i个分句包括的位于分割点k之后的第二语义单元。可以理解,本发明实施例对于第一语义单元和第二语义单元所包含分句的数量不加以限制,例如,第一语义单元和第二语义单元可分别包含一个或者多个分句。
F(k)可用于表示前k个分句对应的最优综合翻译质量得分。在实际应用中,可以针对F(k),预置对应的初始值,例如,k=0对应的F[0]的初始值=0,k大于0对应的F[i]的初始值=-INF(负无穷大)等,可以理解,本发明实施例对于F(k)对应的初始值不加以限制。可以看出,F(0)的值可通过预置得到;k大于0时,对应F(k)的初始值可通过预置得到,对应F(k)的最终值可通过迭代得到,例如,可通过下面的公式(1)求得k大于0对应F(k)的最终值。
假设第一语义单元对应的最优子集综合翻译质量得分为F(k),第二语义单元的翻译质量得分为NMT_score(k,i),则对F(k)以及所述第二语义单元的翻译质量得分进行综合的过程可以包括:对F(k)和NMT_score(k,i)进行求和、或者乘积、或者加权平均处理等,可以理解,本发明实施例对于对F(k)以及所述第二语义单元的翻译质量得分进行综合的具体过程不加以限制。
在实际应用中,对于前i个分句而言,对应的分割点k可以位于前i个分句对应的任意位置,这样,前i个分句对应的分割点例如子集{C1C2C3}对应分割点k的编号可以为0、1、2、3等。相应地,可以依据所述前i个分句和分割点k对应的综合翻译质量得分F(i,k),从所述前i个分句对应的至少一个分割点k中获取最优综合翻译质量得分对应的目标分割点。
本发明实施例中,可通过综合翻译质量得分的大小来衡量最优综合翻译质量得分,假设F(i,k)=F[k]+NMT_score(k,i),则所述前i个分句对应的最优综合翻译质量得分、该最优综合翻译质量得分对应的目标分割点可以表示为:
F[i]=max(F[k]+NMT_score(k,i)) (1)
index[i]=argmax(F[k]+NMT_score(k,i)) (2)
index[i]可用于表示最大的(F[k]+NMT_score(k,i))对应的k值。在实际应用中,可以按照i从小到大的顺序,依次递推求解前i个分句对应的最优子集综合翻译质量得分F(i)及对应的回溯分割点。
可选地,本发明实施例的方法还可以包括:对所述分句序列集合的各子集对应最优子集断句结果的回溯分割点进行记录;或者,对所述分句序列集合的各子集的信息、及其对应最优子集断句结果的回溯分割点之间的映射关系进行记录,以得到对应的记录内容。其中,上述分句序列集合的子集的信息可以包括:子集对应的末尾分句的编号信息,和/或,子集对应的编号信息等。例如,对于前i个分句,其对应的编号信息可以为i,其对应末尾分句也即第i个分句的信息等。可以理解,本发明实施例对于子集的具体信息不加以限制。
在本发明的一种可选实施例中,上述依据所述分句序列集合的各子集对应最优子集断句结果的回溯分割点,得到所述待处理文本对应的最优断句结果,具体可以包括:
对所述分句序列集合的各子集对应最优子集断句结果的回溯分割点进行回溯,以得到所述分句序列集合的最大子集对应最优子集断句结果的回溯分割点;
依据所述分句序列集合的最大子集对应最优子集断句结果的回溯分割点,对所述待处理文本进行断句,以得到所述待处理文本对应的最优断句结果。
可选地,上述对所述分句序列集合的各子集对应最优子集断句结果的回溯分割点进行回溯,具体可以包括:
获取前i个分句对应的第一回溯分割点P1;
获取所述待处理文本包括的位于所述第一回溯分割点P1之前的分句对应的第二回溯分割点P2。
在实际应用中,可以按照i从大到小的顺序进行回溯分割点的回溯,以前M个分句对应的回溯分割点的获取过程为例,可以首先确定前M个分句对应的第一回溯分割点P1,例如,可以从前述的记录内容中查询前M个分句对应的第一回溯分割点P1;其中,第一回溯分割点P1能够得到前M个分句对应的最优子集断句结果;然后,从前述的记录内容中获取前P1个分句对应的第二回溯分割点P2,例如,可以从前述的记录内容中查询前P1个分句对应的第二回溯分割点P2;其中,第二回溯分割点P2能够得到前P1个分句对应的最优子集断句结果,若P1或者P2等于0,则可以结束回溯,否则,若P1或者P2不等于0,则可以继续回溯。
为使本领域技术人员更好地理解本发明实施例的切分处理过程,在此通过一种示例说明本发明实施例的处理过程,该示例涉及对待处理文本[A,B,C]进行处理,相应的处理过程具体可以包括如下步骤:
步骤S1、获取待处理文本[A,B,C]对应的分句序列集合{[A,B],[A,B],[A,B,C]};
假设S(i,j)表示从第u个逗号到第v个预置标点符号之间的分句序列,则S(0,1)=A,S(1,2)=B,S(2,3)=C,S(0,2)=A,B,S(1,3)=B,C,S(0,3)=A,B,C。
进一步假设S(i,j)对应句子的翻译质量得分分别为:
NMT_score(0,1)=-10
NMT_score(1,2)=-15
NMT_score(2,3)=-20
NMT_score(0,2)=-2
NMT_score(1,3)=-5
NMT_score(0,3)=-30
步骤S2、采用F(i)表示前i个分句对应的最优子集综合翻译质量得分,F[0]的初始值=0,i大于0对应的F[i]的初始值=-INF(负无穷大);
步骤S3、当i=0时,前0个连续分句对应的最优子集综合翻译质量得分F(0)=0;
步骤S4、当i=1时,对应的分割点k=0,则
F[1]=max(F[0]+NMT_score(0,1))=-10
index[1]=0;
步骤S5、当i=2时,对应的分割点k=0,1,则
F[2]=max(F[0]+NMT_score(0,2),F[1]+NMT_score(1,2))=F[0]+NMT_score(0,2)=-2
index[2]=0;
步骤S6、当i=3时,对应的分割点k=0,1,2,则
F[3]=max(F[0]+NMT_score(0,3),F[1]+NMT_score(1,3),F[2]+NMT_score(2,3))=F[1]+NMT_score(1,3)=-15
index[3]=1;
步骤S7、对F(3)对应的回溯分割点进行回溯;
其中,可以首先获得F(3)对应的回溯分割点P1=1,然后获得F(1)对应的回溯分割点P2=0,也即,待处理文本[A,B,C]可被断句为2个句子,对应的回溯分割点分别为:P=0、以及P=1,也即,切分得到的2个句子分别位于第0个分句、以及第1个分句之后,故可以得到对应的最优断句结果“A”和“B,C”。
可以理解,上述待处理文本[A,B,C]只是作为可选实施例,可以理解,本领域技术人员可以根据实际应用需求,对任意的待处理文本进行处理,以得到对应的最优断句结果。例如,对于待处理文本[A,B,C、D,E,F]“桑德斯表示,特朗普在大选期间曾承诺,他在就任后将不会取消社会保障制度、老年人医疗保险制度以及医疗补助计划,但是,现在他任命的这些人都恰恰是提倡取消上述制度的那群人”对应的断句结果可以包括:“A,B,C、D”和“E,F”。
综上,本发明实施例的处理方法,依据基于待处理文本包含的预置标点符号得到的分割点,获取所述待处理文本对应的最优断句结果;由于本发明实施例的上述最优断句结果的综合翻译质量最优,所述最优断句结果可以包括:至少一个句子,所述综合翻译质量可以为一种断句结果包含的所有句子对应翻译质量的综合;故本发明实施例的最优断句结果能够实现综合翻译质量的全局最优,因此本发明实施例的最优断句结果能够提高待处理文本对应的断句结果的翻译质量。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的运动动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的运动动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的运动动作并不一定是本发明实施例所必须的。
装置实施例
参照图4,示出了本发明的一种处理装置实施例的结构框图,具体可以包括:
待处理文本获取模块401,用于获取待处理文本;
最优断句结果获取模块402,用于依据基于所述待处理文本包含的预置标点符号得到的分割点,获取所述待处理文本对应的最优断句结果;其中,所述最优断句结果的综合翻译质量最优,所述最优断句结果可以包括:至少一个句子,所述综合翻译质量为最优断句结果包含的所有句子对应翻译质量的综合;以及
最优断句结果输出模块403,用于输出所述处理文本对应的最优断句结果。
可选地,所述最优断句结果获取模块402可以包括:
动态规划获取子模块,用于利用动态规划算法,依据基于所述待处理文本包含的预置标点符号得到的分割点,获取所述待处理文本对应的最优断句结果。
可选地,所述动态规划获取子模块可以包括:
分句序列集合确定单元,用于依据所述待处理文本包含的预置标点符号,确定所述待处理文本对应的分句序列集合;
递推单元,用于按照所述分句序列集合的子集从小到大的顺序,通过递推方式确定各子集对应最优子集断句结果的回溯分割点;以及
最优断句结果获取单元,用于依据所述分句序列集合的各子集对应最优子集断句结果的回溯分割点,得到所述待处理文本对应的最优断句结果。
可选地,所述分句序列集合的子集可以包括:所述待处理文本的前i个分句,前i个分句对应的最优子集综合翻译质量得分表示为F(i),0≤i≤所述待处理文本的分句数量M,则所述递推单元可以包括:
子集断句子单元,用于利用分割点k对所述前i个分句进行断句,以得到所述前i个分句和所述分割点k对应的第一语义单元的最优子集综合翻译质量得分F(k)、以及第二语义单元的翻译质量得分;其中,所述第一语义单元可以包括:所述前i个分句可以包括的位于分割点k之前的分句,所述第二语义单元可以包括:所述前i个分句可以包括的位于分割点k之后的分句,0≤k<i;
质量综合子单元,用于对F(k)以及所述第二语义单元的翻译质量得分进行综合,以得到所述前i个分句和分割点k对应的综合翻译质量得分;
目标分割点获取子单元,用于依据所述前i个分句和分割点k对应的综合翻译质量得分,从所述前i个分句对应的至少一个分割点k中获取最优综合翻译质量得分对应的目标分割点;
回溯分割点获取子单元,用于将所述目标分割点作为所述前i个分句对应最优子集断句结果的回溯分割点,以及,将所述目标分割点对应的综合翻译质量得分作为所述前i个分句对应的最优子集综合翻译质量得分F(i)。
可选地,所述最优断句结果获取单元可以包括:
回溯子单元,用于对所述分句序列集合的各子集对应最优子集断句结果的回溯分割点进行回溯,以得到所述分句序列集合的最大子集对应最优子集断句结果的回溯分割点;
回溯断句子单元,用于依据所述分句序列集合的最大子集对应最优子集断句结果的回溯分割点,对所述待处理文本进行断句,以得到所述待处理文本对应的最优断句结果。
可选地,所述回溯子单元可以包括:
第一回溯单元,用于获取前i个分句对应的第一回溯分割点P1;
第二回溯单元,用于获取所述待处理文本可以包括的位于所述第一回溯分割点P1之前的分句对应的第二回溯分割点P2。
可选地,所述最优断句结果获取模块402可以包括:
穷举子模块,用于依据基于所述待处理文本包含的预置标点符号得到的分割点,对所述待处理文本进行断句处理,以得到所述待处理文本对应的多种断句结果;
综合质量确定子模块,用于确定所述断句结果对应的综合翻译质量;
结果选择子模块,用于从所述待处理文本对应的多种断句结果中选择综合翻译质量最优的断句结果,作为所述待处理文本对应的最优断句结果。
可选地,所述预置标点符号可以包括:逗号和/或分号和/或分号。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图5是根据一示例性实施例示出的一种用于处理的装置作为终端时的框图。例如,该终端900可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图5,终端900可以包括以下一个或多个组件:处理组件902,存储器904,电源组件906,多媒体组件908,音频组件910,输入/输出(I/O)的接口912,传感器组件914,以及通信组件916。
处理组件902通常控制终端900的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理元件902可以包括一个或多个处理器920来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件902可以包括一个或多个模块,便于处理组件902和其他组件之间的交互。例如,处理组件902可以包括多媒体模块,以方便多媒体组件908和处理组件902之间的交互。
存储器904被配置为存储各种类型的数据以支持在终端900的操作。这些数据的示例包括用于在终端900上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器904可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件906为终端900的各种组件提供电力。电源组件906可以包括电源管理***,一个或多个电源,及其他与为终端900生成、管理和分配电力相关联的组件。
多媒体组件908包括在所述终端900和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动运动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件908包括一个前置摄像头和/或后置摄像头。当终端900处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。
音频组件910被配置为输出和/或输入音频信号。例如,音频组件910包括一个麦克风(MIC),当终端900处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器904或经由通信组件916发送。在一些实施例中,音频组件910还包括一个扬声器,用于输出音频信号。
I/O接口912为处理组件902和***接口模块之间提供接口,上述***接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件914包括一个或多个传感器,用于为终端900提供各个方面的状态评估。例如,传感器组件914可以检测到终端900的打开/关闭状态,组件的相对定位,例如所述组件为终端900的显示器和小键盘,传感器组件914还可以检测终端900或终端900一个组件的位置改变,用户与终端900接触的存在或不存在,终端900方位或加速/减速和终端900的温度变化。传感器组件914可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件914还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件914还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件916被配置为便于终端900和其他设备之间有线或无线方式的通信。终端900可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信部件916经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中,所述通信部件916还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,终端900可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器904,上述指令可由终端900的处理器920执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
图6是根据一示例性实施例示出的一种用于处理的装置作为服务器时的框图。该服务器1900可因配置或性能不同而产生比较大的差异,可以包括一个或一个以***处理器(central processing units,CPU)1922(例如,一个或一个以上处理器)和存储器1932,一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储设备)。其中,存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1922可以设置为与存储介质1930通信,在服务器1900上执行存储介质1930中的一系列指令操作。
服务器1900还可以包括一个或一个以上电源1926,一个或一个以上有线或无线网络接口1950,一个或一个以上输入输出接口1958,一个或一个以上键盘1956,和/或,一个或一个以上操作***1941,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器1932,上述指令可由服务器1900的处理器1922执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由服务器的处理器执行时,使得装置(服务器或终端)能够执行一种处理方法,所述方法包括:获取待处理文本;依据基于所述待处理文本包含的预置标点符号得到的分割点,获取所述待处理文本对应的最优断句结果;其中,所述最优断句结果的综合翻译质量最优,所述最优断句结果包括:至少一个句子,所述综合翻译质量为所述最优断句结果包含的所有句子对应翻译质量的综合;输出所述处理文本对应的最优断句结果。
可选地,所述依据基于所述待处理文本包含的预置标点符号得到的分割点,获取所述待处理文本对应的最优断句结果,包括:利用动态规划算法,依据基于所述待处理文本包含的预置标点符号得到的分割点,获取所述待处理文本对应的最优断句结果。
可选地,所述利用动态规划算法,依据基于所述待处理文本包含的预置标点符号得到的分割点,获取所述待处理文本对应的最优断句结果,包括:
依据所述待处理文本包含的预置标点符号,确定所述待处理文本对应的分句序列集合;
按照所述分句序列集合的子集从小到大的顺序,通过递推方式确定各子集对应最优子集断句结果的回溯分割点;所述最优子集断句结果对应的综合翻译质量最优;
依据所述分句序列集合的各子集对应最优子集断句结果的回溯分割点,得到所述待处理文本对应的最优断句结果。
可选地,所述分句序列集合的子集包括:所述待处理文本的前i个分句,前i个分句对应的最优子集综合翻译质量得分表示为F(i),0≤i≤所述待处理文本的分句数量M,则所述按照所述分句序列集合的子集从小到大的顺序,通过递推方式确定各子集对应最优子集断句结果的回溯分割点,包括:
利用分割点k对所述前i个分句进行断句,以得到所述前i个分句和所述分割点k对应的第一语义单元的最优子集综合翻译质量得分F(k)、以及第二语义单元的翻译质量得分;其中,所述第一语义单元包括:所述前i个分句包括的位于分割点k之前的分句,所述第二语义单元包括:所述前i个分句包括的位于分割点k之后的分句,0≤k<i;
对F(k)以及所述第二语义单元的翻译质量得分进行综合,以得到所述前i个分句和分割点k对应的综合翻译质量得分;
依据所述前i个分句和分割点k对应的综合翻译质量得分,从所述前i个分句对应的至少一个分割点k中获取最优综合翻译质量得分对应的目标分割点;
将所述目标分割点作为所述前i个分句对应最优子集断句结果的回溯分割点,以及,将所述目标分割点对应的综合翻译质量得分作为所述前i个分句对应的最优子集综合翻译质量得分F(i)。
可选地,所述依据所述分句序列集合的各子集对应最优子集断句结果的回溯分割点,得到所述待处理文本对应的最优断句结果,包括:对所述分句序列集合的各子集对应最优子集断句结果的回溯分割点进行回溯,以得到所述分句序列集合的最大子集对应最优子集断句结果的回溯分割点;依据所述分句序列集合的最大子集对应最优子集断句结果的回溯分割点,对所述待处理文本进行断句,以得到所述待处理文本对应的最优断句结果。
可选地,所述对所述分句序列集合的各子集对应最优子集断句结果的回溯分割点进行回溯,包括:获取前i个分句对应的第一回溯分割点P1;获取所述待处理文本包括的位于所述第一回溯分割点P1之前的分句对应的第二回溯分割点P2。
可选地,所述依据基于所述待处理文本包含的预置标点符号得到的分割点,获取所述待处理文本对应的最优断句结果,包括:依据基于所述待处理文本包含的预置标点符号得到的分割点,对所述待处理文本进行断句处理,以得到所述待处理文本对应的多种断句结果;确定所述断句结果对应的综合翻译质量;从所述待处理文本对应的多种断句结果中选择综合翻译质量最优的断句结果,作为所述待处理文本对应的最优断句结果。
可选地,所述预置标点符号包括:逗号和/或分号和/或分号。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
以上对本发明所提供的一种处理方法、一种处理装置、以及一种用于处理的装置,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种处理方法,其特征在于,包括:
获取待处理文本;
依据基于所述待处理文本包含的预置标点符号得到的分割点,获取所述待处理文本对应的最优断句结果;其中,所述最优断句结果的综合翻译质量最优,所述最优断句结果包括:至少一个句子,所述综合翻译质量为断句结果包含的所有句子对应翻译质量的综合;
输出所述处理文本对应的最优断句结果。
2.根据权利要求1所述的方法,其特征在于,所述依据基于所述待处理文本包含的预置标点符号得到的分割点,获取所述待处理文本对应的最优断句结果,包括:
利用动态规划算法,依据基于所述待处理文本包含的预置标点符号得到的分割点,获取所述待处理文本对应的最优断句结果。
3.根据权利要求2所述的方法,其特征在于,所述利用动态规划算法,依据基于所述待处理文本包含的预置标点符号得到的分割点,获取所述待处理文本对应的最优断句结果,包括:
依据所述待处理文本包含的预置标点符号,确定所述待处理文本对应的分句序列集合;
按照所述分句序列集合的子集从小到大的顺序,通过递推方式确定各子集对应最优子集断句结果的回溯分割点;所述最优子集断句结果对应的综合翻译质量最优;
依据所述分句序列集合的各子集对应最优子集断句结果的回溯分割点,得到所述待处理文本对应的最优断句结果。
4.根据权利要求3所述的方法,其特征在于,所述分句序列集合的子集包括:所述待处理文本的前i个分句,前i个分句对应的最优子集综合翻译质量得分表示为F(i),0≤i≤所述待处理文本的分句数量M,则所述按照所述分句序列集合的子集从小到大的顺序,通过递推方式确定各子集对应最优子集断句结果的回溯分割点,包括:
利用分割点k对所述前i个分句进行断句,以得到所述前i个分句和所述分割点k对应的第一语义单元的最优子集综合翻译质量得分F(k)、以及第二语义单元的翻译质量得分;其中,所述第一语义单元包括:所述前i个分句包括的位于分割点k之前的分句,所述第二语义单元包括:所述前i个分句包括的位于分割点k之后的分句,0≤k<i;
对F(k)以及所述第二语义单元的翻译质量得分进行综合,以得到所述前i个分句和分割点k对应的综合翻译质量得分;
依据所述前i个分句和分割点k对应的综合翻译质量得分,从所述前i个分句对应的至少一个分割点k中获取最优综合翻译质量得分对应的目标分割点;
将所述目标分割点作为所述前i个分句对应最优子集断句结果的回溯分割点,以及,将所述目标分割点对应的综合翻译质量得分作为所述前i个分句对应的最优子集综合翻译质量得分F(i)。
5.根据权利要求3或4所述的方法,其特征在于,所述依据所述分句序列集合的各子集对应最优子集断句结果的回溯分割点,得到所述待处理文本对应的最优断句结果,包括:
对所述分句序列集合的各子集对应最优子集断句结果的回溯分割点进行回溯,以得到所述分句序列集合的最大子集对应最优子集断句结果的回溯分割点;
依据所述分句序列集合的最大子集对应最优子集断句结果的回溯分割点,对所述待处理文本进行断句,以得到所述待处理文本对应的最优断句结果。
6.根据权利要求5所述的方法,其特征在于,所述对所述分句序列集合的各子集对应最优子集断句结果的回溯分割点进行回溯,包括:
获取前i个分句对应的第一回溯分割点P1;
获取所述待处理文本包括的位于所述第一回溯分割点P1之前的分句对应的第二回溯分割点P2。
7.根据权利要求1所述的方法,其特征在于,所述依据基于所述待处理文本包含的预置标点符号得到的分割点,获取所述待处理文本对应的最优断句结果,包括:
依据基于所述待处理文本包含的预置标点符号得到的分割点,对所述待处理文本进行断句处理,以得到所述待处理文本对应的多种断句结果;
确定所述断句结果对应的综合翻译质量;
从所述待处理文本对应的多种断句结果中选择综合翻译质量最优的断句结果,作为所述待处理文本对应的最优断句结果。
8.根据权利要求1或2或3或4或7所述的方法,其特征在于,所述预置标点符号包括:逗号和/或分号和/或分号。
9.一种处理装置,其特征在于,包括:
待处理文本获取模块,用于获取待处理文本;
最优断句结果获取模块,用于依据基于所述待处理文本包含的预置标点符号得到的分割点,获取所述待处理文本对应的最优断句结果;其中,所述最优断句结果的综合翻译质量最优,所述最优断句结果包括:至少一个句子,所述综合翻译质量为断句结果包含的所有句子对应翻译质量的综合;以及
最优断句结果输出模块,用于输出所述处理文本对应的最优断句结果。
10.一种用于处理的装置,其特征在于,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
获取待处理文本;
依据基于所述待处理文本包含的预置标点符号得到的分割点,获取所述待处理文本对应的最优断句结果;其中,所述最优断句结果的综合翻译质量最优,所述最优断句结果包括:至少一个句子,所述综合翻译质量为断句结果包含的所有句子对应翻译质量的综合;
输出所述处理文本对应的最优断句结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710157267.5A CN108628819B (zh) | 2017-03-16 | 2017-03-16 | 处理方法和装置、用于处理的装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710157267.5A CN108628819B (zh) | 2017-03-16 | 2017-03-16 | 处理方法和装置、用于处理的装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108628819A true CN108628819A (zh) | 2018-10-09 |
CN108628819B CN108628819B (zh) | 2022-09-20 |
Family
ID=63687489
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710157267.5A Active CN108628819B (zh) | 2017-03-16 | 2017-03-16 | 处理方法和装置、用于处理的装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108628819B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109408833A (zh) * | 2018-10-30 | 2019-03-01 | 科大讯飞股份有限公司 | 一种翻译方法、装置、设备及可读存储介质 |
CN109920406A (zh) * | 2019-03-28 | 2019-06-21 | 国家计算机网络与信息安全管理中心 | 一种基于可变起始位置的动态语音识别方法及*** |
CN110321532A (zh) * | 2019-06-06 | 2019-10-11 | 数译(成都)信息技术有限公司 | 语言预处理断句方法、计算机设备及计算机可读存储介质 |
CN111046649A (zh) * | 2019-11-22 | 2020-04-21 | 北京捷通华声科技股份有限公司 | 一种文本分割方法和装置 |
CN114420102A (zh) * | 2022-01-04 | 2022-04-29 | 广州小鹏汽车科技有限公司 | 语音断句方法、装置、电子设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090150139A1 (en) * | 2007-12-10 | 2009-06-11 | Kabushiki Kaisha Toshiba | Method and apparatus for translating a speech |
CN104915264A (zh) * | 2015-05-29 | 2015-09-16 | 北京搜狗科技发展有限公司 | 一种输入纠错方法和装置 |
CN105912522A (zh) * | 2016-03-31 | 2016-08-31 | 长安大学 | 基于成分分析的英语语料自动提取方法和提取器 |
CN106484681A (zh) * | 2015-08-25 | 2017-03-08 | 阿里巴巴集团控股有限公司 | 一种生成候选译文的方法、装置及电子设备 |
-
2017
- 2017-03-16 CN CN201710157267.5A patent/CN108628819B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090150139A1 (en) * | 2007-12-10 | 2009-06-11 | Kabushiki Kaisha Toshiba | Method and apparatus for translating a speech |
CN104915264A (zh) * | 2015-05-29 | 2015-09-16 | 北京搜狗科技发展有限公司 | 一种输入纠错方法和装置 |
CN106484681A (zh) * | 2015-08-25 | 2017-03-08 | 阿里巴巴集团控股有限公司 | 一种生成候选译文的方法、装置及电子设备 |
CN105912522A (zh) * | 2016-03-31 | 2016-08-31 | 长安大学 | 基于成分分析的英语语料自动提取方法和提取器 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109408833A (zh) * | 2018-10-30 | 2019-03-01 | 科大讯飞股份有限公司 | 一种翻译方法、装置、设备及可读存储介质 |
WO2020087655A1 (zh) * | 2018-10-30 | 2020-05-07 | 科大讯飞股份有限公司 | 一种翻译方法、装置、设备及可读存储介质 |
CN109920406A (zh) * | 2019-03-28 | 2019-06-21 | 国家计算机网络与信息安全管理中心 | 一种基于可变起始位置的动态语音识别方法及*** |
CN109920406B (zh) * | 2019-03-28 | 2021-12-03 | 国家计算机网络与信息安全管理中心 | 一种基于可变起始位置的动态语音识别方法及*** |
CN110321532A (zh) * | 2019-06-06 | 2019-10-11 | 数译(成都)信息技术有限公司 | 语言预处理断句方法、计算机设备及计算机可读存储介质 |
CN111046649A (zh) * | 2019-11-22 | 2020-04-21 | 北京捷通华声科技股份有限公司 | 一种文本分割方法和装置 |
CN114420102A (zh) * | 2022-01-04 | 2022-04-29 | 广州小鹏汽车科技有限公司 | 语音断句方法、装置、电子设备及存储介质 |
CN114420102B (zh) * | 2022-01-04 | 2022-10-14 | 广州小鹏汽车科技有限公司 | 语音断句方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN108628819B (zh) | 2022-09-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110288077B (zh) | 一种基于人工智能的合成说话表情的方法和相关装置 | |
CN107291690A (zh) | 标点添加方法和装置、用于标点添加的装置 | |
CN108628819A (zh) | 处理方法和装置、用于处理的装置 | |
CN107632980A (zh) | 语音翻译方法和装置、用于语音翻译的装置 | |
CN107221330A (zh) | 标点添加方法和装置、用于标点添加的装置 | |
CN108093167B (zh) | 用于捕获图像的设备、方法、***及计算机可读存储介质 | |
CN108628813A (zh) | 处理方法和装置、用于处理的装置 | |
CN108399914B (zh) | 一种语音识别的方法和装置 | |
US20220406311A1 (en) | Audio information processing method, apparatus, electronic device and storage medium | |
CN111259148A (zh) | 信息处理方法、装置及存储介质 | |
CN107274903A (zh) | 文本处理方法和装置、用于文本处理的装置 | |
CN107291704A (zh) | 处理方法和装置、用于处理的装置 | |
CN108073572A (zh) | 信息处理方法及其装置、同声翻译*** | |
CN110322760A (zh) | 语音数据生成方法、装置、终端及存储介质 | |
CN107564526A (zh) | 处理方法、装置和机器可读介质 | |
CN109002184A (zh) | 一种输入法候选词的联想方法和装置 | |
CN109471919B (zh) | 零代词消解方法及装置 | |
CN111583919A (zh) | 信息处理方法、装置及存储介质 | |
CN110389667A (zh) | 一种输入方法及装置 | |
CN108304412A (zh) | 一种跨语言搜索方法和装置、一种用于跨语言搜索的装置 | |
CN108255940A (zh) | 一种跨语言搜索方法和装置、一种用于跨语言搜索的装置 | |
CN110069624A (zh) | 文本处理方法及装置 | |
CN111149172B (zh) | 情绪管理方法、设备及计算机可读存储介质 | |
WO2018214663A1 (zh) | 一种基于语音的数据处理方法、装置和电子设备 | |
CN108628461A (zh) | 一种输入方法和装置、一种更新词库的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |