CN109979435B - 数据处理方法和装置、用于数据处理的装置 - Google Patents
数据处理方法和装置、用于数据处理的装置 Download PDFInfo
- Publication number
- CN109979435B CN109979435B CN201711464113.7A CN201711464113A CN109979435B CN 109979435 B CN109979435 B CN 109979435B CN 201711464113 A CN201711464113 A CN 201711464113A CN 109979435 B CN109979435 B CN 109979435B
- Authority
- CN
- China
- Prior art keywords
- corpus
- punctuation
- text
- language model
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012545 processing Methods 0.000 title claims abstract description 47
- 238000003672 processing method Methods 0.000 title claims abstract description 24
- 238000012549 training Methods 0.000 claims abstract description 123
- 238000000034 method Methods 0.000 claims abstract description 54
- 230000011218 segmentation Effects 0.000 claims description 24
- 238000000605 extraction Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 description 18
- 238000013519 translation Methods 0.000 description 14
- 238000004891 communication Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 12
- 238000005516 engineering process Methods 0.000 description 10
- 238000013528 artificial neural network Methods 0.000 description 9
- 239000012634 fragment Substances 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 5
- 230000009194 climbing Effects 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000010365 information processing Effects 0.000 description 3
- 241000590419 Polygonia interrogationis Species 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000009413 insulation Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例提供了一种数据处理方法和装置、用于数据处理的装置,其中的方法具体包括:获取训练语料;所述训练语料包括:不完整语句对应的第一语料;针对所述训练语料进行特征提取,所述语言模型对应的训练特征包括:所述第一语料中语言单元在完整语句中的位置、以及所述语言单元后面的标点情况;依据所述训练特征,对所述训练数据进行语言模型的训练。本发明实施例可以提高添加标点的准确度。
Description
技术领域
本发明涉及信息处理技术领域,特别是涉及一种数据处理方法和装置、以及一种用于数据处理的装置。
背景技术
在通信领域以及互联网领域等信息处理技术领域,在某些应用场景中需要为一些缺少标点的文件添加标点。例如,为了方便阅读,为语音识别结果对应的文本添加标点等。
现有方案可以利用语言模型为文本添加标点。该语言模型用于描述给定字符单元序列在语言中出现的概率的分布,该字符单元可以包括:词和/或标点符号,语言模型的输出可以是字符单元序列对应的概率得分。依据语言模型输出的字符单元序列对应的概率得分,可以确定文本对应的标点添加结果。
发明人在实现本发明实施例的过程中发现,现有语言模型的训练方法中,使用的训练语料往往是完整语句对应的语料。依据完整语句对应的语料,进行语言模型的训练,可以使训练得到的现有语言模型具备完整语句的标点添加能力。因此,利用现有语言模型为文本添加标点,往往倾向于在文本的末尾位置添加标点,在该文本为不完整语句的情况下,往往会得到错误的标点添加结果,进而导致添加标点的准确度较低。
发明内容
鉴于上述问题,提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的数据处理方法、数据处理装置、用于数据处理的装置,本发明实施例可以提高添加标点的准确度。
为了解决上述问题,本发明实施例公开了一种数据处理方法,包括:
获取训练语料;所述训练语料包括:不完整语句对应的第一语料;
针对所述训练语料进行特征提取,所述语言模型对应的训练特征包括:所述第一语料中语言单元在完整语句中的位置、以及所述语言单元后面的标点情况;
依据所述训练特征,对所述训练数据进行语言模型的训练。
可选地,所述不完整语句对应的第一语料为从完整语句对应的第二语料中截取得到。
可选地,所述获取训练语料,包括:
对完整语句对应的第二语料进行分词,以得到所述第二语料包括的词汇;
依据所述第二语料包括的词汇,确定所述第二语料对应的截断位置;
按照从前到后的顺序,从所述第二语料中截取所述截断位置对应的字符串,作为不完整语句对应的第一语料。
可选地,所述截断位置位于相邻的两个词汇之间。
可选地,所述截断位置不与所述第二语料包括的标点相邻。
可选地,所述语言模型对应的训练语料还包括:完整语句对应的第二语料。
另一方面,本发明实施例公开了一种数据处理方法,包括:
获取待处理文本;
利用语言模型为所述待处理文本添加标点,以得到所述待处理文本对应的标点添加结果;其中,所述语言模型对应的训练语料包括:不完整语句对应的第一语料;所述语言模型对应的训练特征包括:所述第一语料中语言单元在完整语句中的位置、以及所述语言单元后面的标点情况;
输出所述待处理文本对应的标点添加结果。
可选地,所述不完整语句对应的第一语料为从完整语句对应的第二语料中截取得到。
可选地,所述利用语言模型为所述待处理文本添加标点,包括:
对所述待处理文本进行分词,以得到所述待处理文本对应的全局词序列;
在所述全局词序列中相邻词汇之间添加标点符号,以得到所述全局词序列对应的多种备选标点添加结果;
依据语言模型,确定所述多种备选标点添加结果中的每一种对应的概率得分;
从所述多种备选标点添加结果中获取概率得分最高的一种备选标点添加结果,作为所述待处理文本对应的标点添加结果。
再一方面,本发明实施例公开了一种数据处理装置,包括:
语料获取模块,用于获取训练语料;所述训练语料包括:不完整语句对应的第一语料;
特征提取模块,用于针对所述训练语料进行特征提取,所述语言模型对应的训练特征包括:所述第一语料中语言单元在完整语句中的位置、以及所述语言单元后面的标点情况;以及
模型训练模块,用于依据所述训练特征,对所述训练数据进行语言模型的训练。
可选地,所述不完整语句对应的第一语料为从完整语句对应的第二语料中截取得到。
可选地,所述语料获取模块包括:
分词子模块,用于对完整语句对应的第二语料进行分词,以得到所述第二语料包括的词汇;
截断位置确定子模块,用于依据所述第二语料包括的词汇,确定所述第二语料对应的截断位置;以及
截取子模块,用于按照从前到后的顺序,从所述第二语料中截取所述截断位置对应的字符串,作为不完整语句对应的第一语料。
可选地,所述截断位置位于相邻的两个词汇之间。
可选地,所述截断位置不与所述第二语料包括的标点相邻。
可选地,所述语言模型对应的训练语料还包括:完整语句对应的第二语料。
又一方面,本发明实施例公开了一种数据处理装置,包括:
文本获取模块,用于获取待处理文本;
标点添加模块,用于利用语言模型为所述待处理文本添加标点,以得到所述待处理文本对应的标点添加结果;其中,所述语言模型对应的训练语料包括:不完整语句对应的第一语料;所述语言模型对应的训练特征包括:所述第一语料中语言单元在完整语句中的位置、以及所述语言单元后面的标点情况;以及
结果输出模块,用于输出所述待处理文本对应的标点添加结果。
可选地,所述不完整语句对应的第一语料为从完整语句对应的第二语料中截取得到。
可选地,所述标点添加模块,包括:
分词子模块,用于对所述待处理文本进行分词,以得到所述待处理文本对应的全局词序列;
标点添加子模块,用于在所述全局词序列中相邻词汇之间添加标点符号,以得到所述全局词序列对应的多种备选标点添加结果;
概率得分确定子模块,用于依据语言模型,确定所述多种备选标点添加结果中的每一种对应的概率得分;以及
选择子模块,用于从所述多种备选标点添加结果中获取概率得分最高的一种备选标点添加结果,作为所述待处理文本对应的标点添加结果。
再一方面,本发明实施例公开了一种用于数据处理的装置,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
获取训练语料;所述训练语料包括:不完整语句对应的第一语料;
针对所述训练语料进行特征提取,所述语言模型对应的训练特征包括:所述第一语料中语言单元在完整语句中的位置、以及所述语言单元后面的标点情况;
依据所述训练特征,对所述训练数据进行语言模型的训练。
再一方面,本发明实施例公开了一种用于数据处理的装置,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
获取待处理文本;
利用语言模型为所述待处理文本添加标点,以得到所述待处理文本对应的标点添加结果;其中,所述语言模型对应的训练语料包括:不完整语句对应的第一语料;所述语言模型对应的训练特征包括:所述第一语料中语言单元在完整语句中的位置、以及所述语言单元后面的标点情况;
输出所述待处理文本对应的标点添加结果。
又一方面,本发明实施例公开了一种机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行前述的数据处理方法。
本发明实施例包括以下优点:
本发明实施例依据不完整语句对应的第一语料,进行语言模型的训练,可以使训练得到的本发明语言模型具备不完整语句的标点添加能力,因此可以提高添加标点的准确度。
并且,本发明实施例中语言模型对应的训练特征可以包括:所述第一语料中语言单元在完整语句中的位置、以及所述语言单元后面的标点情况;其中,语言单元可以为语料中的独立单位,如单字或者单词等;上述第一语料和上述训练特征,可以使训练得到的本发明语言模型具备针对不完整语句在文本末尾不添加标点的能力,因此本发明实施例可以针对不完整语句得到更为精确的标点添加结果,也即可以提高添加标点的准确度。
附图说明
图1是本发明的一种语音识别***的示例性结构示意图;
图2是本发明实施例的一种语言模型的训练方法的步骤流程图;
图3是本发明实施例的一种不完整语句对应的第一语料的获取方法的步骤流程图;
图4是本发明的一种数据处理方法实施例的步骤流程图;
图5是本发明实施例的一种全局词序列的标点添加过程的示意图;
图6是本发明的一种数据处理装置实施例的结构框图;
图7是本发明的另一种数据处理装置实施例的结构框图;
图8是根据一示例性实施例示出的一种用于数据处理的装置作为终端时的框图;及
图9是根据一示例性实施例示出的一种用于数据处理的装置作为服务器时的框图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
发明人在实施本发明实施例的过程中发现,现有语言模型的训练方法使用的训练语料往往是完整语句对应的语料,所使用的特征可以包括:语料中单字或者单词在完整语句中的位置、以及单字或者单词后面的标点情况(单字或者单词后面是否有标点),故训练得到的现有语言模型往往倾向于在文本的末尾位置添加标点,也即,训练得到的现有语言模型会认为第一字符单元序列对应的概率优于第二字符单元序列对应的概率(其中,可以通过概率得分表征概率的优劣,通常概率得分越高则概率越优);其中,第一字符单元序列可以为在文本不完整、且文本的末尾位置添加标点的情况下对应的字符单元序列,第二字符单元序列可以为在文本不完整、且文本的末尾位置未添加标点的情况下对应的字符单元序列。假设文本为“你好今天”,则第一字符单元序列可以为“你好,今天。”,第二字符单元序列可以为“你好,今天”,则现有语言模型可以认为“你好,今天。”的概率优于“你好,今天”的概率。由于“你好,今天。”中存在明显的标点错误,因此,利用现有语言模型为不完整语句对应的文本添加标点,往往会得到错误的标点添加结果,进而导致添加标点的准确度较低。
针对现有方案存在的添加标点的准确度较低的技术问题,本发明实施例提供了一种数据处理方案,该方案可以获取训练语料;所述训练语料包括:不完整语句对应的第一语料;针对所述训练语料进行特征提取,所述语言模型对应的训练特征包括:所述第一语料中语言单元在完整语句中的位置、以及所述语言单元后面的标点情况;依据所述训练特征,对所述训练数据进行语言模型的训练。
本发明实施例中,语句是语言运用的基本单位,它由词、词组(短语)构成,能表达一个完整的意思,如告诉别人一件事,提出一个问题,表示要求或者制止,表示某种感慨,表示对一段话的延续或省略。句子和句子中间有较大停顿。它的结尾应该用上句号、问号、省略号、或感叹号。完整语句能表达一个完整的意思,而不完整语句不能表达一个完整的意思。语料,可以指自然语言处理中的语言实例。
本发明实施例依据不完整语句对应的第一语料,进行语言模型的训练,可以使训练得到的本发明语言模型具备不完整语句的标点添加能力,因此可以提高添加标点的准确度。
并且,本发明实施例中语言模型对应的训练特征可以包括:所述第一语料中语言单元在完整语句中的位置、以及所述语言单元后面的标点情况;其中,语言单元可以为语料中的独立单位,如单字或者单词等;上述第一语料和上述训练特征,可以使训练得到的本发明语言模型具备针对不完整语句在文本末尾不添加标点的能力,因此本发明实施例可以针对不完整语句得到更为精确的标点添加结果,也即可以提高添加标点的准确度。
本发明实施例中,依据不完整语句对应的第一语料和上述训练特征,进行语言模型的训练,训练得到的本发明语言模型会认为第二字符单元序列对应的概率优于第一字符单元序列对应的概率;其中,第一字符单元序列可以为在文本不完整、且文本的末尾位置添加标点的情况下对应的字符单元序列,第二字符单元序列可以为在文本不完整、且文本的末尾位置未添加标点的情况下对应的字符单元序列;也即,本发明语言模型针对第二字符单元序列输出的概率优于针对第一字符单元序列输出的概率。假设待处理文本为“你好今天”,则第一字符单元序列可以为“你好,今天。”,第二字符单元序列可以为“你好,今天”,则本发明语言模型可以认为“你好,今天”的概率优于“你好,今天。”的概率,因此,针对“你好今天”得到的标点添加结果可以为:“你好,今天”;由于“你好,今天”中并不存在明显的标点错误,因此,利用本发明语言模型为不完整语句对应的文本添加标点,可以提高添加标点的准确度。
本发明实施例还提供了一种数据处理方案,该方案可以获取待处理文本;利用语言模型为所述待处理文本添加标点,以得到所述待处理文本对应的标点添加结果;其中,所述语言模型对应的训练语料包括:不完整语句对应的第一语料;所述语言模型对应的训练特征包括:所述第一语料中语言单元在完整语句中的位置、以及所述语言单元后面的标点情况;输出所述待处理文本对应的标点添加结果。
本发明实施例可以应用于在语音识别、语音翻译等需要添加标点的任意应用场景。上述语音翻译场景可以包括:同声翻译场景。同声翻译,是指同声翻译员在不打断讲话用户演讲的情况下,不停地将其讲话内容传译给听众的一种口译方式。目前,同声翻译技术被广泛应用在大型会议、演讲、会展、景点等场景。以会议场景为例,在会议过程中,同声翻译员坐在隔音间内,使用专业的设备,将其从耳机中听到的内容同步口译为目标语言,并通过话筒输出;同时,需要同声翻译服务的与会者,可以从耳机中获得翻译的信息。
在同声翻译场景中,通常需要在讲话用户未输入完整语句的情况下,通过语音识别获得不完整语句对应的文本,并为不完整语句对应的文本添加标点。在语音识别场景中,若讲话用户的语速较慢,也需要在讲话用户未输入完整语句的情况下,通过语音识别获得不完整语句对应的文本,并为不完整语句对应的文本添加标点。可以理解,本发明实施例对于具体的应用场景不加以限制。
本发明实施例提供的数据处理方法可应用于终端或者服务器等装置的应用环境中。可选地,上述终端可以包括但不限于:智能手机、平板电脑、膝上型便携计算机、车载电脑、台式计算机、智能电视机、可穿戴设备等等。上述服务器可以为云服务器或者普通服务器,用于向客户端提供标点添加服务。
本发明实施例提供的数据处理方法可适用于中文、日文、韩文等语言的处理处理,用于提高标点添加的准确度。可以理解,任意的需要进行添加标点的语言均在本发明实施例的数据处理方法方法的适用范围内。
参照图1,示出了本发明的一种语音识别***的示例性结构示意图,其具体可以包括:语音识别装置101和标点添加装置102。其中,语音识别装置101和标点添加装置102可以作为单独的装置(包括服务器或者终端),可以共同设置于同一个装置中;可以理解,本发明实施例对于语音识别装置101和标点添加装置102的具体设置方式不加以限制。
其中,语音识别装置101可用于将讲话用户的语音信号转换为文本信息,具体地,语音识别装置101可以输出语音识别结果。在实际应用中,讲话用户可以为语音识别场景、语音翻译场景等场景中讲话并发出语音信号的用户,则可以通过麦克风或其他语音采集器件接收讲话用户的语音信号,并向语音识别装置101发送所接收的语音信号;或者,该语音识别装置101可以具有接收讲话用户的语音信号的功能。
可选地,语音识别装置101可以采用语音识别技术将讲话用户的语音信号转换为文本信息。如果将用户讲话用户的语音信号记作S,对S进行一系列处理后得到与之相对应的语音特征序列O,记作O={O1,O2,…,Ok,…,OT},其中Oi是第k个语音特征,T为语音特征总个数,i、k和T为自然数。语音信号S对应的句子可看作是由许多词组成的一个词串,记作W={w1,w2,…,wn}。语音识别的过程就是根据已知的语音特征序列O,求出最可能的词串W,其中,k、T和n为正整数。
具体来说,语音识别是一个模型匹配的过程,在这个过程中,可以首先根据人的语音特点建立语音模型,通过对输入的语音信号的分析,抽取所需的特征,来建立语音识别所需的模板;对用户所输入语音进行识别的过程即是将用户所输入语音的特征与所述模板比较的过程,最后确定与所述用户所输入语音匹配的最佳模板,从而获得语音识别的结果。具体的语音识别算法,可采用基于统计的隐含马尔可夫模型的训练和识别算法,也可采用基于神经网络的训练和识别算法、基于动态时间归整匹配的识别算法等等其他算法,本发明实施例对于具体的语音识别过程不加以限制。
标点添加装置102可以与语音识别装置101连接,其可以接收语音识别装置101发送的语音识别结果,为接收到的语音识别结果添加标点。具体地,其可以将接收到的语音识别结果作为待处理文本,利用语言模型为所述待处理文本添加标点,以得到所述待处理文本对应的标点添加结果;其中,所述语言模型对应的训练语料可以包括:不完整语句对应的第一语料;并输出所述待处理文本对应的标点添加结果。
可选地,在语音识别场景中,标点添加装置102可以向用户或者用户对应的客户端输出该标点添加结果;在语音翻译场景中,标点添加装置102可以向机器翻译装置输出该标点添加结果,以使该机器翻译装置将该标点添加结果翻译为目标语言的文字。其中,机器翻译装置可以采用机器翻译技术进行最优断句结果的翻译,机器翻译技术可以利用计算机将一种自然语言(源语言)的文本转换为另一种自然语言(目标语言)的文本的过程,例如,源语言和目标语言可以分别为中文和英文,或者,源语言和目标语言可以分别为英文和中文等,本发明实施例对于具体的源语言、目标语言及具体的机器翻译技术不加以限制。可选地,上述机器翻译装置的类型可以包括:统计类型和/或神经网络类型等,可以理解,本发明实施例对于机器翻译装置的具体类型不加以限制。
可以理解,本领域技术人员可以根据实际的应用场景,确定所述待处理文本对应的标点添加结果对应的输出方式,本发明实施例对于所述待处理文本对应的标点添加结果对应的具体输出方式不加以限制。
方法实施例
参照图2,示出了本发明实施例的一种语言模型的训练方法的步骤流程图,具体可以包括如下步骤:
步骤201、获取训练语料;所述训练语料可以包括:不完整语句对应的第一语料;
步骤202、针对所述训练语料进行特征提取,所述语言模型对应的训练特征可以包括:所述第一语料中语言单元在完整语句中的位置、以及所述语言单元后面的标点情况;
步骤203、依据所述训练特征,对所述训练数据进行语言模型的训练。
本发明实施例依据不完整语句对应的第一语料,进行语言模型的训练,可以使训练得到的本发明语言模型具备不完整语句的标点添加能力,因此可以提高添加标点的准确度。
在本发明的一种可选实施例中,所述不完整语句对应的第一语料可以为从完整语句对应的第二语料中截取得到,也即,可以从完整语句对应的第二语料中截取不完整语句对应的第一语料。本发明实施例对于完整语句对应的第二语料的具体来源不加以限制,例如,该第二语料的来源可以包括:已有的语料库、互联网语料(如网页语料或者微博语料等)、或者输入法提供的用户的输入行为语料等。
参照图3,示出了本发明实施例的一种不完整语句对应的第一语料的获取方法的步骤流程图,具体可以包括如下步骤:
步骤301、对完整语句对应的第二语料进行分词,以得到所述第二语料包括的词汇;
步骤302、依据所述第二语料包括的词汇,确定所述第二语料对应的截断位置;
步骤303、按照从前到后的顺序,从所述第二语料中截取所述截断位置对应的字符串,作为不完整语句对应的第一语料。
语句通常是由字组成的连续字符串。为了理解语义,首先需要将语句划分为以词汇为基本单位的词串,这就是分词。词汇是最小的能够独立活动的有意义的语言成分,英文单词之间是以空格作为自然分界符的,而中文是以字为基本的书写单位,词语之间没有明确的区分标记,因此中文分词是中文信息处理的基础和关键。常用的分词方法可以包括:基于字符串匹配的方法、基于规则的方法等,可以理解,本发明实施例对于具体的分词方法不加以限制。
上述步骤302确定所述第二语料对应的截断位置的过程可以包括:以词汇为单位,确定所述第二语料对应的截断位置,以避免该截断位置位于一个词汇的中间位置导致一个词汇被打断,进而可以避免该第一语料中包括不完整的词汇。
本发明实施例中,该截断位置可用于分割第二语料中两个相邻的词汇,这样可以使第一语料中包括完整的词汇,且可以避免该第一语料中包括不完整的词汇。根据一种实施例,该截断位置可以为前一个词汇的末尾位置,此种情况下,上述从所述第二语料中截取所述截断位置对应的字符串的过程可以包括:将截断位置及其之前的字符串,作为所述截断位置对应的字符串。根据另一种实施例,该截断位置可以为第二语料中两个相邻的词汇之间的位置,此种情况下,上述从所述第二语料中截取所述截断位置对应的字符串的过程可以包括:将截断位置之前的字符串,作为所述截断位置对应的字符串。
在本发明的一种可选实施例中,所述截断位置可以位于相邻的两个词汇之间,这样可以使第一语料中包括完整的词汇,且可以避免该第一语料中包括不完整的词汇。在本发明的一种应用示例中,假设完整语句对应的第二语料为“你好,今天天气怎么样?”,则其对应的分词结果可以为:“你好/,/今天/天气/怎么样/?”,其中,“/”是为了方便申请文件的说明而设置的符号,“/”用于表示词之间的界限、和/或、词与标点符号之间的界限,在实际应用中,“/”可以不具备任何意义。这样,本发明实施例的截断位置可以位于相邻的两个词汇之间,如“你好”与“今天”之间、“今天”与“天气”之间、或者“天气”与“怎么样”之间等,相应地,可以得到截取的第一语料:“你好”、“你好,今天”、“你好,今天天气”等。
对于一个第二语料而言,其可以对应有一个或者多个截断位置。本发明实施例可以针对每个截断位置,从所述第二语料中截取所述截断位置对应的字符串,作为不完整语句对应的第一语料,进而可以得到多个截断位置对应的多个截断位置。
在本发明的另一种可选实施例中,所述截断位置可以不与所述第二语料包括的标点相邻。在截断位置与第二语料包括的标点相邻的情况下,说明截断位置处已经存在标点,也即,说明截断位置对应的字符串能够表达相对完整的意思,因此为了避免此种情况下截取得到的第一语料与能够表达完整意思的第二语料之间的重复,此种情况下,可以丢弃与所述第二语料包括的标点相邻的截断位置。以分词结果可以为:“你好/,/今天/天气/怎么样/?”为例,“你好”与“今天”之间的截断位置与第二语料包括的“,”相邻,依据该截断位置得到的第一语料为“你好,”,其能够表达相对完整的意思,因此为了避免此种情况下截取得到的第一语料与能够表达完整意思的第二语料之间的重复,此种情况下,可以丢弃该截断位置。因此,在本发明的一种实施例中,在执行步骤303之前,还可以针对步骤302得到的截断位置,判断其是否与所述第二语料包括的标点相邻,若是则丢弃,否则保留。
本发明实施例中语言模型对应的训练特征可以包括:所述第一语料中语言单元在完整语句中的位置、以及所述语言单元后面的标点情况;其中,语言单元可以为语料中的独立单位,如单字或者单词等;上述第一语料和上述训练特征,可以使训练得到的本发明语言模型具备针对不完整语句在文本末尾不添加标点的能力,因此本发明实施例可以针对不完整语句得到更为精确的标点添加结果,也即可以提高添加标点的准确度。
本发明实施例中,所述语言模型用于描述字符单元序列在语言中出现的概率,所述字符单元包括:词和/或标点符号。
语言模型可以包括但不限于:N-gram(N元文法)语言模型,和/或,神经网络语言模型,其中,神经网络语言模型可以进一步包括:RNNLM(循环神经网络语言模型,Recurrentneural Network Language Model)、CNNLM(卷积神经网络语言模型,ConvolutionalNeural Networks Language Model)、DNNLM(深度神经网络语言模型,Deep NeuralNetworks Language Model)等。
其中,N-gram语言模型基于这样一种假设,即第N个词汇的出现只与前面N-1个词汇相关,而与其它任何词汇都不相关,整句的概率就是各个词汇出现概率的乘积。
由于N-gram语言模型利用有限的N-1个词汇(上文)来预测第N个词汇,故N-gram语言模型可以具备长度为N的字符单元序列的概率得分的描述能力,例如,N可以为3、5等较为固定的且数值小于第一长度阈值的正整数。而相对于N-gram语言模型,例如RNNLM的神经网络语言模型的一个优势在于:可以真正充分地利用所有上文来预测下一个词,故RNNLM可以具备长度可变的字符单元序列的概率得分的描述能力,也即,RNNLM适用于较宽长度范围的字符单元序列,例如,RNNLM对应的字符单元序列的长度范围可以为:1~第二长度阈值,其中,第二长度阈值大于第一长度阈值。
在本发明的一种可选实施例中,所述语言模型对应的训练语料还可以包括:完整语句对应的第二语料。上述第二语料和上述训练特征,可以使训练得到的本发明语言模型具备针对完整语句在文本末尾添加标点的能力,因此本发明实施例可以针对完整语句得到较为精确的标点添加结果。
综上,本发明实施例的语言模型的训练方法,依据不完整语句对应的第一语料,进行语言模型的训练,可以使训练得到的本发明语言模型具备不完整语句的标点添加能力,因此可以提高添加标点的准确度。
并且,本发明实施例中语言模型对应的训练特征可以包括:所述第一语料中语言单元在完整语句中的位置、以及所述语言单元后面的标点情况;其中,语言单元可以为语料中的独立单位,如单字或者单词等;上述第一语料和上述训练特征,可以使训练得到的本发明语言模型具备针对不完整语句在文本末尾不添加标点的能力,因此本发明实施例可以针对不完整语句得到更为精确的标点添加结果,也即可以提高添加标点的准确度。
参照图4,示出了本发明的一种数据处理方法实施例的步骤流程图,具体可以包括如下步骤:
步骤401、获取待处理文本;
步骤402、利用语言模型为所述待处理文本添加标点,以得到所述待处理文本对应的标点添加结果;其中,所述语言模型对应的训练语料可以包括:不完整语句对应的第一语料;所述语言模型对应的训练特征可以包括:所述第一语料中语言单元在完整语句中的位置、以及所述语言单元后面的标点情况;
步骤403、输出所述待处理文本对应的标点添加结果。
本发明实施例中,待处理文本可用于表示需要进行添加标点的文本,该待处理文本可以来源于用户通过装置输入的文本或者语音,也可以来自其他装置。需要说明的是,上述待处理文本中可以包括:一种语言、或者一种以上的语言,例如,上述待处理文本中可以包括中文,也可以包括中文与例如英文的其他语言的混合,本发明实施例对具体的待处理文本不加以限制。
在实际应用中,本发明实施例可以通过客户端APP(应用程序,Application)执行本发明实施例的数据处理方法。客户端APP可以运行在终端上,例如,该客户端应用可以为终端上运行的任意APP,则该客户端应用可以从终端的其他应用获取待处理文本。或者,本发明实施例可以通过客户端应用的功能装置执行本发明实施例的数据处理方法流程,则该功能装置可以从其他功能装置获取待处理文本。或者,本发明实施例可以通过服务器执行本发明实施例的数据处理方法。
在实际应用中,步骤401可以根据实际应用需求,从语音信号对应的文本或者用户输入的文本中获取待处理文本。例如,步骤401可以依据讲话用户的语音信号获取待处理文本,此种情况下,步骤401可以将讲话用户的语音信号转换为文本信息,并从该文本信息中获取待处理文本;或者,步骤401可以直接从语音识别装置接收用户的语音信号对应的文本信息,并从从该文本信息中获取待处理文本。
根据一种实施例,上述从语音信号对应的文本获取待处理文本的过程,可以包括:依据语音信号S的间隔时间,从语音信号S对应的文本中获取待处理文本。例如,在语音信号S的间隔时间大于时间阈值时,可以确定语音信号S对应的第一分界点,将该第一分界点之前的语音信号S对应的文本作为待处理文本,并对该第一分界点之后的语音信号S对应的文本进行处理,以继续从中获取待处理文本。
根据另一种实施例,上述从语音信号对应的文本或者用户输入的文本中获取待处理文本的过程,可以包括:依据语音信号对应的文本或者用户输入的文本所包含的字数,从语音信号对应的文本或者用户输入的文本中获取待处理文本。例如,在语音信号对应的文本或者用户输入的文本包含的字数大于字数阈值时,可以依据该字数阈值确定语音信号对应的第二分界点,可以将该第二分界点之前的语音信号S对应的文本作为待处理文本,并对该第二分界点之后的语音信号S对应的文本进行处理,以继续从中获取待处理文本。可以理解,本发明实施例对于从语音信号对应的文本或者用户输入的文本中获取待处理文本的具体过程不加以限制。
在本发明的一种可选实施例中,上述步骤402利用语言模型为所述待处理文本添加标点的过程,可以包括:对所述待处理文本进行分词,以得到所述待处理文本对应的全局词序列;在所述全局词序列中相邻词汇之间添加标点符号,以得到所述全局词序列对应的多种备选标点添加结果;依据语言模型,确定所述多种备选标点添加结果中的每一种对应的概率得分;从所述多种备选标点添加结果中获取概率得分最高的一种备选标点添加结果,作为所述待处理文本对应的标点添加结果。
上述在所述全局词序列中相邻词汇之间添加标点符号的过程可以包括:根据实际应用需求,确定所述全局词序列中相邻词汇之间需要添加的候选标点符号。可选地,上述候选标点符号可以包括:逗号、问号、句号、感叹号、空格等,其中,空格可以起到词分割的作用或者不起任何作用,例如,对于英文而言,空格可用于分割不同的词,对于中文而言,空格可以为不起任何作用的标点符号,可以理解,本发明实施例对于具体的候选标点符号不加以限制。
在实际应用中,可以采用路径规划算法,获取所述全局词序列对应的多种备选标点添加结果。上述路径规划算法的原理可以为,在具有障碍物的环境中,按照一定的评价标准,寻找一条从起始状态到目标状态的无碰撞路径,具体到本发明实施例,障碍物可用于表示在待处理文本对应全局词序列的相邻词之间添加的候选标点符号,起始状态和目标状态分别表示待处理文本对应全局词序列的首个词和末尾词之后的标点符号。
参照图5,示出了本发明实施例的一种全局词序列的标点添加过程的示意图,其中,全局词序列为“你好/我是/小明/很高兴/认识你”,则“你好/我是/小明/很高兴/认识你”的相邻词之间均有可能被添加候选标点符号;图5中,“你好”、“我是”、“小明”、“很高兴”、“认识你”等词分别用矩形表示,逗号、空格、叹号、问号、句号等标点符号分别用圆形表示,则语音识别结果对应的全局词序列的首个词“你好”和末尾词“认识你”之后的标点符号之间可以具备多条路径。可以理解,图5所示全局词序列只是作为可选实施例,实际上,数据处理装置可以周期性接收语音识别装置101发送的语音识别结果,并按照预置时间周期获取经过标点添加处理的语音识别结果对应的文本。
可以理解,路径规划算法只是作为本发明实施例的可选实施例,实际上本领域技术人员可以根据实际应用需求,采用其他算法得到所述待处理文本对应的多种备选标点添加结果,可以理解,本发明实施例对于所述多种备选标点添加结果的具体获取算法不加以限制。
在实际应用中,语言模型可以直接针对备选标点添加结果,输出对应的概率得分;或者,语言模型可以针对备选标点添加结果包括的部分字符单元序列,输出对应的分概率得分,然后对分概率得分进行融合得到对应的概率得分。
在本发明的一种可选实施例中,所述依据语言模型,确定所述多种备选标点添加结果中的每一种对应的概率得分的过程,可以包括:针对各备选标点添加结果包含的语义片段,确定对应的概率得分;对各备选标点添加结果包含的所有语义片段对应的概率得分进行融合,以得到对应的概率得分;则可以从所有备选标点添加结果中获取概率得分最高的备选标点添加结果,作为所述待处理文本对应的最优备选标点添加结果。
可选地,可以按照从前到后的顺序,通过移动方式从所述备选标点添加结果中获取对应的语义片段,不同语义片段所包含字符单元的数量可以相同,相邻的语义片段可以存在重复的字符单元,所述字符单元可以包括:词和/或标点符号。此种情况下,可由N-gram语言模型和/或神经网络语言模型确定语义片段对应的概率得分。假设N=5,首字符单元的编号为1,则可以按照编号的如下顺序:1-5、2-6、3-7、4-8等从所述备选标点添加结果中获取对应的长度为5的语义片段,并利用N-gram语言模型确定各语义片段对应的概率得分,例如,将各语义片段输入N-gram,则N-gram可输出对应的概率得分。
可选地,上述对各备选标点添加结果包含的所有语义片段对应的概率得分进行融合的过程可以包括:对各备选标点添加结果包含的所有语义片段对应的概率得分进行求和、或者乘积、或者加权平均处理等,可以理解,本发明实施例对于对各备选标点添加结果包含的所有语义片段对应的概率得分进行融合的具体过程不加以限制。
在本发明的另一种可选实施例中,所述依据语言模型,确定所述多种备选标点添加结果中的每一种对应的概率得分的过程,可以包括:利用神经网络语言模型,确定各备选标点添加结果的所有语义片段对应的概率得分;则可以从所有备选标点添加结果中获取概率得分最高的备选标点添加结果,作为所述待处理文本对应的最优备选标点添加结果。由于RNNLM适用于较宽长度范围的语义片段,故可以将各备选标点添加结果的所有语义片段作为一个整体,由RNNLM确定备选标点添加结果的所有语义片段对应的概率得分,例如,将备选标点添加结果包括的所有字符单元输入RNNLM,则RNNLM可输出对应的概率得分。
在本发明的一种应用示例中,假设预置时间周期为1s,假设通过语言模型对语音识别结果进行标点添加处理,N小于或等于5,则按照预置时间周期获取的经过标点添加处理的语音识别结果对应的文本可以包括:
第1秒:今天天气
第2秒:今天天气不错,我们
第3秒:今天天气不错,我们出去爬山
第4秒:今天天气不错,我们出去爬山你觉得怎么样?
其中,首先在第1s接收到“今天天气”,可以对全局词序列“今天/天气”进行标点添加处理,假设语言模型输出的“今天/空格/天气/空格/”对应的概率得分高于“今天/空格/天气/逗号、叹号、问号、句号等标点符号”对应的概率得分,故可以得到标点添加结果“今天/天气”。
接着在第2s接收到“今天天气不错我们”,可以对全局词序列“今天/天气/不错/我们”进行标点添加处理,假设语言模型输出的“今天/空格/天气/空格/不错/,/我们”对应的概率得分高于其他标点添加结果如“今天/空格/天气/空格/不错/空格/我们/句号”对应的概率得分,故可以得到标点添加结果“今天/空格/天气/空格/不错/,/我们”。
接着在第3s接收到“今天天气不错我们出去爬山”,可以对全局词序列“今天/天气/不错/我们/出去/爬山”进行标点添加处理,假设语言模型输出的“今天/空格/天气/空格/不错/,/我们/空格/出去/空格/爬山”对应的概率得分高于其他标点添加结果如“今天/空格/天气/空格/不错/,/我们/空格/出去/空格/爬山/句号”对应的概率得分,故可以得到标点添加结果:“今天/空格/天气/空格/不错/,/我们/空格/出去/空格/爬山”。
接着在第4s接收到“今天天气不错我们出去爬山你觉得怎么样”,可以对全局词序列“今天/空格/天气/空格/不错/,/我们/空格/出去/空格/爬山/你/觉得”进行标点添加处理,假设语言模型输出的“今天/空格/天气/空格/不错/,/我们/空格/出去/空格/爬山/空格/你/空格/觉得/空格/怎么样/问号”对应的概率得分高于其他标点添加结果对应的概率得分,故可以得到标点添加结果:“今天/天气/空格/不错/,我们/空格/出去/空格/爬山/空格/你/空格/觉得/空格/怎么样/问号”。
在语音识别场景中,步骤403可以向用户或者用户对应的客户端输出该标点添加结果;或者,在语音翻译场景中,步骤403可以向机器翻译装置输出该标点添加结果,以使该机器翻译装置将该标点添加结果翻译为目标语言的文字。可以理解,本发明实施例对于步骤403输出所述待处理文本对应的标点添加结果的具体过程不加以限制。
综上,本发明实施例的数据处理方法,依据不完整语句对应的第一语料,进行语言模型的训练,可以使训练得到的本发明语言模型具备不完整语句的标点添加能力,因此可以提高添加标点的准确度。
并且,本发明实施例中语言模型对应的训练特征可以包括:所述第一语料中语言单元在完整语句中的位置、以及所述语言单元后面的标点情况;其中,语言单元可以为语料中的独立单位,如单字或者单词等;上述第一语料和上述训练特征,可以使训练得到的本发明语言模型具备针对不完整语句在文本末尾不添加标点的能力,因此本发明实施例可以针对不完整语句得到更为精确的标点添加结果,也即可以提高添加标点的准确度。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的运动动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的运动动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的运动动作并不一定是本发明实施例所必须的。
装置实施例
参照图6,示出了本发明的一种数据处理装置实施例的结构框图,具体可以可以包括:
文本获取模块601,用于获取待处理文本;
标点添加模块602,用于利用语言模型为所述待处理文本添加标点,以得到所述待处理文本对应的标点添加结果;其中,所述语言模型对应的训练语料可以包括:不完整语句对应的第一语料;所述语言模型对应的训练特征可以包括:所述第一语料中语言单元在完整语句中的位置、以及所述语言单元后面的标点情况;以及
结果输出模块603,用于输出所述待处理文本对应的标点添加结果。
可选地,所述不完整语句对应的第一语料为从完整语句对应的第二语料中截取得到。
可选地,所述装置还可以包括:
分词模块,用于对完整语句对应的第二语料进行分词,以得到所述第二语料可以包括的词汇;
截断位置确定模块,用于依据所述第二语料可以包括的词汇,确定所述第二语料对应的截断位置;
截取模块,用于按照从前到后的顺序,从所述第二语料中截取所述截断位置对应的字符串,作为不完整语句对应的第一语料。
可选地,所述截断位置位于相邻的两个词汇之间。
可选地,所述截断位置不与所述第二语料可以包括的标点相邻。
可选地,所述语言模型对应的训练语料还可以包括:完整语句对应的第二语料。
可选地,所述标点添加模块602,可以包括:
分词子模块,用于对所述待处理文本进行分词,以得到所述待处理文本对应的全局词序列;
标点添加子模块,用于在所述全局词序列中相邻词汇之间添加标点符号,以得到所述全局词序列对应的多种备选标点添加结果;
概率得分确定子模块,用于依据语言模型,确定所述多种备选标点添加结果中的每一种对应的概率得分;以及
选择子模块,用于从所述多种备选标点添加结果中获取概率得分最高的一种备选标点添加结果,作为所述待处理文本对应的标点添加结果。
参照图7,示出了本发明的另一种数据处理装置实施例的结构框图,具体可以可以包括:
语料获取模块701,用于获取训练语料;所述训练语料包括:不完整语句对应的第一语料;
特征提取模块702,用于针对所述训练语料进行特征提取,所述语言模型对应的训练特征包括:所述第一语料中语言单元在完整语句中的位置、以及所述语言单元后面的标点情况;以及
模型训练模块703,用于依据所述训练特征,对所述训练数据进行语言模型的训练。
可选地,所述不完整语句对应的第一语料可以为从完整语句对应的第二语料中截取得到。
可选地,所述语料获取模块701具体可以包括:
分词子模块,用于对完整语句对应的第二语料进行分词,以得到所述第二语料包括的词汇;
截断位置确定子模块,用于依据所述第二语料包括的词汇,确定所述第二语料对应的截断位置;以及
截取子模块,用于按照从前到后的顺序,从所述第二语料中截取所述截断位置对应的字符串,作为不完整语句对应的第一语料。
可选地,所述截断位置可以位于相邻的两个词汇之间。
可选地,所述截断位置可以不与所述第二语料包括的标点相邻。
可选地,所述语言模型对应的训练语料还可以包括:完整语句对应的第二语料。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本发明实施例还提供了一种数据处理装置,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:获取待处理文本;利用语言模型为所述待处理文本添加标点,以得到所述待处理文本对应的标点添加结果;其中,所述语言模型对应的训练语料包括:不完整语句对应的第一语料;所述语言模型对应的训练特征包括:所述第一语料中语言单元在完整语句中的位置、以及所述语言单元后面的标点情况;输出所述待处理文本对应的标点添加结果。
本发明实施例还提供了一种数据处理装置,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:获取训练语料;所述训练语料包括:不完整语句对应的第一语料;针对所述训练语料进行特征提取,所述语言模型对应的训练特征包括:所述第一语料中语言单元在完整语句中的位置、以及所述语言单元后面的标点情况;依据所述训练特征,对所述训练数据进行语言模型的训练。
图8是根据一示例性实施例示出的一种用于数据处理的装置作为终端时的框图。例如,终端900可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图7,终端900可以包括以下一个或多个组件:处理组件902,存储器904,电源组件906,多媒体组件908,音频组件910,输入/输出(I/O)的接口912,传感器组件914,以及通信组件916。
处理组件902通常控制终端900的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理元件902可以包括一个或多个处理器920来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件902可以包括一个或多个模块,便于处理组件902和其他组件之间的交互。例如,处理组件902可以包括多媒体模块,以方便多媒体组件908和处理组件902之间的交互。
存储器904被配置为存储各种类型的数据以支持在终端900的操作。这些数据的示例包括用于在终端900上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器904可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件906为终端900的各种组件提供电力。电源组件906可以包括电源管理***,一个或多个电源,及其他与为终端900生成、管理和分配电力相关联的组件。
多媒体组件908包括在所述终端900和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动运动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件908包括一个前置摄像头和/或后置摄像头。当终端900处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。
音频组件910被配置为输出和/或输入音频信号。例如,音频组件910包括一个麦克风(MIC),当终端900处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器904或经由通信组件916发送。在一些实施例中,音频组件910还包括一个扬声器,用于输出音频信号。
I/O接口912为处理组件902和***接口模块之间提供接口,上述***接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件914包括一个或多个传感器,用于为终端900提供各个方面的状态评估。例如,传感器组件914可以检测到终端900的打开/关闭状态,组件的相对定位,例如所述组件为终端900的显示器和小键盘,传感器组件914还可以检测终端900或终端900一个组件的位置改变,用户与终端900接触的存在或不存在,终端900方位或加速/减速和终端900的温度变化。传感器组件914可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件914还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件914还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件916被配置为便于终端900和其他设备之间有线或无线方式的通信。终端900可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信部件916经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中,所述通信部件916还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,终端900可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器904,上述指令可由终端900的处理器920执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
图9是根据一示例性实施例示出的一种用于数据处理的装置作为服务器时的框图。该服务器1900可因配置或性能不同而产生比较大的差异,可以包括一个或一个以***处理器(central processing units,CPU)1922(例如,一个或一个以上处理器)和存储器1932,一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储设备)。其中,存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1922可以设置为与存储介质1930通信,在服务器1900上执行存储介质1930中的一系列指令操作。
服务器1900还可以包括一个或一个以上电源1926,一个或一个以上有线或无线网络接口1950,一个或一个以上输入输出接口1958,一个或一个以上键盘1956,和/或,一个或一个以上操作***1941,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器1932,上述指令可由服务器1900的处理器执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由装置(终端或者服务器)的处理器执行时,使得装置能够执行图2至图5中的任一所述的方法。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由装置(终端或者服务器)的处理器执行时,使得装置能够执行一种数据处理方法,所述方法包括:获取待处理文本;利用语言模型为所述待处理文本添加标点,以得到所述待处理文本对应的标点添加结果;其中,所述语言模型对应的训练语料包括:不完整语句对应的第一语料;所述语言模型对应的训练特征包括:所述第一语料中语言单元在完整语句中的位置、以及所述语言单元后面的标点情况;输出所述待处理文本对应的标点添加结果。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由装置(终端或者服务器)的处理器执行时,使得装置能够执行一种数据处理方法,所述方法包括:获取训练语料;所述训练语料包括:不完整语句对应的第一语料;针对所述训练语料进行特征提取,所述语言模型对应的训练特征包括:所述第一语料中语言单元在完整语句中的位置、以及所述语言单元后面的标点情况;依据所述训练特征,对所述训练数据进行语言模型的训练。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
以上对本发明所提供的一种数据处理方法、一种数据处理装置、以及一种用于数据处理的装置,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (29)
1.一种数据处理方法,其特征在于,包括:
获取训练语料;所述训练语料包括:不完整语句对应的第一语料;所述第一语料包括:以完整语句对应第二语料中第一个词汇为开头的至少一个词汇;
针对所述训练语料进行特征提取,语言模型对应的训练特征包括:所述第一语料中语言单元在完整语句中的位置、以及所述语言单元后面的标点情况;
依据所述训练特征,对所述训练数据进行语言模型的训练;所述语言模型用于学习所述第一语料相应的字符单元序列在语言中出现的概率。
2.根据权利要求1所述的方法,其特征在于,所述不完整语句对应的第一语料为从完整语句对应的第二语料中截取得到。
3.根据权利要求1所述的方法,其特征在于,所述获取训练语料,包括:
对完整语句对应的第二语料进行分词,以得到所述第二语料包括的词汇;
依据所述第二语料包括的词汇,确定所述第二语料对应的截断位置;
按照从前到后的顺序,从所述第二语料中截取所述截断位置对应的字符串,作为不完整语句对应的第一语料。
4.根据权利要求3所述的方法,其特征在于,所述截断位置位于相邻的两个词汇之间。
5.根据权利要求3所述的方法,其特征在于,所述截断位置不与所述第二语料包括的标点相邻。
6.根据权利要求1至5中任一所述的方法,其特征在于,所述语言模型对应的训练语料还包括:完整语句对应的第二语料。
7.一种数据处理方法,其特征在于,包括:
获取待处理文本;
利用语言模型为所述待处理文本添加标点,以得到所述待处理文本对应的标点添加结果;其中,所述语言模型对应的训练语料包括:不完整语句对应的第一语料;所述语言模型对应的训练特征包括:所述第一语料中语言单元在完整语句中的位置、以及所述语言单元后面的标点情况;所述第一语料包括:以完整语句对应第二语料中第一个词汇为开头的至少一个词汇;所述语言模型用于学习所述第一语料相应的字符单元序列在语言中出现的概率;
输出所述待处理文本对应的标点添加结果。
8.根据权利要求7所述的方法,其特征在于,所述不完整语句对应的第一语料为从完整语句对应的第二语料中截取得到。
9.根据权利要求7或8所述的方法,其特征在于,所述利用语言模型为所述待处理文本添加标点,包括:
对所述待处理文本进行分词,以得到所述待处理文本对应的全局词序列;
在所述全局词序列中相邻词汇之间添加标点符号,以得到所述全局词序列对应的多种备选标点添加结果;
依据语言模型,确定所述多种备选标点添加结果中的每一种对应的概率得分;
从所述多种备选标点添加结果中获取概率得分最高的一种备选标点添加结果,作为所述待处理文本对应的标点添加结果。
10.一种数据处理装置,其特征在于,包括:
语料获取模块,用于获取训练语料;所述训练语料包括:不完整语句对应的第一语料;所述第一语料包括:以完整语句对应第二语料中第一个词汇为开头的至少一个词汇;
特征提取模块,用于针对所述训练语料进行特征提取,语言模型对应的训练特征包括:所述第一语料中语言单元在完整语句中的位置、以及所述语言单元后面的标点情况;以及
模型训练模块,用于依据所述训练特征,对所述训练数据进行语言模型的训练;所述语言模型用于学习所述第一语料相应的字符单元序列在语言中出现的概率。
11.根据权利要求10所述的装置,其特征在于,所述不完整语句对应的第一语料为从完整语句对应的第二语料中截取得到。
12.根据权利要求10所述的装置,其特征在于,所述语料获取模块包括:
分词子模块,用于对完整语句对应的第二语料进行分词,以得到所述第二语料包括的词汇;
截断位置确定子模块,用于依据所述第二语料包括的词汇,确定所述第二语料对应的截断位置;以及
截取子模块,用于按照从前到后的顺序,从所述第二语料中截取所述截断位置对应的字符串,作为不完整语句对应的第一语料。
13.根据权利要求12所述的装置,其特征在于,所述截断位置位于相邻的两个词汇之间。
14.根据权利要求12所述的装置,其特征在于,所述截断位置不与所述第二语料包括的标点相邻。
15.根据权利要求10至14中任一所述的装置,其特征在于,所述语言模型对应的训练语料还包括:完整语句对应的第二语料。
16.一种数据处理装置,其特征在于,包括:
文本获取模块,用于获取待处理文本;
标点添加模块,用于利用语言模型为所述待处理文本添加标点,以得到所述待处理文本对应的标点添加结果;其中,所述语言模型对应的训练语料包括:不完整语句对应的第一语料;所述语言模型对应的训练特征包括:所述第一语料中语言单元在完整语句中的位置、以及所述语言单元后面的标点情况;所述第一语料包括:以完整语句对应第二语料中第一个词汇为开头的至少一个词汇;所述语言模型用于学习所述第一语料相应的字符单元序列在语言中出现的概率;以及
结果输出模块,用于输出所述待处理文本对应的标点添加结果。
17.根据权利要求16所述的装置,其特征在于,所述不完整语句对应的第一语料为从完整语句对应的第二语料中截取得到。
18.根据权利要求16或17所述的装置,其特征在于,所述标点添加模块,包括:
分词子模块,用于对所述待处理文本进行分词,以得到所述待处理文本对应的全局词序列;
标点添加子模块,用于在所述全局词序列中相邻词汇之间添加标点符号,以得到所述全局词序列对应的多种备选标点添加结果;
概率得分确定子模块,用于依据语言模型,确定所述多种备选标点添加结果中的每一种对应的概率得分;以及
选择子模块,用于从所述多种备选标点添加结果中获取概率得分最高的一种备选标点添加结果,作为所述待处理文本对应的标点添加结果。
19.一种用于数据处理的装置,其特征在于,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
获取训练语料;所述训练语料包括:不完整语句对应的第一语料;所述第一语料包括:以完整语句对应第二语料中第一个词汇为开头的至少一个词汇;
针对所述训练语料进行特征提取,语言模型对应的训练特征包括:所述第一语料中语言单元在完整语句中的位置、以及所述语言单元后面的标点情况;
依据所述训练特征,对所述训练数据进行语言模型的训练;所述语言模型用于学习所述第一语料相应的字符单元序列在语言中出现的概率。
20.根据权利要求19所述的装置,其特征在于,所述不完整语句对应的第一语料为从完整语句对应的第二语料中截取得到。
21.根据权利要求19所述的装置,其特征在于,所述获取训练语料,包括:
对完整语句对应的第二语料进行分词,以得到所述第二语料包括的词汇;
依据所述第二语料包括的词汇,确定所述第二语料对应的截断位置;
按照从前到后的顺序,从所述第二语料中截取所述截断位置对应的字符串,作为不完整语句对应的第一语料。
22.根据权利要求21所述的装置,其特征在于,所述截断位置位于相邻的两个词汇之间。
23.根据权利要求21所述的装置,其特征在于,所述截断位置不与所述第二语料包括的标点相邻。
24.根据权利要求19至23中任一所述的装置,其特征在于,所述语言模型对应的训练语料还包括:完整语句对应的第二语料。
25.一种用于数据处理的装置,其特征在于,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
获取待处理文本;
利用语言模型为所述待处理文本添加标点,以得到所述待处理文本对应的标点添加结果;其中,所述语言模型对应的训练语料包括:不完整语句对应的第一语料;所述语言模型对应的训练特征包括:所述第一语料中语言单元在完整语句中的位置、以及所述语言单元后面的标点情况;所述第一语料包括:以完整语句对应第二语料中第一个词汇为开头的至少一个词汇;所述语言模型用于学习所述第一语料相应的字符单元序列在语言中出现的概率;
输出所述待处理文本对应的标点添加结果。
26.根据权利要求25所述的装置,其特征在于,所述不完整语句对应的第一语料为从完整语句对应的第二语料中截取得到。
27.根据权利要求25或26所述的装置,其特征在于,所述利用语言模型为所述待处理文本添加标点,包括:
对所述待处理文本进行分词,以得到所述待处理文本对应的全局词序列;
在所述全局词序列中相邻词汇之间添加标点符号,以得到所述全局词序列对应的多种备选标点添加结果;
依据语言模型,确定所述多种备选标点添加结果中的每一种对应的概率得分;
从所述多种备选标点添加结果中获取概率得分最高的一种备选标点添加结果,作为所述待处理文本对应的标点添加结果。
28.一种机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行如权利要求1至6中一个或多个所述的数据处理方法。
29.一种机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行如权利要求7至9中一个或多个所述的数据处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711464113.7A CN109979435B (zh) | 2017-12-28 | 2017-12-28 | 数据处理方法和装置、用于数据处理的装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711464113.7A CN109979435B (zh) | 2017-12-28 | 2017-12-28 | 数据处理方法和装置、用于数据处理的装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109979435A CN109979435A (zh) | 2019-07-05 |
CN109979435B true CN109979435B (zh) | 2021-10-22 |
Family
ID=67075093
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711464113.7A Active CN109979435B (zh) | 2017-12-28 | 2017-12-28 | 数据处理方法和装置、用于数据处理的装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109979435B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110610001B (zh) * | 2019-08-12 | 2024-01-23 | 大箴(杭州)科技有限公司 | 短文本完整性识别方法、装置、存储介质及计算机设备 |
CN111126068A (zh) * | 2019-12-25 | 2020-05-08 | 中电云脑(天津)科技有限公司 | 一种中文命名实体识别方法和装置及电子设备 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6067514A (en) * | 1998-06-23 | 2000-05-23 | International Business Machines Corporation | Method for automatically punctuating a speech utterance in a continuous speech recognition system |
CN105609107A (zh) * | 2015-12-23 | 2016-05-25 | 北京奇虎科技有限公司 | 一种基于语音识别的文本处理方法和装置 |
CN106484134A (zh) * | 2016-09-20 | 2017-03-08 | 深圳Tcl数字技术有限公司 | 基于安卓***的语音输入标点符号的方法及装置 |
CN106653030A (zh) * | 2016-12-02 | 2017-05-10 | 北京云知声信息技术有限公司 | 标点添加方法及装置 |
CN107221330A (zh) * | 2017-05-26 | 2017-09-29 | 北京搜狗科技发展有限公司 | 标点添加方法和装置、用于标点添加的装置 |
CN107247706A (zh) * | 2017-06-16 | 2017-10-13 | 中国电子技术标准化研究院 | 文本断句模型建立方法、断句方法、装置及计算机设备 |
CN107291690A (zh) * | 2017-05-26 | 2017-10-24 | 北京搜狗科技发展有限公司 | 标点添加方法和装置、用于标点添加的装置 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1422692A3 (en) * | 2002-11-22 | 2004-07-14 | ScanSoft, Inc. | Automatic insertion of non-verbalized punctuation in speech recognition |
US8041566B2 (en) * | 2003-11-21 | 2011-10-18 | Nuance Communications Austria Gmbh | Topic specific models for text formatting and speech recognition |
CN102231278B (zh) * | 2011-06-10 | 2013-08-21 | 安徽科大讯飞信息科技股份有限公司 | 实现语音识别中自动添加标点符号的方法及*** |
CN103971684B (zh) * | 2013-01-29 | 2015-12-09 | 腾讯科技(深圳)有限公司 | 一种添加标点的方法、***及其语言模型建立方法、装置 |
CN104143331B (zh) * | 2013-05-24 | 2015-12-09 | 腾讯科技(深圳)有限公司 | 一种添加标点的方法和*** |
CN106331893B (zh) * | 2016-08-31 | 2019-09-03 | 科大讯飞股份有限公司 | 实时字幕显示方法及*** |
-
2017
- 2017-12-28 CN CN201711464113.7A patent/CN109979435B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6067514A (en) * | 1998-06-23 | 2000-05-23 | International Business Machines Corporation | Method for automatically punctuating a speech utterance in a continuous speech recognition system |
CN105609107A (zh) * | 2015-12-23 | 2016-05-25 | 北京奇虎科技有限公司 | 一种基于语音识别的文本处理方法和装置 |
CN106484134A (zh) * | 2016-09-20 | 2017-03-08 | 深圳Tcl数字技术有限公司 | 基于安卓***的语音输入标点符号的方法及装置 |
CN106653030A (zh) * | 2016-12-02 | 2017-05-10 | 北京云知声信息技术有限公司 | 标点添加方法及装置 |
CN107221330A (zh) * | 2017-05-26 | 2017-09-29 | 北京搜狗科技发展有限公司 | 标点添加方法和装置、用于标点添加的装置 |
CN107291690A (zh) * | 2017-05-26 | 2017-10-24 | 北京搜狗科技发展有限公司 | 标点添加方法和装置、用于标点添加的装置 |
CN107247706A (zh) * | 2017-06-16 | 2017-10-13 | 中国电子技术标准化研究院 | 文本断句模型建立方法、断句方法、装置及计算机设备 |
Also Published As
Publication number | Publication date |
---|---|
CN109979435A (zh) | 2019-07-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107632980B (zh) | 语音翻译方法和装置、用于语音翻译的装置 | |
CN107291690B (zh) | 标点添加方法和装置、用于标点添加的装置 | |
CN107221330B (zh) | 标点添加方法和装置、用于标点添加的装置 | |
CN107291704B (zh) | 处理方法和装置、用于处理的装置 | |
US11640503B2 (en) | Input method, input device and apparatus for input | |
CN108628813B (zh) | 处理方法和装置、用于处理的装置 | |
CN107564526B (zh) | 处理方法、装置和机器可读介质 | |
CN108628819B (zh) | 处理方法和装置、用于处理的装置 | |
CN108073572B (zh) | 信息处理方法及其装置、同声翻译*** | |
CN108304412B (zh) | 一种跨语言搜索方法和装置、一种用于跨语言搜索的装置 | |
CN111368541B (zh) | 命名实体识别方法及装置 | |
CN107274903B (zh) | 文本处理方法和装置、用于文本处理的装置 | |
CN111369978B (zh) | 一种数据处理方法、装置和用于数据处理的装置 | |
CN111831806B (zh) | 语义完整性确定方法、装置、电子设备和存储介质 | |
CN110069624B (zh) | 文本处理方法及装置 | |
CN111128183A (zh) | 语音识别方法、装置和介质 | |
CN107424612B (zh) | 处理方法、装置和机器可读介质 | |
CN112735396A (zh) | 语音识别纠错方法、装置及存储介质 | |
CN111160047A (zh) | 一种数据处理方法、装置和用于数据处理的装置 | |
CN111640452B (zh) | 一种数据处理方法、装置和用于数据处理的装置 | |
CN107422872B (zh) | 一种输入方法、装置和用于输入的装置 | |
CN109979435B (zh) | 数据处理方法和装置、用于数据处理的装置 | |
CN110633017A (zh) | 一种输入方法、装置和用于输入的装置 | |
CN109887492B (zh) | 一种数据处理方法、装置和电子设备 | |
CN110780749B (zh) | 一种字符串纠错方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |