CN109901725B - 一种拼音串切分方法和装置 - Google Patents

一种拼音串切分方法和装置 Download PDF

Info

Publication number
CN109901725B
CN109901725B CN201711284974.7A CN201711284974A CN109901725B CN 109901725 B CN109901725 B CN 109901725B CN 201711284974 A CN201711284974 A CN 201711284974A CN 109901725 B CN109901725 B CN 109901725B
Authority
CN
China
Prior art keywords
segmentation result
segmentation
input
condition
syllable
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711284974.7A
Other languages
English (en)
Other versions
CN109901725A (zh
Inventor
姚波怀
张扬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sogou Technology Development Co Ltd
Original Assignee
Beijing Sogou Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sogou Technology Development Co Ltd filed Critical Beijing Sogou Technology Development Co Ltd
Priority to CN201711284974.7A priority Critical patent/CN109901725B/zh
Publication of CN109901725A publication Critical patent/CN109901725A/zh
Application granted granted Critical
Publication of CN109901725B publication Critical patent/CN109901725B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

本申请实施例公开了一种拼音串切分方法和装置,当根据输入的拼音串能够得到多个切分结果时,可以根据切分结果中各相邻音节分段间的输入间隔来判断切分结果是否满足合理性条件,满足该合理性条件的切分结果不仅是依据音节切分的,也能符合输入间隔的特点,在确定候选项时直接根据满足合理性条件的切分结果来确定出的候选项,使得针对该拼音串所展示的候选项中出现相对于用户输入需求无意义或不需要的候选项数量减少,从而减少了用户选择候选项的时间,提高了用户的输入体验。

Description

一种拼音串切分方法和装置
技术领域
本申请涉及输入法领域,特别是涉及一种拼音串切分方法和装置。
背景技术
输入法是指为将各种符号输入计算机或其他设备(如手机)而采用的编码方法,用户可以使用输入法便利的将需要的字符输入电子设备。例如在汉字输入法中,可以通过输入拼音串将汉字输入到电子设备中。
针对用户输入的拼音串,为了确定其对应的文字是什么,输入法需要将该拼音串进行切分,切分后的每一部分一般对应一个音节,并通过分隔符隔开,例如输入的拼音串为“wom”,一种切分结果可以是“wo’m”,音节“wo”和“m”通过分隔符“’”隔开。
然而,传统方式这种仅依据音节作为切分拼音串的方式,针对于同一拼音串一般会有多种切分方式,在用户输入拼音串有误或较长时,可能会导致切分得到的多种切分结果,大部分是相对于用户输入需求无意义的切分结果,而根据这些切分结果所展示的候选项会挤占有效切分结果所对应候选项,为用户选择候选项带来了困扰,延长了选择所需候选项的时间,降低了用户的输入体验。
发明内容
为了解决上述技术问题,本申请提供了一种拼音串切分方法,减少针对输入拼音串所展示的候选项中相对于用户输入需求无意义或不需要的候选项数量,从而减少了用户选择候选项的时间。
本申请实施例公开了如下技术方案:
第一方面,本申请实施例提供了一种拼音串切分方法,所述方法包括:
根据获取的拼音串切分得到的多个切分结果,其中任一个切分结果包括多个音节分段;
根据切分结果中各相邻音节分段间的输入间隔判断切分结果是否满足合理性条件;
根据满足所述合理性条件的切分结果确定针对所述拼音串的候选项。
可选的,所述根据切分结果中各相邻音节分段间的输入间隔判断切分结果是否满足合理性条件,包括:
根据切分结果中各相邻音节分段间的输入间隔以及音节分段的数量判断切分结果是否满足合理性条件。
可选的,所述根据切分结果中各相邻音节分段间的输入间隔判断切分结果是否满足合理性条件,包括:
获取输入所述拼音串的用户的历史输入间隔数据;
根据所述历史输入间隔数据以及切分结果中各相邻音节分段间的输入间隔判断切分结果是否满足所述合理性条件。
可选的,所述根据切分结果中各相邻音节分段间的输入间隔以及音节分段的数量判断切分结果是否满足合理性条件,包括:
获取输入所述拼音串的用户的历史输入音节数据;
根据所述历史输入音节数量、切分结果中各相邻音节分段间的输入间隔,以及音节分段的数量判断切分结果是否满足合理性条件。
可选的,在所述根据满足所述合理性条件的切分结果确定针对所述拼音串的候选项之前,还包括:
对满足所述合理性条件的切分结果中的音节分段进行纠错。
可选的,若所述满足所述合理性条件的切分结果中包括第一切分结果和第二切分结果,所述根据满足所述合理性条件的切分结果确定针对所述拼音串的候选项,包括:
根据所述第一切分结果与所述合理性条件的满足程度,对针对所述第一切分结果的候选项进行排序;
根据所述第二切分结果与所述合理性条件的满足程度,对针对所述第二切分结果的候选项进行排序;
根据针对所述第一切分结果的排序结果和针对所述第二切分结果的排序结果确定针对所述拼音串的候选项以及展示顺序。
第二方面,本申请实施例提供了一种拼音串切分装置,所述装置包括:
切分模块,用于根据获取的拼音串切分得到的多个切分结果,其中任一个切分结果包括多个音节分段;
判断模块,用于根据切分结果中各相邻音节分段间的输入间隔判断切分结果是否满足合理性条件;
确定模块,用于根据满足所述合理性条件的切分结果确定针对所述拼音串的候选项。
可选的,所述判断模块包括:
第一判断单元,用于根据切分结果中各相邻音节分段间的输入间隔以及音节分段的数量判断切分结果是否满足合理性条件。
可选的,所述判断模块包括:
历史输入间隔数据获取单元,用于获取输入所述拼音串的用户的历史输入间隔数据;
第二判断单元,用于根据所述历史输入间隔数据以及切分结果中各相邻音节分段间的输入间隔判断切分结果是否满足所述合理性条件。
可选的,所述第一判断单元包括:
历史输入音节数据获取子单元,用于获取输入所述拼音串的用户的历史输入音节数据;
第一判断子单元,用于根据所述历史输入音节数量、切分结果中各相邻音节分段间的输入间隔,以及音节分段的数量判断切分结果是否满足合理性条件。
可选的,所述装置还包括:
纠错模块,用于对满足所述合理性条件的切分结果中的音节分段进行纠错。
可选的,若所述满足所述合理性条件的切分结果中包括第一切分结果和第二切分结果,所述根据满足所述合理性条件的切分结果确定针对所述拼音串的候选项,所述装置包括:
第一排序模块,用于根据所述第一切分结果与所述合理性条件的满足程度,对针对所述第一切分结果的候选项进行排序;
第二排序模块,用于根据所述第二切分结果与所述合理性条件的满足程度,对针对所述第二切分结果的候选项进行排序;
确定候选项模块,用于根据针对所述第一切分结果的排序结果和针对所述第二切分结果的排序结果确定针对所述拼音串的候选项以及展示顺序。
第三方面,本申请实施例提供了一种用于拼音串切分的处理设备,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
根据获取的拼音串切分得到的多个切分结果,其中任一个切分结果包括多个音节分段;
根据切分结果中各相邻音节分段间的输入间隔判断切分结果是否满足合理性条件;
根据满足所述合理性条件的切分结果确定针对所述拼音串的候选项。
第四方面,本申请实施例提供了一种机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行第一方面中一个或多个所述的拼音串切分方法。
由上述技术方案可以看出,当根据输入的拼音串能够得到多个切分结果时,可以根据切分结果中各相邻音节分段间的输入间隔来判断切分结果是否满足合理性条件,满足该合理性条件的切分结果不仅是依据音节切分的,也能符合输入间隔的特点,从而可以将部分虽然依据音节切分,但音节分段间输入间隔过小的切分结果淘汰,在确定候选项时可以不用考虑这部分被淘汰的切分结果,而根据满足合理性条件的切分结果来确定出的候选项,使得针对该拼音串所展示的候选项中出现相对于用户输入需求无意义或不需要的候选项数量减少,从而减少了用户选择候选项的时间,提高了用户的输入体验。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种拼音串切分方法流程图;
图2为本申请实施例提供的一种确定拼音串候选项及展示顺序的方法流程图;
图3为本申请实施例提供的一种拼音串切分装置的结构框图;
图4为本申请实施例提供的一种用于拼音串切分的装置的框图;
图5为本申请实施例提供的一种用于拼音串切分的服务器的框图。
具体实施方式
下面结合附图,对本申请的实施例进行描述。
用户使用输入法时,通常通过输入拼音串将汉字输入至电子设备中。为了确定用户输入的拼音串对应的汉字,输入法一般以音节为单位切分用户输入的拼音串,例如,用户输入的拼音串为“women”,输入法对该拼音串进行切分,得到“wo”和“men”两个音节,进而显示各音节对应的汉字作为用户的候选项。
然而,在用户输入拼音串有误或者拼音串较长的情况下,仅以音节为依据对用户输入的拼音串进行切分,会切分得到针对于该拼音串的多种切分结果,其中,大部分切分结果对于用户来说可能是毫无意义的切分结果,并且,对应于这些切分结果的候选项会挤占与有效切分结果对应的候选项,进而导致用户在选择候选项时无法快速地在候选项中找到符合输入需求的选项。
例如,用户需要在输入法中输入“我们”,但在输入拼音串的过程中,误将“women”输入成“womwn”。相应地,输入法会先以音节为依据,将“womwn”切分为“wo”、“m”、“w”和“n”,进而将与音节“wo”、“m”、“w”和“n”对应的汉字作为候选项,显示在候选项区域的前面。而将“womwn”切分为“wo”和“mwn”,对“mwn”进行纠错得到“men”,再将对应于音节“wo”和“men”的汉字作为候选项,该候选项将被显示在候选项区域的后面。因而,导致用户在候选项区域中无法快速地找到符合输入需求的选项,用户体验较差。
为了解决上述现有技术中的问题,本申请提供了一种拼音串切分的方法,在切分拼音串时,根据切分结果中各相邻音节分段间的输入间隔,判断各切分结果是否合理,进而仅根据合理的切分结果确定候选项。
具体的,对获取的拼音串进行切分,得到各个包含有多个音节分段的切分结果,根据各个切分结果中各相邻音节分段间的输入间隔,判断各个切分结果是否满足合理性条件,将不满足合理性条件的切分结果淘汰,根据满足合理性条件的切分结果确定所获取的拼音串的候选项。
本申请提供的拼音串切分方法,根据各切分结果中各相邻音节分段间的输入间隔,判断各切分结果是否满足合理性条件,在此条件下获得的满足合理性条件的切分结果不仅是依据音节切分的,同时也符合输入间隔的特点,并且淘汰了依据音节切分,但音节分段间的输入间隔过小的切分结果。因此,在确定候选项时,无需考虑被淘汰的音节分段间输入间隔过小的切分结果,仅需要根据满足合理性条件的切分结果确定候选项,相应地,针对该拼音串所展示的候选项中对于用户输入需求无意义或不需要的候选项数量减少,从而减少了用户选择候选项的时间,提高了用户的输入体验。
实施例一
参见图1,为本实施例提供的一种拼音串切分方法的流程图,该方法包括:
步骤101:根据获取的拼音串切分得到的多个切分结果,其中任一个切分结果包括多个音节分段。
拼音串由用户在此次输入中输入的所有拼音组成,以音节为依据,对获取的拼音串进行切分,得到多个切分结果,其中,每个切分结果中包括有多个音节分段。
例如,用户在一次输入中输入了拼音串“women”,以音节为依据,可以将该拼音串切分得到多个切分结果,其中,一种切分结果包括音节分段“wo”和“men”,还有一种切分结果包括音节分段“wo”、“me”和“n”。
步骤102:根据切分结果中各相邻音节分段间的输入间隔判断切分结果是否满足合理性条件。
步骤103:根据满足合理性条件的切分结果确定针对拼音串的候选项。
用户输入时,可能会因大脑习惯导致输入的相邻音节间的输入间隔,与音节内相邻拼音间的输入间隔不同,一般来说,相邻音节间的输入间隔较长,而音节内相邻的拼音间的输入间隔较短。
因此,获取各个切分结果中各相邻音节分段间的输入间隔,可以根据切分结果中各相邻音节分段间的输入间隔,判断该切分结果中各音节分段间的输入间隔是否满足用户输入相邻音节间的间隔,若切分结果中各音节分段间的输入间隔满足用户输入相邻音节间的输入间隔,则说明该切分结果中的音节分段可能与用户输入的音节相同;若切分结果中各音节分段间的输入间隔较短,不满足用户输入相邻音节间的输入间隔,则说明该切分结果中的音节分段可能是在切分拼音串的过程中,将用户输入的同一音节中两个相邻的拼音切分开而得到的音节分段,而不是用户输入的音节。
合理性条件作为判断依据,根据各切分结果中音节分段间的输入间隔,判断该切分结果中的音节分段,是否可能为用户输入的音节。若切分结果满足合理性条件,则说明该切分结果中的音节分段可能为用户输入的音节,反之,若切分结果不满足合理性条件,则说明该切分结果中的音节分段不可能为用户输入的音节。
具体实现时,可以获取某个切分结果中各相邻音节分段间输入间隔的平均值,判断该切分结果中各相邻音节分段间输入间隔的平均值是否满足合理性条件,该合理性条件为结合实际情况针对于各相邻音节分段间输入间隔的平均值而设置的条件。
例如,设定合理性条件为各切分结果中各相邻音节分段间输入间隔的平均值大于或等于0.5s,切分拼音串“women”,获得两个切分结果,第一个切分结果为“wo”和“men”,第二个切分结果为“wo”、“me”和“n”。在第一个切分结果中,“wo”和“men”两个音节分段之间的输入间隔为0.55s,相应地,该切分结果的各相邻音节分段输入间隔的平均值也为0.55s,满足设置的合理性条件,则说明第一个切分结果中的音节分段可能为用户输入的音节。在第二个切分结果中,“wo”和“me”两个音节分段之间的输入间隔为0.55s,“me”和“n”两个音节分段之间的输入间隔为0.2s,计算各相邻音节分段间输入间隔的平均值为0.375s,该平均值不满足合理性条件,则说明该第二个切分结果中的音节分段可能不是用户输入的音节。
当然,还可以对每个切分结果中各相邻音节分段输入间隔进行其它的处理,判断与各个切分结果对应的处理结果,是否满足合理性条件,相应地,该合理性条件为对应于该处理方式设置的条件。在此不做任何限定。
不考虑不满足合理性条件的切分结果,根据满足合理性条件的切分结果确定获取的拼音串的候选项,具体的,可以确定对应于切分结果中各音节分段的汉字,判断切分结果中各音节分段对应的汉字是否能够组成词语,进而将能够组成词语的汉字组合作为候选项进行展示,当然也可以采用其他方式确定满足合理性条件的候选项,在此不做任何限定。
上述拼音串切分方法,根据各切分结果中各相邻音节分段间的输入间隔,判断各切分结果是否满足合理性条件,在此条件下获得的满足合理性条件的切分结果不仅是依据音节切分的,同时也符合输入间隔的特点,并且淘汰了依据音节切分,但音节分段间的输入间隔过小的切分结果。因此,在确定候选项时,无需考虑被淘汰的音节分段间输入间隔过小的切分结果,仅需要根据满足合理性条件的切分结果确定候选项,相应地,针对该拼音串所展示的候选项中对于用户输入需求无意义或不需要的候选项数量减少,从而减少了用户选择候选项的时间,提高了用户的输入体验。
对于步骤202,在根据切分结果中各相邻音节分段间的输入间隔判断切分结果是否满足合理性条件时,为了提高所筛选出的满足合理性条件的切分结果的准确率,还可以结合音节分段的数量进行判断,即根据切分结果中各相邻音节分段间的输入间隔以及音节分段的数量判断切分结果是否满足合理性条件。
对拼音串进行切分时,可以依据音节将拼音串切分得到多个切分结果,且各个切分结果中均包括有多个音节分段,判断各切分结果是否满足合理性条件时,除了需要考虑各切分结果中各相邻音节分段间的输入间隔,还可以考虑各切分结果中的音节分段数量,一般来说,用户使用输入法进行输入时,一次输入的音节数量处于一定的范围内,用户一般不会在一次输入中输入过多或过少的音节。因此,当切分结果中的音节分段的数量不处于正常音节输入数量的范围内时,则说明该切分结果可能不是用户所需要的切分结果,相应的,该切分结果中的音节分段可能不是用户输入的音节。
例如,获取某个切分结果中包含有50个音节分段,而用户一般不会在一次输入中输入50个音节,因此,可以认为该包含有50个音节分段的切分结果并不是用户所需要的切分结果。
因此,将切分结果中各相邻音节分段间的输入间隔与切分结果中的音节分段的数量结合起来,判断各切分结果是否满足合理性条件,可以进一步筛选出更为用户所需要的切分结果。
下面介绍一种本实施例提供的可选方法,该方法可以根据切分结果中各相邻音节分段间的输入间隔和音节分段数量,判断切分结果是否满足合理性条件:
设置以切分结果中各相邻音节分段间的输入间隔的平均值为变量的第一函数,切分结果中各相邻音节分段间的输入间隔的平均值越接近用户输入相邻音节时的输入间隔,则该切分结果对应的第一函数值越大,反之,切分结果中各相邻音节分段间的输入间隔的平均值与用户输入相邻音节时的输入间隔相差越多,则该切分结果对应的第一函数值越小。
设置以切分结果中音节分段的数量为变量的第二函数,若切分结果中音节分段的数量处于正常输入音节数量的范围内,则对应于该切分结果的第二函数值较大,若切分结果中音节分段的数量不处于正常输入音节数量的范围,或与该范围相差较多,则对应于该切分结果的第二函数值较小。
设置合理性条件为对应于切分结果的第一函数值和第二函数值的和大于或等于某预设值,相应地,将对应于各切分结果的第一函数值和第二函数值相加,得到对应于各切分结果的函数值和,进而判断各切分结果的函数值和是否大于或等于合理性条件中的预设值,若大于或等于合理性条件中的预设值,则说明该切分结果满足合理性条件,反之,则不满足合理性条件。
当然,还可以采用其他方式,将切分结果中各相邻音节分段间的输入间隔与切分结果中音节分段的数量结合起来,判断切分结果是否满足合理性条件,在此不做任何限定。
将切分结果中各相邻音节分段间的输入间隔与音节分段数量相结合,判断各切分结果是否满足合理性条件,可以进一步提高切分结果筛选的准确率,可以将一些满足各音节分段间的输入间隔所需的条件,但是音节分段数量不合理的切分结果进一步淘汰,进一步减少了对于用户来说无意义的候选项。
由于不同的用户输入间隔习惯不同,因此,还可以结合用户的输入间隔习惯,判断各切分结果是否满足合理性条件。
具体的,可以先获取输入拼音串的用户的历史输入间隔数据。其中,历史输入间隔数据指的是用户使用输入法输入时,相邻音节之间的输入间隔,例如,某用户使用输入法输入时,输入两个相邻的音节中间需要间隔0.3s,则该用户的历史输入间隔数据为0.3s。并且,针对于不同的用户,其历史输入间隔数据可能不同。
具体获取用户的历史输入间隔数据时,可以获取输入设备的标识或输入法当前的登陆账号,相应地,根据输入设备的标识或输入法当前的登陆账号,确定输入拼音串的用户,进而获取与该用户对应的历史输入间隔数据。当然,还可以采用其他方法获取用户的历史输入间隔数据,在此不做任何限定。
根据该历史输入间隔数据以及切分结果中各相邻音节分段间的输入间隔判断该切分结果是否满足合理性条件。
不同的用户输入拼音串时,输入的各相邻音节分段间的输入间隔习惯可能不同,若针对于所有用户均设置相同的合理性条件,可能会因用户个人的输入间隔习惯不同,而导致以该相同的合理性条件为依据,对各切分结果进行判断而筛选出的切分结果并不准确,相应地,根据筛选出的切分结果确定出的候选项可能不是用户需要的候选项。
例如,获取某用户的历史输入间隔数据为0.3s,而***为所有用户设置相同的合理性条件,该合理性条件为切分结果中各相邻音节分段间的输入间隔的平均值大于或等于0.5s。但是按照该用户的输入习惯,正常输入时相邻音节分段间的输入间隔即为0.3s,相对于合理性条件中的0.5s要短,若以合理性条件中的0.5s作为判断依据,则可能因切分结果中各相邻音节分段间的输入间隔较短,而将包含有该用户输入音节的切分结果判断为不满足合理性条件的切分结果,进而不根据该切分结果确定候选项,即无法得到用户需要的候选项。
为了防止上述现象的发生,可以将获取的用户的历史输入间隔数据和切分结果中各相邻音节分段间的输入间隔进行结合,进而判断各切分结果是否满足合理性条件。
需要说明的是,在一些情况下采集的用户输入间隔数据参考价值不高,根据该种情况下的用户输入间隔数据确定出的历史输入间隔数据,可能无法准确的反映用户的输入间隔习惯。例如,用户在走路时使用输入法进行输入,此时的输入间隔数据可能较长,或者,用户在输入的过程中因受到外界影响,而减慢或中断输入,也会导致获取到的输入间隔数据较长,利用这些情况下的输入间隔数据确定出的历史输入间隔数据,无法准确的反映用户的输入间隔习惯。因此,在获取的用户历史输入间隔数据时,需要对用户的历史输入间隔数据进行筛选,滤除历史输入间隔数据中不合理的输入间隔数据,根据剩余的较为合理的输入间隔数据确定用户的历史输入间隔数据。
下面介绍两种本实施例提供的可选的,判断切分结果是否满足合理性条件的方法:
第一种方法,获取该输入拼音串的用户的历史输入间隔数据,可以根据该用户的历史输入间隔数据设置针对于该用户的合理性条件,或者对预设合理性条件进行调整,得到符合该用户输入习惯的合理性条件。进而以该合理性条件作为判断的标准,对各切分结果中各相邻音节分段间的输入间隔进行判断,判断各切分结果是否满足该用户输入习惯相关的合理性条件。进而,根据满足该合理性条件的切分结果确定候选项。
例如,获取某用户的历史输入间隔数据为0.3s,即该用户输入拼音串时,相邻音节分段间的输入间隔一般为0.3s,相应地,可以针对于该用户,设置合理性条件为切分结果中各相邻音节分段间的输入间隔的平均值大于或等于0.3s。计算各切分结果中各相邻音节分段间的输入间隔的平均值,淘汰输入间隔平均值小于0.3s的切分结果,仅根据输入间隔大于或等于0.3s的切分结果确定候选项。
第二种方法,在获取到输入拼音串的用户的历史输入间隔数据后,根据该历史输入间隔数据和预设的合理性条件间的差异,对各相邻音节分段间的输入间隔进行调整,进而判断调整后的切分结果中的各相邻音节分段间的输入间隔是否满足合理性条件。
例如,获取某用户的历史输入间隔数据为0.3s,而预设合理性条件为切分结果中各相邻音节分段间的输入间隔的平均值大于或等于0.5s,由于按照该用户的输入***均值增加0.2s,根据该调整过的各切分结果中各相邻音节分段间的输入间隔的平均值,判断各切分结果是否满足合理性条件。
此外,还可以在判断切分结果是否满足合理性条件时,进一步考虑切分结果中的音节分段的数量,即根据切分结果中各相邻音节分段间的输入间隔、用户的历史输入间隔数据和切分结果中音节分段的数量,判断切分结果是否满足合理性条件,进一步提高所筛选出的满足合理性条件的切分结果的准确率。
通过结合用户的输入间隔习惯,而筛选出的满足合理性条件的切分结果中包含的音节分段为用户输入的音节的可能性更高,相应地,根据该满足合理性条件的切分结果确定出的候选项,为用户所需要的候选项的可能性更高。
此外,在一些情况下,用户的输入间隔数据的参考价值可能并不太高,例如,在用户使用输入法进行输入的同时,正在做其他事情,此时的输入间隔可能与用户平常使用输入法进行输入时的输入间隔不同。例如,用户在走路时使用输入法进行输入的输入间隔可能与正常输入时的输入间隔不同,或者用户在输入的过程中受外界影响,而导致输入减慢或中断,此时用户的输入间隔也与正常输入时的输入间隔不同。因此,对于上述情况,若仅根据切分结果中音节分段间的输入间隔筛选满足合理性条件的切分结果,根据得到的满足合理性条件的切分结果确定出的候选项可能不是用户所期望的候选项。因此,还可以获取用户输入音节数据的习惯,结合用户的输入音节数据的习惯,判断各切分结果是否满足合理性条件。
具体的,可以先获取输入所述拼音串的用户的历史输入音节数据。其中,历史输入音节数据指的是,用户在一次输入中经常输入的音节的数量,例如,某用户在一次输入中经常输入2个音节,则该用户的历史输入音节数量为2。并且,针对于不同的用户,用户的历史输入音节数据可能不同。
具体获取用户的历史输入音节数据时,可以获取输入设备的标识或输入法当前的登陆账号,相应地,根据输入设备的标识或输入法当前的登陆账号,确定输入拼音串的用户,进而获取与该用户对应的历史输入音节数据。当然,还可以采用其他方法获取用户的历史输入音节数据,在此不做任何限定。
根据历史输入音节数据、切分结果中各相邻音节分段间的输入间隔,以及音节分段的数量判断切分结果是否满足合理性条件。
获取各切分结果中所包含的音节分段的数量,根据该用户的历史输入数据,判断各切分结果中包含的音节分段的数量与该用户的输入音节数量的习惯符合程度;根据切分结果中各相邻音节分段间的输入间隔,判断切分结果中各相邻音节分段间的输入间隔与正常输入音节间的间隔的符合程度;将音节分段数量与用户输入音节数量习惯的符合程度,和各相邻音节分段间的输入间隔与正常输入音节间的间隔的符合程度结合起来,判断该切分结果是否满足合理性条件。
下面介绍一种本实施例提供的可选的判断切分结果是否满足合理性条件的方法:
结合用户的历史输入音节数据设置第三函数,该第三函数以切分结果中音节分段数量为变量,不同音节分段数量对应的第一函数值不同,若切分结果中包含的音节分段的数量较为接近该用户的历史输入音节数据,该切分结果对应的第一函数值较大,反之,若切分结果中包含的音节分段数量与该用户的历史输入音节数量相差较多,则该切分结果对应的第一函数值较小。
设置第四函数,该函数以切分结果中各相邻音节分段间的输入间隔为变量,将切分结果中各相邻音节分段间的输入间隔带入该函数,相应地,各相邻音节分段间的输入间隔越符合正常输入时相邻音节间的输入间隔,则该切分结果对应的函数值越大,反之,各相邻音节分段间的输入间隔和正常输入时相邻音节间的输入间隔相差越多,则该切分结果对应的函数值越小。
设置合理性条件为第三函数值和第四函数值之和大于或等于某一预设合理性条件值,因此,切分结果对应的第三函数值与第四函数值之和大于或等于该预设合理性条件值,则说明该切分结果满足合理性条件,反之,则说明该切分结果不满足合理性条件。
当然也可以采用其他方式,根据历史输入音节数量、切分结果中各相邻音节分段间的输入间隔,以及音节分段的数量判断切分结果是否满足合理性条件,在此不做任何限定。
为了便于理解,下面对上述方法进行举例说明:
获取某用户的历史输入音节数据为2,即说明该用户在一次输入中一般输入两个音节。针对该用户某次输入的拼音串“sougou”进行切分,得到两种切分结果,第一种切分为“sou”和“gou”两个音节分段,第二种是切分为“s”、“ou”、“g”和“ou”四个音节分段,设第三函数为g(x),其中,x代表各切分结果中的音节分段数,由于第一种切分结果中音节分段数与该用户的历史输入音节数量相同,因此,对应于第一种切分结果的g(x1)数值较大,为200,而第二种切分结果中的音节分段数与该用户的历史输入音节数量相差较多,则对应于第二种切分结果的g(x2)数值较小,为50。
设置以切分结果中各相邻的音节分段间的输入间隔为变量的第四函数为f(y),其中y代表各切分结果中各相邻音节分段间的输入间隔的平均值,将第一种切分结果中各相邻音节分段间的输入间隔的平均值带入f(y),得到第一切分结果对应的f(y1)为150,将第二种切分结果中各相邻音节分段间的输入间隔的平均值带入f(y),得到第二切分结果对应的f(y2)为70。
由于预先设置的合理性条件为两个函数之和大于或等于300,显然,针对于第一种切分结果两个函数之和为350,满足合理性条件,而针对于第二种切分结果的两个函数之和仅为120,并不满足合理性条件。
在此,将用户输入音节数量的习惯与切分结果中各相邻音节分段间的输入间隔结合起来,判断各切分结果是否满足合理性条件,进一步提高了切分结果筛选的准确率,将一些不符合用户输入习惯的切分结果淘汰,或将不太符合用户输入习惯的切分结果对应的候选项放置在展示区域的后面,以防作为干扰项影响用户选择需要的候选项。
此外,在根据满足合理性条件的切分结果确定针对拼音串的候选项之前,还可以对各满足合理性条件的切分结果中的音节分段进行纠错处理。
具体的,若满足合理性条件的切分结果中存在有误输入的拼音,可以对该满足合理性条件的切分结果中的音节分段进行纠错。例如,获得拼音串“womwn”满足合理性条件的切分结果中包括音节分段“wo”和“mwn”,对“mwn”进行纠错,得到正确的“men”,进而根据纠错后的切分结果中的音节分段“wo”和“men”确定的候选项。
在纠错时,不需要考虑不满足合理性条件的切分结果,仅对满足合理性条件的切分结果进行纠错,即不需要对无意义的切分结果进行纠错,减少了***的纠错工作量,提高了纠错效率。
一般对某个拼音串的切分结果进行判断,判断各个切分结果是否满足合理性条件后,会存在多个切分结果均满足合理性条件的情况,在此情况下可以对多个切分结果对应的候选项进行排序,以便于用户快速地选择所需要的选项。
实施例二
参见图2,为本实施例提供的确定拼音串候选项及展示顺序的方法的流程图,本实施例以存在两个满足合理性条件的切分结果为例,对该方法进行介绍,当然,存在两个以上满足合理性条件的切分结果时,同样可采用该方法确定拼音串候选项及展示顺序。
步骤201:根据第一切分结果与合理性条件的满足程度,对针对第一切分结果的候选项进行排序。
步骤202:根据第二切分结果与合理性条件的满足程度,对针对第二切分结果的候选项进行排序。
获取各切分结果与合理性条件的满足程度,若某个切分结果与合理性条件的满足程度较高,则说明该切分结果中的音节分段为用户输入的音节的可能性较高,反之,若某个切分结果与合理性条件的满足程度较低,则说明该切分结果为用户输入的音节的可能性相对较低。
在对根据满足合理性条件的切分结果确定候选项时,针对于同一切分结果可能会确定出多个候选项,此时,可以根据输入法中的其他功能,将对应于同一切分结果的候选项进行排序。具体的,可以根据用户的组词习惯对候选项进行排序,将较为符合用户组词习惯的候选项排在前面。
需要说明的是,步骤201和步骤202为两个并列的步骤,执行顺序不分先后,可以先执行步骤201,再执行步骤202,也可以先执行步骤202,再执行步骤201,也可以同时执行步骤201和步骤202,在此不做任何限定。
步骤203:根据针对第一切分结果的排序结果和针对第二切分结果的排序结果确定针对拼音串的候选项以及展示顺序。
将针对于与各切分结果对应的候选项的排序结果进行综合,以确定针对于用户输入的拼音串的候选项及展示顺序。具体实现时,综合考虑各切分结果与合理性条件之间的满足程度,以及输入法其他功能对与各切分结果对应的候选项的影响,在与各满足合理性条件的切分结果对应的候选项中,选择能够展示在展示区的候选项,以及在展示区展示的候选项的展示顺序。
下面介绍一种本实施例提供的可选的确定拼音串候选项及展示顺序的具体实现方法:
根据各切分结果与合理性条件的满足程度,对与各切分结果对应的候选项进行第一项打分,对应于同一切分结果的不同候选项,第一项得分Score1相同。结合输入法中其他功能,对根据针对于同一切分结果的候选项进行第二项打分Score2。分别为第一项得分Score1和第二项得分Score1设置权重w1和w2,采用线性加权的方式,按照对应的权重综合各候选项的第一项得分和第二项得分,得到对应于各候选项的总得分Score,即Score=w1*Score1+w2*Score2。进而根据各候选项的总得分Score对针对于同一切分结果的各候选项排序。其中,为第一项得分w1和第二项得分w2设置的权重,可以根据历史经验进行设置。
获取对应于满足合理性条件的切分结果的候选项的总得分Score,进而根据所有候选项的总得分Score,为所有候选项设置展示顺序,具体的,为总得分较高的候选项设置较为靠前的展示顺序,对于总得分较低的候选项,可能将其淘汰或为为其设置较为靠后的展示顺序。
为了便于理解,下面对上述方法进行举例说明:
获取某用户输入的拼音串为“fangan”,针对于拼音串的切分结果中,有两个切分结果均满足合理性条件。第一切分结果包含音节分段“fang”和“an”,第二切分结果包括音节分段“fan”和“gan”。
针对于第一切分结果的候选项包括“方案”和“房暗”,由于该第一切分结果与合理性条件的满足程度较高,对应于第一切分结果的候选项的第一项得分均为450,结合输入法中用户的组词习惯,对针对于第一切分结果的候选项进行第二项打分,由于“方案”相对于“房暗”更符合用户的组词习惯,因此,候选项“方案”的第二项得分为200,候选项“房暗”的第二项得分为10。分别为第一项得分和第二项得分分配不同的权重,其中,第一项得分权重为0.9,第二项得分的权重为0.1。采用线性加权的计算方式,计算对应于候选项“方案”的总得分为425,计算对应于“房暗”的总得分为406。相应地,针对于第一切分结果,“方案”排序比“房暗”靠前。
针对于第二切分结果的候选项包括“反感”和“烦感”,由于该第二切分结果与合理性条件的满足程度较低,对应于第二切分结果的候选项的第一项得分均为440,结合输入法中用户的组词习惯,对针对于第二切分结果的候选项进行第二项打分,由于“反感”相对于“烦感”更符合用户的组词习惯,因此,候选项“反感”的第二项得分为200,候选项“烦感”的第二项得分为50。按照同样的权重,计算对应于第二切分结果的各候选项的总得分,具体的,计算“反感”的总得分为416,计算“烦感”的总得分为401。相应地,针对于第二切分结果,“反感”排序比“烦感”靠前。
将针对于第一切分结果的候选项的排序结果,与针对于第二切分结果的候选项的排序结果结合起来,即按照各候选项的总得分,对针对于第一切分结果的候选项以及针对于第二切分结果的候选项按照总得分从高到低进行排序,得到候选项展示顺序,即候选项展示顺序从前到后为“方案”、“反感”、“房暗”、“烦感”。
本实施例提供的方法,在各满足合理性条件的切分结果中,进一步根据各切分结果与合理性条件的满足程度,确定与各切分结果对应的候选项的展示顺序,以便用户在选择候选项时,能够快速地找到所需要的候选项。
基于前述实施例提供的一拼音串切分方法,本实施例提供了一种拼音串切分装置,图3示出了一种拼音串切分装置的结构框图,所述装置包括:
切分模块301,用于根据获取的拼音串切分得到的多个切分结果,其中任一个切分结果包括多个音节分段;
判断模块302,用于根据切分结果中各相邻音节分段间的输入间隔判断切分结果是否满足合理性条件;
确定模块303,用于根据满足所述合理性条件的切分结果确定针对所述拼音串的候选项。
可选的,所述判断模块包括:
第一判断单元,用于根据切分结果中各相邻音节分段间的输入间隔以及音节分段的数量判断切分结果是否满足合理性条件。
可选的,所述判断模块包括:
历史输入间隔数据获取单元,用于获取输入所述拼音串的用户的历史输入间隔数据;
第二判断单元,用于根据所述历史输入间隔数据以及切分结果中各相邻音节分段间的输入间隔判断切分结果是否满足所述合理性条件。
可选的,所述第一判断单元包括:
历史输入音节数据获取子单元,用于获取输入所述拼音串的用户的历史输入音节数据;
第一判断子单元,用于根据所述历史输入音节数量、切分结果中各相邻音节分段间的输入间隔,以及音节分段的数量判断切分结果是否满足合理性条件。
可选的,所述装置还包括:
纠错模块,用于对满足所述合理性条件的切分结果中的音节分段进行纠错。
可选的,若所述满足所述合理性条件的切分结果中包括第一切分结果和第二切分结果,所述根据满足所述合理性条件的切分结果确定针对所述拼音串的候选项,所述装置包括:
第一排序模块,用于根据所述第一切分结果与所述合理性条件的满足程度,对针对所述第一切分结果的候选项进行排序;
第二排序模块,用于根据所述第二切分结果与所述合理性条件的满足程度,对针对所述第二切分结果的候选项进行排序;
确定候选项模块,用于根据针对所述第一切分结果的排序结果和针对所述第二切分结果的排序结果确定针对所述拼音串的候选项以及展示顺序。
上述拼音串切分装置,根据各切分结果中各相邻音节分段间的输入间隔,判断各切分结果是否满足合理性条件,在此条件下获得的满足合理性条件的切分结果不仅是依据音节切分的,同时也符合输入间隔的特点,并且淘汰了依据音节切分,但音节分段间的输入间隔过小的切分结果。因此,在确定候选项时,无需考虑被淘汰的音节分段间输入间隔过小的切分结果,仅需要根据满足合理性条件的切分结果确定候选项,相应地,针对该拼音串所展示的候选项中对于用户输入需求无意义或不需要的候选项数量减少,从而减少了用户选择候选项的时间,提高了用户的输入体验。
图4是根据一示例性实施例示出的一种用于拼音串切分的装置400的框图。例如,装置400可以是机器人,移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图4,装置400可以包括以下一个或多个组件:处理组件402,存储器404,电源组件406,多媒体组件408,音频组件410,输入/输出(I/O)的接口412,传感器组件414,以及通信组件416。
处理组件402通常控制装置400的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理元件402可以包括一个或多个处理器420来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件402可以包括一个或多个模块,便于处理组件402和其他组件之间的交互。例如,处理部件402可以包括多媒体模块,以方便多媒体组件408和处理组件402之间的交互。
存储器404被配置为存储各种类型的数据以支持在装置400的操作。这些数据的示例包括用于在装置400上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器404可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件406为装置400的各种组件提供电力。电源组件406可以包括电源管理***,一个或多个电源,及其他与为装置400生成、管理和分配电力相关联的组件。
多媒体组件408包括在所述装置400和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件408包括一个前置摄像头和/或后置摄像头。当装置400处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。
音频组件410被配置为输出和/或输入音频信号。例如,音频组件410包括一个麦克风(MIC),当装置400处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器404或经由通信组件416发送。在一些实施例中,音频组件410还包括一个扬声器,用于输出音频信号。
I/O接口412为处理组件402和***接口模块之间提供接口,上述***接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件414包括一个或多个传感器,用于为装置400提供各个方面的状态评估。例如,传感器组件414可以检测到装置400的打开/关闭状态,组件的相对定位,例如所述组件为装置400的显示器和小键盘,传感器组件414还可以检测装置400或装置400一个组件的位置改变,用户与装置400接触的存在或不存在,装置400方位或加速/减速和装置400的温度变化。传感器组件414可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件414还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件414还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件416被配置为便于装置400和其他设备之间有线或无线方式的通信。装置400可以接入基于通信标准的无线网络,如WiFi,2G或8G,或它们的组合。在一个示例性实施例中,通信部件416经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中,所述通信部件416还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置400可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器404,上述指令可由装置400的处理器420执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由移动终端的处理器执行时,使得移动终端能够执行一种拼音串切分方法,所述方法包括:
根据获取的拼音串切分得到的多个切分结果,其中任一个切分结果包括多个音节分段;
根据切分结果中各相邻音节分段间的输入间隔判断切分结果是否满足合理性条件;
根据满足所述合理性条件的切分结果确定针对所述拼音串的候选项。
图5是本发明实施例中服务器的结构示意图。该服务器500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以***处理器(central processing units,CPU)522(例如,一个或一个以上处理器)和存储器532,一个或一个以上存储应用程序542或数据544的存储介质530(例如一个或一个以上海量存储设备)。其中,存储器532和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器522可以设置为与存储介质530通信,在服务器500上执行存储介质530中的一系列指令操作。
服务器500还可以包括一个或一个以上电源524,一个或一个以上有线或无线网络接口550,一个或一个以上输入输出接口558,一个或一个以上键盘554,和/或,一个或一个以上操作***541,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质可以是下述介质中的至少一种:只读存储器(英文:read-only memory,缩写:ROM)、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备及***实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的设备及***实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述,仅为本申请的一种具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。

Claims (12)

1.一种拼音串切分方法,其特征在于,所述方法包括:
根据获取的拼音串切分得到的多个切分结果,其中任一个切分结果包括多个音节分段;
根据切分结果中各相邻音节分段间的输入间隔判断切分结果是否满足合理性条件,所述根据切分结果中各相邻音节分段间的输入间隔判断切分结果是否满足合理性条件,包括:根据切分结果中各相邻音节分段间的输入间隔以及音节分段的数量判断切分结果是否满足合理性条件;
根据满足所述合理性条件的切分结果确定针对所述拼音串的候选项。
2.根据权利要求1所述的方法,其特征在于,所述根据切分结果中各相邻音节分段间的输入间隔判断切分结果是否满足合理性条件,包括:
获取输入所述拼音串的用户的历史输入间隔数据;
根据所述历史输入间隔数据以及切分结果中各相邻音节分段间的输入间隔判断切分结果是否满足所述合理性条件。
3.根据权利要求1所述的方法,其特征在于,所述根据切分结果中各相邻音节分段间的输入间隔以及音节分段的数量判断切分结果是否满足合理性条件,包括:
获取输入所述拼音串的用户的历史输入音节数量;
根据所述历史输入音节数量、切分结果中各相邻音节分段间的输入间隔,以及音节分段的数量判断切分结果是否满足合理性条件。
4.根据权利要求1所述的方法,其特征在于,在所述根据满足所述合理性条件的切分结果确定针对所述拼音串的候选项之前,还包括:
对满足所述合理性条件的切分结果中的音节分段进行纠错。
5.根据权利要求1所述的方法,其特征在于,若所述满足所述合理性条件的切分结果中包括第一切分结果和第二切分结果,所述根据满足所述合理性条件的切分结果确定针对所述拼音串的候选项,包括:
根据所述第一切分结果与所述合理性条件的满足程度,对针对所述第一切分结果的候选项进行排序;
根据所述第二切分结果与所述合理性条件的满足程度,对针对所述第二切分结果的候选项进行排序;
根据针对所述第一切分结果的排序结果和针对所述第二切分结果的排序结果确定针对所述拼音串的候选项以及展示顺序。
6.一种拼音串切分装置,其特征在于,所述装置包括:
切分模块,用于根据获取的拼音串切分得到的多个切分结果,其中任一个切分结果包括多个音节分段;
判断模块,用于根据切分结果中各相邻音节分段间的输入间隔判断切分结果是否满足合理性条件;
确定模块,用于根据满足所述合理性条件的切分结果确定针对所述拼音串的候选项;
所述判断模块包括:
第一判断单元,用于根据切分结果中各相邻音节分段间的输入间隔以及音节分段的数量判断切分结果是否满足合理性条件。
7.根据权利要求6所述的装置,其特征在于,所述判断模块包括:
历史输入间隔数据获取单元,用于获取输入所述拼音串的用户的历史输入间隔数据;
第二判断单元,用于根据所述历史输入间隔数据以及切分结果中各相邻音节分段间的输入间隔判断切分结果是否满足所述合理性条件。
8.根据权利要求6所述的装置,其特征在于,所述第一判断单元包括:
历史输入音节数据获取子单元,用于获取输入所述拼音串的用户的历史输入音节数量;
第一判断子单元,用于根据所述历史输入音节数量、切分结果中各相邻音节分段间的输入间隔,以及音节分段的数量判断切分结果是否满足合理性条件。
9.根据权利要求6所述的装置,其特征在于,所述装置还包括:
纠错模块,用于对满足所述合理性条件的切分结果中的音节分段进行纠错。
10.根据权利要求6所述的装置,其特征在于,若所述满足所述合理性条件的切分结果中包括第一切分结果和第二切分结果,所述根据满足所述合理性条件的切分结果确定针对所述拼音串的候选项,所述装置包括:
第一排序模块,用于根据所述第一切分结果与所述合理性条件的满足程度,对针对所述第一切分结果的候选项进行排序;
第二排序模块,用于根据所述第二切分结果与所述合理性条件的满足程度,对针对所述第二切分结果的候选项进行排序;
确定候选项模块,用于根据针对所述第一切分结果的排序结果和针对所述第二切分结果的排序结果确定针对所述拼音串的候选项以及展示顺序。
11.一种用于拼音串切分的处理设备,其特征在于,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
根据获取的拼音串切分得到的多个切分结果,其中任一个切分结果包括多个音节分段;
根据切分结果中各相邻音节分段间的输入间隔判断切分结果是否满足合理性条件,所述根据切分结果中各相邻音节分段间的输入间隔判断切分结果是否满足合理性条件,包括:根据切分结果中各相邻音节分段间的输入间隔以及音节分段的数量判断切分结果是否满足合理性条件;
根据满足所述合理性条件的切分结果确定针对所述拼音串的候选项。
12.一种机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行如权利要求1至5中一个或多个所述的拼音串切分方法。
CN201711284974.7A 2017-12-07 2017-12-07 一种拼音串切分方法和装置 Active CN109901725B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711284974.7A CN109901725B (zh) 2017-12-07 2017-12-07 一种拼音串切分方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711284974.7A CN109901725B (zh) 2017-12-07 2017-12-07 一种拼音串切分方法和装置

Publications (2)

Publication Number Publication Date
CN109901725A CN109901725A (zh) 2019-06-18
CN109901725B true CN109901725B (zh) 2022-05-06

Family

ID=66939205

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711284974.7A Active CN109901725B (zh) 2017-12-07 2017-12-07 一种拼音串切分方法和装置

Country Status (1)

Country Link
CN (1) CN109901725B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101075262A (zh) * 2007-06-12 2007-11-21 腾讯科技(深圳)有限公司 一种计算机汉字输入方法及***
CN102200839A (zh) * 2010-03-25 2011-09-28 阿里巴巴集团控股有限公司 一种汉字输入过程中的汉语拼音串处理方法及其***
CN102566775A (zh) * 2010-12-31 2012-07-11 上海量明科技发展有限公司 产生字符间隔的输入方法及***
CN102866782A (zh) * 2011-07-06 2013-01-09 哈尔滨工业大学 一种提高整句生成效率的输入法和输入法***
CN104345896A (zh) * 2013-07-31 2015-02-11 淘宝(中国)软件有限公司 拼音文字词组输入方法及***
CN104423621A (zh) * 2013-08-22 2015-03-18 北京搜狗科技发展有限公司 拼音字符串处理方法和装置
CN104516522A (zh) * 2013-09-29 2015-04-15 北京三星通信技术研究有限公司 九宫格键盘输入的方法和装置
CN105335415A (zh) * 2014-08-04 2016-02-17 北京搜狗科技发展有限公司 基于输入预测的搜索方法和输入法***
CN105843414A (zh) * 2015-01-13 2016-08-10 北京搜狗科技发展有限公司 输入法的输入修正方法和输入法装置
CN106484132A (zh) * 2015-09-02 2017-03-08 北京搜狗科技发展有限公司 一种输入纠错方法和输入法装置
CN106484131A (zh) * 2015-09-02 2017-03-08 北京搜狗科技发展有限公司 一种输入纠错方法和输入法装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101644961A (zh) * 2009-08-14 2010-02-10 北京搜狗科技发展有限公司 一种编码串排序的方法、装置和一种文字输入方法、装置
JP5067680B2 (ja) * 2010-09-14 2012-11-07 靖彦 佐竹 中国語電子機器の入力方式
CN102866783B (zh) * 2011-07-06 2015-07-15 哈尔滨工业大学 一种拼音流切分方法和***
CN102955770B (zh) * 2011-08-17 2017-07-11 深圳市世纪光速信息技术有限公司 一种拼音自动识别方法及***
CN104252484B (zh) * 2013-06-28 2018-10-19 重庆新媒农信科技有限公司 一种拼音纠错方法及***
JP2015022590A (ja) * 2013-07-19 2015-02-02 株式会社東芝 文字入力装置、文字入力方法、及び文字入力プログラム
CN103885608A (zh) * 2014-03-19 2014-06-25 百度在线网络技术(北京)有限公司 一种输入方法及***

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101075262A (zh) * 2007-06-12 2007-11-21 腾讯科技(深圳)有限公司 一种计算机汉字输入方法及***
CN102200839A (zh) * 2010-03-25 2011-09-28 阿里巴巴集团控股有限公司 一种汉字输入过程中的汉语拼音串处理方法及其***
CN102566775A (zh) * 2010-12-31 2012-07-11 上海量明科技发展有限公司 产生字符间隔的输入方法及***
CN102866782A (zh) * 2011-07-06 2013-01-09 哈尔滨工业大学 一种提高整句生成效率的输入法和输入法***
CN104345896A (zh) * 2013-07-31 2015-02-11 淘宝(中国)软件有限公司 拼音文字词组输入方法及***
CN104423621A (zh) * 2013-08-22 2015-03-18 北京搜狗科技发展有限公司 拼音字符串处理方法和装置
CN104516522A (zh) * 2013-09-29 2015-04-15 北京三星通信技术研究有限公司 九宫格键盘输入的方法和装置
CN105335415A (zh) * 2014-08-04 2016-02-17 北京搜狗科技发展有限公司 基于输入预测的搜索方法和输入法***
CN105843414A (zh) * 2015-01-13 2016-08-10 北京搜狗科技发展有限公司 输入法的输入修正方法和输入法装置
CN106484132A (zh) * 2015-09-02 2017-03-08 北京搜狗科技发展有限公司 一种输入纠错方法和输入法装置
CN106484131A (zh) * 2015-09-02 2017-03-08 北京搜狗科技发展有限公司 一种输入纠错方法和输入法装置

Also Published As

Publication number Publication date
CN109901725A (zh) 2019-06-18

Similar Documents

Publication Publication Date Title
EP3454192B1 (en) Method and device for displaying page
CN105426152B (zh) 弹幕的显示方法和装置
CN107229348B (zh) 一种输入纠错方法、装置和用于输入纠错的装置
US20170371513A1 (en) Method and apparatus for text selection
CN107870677B (zh) 一种输入方法、装置和用于输入的装置
EP3958110B1 (en) Speech control method and apparatus, terminal device, and storage medium
EP3641285A1 (en) Method and device for starting application program
US20150339016A1 (en) Tab creation method, device, and terminal
CN108073303B (zh) 一种输入方法、装置及电子设备
US11335348B2 (en) Input method, device, apparatus, and storage medium
US10229165B2 (en) Method and device for presenting tasks
US20160349947A1 (en) Method and device for sending message
CN109799916B (zh) 一种候选项联想方法和装置
CN110795014A (zh) 一种数据处理方法、装置和用于数据处理的装置
CN113031837B (zh) 内容分享方法、装置、存储介质、终端及服务器
CN109901725B (zh) 一种拼音串切分方法和装置
US10198614B2 (en) Method and device for fingerprint recognition
CN110874146A (zh) 一种输入方法、装置及电子设备
CN107340881B (zh) 一种输入方法及电子设备
CN111382295B (zh) 一种图像搜索结果的排序方法和装置
CN112083811B (zh) 一种候选项展示方法和装置
CN110417987B (zh) 一种操作响应方法、装置、设备和可读存储介质
CN113157090A (zh) 电子设备的亮屏控制方法、装置及电子设备
CN107688400B (zh) 一种输入纠错方法和装置、一种用于输入纠错的装置
CN112306251A (zh) 一种输入方法、装置和用于输入的装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant