CN104423621A

CN104423621A - 拼音字符串处理方法和装置

Info

Publication number: CN104423621A
Application number: CN201310370370.XA
Authority: CN
Inventors: 张雷; 张霓
Original assignee: Beijing Sogou Technology Development Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2013-08-22
Filing date: 2013-08-22
Publication date: 2015-03-18

Abstract

本发明提供了一种拼音字符串处理方法和装置，其中，拼音字符串处理方法包括：接收拼音字符串的输入，获取当前环境信息；其中，所述当前环境信息为接收所述拼音字符串的当前应用程序和/或输入框的信息；依据预设的配置信息，获取输入所述拼音字符串的个性化信息；其中，所述个性化信息中包括用户习惯信息和历史环境信息，所述历史环境信息包括用户往期进行汉字输入时所处的环境信息；依据所述个性化信息和所述当前环境信息对所述拼音字符串对应的至少一组音节组合进行筛选，从而确定所述拼音字符串中分词符的位置。通过本申请，减少了用户在进行汉字输入时的交互动作，提高了输入效率。

Description

拼音字符串处理方法和装置

技术领域

本发明涉及输入法技术领域，特别是涉及一种拼音字符串处理方法和装置。

背景技术

输入法是按照拼音字符串即拼音串输入汉字的方法，为了能把用户输入的拼音字符串转换为汉字输出，需要首先对用户输入的拼音字符串进行切分，将拼音字符串分割为合法的音节组合，然后将音节组合转换为汉字。

一种拼音字符串处理方法如图1所示，该方法包括以下步骤：步骤S102，对接收到的拼音字符串进行切分，分别将拼音字符串中的声母和韵母作为切分子串得到切分子串序列；步骤S104，对切分子串序列中的切分子串进行扩展，并根据扩展结果生成扩展子串序列集合；步骤S106，按照音节组成特征对扩展子串序列集合中每个扩展子串序列进行音节抽取，得到对应的音节序列；步骤S108，对各音节序列中的音节组合进行合法性验证，并根据验证结果删除包含有非法音节的音节序列；步骤S110，输出进行了合法性验证后的音节组合。

使用上述拼音字符串处理方法输入汉字时，由***采用简单匹配的方式显示各组音节组合供用户选择，如采用固有的规律对拼音字符串进行分词，按照顺序显示音节组合，也即，***过于粗暴地为用户将拼音字符串对应的音节组合做了排序和选择。尤其是在用户使用传统的九键键盘时，使用九键拼音输入法进行输入时，由于键盘中每个按键存在复用的情况，输入的每个拼音字符串对应了很多的音节组合，上述传统的拼音字符串处理方式无法满足用户对输入的内容的期望，这种方式仅能够统一地给出同样的各组音节组合的排序，导致用户在选择需要的音节组合时会使用较多的交互动作才能查找到欲输入的候选项，降低了输入效率。

发明内容

本发明提供了一种拼音字符串处理方法和装置，以解决目前的拼音字符串处理过程中，仅能够统一地给出同样的各组音节组合的排序，，导致用户在选择需要的音节组合时使用较多的交互动作才能找到欲输入的候选项，无法满足个性化输入需求，输入效率较低的问题。

为了解决上述问题，本发明公开了一种拼音字符串处理方法，包括：

接收拼音字符串的输入，获取当前环境信息；其中，所述当前环境信息为接收所述拼音字符串的当前应用程序和/或输入框的信息；

依据预设的配置信息，获取输入所述拼音字符串的个性化信息；其中，所述个性化信息中包括用户习惯信息和历史环境信息，所述历史环境信息包括用户往期进行汉字输入时所处的环境信息；

依据所述个性化信息和所述当前环境信息对所述拼音字符串对应的至少一组音节组合进行筛选，从而确定所述拼音字符串中分词符的位置。

优选地，所述个性化信息还包括：时间信息和/或位置信息；其中，所述时间信息为所述用户往期进行输入和/或往期进行网络访问时所处的时间；所述位置信息为所述用户往期进行输入和/或往期进行网络访问时所处的地理位置；

所述依据所述个性化信息和所述当前环境信息对所述拼音字符串对应的至少一组音节组合进行筛选时，依据所述用户习惯信息和所述当前环境信息，以及所述当前时间信息和/或所述当前位置信息，对所述拼音字符串对应的至少一组音节组合进行筛选。

优选地，所述依据所述用户习惯信息和所述当前环境的信息对所述拼音字符串对应的至少一组音节组合进行筛选，从而确定所述拼音字符串中分词符的位置的步骤包括：

根据所述拼音字符串对应的各组音节组合与所述用户习惯信息的匹配结果，分别获得每组音节组合对应的习惯权值；

根据所述当前环境信息与所述历史环境信息的匹配结果，分别获得每组音节组合对应的环境权值；

根据所述当前时间信息和/或所述当前位置信息与对应的所述时间信息和/或位置信息的匹配结果，分别获得每组音节组合对应的时间权值和/或地点权值；

对所述各组音节组合对应的各权值进行求和，获得所述各组音节组合的总特征权值，根据所述总特征权值对所述各组音节组合进行排序，并根据排序在前的音节组合确定所述拼音字符串中分词符的位置。

优选地，所述个性化信息从服务器端获取，并通过以下方式生成：

获取所述用户进行网络访问时的历史行为信息；其中，所述历史行为信息中包括：所述用户往期进行输入的内容、时间、地理位置、输入环境，和/或，所述用户往期进行网络访问的内容、时间、地理位置；

分别根据预设的兴趣模型、环境模型、时间模型和位置模型，分别对所述历史行为信息进行分析处理；

根据所述历史行为信息进行分析处理的结果，生成所述服务器端对应的个性化信息。

优选地，所述兴趣模型包括个体兴趣模型和群体兴趣模型；

当根据所述拼音字符串对应的各组音节组合与所述用户习惯信息的匹配结果，分别获得每组音节组合对应的习惯权值时：将所述各组音节组合分别与通过所述个体兴趣模型生成的用户习惯信息进行匹配；

若匹配不成功，则将所述各组音节组合分别与通过所述个体兴趣模型对应的群体兴趣模型生成的用户习惯信息进行匹配；

根据所述各组音节组合与所述群体兴趣模型的匹配结果获得所述各组音节组合对应的习惯权值。

优选地，所述习惯权值通过以下方式获得：目标音节组合被选择次数÷所述拼音字符串对应的多个音节组合总输入次数×N，其中，N为权重系数，且N为大于0的自然数。

优选地，在所述对所述拼音字符串对应的至少一组音节组合进行筛选之后，还包括：

获得筛选得到的音节组合分别对应的候选词；

获取各所述候选词对应的附加权值；其中，所述附加权值根据对所有用户对所述各组汉字的选择进行分析统计后得到；

根据所述附加权值对所述候选词进行排序后输出。

优选地，所述附加权值除了根据对所有用户对所述各组汉字的选择进行分析统计后得到外，还包括：

根据所述个性化信息和所述当前环境信息，对选择出的所述各组汉字进行分析统计后得到。

优选地，所述用户习惯信息根据当前用户使用各组音节组合的次数和用户使用各组音节组合的最后时间获得。

为了解决上述问题，本发明还公开了一种拼音字符串处理装置，包括：

第一获取模块，用于接收拼音字符串的输入，获取当前环境信息；其中，所述当前环境信息为接收所述拼音字符串的当前应用程序和/或输入框的信息；

第二获取模块，用于依据预设的配置信息，获取输入所述拼音字符串的个性化信息；其中，所述个性化信息中包括用户习惯信息和历史环境信息，所述历史环境信息包括用户往期进行汉字输入时所处的环境信息；

第三获取模块，用于依据所述个性化信息和所述当前环境信息对所述拼音字符串对应的至少一组音节组合进行筛选，从而确定所述拼音字符串中分词符的位置。

所述第三获取模块在依据所述个性化信息和所述当前环境信息对所述拼音字符串对应的至少一组音节组合进行筛选时，依据所述用户习惯信息和所述当前环境信息，以及所述当前时间信息和/或所述当前位置信息，对所述拼音字符串对应的至少一组音节组合进行筛选。

与现有技术相比，本发明具有以下优点：

本发明的拼音字符串处理方案中，当用户输入拼音字符串时，同时依据用户的个性化信息以及当前环境信息，对拼音字符串对应的至少一组音节组合进行筛选，从而确定拼音字符串中分词符的位置。当前环境信息明确指示了接收当前拼音字符串的应用程序和/或输入框的信息，而个性化信息中的历史环境信息则指示了该用户在不同输入环境下进行拼音字符串输入的习惯或倾向性特征。因此，在对拼音字符串对应的音节组合进行筛选时，将当前环境信息与用户个性化信息中的历史环境信息相匹配，使筛选得到的音节组合更符合用户的习惯，更具有针对性，从而解决了目前的拼音字符串处理过程中，仅能够统一地给出同样的各组音节组合的排序的问题。尤其是在用户使用九键键盘输入时，可高效地将更接近用户需求的音节组合筛选出来，避免了因键盘复用造成的选择音节组合时需要重复进行的多次触发，减少了用户在进行汉字输入时的交互动作，提高了输入效率。

附图说明

图1是现有技术中的一种拼音字符串处理方法的步骤流程图；

图2是根据本发明实施例一的一种拼音字符串处理方法的步骤流程图；

图3是根据本发明实施例二的一种拼音字符串处理方法的步骤流程图；

图4是根据本发明实施例三的一种拼音字符串处理方法的步骤流程图；

图5是根据本发明实施例四的一种拼音字符串处理装置的结构框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

实施例一

参照图2，示出了根据本申请实施例一的一种拼音字符串处理方法的步骤流程图。

本实施例的拼音字符串处理方法包括以下步骤：

步骤S202：接收拼音字符串的输入，获取当前环境信息。

其中，当前环境信息为接收拼音字符串的当前应用程序和/或输入框对应的信息，包括当前应用程序所属的行业类别信息，输入框对应的功能信息等，可通过获取当前应用程序对应的安装描述信息或抓取输入框对应的提示文本进行获取得到。

用户可以通过多种输入形式来输入拼音字符串，如通过传统按键手机以九键键盘的形式输入，也可以通过智能手机采用26键的QWERTY标准的传统键盘输入，还可以通过电脑键盘等其他形式输入。输入法能够自动获取输入拼音字符串的环境，即当前输入环境信息，例如：当用户在短信输入框输入内容时，输入法自动获取当前环境为短信输入框，当用户在“***地图”中输入内容时，输入法自动获取当前环境为地图软件。

步骤S204：依据预设的配置信息，获取输入拼音字符串的个性化信息。

其中，个性化信息中包括用户习惯信息和历史环境信息，历史环境信息包括用户往期进行汉字输入时所处的环境信息。

个性化信息中，用户习惯信息用于指示用户往期汉字输入和/或往期网络访问的倾向性特征；历史环境信息用于指示用户往期进行汉字输入的输入环境的倾向性特征。预设的配置信息可以用于指示从本地或者从服务器端获取用户的个性化信息。

用户习惯信息表征了用户往期汉字输入和/或往期网络访问的倾向性特征。例如，服务器监测到用户往期经常在移动终端中输入钓鱼、渔具、渔友等内容，则通过该内容可以分析得出该用户具有钓鱼的兴趣，即采集到了用户的习惯信息。该信息在后续的输入中将指导拼音字符串的切分，如当该用户输入“diaoyu”时，对应的优先的音节组合应为“diao”和“yu”，则分词符的位置为“diao’yu”，再调整其它可能音节组合，得到对应的分词符的位置如“di’ao’yu”等。再例如，用户虽然没有输入过钓鱼方面的内容，但经常浏览钓鱼类网站，则服务器对用户的往期网络访问数据进行分析同样可以得出该用户具有钓鱼的兴趣，同样采集到了用户的习惯信息。那么，若该用户输入“diaoyu”时，也会得到优先的音节组合应为“diao”和“yu”，从而将分词符的位置设置为“diao’yu”。此外，历史环境信息包括用户往期进行汉字输入时所处的环境信息，表征了用户往期进行汉字输入的输入环境的倾向性特征，如对于拼音字符串“diaoyu”，用户往期在搜索引擎中输入时倾向于得到音节组合为“diao”和“yu”，而往期在地图中输入时倾向于得到音节组合“di”、“ao“和“yu”，则结合上述用户习惯信息，当用户在搜索引擎中输入拼音字符串“diaoyu”时，优先将分词符的位置设置为“diao’yu”，而在其它应用或输入框中输入“diaoyu”时，则可以根据用户习惯信息和当前环境信息，确定“diaoyu”对应的各组音节组合，如将分词符的位置设置为“di’ao’yu”或“diao’y’u”等。

步骤S206：依据个性化信息和当前环境信息对拼音字符串对应的至少一组音节组合进行筛选，从而确定拼音字符串中分词符的位置。

由于拼音字符串中各组音节组合对应不同的音节划分，进而根据得到的这些音节划分确定分词符在拼音字符串中的不同位置。

更进一步地，在依据用户习惯信息和当前环境的信息对拼音字符串对应的至少一组音节组合进行筛选时，还可以根据个性化信息和当前环境信息计算出每组音节组合的权值。依据权值的高低对多组拼音组合进行排序，选择排序最靠前的音节组合，再获取与此音节组合对应的匹配的汉字组合。在其他实施例中，也可以根据个性化信息和当前环境信息，在确定各组音节组合的显示顺序后，为各组汉字设定编号，按照编号顺序为多组拼音组合排序等等。

通过本实施例的拼音字符串处理方案，当用户输入拼音字符串时，同时依据用户的个性化信息以及当前环境信息，对所述拼音字符串对应的至少一组音节组合进行筛选，从而确定所述拼音字符串中分词符的位置。当前环境信息明确指示了接收当前拼音字符串输入的应用程序和/或输入框的信息，而个性化信息中的历史环境信息则指示了该用户在不同输入环境下进行汉字输入的习惯或倾向性特征。因此，在对拼音字符串进行分词，筛选各组音节组合时，不仅参考用户习惯信息，还将当前环境信息与个性化信息中的历史环境信息相匹配，根据匹配结果确定符合用户习惯的音节组合，从而使得该得到的音节组合更符合用户的习惯，提高用户的输入效率。通过本实施例的拼音字符串处理方案，解决了目前的拼音字符串处理过程中仅能够统一地给出同样的各组音节组合的排序，，导致用户需要使用较多的交互动作才能获得需要的音节组合，输入成本高，无法满足用户个性化输入需求的问题，尤其是在用户使用九键键盘输入时，通过上述方式对拼音字符串对应的音节组合进行筛选，可以将更接近用户需求的音节组合筛选出来，解决了因键盘复用的情况造成的当用户输入一个拼音字符串时会对应多个音节组合，用户在选择需要的音节组合时需要重复多次进行触发的问题，减少了用户在进行汉字输入时的交互动作，提高了输入效率。

实施例二

参照图3，示出了本申请实施例二的一种拼音字符串处理方法的步骤流程图。

本实施例的拼音字符串处理方法包括以下步骤：

步骤S302：生成本地的个性化信息数据库。

本地的个性化信息数据库中除存储有用户习惯信息和历史环境信息外，还可以存储有用户的时间信息和/或位置信息。

本地的个性化信息数据库可以通过以下方式生成：获取用户在本地的历史行为信息，其中，历史行为信息中包括：用户往期每次进行汉字输入的内容、时间、地理位置、输入环境，和/或，用户往期每次进行网络访问的内容、时间、地理位置；对历史行为信息进行分析和统计，并根据分析和统计结果生成本地的个性化信息数据库。当然，若个性化信息数据库中不存储用户的时间信息和/或位置信息，也可以不获取历史行为信息中相对应的内容，如用户往期每次进行汉字输入的时间、地理位置，和/或，用户往期每次进行网络访问的时间、地理位置等。优选地，用户习惯信息可以根据当前用户使用各组音节组合的次数和用户使用各组音节组合的最后时间获得。

本地的个性化信息数据库保存的个性化信息可以实时或者每隔设定时间段进行更新。例如，用户本次选择出适合的一组汉字进行输入后，该组汉字以及本次输入对应的时间、位置、输入环境等会被记录在本地的个性化信息数据库中作为一次历史行为信息，在下次对用户个性化信息进行更新时使用。具体地，如：用户当前通过在短信内容输入框中输入“xian”这个拼音字符串，在给出的多组汉字中选定“西安”为候选词时，且当时时间为下午三点，根据GPS对移动终端定位得到当前位置为西安，则本地就会保存用户输入的拼音字符串“xian”、“xian”的分词符位置“xi’an”，以及与其对应的候选词“西安”、时间15点、输入环境短信框以及地理位置西安的信息。在后续对用户的个性化信息进行更新时，上述信息将作为历史行为信息的一部分存储至本地的个性化信息数据库中，成为用户的个性化信息更新的依据。如，假设更新前，该用户输入拼音字符串“xian”对应的选择“西安”的次数为10次，其中，在15点时间段选择“西安”的次数为2次，在西安这个城市时选择“西安”的次数为5次，在短信框输入时选择“西安”的次数也为5次，那么在更新后，总的选择“西安”的次数为11次，对应的在时间15点的输入次数、在西安这个城市时的输入次数、和使用短信框输入的次数也均相应的加1。

步骤S304：生成服务器端的个性化信息数据库。

与本地的个性化信息数据库相同，服务器端的个性化信息数据库中除存储有用户习惯信息和历史环境信息外，也可以对应存储有用户的时间信息和/或位置信息。其中，时间信息为用户往期进行输入和/或往期进行网络访问时所处的时间；位置信息为用户往期进行输入和/或往期进行网络访问时所处的地理位置。

服务器端的个性化信息数据库可以通过以下方式生成：获取多个用户进行网络访问的历史行为信息，其中，历史行为信息中包括：用户往期进行输入的内容、时间、地理位置、输入环境，和/或，用户往期进行网络访问的内容、时间、地理位置；分别使用预设的兴趣模型、环境模型、时间模型和位置模型对用户对应的历史行为信息进行分析处理；根据历史行为信息进行分析处理的结果生成服务器端的个性化信息，进而生成服务器端的个性化信息数据库。与生成本地的用户个性化数据库时相同，在其他实施例中，若服务器端的个性化信息数据库中不存储用户的时间信息和/或位置信息，也可以不获取历史行为信息中相对应的内容，也无须使用对应的模型进行分析处理。

上述各种分析模型中，兴趣模型可以采用相关的成熟模型，通过对用户往期输入的内容和用户的阅读特征数据进行训练得到。其中，用户的阅读特征包括用户浏览的网页、微博等互联网资源，以及邮件、即时通信等文字资源。由于用户关心的话题和内容与输入内容有正相关特性，因此，通过用户的往期输入内容以及用户的阅读特征即可分析出用户的兴趣倾向，如体育，娱乐，新闻，还是财经，社交等等。获取用户的往期输入的内容与用户往期的阅读内容中，当用户浏览的内容是互联网内容时，将用户访问的URL网页地址上传到服务器，由服务器抓取所需网页中的文本信息。如果文本信息为不可抓取的内容，则由客户端获取所需的信息后，记录并上传到服务器。将抓取得到的内容进行文本分类，并按照属性打分，从而最终确定内容所属的类别，亦即兴趣类别。目前，广泛应用朴素贝叶斯模型，或者最邻近节点算法KNN或者向量空间模型VSM进行文本分类，根据分类结果动态地影响后续的拼音字符串处理。

优选地，兴趣模型可以包括个体兴趣模型和群体兴趣模型，一个个体兴趣模型对应于至少一个群体兴趣模型；其中，个体兴趣模型用于对单个用户的往期每次进行汉字输入和/或网络访问的内容进行分析处理，并根据分析处理的结果生成单个用户的用户习惯信息；群体兴趣模型用于对多个用户的往期每次进行汉字输入和/或网络访问的内容进行分析处理，并根据分析处理的结果生成多个用户的用户习惯信息。也即，通过线下对大量用户数据进行的聚类分析，从而对用户分类，即将有同样兴趣的人合并。同一个用户可以属于多个类别，以浏览输入类似的群体为单位。群体兴趣模型可以采用已有的成熟的文本分类模型和算法，通过分类确定用户的兴趣点，在此不在赘述。

环境模型也可以采用相关的成熟模型，通过收集全网用户在不同输入环境下输入的音节组合和对应输入是所处的环境信息不断学习训练得来。环境模型的影响因素主要有两部分，一是输入时对应的程序，即应用程序的行业类别，一是输入时对应的编辑框属性。模型的学习和训练基于用户的浏览和输入，分别按地域、时间、兴趣等特征进行聚类，得到不同特性的特征词库。进一步地，通过对聚类后得到的数据进行检索，可以得到输入音节组合对应的权重。用户进行输入时，客户端将进行输入所在的应用、编辑框类型等当前环境信息发送给服务器，由服务器进行打分。其中，编辑框类型可以按与编辑框匹配按钮的对应功能分为为搜索框、联系人查找框、短信输入框等等；应用程序的行业类别可以按软件的行业类别划为即时信息类、安全类、地图导航类、音频视频等等。根据不同的应用程序的行业类别，不同的输入框，动态给出在该输入环境下，不同音节组合的排序，进一步地，还可以给出各音节组合的权值。

时间分析模型同样可以采用相关成熟模型，通过收集大量的用户在不同时间段下输入的音节组合，以输入时间为特征依据，将每个时间段下的所有用户的输入的音节组合进行统计，生成按时间段分类的特征词库。

位置模型也可以采用相关成熟模型，通过收集大量的用户在不同地域输入的音节组合，以输入环境为特征依据，将每个输入环境下的所有用户的输入的音节组合进行统计，生成按地域特征分类的特征词库。

需要说明的是，上述步骤S302和S304的执行不分先后顺序，也可以并行执行。并且，上述本地个性化信息数据库和服务器端的个性化信息数据库也可择一建立，而不必全部建立。

此外，优选地，上述本地和服务器端的个性化信息中的用户习惯信息也可以根据当前用户使用各音节组合的次数和用户使用各音节组合的最后使用时间获得。并且，本实施例中，均以数据库的形式存储个性化信息，但本领域技术人员应当明了，在实际应用中，其它任意适当的存储形式同样适用，如文本形式或其它适当形式。

步骤S306：接收拼音字符串的输入。

其中，拼音字符串的输入可以采用多种形式，例如：当用户输入“xian”拼音字符串时，九键形式输入的为“9426”，而全键形式输入的为“xian”。

步骤S308：获取拼音字符串输入的当前环境信息。

优选地，在获取当前环境信息的同时，还可以获取当前时间信息或当前位置信息，也可同时获取当前时间信息和当前位置信息。

其中，环境信息为接收所述拼音字符串的应用程序和/或输入框的信息。例如：用户在短信输入框中输入拼音字符串时，则环境信息为短信输入框；用户在地图软件中输入拼音字符串时，则环境信息为地图软件。

拼音字符串输入的当前位置信息，可以通过用户进行输入时的IP、WIFI网络定位所在城市区域、设备的GPS全球定位***等方式获取，用户的当前位置信息精确到城市级。

当前时间信息可以通过软件设置自动从用户使用的设备，如手机或电脑以及其他输入工具中获取，当前时间信息为北京时间，精确到小时。例如用户是晚上7点输入的一个拼音字符串，则将当前时间信息记为19:00。

步骤S310：依据预设的配置信息，从服务器端获取输入拼音字符串的用户的个性化信息。

配置信息指示了从本地还是服务器端获取个性化信息，当配置信息指示从本地获取时，输入法从本地的个性化信息数据库中获取输入拼音字符串的用户的个性化信息；当配置信息指示从服务器端获取时，输入法从服务器端的个性化信息数据库中获取输入拼音字符串的用户的个性化信息。本实施例中，以从服务器端获取用户的个性化信息为例进行描述。

步骤S312：依据个性化信息和当前环境信息对拼音字符串对应的至少一组音节组合进行筛选，从而确定拼音字符串中分词符的位置。

一种可行方式是，分别将拼音字符串对应的各个音节组合与个性化信息中的用户习惯信息进行匹配，将当前环境信息与个性化信息中的历史环境信息进行匹配，筛选出符合更满足用户需求的音节组合，根据匹配结果确定拼音字符串中分词符的位置。当然，还可以对匹配结果进行进一步的处理，如对各部分信息的匹配结果加权求和，根据加权求和结果将拼音字符串对应的各个音节组合进行筛选，从而确定拼音字符串中分词符的位置。

优选地，在获取了输入拼音字符串时的当前时间信息和/或当前位置信息的情况下，还可以依据用户个性化信息和当前环境信息，以及当前时间信息和/或当前位置信息对拼音字符串对应的至少一组音节组合进行筛选，从而确定拼音字符串中分词符的位置。

一种具体实现方式包括：按照设定规则，分别根据拼音字符串对应的各音节组合与用户习惯信息的匹配结果，分别获得每组音节组合对应的用户习惯权值；根据当前环境信息与历史环境信息的匹配结果，分别获得每组音节组合对应的环境权值；根据当前时间信息和/或当前位置信息与对应的用户时间信息和/或用户位置信息的匹配结果，分别获得每组音节组合对应的时间权值和/或地点权值；对各组音节组合对应权值进行求和，获得各组音节组合的总特征权值，根据总特征权值对至少一组音节组合进行排序，并根据排序在前的音节组合确定拼音字符串中分词符的位置。其中，上述各个权值的获取可以不分先后顺序，也可以并行进行。

此外，优选地，当从服务器端获取个性化信息且服务器端的兴趣模型包括个体兴趣模型和群体兴趣模型时，当根据拼音字符串对应的各组音节组合与用户习惯信息的匹配结果分别获得每组音节组合对应的习惯权值时：将各组音节组合分别与通过个体兴趣模型生成的用户习惯信息进行匹配；若匹配不成功，则将各组音节组合分别与通过个体兴趣模型对应的群体兴趣模型生成的用户习惯信息进行匹配；根据各组音节组合与群体兴趣模型的匹配结果获得各组音节组合对应的习惯权值。其中，习惯权值通过以下方式获得：目标音节组合被选择次数÷拼音字符串对应的多个音节组合总输入次数×N，其中，N为权重系数，且N为大于0的自然数。

这是因为，在某些情况下，用户历史行为信息的缺失会造成用户***台中按键复用产生的“bai’she’ni“等音节组合。

另一种优选排序方案是，在获得拼音字符串对应的多组音节组合之后，获取每组音节组合中各音节的固有权值；其中，固有权值通过对全网用户对各组音节组合的选择进行分析统计后得到；对各组音节组合对应的固有权值和总特征权值进行求和，获得各音节组合的总权值；根据总权值排前的音节组合中的各音节确定拼音字符串中分词符的位置。例如，设定固有权值的范围为0-2048，总特征权值的范围也为0-2048，总权值中，时间权值的范围为0-512，地点权值的范围为0-512，环境权值的范围为0-512，习惯权值的范围为0-512。由此，一组音节组合对应的总权值在0-4096之间，数值越大表示优先级越高。

在计算总特征权值时，一种方式是运用如下计算公式：

Weight（总特征）=Weight（习惯）+Weight（环境）+Weight（时间）+Weight（地点）

其中，Weight（总特征）表示一组音节组合的总特征权值，为根据个性化信息获得的各个权值之和；Weight（习惯）表示本音节组合对应的习惯权值，为本音节组合与用户习惯信息匹配结果的权值；Weight（环境）表示用户输入拼音字符串时对应的环境权值，为输入拼音字符串的当前环境与历史环境信息匹配结果的权值；Weight（时间）表示用户输入拼音字符串时对应的时间权值，为输入拼音字符串的当前时间与用户时间信息匹配结果的权值；Weight（地点）表示用户输入拼音字符串时的地点权值，为输入拼音字符串的当前位置与用户位置信息匹配结果的权值。当然，在计算总特征权值时可以只考虑用户习惯与环境的权重，也可以在考虑用户习惯与输入环境的权重的同时考虑当前时间、当前地点中的一个或全部权重。

上述公式中，

Weight（时间）=该时段该音节组合输入的次数/该音节组合总输入次数×512；

Weight（地点）=该地点输入该音节组合的次数/该音节组合总输入次数×512；

Weight（习惯）=该音节组合被选择次数/拼音字符串对应的各组音节组合总输入次数×512；

Weight（环境）=该应用输入该音节组合的次数/该音节组合总输入次数×512；

其中，个性化信息为本地个性化信息或服务器端个性化信息，数字512、2048、4096只是代表各个特征的权重数值，还可以依据权重的不同，自行将数字进行设置为任意适当的自然数。

步骤S314：获得音节组合分别对应的候选词。

例如：当筛选得到的各音节组合中被触发的音节组合为“xi’an”时，从词库中获得该音节组合对应匹配的候选词为“西安”、“西岸”、“锡安”。

步骤S316：获取各候选词对应的附加权值。

其中，附加权值根据对所有用户对选中的音节组合对应的各候选词的选择比例进行分析统计后得到。

例如，在针对音节组合“xi’an”时，经过对所有用户的选择进行统计后得到，候选词“西安”被选择次数为50次，而候选词“西岸”被选择次数为30次，那么，候选词“西安”对应的附加权值就高于候选词“西岸”对应的附加权值。

优选地，附加权值还可以根据个性化信息和当前环境信息对选择出的候选词进行分析统计后得到，即对所有用户对各组候选词的选择进行分析统计以及根据个性化信息和当前环境信息进行分析统计后得到。

例如，还是以候选词“西安”与“西岸”，当用户输入字符串“xian”，确定音节组合“xi’an”为需要的音节组合后，获取音节组合对应的候选词有“西安”和“西岸”。那么要考虑这两组候选词在该用户的个性化信息中，在当前输入环境下的被选择次数，以及这两组候选词分别被所有用户选择的次数，综合考虑这两方面的因素，给每组候选词以附加权值。

步骤S318：根据附加权值对候选词进行排序后输出。

如，可以计算出每组候选词的附加权值，依据附加权值的高低对多组候选词进行排序；也可以在确定各组汉字的显示顺序后，为各组候选词设定编号，按照编号顺序为多组候选词进行排序等等，并在移动终端的汉字区域中按排序后的顺序将各候选词进行展示。

优选地，在用户对显示的多组候选词进行选择后，还可以获取用户所选择的候选词；并保存用户本次的输入信息，如，最终选择的候选词、对应的音节组合、输入时对应的环境、时间、地点等信息，为后续用户个性化信息更新提供依据。

通过本实施例的拼音字符串处理方法，当用户输入拼音字符串时，依据用户的个性化信息以及当前环境、时间、地点，计算每组音节组合的总特征权值，按照总特征权值的高低调整拼音字符串中分词符的位置，解决了目前的拼音字符串处理过程中仅能够统一地给出同样的各组音节组合的排序，导致用户需要使用较多的交互动作才能得到需要的音节组合，输入效率低，无法满足用户个性化输入需求的问题。同时，对选中的音节组合对应的多组候选词依据附加权值进行排序，优先显示更符合用户需求的汉字组合，该种拼音字符串处理方式能够依据用户的个性化信息与当前环境信息对候选词进行排序，将用户期望的候选词优先输出。当用户使用九键键盘输入时，可以将满足用户需求的拼音组合筛选出来，避免了因键盘复用造成的选择音节组合时需要重复进行的多次触发，减少了用户在输入时的交互动作，提高了输入效率，满足了用户的个性化需求。

实施例三

参照图4，示出了本申请实施例三的一种拼音字符串处理方法的步骤流程图。

本实施例的拼音字符串处理方法包括以下步骤：

步骤S402：用户输入拼音字符串。

用户可以输入按键序列，例如用户想输入“西安”时，则在移动终端的键盘中对应的九键输入形式为“9426”，全键输入形式为“xian”。

步骤S404：获取输入拼音字符串的当前位置、当前时间、当前环境信息。

步骤S406：获取个性化信息，结合输入拼音字符串的当前位置、当前时间、以及当前环境信息，对拼音字符串对应的至少一组音节组合进行筛选，根据排序在前的音节组合确定拼音字符串中分词符的位置。

排序在前的音节组合可以是排序在最前的音节组合，也可以是设定的排序在前几位的音节组合。

本实施例中，在获取到用户的个性化信息后，根据个性化信息，结合进行输入的客户端的当前位置、当前时间、以及当前环境对所述拼音字符串对应的至少一组音节组合进行筛选，从而确定拼音字符串中分词符的位置。

用户的个性化信息表示用户的个性化特征，包括用户特征与环境特征两部分，其中用户特征对应的用户特征信息包括时间信息、地点信息和用户习惯信息，分别表示用户的时间特征、地点特征和用户习惯兴趣。

对于用户的时间特征：比如，在九键下“si”与“qi”是同码，当16:00-17:00时间段，用户更倾向于输入音节组合“si”，即候选词“四点”相关的词条，而其他时间，更倾向于输入音节组合“qi”，即候选词“七点”相关的词条。另外，“晚上”和“早上”在九键也是重码，对于每个人的习惯也不尽相同。

对于用户的地点特征：不同的地点输入的内容也会不尽相同，比如说在工作的地方，和在旅游途中，输入的内容不尽相同。输入相同的拼音字符串，用户可能期待不同的候选。如，用户在移动设备中的九键键盘下输入“9426”对应的拼音字符串为“xian”，在家里用户可能更倾向于输入音节组合“xian”，而在旅游时，或者当用户在西安时，可能更需要音节组合“xi’an”排在前面。

对于用户习惯兴趣：用户的输入习惯是长期养成的，不易改变。如一个简拼用户，在九键键盘下输入的时候会尽量使用末字简拼，这时，根据用户的习惯所做的排序优化就会显得异常贴心，更能提高用户的输入效率。如，将拼音字符串“ban”切分成音节组合“ba’n”将“ba’n”排在前面推荐给用户；再如将拼音字符串“beng”切分成音节组合“ben’g”等，类似的例子还有很多。同样，用户阅读的内容和用户输入的内容也具有正相关性，通过对用户大量浏览的内容和输入内容可以分析出用户的兴趣方向，从而通过具有相同兴趣的人群的输入习惯加权影响当前的拼音字符串中分词符的位置。

用户输入拼音字符串时的环境特征对应的信息是描述用户个性化特征的另一部分，同样的拼音字符串，在不同的输入环境下，表现也不尽相同，如用户输入拼音字符串“yuan”，如果用户在word文档中使用过音节组合“yu’an”（预案），而在地图应用中使用过音节组合“yuan”（园），则根据用户的历史使用习惯，当二者同时是用户使用过的词条时且存在输入环境信息时，输入环境因素将决定拼音字符串对应的各音节组合的筛选，从而调整拼音字符串中分词符的位置。

个性化信息可以在本地获取，也可以从服务器端获取。从本地获取个性化信息时，基于用户的历史输入数据，不断累加，形成影响当前输入拼音字符串的附加权值。如，对所有可能的拼音字符串，在配置文件中进行二分查找，在查找时，将其个性化信息中用户特征的时间、地点等信息转化为相应的可比较的权值。从服务器端获取个性化信息时，发送用户输入的拼音字符串到服务器端，通过兴趣模型、环境模型、时间模型和位置模型进行分析，获取相应的习惯权值、环境权值、时间权值和地点权值。

本实施例中，以个性化信息从本地获取为例。如“xi’an”这个音节组合在手机共计使用过10次，其中地图应用中使用过8次，word文档中使用过2次，使用过的时间为：14:002次、15:003次、16:003次、18:002次。在西安使用过9次，在北京使用过1次。“xian”这个音节组合使用过30次，在西安使用过1次，在北京使用29次。使用过的时间为：14:005次、15:005次、16:005次、17:005次、18:005次、19:005次，在地图应用中没有用过，在word中用过30次。“xi’an”最后一次使用时间是15:01。

综上，假定当前时间为15:30，通过GPS获取用户所在的当前位置为西安，在地图应用中输入拼音字符串“xian”，则对应的音节组合中的“xi’an”音节组合获得的总权值为：(3/10)×512+(9/10)×512+（10/35）×512+（8/10）×512=1170.29；而“xian”音节组合获得的总权值为：(1/30)×512+(5/30)×512+[30/(10+30)]×512+（0/30）×512=486.4。将音节组合按照总权值的高低进行排序，可知音节组合“xi’an”排序在“xian”前。

而如果将拼音字符串“xian”附带当前的时间、地点、输入环境等信息发送到服务器端，将由各种特征模型给出分数。如果用户之前经常浏览西安的名胜古迹信息，那么，兴趣模型分析出当前用户爱好旅游，根据当前用户的个人兴趣和其他与当前用户有共同兴趣的用户对应的输入特点，给当前用户相应的习惯权值，同样，也会经过环境模型、时间模型和位置模型分析，给出相应的环境权值、时间权值和地点权值。最终，拼音字符串“xian”对应的各个音节组合的总权值，由服务器端的各个特征模型共同决定，通过总权值得到各个音节组合的排序，或者，将相应的权值加到固有权值上得到各个音节组合的排序。

步骤S408：用户选择到需要的音节组合，上屏选择的音节组合对应的候选词。

步骤S410：记录用户最终所选择候选词对应的音节组合至相应的配置文件，并同时存储对应的个性化信息，为用户下次输入提供个性化的加权依据。

当将用户最终选择的汉字的音节组合及对应的个性化信息存储至本地的配置文件中时，本地配置文件可分别以四个维度为索引，分别存储数据到四个文件，即按用户习惯、时间、地点、输入环境进行结构化存储。以时间对应的数据结构为例，该表格中含有24个KEY，分别是24个小时，即0-23。每个时段后面对应相应的音节组合和该音节组合在该时间段的输入词频。地点对应的数据结构也是同样的记录方式进行存储。环境特征和用户习惯的记录方式则不区分时间和地点，记录该音节组合对应的输入环境，即拼音字符串所输入的软件客体对应的类型（例如是在word，还是在地图应用，还是音视频应用中进行的输入），和当前用户的使用习惯，是否输入过相同的拼音字符串以及输入的次数和最后输入的时间等。其中，当前用户的使用习惯通过对用户的输入设置、本地各应用的触发记录进行分析得到。

仍以用户选择“xi’an”这个音节组合为例，本机配置文件在本次输入后被更新为：“xi’an”这个音节组合共计使用过11次，其中地图应用中使用过9次，word文档中使用过2次，使用时对应的时间分别为，14:002次、15:004次、16:003次、18:002次；使用时对应的地理位置分别为，在西安使用过10次，在北京使用过1次，从而作为用户下次输入提供本地个性化信息的加权依据。同时，还可以将该上述信息传至服务器端，通过服务器端的各种特征模型将相关内容进行聚类，作为用户下次输入提服务器端供个性化信息的加权依据。

通过本实施例的拼音字符串处理方案，结合了用户习惯、输入环境、时间和位置等与用户输入密切相关且对于每个用户又不尽相同的特征，通过这些特征影响用户输入，减少了用户选择输入时的交互次数，降低了输入时间成本，提高了输入效率。

实施例四

参照图5，示出了本申请实施例四的一种拼音字符串处理装置的结构框图。

如图5所示，本实施例的拼音字符串处理装置包括：第一获取模块502，用于接收拼音字符串的输入，获取当前环境信息；其中，当前环境信息为接收拼音字符串的当前应用程序和/或输入框的信息；第二获取模块504，用于依据预设的配置信息，获取输入拼音字符串的个性化信息；其中，个性化信息中包括用户习惯信息和历史环境信息，历史环境信息包括用户往期进行汉字输入时所处的环境信息；第三获取模块506，用于依据个性化信息和当前环境信息对拼音字符串对应的至少一组音节组合进行筛选，从而确定拼音字符串中分词符的位置。

优选地，用户个性化信息还包括：时间信息和/或位置信息；其中，时间信息为与用户往期进行输入和/或往期进行网络访问时所处的时间；位置信息为用户往期进行输入和/或往期进行网络访问时所处的地理位置；

第三获取模块506在依据个性化信息和当前环境信息对拼音字符串对应的至少一组音节组合进行筛选时，依据用户习惯信息和当前环境信息，以及当前时间信息和/或当前位置信息，对拼音字符串对应的至少一组音节组合进行筛选。

优选地，第三获取模块506包括：获取权值子模块5062，用于根据拼音字符串对应的各组音节组合与用户习惯信息的匹配结果，分别获得每组音节组合对应的习惯权值；根据当前环境信息与历史环境信息的匹配结果，分别获得每组音节组合对应的环境权值；根据当前时间信息和/或当前位置信息与对应的时间信息和/或位置信息的匹配结果，分别获得每组音节组合对应的时间权值和/或地点权值；求和子模块5064，用于对各组音节组合对应的各权值进行求和，获得各组音节组合的总特征权值；确定子模块5066，用于根据各组音节组合的总特征权值对至少一组音节组合进行排序，并根据排前的音节组合确定所述拼音字符串中分词符的位置。

优选地，第二获取模块504在依据预设的配置信息，获取输入拼音字符串的个性化信息时，依据预设的配置信息，确定从服务器端获取个性化信息；其中，服务器端的用户个性化信息通过以下方式生成：获取用户进行网络访问时的历史行为信息；其中，历史行为信息中包括：用户往期进行输入的内容、时间、地理位置、输入环境，和/或，用户往期进行网络访问的内容、时间、地理位置；分别根据预设的兴趣模型、环境模型、时间模型和位置模型，分别对历史行为信息进行分析处理；根据历史行为信息进行分析处理的结果，生成服务器端对应的个性化信息。

优选地，兴趣特征分析模型包括个体兴趣模型和群体兴趣模型，当获取权值子模块5062在根据拼音字符串对应的各组音节组合与所述用户习惯信息的匹配结果，分别获得每组音节组合对应的习惯权值时：将各组音节组合分别与通过个体兴趣模型生成的用户习惯信息进行匹配；若匹配不成功，则将各组音节组合分别与通过个体兴趣模型对应的群体兴趣模型生成的用户习惯信息进行匹配；根据各组音节组合与群体兴趣模型的匹配结果获得各组音节组合对应的习惯权值。

优选地，获取权值子模块5062获取的习惯权值通过以下方式获得：目标音节组合被选择次数/拼音字符串对应的多组音节组合总输入次数×N，其中，权重系数，且N为大于0的自然数。

优选地，本实施例的拼音字符串处理装置还包括：第四获取模块508，用于在第三获取模块506对拼音字符串对应的至少一组音节组合进行筛选之后，获得筛选得到的音节组合分别对应的候选词；第五获取模块510，用于获取各候选词对应的附加权值；其中，附加权值根据对所有用户对各组汉字的选择进行分析统计后得到；输出模块512，用于根据附加权值对候选词进行排序后输出。

优选地，输出模块512用于对候选词进行排序的附加权值，除了根据对所有用户对各组汉字的选择进行分析统计后得到外，还根据个性化信息和当前环境信息对选择出的各组汉字进行分析统计后得到。

优选地，第二获取模块504获取的用户习惯信息，根据当前用户使用各组音节组合的次数和用户使用各组音节组合的最后时间获得。

本实施例的拼音字符串处理装置用于实现前述多个方法实施例中相应的拼音字符串处理方法，并且具有相应的方法实施的有益效果，在此不再赘述。

本发明提供了一种拼音字符串处理方案，该方案可广泛用于所有可以采用输入法进行内容输入的装置，如：手机、个人电脑等。本发明的拼音字符串处理方案当用户输入拼音字符串时，依据用户的个性化信息、当前环境信息、当前时间信息、当前地点信息，对拼音字符串对应的多组音节组合进行筛选，优先提供给用户更贴近欲输入目标的音节组合，减少用户在输入时的交互动作，降低输入时间成本，满足了用户的个性化需求。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上对本发明所提供的一种拼音字符串处理方法和装置进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种拼音字符串处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述个性化信息还包括：时间信息和/或位置信息；其中，所述时间信息为所述用户往期进行输入和/或往期进行网络访问时所处的时间；所述位置信息为所述用户往期进行输入和/或往期进行网络访问时所处的地理位置；

3.根据权利要求2所述的方法，其特征在于，所述依据所述用户习惯信息和所述当前环境的信息对所述拼音字符串对应的至少一组音节组合进行筛选，从而确定所述拼音字符串中分词符的位置的步骤包括：

4.根据权利要求2或3所述的方法，其特征在于，所述个性化信息从服务器端获取，并通过以下方式生成：

5.根据权利要求4所述的方法，其特征在于，所述兴趣模型包括个体兴趣模型和群体兴趣模型；

6.根据权利要求3或5所述的方法，其特征在于，所述习惯权值通过以下方式获得：

目标音节组合被选择次数÷所述拼音字符串对应的多个音节组合总输入次数×N，其中，N为权重系数，且N为大于0的自然数。

7.根据权利要求1所述的方法，其特征在于，所述对所述拼音字符串对应的至少一组音节组合进行筛选之后，还包括：

获得筛选得到的音节组合分别对应的候选词；

根据所述附加权值对所述候选词进行排序后输出。

8.根据权利要求7所述的方法，其特征在于，所述附加权值除了根据对所有用户对所述各组汉字的选择进行分析统计后得到外，还包括：

9.根据权利要求1、2、3或5中任一项所述的方法，其特征在于，所述用户习惯信息根据当前用户使用各组音节组合的次数和用户使用各组音节组合的最后时间获得。

10.一种拼音字符串处理装置，其特征在于，包括：

11.根据权利要求10所述的装置，其特征在于，

所述个性化信息还包括：时间信息和/或位置信息；其中，所述时间信息为所述用户往期进行输入和/或往期进行网络访问时所处的时间；所述位置信息为所述用户往期进行输入和/或往期进行网络访问时所处的地理位置；