CN111353099B

CN111353099B - 一种多语言输入法中输入状态分析方法及***

Info

Publication number: CN111353099B
Application number: CN202010113216.4A
Authority: CN
Inventors: 黄奕桐
Original assignee: Shenzhen Aoe Network Technology Co ltd
Current assignee: Shenzhen Aoe Network Technology Co ltd
Priority date: 2020-02-24
Filing date: 2020-02-24
Publication date: 2023-12-12
Anticipated expiration: 2040-02-24
Also published as: CN111353099A

Abstract

本发明提供的多语言输入法中输入状态分析方法，实时提取不同用户使用过程中的使用数据，所述使用数据包括当前的输入状态以及上一输入状态；根据预设的过滤条件对所述使用数据进行过滤；对过滤后的使用数据在状态转换统计图中的节点位置进行定位；对历史状态转换统计图中各个节点进行统计，获得各个节点的统计信息；根据各个节点的统计信息得到各个节点的前后关系，更新所述状态转换统计图。该方法能自动生成状态转换统计图，准确性高。

Description

一种多语言输入法中输入状态分析方法及***

技术领域

本发明属于多语言输入法技术领域，具体涉及一种多语言输入法中输入状态分析方法及***。

背景技术

多语言输入法包含有很多的语言，使用的用户涉及到多个国家，多语言输入法在不断的迭代更新的过程中会产生很多版本。这些新的版本会有新的特性，例如：新增功能、修改功能、移除功能等等。

在用户使用过程中，相关的工作人员(例如产品人员、测试人员或运营人员)需要根据不同的需求查看各种信息和数据。例如：今天有多少活跃用户？本周上的新版本，有多少用户已经更新到这各版本？美国有多少用户使用了某个新功能？除此以外，这些工作人员还会关注一些统计性的信息和数据，例如：本周，国内用户是怎么使用输入法的？这些功能具体用得怎么样？哪些用得多？哪些用得少？如何发现这些异常？现有技术中，工作人员采用以下方法获得上述统计信息：

首先获得统计信息中的维度和统计信息。维度包括时间(本周)、国家(美国)、语言(西班牙语)、版本(1.9.15)、来源(Facebook广告推广)、平台(GooglePlay)等等。统计信息包括输入状态(例如拼音音节输入、笔画输入、联想选择候选、笔画选择符号、拼音选择候选翻屏等等，不同的输入状态名称不同)。然后，开发人员根据这些维度和统计信息，在用户使用过程中提取相应的信息，得到表1：

表1：

后台服务器当接收到上述表格后，针对具体的问题，通过维度条件过滤和汇总得到具体的统计表。例如：针对本周，国内用户是怎么使用输入法的？这些功能具体用得怎么样？哪些用得多？哪些用得少这一问题得到的统计表如表2所示：

表2：

工作人员结合表2发现问题以下问题，例如：笔画选择符号的次/用户数变少了，笔画输入的用户数增加了。工作人员根据表2，根据输入状态的先后顺序和之间的关联，还原得到图1所示的状态转换统计图。

这种统计信息的分析方法存在以下缺点：1、每次分析都需要重复工作得到状态转换统计图，重复性的工作太多，当输入状态较多时，工作量更大。2、对产品非常了解的工作人员才能弄清楚输入状态的先后顺序，以及各个输入状态之间的转换连接，对产品理解不清楚的工作人员人员容易连错或者将输入状态先后弄反。3、缺少更进一步的统计信息，例如：进入联想候选选择的状态转换连接有三条，这三条连接各自多少用户，多少次数，多少次/人？

发明内容

针对现有技术中的缺陷，本发明提供一种多语言输入法中输入状态分析方法及***，能自动生成状态转换统计图，准确性高。

第一方面，一种多语言输入法中输入状态分析方法，包括以下步骤：

实时提取不同用户使用过程中的使用数据，所述使用数据包括当前的输入状态以及上一输入状态；

根据预设的过滤条件对所述使用数据进行过滤；

对过滤后的使用数据在状态转换统计图中的节点位置进行定位；

对历史状态转换统计图中各个节点进行统计，获得各个节点的统计信息；

根据各个节点的统计信息得到各个节点的前后关系，更新所述状态转换统计图。

优选地，所述根据预设的过滤条件对所述使用数据进行过滤具体包括：

设置包括多个维度的过滤条件；

将使用数据依次与过滤条件中的维度进行匹配；

当使用数据符合过滤条件中所有的维度时，保留该使用数据；

当使用数据不符合过滤条件中至少一个维度时，过滤该使用数据。

优选地，所述对过滤后的使用数据在状态转换统计图中的节点位置进行定位具体包括：

获取该过滤条件对应的历史状态转换统计图；

获取一使用数据中当前的输入状态，判断历史状态转换统计图中是否存在与该使用数据中当前的输入状态相符合的节点；如果存在，定义该节点为该使用数据的当前节点；如果不存在，根据该使用数据中当前的输入状态在历史状态转换统计图中创建新的节点，作为该使用数据的当前节点；

获取一使用数据中上一输入状态，判断历史状态转换统计图中是否存在与该使用数据中上一输入状态相符合的节点，如果存在，定义该节点为该使用数据的上一节点，如果不存在，根据该使用数据中上一输入状态在历史状态转换统计图中创建新的节点，作为该使用数据的上一节点；

在历史状态转换统计图中建立从该上一节点到当前节点的连接关系。

优选地，所述对历史状态转换统计图中各个节点进行统计，获得各个节点的统计信息具体包括：

记录各个节点的使用次数和用户id，当节点中出现新的用户id时，该节点的用户数量加一，以获得节点的统计信息；

记录连接关系的使用次数和用户id，当连接关系中出现新的用户id时，该连接关系的用户数量加一，以获得连接关系的统计信息；

根据各个节点和连接关系的统计信息，进行基于用户数的统计和基于次数的统计。

优选地，所述根据各个节点的统计信息得到各个节点的前后关系，更新所述状态转换统计图具体包括：

获取历史状态转换统计图中相互连接的两个节点；

定义这两个节点的统计信息中使用次数最大或者是用户数量最大的节点为前节点，另一节点为后节点；

根据所述前节点和后节点确定这两个节点的前后关系；

根据所有节点的前后关系更新状态转换统计图。

第二方面，一种多语言输入法中输入状态分析***，包括：

采集单元：用于实时提取不同用户使用过程中的使用数据，所述使用数据包括当前的输入状态以及上一输入状态；

过滤单元：用于根据预设的过滤条件对所述使用数据进行过滤；

定位单元：用于对过滤后的使用数据在状态转换统计图中的节点位置进行定位；

统计单元：用于对历史状态转换统计图中各个节点进行统计，获得各个节点的统计信息；

更新单元：用于根据各个节点的统计信息得到各个节点的前后关系，更新所述状态转换统计图。

优选地，所述过滤单元具体用于：

设置包括多个维度的过滤条件；

将使用数据依次与过滤条件中的维度进行匹配；

优选地，所述定位单元具体用于：

获取该过滤条件对应的历史状态转换统计图；

优选地，所述统计单元具体用于：

优选地，所述更新单元具体用于：

获取历史状态转换统计图中相互连接的两个节点；

根据所述前节点和后节点确定这两个节点的前后关系；

根据所有节点的前后关系更新状态转换统计图。

由上述技术方案可知，本发明提供的一种多语言输入法中输入状态分析方法及***，能自动生成状态转换统计图，准确性高。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中，类似的元件或部分一般由类似的附图标记标识。附图中，各元件或部分并不一定按照实际的比例绘制。

图1为背景技术中采用现有方法生成的状态转换统计图。

图2为本发明实施例一提供的输入状态分析方法的流程图。

图3为图2中过滤方法的流程图。

图4为图2中定位方法的流程图。

图5为图2中统计方法的流程图。

图6为图2中更新方法的流程图。

图7为本发明实施例一生成的状态转换统计图。

具体实施方式

下面将结合附图对本发明技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本发明的技术方案，因此只作为示例，而不能以此来限制本发明的保护范围。需要注意的是，除非另有说明，本申请使用的技术术语或者科学术语应当为本发明所属领域技术人员所理解的通常意义。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

状态转换统计图包含的基本图形元素为：多个输入状态以及输入状态间的连接关系。输入状态是指输入过程中的各个从粗到细的状态，例如:9键拼音、9键拼音-拼音输入、9键拼音-拼音输入-拼写音节、9键拼音-拼音输入-选择音节、9键拼音-候选上屏、9键拼音-词语联想、9键拼音-词语联想-向下翻页、9键拼音-词语联想-向上翻页等等。

实施例一：

参见图2，一种多语言输入法中输入状态分析方法，包括以下步骤：

S1：实时提取不同用户使用过程中的使用数据，所述使用数据包括当前的输入状态以及上一输入状态；

具体地，使用数据除了包括当前的输入状态以及上一输入状态以外，还包括一定的统计信息，例如状态发生次数、转换发生次数、转换率等等。由于现有方法中采集的用户数据缺失了输入状态的转换信息，所以无法维系上一个输入状态和当前输入状态之间的转换关系，所以该方法在采集使用数据时，把上一输入状态也保存下来，就相当于保存了输入状态的转换信息。例如采集到表3所示的使用数据：

表3：

另外，输入状态是不重复的，如果两条使用数据的当前输入状态一致，那么这两个用户是使用的同一个输入状态，所以，一条使用数据就可以唯一确认用户当前输入状态和上一输入状态。

S2：根据预设的过滤条件对所述使用数据进行过滤；参见图3，具体包括：

设置包括多个维度的过滤条件；

将使用数据依次与过滤条件中的维度进行匹配；

具体地，维度包括用户、语言、国家、版本、来源、平台等等。工作人员在还原状态转换统计图时，通常都会提出需求，包括限定的维度条件。这样这些需求就构成了过滤条件，过滤条件中各维度之间存在着“和”或“或”的关系。所以该方法在采集到使用数据时，需要通过过滤条件对采集到的使用数据进行过滤，对于每一条使用数据，都会用过滤条件的维度进行匹配，如果不符合至少一个维度时，则这条使用数据则被过滤掉。该方法在将使用数据依次与过滤条件中的维度进行匹配时，首先将使用数据与过滤条件中的第一个维度进行匹配，当不符合该维度时，将该使用数据过滤掉，当符合该维度时，将使用数据与过滤条件中下一个维度进行匹配，重复上述步骤，直至与所有的维度匹配完。

S3：对过滤后的使用数据在状态转换统计图中的节点位置进行定位；参见图4，具体包括：

获取该过滤条件对应的历史状态转换统计图；

具体地，最开始的时候，状态转换统计图上并没有任何的元素：包括节点、连接关系、以及任何统计信息，最初的状态转换统计图是一张空的图。当接收到一个当前输入状态时，首先是在状态转换统计图上找是否存在对应的节点，因为所有的输入状态是不重复的，如果状态转换统计图上已经存在该节点，就能定位到对应的节点位置，如果不存在，则在状态转换统计图上创建一个新的以当前输入状态名进行命名的节点。同理采用上述方法定位上一输入状态的节点位置。当定位好了当前输入状态和上一输入状态的节点位置时，做一条从上一个输入状态对应的节点到当前输入状态对应的节点的连接关系，表示状态转换的前后关系，这里仅仅是根据一条使用数据初步确认状态转换统计图中节点之间的前后关系，这个前后关系不一定真实准确。

S4：对历史状态转换统计图中各个节点进行统计，获得各个节点的统计信息；参见图5，具体包括：

具体地，该方法再完成定位后，首先对节点和连接关系的数据进行统计，获得节点或连接关系的统计信息(使用次数和不重复的用户数量)。然后根据统计信息进行基于用户数的统计和基于次数的统计。例如：联想状态可以分别切换至拼音输入和笔画输入，则通过基于用户数的统计可以得到72％的用户由联想状态进入拼音输入，28％的用户由联想状态进入笔画输入。通过基于次数的统计可以得到82％的次数由联想状态进入拼音输入，18％的次数由联想状态进入笔画输入。

S5：根据各个节点的统计信息得到各个节点的前后关系，更新所述状态转换统计图。参见图6，具体包括：

获取历史状态转换统计图中相互连接的两个节点；

根据所述前节点和后节点确定这两个节点的前后关系；

根据所有节点的前后关系更新状态转换统计图，更新后的状态转换统计图参见图7。

具体地，该方法到目前为止，状态转换统计图的大部分信息都已经还原了，唯独缺少准确的各个输入状态之间的前后关系。由于输入状态之间是可以互相转换的，例如拼音输入状态可以进入联想选择状态，联想选择状态也可以进入拼音输入状态，所以仅凭步骤S3中的一条使用数据不能准确地判定出哪个输入状态在前，哪个输入状态在后。

在状态转换统计图中，除了初始输入状态之外，所有的其他输入状态都有来源的输入状态。所以基于这个原则，初始输入状态的统计信息(次数、人数)肯定是最大的，在后的输入状态的统计信息(次数、人数)比前一个输入状态小，如果两个相连节点的统计信息完全一致，说明这两个节点并不存在严格的前后关系，它们只是表现为1:1的互相转换。

状态转换统计图上，如果两个节点间没有连线，则说明这两个节点没有转换关系，那么这两个节点并没有比较先后的意义，在状态转换统计图上不必体现这两个节点的前后关系。

在使用统计信息判断状态转换统计图的前后关系时，优先比较使用次数，其次比较用户数量，即使用次数大的为前节点，使用次数相同的前提下，用户数量大的为前节点。

该方法首先采集足够的使用数据，然后对使用数据进行过滤，根据输入状态的图位置信息，在状态转换图中定位过滤后的使用数据的节点位置，然后在该输入状态和对应连接关系上进行计数和统计，最后根据大量使用数据的统计结果还原状态转换图中节点之间的前后关系，更新状态转换统计图，这样就能够自动生成状态转换统计图，准确性高。

实施例二：

一种多语言输入法中输入状态分析***，包括：

优选地，所述过滤单元具体用于：

设置包括多个维度的过滤条件；

将使用数据依次与过滤条件中的维度进行匹配；

优选地，所述定位单元具体用于：

获取该过滤条件对应的历史状态转换统计图；

优选地，所述统计单元具体用于：

优选地，所述更新单元具体用于：

获取历史状态转换统计图中相互连接的两个节点；

根据所述前节点和后节点确定这两个节点的前后关系；

根据所有节点的前后关系更新状态转换统计图。

该***首先采集足够的使用数据，然后对使用数据进行过滤，根据输入状态的图位置信息，在状态转换图中定位过滤后的使用数据的节点位置，然后在该输入状态和对应连接关系上进行计数和统计，最后根据大量使用数据的统计结果还原状态转换图中节点之间的前后关系，更新状态转换统计图，这样就能够自动生成状态转换统计图，准确性高。

本发明实施例所提供的***，为简要描述，实施例部分未提及之处，可参考前述方法实施例中相应内容。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围，其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims

1.一种多语言输入法中输入状态分析方法，其特征在于，包括以下步骤：

根据预设的过滤条件对所述使用数据进行过滤；

根据各个节点的统计信息得到各个节点的前后关系，更新所述状态转换统计图；

所述根据各个节点的统计信息得到各个节点的前后关系，更新所述状态转换统计图具体包括：

获取历史状态转换统计图中相互连接的两个节点；

根据所述前节点和后节点确定这两个节点的前后关系；

根据所有节点的前后关系更新状态转换统计图；

所述对过滤后的使用数据在状态转换统计图中的节点位置进行定位具体包括：

获取该过滤条件对应的历史状态转换统计图；

2.根据权利要求1所述多语言输入法中输入状态分析方法，其特征在于，所述根据预设的过滤条件对所述使用数据进行过滤具体包括：

设置包括多个维度的过滤条件；

将使用数据依次与过滤条件中的维度进行匹配；

3.根据权利要求1所述多语言输入法中输入状态分析方法，其特征在于，所述对历史状态转换统计图中各个节点进行统计，获得各个节点的统计信息具体包括：

4.一种多语言输入法中输入状态分析***，其特征在于，包括：

更新单元：用于根据各个节点的统计信息得到各个节点的前后关系，更新所述状态转换统计图；

所述更新单元具体用于：

获取历史状态转换统计图中相互连接的两个节点；

根据所述前节点和后节点确定这两个节点的前后关系；

根据所有节点的前后关系更新状态转换统计图；

所述定位单元具体用于：

获取该过滤条件对应的历史状态转换统计图；

5.根据权利要求4所述多语言输入法中输入状态分析***，其特征在于，所述过滤单元具体用于：

设置包括多个维度的过滤条件；

将使用数据依次与过滤条件中的维度进行匹配；

6.根据权利要求4所述多语言输入法中输入状态分析***，其特征在于，所述统计单元具体用于：