CN109299738B

CN109299738B - 稿件基因的选取方法、装置与电子设备

Info

Publication number: CN109299738B
Application number: CN201811096577.1A
Authority: CN
Inventors: 张芃
Original assignee: Iol Wuhan Information Technology Co ltd
Current assignee: Iol Wuhan Information Technology Co ltd
Priority date: 2018-09-19
Filing date: 2018-09-19
Publication date: 2021-10-26
Anticipated expiration: 2038-09-19
Also published as: CN109299738A

Abstract

本发明实施例提供一种稿件基因的选取方法、装置与电子设备，该方法包括：分别选取多个稿件基因组；对于每个稿件基因组，获取多个匹配成功率样本，并据此计算该稿件基因组对应的匹配成功率的均值和标准差；选取所有均值中的最大者对应的稿件基因组作为最大稿件基因组，并将其均值和标准差分别定义为最大均值和最大标准差；对于除最大稿件基因组之外的每个稿件基因组，基于其对应的均值和标准差，以及最大均值和最大标准差，计算其对应的Z值；基于每个稿件基因组对应的Z值，将满足设定条件的稿件基因组中的基因和最大稿件基因组中的基因合并，获取最终选取的稿件基因。本发明实施例能够使得选取出的稿件基因能够更好的体现稿件间的差异性。

Description

稿件基因的选取方法、装置与电子设备

技术领域

本发明实施例涉及数据处理技术领域，更具体地，涉及一种稿件基因的选取方法、装置与电子设备。

背景技术

互联网高速、海量的数据中包含着种类繁多且错综复杂的文档。不同的文档，其所包含的关键信息不尽相同，则根据这些关键信息可以对不同的文档进行适于该文档的处理方式。例如，在翻译行业中，对于不同的待翻译稿件，可以根据其所包含的关键信息，来为该稿件匹配最合适的翻译人员，以有效提高翻译效率和翻译准确性。

稿件与译员的基因匹配是指将译员基因与稿件基因在既定策略下通过匹配模型，实现为稿件找到最佳译员的过程。所选取的用于进行基因匹配的稿件基因与其它稿件基因相比，应该能够更好的体现待匹配稿件的差异性，如此才能为待翻译稿件匹配到更适合的译员。

稿件基因主要指通过对稿件抽取若干特征并进行有效组合，形成为稿件本质刻画的相对唯一的表征。也可以认为是通过对稿件特征属性进行分析计算、量化处理，所获取到的存在于稿件的、区别于其他稿件的、独一无二的关键信息组合。

稿件基因来源多种多样。稿件基因存在于所有稿件中，不同稿件具备不同的基因。由于具体应用的不同，目前存在的文档基因匹配算法在选择稿件待匹配基因进行匹配计算时，常根据经验来选择相应的基因组合。

但是，互联网高速、海量的数据中稿件的种类繁多且错综复杂，上述稿件基因的选择方式会存在一定的局限性，导致选择出的稿件基因不能很好的体现稿件间的差异性。因此在进行稿件基因的选择时，更重要的是要提取差异性的基因，这样才可以差异化对待。

发明内容

为了克服上述问题或者至少部分地解决上述问题，本发明实施例提供一种稿件基因的选取方法、装置与电子设备，用以使得选取出的稿件基因能够更好的体现稿件间的差异性。

第一方面，本发明实施例提供一种稿件基因的选取方法，包括：从备选稿件基因列表中，分别选取多组不同的基因，构成多个稿件基因组；对于每一个所述稿件基因组，进行多次匹配结果采样，获取多个匹配成功率样本，并基于所述多个匹配成功率样本，计算该稿件基因组对应的匹配成功率的均值和标准差；选取所有所述均值中的最大者对应的稿件基因组，定义为最大稿件基因组，并将所述最大稿件基因组的所述均值定义为最大均值，将所述最大稿件基因组的所述标准差定义为最大标准差；对于所有所述稿件基因组中除所述最大稿件基因组之外的每一个所述稿件基因组，基于该稿件基因组对应的所述均值和所述标准差，以及所述最大均值和所述最大标准差，计算该稿件基因组对应的Z值；基于所有所述稿件基因组中除所述最大稿件基因组之外的每一个所述稿件基因组对应的所述Z值，从所有所述稿件基因组中选取满足设定条件的稿件基因组，并将所述满足设定条件的稿件基因组中的基因和所述最大稿件基因组中的基因合并，获取最终选取的稿件基因；其中，所述Z值表示大样本差异性验证中Z值。

第二方面，本发明实施例提供一种稿件基因的选取装置，包括：初始基因选取模块，用于从备选稿件基因列表中，分别选取多组不同的基因，构成多个稿件基因组；第一计算模块，用于对于每一个所述稿件基因组，进行多次匹配结果采样，获取多个匹配成功率样本，并基于所述多个匹配成功率样本，计算该稿件基因组对应的匹配成功率的均值和标准差；最大基因组选取模块，用于选取所有所述均值中的最大者对应的稿件基因组，定义为最大稿件基因组，并将所述最大稿件基因组的所述均值定义为最大均值，将所述最大稿件基因组的所述标准差定义为最大标准差；第二计算模块，用于对于所有所述稿件基因组中除所述最大稿件基因组之外的每一个所述稿件基因组，基于该稿件基因组对应的所述均值和所述标准差，以及所述最大均值和所述最大标准差，计算该稿件基因组对应的Z值；最终基因选取模块，用于基于所有所述稿件基因组中除所述最大稿件基因组之外的每一个所述稿件基因组对应的所述Z值，从所有所述稿件基因组中选取满足设定条件的稿件基因组，并将所述满足设定条件的稿件基因组中的基因和所述最大稿件基因组中的基因合并，获取最终选取的稿件基因；其中，所述Z值表示大样本差异性验证中Z值。

第三方面，本发明实施例提供一种电子设备，包括：至少一个存储器、至少一个处理器、通信接口和总线；所述存储器、所述处理器和所述通信接口通过所述总线完成相互间的通信，所述通信接口用于所述电子设备与稿件信息设备之间的信息传输；所述存储器中存储有可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如上第一方面所述的稿件基因的选取方法。

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行如上第一方面所述的稿件基因的选取方法。

本发明实施例提供的稿件基因的选取方法、装置与电子设备，通过预先从所有稿件的稿件基因池中选取多组稿件基因组，并通过计算这些稿件基因组所对应的Z值，来选取Z值满足设定条件的稿件基因组，以作为最终的选取结果，使得选取出的稿件基因能够更好的体现稿件间的差异性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的稿件基因的选取方法的流程示意图；

图2为根据本发明实施例提供的稿件基因的选取方法中提取稿件基因的流程示意图；

图3为本发明实施例提供的稿件基因的选取装置的结构示意图；

图4为本发明实施例提供的电子设备的实体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明实施例的一部分实施例，而不是全部的实施例。基于本发明实施例中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明实施例保护的范围。

互联网高速、海量的数据中包含着种类繁多且错综复杂的文档。不同的文档，其所包含的关键信息不尽相同。由于具体应用的不同，目前存在的文档基因匹配算法在选择稿件待匹配基因进行匹配计算时，常根据经验来选择相应的基因组合。但传统方法具有一定的局限性，导致选择出的稿件基因不能很好的体现稿件的差异性等的问题。

针对上述问题，本发明实施例通过预先从所有稿件的稿件基因池中选取多组稿件基因组，并通过计算这些稿件基因组所对应的Z值，来选取Z值满足设定条件的稿件基因组，以作为最终的选取结果，使得选取出的稿件基因能够更好的体现稿件间的差异性。其中，Z值表示大样本差异性验证中Z值。

作为本发明实施例的一个方面，本实施例提供一种稿件基因的选取方法，参考图1，为本发明实施例提供的稿件基因的选取方法的流程示意图，包括：

S101，从备选稿件基因列表中，分别选取多组不同的基因，构成多个稿件基因组。

可以理解为，在进行本实施例的稿件基因选取之前，事先会根据稿件的所有属性信息建立一个备选稿件基因列表，该备选稿件基因列表中可以包含与稿件特定属性相关的所有基因。具体的，该备选稿件基因列表可以认为是一个基因池，在该基因池中以基因为单位存放有从所有稿件中提取的与稿件信息相关的基因，即稿件基因。稿件基因主要指通过对稿件特征属性进行分析计算、量化处理，所获取到的存在于稿件的、区别于其他稿件的、独一无二的关键信息组合。

本步骤中根据该备选稿件基因列表，分别选取多组稿件基因，并分别以每一组稿件基因构成一个基因组，作为稿件基因组，该稿件基因组为初选出的稿件基因组。可以理解的是，在进行各组稿件基因选择时，可以从备选稿件基因列表中随机抽选表中的多个稿件基因，则利用这些随机抽取的稿件基因可以构成一个基因组，即为稿件基因组。

当然，也可以事先定义抽取规则，如，同时抽取或依次抽取，隔行抽取或指定行号抽取，根据基因表征的不同稿件信息抽取，抽取的数量，等等。之后在进行实际的抽取过程时，对于每一组稿件基因的抽取，根据该预先定义的抽取规则，从备选稿件基因列表抽取相应的多个基因。

例如，从备选稿件基因列表中随机选取3-5个不同的基因，作为一组基因，构成一个稿件基因组。则采用相同的方式，可以同时分别选取也可以依次选取多组基因，构成多个稿件基因组，本发明实施例对此不作限制。

S102，对于每一个稿件基因组，进行多次匹配结果采样，获取多个匹配成功率样本，并基于多个匹配成功率样本，计算该稿件基因组对应的匹配成功率的均值和标准差。

可以理解为，对于每一组初选出的稿件基因组而言，需要确定其与译员的匹配效果，从而选择更适于基因匹配的稿件基因。同时，为了不失一般性，对于每一组稿件基因组，可以将该稿件基因组输入给定匹配模型，利用给定匹配模型进行多次匹配结果采样，每次采样可获取一个匹配成功率样本。

可以理解的是，对于每一组稿件基因组，在利用匹配模型进行匹配成功率样本的采集时，将该组稿件基因组中的基因输入到匹配模型中，该匹配模型会根据自身提供的译员基因，自动计算该稿件基因组中的基因与译员基因的匹配成功率数值并输出，则匹配模型输出的该匹配成功率数值即可作为一个匹配成功率样本。对于同一稿件基因组，进行多次上述匹配结果采样过程，则可以得到多个匹配成功率样本。

之后，对于每一个初选出的稿件基因组而言，根据上述多次匹配结果采样获取的多个匹配成功率样本，计算该稿件基因组的综合匹配成功率，即分别计算该稿件基因组对应的匹配成功率的均值和标准差。可以理解的是，每一个匹配成功率样本，实际上是一次匹配结果采样得到的匹配成功率数值。

例如，假设根据某个稿件基因组进行匹配结果采样，得到n个匹配成功率样本分别为p₁,p₂,...p_n。则据其计算该稿件基因组对应的匹配成功率的均值为：

式中，E(p)表示稿件基因组对应的匹配成功率的均值，p_i表示稿件基因组的第i个匹配成功率样本，n表示针对该稿件基因组采集的匹配成功率样本的总个数。

在此基础上，计算该稿件基因组对应的匹配成功率的标准差如下：

式中，S表示稿件基因组对应的匹配成功率的标准差，E(p)表示稿件基因组对应的匹配成功率的均值，p_i表示稿件基因组的第i个匹配成功率样本，n表示针对该稿件基因组采集的匹配成功率样本的总个数。

S103，选取所有均值中的最大者对应的稿件基因组，定义为最大稿件基因组，并将最大稿件基因组的均值定义为最大均值，将最大稿件基因组的标准差定义为最大标准差。

可以理解为，假设选取的稿件基因组的总组数为m组，则根据上述步骤，可计算得到m组对应的均值和标准差。本发明实施例首先从m个均值中选取取值最大者，并将该最大者所对应的稿件基因组定义为最大稿件基因组。则相应的，将该最大稿件基因组的均值定义为最大均值，用变量E_max表示，将该最大稿件基因组的标准差定义为最大标准差，用变量S_max表示。

S104，对于所有稿件基因组中除最大稿件基因组之外的每一个稿件基因组，基于该稿件基因组对应的均值和标准差，以及最大均值和最大标准差，计算该稿件基因组对应的Z值；其中，所述Z值表示大样本差异性验证中Z值。

可以理解为，在根据上述步骤计算得到所有稿件基因组中除最大稿件基因组之外的每个初选出的稿件基因组对应的匹配成功率的均值和标准差的基础上，对于这些初选出的稿件基因组，计算其Z值。具体而言，对于这些稿件基因组中的每一个稿件基因组，根据其所对应的匹配成功率的标准差和均值，结合最大稿件基因组对应的最大均值E_max和最大标准差S_max，分别计算该稿件基因组对应的Z值。

可以理解的是，其中的Z值的概念为大样本差异性验证，即Z验证中的Z值的概念。Z检验是一般用于大样本(即样本容量大于30)平均值差异性检验的方法。它是用标准正态分布的理论来推断差异发生的概率，从而比较两个平均数的差异是否显著。当已知标准差时，验证一组数的均值是否与某一期望值相等。本发明实施例中利用Z验证来衡量初选出的稿件基因组的匹配差异性验证，因此对每一个初选出的稿件基因组进行Z值计算。

S105，基于所有稿件基因组中除最大稿件基因组之外的每一个稿件基因组对应的Z值，从所有稿件基因组中选取满足设定条件的稿件基因组，并将满足设定条件的稿件基因组中的基因和最大稿件基因组中的基因合并，获取最终选取的稿件基因。

可以理解为，根据上述步骤，可以计算出除最大稿件基因外的每个稿件基因组的Z值，根据该Z值可以判断各对应稿件基因组在进行基因匹配时的差异性性能。因此，根据每个稿件基因组对应的Z值，可以利用预先设定的设定条件，判断该Z值对应的译员基因组是否满足设定的差异性要求。如果不满足，则将其从初选出的各稿件基因组中剔除，最终剩余没有被剔除的所有稿件基因组即为符合要求的稿件基因组，这些稿件基因组中包括Z值满足设定差异性要求的稿件基因组和最大稿件基因组。将剩余的所有稿件基因组中的基因取出，并在去除这些基因中的重复基因后，形成新的一组基因，即作为最终选取的稿件基因。

例如，假设针对某个稿件基因组总共采集了n个匹配成功率样本，这些匹配成功率样本符合正态分布。同时，预先设定了选择稿件基因的设定条件为，选出的基因的置信度不低于95％，该置信度对应到稿件基因组的Z值为1.96。则，对于初选出的每一个稿件基因组，将其对应的Z值与1.96进行比较，若Z值大于1.96，则将该Z值对应的稿件基因组剔除，否则，保留该Z值对应的稿件基因组。

假设根据上述处理过程，从所有n个初选出的稿件基因组中剔除了p个不满足设定条件的稿件基因组，剩余的n-p个稿件基因组是满足设定条件的。则，在这n-p个稿件基因组中，可能有两个或者两个以上的稿件基因组中同时包含了某个稿件基因。因此将这n-p个稿件基因组中的全部稿件基因取出，放入一个新的基因池中，在该基因池中，对于出现多次的每个稿件基因，剔除多余的而仅保留一个该稿件基因。最终这个新的基因池中所包含的是多个非重复的稿件基因，将这些基因作为最终选取的稿件基因。

本发明实施例提供的稿件基因的选取方法，通过预先从所有稿件的稿件基因池中选取多组稿件基因组，并通过计算这些稿件基因组所对应的Z值，来选取Z值满足设定条件的稿件基因组，以作为最终的选取结果，使得选取出的稿件基因能够更好的体现稿件间的差异性。另外，在基因匹配应用中，能够使据此选取的稿件与已有译员进行更合理的匹配，从而有效提高翻译效率和翻译准确率。

其中，在一个实施例中，在从备选稿件基因列表中，分别选取多组不同的基因的步骤之前，本发明实施例的方法还包括：

分别从稿件的所有项目相关信息、稿件相关信息和过程相关信息中提取相应的基因，并对应形成稿件的项目相关基因、稿件相关基因和过程相关基因；

基于项目相关基因、稿件相关基因和过程相关基因，构成备选稿件基因列表。

可以理解为，互联网高速、海量的数据中包含着种类繁多且错综复杂的文档。不同的文档，其所包含的关键信息不尽相同。通过稿件基因的来源渠道，本实施例从以下几个方面提取稿件基因，构成备选稿件基因列表：

项目相关信息，即客户对项目的要求，包括所提供的相关工具、术语、专家支持等信息，属于基因的重要来源渠道；

稿件相关信息，稿件自身的文档信息由文档内容所确定，包括文档大小、语种信息、类别信息、类型信息、词汇信息、术语信息、句法信息、语义信息等；

过程相关信息，指稿件在从生成到翻译完成等过程中所处的状态，以及碎片稿件，如项目中的大稿件被拆分后出现的新基因信息，如字数的变化，质量的要求，行业的变化，时间的要求等。

基于稿件的上述信息，分别提取稿件对应的相应基因，并根据上述各方面，形成对应的项目相关基因、稿件相关基因和过程相关基因。之后，基于上述各方面的基因，构成备选稿件基因列表。例如，对于稿件的稿件相关信息，可以构建稿件相关信息对应的备选稿件基因列表如表1所示，为根据本发明实施例的一种稿件相关信息备选稿件基因列表。

表1，为根据本发明实施例的一种稿件相关信息备选稿件基因列表

则，在根据表1进行多个稿件基因组的选取时，可以随机选择各数据项中的多个分别对应的稿件基因，如抽选到“源语种”对应的基因“简体中文”以及“所属领域”对应的基因“发动机”，则以二者构成一个稿件基因组。采用同样的处理过程，还可以选取别的多个不同的稿件基因组。

同样的，假如事先设定了抽取规则为选取与稿件本身文档相关的基因，可以选择表1中“稿件字数”、“稿件类型”、“稿件格式”以及“参考语料”等对应的基因，构成稿件基因组。

可以理解的是，稿件基因存在于稿件中，不同稿件具备不同的基因，有共性但更重要的是要提取差异性的基因，这样才可以差异化对待，匹配最佳译员。

但是，基因不是特征，无法简单明确的辨识，所以需要有步骤进行提取。基因与特征存在本质区别，特征是对对象所共有的特性抽象出某一概念。特征中包含细分属性，而属性中所包含的对象的最根本信息——基因。

因此本实施例在进行稿件基因的提取时，首先根据上述实施例的稿件的三个方面信息，提取对应的特征信息，作为稿件特征。之后，根据不同的稿件特征，提取稿件的属性信息，即稿件属性，之后再分别提取稿件的最根本信息，构成稿件直接基因。具体如图2所示，为根据本发明实施例提供的稿件基因的选取方法中提取稿件基因的流程示意图。

本发明实施例提供的稿件基因的选取方法，通过从稿件的项目相关信息、稿件相关信息和过程相关信息三个方面，分别提取稿件的基因，并据此构成备选稿件基因列表，以进行更优稿件基因的选择与匹配，能够更全面的考虑稿件不同方面的特殊信息，为更合理的进行基因匹配提供可靠依据。

其中，根据上述各实施例可选的，进行多次匹配结果采样，获取多个匹配成功率样本的步骤进一步包括：

对于任一轮多次匹配结果采样，执行如下处理流程：

对所有稿件基因组的匹配成功率的初始值进行初始设定；

从所有稿件基因组中随机选取一个稿件基因组，对选取的该稿件基因组进行匹配试验，并基于对该稿件基因组本次匹配试验的匹配成功率结果与历史匹配成功率结果，更新该稿件基因组当前的匹配成功率值；

重复执行随机选取至更新的步骤，直至对任一稿件基因组的匹配试验的次数达到第一设定阈值，停止对该稿件基因组的匹配试验，并记录该稿件基因组当前的匹配成功率值；

对停止匹配试验的稿件基因组以外的稿件基因组，重复执行随机选取至记录的步骤，直至对所有稿件基因组的匹配试验的总次数达到第二设定阈值，则记录每个稿件基因组当前的匹配成功率值，并结束本轮多次匹配结果采样，进入下一轮多次匹配结果采样，直至执行多次匹配结果采样的总轮数达到第三设定阈值，获取每个稿件基因组的数量为第三设定阈值的匹配成功率样本。

具体而言，可以利用给定匹配模型，进行多轮多次匹配结果采样。获取多个匹配成功率样本时，可以假设根据上述各实施例选取了m组稿件基因组，则可以对每个稿件基因组的匹配成功率进行采样，基于以上m个基因组进行多轮多次(一般不少于30次)匹配实验，每轮匹配试验过程如下：

步骤1，对每个稿件基因组的匹配成功率的取值进行初始化设定，例如初始化设置为0。

步骤2，随机选择一个稿件基因组，在给定匹配模型中进行匹配成功率结果计算，得到本次匹配试验的匹配成功率结果。同时，结合本轮多次匹配结果采样中历史记录的之前数次的匹配试验的匹配成功率结果，即历史匹配成功率结果，计算选取的该稿件基因组当前的匹配成功率值。

步骤3，多次循环执行上述步骤1和2，由于每次选取稿件基因组都是从所有稿件基因组中随机选取，因此每个基因组被进行匹配试验的次数可能不同，则当对某个稿件基因组的匹配试验的次数达到第一设定阈值的时候，即停止对该稿件基因组的本轮匹配试验，并记录停止试验时，该稿件基因组当前的匹配成功率值。

步骤4，对于除去达到第一设定阈值的稿件基因组之外的其余稿件基因组，继续执行上述步骤1-3的处理流程，直至本轮匹配试验的总次数达到第二设定阈值，停止本轮匹配试验。此时对于每个稿件基因组，均有一个匹配成功率值与之对应，即为本轮多次匹配结果采样得到的匹配成功率样本，则对于m个稿件基因组，就能得到m个匹配成功率样本。

那么，对于所有稿件基因组，进行多轮(例如达到第三设定阈值)上述的多次匹配结果采样，即可以得到每个稿件基因组的多个匹配成功率样本，例如轮数设为n，则匹配成功率样本数为n(n一般不小于50)。

例如，假设初选出了a₁、a₂和a₃共三个稿件基因组，并预先设定第一设定阈值、第二设定阈值和第三设定阈值分别为3、8和5。则，在每一轮多次匹配结果采样时：

首先进行第一次选取，从a₁、a₂和a₃中随机选取一个，例如选取到a₁，则对a₁进行匹配试验，试验结果为匹配成功，则得到a₁的匹配成功率值为100％。

接下来进行第二次选取，假设选取到a₂，对其进行匹配试验，得到试验结果为匹配不成功，则得到a₂的匹配成功率值为0％。

接下来再进行第三次选取，假设又选取到a₁，且匹配试验结果为匹配不成功，则根据对a₁的总共两次匹配试验结果，得到a₁当前的匹配成功率值为50％。

接下来再进行第四次选取，假设选取到a₃，且匹配试验结果为匹配成功，则得到a₃的匹配成功率值为100％。

接下来再进行第五次选取，假设又选取到a₁，且匹配试验结果为匹配成功，则根据对a₁的总共三次匹配试验结果，得到a₁当前的匹配成功率值为66.6％。此时，对a₁的匹配试验次数已经达到了第一设定阈值3，则停止继续对a₁进行匹配试验，并输出其当前的匹配成功率值66.6％，即为本轮多次匹配结果采样中稿件基因组a₁的匹配成功率样本。

接下来再进行第六次选取，由于对a₁已经达到3次匹配试验，则只在a₂和a₃中进行随机选取并进行匹配试验，具体选取和匹配试验流程与上述步骤类似。如此，直到总的匹配试验的次数，即对a₁、a₂和a₃的匹配试验的总次数达到第二设定阈值8次时，结束本轮多次匹配结果采样。此时，对于每一个稿件基因组，均根据上述匹配试验得到了一个匹配成功率样本。

那么，对三个稿件基因组a₁、a₂和a₃，重复多轮进行上述的多次匹配结果采样，则每一轮会得到a₁、a₂和a₃分别对应的一组匹配成功率样本。直到重复的论述达到第三设定阈值5，则可以得到a₁、a₂和a₃各自分别对应的5个匹配成功率样本。

本发明实施例提供的稿件基因的选取方法，利用给定匹配模型进行各稿件基因组的多次匹配成功率计算，并据此选取匹配成功率更高的稿件基因组，可使计算结果可靠性更高。

其中，根据上述各实施例可选的，基于该稿件基因组对应的均值和标准差，以及最大均值和最大标准差，计算该稿件基因组对应的Z值的步骤进一步包括：

利用如下计算公式，计算所有稿件基因组中，除最大稿件基因组之外的每一个稿件基因组对应的Z值：

式中，Z_i表示第i个稿件基因组对应的Z值，n表示每个稿件基因组对应的匹配成功率样本的个数，E_i表示第i个稿件基因组对应的均值，S_i表示第i个稿件基因组对应的标准差，E_max表示最大均值，S_max表示最大标准差。

可以理解为，结合根据上述各实施例计算得到的除最大稿件基因组之外每一个稿件基因组对应的匹配成功率的标准差和均值，以及最大稿件基因组对应的最大均值E_max和最大标准差S_max，利用上述给定的Z值计算公式，可以对应计算出初选出的除最大稿件基因组之外每个稿件基因组Z值。

本发明实施例提供的稿件基因的选取方法，利用初选出的每一个稿件基因组分别对应的均值和标准差，同时结合最大均值和最大标准差，计算每个稿件基因组的Z值，能够更精确的表征每个稿件基因组的匹配成功率情况，从而能够更精准的选取稿件基因来与译员基因进行匹配，改善匹配效果。

其中，根据上述实施例可选的，基于所有稿件基因组中除最大稿件基因组之外的每一个稿件基因组对应的Z值，从所有稿件基因组中选取满足设定条件的稿件基因组的步骤进一步包括：若多个匹配成功率样本符合正态分布，则根据预设置信度确定预设Z值，并剔除最大稿件基因组和Z值大于预设Z值的稿件基因组，以所有所述稿件基因组中剩余的稿件基因组作为满足设定条件的稿件基因组。

可以理解为，在计算出除最大稿件基因组之外每个稿件基因组的Z值后，根据该Z值可以判断各对应稿件基因组在进行基因匹配时的差异性性能。因此，根据每个稿件基因组对应的Z值，可以判断其是否满足设定的差异性要求，如果不满足，则将其从初选出的各稿件基因组中剔除。另外，将最大稿件基因组也一同剔除，则最终剩余没有被剔除的所有稿件基因组即为符合要求的稿件基因组。将剩余的所有稿件基因组中的基因取出，并在去除这些基因中的重复基因后，形成新的一组基因，即作为最终选取的稿件基因。

对于采样的匹配成功率样本符合正态分布的情况，假如要获得95％的置信度，即预先设定的选取标准是置信度满足95％，则针对稿件基因组计算的Z值应不大于1.96。因此，Z值大于1.96的稿件基因组以及根据上述各实施例得到的最大稿件基因组将会被剔除，剩下的初选的稿件基因组将被保留作为最终选取的稿件基因组。

本发明实施例提供的稿件基因的选取方法，通过预先设定阈值，并根据该阈值选取稿件基因组，能够保证所选取的稿件基因组的精度，对于更精准的匹配译员具有重要意义。

进一步的，在上述实施例的基础上，在从所有稿件基因组中选取满足设定条件的稿件基因组的步骤之后，本发明实施例的方法还包括：若所有除最大稿件基因组之外的稿件基因组中，Z值不大于预设Z值的稿件基因组的数量小于预设阈值，则重新从备选稿件基因列表中选择多组基因，进行多次匹配结果采样至获取最终选取的稿件基因之间的选取步骤。

可以理解为，本发明实施例在获取除最大稿件基因组之外的每一个稿件基因组对应的Z值，并从所有稿件基因组中选取满足设定条件的稿件基因组之后，还可以包括如下处理步骤：通过统计Z值不大于预设Z值的稿件基因组的数量，统计最终选取的满足设定条件的稿件基因组的数量，并将该数量与预先设定好的预设阈值进行比较，若该数量小于设定阈值，则重新从备选稿件基因列表中选择多组基因，进行上述实施例中多次匹配结果采样至获取最终选取的稿件基因之间的选取步骤。

例如，根据每一个稿件基因组对应的Z值，分别利用预先设定的选取标准进行判断。若所有稿件基因组中，没有一个稿件基因组的Z值能够满足该选取标准，则回到步骤S101，从备选稿件基因列表中重新选取多组不同的稿件基因组，重新进行上述实施例的计算与选取过程。

例如，对于采样的匹配成功率样本符合正态分布的情况，若要获得95％的置信度，即预先设定的设定条件是稿件基因组的置信度满足95％，则针对稿件基因组计算的Z值应不大于1.96。而实际应用中，在从备选稿件基因列表中选取多组稿件基因组时，可能由于是随机选取等原因，导致在对选取出的稿件基因组计算Z值时，Z值均不能满足上述标准，则需要重新在备选稿件基因列表中选择另外的稿件基因组，并进行重新计算和选取。

本发明实施例提供的稿件基因的选取方法，通过对计算结果的判断和对选取步骤的循环重复执行，能够保证可以选取出满足要求的高质量基因，对于更精准的匹配译员具有重要意义。

进一步的，在上述实施例的基础上，进行多次匹配结果采样，获取多个匹配成功率样本的步骤之前，本发明实施例的方法还包括：根据基因匹配精度需求，设定进行匹配结果采样的总次数阈值；则相应的，对于每一个稿件基因组，提取的匹配成功率样本的个数不少于总次数阈值。

可以理解为，在进行多次匹配结果采样，获取多个匹配成功率样本的步骤之前，本实施例根据与待匹配译员的基因匹配计算精度的需求，设定进行匹配结果采样的总次数阈值，则相应的在实际采样时，采集匹配成功率样本的个数不小于该总次数阈值。例如，对于每一个稿件基因组，要求提取的匹配成功率样本的个数不少于50，则该数据50即为预先设定的总次数阈值。

本发明实施例提供的稿件基因的选取方法，通过设定合适的总次数阈值，能够保证样本数量，从而更不失一般性，具有更高的精度。

作为本发明实施例的另一个方面，本发明实施例根据上述各实施例提供一种稿件基因的选取装置，该装置用于在上述各实施例中实现对最终稿件基因的选取。因此，在上述各实施例的稿件基因的选取方法中的描述和定义，可以用于本发明实施例中各个执行模块的理解，具体可参考上述实施例，此处不在赘述。

根据本发明本方面实施例的一个实施例，稿件基因的选取装置的结构如图3所示，为本发明实施例提供的稿件基因的选取装置的结构示意图，该装置可以用于对上述各方法实施例中稿件基因的选取，该装置包括：初始基因选取模块301、第一计算模块302、最大基因组选取模块303、第二计算模块304和最终基因选取模块305。

其中，初始基因选取模块301用于从备选稿件基因列表中，分别选取多组不同的基因，构成多个稿件基因组；第一计算模块302用于对于每一个稿件基因组，进行多次匹配结果采样，获取多个匹配成功率样本，并基于多个匹配成功率样本，计算该稿件基因组对应的匹配成功率的均值和标准差；最大基因组选取模块303用于选取所有均值中的最大者对应的稿件基因组，定义为最大稿件基因组，并将最大稿件基因组的均值定义为最大均值，将最大稿件基因组的标准差定义为最大标准差；第二计算模块304用于对于所有稿件基因组中除最大稿件基因组之外的每一个稿件基因组，基于该稿件基因组对应的均值和标准差，以及最大均值和最大标准差，计算该稿件基因组对应的Z值；最终基因选取模块305用于基于所有稿件基因组中除最大稿件基因组之外的每一个稿件基因组对应的Z值，从所有稿件基因组中选取满足设定条件的稿件基因组，并将满足设定条件的稿件基因组中的基因和最大稿件基因组中的基因合并，获取最终选取的稿件基因；其中，所述Z值表示大样本差异性验证中Z值。

具体而言，初始基因选取模块301可以根据预先建立的备选稿件基因列表，分别选取多组稿件基因，并分别以每一组稿件基因构成一个基因组，作为稿件基因组，该稿件基因组为初选出的稿件基因组。例如，在进行各组稿件基因的选择时，初始基因选取模块301可以从备选稿件基因列表中随机抽选表中的多个稿件基因，并利用这些随机抽取的稿件基因构成一个基因组，即为稿件基因组。

之后，对于每一组初选出的稿件基因组而言，需要确定其与稿件的匹配效果，从而选择更适于基因匹配的稿件基因。同时，为了不失一般性，对于每一组稿件基因组，第一计算模块302可以通过将该稿件基因组输入给定匹配模型，利用给定匹配模型进行多次匹配结果采样，每次采样均可获取一个匹配成功率样本。可以理解的是，每一个匹配成功率样本，实际上是一次匹配结果采样得到的匹配成功率数值。

另外，对于每一个初选出的稿件基因组而言，第一计算模块302根据上述多次匹配结果采样获取的多个匹配成功率样本，计算该稿件基因组的综合匹配成功率，即分别计算该稿件基因组对应的匹配成功率的均值和标准差。

之后，最大基因组选取模块303首先从上述计算的所有均值中选取取值最大者，并将该最大者所对应的稿件基因组定义为最大稿件基因组。则相应的，最大基因组选取模块303还将该最大稿件基因组的均值定义为最大均值，用变量E_max表示，将该最大稿件基因组的标准差定义为最大标准差，用变量S_max表示。

之后，第二计算模块304根据上述计算得到的所有均值和标准差，计算处最大基因组之外每个基因组的Z值。具体而言，对于上述稿件基因组中的每一个稿件基因组，第二计算模块304根据其所对应的匹配成功率的标准差和均值，结合最大稿件基因组对应的最大均值和最大标准差，分别计算该稿件基因组对应的Z值。

最后，在上述计算的基础上，根据各稿件基因组的Z值可以判断各对应稿件基因组在进行基因匹配时的差异性性能。因此，根据每个稿件基因组对应的Z值，最终基因选取模块305可以利用预先设定的设定条件，判断该Z值对应的稿件基因组是否满足设定的差异性要求。如果不满足，则将其从初选出的各稿件基因组中剔除，最终剩余没有被剔除的所有稿件基因组即为符合要求的稿件基因组，这些稿件基因组中包括Z值满足设定差异性要求的稿件基因组和最大稿件基因组。最后，最终基因选取模块305将剩余的所有稿件基因组中的基因取出，并在去除这些基因中的重复基因后，形成新的一组基因，即作为最终选取的稿件基因。

进一步的，在上述实施例的基础上，本发明实施例的装置还包括备选稿件基因列表构建模块，用于：分别从稿件的所有项目相关信息、稿件相关信息和过程相关信息中提取相应的基因，并对应形成稿件的项目相关基因、稿件相关基因和过程相关基因；基于项目相关基因、稿件相关基因和过程相关基因，构成备选稿件基因列表。

其中可选的，第二计算模块具体用于：利用如下计算公式，计算所有稿件基因组中，除最大稿件基因组之外的每一个稿件基因组对应的Z值：

其中可选的，最终基因选取模块具体用于：若多个匹配成功率样本符合正态分布，则根据预设置信度确定预设Z值，并剔除最大稿件基因组和Z值大于预设Z值的稿件基因组，以所有所述稿件基因组中剩余的稿件基因组作为满足设定条件的稿件基因组。

进一步的，在上述实施例的基础上，本发明实施例的装置还包括判断模块，用于：若所有除最大稿件基因组之外的稿件基因组中，Z值不大于预设Z值的稿件基因组的数量小于预设阈值，则重新从备选稿件基因列表中选择多组基因，进行多次匹配结果采样至获取最终选取的稿件基因之间的选取步骤。

进一步的，在上述实施例的基础上，第一计算模块还用于：根据基因匹配精度需求，设定进行匹配结果采样的总次数阈值；则相应的，对于每一个稿件基因组，提取的匹配成功率样本的个数不少于总次数阈值。

可以理解的是，本发明实施例中可以通过硬件处理器(hardware processor)来实现上述各实施例的装置中的各相关程序模块。并且，本发明实施例各稿件基因的选取装置在用于对上述各方法实施例中稿件基因的选取时，产生的有益效果与对应的上述各方法实施例相同，可以参考上述各方法实施例，此处不再赘述。

作为本发明实施例的又一个方面，本实施例根据上述各实施例提供一种电子设备，参考图4，为本发明实施例提供的电子设备的实体结构示意图，包括：至少一个存储器401、至少一个处理器402、通信接口403和总线404。

其中，存储器401、处理器402和通信接口403通过总线404完成相互间的通信，通信接口403用于该电子设备与稿件信息设备之间的信息传输；存储器401中存储有可在处理器402上运行的计算机程序，处理器402执行该计算机程序时，实现如上述各实施例所述的稿件基因的选取方法。

可以理解为，该电子设备中至少包含存储器401、处理器402、通信接口403和总线404，且存储器401、处理器402和通信接口403通过总线404形成相互间的通信连接，并可完成相互间的通信，如处理器402从存储器401中读取稿件基因的选取方法的程序指令等。另外，通信接口403还可以实现该电子设备与稿件信息设备之间的通信连接，并可完成相互间信息传输，如通过通信接口403实现对稿件基因的选取等。

电子设备运行时，处理器402调用存储器401中的程序指令，以执行上述各方法实施例所提供的方法，例如包括：从备选稿件基因列表中，分别选取多组不同的基因，构成多个稿件基因组；对于每一个稿件基因组，进行多次匹配结果采样，获取多个匹配成功率样本，并基于多个匹配成功率样本，计算该稿件基因组对应的匹配成功率的均值和标准差；选取所有均值中的最大者对应的稿件基因组，定义为最大稿件基因组，并将最大稿件基因组的均值定义为最大均值，将最大稿件基因组的标准差定义为最大标准差；对于所有稿件基因组中除最大稿件基因组之外的每一个稿件基因组，基于该稿件基因组对应的均值和标准差，以及最大均值和最大标准差，计算该稿件基因组对应的Z值；基于所有稿件基因组中除最大稿件基因组之外的每一个稿件基因组对应的Z值，从所有稿件基因组中选取满足设定条件的稿件基因组，并将满足设定条件的稿件基因组中的基因和最大稿件基因组中的基因合并，获取最终选取的稿件基因；其中，所述Z值表示大样本差异性验证中Z值等。

上述的存储器401中的程序指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。或者，实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(RandomAccess Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明实施例还根据上述各实施例提供一种非暂态计算机可读存储介质，该非暂态计算机可读存储介质存储计算机指令，该计算机指令使计算机执行如上述各实施例所述的稿件基因的选取方法，例如包括：从备选稿件基因列表中，分别选取多组不同的基因，构成多个稿件基因组；对于每一个稿件基因组，进行多次匹配结果采样，获取多个匹配成功率样本，并基于多个匹配成功率样本，计算该稿件基因组对应的匹配成功率的均值和标准差；选取所有均值中的最大者对应的稿件基因组，定义为最大稿件基因组，并将最大稿件基因组的均值定义为最大均值，将最大稿件基因组的标准差定义为最大标准差；对于所有稿件基因组中除最大稿件基因组之外的每一个稿件基因组，基于该稿件基因组对应的均值和标准差，以及最大均值和最大标准差，计算该稿件基因组对应的Z值；基于所有稿件基因组中除最大稿件基因组之外的每一个稿件基因组对应的Z值，从所有稿件基因组中选取满足设定条件的稿件基因组，并将满足设定条件的稿件基因组中的基因和最大稿件基因组中的基因合并，获取最终选取的稿件基因；其中，所述Z值表示大样本差异性验证中Z值等。

本发明实施例提供的电子设备和非暂态计算机可读存储介质，通过执行上述各实施例所述的稿件基因的选取方法，预先从所有稿件的稿件基因池中选取多组稿件基因组，并通过计算这些稿件基因组所对应的Z值，来选取Z值满足设定条件的稿件基因组，以作为最终的选取结果，使得选取出的稿件基因能够更好的体现稿件间的差异性，且进一步能够使据此选取的稿件与已有稿件进行更合理的匹配，从而有效提高翻译效率和翻译准确率。

可以理解的是，以上所描述的装置、电子设备及存储介质的实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，既可以位于一个地方，或者也可以分布到不同网络单元上。可以根据实际需要选择其中的部分或全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上实施方式的描述，本领域的技术人员可以清楚地了解，各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如U盘、移动硬盘、ROM、RAM、磁碟或者光盘等，包括若干指令，用以使得一台计算机设备(如个人计算机，服务器，或者网络设备等)执行上述各方法实施例或者方法实施例的某些部分所述的方法。

另外，本领域内的技术人员应当理解的是，在本发明实施例的申请文件中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本发明实施例的说明书中，说明了大量具体细节。然而应当理解的是，本发明实施例的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。类似地，应当理解，为了精简本发明实施例公开并帮助理解各个发明方面中的一个或多个，在上面对本发明实施例的示例性实施例的描述中，本发明实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。

然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明实施例要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明实施例的单独实施例。

最后应说明的是：以上实施例仅用以说明本发明实施例的技术方案，而非对其限制；尽管参照前述实施例对本发明实施例进行了详细的说明，本领域的技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例各实施例技术方案的精神和范围。

Claims

1.一种稿件基因的选取方法，其特征在于，包括：

从备选稿件基因列表中，分别选取多组不同的基因，构成多个稿件基因组；

对于每一个所述稿件基因组，将该稿件基因组中的基因与译员基因进行多次匹配处理，获取多个匹配成功率样本，并基于所述多个匹配成功率样本，计算该稿件基因组对应的匹配成功率的均值和标准差；

选取所有所述均值中的最大者对应的稿件基因组，定义为最大稿件基因组，并将所述最大稿件基因组的所述均值定义为最大均值，将所述最大稿件基因组的所述标准差定义为最大标准差；

对于所有所述稿件基因组中除所述最大稿件基因组之外的每一个所述稿件基因组，基于该稿件基因组对应的所述均值和所述标准差，以及所述最大均值和所述最大标准差，计算该稿件基因组对应的Z值；

基于所有所述稿件基因组中除所述最大稿件基因组之外的每一个所述稿件基因组对应的所述Z值，从所有所述稿件基因组中选取满足设定条件的稿件基因组，并将所述满足设定条件的稿件基因组中的基因和所述最大稿件基因组中的基因合并，获取最终选取的稿件基因；

其中，所述Z值表示大样本差异性验证中Z值。

2.根据权利要求1所述的方法，其特征在于，在所述从备选稿件基因列表中，分别选取多组不同的基因的步骤之前，还包括：

基于所述项目相关基因、稿件相关基因和过程相关基因，构成所述备选稿件基因列表。

3.根据权利要求1所述的方法，其特征在于，所述基于该稿件基因组对应的所述均值和所述标准差，以及所述最大均值和所述最大标准差，计算该稿件基因组对应的Z值的步骤进一步包括：

利用如下计算公式，计算所有所述稿件基因组中，除所述最大稿件基因组之外的每一个所述稿件基因组对应的所述Z值：

式中，Z_i表示第i个稿件基因组对应的所述Z值，n表示每个稿件基因组对应的所述匹配成功率样本的个数，E_i表示第i个稿件基因组对应的所述均值，S_i表示第i个稿件基因组对应的所述标准差，E_max表示所述最大均值，S_max表示所述最大标准差。

4.根据权利要求3所述的方法，其特征在于，所述基于所有所述稿件基因组中除所述最大稿件基因组之外的每一个所述稿件基因组对应的所述Z值，从所有所述稿件基因组中选取满足设定条件的稿件基因组的步骤进一步包括：

若所述多个匹配成功率样本符合正态分布，则根据预设置信度确定预设Z值，并剔除所述最大稿件基因组和Z值大于所述预设Z值的稿件基因组，以所有所述稿件基因组中剩余的稿件基因组作为所述满足设定条件的稿件基因组。

5.根据权利要求4所述的方法，其特征在于，在所述从所有所述稿件基因组中选取满足设定条件的稿件基因组的步骤之后，还包括：

若所有除所述最大稿件基因组之外的所述稿件基因组中，Z值不大于所述预设Z值的稿件基因组的数量小于预设阈值，则重新从所述备选稿件基因列表中选择多组基因，进行所述将该稿件基因组中的基因与译员基因进行多次匹配处理至所述获取最终选取的稿件基因之间的选取步骤。

6.根据权利要求1所述的方法，其特征在于，在所述将该稿件基因组中的基因与译员基因进行多次匹配处理，获取多个匹配成功率样本的步骤之前，还包括：

根据基因匹配精度需求，设定进行匹配处理的总次数阈值；

则相应的，对于每一个所述稿件基因组，提取的所述匹配成功率样本的个数不少于所述总次数阈值。

7.一种稿件基因的选取装置，其特征在于，包括：

初始基因选取模块，用于从备选稿件基因列表中，分别选取多组不同的基因，构成多个稿件基因组；

第一计算模块，用于对于每一个所述稿件基因组，将该稿件基因组中的基因与译员基因进行多次匹配处理，获取多个匹配成功率样本，并基于所述多个匹配成功率样本，计算该稿件基因组对应的匹配成功率的均值和标准差；

最大基因组选取模块，用于选取所有所述均值中的最大者对应的稿件基因组，定义为最大稿件基因组，并将所述最大稿件基因组的所述均值定义为最大均值，将所述最大稿件基因组的所述标准差定义为最大标准差；

第二计算模块，用于对于所有所述稿件基因组中除所述最大稿件基因组之外的每一个所述稿件基因组，基于该稿件基因组对应的所述均值和所述标准差，以及所述最大均值和所述最大标准差，计算该稿件基因组对应的Z值；

最终基因选取模块，用于基于所有所述稿件基因组中除所述最大稿件基因组之外的每一个所述稿件基因组对应的所述Z值，从所有所述稿件基因组中选取满足设定条件的稿件基因组，并将所述满足设定条件的稿件基因组中的基因和所述最大稿件基因组中的基因合并，获取最终选取的稿件基因；

其中，所述Z值表示大样本差异性验证中Z值。

8.一种电子设备，其特征在于，包括：至少一个存储器、至少一个处理器、通信接口和总线；

所述存储器、所述处理器和所述通信接口通过所述总线完成相互间的通信，所述通信接口用于所述电子设备与稿件信息设备之间的信息传输；

所述存储器中存储有可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如权利要求1至6中任一所述的方法。

9.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行如权利要求1至6中任一所述的方法。