CN108073556A

CN108073556A - 字串辨识方法与机器学习方法

Info

Publication number: CN108073556A
Application number: CN201610998341.1A
Authority: CN
Inventors: 陈重江; 庄家裕; 彭少良; 吴德毅
Original assignee: Inventec Pudong Technology Corp; Inventec Corp
Current assignee: Inventec Pudong Technology Corp; Inventec Corp
Priority date: 2016-11-14
Filing date: 2016-11-14
Publication date: 2018-05-25
Also published as: US20180137434A1

Abstract

本发明公开了一种字串辨识方法，包含：依据字串内容，从多个关键字资料库中选取对应的关键字资料库，其中该关键字资料库定义有至少一字首关键字。比对该字串内容与该至少一字首关键字。当该字串内容对应于该至少一字首关键字其中之一时，依照对应的该字首关键字的定义更新该字串内容。当该字串内容不对应于该至少一字首关键字其中任一时，选择性地结束程序，并输出更新的该字串内容。

Description

字串辨识方法与机器学习方法

技术领域

本发明公开了一种字串辨识方法与机器学习方法，更具体的说，是降低资讯离散度的字串辨识方法与机器学习方法。

背景技术

深度学习、类神经网络等人工智能技术在近年来快速地发展。人工智能领域中另一个重要的技术是机器学习。其中一种机器学习的方法通常是提供大量文件给计算机装置，使计算机装置从大量文件中建构出特定的判读原则以及对应的其他人工智能运作原则。

然而，在某些领域中，文件带有大量的缩写、代号，而且每个人可能用不同的代号、缩写来指涉同一件事。而对于计算机装置来说，不同的代号、缩写就会被判读成不同的事物。因此，如何增进计算机装置判读代号、缩写的能力，为有待克服的方法。

发明内容

有鉴于上述问题，本发明旨在提供一种字串辨识方法与应用此方法的机器学习方法。以增进计算机装置判读代号与缩写的能力。

本发明提供了一种字串辨识方法，包含：依据字串内容，从多个关键字资料库中选取对应的关键字资料库，其中该关键字资料库定义有至少一字首关键字；比对该字串内容与该至少一字首关键字；当该字串内容对应于该至少一字首关键字其中之一时，依照对应的该字首关键字的定义更新该字串内容；以及当该字串内容不对应于该至少一字首关键字其中任一时，选择性地结束程序，并输出更新的该字串内容。

优选的，在前述字串辨识方法之后，依据更新的该字串内容进行机器学习。本发明关联于一种自然语言处理方法，可有效解决现行物联网架构中关于字串辨识及机器学习所存在的问题。

以上关于本发明内容的说明及以下的实施方式的说明用以示范与解释本发明的精神与原理，并且提供本发明的权利要求范围做更进一步的解释。

附图说明

图1是依据本发明一实施例的字串辨识方法流程图。

符号说明：

S110～S140步骤

具体实施方式：

以下在实施方式中详细叙述本发明的详细特征以及优点，其内容足以使任何熟习相关技艺者了解本发明的技术内容并据以实施，且根据本说明书所公开的内容、权利要求范围及图式，任何熟习相关技艺者可轻易地理解本发明相关的目的及优点。以下的实施例是进一步详细说明本发明的观点，但非以任何观点限制本发明的范畴。

依据本发明一实施例的字串辨识方法如图1所示，有下列步骤，其中下列步骤可以用具有一个处理器与一个储存媒介的计算机装置来执行。如步骤S110，依据字串内容，从多个关键字资料库中选取对应的关键字资料库，其中该关键字资料库定义有至少一字首关键字。步骤S120，比对该字串内容与该至少一字首关键字。步骤S130，当该字串内容对应于该至少一字首关键字其中之一时，依照对应的该字首关键字的定义更新该字串内容。步骤S140，当该字串内容不对应于该至少一字首关键字其中任一时，选择性地结束程序，并输出更新的该字串内容。

在一实施例中，步骤S110是依据该字串的一个或多个起始字元，在该些关键字资料库搜寻对应的一字首关键字，以确定该字串内容对应的该关键字资料库。举例来说，当得到一个字串WIN2008＿xxx R2 x64，则依据其起始字元WIN，判断可能指涉Windows，因此是应该搜寻关于微软的产品的关键字资料库。

然而，如果得到的字串是W2008 R2 x64，而关键字资料库中没有一个关键字是W时，由字根关键字2008及/或字尾关键字R2，寻找有这两个关键字的关键字资料库。因此可以找到微软产品的关键字资料库。并且关键字2008与关键字R2对应到的是跟Windows有关的字首，因此计算机可以判断W可能指涉的是Windows。因此计算机将W新增为字首关键字，其定义为Windows。关于关键字资料库定义方式例如表1所示。

表1

在一实施例中，关键字资料库中的每个字首关键字会有对应的字根关键字，以前述Windows的例子来说，字根关键字例如为95、98、ME、2000、XP、2008、Vista、7、8、10等等。而在步骤S130中，比对字串内容与前述的字根关键字。当该字串内容对应于该至少一字根关键字其中之一时，依照对应的该字根关键字的定义更新该字串内容。以前述例子来说，会判断2008＿xxx应该是对应到字根关键字2008，并对应的更新字串内容。当该字串内容不对应于该至少一字根关键字其中任一时，选择性地结束程序，并输出更新的该字串内容。举例来说，一个字串W2007要在微软产品关键字资料库中的Windows关键字下就会找不到对应的字根关键字，因此在Windows关键字下搜寻的程序可以被终结。此时，计算机装置可以重新判断字元W对应的字首关键字W是指涉的定义是Word，因此计算机装置将W2007更新为Word2007，并继续进一步的搜寻与更新字串的程序。在自然语言处理技术中，寻找字根关键字、字首关键字、字尾关键字等技术已经相当成熟，在此不加以赘述。

在一实施例中，关键字资料库中的每个字首关键字会有对应的字尾关键字，以前述Windows的例子来说，字尾关键字例如为x32、x64、R2等等。而在步骤S130中，比对该字串内容与该至少一字尾关键字。当该字串内容对应于该至少一字尾关键字其中之一时，依照对应的该字尾关键字的定义更新该字串内容。当该字串内容不对应于该至少一字尾关键字其中任一时，选择性地结束程序，并输出更新的该字串内容。其程序类似于字根关键字的处理，因此在此不再赘述。在一实施例中，当搜寻字串中可能的字尾关键字时，是从该字串内容中对应该字首关键字的字元起，比对每一字元是否对应于该至少一字尾关键字其中之一。举例来说，在W2008 R2 x64这个字串中，当判断W是字首关键字，则往后的2008不是字尾关键字，接着往后寻找R是字尾关键字。

因此，前述的字串辨识方法，其关键字资料库的每一个字首关键字对应于一个或多个字根关键字与一个及/或多个字尾关键字。反之亦然，因此在一实施例中，每个字首关键字的定义值除了本身的定义以外，更包含了对应的字根关键字的定义及/或对应的字尾关键字的定义。同样的，每个字根关键字的定义值除了本身的定义以外，更包含了对应的字首关键字的定义及/或对应的字尾关键字的定义。每个字尾关键字的定义值除了本身的定义以外，更包含了对应的字根关键字的定义及/或对应的字首关键字的定义。从而使得关键字彼此有连结关系，因此能提高关键字搜寻与更新的效率。

具体来说，当计算机装置收集到一个领域的100笔文献资料时，首先可以由操作人员或是计算机装置从100笔文献资料中选取例如20篇文献资料。并由计算机装置或操作人员将这20篇文献的关键字建立起一个关键字资料库，这个关键字资料库定义了一些字首关键字、一些字根关键字或是一些字尾关键字。关键字资料库可能只定义了字首关键字，也可能是只定义了字根关键字、或是字尾关键字。而后当计算机装置读取其他80篇文献，或是后续的相关文献时，可以依照本发明前述实施例所定义的方式，来使得文献的内容更具有一致性，降低计算机要进行机器学习的门槛。此外，当有相关的文献新增进来后，藉由前述的方式也可以扩增关键字资料库，使得本发明所公开的方法更具可实施性。

而依据本发明一实施例的机器学习资料获取方法，包含前述任意一个实施例的字串辨识方法。当得到更新的字串内容后，计算机装置依据更新的该字串内容进行机器学习。

此外，在本发明另一实施例中，计算机装置可以更具有储存媒介中的资料库，藉此计算机得以依据资料库来建立每个使用者的关键字使用。例如某甲习惯用W2003来指涉Word2003，而习惯用视窗2000来指涉Windows2000，则计算机归纳出某甲使用关键字的习惯并储存于储存媒介中。当某甲对计算机装置提出一个需求，而计算机装置要推荐Windows10给某甲的时候，计算机装置对某甲呈现「视窗10」的文字。如此，也能更贴合使用者的使用习惯。

由于字串内容已经依据定义重新更新为统一的规格，因此对于计算机学习来说，字串的离散程度降低，机器学习的门槛也因此降低。

虽然本发明以前述的实施例公开如上，然其并非用以限定本发明。在不脱离本发明的精神和范围内，所为之更动与润饰，均属本发明的专利保护范围。关于本发明所界定的保护范围请参考权利要求范围。

Claims

1.一种字串辨识方法，其特征在于，包含：

依据字串内容，从多个关键字资料库中选取对应的关键字资料库，其中该关键字资料库定义有至少一字首关键字；

比对该字串内容与该至少一字首关键字；

当该字串内容对应于该至少一字首关键字其中之一时，依照对应的该字首关键字的定义更新该字串内容；以及

当该字串内容不对应于该至少一字首关键字其中任一时，选择性地结束程序，并输出更新的该字串内容。

2.如权利要求1所述的字串辨识方法，其特征在于，其中该关键字资料库中，每一该字首关键字对应有至少一字尾关键字，且在依照对应的该字首关键字的定义更新该字串内容的步骤中，包含：

比对该字串内容与该至少一字尾关键字；

当该字串内容对应于该至少一字尾关键字其中之一时，依照对应的该字尾关键字的定义更新该字串内容；以及

当该字串内容不对应于该至少一字尾关键字其中任一时，选择性地结束程序，并输出更新的该字串内容。

3.如权利要求2所述的字串辨识方法，其特征在于，其中在比对该字串内容与该至少一字尾关键字的步骤中，是从该字串内容中对应该字首关键字的字元起，比对每一字元是否对应于该至少一字尾关键字其中之一。

4.如权利要求1所述的字串辨识方法，其特征在于，其中该关键字资料库中，每一该字首关键字对应有至少一字根关键字，且在依照对应的该字首关键字的定义更新该字串内容的步骤中，包含：

比对该字串内容与该至少一字根关键字；

当该字串内容对应于该至少一字根关键字其中之一时，依照对应的该字根关键字的定义更新该字串内容；以及

当该字串内容不对应于该至少一字根关键字其中任一时，选择性地结束程序，并输出更新的该字串内容。

5.如权利要求1所述的字串辨识方法，其特征在于，其中依据该字串内容，从该些关键字资料库中选取对应的该关键字资料库的步骤中，是依据该字串的一个或多个起始字元，在该些关键字资料库搜寻对应的一字首关键字，以确定该字串内容对应的该关键字资料库。

6.如权利要求5所述的字串辨识方法，其特征在于，其中在依据该字串内容，从该些关键字资料库中选取对应的该关键字资料库的步骤中，更包含：

当在该些关键字资料库没有对应的一字首关键字时，在该些关键字资料库中寻找该字串内容中一个或多个字元所对应的一字尾关键字或一字根关键字；以及

依据该一个或多个字元与所对应的该字尾关键字或该字根关键字，选择性地将该一个或多个字元以前的至少一字元判别为前述对应的该字尾关键字或该字根关键字所对应的一字首关键字的定义。

7.如权利要求6所述的字串辨识方法，其特征在于，其中将该至少一字元与对应的该字首关键字的定义连结，以得到一新增字首关键字。

8.一种机器学习资料获取方法，其特征在于，包含：

如权利要求1至7其中之一的字串辨识方法；以及

一计算机依据更新的该字串内容进行机器学习。