CN108073556A - 字串辨识方法与机器学习方法 - Google Patents

字串辨识方法与机器学习方法 Download PDF

Info

Publication number
CN108073556A
CN108073556A CN201610998341.1A CN201610998341A CN108073556A CN 108073556 A CN108073556 A CN 108073556A CN 201610998341 A CN201610998341 A CN 201610998341A CN 108073556 A CN108073556 A CN 108073556A
Authority
CN
China
Prior art keywords
keyword
word string
string content
prefix
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201610998341.1A
Other languages
English (en)
Inventor
陈重江
庄家裕
彭少良
吴德毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inventec Pudong Technology Corp
Inventec Corp
Original Assignee
Inventec Pudong Technology Corp
Inventec Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inventec Pudong Technology Corp, Inventec Corp filed Critical Inventec Pudong Technology Corp
Priority to CN201610998341.1A priority Critical patent/CN108073556A/zh
Priority to US15/479,135 priority patent/US20180137434A1/en
Publication of CN108073556A publication Critical patent/CN108073556A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/02Comparing digital values
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/06Arrangements for sorting, selecting, merging, or comparing data on individual record carriers
    • G06F7/20Comparing separate sets of record carriers arranged in the same sequence to determine whether at least some of the data in one set is identical with that in the other set or sets
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2207/00Indexing scheme relating to methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F2207/02Indexing scheme relating to groups G06F7/02 - G06F7/026
    • G06F2207/025String search, i.e. pattern matching, e.g. find identical word or best match in a string
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Character Discrimination (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种字串辨识方法,包含:依据字串内容,从多个关键字资料库中选取对应的关键字资料库,其中该关键字资料库定义有至少一字首关键字。比对该字串内容与该至少一字首关键字。当该字串内容对应于该至少一字首关键字其中之一时,依照对应的该字首关键字的定义更新该字串内容。当该字串内容不对应于该至少一字首关键字其中任一时,选择性地结束程序,并输出更新的该字串内容。

Description

字串辨识方法与机器学习方法
技术领域
本发明公开了一种字串辨识方法与机器学习方法,更具体的说,是降低资讯离散度的字串辨识方法与机器学习方法。
背景技术
深度学习、类神经网络等人工智能技术在近年来快速地发展。人工智能领域中另一个重要的技术是机器学习。其中一种机器学习的方法通常是提供大量文件给计算机装置,使计算机装置从大量文件中建构出特定的判读原则以及对应的其他人工智能运作原则。
然而,在某些领域中,文件带有大量的缩写、代号,而且每个人可能用不同的代号、缩写来指涉同一件事。而对于计算机装置来说,不同的代号、缩写就会被判读成不同的事物。因此,如何增进计算机装置判读代号、缩写的能力,为有待克服的方法。
发明内容
有鉴于上述问题,本发明旨在提供一种字串辨识方法与应用此方法的机器学习方法。以增进计算机装置判读代号与缩写的能力。
本发明提供了一种字串辨识方法,包含:依据字串内容,从多个关键字资料库中选取对应的关键字资料库,其中该关键字资料库定义有至少一字首关键字;比对该字串内容与该至少一字首关键字;当该字串内容对应于该至少一字首关键字其中之一时,依照对应的该字首关键字的定义更新该字串内容;以及当该字串内容不对应于该至少一字首关键字其中任一时,选择性地结束程序,并输出更新的该字串内容。
优选的,在前述字串辨识方法之后,依据更新的该字串内容进行机器学习。本发明关联于一种自然语言处理方法,可有效解决现行物联网架构中关于字串辨识及机器学习所存在的问题。
以上关于本发明内容的说明及以下的实施方式的说明用以示范与解释本发明的精神与原理,并且提供本发明的权利要求范围做更进一步的解释。
附图说明
图1是依据本发明一实施例的字串辨识方法流程图。
符号说明:
S110~S140步骤
具体实施方式:
以下在实施方式中详细叙述本发明的详细特征以及优点,其内容足以使任何熟习相关技艺者了解本发明的技术内容并据以实施,且根据本说明书所公开的内容、权利要求范围及图式,任何熟习相关技艺者可轻易地理解本发明相关的目的及优点。以下的实施例是进一步详细说明本发明的观点,但非以任何观点限制本发明的范畴。
依据本发明一实施例的字串辨识方法如图1所示,有下列步骤,其中下列步骤可以用具有一个处理器与一个储存媒介的计算机装置来执行。如步骤S110,依据字串内容,从多个关键字资料库中选取对应的关键字资料库,其中该关键字资料库定义有至少一字首关键字。步骤S120,比对该字串内容与该至少一字首关键字。步骤S130,当该字串内容对应于该至少一字首关键字其中之一时,依照对应的该字首关键字的定义更新该字串内容。步骤S140,当该字串内容不对应于该至少一字首关键字其中任一时,选择性地结束程序,并输出更新的该字串内容。
在一实施例中,步骤S110是依据该字串的一个或多个起始字元,在该些关键字资料库搜寻对应的一字首关键字,以确定该字串内容对应的该关键字资料库。举例来说,当得到一个字串WIN2008_xxx R2 x64,则依据其起始字元WIN,判断可能指涉Windows,因此是应该搜寻关于微软的产品的关键字资料库。
然而,如果得到的字串是W2008 R2 x64,而关键字资料库中没有一个关键字是W时,由字根关键字2008及/或字尾关键字R2,寻找有这两个关键字的关键字资料库。因此可以找到微软产品的关键字资料库。并且关键字2008与关键字R2对应到的是跟Windows有关的字首,因此计算机可以判断W可能指涉的是Windows。因此计算机将W新增为字首关键字,其定义为Windows。关于关键字资料库定义方式例如表1所示。
表1
在一实施例中,关键字资料库中的每个字首关键字会有对应的字根关键字,以前述Windows的例子来说,字根关键字例如为95、98、ME、2000、XP、2008、Vista、7、8、10等等。而在步骤S130中,比对字串内容与前述的字根关键字。当该字串内容对应于该至少一字根关键字其中之一时,依照对应的该字根关键字的定义更新该字串内容。以前述例子来说,会判断2008_xxx应该是对应到字根关键字2008,并对应的更新字串内容。当该字串内容不对应于该至少一字根关键字其中任一时,选择性地结束程序,并输出更新的该字串内容。举例来说,一个字串W2007要在微软产品关键字资料库中的Windows关键字下就会找不到对应的字根关键字,因此在Windows关键字下搜寻的程序可以被终结。此时,计算机装置可以重新判断字元W对应的字首关键字W是指涉的定义是Word,因此计算机装置将W2007更新为Word2007,并继续进一步的搜寻与更新字串的程序。在自然语言处理技术中,寻找字根关键字、字首关键字、字尾关键字等技术已经相当成熟,在此不加以赘述。
在一实施例中,关键字资料库中的每个字首关键字会有对应的字尾关键字,以前述Windows的例子来说,字尾关键字例如为x32、x64、R2等等。而在步骤S130中,比对该字串内容与该至少一字尾关键字。当该字串内容对应于该至少一字尾关键字其中之一时,依照对应的该字尾关键字的定义更新该字串内容。当该字串内容不对应于该至少一字尾关键字其中任一时,选择性地结束程序,并输出更新的该字串内容。其程序类似于字根关键字的处理,因此在此不再赘述。在一实施例中,当搜寻字串中可能的字尾关键字时,是从该字串内容中对应该字首关键字的字元起,比对每一字元是否对应于该至少一字尾关键字其中之一。举例来说,在W2008 R2 x64这个字串中,当判断W是字首关键字,则往后的2008不是字尾关键字,接着往后寻找R是字尾关键字。
因此,前述的字串辨识方法,其关键字资料库的每一个字首关键字对应于一个或多个字根关键字与一个及/或多个字尾关键字。反之亦然,因此在一实施例中,每个字首关键字的定义值除了本身的定义以外,更包含了对应的字根关键字的定义及/或对应的字尾关键字的定义。同样的,每个字根关键字的定义值除了本身的定义以外,更包含了对应的字首关键字的定义及/或对应的字尾关键字的定义。每个字尾关键字的定义值除了本身的定义以外,更包含了对应的字根关键字的定义及/或对应的字首关键字的定义。从而使得关键字彼此有连结关系,因此能提高关键字搜寻与更新的效率。
具体来说,当计算机装置收集到一个领域的100笔文献资料时,首先可以由操作人员或是计算机装置从100笔文献资料中选取例如20篇文献资料。并由计算机装置或操作人员将这20篇文献的关键字建立起一个关键字资料库,这个关键字资料库定义了一些字首关键字、一些字根关键字或是一些字尾关键字。关键字资料库可能只定义了字首关键字,也可能是只定义了字根关键字、或是字尾关键字。而后当计算机装置读取其他80篇文献,或是后续的相关文献时,可以依照本发明前述实施例所定义的方式,来使得文献的内容更具有一致性,降低计算机要进行机器学习的门槛。此外,当有相关的文献新增进来后,藉由前述的方式也可以扩增关键字资料库,使得本发明所公开的方法更具可实施性。
而依据本发明一实施例的机器学习资料获取方法,包含前述任意一个实施例的字串辨识方法。当得到更新的字串内容后,计算机装置依据更新的该字串内容进行机器学习。
此外,在本发明另一实施例中,计算机装置可以更具有储存媒介中的资料库,藉此计算机得以依据资料库来建立每个使用者的关键字使用。例如某甲习惯用W2003来指涉Word2003,而习惯用视窗2000来指涉Windows2000,则计算机归纳出某甲使用关键字的习惯并储存于储存媒介中。当某甲对计算机装置提出一个需求,而计算机装置要推荐Windows10给某甲的时候,计算机装置对某甲呈现「视窗10」的文字。如此,也能更贴合使用者的使用习惯。
由于字串内容已经依据定义重新更新为统一的规格,因此对于计算机学习来说,字串的离散程度降低,机器学习的门槛也因此降低。
虽然本发明以前述的实施例公开如上,然其并非用以限定本发明。在不脱离本发明的精神和范围内,所为之更动与润饰,均属本发明的专利保护范围。关于本发明所界定的保护范围请参考权利要求范围。

Claims (8)

1.一种字串辨识方法,其特征在于,包含:
依据字串内容,从多个关键字资料库中选取对应的关键字资料库,其中该关键字资料库定义有至少一字首关键字;
比对该字串内容与该至少一字首关键字;
当该字串内容对应于该至少一字首关键字其中之一时,依照对应的该字首关键字的定义更新该字串内容;以及
当该字串内容不对应于该至少一字首关键字其中任一时,选择性地结束程序,并输出更新的该字串内容。
2.如权利要求1所述的字串辨识方法,其特征在于,其中该关键字资料库中,每一该字首关键字对应有至少一字尾关键字,且在依照对应的该字首关键字的定义更新该字串内容的步骤中,包含:
比对该字串内容与该至少一字尾关键字;
当该字串内容对应于该至少一字尾关键字其中之一时,依照对应的该字尾关键字的定义更新该字串内容;以及
当该字串内容不对应于该至少一字尾关键字其中任一时,选择性地结束程序,并输出更新的该字串内容。
3.如权利要求2所述的字串辨识方法,其特征在于,其中在比对该字串内容与该至少一字尾关键字的步骤中,是从该字串内容中对应该字首关键字的字元起,比对每一字元是否对应于该至少一字尾关键字其中之一。
4.如权利要求1所述的字串辨识方法,其特征在于,其中该关键字资料库中,每一该字首关键字对应有至少一字根关键字,且在依照对应的该字首关键字的定义更新该字串内容的步骤中,包含:
比对该字串内容与该至少一字根关键字;
当该字串内容对应于该至少一字根关键字其中之一时,依照对应的该字根关键字的定义更新该字串内容;以及
当该字串内容不对应于该至少一字根关键字其中任一时,选择性地结束程序,并输出更新的该字串内容。
5.如权利要求1所述的字串辨识方法,其特征在于,其中依据该字串内容,从该些关键字资料库中选取对应的该关键字资料库的步骤中,是依据该字串的一个或多个起始字元,在该些关键字资料库搜寻对应的一字首关键字,以确定该字串内容对应的该关键字资料库。
6.如权利要求5所述的字串辨识方法,其特征在于,其中在依据该字串内容,从该些关键字资料库中选取对应的该关键字资料库的步骤中,更包含:
当在该些关键字资料库没有对应的一字首关键字时,在该些关键字资料库中寻找该字串内容中一个或多个字元所对应的一字尾关键字或一字根关键字;以及
依据该一个或多个字元与所对应的该字尾关键字或该字根关键字,选择性地将该一个或多个字元以前的至少一字元判别为前述对应的该字尾关键字或该字根关键字所对应的一字首关键字的定义。
7.如权利要求6所述的字串辨识方法,其特征在于,其中将该至少一字元与对应的该字首关键字的定义连结,以得到一新增字首关键字。
8.一种机器学习资料获取方法,其特征在于,包含:
如权利要求1至7其中之一的字串辨识方法;以及
一计算机依据更新的该字串内容进行机器学习。
CN201610998341.1A 2016-11-14 2016-11-14 字串辨识方法与机器学习方法 Withdrawn CN108073556A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201610998341.1A CN108073556A (zh) 2016-11-14 2016-11-14 字串辨识方法与机器学习方法
US15/479,135 US20180137434A1 (en) 2016-11-14 2017-04-04 Character string recognition method and machine learning method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610998341.1A CN108073556A (zh) 2016-11-14 2016-11-14 字串辨识方法与机器学习方法

Publications (1)

Publication Number Publication Date
CN108073556A true CN108073556A (zh) 2018-05-25

Family

ID=62108567

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610998341.1A Withdrawn CN108073556A (zh) 2016-11-14 2016-11-14 字串辨识方法与机器学习方法

Country Status (2)

Country Link
US (1) US20180137434A1 (zh)
CN (1) CN108073556A (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109598270B (zh) * 2018-12-04 2020-05-05 龙马智芯(珠海横琴)科技有限公司 扭曲文字的识别方法及装置、存储介质及处理器

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6691103B1 (en) * 2002-04-02 2004-02-10 Keith A. Wozny Method for searching a database, search engine system for searching a database, and method of providing a key table for use by a search engine for a database
US20070129935A1 (en) * 2004-01-30 2007-06-07 National Institute Of Information And Communicatio Method for generating a text sentence in a target language and text sentence generating apparatus
CN101727464A (zh) * 2008-10-29 2010-06-09 北京搜狗科技发展有限公司 获取别称匹配对的方法及装置
CN103034719A (zh) * 2012-12-12 2013-04-10 北京奇虎科技有限公司 Cpu型号识别方法、设备及硬件检测***
CN103970798A (zh) * 2013-02-04 2014-08-06 商业对象软件有限公司 数据的搜索和匹配
CN104092613A (zh) * 2014-07-15 2014-10-08 山东超越数控电子有限公司 一种基于模糊匹配的快速查表方法
US20150012805A1 (en) * 2013-07-03 2015-01-08 Ofer Bleiweiss Collaborative Matter Management and Analysis
CN105138586A (zh) * 2015-07-30 2015-12-09 魅族科技(中国)有限公司 一种文件查找方法及装置
CN105335481A (zh) * 2015-10-14 2016-02-17 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种大规模字符串文本的后缀索引构造方法及装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6691103B1 (en) * 2002-04-02 2004-02-10 Keith A. Wozny Method for searching a database, search engine system for searching a database, and method of providing a key table for use by a search engine for a database
US20070129935A1 (en) * 2004-01-30 2007-06-07 National Institute Of Information And Communicatio Method for generating a text sentence in a target language and text sentence generating apparatus
CN101727464A (zh) * 2008-10-29 2010-06-09 北京搜狗科技发展有限公司 获取别称匹配对的方法及装置
CN103034719A (zh) * 2012-12-12 2013-04-10 北京奇虎科技有限公司 Cpu型号识别方法、设备及硬件检测***
CN103970798A (zh) * 2013-02-04 2014-08-06 商业对象软件有限公司 数据的搜索和匹配
US20150012805A1 (en) * 2013-07-03 2015-01-08 Ofer Bleiweiss Collaborative Matter Management and Analysis
CN104092613A (zh) * 2014-07-15 2014-10-08 山东超越数控电子有限公司 一种基于模糊匹配的快速查表方法
CN105138586A (zh) * 2015-07-30 2015-12-09 魅族科技(中国)有限公司 一种文件查找方法及装置
CN105335481A (zh) * 2015-10-14 2016-02-17 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种大规模字符串文本的后缀索引构造方法及装置

Also Published As

Publication number Publication date
US20180137434A1 (en) 2018-05-17

Similar Documents

Publication Publication Date Title
CN108804512B (zh) 文本分类模型的生成装置、方法及计算机可读存储介质
CN111159395B (zh) 基于图神经网络的谣言立场检测方法、装置和电子设备
CN105320960B (zh) 一种基于投票的跨语言主客观情感分类方法
CN108038119A (zh) 利用新词发现投资标的的方法、装置及存储介质
US7469251B2 (en) Extraction of information from documents
CN107566391B (zh) 域识别加主题识别构建机器学习模型检测网页暗链的方法
CN103914494A (zh) 一种微博用户身份识别方法及***
WO2010125463A1 (en) Method and apparatus for identifying synonyms and using synonyms to search
CN105824822A (zh) 一种由钓鱼网页聚类定位目标网页的方法
CN104598577A (zh) 一种网页正文的提取方法
US20210248498A1 (en) Method and apparatus for training pre-trained knowledge model, and electronic device
CN105677661A (zh) 一种检测社交媒体重复数据的方法
CN103679012A (zh) 一种可移植可执行文件的聚类方法和装置
CN106127222B (zh) 一种基于视觉的字符串相似度计算方法及相似性判断方法
CN108920482A (zh) 基于词汇链特征扩展和lda模型的微博短文本分类方法
WO2022032917A1 (zh) 一种基于RNN的Webshell检测方法及装置
CN102682098A (zh) 检测网页内容变更的方法及装置
CN110516251B (zh) 一种电商实体识别模型的构建方法、构建装置、设备和介质
CN110717042A (zh) 一种构建文档-关键词异构网络模型方法
CN108768982A (zh) 钓鱼网站的检测方法、装置、计算设备及计算机存储介质
Witten Adaptive text mining: inferring structure from sequences
CN111488732A (zh) 一种变形关键词检测方法、***及相关设备
CN110688831A (zh) 短信文本模版的识别方法
CN106156340A (zh) 一种命名实体链接方法
CN108073556A (zh) 字串辨识方法与机器学习方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20180525

WW01 Invention patent application withdrawn after publication