CN110298372A - 自动训练虚拟助理的方法及*** - Google Patents

自动训练虚拟助理的方法及*** Download PDF

Info

Publication number
CN110298372A
CN110298372A CN201810244565.2A CN201810244565A CN110298372A CN 110298372 A CN110298372 A CN 110298372A CN 201810244565 A CN201810244565 A CN 201810244565A CN 110298372 A CN110298372 A CN 110298372A
Authority
CN
China
Prior art keywords
corpus
model
training
data manipulation
instruction operations
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810244565.2A
Other languages
English (en)
Other versions
CN110298372B (zh
Inventor
周忠信
吴兆麟
许旭正
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Digiwin Software Co Ltd
Original Assignee
Digiwin Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Digiwin Software Co Ltd filed Critical Digiwin Software Co Ltd
Priority to CN201810244565.2A priority Critical patent/CN110298372B/zh
Publication of CN110298372A publication Critical patent/CN110298372A/zh
Application granted granted Critical
Publication of CN110298372B publication Critical patent/CN110298372B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks
    • G06F18/295Markov models or related models, e.g. semi-Markov models; Markov random fields; Networks embedding Markov models
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种自动训练虚拟助理的方法及***。自动训练虚拟助理的方法包含:分析企业数据库的数据结构以形成领域知识数据库以及分析企业资源***的作业流程以形成应用知识数据库;利用领域知识数据库建立查询数据操作语料产生器以及利用应用知识数据库建立执行指令操作语料产生器;利用查询数据操作语料产生器产生多个查询数据操作训练语料,以及执行指令操作语料产生器产生多个执行指令操作训练语料,形成训练语料集合;多个***领域词汇以及多个服务应用参数形成为关键实体集合;以及利用关键实体集合和训练语料集合产生共通词汇模型以及共通语意模型。借此,达到快速训练及更新虚拟助理的功效。

Description

自动训练虚拟助理的方法及***
技术领域
本案是有关于一种训练虚拟助理的方法及***,且特别是有关于一种自动训练虚拟助理的方法及***。
背景技术
企业资源规划***(Enterprise Resource Planning,ERP),简称ERP***,是指建立在信息技术的基础上为企业决策层提供决策的管理平台。其主要是将企业的人流、物流、信息流、资金流进行统一的管理,以最大限度的利用企业的资源。而ERP***包含有生产控制、物流管理和财务管理等三大方面的功能,因此ERP***规模非常的庞大。
在现代化生活中,虚拟助理(或智能助理)能够帮助使用者直接以口头/或文字形式的自然语言与电子产品沟通,提供使用者更方便快速的沟通模式。为了将虚拟助理应用于ERP***中,需要对虚拟助理进行ERP***中的常用词汇与常用功能的训练,才能让虚拟助理与ERP***结合,但训练智能助理时除了需要提供数据库之外还需要提供自然语言的训练语料,意思即为需要有人不停的与虚拟助理对话提供训练语料,才能让虚拟助理具备与人互动的能力。因此如何快速的训练虚拟助理,让虚拟助理能够具备ERP***的相关知识以及与人互动的能力,是本领域待改进的问题。
发明内容
本发明的主要目的是在提供一种自动训练虚拟助理的方法及***,其主要是能够自动产生自然语言的训练语料,让虚拟助理可以利用训练语料进行训练,达到快速训练及更新虚拟助理的功效。
为达成上述目的,本案的第一态样是在提供一种自动训练虚拟助理的方法,此方法包含以下步骤:分析企业数据库的数据结构以形成领域知识数据库以及分析企业资源***的作业流程以形成应用知识数据库;利用领域知识数据库建立查询数据操作语料产生器以及利用应用知识数据库建立执行指令操作语料产生器;利用查询数据操作语料产生器产生多个查询数据操作训练语料,以及执行指令操作语料产生器产生多个执行指令操作训练语料,形成训练语料集合;多个***领域词汇以及多个服务应用参数形成为关键实体集合;以及利用关键实体集合和训练语料集合产生共通词汇模型以及共通语意模型。
根据本案一实施例,利用该关键实体集合和该训练语料集合产生该共通词汇模型以及该共通语意模型,还包含:依照该企业数据库中的类别区分所述多个查询数据操作训练语料的意图形成多个查询数据操作意图,以及依照该企业资源***提供的服务行为区分所述多个执行指令操作训练语料的意图形成多个执行指令操作意图;建立所述多个查询数据操作意图的范本,以及所述多个执行指令操作意图的范本;根据该关键实体集合、所述多个查询数据操作意图的范本以及所述多个执行指令操作意图的范本建立一总体数据库;辨识该关键实体集合中的所述多个***领域词汇在该训练语料集合中出现的多个第一机率,并通过辨识出的所述多个***领域词汇分析所述多个查询数据操作训练语料的多个句型结构,以及所述多个***领域词汇彼此之间的多个关联性,并根据所述多个第一机率以及所述多个关联性建立一共通词汇模型;以及分析所述多个查询数据操作意图以及所述多个执行指令操作意图中出现所述多个***领域词汇的多个第二机率,并根据所述多个句型结构以及所述多个第二机率建立一共通语意模型。
根据本案一实施例,该查询数据操作语料产生器,还包含:分析查询该企业数据库的多个查询语料数据,并归纳出所述多个查询语料数据的一查询规则;以及根据该查询规则自动产生所述多个查询数据操作训练语料。
根据本案一实施例,该执行指令操作语料产生器,还包含:分析与该企业资源***互动的多个执行语料数据,并归纳出所述多个执行语料数据的一执行规则;以及根据该执行规则自动产生所述多个执行指令操作训练语料。
根据本案一实施例,利用自动产生的所述多个查询数据操作训练语料以及所述多个执行指令操作训练语料,训练该共通词汇模型以及该共通语意模型,一虚拟助理会根据该共通词汇模型以及该共通语意模型执行相对应的操作。
本案的第二态样是在提供一种自动训练虚拟助理的***,分别与企业数据库及企业资源***连接,其包含:处理器以及储存装置。储存装置电性连接至处理器,用以储存总体数据库、应用知识数据库以及领域知识数据库。其中,处理器包含:分析模块、产生器建立模块、训练语料产生模块以及语意及词汇模型建立模块。分析模块用以分析企业数据库的数据结构以形成领域知识数据库以及分析企业资源***的作业流程以形成应用知识数据库。产生器建立模块与训练模块电性连接,用以利用领域知识数据库建立查询数据操作语料产生器以及利用应用知识数据库建立执行指令操作语料产生器。训练语料产生模块,与产生器建立模块电性连接,用以利用查询数据操作语料产生器产生多个查询数据操作训练语料,以及执行指令操作语料产生器产生多个执行指令操作训练语料,形成训练语料集合,以及根据多个***领域词汇以及多个服务应用参数形成为一关键实体集合。语意及词汇模型建立模块与训练语料产生模块电性连接,用以利用关键实体集合以及该训练语料集合产生共通词汇模型以及共通语意模型。
根据本案一实施例,该语意及词汇模型建立模块还包含:一范本建立模块,与该训练语料产生模块电性连接,依照该企业数据库中的类别区分所述多个查询数据操作训练语料的意图形成多个查询数据操作意图,以及依照该企业资源***提供的服务行为区分所述多个执行指令操作训练语料的意图形成多个执行指令操作意图,并建立所述多个查询数据操作意图的范本,以及所述多个执行指令操作意图的范本,接着根据该关键实体集合、所述多个查询数据操作意图的范本以及所述多个执行指令操作意图的范本建立一总体数据库;一词汇模型建立模块,与该范本建立模块电性连接,辨识该关键实体集合中的所述多个***领域词汇在该训练语料集合中出现的多个第一机率,并通过辨识出的所述多个***领域词汇分析所述多个查询数据操作训练语料的多个句型结构,以及所述多个***领域词汇彼此之间的多个关联性,并根据所述多个第一机率以及所述多个关联性建立一共通词汇模型;以及一语意模型建立模块,与该范本建立模块电性连接,分析所述多个查询数据操作意图以及所述多个执行指令操作意图中出现所述多个***领域词汇的多个第二机率,并根据所述多个句型结构以及所述多个第二机率建立一共通语意模型。
根据本案一实施例,该查询数据操作语料产生器用以分析查询该企业数据库的多个查询语料数据,并归纳出所述多个查询语料数据的一查询规则;以及根据该查询规则自动产生所述多个查询数据操作训练语料。
根据本案一实施例,该执行指令操作语料产生器用以分析与该企业资源***互动的多个执行语料数据,并归纳出所述多个执行语料数据的一执行规则;以及根据该执行规则自动产生所述多个执行指令操作训练语料。
根据本案一实施例,利用自动产生的所述多个查询数据操作训练语料以及所述多个执行指令操作训练语料,训练该共通词汇模型以及该共通语意模型,一虚拟助理会根据该共通词汇模型以及该共通语意模型执行相对应的操作。
本发明的自动训练虚拟助理的方法及***主要是能够自动产生自然语言的训练语料,产生语意及词汇模型,让虚拟助理可以根据语意及词汇模型与使用者进行互动,当然也能通过自动产生的训练语料不断的产生新的训练结果,达到快速训练及更新虚拟助理的功效。
附图说明
为让本发明的上述和其他目的、特征、优点与实施例能更明显易懂,所附附图的说明如下:
图1是根据本案的一些实施例所绘示的一种自动训练虚拟助理的***的示意图;
图2是根据本案的一些实施例所绘示的处理器的示意图;
图3是根据本案的一些实施例所绘示的语意及词汇模型建立模块的示意图;
图4是根据本案的一些实施例所绘示的一种自动训练虚拟助理的方法的流程图;以及
图5是根据本案的一些实施例所绘示的步骤S450的流程图。
具体实施方式
以下揭示提供许多不同实施例或例证用以实施本发明的不同特征。特殊例证中的元件及配置在以下讨论中被用来简化本揭示。所讨论的任何例证只用来作解说的用途,并不会以任何方式限制本发明或其例证的范围和意义。此外,本揭示在不同例证中可能重复引用数字符号且/或字母,这些重复皆为了简化及阐述,其本身并未指定以下讨论中不同实施例且/或配置之间的关系。
在全篇说明书与权利要求书所使用的用词(terms),除有特别注明外,通常具有每个用词使用在此领域中、在此揭露的内容中与特殊内容中的平常意义。某些用以描述本揭露的用词将于下或在此说明书的别处讨论,以提供本领域技术人员在有关本揭露的描述上额外的引导。
关于本文中所使用的“耦接”或“连接”,均可指二或多个元件相互直接作实体或电性接触,或是相互间接作实体或电性接触,而“耦接”或“连接”还可指二或多个元件相互操作或动作。
在本文中,使用第一、第二与第三等等的词汇,是用于描述各种元件、组件、区域、层与/或区块是可以被理解的。但是这些元件、组件、区域、层与/或区块不应该被这些术语所限制。这些词汇只限于用来辨别单一元件、组件、区域、层与/或区块。因此,在下文中的一第一元件、组件、区域、层与/或区块也可被称为第二元件、组件、区域、层与/或区块,而不脱离本发明的本意。如本文所用,词汇“与/或”包含了列出的关联项目中的一个或多个的任何组合。本案文件中提到的“及/或”是指表列元件的任一者、全部或至少一者的任意组合。
请参阅图1。图1是根据本案的一些实施例所绘示的一种自动训练虚拟助理的***100的示意图。如图1所绘示,自动训练虚拟助理的***100与企业数据库101及企业资源***102连接,其包含处理器110以及储存装置130。储存装置130用以储存总体数据库131、应用知识数据库132以及领域知识数据库133,储存总体数据库131、应用知识数据库132以及领域知识数据库133电性连接至处理器110。
于本发明各实施例中,处理器110可以实施为集成电路如微控制单元(microcontroller)、微处理器(microprocessor)、数字信号处理器(digital signalprocessor)、特殊应用集成电路(application specific integrated circuit,ASIC)、逻辑电路或其他类似元件或上述元件的组合。储存装置130可以实施为记忆体、硬盘、随身盘、记忆卡等。
请一并参阅图2及图3,图2是根据本案的一些实施例所绘示的处理器110的示意图,图3是根据本案的一些实施例所绘示的语意及词汇模型建立模块114的示意图。处理器110包含分析模块111、产生器建立模块112、训练语料产生模块113以及114。产生器建立模块112与分析模块111电性连接,训练语料产生模块113与产生器建立模块112电性连接,语意及词汇模型建立模块114与训练语料产生模块113电性连接。语意及词汇模型建立模块114包含范本建立模块1141、词汇模型建立模块1142以及语意模型建立模块1143。词汇模型建立模块1142以及语意模型建立模块1143皆与范本建立模块1141电性连接。
请一并参阅图1~图4。图4是根据本案的一些实施例所绘示的一种自动训练虚拟助理的方法400的流程图。如图4所示,自动训练虚拟助理的方法400包含以下步骤:
步骤S410:分析企业数据库的数据结构以形成领域知识数据库以及分析企业资源***的作业流程以形成应用知识数据库;
步骤S420:利用领域知识数据库建立查询数据操作语料产生器以及利用应用知识数据库建立执行指令操作语料产生器;
步骤S430:利用查询数据操作语料产生器产生多个查询数据操作训练语料,以及执行指令操作语料产生器产生多个执行指令操作训练语料,形成训练语料集合;
步骤S440:多个***领域词汇以及多个服务应用参数形成为关键实体集合;以及
步骤S450:利用关键实体集合以及训练语料集合产生共通词汇模型以及共通语意模型。
于步骤S410中,分析企业数据库101的数据结构以形成领域知识数据库133以及分析企业资源***102的作业流程以形成应用知识数据库132。于一实施例中,需要建立应用知识数据库132以及领域知识数据库133,首先除了需要分析企业资源***102的作业流程以及作业程序,还需要搜集企业人员如何与企业资源***102互动,举例而言,企业人员使用企业资源***102提供的请假服务时是使用企业资源***102的哪一个作业程序,以及使用请假服务时需要提供的请假人员名称、请假时间、代理人员等设定参数。同样地,除了需要分析企业数据库101的数据结构找出企业领域的专用词汇之外,还需要分析专用词汇之间的关联性,举例而言,出货单、客户名称、商品名称等都是具有关联的词汇,因为出货单的内容会记录出货给哪个客户以及该批出货的商品。
接着于步骤S420及步骤S430中,利用领域知识数据库133建立查询数据操作语料产生器以及利用应用知识数据库132建立执行指令操作语料产生器,接着利用查询数据操作语料产生器产生多个查询数据操作训练语料,以及执行指令操作语料产生器产生多个执行指令操作训练语料,形成训练语料集合。
于一实施例中,查询数据操作语料产生器是用来分析企业人员查询企业数据库101时,所使用的自然语言,并将企业人员使用的自然语言归纳出查询规则,使得查询数据操作语料产生器可以自动产生查询数据操作的语料数据。查询数据操作的查询规则可以为[前导语]+[企业数据条件]*n+[连接词]+[想要查询的企业领域专业词汇]+[后缀词],举例而言,如果企业人员使用的自然语言是「我想要找A公司上个月的订单,你知道吗?」,在这个例子中「我想要找」就是[前导语],「A公司」及「上个月」都是[企业数据条件],企业数据条件可以有多个,于本实施例中企业数据条件有2个,「的」是[连接词],「订单」是[想要查询的企业领域专业词汇],「你知道吗?」则是[后缀词]。
承上述,执行指令操作语料产生器是用来分析与企业资源***102互动时所使用的自然语言,并将企业人员使用的自然语言归纳出执行规则,使得执行指令操作语料产生器可以自动产生执行指令操作的语料数据。执行指令操作的执行规则可以为[前导语]+[企业***服务参数]*n+[连接词]+[想要使用的企业***服务]+[后缀词],举例而言,如果企业人员使用的自然语言是「帮我请1/15~1/16的病假」,在这个例子中「帮我请」就是[前导语],「1/15~1/16」是[企业***服务参数],企业***服务参数可以有多个,于本实施例中企业***服务参数只有1个,「的」是[连接词],「病假」是[想要使用的企业***服务],在这个例子中没有[后缀词]。如此一来,建立好查询数据操作语料产生器以及执行指令操作语料产生器对应的查询规则以及执行规则后,即可大量的产生训练语料,形成训练语料集合。
于步骤S440中,多个***领域词汇以及多个服务应用参数形成为关键实体集合。举例而言,关键实体集合包含企业领域词汇以及企业***的服务应用参数等信息。企业领域词汇则是指每个不同领域的企业可能会需要用到的词汇,例如医疗业运用到的词汇与运输业运用到的词汇一定不相同,因此企业领域词汇会依照每个使用ERP***的企业不同而有所变化。企业***的服务应用参数则是企业***所提供的各项服务对应的参数,举例而言,企业***中的请假功能可能需要请假时间、假别等信息,关键实体集合中的***领域词汇就需要包含事假、年假、病假、出差假等信息。
详细而言,关键实体集合还包含存取数据时会用到的数据栏位名称、企业***提供给使用者的服务名称、使用者在查询时所设定的限制条件的参数值、服务应用的参数值以及企业***的操作函数等,企业***的操作函数可以为请假、加班申请、出差申请、报支等操作函数。而上述的这些信息也可能会有对应的别名,也需在训练数据库时一并输入,例如:出货单对于特定领域的厂商有可能有出货明细表或销货单等不同的名称。
于步骤S450中,利用关键实体集合以及训练语料集合产生共通词汇模型以及共通语意模型。步骤S450的详细步骤请参考图5,图5是根据本案的一些实施例所绘示的步骤S450的流程图。如图5所示,产生词汇及语意模型阶段包含以下步骤:
步骤S451:依照企业数据库中的类别区分查询数据操作训练语料的意图形成多个查询数据操作意图,以及依照企业资源***提供的服务行为区分执行指令操作训练语料的意图形成多个执行指令操作意图;
步骤S452:建立查询数据操作意图的范本,以及执行指令操作意图的范本;
步骤S452:根据关键实体集合、查询数据操作意图的范本以及执行指令操作意图的范本建立总体数据库;
步骤S453:辨识关键实体集合中的***领域词汇在训练语料集合中出现的多个第一机率,并通过辨识出的***领域词汇分析查询数据操作训练语料的多个句型结构,以及***领域词汇彼此之间的多个关联性,并根据第一机率以及关联性建立共通词汇模型;以及
步骤S454:分析查询数据操作意图以及执行指令操作意图中出现***领域词汇的多个第二机率,并根据句型结构以及第二机率建立共通语意模型。
于步骤S451中,依照企业数据库101中的类别区分查询数据操作训练语料的意图形成多个查询数据操作意图,以及依照企业资源***102提供的服务行为区分执行指令操作训练语料的意图形成多个执行指令操作意图。于一实施例中,会先按照每个不同领域的企业数据库101对查询数据操作区分意图。举例而言,医疗业的企业数据库所储存的数据栏位一定与运输业的企业数据库不相同,因此两者的使用者需求也不一定相同。例如,对医疗业的使用者可能会有查询病历数据、查询病房空位等都是查询数据操作的不同意图,对运输业的使用者可能会有查询出货记录、查询包裹运送状态等都是查询数据操作的不同意图。当然也会按照每个不同领域的企业资源***提供的服务行为对执行指令操作区分意图,如上所述医疗业的企业资源***所提供的服务也当然会和运输业有所不同,每个不同领域的企业所提供的查询数据操作或服务行为操作也不一定可以通用,因此也需要对每个不同领域的企业所提供的服务区分意图,例如,对医疗业的使用者可能会有提供挂号的服务、提供住院订健康餐的服务等都是服务行为操作的不同意图,对运输业的使用者可能会有提供自动分类货物的服务、安排货物出货顺序的服务等都是服务行为操作的不同意图。
于步骤S452及步骤S453中,建立查询数据操作意图的范本以及执行指令操作意图的范本,并根据关键实体集合、查询数据操作意图的范本以及执行指令操作意图的范本建立总体数据库131。举例而言,将使用者在操作某个领域企业的虚拟助理会有的查询数据操作意图及执行指令操作意图都区分好后,就可以针对每个意图产生对应的范本,根据上方的范例,医疗业就会有对应查询病历数据、查询病房空位、提供挂号的服务及提供住院订健康餐的服务的4个企业资源***指令操作范本,运输业就会有对应查询出货记录、查询包裹运送状态、提供自动分类货物的服务、安排货物出货顺序的服务的4个企业资源***指令操作范本,接着会根据上述这些范本以及关键实体集合建立总体数据库131。
于步骤S454中,辨识关键实体集合中的***领域词汇在训练语料集合中出现的多个第一机率,并通过辨识出的***领域词汇分析查询数据操作训练语料的多个句型结构,以及***领域词汇彼此之间的多个关联性,并根据第一机率以及关联性建立共通词汇模型。在一实施例中,利用n元语法(n-GRAM)以及上下文无关文法(Context-free grammar,CFG)两种演算法计算每一***领域词汇在训练语料中出现的机率,并通过***领域词汇分析训练语料的句型结构以及***领域词汇彼此之间的关联性以建立共通词汇模型。举例而言,如果训练语料中有「我要查询A公司的报价单」以及「我要查询A公司的出货单」,而「A公司」、「报价单」及「出货单」都是***领域词汇,但在上述的范例中,由于「A公司」可能平均出现在每一个查询数据操作的意图中,因此「A公司」的机率在每一个查询数据操作的意图中都几乎相同,而「报价单」及「出货单」则只在查询某些特定数据的意图的训练语料中大量出现,而不会出现在查询其他数据的意图的训练语料中,因此「报价单」及「出货单」的机率在对应的意图中会特别高,而在其他意图中会较低。
于步骤S455中,分析查询数据操作意图以及执行指令操作意图中出现***领域词汇的多个第二机率,并根据句型结构以及第二机率建立共通语意模型。在一实施例中,利用隐马尔可夫模型(Hidden Markov Model,HMM)演算法计算***领域词汇在各意图(包括查询数据操作意图以及执行指令操作意图)中同时出现的机率,以建立共通语意模型,举例而言,在训练数据模型阶段时会输入许多训练语料,隐马尔可夫模型演算法必须计算***领域词汇在不同意图同时出现的机率。结合上述的范例,如果训练语料中有「我要查询A公司的出货单」,依照n元语法以及上下文无关文法可以找出「A公司」及「出货单」都是***领域词汇,而隐马尔可夫模型演算法可以依据不同意图下每一句语料中所有辨识出的***领域词汇,计算出所有这些辨识出的***领域词汇(亦即「A公司」及「出货单」)于某个特定意图(例如:查询出货相关数据的查询数据操作意图或申请出差的执行指令操作意图)中同时出现的机率,作为辨识使用者意图的语意模型;而根据隐马尔可夫模型演算法建立的共通语意模型,虚拟助理即可判断「A公司」及「出货单」同时出现时与查询出货数据的意图高度相关联,再结合查询出货数据的企业资源***指令操作范本以及「A公司」此项***领域词汇作为查询条件,即可以自动帮使用者在企业数据库中查询A公司的出货相关数据。
当建立完共通词汇模型及共通语意模型后,虚拟助理即可根据共通词汇模型及共通语意模型执行相对应的操作。举例而言,当有语音输入时,虚拟助理会先进行语音辨识,将自然语言转换成语料数据,接着会根据前述建立好的共通词汇模型及共通语意模型,找出语料数据中的关键词汇并判断使用者的意图(此时就能了解使用者的需求),虚拟助理就可以根据使用者的需求及辨识出的关键词汇进行相应的操作(例如,在数据库中查找数据或执行企业服务操作)。
由上述本案的实施方式可知,主要是改进以往在训练虚拟助理时需要有人不停的与虚拟助理对话提供训练语料,才能让虚拟助理具备与人互动的能力。因此,通过能够自动产生自然语言的训练语料,来训练出语意模型及词汇模型,让虚拟助理可以根据语意模型及词汇模型与使用者进行互动,当然也能通过自动产生的训练语料不断的产生新的训练结果,达到快速训练及更新虚拟助理的功效。
另外,上述例示包含依序的示范步骤,但这些步骤不必依所显示的顺序被执行。以不同顺序执行这些步骤皆在本揭示内容的考量范围内。在本揭示内容的实施例的精神与范围内,可视情况增加、取代、变更顺序及/或省略这些步骤。
虽然本案已以实施方式揭示如上,然其并非用以限定本案,任何熟悉此技艺者,在不脱离本案的精神和范围内,当可作各种的更动与润饰,因此本案的保护范围当视所附的权利要求书所界定的范围为准。

Claims (10)

1.一种自动训练虚拟助理的方法,其特征在于,包含:
分析一企业数据库的数据结构以形成一领域知识数据库以及分析一企业资源***的作业流程以形成一应用知识数据库;
利用该领域知识数据库建立一查询数据操作语料产生器以及利用该应用知识数据库建立一执行指令操作语料产生器;
利用该查询数据操作语料产生器产生多个查询数据操作训练语料,以及该执行指令操作语料产生器产生多个执行指令操作训练语料,形成一训练语料集合;
多个***领域词汇以及多个服务应用参数形成为一关键实体集合;以及
利用该关键实体集合和该训练语料集合产生一共通词汇模型以及一共通语意模型。
2.根据权利要求1所述的自动训练虚拟助理的方法,其特征在于,利用该关键实体集合和该训练语料集合产生该共通词汇模型以及该共通语意模型,还包含:
依照该企业数据库中的类别区分所述多个查询数据操作训练语料的意图形成多个查询数据操作意图,以及依照该企业资源***提供的服务行为区分所述多个执行指令操作训练语料的意图形成多个执行指令操作意图;
建立所述多个查询数据操作意图的范本,以及所述多个执行指令操作意图的范本;
根据该关键实体集合、所述多个查询数据操作意图的范本以及所述多个执行指令操作意图的范本建立一总体数据库;
辨识该关键实体集合中的所述多个***领域词汇在该训练语料集合中出现的多个第一机率,并通过辨识出的所述多个***领域词汇分析所述多个查询数据操作训练语料的多个句型结构,以及所述多个***领域词汇彼此之间的多个关联性,并根据所述多个第一机率以及所述多个关联性建立一共通词汇模型;以及
分析所述多个查询数据操作意图以及所述多个执行指令操作意图中出现所述多个***领域词汇的多个第二机率,并根据所述多个句型结构以及所述多个第二机率建立一共通语意模型。
3.根据权利要求1所述的自动训练虚拟助理的方法,其特征在于,该查询数据操作语料产生器,还包含:
分析查询该企业数据库的多个查询语料数据,并归纳出所述多个查询语料数据的一查询规则;以及
根据该查询规则自动产生所述多个查询数据操作训练语料。
4.根据权利要求1所述的自动训练虚拟助理的方法,其特征在于,该执行指令操作语料产生器,还包含:
分析与该企业资源***互动的多个执行语料数据,并归纳出所述多个执行语料数据的一执行规则;以及
根据该执行规则自动产生所述多个执行指令操作训练语料。
5.根据权利要求2所述的自动训练虚拟助理的方法,其特征在于,利用自动产生的所述多个查询数据操作训练语料以及所述多个执行指令操作训练语料,训练该共通词汇模型以及该共通语意模型,一虚拟助理会根据该共通词汇模型以及该共通语意模型执行相对应的操作。
6.一种自动训练虚拟助理的***,分别与一企业数据库及一企业资源***连接,其特征在于,包含:
一处理器;
一储存装置,电性连接至该处理器,用以储存一总体数据库、一应用知识数据库以及一领域知识数据库;
其中,该处理器包含:
一分析模块,用以分析一企业数据库的数据结构以形成一领域知识数据库以及分析一企业资源***的作业流程以形成一应用知识数据库;
一产生器建立模块,与该训练模块电性连接,用以利用该领域知识数据库建立一查询数据操作语料产生器以及利用该应用知识数据库建立一执行指令操作语料产生器;
一训练语料产生模块,与该产生器建立模块电性连接,用以利用该查询数据操作语料产生器产生多个查询数据操作训练语料,以及该执行指令操作语料产生器产生多个执行指令操作训练语料,形成一训练语料集合,以及根据多个***领域词汇、多个服务应用参数以及该训练语料集合形成为一关键实体集合;以及
一语意及词汇模型建立模块,与该训练语料产生模块电性连接,用以利用该关键实体集合产生一共通词汇模型以及一共通语意模型。
7.根据权利要求6所述的自动训练虚拟助理的***,其特征在于,该语意及词汇模型建立模块还包含:
一范本建立模块,与该训练语料产生模块电性连接,依照该企业数据库中的类别区分所述多个查询数据操作训练语料的意图形成多个查询数据操作意图,以及依照该企业资源***提供的服务行为区分所述多个执行指令操作训练语料的意图形成多个执行指令操作意图,并建立所述多个查询数据操作意图的范本,以及所述多个执行指令操作意图的范本,接着根据该关键实体集合、所述多个查询数据操作意图的范本以及所述多个执行指令操作意图的范本建立一总体数据库;
一词汇模型建立模块,与该范本建立模块电性连接,辨识该关键实体集合中的所述多个***领域词汇在该训练语料集合中出现的多个第一机率,并通过辨识出的所述多个***领域词汇分析所述多个查询数据操作训练语料的多个句型结构,以及所述多个***领域词汇彼此之间的多个关联性,并根据所述多个第一机率以及所述多个关联性建立一共通词汇模型;以及
一语意模型建立模块,与该范本建立模块电性连接,分析所述多个查询数据操作意图以及所述多个执行指令操作意图中出现所述多个***领域词汇的多个第二机率,并根据所述多个句型结构以及所述多个第二机率建立一共通语意模型。
8.根据权利要求6所述的自动训练虚拟助理的***,其特征在于,该查询数据操作语料产生器用以分析查询该企业数据库的多个查询语料数据,并归纳出所述多个查询语料数据的一查询规则;以及根据该查询规则自动产生所述多个查询数据操作训练语料。
9.根据权利要求6所述的自动训练虚拟助理的***,其特征在于,该执行指令操作语料产生器用以分析与该企业资源***互动的多个执行语料数据,并归纳出所述多个执行语料数据的一执行规则;以及根据该执行规则自动产生所述多个执行指令操作训练语料。
10.根据权利要求7所述的自动训练虚拟助理的***,其特征在于,利用自动产生的所述多个查询数据操作训练语料以及所述多个执行指令操作训练语料,训练该共通词汇模型以及该共通语意模型,一虚拟助理会根据该共通词汇模型以及该共通语意模型执行相对应的操作。
CN201810244565.2A 2018-03-23 2018-03-23 自动训练虚拟助理的方法及*** Active CN110298372B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810244565.2A CN110298372B (zh) 2018-03-23 2018-03-23 自动训练虚拟助理的方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810244565.2A CN110298372B (zh) 2018-03-23 2018-03-23 自动训练虚拟助理的方法及***

Publications (2)

Publication Number Publication Date
CN110298372A true CN110298372A (zh) 2019-10-01
CN110298372B CN110298372B (zh) 2023-06-09

Family

ID=68025894

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810244565.2A Active CN110298372B (zh) 2018-03-23 2018-03-23 自动训练虚拟助理的方法及***

Country Status (1)

Country Link
CN (1) CN110298372B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8577131B1 (en) * 2011-07-12 2013-11-05 Google Inc. Systems and methods for visual object matching
CN104346406A (zh) * 2013-08-08 2015-02-11 北大方正集团有限公司 训练语料扩充装置和训练语料扩充方法
US20150220511A1 (en) * 2014-02-04 2015-08-06 Maluuba Inc. Method and system for generating natural language training data
CN107688583A (zh) * 2016-08-05 2018-02-13 株式会社Ntt都科摩 创建用于自然语言处理装置的训练数据的方法和设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8577131B1 (en) * 2011-07-12 2013-11-05 Google Inc. Systems and methods for visual object matching
CN104346406A (zh) * 2013-08-08 2015-02-11 北大方正集团有限公司 训练语料扩充装置和训练语料扩充方法
US20150220511A1 (en) * 2014-02-04 2015-08-06 Maluuba Inc. Method and system for generating natural language training data
CN107688583A (zh) * 2016-08-05 2018-02-13 株式会社Ntt都科摩 创建用于自然语言处理装置的训练数据的方法和设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
司玉景,肖业鸣,徐及,潘接林,颜永红: "面向口语统计语言模型建模的自动语料生成算法", 《自动化学报》 *
黄韵竹,韦玮,罗杨宇,李成荣: "限定领域语言模型训练语料的词类扩展方法", 《计算机***应用》 *

Also Published As

Publication number Publication date
CN110298372B (zh) 2023-06-09

Similar Documents

Publication Publication Date Title
US11694036B2 (en) Using natural language constructs for data visualizations
US8627208B2 (en) Application generator for data transformation applications
CN109635117B (zh) 一种基于知识图谱识别用户意图方法及装置
US11144710B2 (en) Device with communication interface and method for controlling database access
US9069802B2 (en) Syntactic tagging in a domain-specific context
US9037613B2 (en) Self-learning data lenses for conversion of information from a source form to a target form
US10157175B2 (en) Business intelligence data models with concept identification using language-specific clues
WO2019085697A1 (zh) 人机交互方法和***
US20140351228A1 (en) Dialog system, redundant message removal method and redundant message removal program
US9043367B2 (en) Self-learning data lenses for conversion of information from a first form to a second form
CN112612462B (zh) 话术配置调整方法、装置、电子设备及存储介质
KR102307380B1 (ko) 자연어 처리 기반 콜센터 지원 시스템 및 방법
CN110321360A (zh) 表格数据的处理方法及相关设备
CN109472029B (zh) 药品名称处理方法与装置
CN109657803A (zh) 机器学习模型的构建
CN111144123B (zh) 一种工业互联网标识解析数据字典构建方法
CN109902215A (zh) 一种交易匹配的方法及***
US11841852B2 (en) Tenant specific and global pretagging for natural language queries
US9207917B2 (en) Application generator for data transformation applications
CN106250366A (zh) 一种针对问答***的数据处理方法及***
CN110489517B (zh) 虚拟助理的自动学习方法及***
CN110298372A (zh) 自动训练虚拟助理的方法及***
CN113779231B (zh) 基于知识图谱的大数据可视化分析方法、装置及设备
CN110209776B (zh) 操作虚拟助理的方法及***
CN111506776B (zh) 数据标注方法以及相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant