CN110546603A - 机器学习命令交互 - Google Patents
机器学习命令交互 Download PDFInfo
- Publication number
- CN110546603A CN110546603A CN201780090030.8A CN201780090030A CN110546603A CN 110546603 A CN110546603 A CN 110546603A CN 201780090030 A CN201780090030 A CN 201780090030A CN 110546603 A CN110546603 A CN 110546603A
- Authority
- CN
- China
- Prior art keywords
- predefined
- query
- commands
- word
- machine learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000003993 interaction Effects 0.000 title claims abstract description 33
- 238000010801 machine learning Methods 0.000 title claims abstract description 26
- 101150054987 ChAT gene Proteins 0.000 claims abstract description 31
- 101100203187 Mus musculus Sh2d3c gene Proteins 0.000 claims abstract description 31
- 239000013598 vector Substances 0.000 claims description 67
- 238000000034 method Methods 0.000 claims description 20
- 230000015654 memory Effects 0.000 claims description 17
- 230000004044 response Effects 0.000 claims description 16
- 238000012549 training Methods 0.000 claims description 2
- 238000004891 communication Methods 0.000 claims 1
- 230000006870 function Effects 0.000 description 8
- 238000013527 convolutional neural network Methods 0.000 description 6
- 230000001537 neural effect Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 230000002452 interceptive effect Effects 0.000 description 4
- 239000008186 active pharmaceutical agent Substances 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 241000282326 Felis catus Species 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 238000013500 data storage Methods 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N1/00—Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
- H04N1/32—Circuits or arrangements for control or supervision between transmitter and receiver or between image input and image output device, e.g. between a still-image camera and its memory or between a still-image camera and a printer device
- H04N1/327—Initiating, continuing or ending a single-mode communication; Handshaking therefor
- H04N1/32765—Initiating a communication
- H04N1/32771—Initiating a communication in response to a request, e.g. for a particular document
- H04N1/32784—Initiating a communication in response to a request, e.g. for a particular document using a voice request
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
- G06F40/35—Discourse or dialogue representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N1/00—Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
- H04N1/0035—User-machine interface; Control console
- H04N1/00352—Input means
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Human Computer Interaction (AREA)
- User Interface Of Digital Computer (AREA)
- Mathematical Analysis (AREA)
- Computational Mathematics (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Machine Translation (AREA)
- Algebra (AREA)
Abstract
本文公开的示例涉及经由聊天交互接收查询,根据训练后的机器学习模型将所接收的查询转换成预定义命令集中的一个预定义命令,以及向聊天交互提供该预定义命令集中的一个预定义命令的结果。
Description
背景技术
除了其它特征之外,多功能设备常常用于打印、复制、传真和/或扫描文档。这样的设备提供一批可用菜单命令、选项以及向用户提供信息的能力。
附图说明
在附图中,相似的附图标记指相似的部件或框。下面的详细描述参考附图,其中:
图1是用于提供查询交互的示例***;
图2是用于提供查询交互的方法的示例的流程图;以及
图3是用于提供查询交互的示例计算设备的框图。
具体实施方式
为了简便和说明性的目的,通过主要参考实施例的示例来描述实施例的原理。在下面的描述中,很多特定的细节被阐述,以便提供实施例的理解。然而,对本领域普通技术人员将明显的是,可以在没有这些特定细节的限制的情况下实践实施例。在一些实例中,没有详细地描述众所周知的方法和/或结构,以便不使实施例不必要地模糊。
诸如打印机、膝上型计算机、智能电话和/或其它计算设备的各种电子设备常常提供用于与用户交互的用户界面(UI)。这样的UI可例如提供状态信息、接受命令和指令、提供维护指令等。在一些情况下,可能存在设备能够响应的数百个命令,但用户常常对键入和/或通过很多菜单级别点击以尝试和找到正确的UI选项从而访问它们期望的信息几乎没有耐心。
在本文的示例中,可提供诸如交互式聊天界面的自然语言界面。有时被称为“聊天机器人”,该界面可从用户接受查询(诸如,键入的和/或说出的)、将查询转换成由设备已知的预定义命令中的一个预定义命令以及向用户提供响应。例如,用户可以询问聊天机器人“油墨剩下多少?”。聊天机器人可使用训练后的机器学习模型来将查询“油墨剩下多少?”转换成特征向量,该特征向量可接着用于识别也被提取到特征向量中的最接近的匹配模型。命令可在设备上被执行,并且答案被提供给用户作为来自聊天机器人的响应。
可包括图像和/或文本特征向量的特征向量可表示文本表示的特性。例如,文本特征向量可表示词的相似性、语言规律、基于训练后的词的上下文信息、形状、区的描述、对其它向量的接近度等。特征向量可以在多模空间中是可表示的。多模空间可包括k维坐标系。当在多模空间中填充图像和文本特征向量时,可通过比较在多模空间中的特征向量的距离来识别对查询的匹配图像,从而识别相似的图像特征和文本特征。距离比较的一个示例可包括余弦接近度,其中在多模空间中的特征向量之间的余弦角被比较以确定最接近的特征向量。余弦相似特征可在多模空间中是邻近的,而不相似的特征向量可以是远端的。特征向量可具有k维或在多模空间中的坐标。具有相似特征的特征向量在向量模型中的多模空间中接近彼此被嵌入。
基于特征的向量表示可使用各种模型以在连续向量空间中表示文档的词、图像和结构。不同的技术可应用于表示在向量空间中的不同特征,且不同级别的特征可根据可能需要被维护的文档的数量来存储。例如,在语义上相似的词可通过答复在相同的上下文中出现的词共享语义含义的事实来映射到附近的点。运用这个原理的两个示例方法包括基于计数的模型(例如潜在语义分析)和预测模型(例如神经概率语言模型)。基于计数的模型计算某个词多长时间与它的邻近词共同出现在大文本语料库中一次的统计,并接着将这些计数统计一直映射到每个词的小密集向量。预测方法直接试图在所获悉的小密集嵌入向量(模型的被考虑的参数)方面从它的邻居预测词。其它层可捕获其它特征,诸如字体类型分布、布局、图像内容和定位、颜色图等。
在一些示例中,可以用特征向量和由打印设备理解的预定义命令集的标识符创建索引。在一些实现中,可以为多个不同的设备提取相似的命令集,且包括可包括每个设备的标识符的提取。编索引可包括存储命令的标识符(ID)和它的特征向量,且搜索可返回图像的标识符。每个命令可例如包括所需的和/或可选的参数。例如,识别油墨水平的命令可包括可选的参数以识别特定颜色的墨盒的油墨水平和/或所有安装的墨盒的油墨水平。诸如通过扫描在设备的应用编程界面(API)中可得到的适当功能列表,可手动地选择和/或自动填充命令的列表。
在一些实现中,可对诸如技术论文、新闻文章、虚构和/或非虚构作品等的大集合的自然语言文档训练机器学习模型。模型因此可***语义含义和不同词的相似性。例如,模型可通过找到具有那些标题的两个相似的新闻故事来获悉词“奥巴马对伊利诺伊州的媒体讲话”在语义上类似于词“总统问候芝加哥的新闻界”。机器学习模型可包括例如用负采样训练的word2vec模型。word2vec是用于从原始文本学习词嵌入(word embeddings)的在计算上有效的预测模型。它可依赖于各种模型,诸如连续词袋模型(CBOW)和Skip-Gram模型。CBOW例如从源上下文词(“the cat sits on the”)预测目标词(例如“mat”),而skip-gram正好反过来进行并且从目标词预测源上下文词。机器学习模型也可由词的其它类型的向量表示(诸如全局向量(GloVe))或任何其它形式的词嵌入组成。
通过从该预定义命令集提取特征向量,每个命令可通过将相对小的一组关键词映射到该预定义命令集中的每一个来对各种自然语言查询变得可用。此外,通过向量表示命令的索引的搜索比常规文本串匹配搜索花费明显更少的时间。一旦被提取到特征向量中,用户的自然语言查询就可用于计算在查询和命令之间的词移动距离(WMD)。WMD对在两个文本表示之间的相异性进行测量作为一个表示的嵌入后的词需要行进以到达另一表示的嵌入后的词的距离的最小数量。WMD越低,每个表示的词就越近和/或越相同。
图1是用于提供查询交互的示例***100的框图。***100可包括包含存储器115的计算设备110。计算设备110可包括例如通用和/或专用计算机、服务器、大型机、桌上型计算机、膝上型计算机、平板计算机、智能电话、游戏控制台、打印机和/或能够提供计算能力的任何其它***,计算能力与提供本文所述的实现一致。计算设备110可在存储器115中存储语言模型引擎120和交互引擎125。
***100的引擎120、125中的每一个可包括硬件和程序的任何组合,以实现相应引擎的功能。在本文所述的示例,硬件和程序的这样的组合可以以多种不同的方式实现。例如,引擎的程序可以是存储在非瞬态机器可读存储介质上的处理器可执行的指令,并且引擎的硬件可包括用于执行那些指令的处理资源。在这样的示例中,机器可读存储介质可存储指令,指令在由处理资源执行时实现引擎120、125。在这样的示例中,***100可包括存储指令的机器可读存储介质和用于执行指令的处理资源,或机器可读存储介质可以是分开的,但是可以是***100和处理资源可访问的。
语言模型引擎120可根据训练后的模型将接收的查询转换成预定义命令集130中的一个预定义命令。例如,训练后的模型可包括机器学习模型,例如对多个自然语言文档的负采样进行训练的word2vec模型。在一些实现中,将所接收的查询转换成预定义命令集130中的一个预定义命令可包括将所接收的查询的每个词转换成多维向量表示。在一些实现中,将所接收的查询转换成预定义命令集130中的一个预定义命令可包括:计算在所接收的查询的每个词和与预定义命令集130相关联的词表中的每个词之间的词移动距离(WMD)。
在一些示例中,语言模型引擎120可基于所计算的WMD来识别预定义命令集130中包括相对于所接收的查询的最小词距离的一个预定义命令。这样的命令例如可包括与提供和接收来自打印设备150的信息相关联的命令。例如,命令可包括关于设备150的状态查询命令和/或由设备150执行的工作的状态查询命令。
所接收的查询可以以自然语言表达,自然语言诸如“今天已经打印多少页”、“多少工作正在等待”、“剩下多少油墨”、“下一服务何时到期”、“你的模型是什么”、“你的名字是什么”、“你的地址是什么”等。这些仅仅作为示例被给出,且大批其它查询可被接收并映射到预定义命令集130。这些示例查询可通过语言模型引擎120从预定义命令集130转换成命令。
语言模型引擎120可例如包括可将预定义命令集130和所接收的查询两者都转换成k维文本特征向量的卷积神经网络(CNN)。k维特征向量可以是在欧几里德空间中可表示的向量。在k维特征向量中的维度可表示由CNN确定的变量,CNN描述查询的文本和预定义命令集130。k维特征向量在同一多模空间中可表示,且可使用距离比较(诸如在多模空间中的词移动距离(WMD))来比较。在各种示例中,语言模型引擎120可包括卷积神经网络-长期短期记忆(CNN-STM)编码器、seq2seq(编码器-解码器模型)和/或结构神经语言模型(SC-NLM)编码器。一些示例可使用其它模型和/或模型的组合。
交互引擎125可从用户接收查询、从语言模型引擎接收预定义命令以及根据从语言模型引擎接收的预定义命令向用户提供对查询的响应。例如,查询可以是自然语言句子、一组词、短语等。可通过基于聊天的界面(例如短消息服务、即时消息、web应用、话音交互界面(具有相关联的语音到文本引擎)等)从用户接收查询。
语言模型引擎120可使用来自查询的k维文本特征向量来从预定义命令集130中识别最接近的匹配命令。如果没有命令被确定为在可配置的阈值距离内,则误差可被报告给查询用户。为了执行匹配,语言模型引擎120可将从查询产生的文本特征向量和与预定义命令集130相关联的文本特征向量进行比较。
交互引擎125可在打印设备150上执行匹配命令,如果有的话。例如,打印设备150可提供允许交互引擎125执行相对于打印设备150的功能的API,和/或打印设备150可诸如通过简单网络管理协议(SNMP)查询来接受远程执行命令。交互引擎125可经由用户用于提交查询的同一界面从打印设备150提供对命令的响应。例如,用户可已经将命令“我能打印多少页?”键入到聊天界面中。语言模型引擎120可根据打印设备150的可用API将查询转换成到打印设备150的命令,以用于剩余油墨水平状态检查。交互引擎125可接着执行API功能并经由聊天界面提供对用户的查询的响应。
在一些实现中,***100可包括打印设备150;也就是说,计算设备110和存储器115可以是打印设备150的部分,且预定义命令集130可存储在存储器115中。打印设备150可提供用于诸如经由网络可访问应用和/或经由硬件控制面板的用户界面来接收查询的界面。在其它实现中,计算设备110可与打印机150(诸如云服务)通信。这样的实现可允许语言模型引擎120和交互引擎125为多个打印设备服务。
虽然在图1中描绘了一个计算设备110,但是***100的某些实现可包括多于一个计算设备110。计算设备中的至少一个可被使用并例如被设置在至少一个服务器阵列、计算机阵列、数据中心和/或其它设置中。例如,计算设备一起可包括云计算资源、网格计算资源和/或任何其它分布式计算设置。这样的计算设备可位于单个装置中和/或可分布在很多不同的地理位置之中。
图2是用于提供查询交互的示例方法200的流程图。虽然下面参考计算设备110描述了方法200的执行,但是可使用用于执行方法200的其它适当的部件。
方法200可在阶段205中开始并继续进行到阶段210,在阶段210中计算设备110可经由聊天交互来接收查询。例如,查询可以是自然语言句子、一组词、短语等。可通过基于聊天的界面(诸如短消息服务、即时消息、web应用、话音交互界面等)从用户接收查询。在本文的示例中,可提供自然语言界面,诸如交互式聊天界面。有时被称为“聊天机器人”的界面可从用户接受查询(诸如键入的和/或说出的)、将查询转换成由设备已知的预定义命令中的一个预定义命令以及向用户提供响应。例如,用户可以询问聊天机器人“剩下多少油墨?”聊天机器人可使用训练后的机器学习模型来将查询“剩下多少油墨”转换成特征向量,该特征向量可接着用于识别也被提取到特征向量中的最接近的匹配命令。命令可在设备上被执行,并且答案被提供给用户作为来自聊天机器人的响应。
方法200可接着前进到阶段215,在阶段215中计算设备110可根据训练后的机器学习模型来将所接收的查询转换成预定义命令集中的一个预定义命令。在一些实现中,训练后的机器学习模型包括从多个自然语言文档中提取的多个向量表示的词嵌入。例如,语言模型引擎120可根据训练后的模型将所接收的查询转换成预定义命令集130中的一个预定义命令。例如,训练后的模型可包括机器学习模型,诸如对多个自然语言文档的负采样进行训练的word2vec模型。在一些实现中,将所接收的查询转换成预定义命令集130中的一个预定义命令可包括将所接收的查询的每个词转换成多维向量表示。在一些实现中,将所接收的查询转换成预定义命令集130中的一个预定义命令可包括:计算在所接收的查询的每个词和与预定义命令集130相关联的词表中的每个词之间的词移动距离(WMD)。
一旦被提取到特征向量中,用户的自然语言查询就可用于计算在查询和命令之间的词移动距离(WMD)。WMD对在两个文本表示之间的相异性进行测量作为一个表示的嵌入后的词需要行进以到达另一表示的嵌入后的词的距离的最小数量。WMD越低,每个表示的词就越近和/或越相同。
语言模型引擎120可使用来自查询的k维文本特征向量来从预定义命令集130中识别最接近的匹配命令。如果没有命令被确定为在可配置的阈值距离内,则误差可被报告给查询用户。为了执行匹配,语言模型引擎120可将从查询产生的文本特征向量和与预定义命令集130相关联的文本特征向量进行比较。
方法200可接着前进到阶段220,在阶段220中计算设备110可向聊天交互提供预定义命令集中的该一个预定义命令的结果。交互引擎125可在打印设备150上执行匹配命令,如果有的话。例如,打印设备150可提供允许交互引擎125执行相对于打印设备150的功能的API,和/或打印设备150可诸如通过简单网络管理协议(SNMP)查询来接受远程执行命令。交互引擎125可经由用户用于提交查询的同一界面从打印设备150提供对命令的响应。例如,用户可已经将命令“我能打印多少页?”键入到聊天界面中。语言模型引擎120可根据打印设备150的可用API将查询转换成到打印设备150的命令,以用于剩余油墨水平状态检查。交互引擎125可接着执行API功能并经由聊天界面提供对用户的查询的响应。
方法200可接着在阶段250处结束。
图3是用于提供查询交互的示例计算设备300的框图。计算设备300可包括处理器310和存储器315,存储器315包括非瞬态机器可读存储介质。存储器315可包括多个处理器可执行指令,诸如训练机器学习模型指令332、创建命令集指令334、提取向量表示指令336、接收查询指令338、识别最接近的命令指令340以及提供响应指令342。在一些实现中,指令332、334、336、338、340、342可与单个计算设备300相关联和/或可在不同的计算设备之中诸如经由直接连接、总线或网络通信地耦接。
处理器310可包括中央处理单元(CPU)、基于半导体的微处理器、诸如复杂可编程逻辑设备(CPLD)和/或现场可编程门阵列(FPGA)的可编程部件或适合于取回和执行存储在机器可读存储介质320中的指令的任何其它硬件设备。具体地,处理器310可取出、解码和执行指令332、334、336、338、340、342。
可执行指令332、334、336、338、340、342可包括存储在机器可读存储介质的任何部分和/或部件中并由处理器310可执行的逻辑。机器可读存储介质315可包括易失性和/或非易失性存储器两者和数据存储部件。易失性部件是当掉电时不保留数据值的部件。非易失性部件是当掉电时保留数据的部件。
机器可读存储介质315可包括例如随机存取存储器(RAM)、只读存储器(ROM)、硬盘驱动器、固态驱动器、USB闪存驱动器、经由存储卡阅读器访问的存储卡、经由相关联的软盘驱动器访问的软盘、经由光学磁盘驱动器访问的光盘、经由适当的磁带驱动器访问的磁带和/或其它存储器部件,和/或这些存储器部件中的任两个和/或更多个的组合。此外,RAM可包括例如静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)和/或磁性随机存取存储器(MRAM)和其它这样的设备。ROM可包括例如可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)和/或其它类似的存储器设备。
训练机器学习模型指令332可训练包括从多个自然语言文档中提取的多个向量表示的词嵌入的机器学习模型。例如,语言模型引擎120可包括可将预定义命令集130和所接收的查询两者都转换成k维文本特征向量的卷积神经网络(CNN)。k维特征向量可以是在欧几里德空间中可表示的向量。在k维特征向量中的维度可表示由CNN确定的变量,CNN描述查询的文本和预定义命令集130。k维特征向量在同一多模空间中可表示,且可使用距离比较(诸如在多模空间中的词移动距离(WMD))来比较。在各种示例中,语言模型引擎120可包括卷积神经网络-长期短期记忆(CNN-STM)编码器、seq2seq(编码器-解码器模型)和/或结构神经语言模型(SC-NLM)编码器。一些示例可使用其它模型和/或模型的组合。
在一些实现中,可对诸如技术论文、新闻文章、虚构和/或非虚构作品等的大集合的自然语言文档训练机器学习模型。模型因此可***语义含义和不同词的相似性。例如,模型可通过找到具有那些标题的两个相似的新闻故事来获悉词“奥巴马对伊利诺伊州的媒体讲话”在语义上类似于词“总统问候芝加哥的新闻界”。机器学习模型可包括例如用负采样训练的word2vec模型。Word2vec是用于从原始文本学习词嵌入的在计算上有效的预测模型。它可依赖于各种模型,诸如连续词袋模型(CBOW)和Skip-Gram模型。CBOW例如从源上下文词(“the cat sits on the”)预测目标词(例如“mat”),而skip-gram正好反过来进行并从目标词预测源上下文词。
创建命令集指令334可创建与打印设备相关联的预定义命令集。在一些示例中,可以用特征向量和由打印设备理解的预定义命令集的标识符创建索引。在一些实现中,可以为多个不同的设备提取相似的命令集,且包括可包括每个设备的标识符的提取。编索引可包括存储命令的标识符(ID)和它的特征向量,且搜索可返回图像的标识符。每个命令可例如包括所需的和/或可选的参数。例如,识别油墨水平的命令可包括可选的参数以识别特定颜色的墨盒的油墨水平和/或所有安装的墨盒的油墨水平。诸如通过扫描在设备的应用编程界面(API)中可得到的适当功能列表,可手动地选择和/或自动填充命令的列表。
提取向量表示指令336可根据机器学习模型提取预定义命令集中的每一个预定义命令的向量表示。基于特征的向量提取可使用各种模型以在连续向量空间中表示文档的词、图像和结构。不同的技术可应用于表示在向量空间中的不同特征,且不同级别的特征可根据可能需要被维护的文档的数量来存储。例如,在语义上相似的词可通过答复在相同的上下文中出现的词共享语义含义的事实来映射到附近的点。运用这个原理的两个示例方法包括基于计数的模型(例如潜在语义分析)和预测模型(例如神经概率语言模型)。基于计数的模型计算某个词多长时间与它的邻近词共同出现在大文本语料库中一次的统计,并接着将这些计数统计一直映射到每个词的小密集向量。预测方法直接试图在所获悉的小密集嵌入向量(模型的被考虑的参数)方面从它的邻居预测词。其它层可捕获其它特征,诸如字体类型分布、布局、图像内容和定位、颜色图等。
接收查询指令338可经由聊天界面从用户接收查询。例如,查询可以是自然语言句子、一组词、短语等。可通过基于聊天的界面(诸如短消息服务、即时消息、web应用等)从用户接收查询。所接收的查询可以以自然语言表达,自然语言诸如“今天已经打印多少页”、“多少工作正在等待”、“剩下多少油墨”、“下一服务何时到期”、“你的模型是什么”、“你的名字是什么”、“你的地址是什么”等。这些仅仅作为示例被给出,且大批其它查询可被接收并被映射到预定义命令集130。这些示例查询可通过语言模型引擎120从预定义命令集130转换成命令。
识别最接近的命令指令340可根据机器学习模型识别预定义命令集中在语义上与所接收的查询最接近的一个预定义命令。例如,语言模型引擎120可使用来自查询的k维文本特征向量从预定义命令集130中识别最接近的匹配命令。如果没有命令被确定为在可配置的阈值距离内,则误差可被报告给查询用户。为了执行匹配,语言模型引擎120可将从查询产生的文本特征向量和与预定义命令集130相关联的文本特征向量进行。在一些示例中,语言模型引擎120可基于所计算的WMD来识别预定义命令集130中包括相对于所接收的查询的最小词距离的一个预定义命令。这样的命令例如可包括与提供和接收来自打印设备150的信息相关联的命令。例如,命令可包括关于设备150的状态查询命令和/或由设备150执行的工作的状态查询命令。
提供响应指令342可根据预定义命令集中的一个预定义命令经由聊天界面提供对查询的响应。例如,交互引擎125可在打印设备150上执行匹配命令,如果有的话。例如,打印设备150可提供允许交互引擎125执行相对于打印设备150的功能的API,和/或打印设备150可诸如通过简单网络管理协议(SNMP)查询来接受远程执行命令。交互引擎125可经由用户用于提交查询的同一界面从打印设备150提供对命令的响应。例如,用户可已经将命令“剩下油墨的多少页”键入到聊天界面中。语言模型引擎120可根据打印设备150的可用API将查询转换成打印设备150的命令,以用于剩余油墨水平状态检查。交互引擎125可接着执行API功能并经由聊天界面提供对用户的查询的响应。
所公开的示例可包括用于文档元素重新定位的***、设备、计算机可读存储介质和方法。为了解释的目的,参考图中所图示的部件描述某些示例。然而,所图示的部件的功能可重叠,并可存在于更少或更大数量的元件和部件中。此外,所图示的元件的功能的全部或部分可共存或分布在几个地理上分散的位置之中。而且,所公开的示例可在各种环境中实现且不限于所图示的示例。
而且,如在说明书和所附权利要求中所使用的,单数形式“一”和“该”意在也包括复数形式,除非上下文另外指示。此外,虽然术语“第一”、“第二”等可在本文用于描述各种元件,但是这些元件不应由这些术语限制。相反,这些术语仅用于区分一个元件与另一元件。
进一步,关于图所描述的操作的顺序是示例且不意在限制。额外或更少的操作或操作的组合可被使用或可改变而不脱离所公开的范围。因此,本公开仅阐述实现的可能示例,且可对所描述的示例做出许多变形和修改。所有这样的修改和变形意在包括在本公开的范围内并被所附权利要求保护。
Claims (15)
1.一种***,包括:
存储器,所述存储器存储:
语言模型引擎,所述语言模型引擎用于:
根据训练后的模型将接收的查询转换成预定义命令集中的一个预定义命令;以及
交互引擎,所述交互引擎用于:
从用户接收查询,
从所述语言模型引擎接收所述预定义命令,以及
根据从所述语言模型引擎接收的所述预定义命令向所述用户提供对所述查询的响应。
2.根据权利要求1所述的***,其中所述训练后的模型包括对多个自然语言文档进行训练的机器学习模型。
3.根据权利要求2所述的***,其中,所述机器学习模型包括词嵌入模型。
4.根据权利要求1所述的***,其中,所述交互引擎经由聊天界面从所述用户接收所述查询。
5.根据权利要求1所述的***,其中,将所接收的查询转换成所述预定义命令集中的一个预定义命令包括将所接收的查询的每个词转换成多维向量表示。
6.根据权利要求5所述的***,其中,将所接收的查询转换成所述预定义命令集中的一个预定义命令进一步包括:计算在所接收的查询的每个词和与所述预定义命令集相关联的词表中的每个词之间的词移动距离。
7.根据权利要求1所述的***,其中,将所接收的查询转换成所述预定义命令集中的一个预定义命令进一步包括:识别所述预定义命令集中包括相对于所接收的查询的最小词距离的所述一个预定义命令。
8.根据权利要求1所述的***,其中所述预定义命令集包括与打印设备相关联的命令。
9.根据权利要求8所述的***,其中所述***包括所述打印设备。
10.根据权利要求8所述的***,其中所述交互引擎与所述打印设备通信。
11.一种方法,包括:
经由聊天交互接收查询;
根据训练后的机器学习模型将所接收的查询转换成预定义命令集中的一个预定义命令;以及
向所述聊天交互提供所述预定义命令集中的所述一个预定义命令的结果。
12.根据权利要求11所述的方法,其中,所述训练后的机器学习模型包括从多个自然语言文档中提取的多个向量表示的词嵌入。
13.根据权利要求11所述的方法,其中,将所接收的查询转换成所述预定义命令集中的一个预定义命令包括:识别所述预定义命令集中在语义上与所接收的查询最接近的命令。
14.根据权利要求13所述的方法,其中,所述聊天交互由打印设备提供。
15.一种存储指令的非瞬态机器可读介质,所述指令由处理器可执行,用于:
训练包括从多个自然语言文档中提取的多个向量表示的词嵌入的机器学习模型;
创建与打印设备相关联的预定义命令集;
根据所述机器学习模型提取所述预定义命令集中的每一个预定义命令的向量表示;
经由聊天界面从用户接收查询;
根据所述机器学习模型识别所述预定义命令集中在语义上与所接收的查询最接近的一个预定义命令;以及
根据所述预定义命令集中的所述一个预定义命令经由所述聊天界面提供对所述查询的响应。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/US2017/029253 WO2018199913A1 (en) | 2017-04-25 | 2017-04-25 | Machine-learning command interaction |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110546603A true CN110546603A (zh) | 2019-12-06 |
Family
ID=63919193
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201780090030.8A Pending CN110546603A (zh) | 2017-04-25 | 2017-04-25 | 机器学习命令交互 |
Country Status (4)
Country | Link |
---|---|
US (1) | US11509794B2 (zh) |
EP (1) | EP3616048A4 (zh) |
CN (1) | CN110546603A (zh) |
WO (1) | WO2018199913A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113282977A (zh) * | 2021-03-19 | 2021-08-20 | 广州天越电子科技有限公司 | 一种基于NLP技术bert模型的CAD中文输入快捷命令方法 |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110019658B (zh) * | 2017-07-31 | 2023-01-20 | 腾讯科技(深圳)有限公司 | 检索项的生成方法及相关装置 |
AU2018412575B2 (en) * | 2018-03-07 | 2021-03-18 | Google Llc | Facilitating end-to-end communications with automated assistants in multiple languages |
JP7255684B2 (ja) * | 2019-07-17 | 2023-04-11 | 富士通株式会社 | 特定プログラム、特定方法、および特定装置 |
EP3786855A1 (en) * | 2019-08-30 | 2021-03-03 | Accenture Global Solutions Limited | Automated data processing and machine learning model generation |
US11163760B2 (en) * | 2019-12-17 | 2021-11-02 | Mastercard International Incorporated | Providing a data query service to a user based on natural language request data |
US11461400B2 (en) * | 2020-01-07 | 2022-10-04 | Dell Products L.P. | Using artificial intelligence and natural language processing for data collection in message oriented middleware frameworks |
US11429603B2 (en) * | 2020-01-07 | 2022-08-30 | Dell Products L.P. | Using artificial intelligence and natural language processing for data collection in message oriented middleware frameworks |
US11397667B2 (en) * | 2020-02-20 | 2022-07-26 | Accenture Global Solutions Limited | Software test case sequencing |
CN112199485B (zh) * | 2020-10-14 | 2022-10-14 | 哈尔滨工程大学 | 一种基于个性化开放领域的对话生成方法 |
US11928111B2 (en) * | 2021-03-03 | 2024-03-12 | Samsung Electronics Co., Ltd. | Electronic apparatus and method for controlling electronic apparatus |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6665640B1 (en) * | 1999-11-12 | 2003-12-16 | Phoenix Solutions, Inc. | Interactive speech based learning/training system formulating search queries based on natural language parsing of recognized user queries |
US20040261021A1 (en) * | 2000-07-06 | 2004-12-23 | Google Inc., A Delaware Corporation | Systems and methods for searching using queries written in a different character-set and/or language from the target pages |
CN102725757A (zh) * | 2010-02-05 | 2012-10-10 | 微软公司 | 上下文查询 |
US20150154976A1 (en) * | 2013-12-02 | 2015-06-04 | Rawles Llc | Natural Language Control of Secondary Device |
CN106415535A (zh) * | 2014-04-14 | 2017-02-15 | 微软技术许可有限责任公司 | 使用深度学习模型的上下文相关的搜索 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03163623A (ja) | 1989-06-23 | 1991-07-15 | Articulate Syst Inc | 音声制御コンピュータ・インターフェース |
GB2380564A (en) * | 2001-10-03 | 2003-04-09 | Hewlett Packard Co | Method of collecting consumer data |
KR100481440B1 (ko) | 2002-11-06 | 2005-04-07 | 주식회사 우심시스템 | 휴대용 복합 단말기 |
US7606714B2 (en) | 2003-02-11 | 2009-10-20 | Microsoft Corporation | Natural language classification within an automated response system |
US9318108B2 (en) * | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US9294624B2 (en) | 2009-01-28 | 2016-03-22 | Virtual Hold Technology, Llc | System and method for client interaction application integration |
US20140255895A1 (en) | 2013-03-06 | 2014-09-11 | Avaya Inc. | System and method for training agents of a contact center |
US9842586B2 (en) | 2014-07-09 | 2017-12-12 | Genesys Telecommunications Laboratories, Inc. | System and method for semantically exploring concepts |
US9965458B2 (en) | 2014-12-09 | 2018-05-08 | Sansa AI Inc. | Intelligent system that dynamically improves its knowledge and code-base for natural language understanding |
US10482184B2 (en) | 2015-03-08 | 2019-11-19 | Google Llc | Context-based natural language processing |
US10467268B2 (en) | 2015-06-02 | 2019-11-05 | International Business Machines Corporation | Utilizing word embeddings for term matching in question answering systems |
US10262654B2 (en) | 2015-09-24 | 2019-04-16 | Microsoft Technology Licensing, Llc | Detecting actionable items in a conversation among participants |
US10515400B2 (en) * | 2016-09-08 | 2019-12-24 | Adobe Inc. | Learning vector-space representations of items for recommendations using word embedding models |
-
2017
- 2017-04-25 WO PCT/US2017/029253 patent/WO2018199913A1/en unknown
- 2017-04-25 US US16/499,030 patent/US11509794B2/en active Active
- 2017-04-25 EP EP17907162.6A patent/EP3616048A4/en not_active Withdrawn
- 2017-04-25 CN CN201780090030.8A patent/CN110546603A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6665640B1 (en) * | 1999-11-12 | 2003-12-16 | Phoenix Solutions, Inc. | Interactive speech based learning/training system formulating search queries based on natural language parsing of recognized user queries |
US20040261021A1 (en) * | 2000-07-06 | 2004-12-23 | Google Inc., A Delaware Corporation | Systems and methods for searching using queries written in a different character-set and/or language from the target pages |
CN102725757A (zh) * | 2010-02-05 | 2012-10-10 | 微软公司 | 上下文查询 |
US20150154976A1 (en) * | 2013-12-02 | 2015-06-04 | Rawles Llc | Natural Language Control of Secondary Device |
CN106415535A (zh) * | 2014-04-14 | 2017-02-15 | 微软技术许可有限责任公司 | 使用深度学习模型的上下文相关的搜索 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113282977A (zh) * | 2021-03-19 | 2021-08-20 | 广州天越电子科技有限公司 | 一种基于NLP技术bert模型的CAD中文输入快捷命令方法 |
Also Published As
Publication number | Publication date |
---|---|
US11509794B2 (en) | 2022-11-22 |
US20210112178A1 (en) | 2021-04-15 |
EP3616048A1 (en) | 2020-03-04 |
WO2018199913A1 (en) | 2018-11-01 |
EP3616048A4 (en) | 2020-12-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11509794B2 (en) | Machine-learning command interaction | |
US11481656B2 (en) | Method and apparatus for evaluating a matching degree of multi-domain information based on artificial intelligence, device and medium | |
CN107656922B (zh) | 一种翻译方法、装置、终端及存储介质 | |
AU2011336445B2 (en) | Identifying matching canonical documents in response to a visual query | |
CA3139085A1 (en) | Representative document hierarchy generation | |
CN112905735A (zh) | 用于自然语言处理的方法和设备 | |
CN108537176A (zh) | 目标弹幕的识别方法、装置、终端及存储介质 | |
CN102402584A (zh) | 多语言文本中的语言识别 | |
CN114596566B (zh) | 文本识别方法及相关装置 | |
AU2019419891B2 (en) | System and method for spatial encoding and feature generators for enhancing information extraction | |
US11830271B2 (en) | Document processing optimization | |
Baek et al. | COO: Comic onomatopoeia dataset for recognizing arbitrary or truncated texts | |
US11151307B2 (en) | Mapping annotations to ranges of text across documents | |
CN111563381A (zh) | 文本处理方法和装置 | |
US11290617B2 (en) | Document security | |
CN114399782B (zh) | 文本图像处理方法、装置、设备、存储介质及程序产品 | |
CN116324910A (zh) | 用于执行设备上图像到文本转换的方法和*** | |
CN114373088A (zh) | 一种图像检测模型的训练方法和相关产品 | |
US10970533B2 (en) | Methods and systems for finding elements in optical character recognition documents | |
KR20220052223A (ko) | 객체 감지를 위한 라벨링 장치 및 방법 | |
CN116758565B (zh) | 一种基于决策树的ocr文本还原方法、设备及存储介质 | |
US20230098086A1 (en) | Storing form field data | |
US11763585B2 (en) | Multi-layer neural network and convolutional neural network for context sensitive optical character recognition | |
US20230205910A1 (en) | Information processing device, confidentiality level determination program, and method | |
CN116187274A (zh) | 标签提取方法、装置、电子设备和可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20191206 |