CN106056207B - 一种基于自然语言的机器人深度交互与推理方法与装置 - Google Patents

一种基于自然语言的机器人深度交互与推理方法与装置 Download PDF

Info

Publication number
CN106056207B
CN106056207B CN201610302605.5A CN201610302605A CN106056207B CN 106056207 B CN106056207 B CN 106056207B CN 201610302605 A CN201610302605 A CN 201610302605A CN 106056207 B CN106056207 B CN 106056207B
Authority
CN
China
Prior art keywords
case
user
attribute
text
robot
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610302605.5A
Other languages
English (en)
Other versions
CN106056207A (zh
Inventor
闵华松
李潇
齐诗萌
林云汉
周昊天
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University of Science and Engineering WUSE
Original Assignee
Wuhan University of Science and Engineering WUSE
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University of Science and Engineering WUSE filed Critical Wuhan University of Science and Engineering WUSE
Priority to CN201610302605.5A priority Critical patent/CN106056207B/zh
Publication of CN106056207A publication Critical patent/CN106056207A/zh
Application granted granted Critical
Publication of CN106056207B publication Critical patent/CN106056207B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/008Artificial life, i.e. computing arrangements simulating life based on physical entities controlled by simulated intelligence so as to replicate intelligent life forms, e.g. based on robots replicating pets or humans in their appearance or behaviour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/144Training of HMMs
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/148Duration modelling in HMMs, e.g. semi HMM, segmental models or transition probabilities
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/54Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Signal Processing (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Robotics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Quality & Reliability (AREA)
  • Machine Translation (AREA)
  • Manipulator (AREA)

Abstract

本发明公开了一种基于自然语言的机器人深度交互与推理方法与装置,该方法包括以下步骤:1)语音识别:接收用户语音输入,对输入信号进行处理,得到文本信息;2)获取案例属性:将步骤1)中获取的文本进行分词处理,然后将分词后的文本与案例库中的案例进行相似度匹配提取案例的属性;3)深度对话与三维情景交互:如果根据步骤2)提取案例的属性获得的用户意图不完整,则结合Kinect传感器获取的实时地图文件对用户进行多次引导,直至获取完整意图,然后针对用户完整意图的作业任务生成解决方案;语音合成:将得到的解决方案以文本的形式表示出来,合成语音通过音响设备反馈给用户。本发明交互过程中机器人与用户均使用自然语言。

Description

一种基于自然语言的机器人深度交互与推理方法与装置
技术领域
本发明涉及人工智能技术,尤其涉及一种基于自然语言的机器人深度交互与推理方法与装置。
背景技术
近年来,随着智能机器人的快速发展,人们期望通过对话的方式让机器人在复杂环境中完成各种作业任务。用自然语言与机器进行通信,这是人们长期以来所追求的:人们可以用自己最习惯的语言来使操作机器人,而无需再花大量的时间和精力去学习各种复杂的计算机语言。
在这个过程中,就需要智能机器人***理解自然语言,了解用户期望,并且具有一种推理机制对实时问题进行推理、求解和学习。目前的研究成果中,具有代表性的推理机制有基于规则推理(Rule-Based Reasoning,RBR)、过程推理(Procedural ReasoningSystem,PRS)以及基于实例推理(case-based reasoning,CBR)。其中,基于规则推理为核心的推理机制在某些领域内难以获取推理规则而没有被广泛使用;基于过程推理机制缩短了推理时间,但也存在一些不足,如规划库的限定,无法对新生成的规划进行学习和存储等;基于实例推理的机制通过访问事例库中的源事例从而获得当前事例的解决方案,具有一定的学习能力,也具有较高的实用性。
但是基于实例推理的推理机制不具有分析能力,无法分析用户不明确的用途并反馈引导,不具有自主性。在此背景下,本方法引入BDI(belief-desire-intention)模型,BDI是一种行为认知架构,其本质是为了解决如何确定智能体的目标和智能体如何实现目标,将基于实例的推理机制与BDI模型结合,既可以增加推理***的自主性,也解决了BDI模型不具有学习能力的缺点。同时,还引入深度对话与三维情景推理过程,将推理与实际场景结合起来,提高了机器人的智能性。
发明内容
本发明要解决的技术问题在于针对现有技术中的缺陷,提供一种基于自然语言的机器人深度交互与推理方法与装置,通过自然语言实现用户与机器人的深度交互与推理,提高机器人的智能性与自主性。
本发明解决其技术问题所采用的技术方案是:一种基于自然语言的机器人深度交互与推理方法,包括以下步骤:
1)语音识别:接收用户语音输入,对输入信号进行处理,得到文本信息;
2)获取案例属性:将步骤1)中获取的文本进行分词处理,然后将分词后的文本与案例库中的案例进行匹配提取当前案例的属性;
所述案例库用于存储根据实际场景预先设计的案例,每一个案例有包括以下基本属性值,包括:案例的属性集合和案例的解决方案;
3)深度对话与三维情景交互:如果根据步骤2)提取当前案例的属性获得的用户意图不完整,则结合Kinect传感器获取的实时地图信息对用户进行多次引导,直至获取完整意图,然后针对用户完整意图的作业任务生成解决方案;
语音合成:推理机将得到的解决方案以文本的形式表示出来,机器以语音的方式发送给用户,采用TTS技术合成语音通过音响设备反馈给用户。
按上述方案,所述步骤1)语音识别过程具体包括如下步骤:
1.1)预处理:通过麦克风阵列采集用户语音信息,对输入的原始语音信号进行处理,滤除掉其中的不重要的信息以及背景噪声,并进行语音信号的端点检测、语音分帧以及预加重处理;
1.2)特征提取:提取出反映语音信号特征的关键特征参数形成特征矢量序列;
1.3)采用隐马尔科夫模型(HMM)进行声学模型建模,在识别的过程中将待识别的语音与声学模型进行匹配,从而获取识别结果;
1.4)对训练文本数据库进行语法、语义分析,经过基于统计模型训练得到N-Gram语言模型,从而提高识别率,减少搜索范围。
1.5)针对输入的语音信号,根据己经训练好的HMM声学模型、语言模型及字典建立一个识别网络,根据搜索算法在该网络中寻找最佳的一条路径,这个路径就是能够以最大概率输出该语音信号的词串,从而确定这个语音样本所包含的文字。
按上述方案,所述步骤2)中提取当前案例的属性是将分词后的文本与案例库中的案例进行基于向量空间模型的文本相似度匹配提取当前案例的属性。
按上述方案,所述步骤2)中案例库的建立采用如下步骤:
根据需求设计对话主题,根据对话主题来设计主题树,主题树分为主题节点,必要属性节点和叶节点,它们之间的关系为叶节点从属与必要属性节点,必要属性节点从属于主题节点,每一个结点都有一个二值的有效状态符,其中叶节点之间为或的关系,必要属性节点之间为与的关系;
根据主题树的节点来写对话生成函数,这些对话生成函数的集合构成引导库;在不同的***状态下,调用该函数会得到不同的应答输出,每个对话生成函数都只负责它所对应结点的应答,在设计和修改时互不影响。
按上述方案,所述步骤2)中获取案例属性过程具体包括如下步骤:
2.1)对步骤1)中获得的文本进行分词处理,即将文本分割成单个词组;
2.2)将分词后的文本与案例库中的案例进行匹配,由于每个案例包含任务的属性集合,当检索到最相似案例时,将提取案例对应的任务属性;
按上述方案,所述步骤3)深度对话与三维情景交互过程具体包括如下步骤:
3.1)当推理机接收到语音信息输入时,机器人根据Kinect传感器获取的地图信息判断用户输入语音,若与当前地图信息不相关,则机器人会进行用户引导;若用户输入与当前地图信息相关,则机器人会将用户输入与案例库中的案例进行匹配,若存在相似案例,则将用户输入信息与Kinect传感器获取的地图信息进行匹配,判断是否能够满足用户期望并反馈给用户;
3.2)通过案例检索和地图匹配之后,推理机就得到了相应任务属性和匹配度,接下来对这些信息进行分析从而得到用户期望,如果计算得到用户期望是完整的则不需要进行进一步引导,转入步骤3.4),如果期望不完整,则需要进行进一步用户引导,转入步骤3.3);
3.3)用XML文件构建一个引导案例库,所述引导库包含了用户期望不完整时针对缺少属性对用户做出的引导方案;将用户期望的每个属性与引导库案例的属性一一比较,相同为1,不同为0,得到的值相加,值最大的为最佳案例,取该引导案例作为引导方案引导用户;直至获取完整的用户期望;
3.4)调用案例库中该完整期望对应的解决方案并与实时三维环境信息匹配后重用,生成一连串可执行动作序列(Intention),从而实现指定的作业任务。
一种基于自然语言的机器人深度交互与推理装置,包括:
点云采集模块,用于将Kinect采集到的地图深度信息和颜色信息经过融合处理后生成三维点云数据(PCD),经过预处理、关键点提取、描述子提取,再通过物体特征数据库进行特征匹配得到三维场景语义地图描述文件;
语音识别模块,用于对麦克风阵列采集的用户输入的语音信号进行降噪处理,并采用MFCC算法进行特征提取,然后结合HMM声学模型和N-gram语言模型,通过语音解码搜索算法将语音信号转化为文本。
深度对话与三维情景交互模块,用于将接收到的文本与案例库中的案例进行检索寻找最相似的案例,结合物体识别节点得到的地图文件进行地图匹配、期望分析和引导,从而完善用户的期望生成解决方案,同时对用户的答复和引导信息以文本的形式发送给语音合成节点;
语音合成模块,使用TTS技术将人机交互时得到的文本通过文本分析、韵律建模和语音合成三个步骤生成相应的语音信号反馈给用户;
案例库,用XML文件构建的用于存储现实中经验的知识库,借鉴人类的经验记忆模式,根据实际场景设计案例,每个案例包含以下基本属性值:属性集合和案例的解决方案。
本发明产生的有益效果是:
1.本发明交互过程中机器人与用户均使用自然语言,机器人能够自主引导用户获得用户完整期望,并与案例库匹配获取解决方案来执行任务。
2.本发明采用一种面向中文语音的深度交互与推理机制,在传统CBR-BDI的基础上增加深度对话与三维情景交互模块,并实现在“用户表达意图与实际场景不匹配”和“用户表达意图不完整”时的交互与推理。由于本方法是通过人机交互来补充意图中的未知属性的,相比于基于常识的推理,本方法会更加准确、灵活和实用;同时推理机制以CBR-BDI为基础,能够利用过去的经验来解决现有问题,而且能对问题进行回馈、能够自主去实现目标,具有较好市场应用前景与发展潜力。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是本发明实施例中机器人深度交互与推理装置的硬件体系架构图;
图2是本发明实施例中机器人深度交互与推理方法程序流程图;
图3是本发明实施例中深度交互与推理机制流程图;
图4是本发明实施例中深度对话与三维情景交互模块推理流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
如图1所示,图1为本发明提出的一种基于自然语言的机器人深度交互与推理方法用于机器人分拣***时的硬件体系架构。由麦克风阵列输入语音通过语音识别模块获取文本信息,文本信息输入人机深度交互推理模块,同时Kinect相机识别获取的地图文件也发送给深度交互与推理模块,通过改进的CBR-BDI推理机制获取完整的用户期望,在地图文件中获取目标的坐标位置,生成解决方案。本发明中使用的***平台为Ubuntu(版本12.04)嵌入式平台。
图2为本发明实施的一种基于自然语言的机器人深度交互与推理方法程序流程图,主要如下:经过语音识别过程将用户信息转化成文本,文本分词后在案例库中进行案例检索,对案例检索得到的案例属性进行分析,若案例属性数量大于0时,进行地图匹配;若案例中初始状态属性数量为0,则代表用户输入无效,需要从引导库中提取引导案例进行引导直至状态属性数量大于0,然后进行地图匹配。若用户期望物体数量与地图中的物体数量匹配,则进行期望分析;若用户期望物体数量与地图中物体数量不匹配,则需要进行引导,直至用户期望物体数量与地图中物体数量匹配为止。最后将案例的属性和地图匹配的值添加到用户期望做期望分析,分析期望是否完整,若当前案例获取属性值中所有必要属性都不为空,则期望完整,否则期望不完整;(期望是否完整通过当前案例获得的属性是否包括匹配案例的全部属性来判断),若期望不完整,则需要进一步引导,直至期望完整为止;若期望完整,则提取所需要的信息生成解决方案,也就是用户意图。
图3基于自然语言的机器人深度交互与推理方法流程图,主要包括语音识别、案例存储、获取案例属性、深度对话与三维情景交互和语音合成五个部分。
本发明具体的实施方法如下所示:
S1:语音识别
S11:用户通过麦克风阵列输入语音信息,对输入的原始语音信号进行处理,滤除掉其中的不重要的信息以及背景噪声,并进行语音信号的端点检测、语音分帧及预加重处理。
S12:采用Mel频率倒谱系数(MFCC)算法进行语音信号特征提取。使用MFCC特征,用帧去分割语音波形,每帧大概10ms,然后每帧提取可以代表该帧语音的39个数字,这39个数字也就是该帧语音的MFCC特征,用特征向量来表示。
S13:采用隐马尔可夫模型(HMM)进行声学模型建模。对语音信号的时间序列结构建立统计模型,用具有有限状态数的Markov链来模拟语音信号统计特性变化。
S14:采用N-Gram模型进行语言模型建模,来描述词与词之间的关系。本技术方案使用CMU提供的训练工具CMUCLMTK来得到N-gram语言模型。
S15:采用基于动态规划的Viterbi算法在每个时间点上的各个状态,计算解码状态序列对观察序列的后验概率,保留概率最大的路径,并在每个节点记录下相应的状态信息以便最后反向获取词解码序列。
S2:案例存储
本技术方案中案例库采用XML文件形式存储,案例库中有根据实际场景设计的1~n个案例,每一个案例有两个基本属性值,包括:案例的属性集合,案例的解决方案(机器人一系列动作序列),经过和环境交互与推理后产生的最终属性集合。
对每一个新生成的案例而言,通过相似性匹配会得到一个初始属性集合,初始属性集合会随着交互推理过程不断变化,当最终产生完整意图之后,将最终状态存储在最终属性集合中。
本设计方案中案例分为询问主题和分拣主题,案例的属性集合包括:物体数量、物体名称、物体的位置、物体颜色、物体大小、物体放置的目的地的名称。例如案例:“抓取一个红色大苹果放在左边篮子里”,其属性分配为:物体数量:“一个”;物体名称:“苹果”;物***置为空;物体颜色:“红色”;物体大小:“大”;物体放置的目的地名称:“左边篮子”。
S3:获取案例属性
S31:将S1中获取的文本利用分词器进行分词。例1:用户输入语音转化的文本为:“抓取一个苹果”,分词器分词后,结果为:“抓取/一个/苹果/”。
S32:将分词后每个词与案例库进行匹配,如果没有检索到相似案例,则建立新案例;如果检索到相似案例,则返回相似案例:,并计算初始案例属性数量。例2:案例:“抓取一个苹果”,案例初始属性有:物体数量和物体名称,则初始案例属性数量值为2。当初始案例属性数量大于0,则进行地图匹配;当初始案例属性数量等于0,则输入无效,机器人主动进行引导。
S4:深度对话与三维情景交互,其具体流程如图4所示:
S41:地图匹配;
S411:***需要通过三维视觉环境感知获取高质量的作业环境语义地图信息。本设计方案通过Kinect提取3D点云图像并建立CSHOT物体模型用于场景中的特征匹配。调用点云库(PCL),采用基于局部表面特征描述符的方法对普通的日常刚性物体实现实时的物体识别与理解。通过区域增长分割算法实现物体的检测,提取场景的ISS特征点;在关键点处计算CSHOT特征描述向量;通过基于距离阈值的3D特征匹配生成候选模型;通过随机采样一致性算法生成转变假设,通过迭代最近点算法对假设进行验证,产生一个与场景保持全局一致性的解决方案并通过坐标转换将物体的坐标信息转换至机器人坐标系。将获取物体的标识和几何信息写入XML语义地图文件。
XML地图文件物体的属性包括:场景地图中的物体的编号;物体的名称,如苹果,橘子等等;物体的颜色;物体的形状,如圆柱型、立方体等;物体的大小即长*宽*高、π*(底面半径)2*高等。
S412:寻找XML地图中是否有用户期望的物体,并统计其数量,计算用户的期望物体数量与地图的匹配的情况。这里会出现四种匹配情况:(1)场景中没有符合要求的物体;(2)场景中该物体数量少于用户期望的数量;(3)场景中两者数量正好相等;(4)场景中该物体数量多于用户期望的数量。
S42:期望分析
当出现S412中情况(3)时说明用户的期望是有效且确定的,此时可以进行下一步的期望分析,对于出现S412中情况(1)(2)(4)是则需要采用S43中的方法进行用户引导。
进行期望分析时,将案例的属性和地图匹配的值添加到用户期望做期望分析,期望完整可以进行案例重用并产生意图,即机器人动作序列,否则期望不完整需调用引导案例库进行引导。
例3:地图文件中有一个红色大苹果,用户对机器人说:“抓取一个苹果”,进行地图匹配是对应的情况为:场景中物体数量和用户要求数量相等,但是进行期望分析时候,物体放置的目的地名称属性值为空,则期望不完整,需要采用S43中的方法进行用户引导。
S43:用户引导
当用户期望分析得到的期望不完整时,要进行用户引导。案例存储中每一个属性结点都有一个对话生成函数与之对应,这些对话生成函数的集合构成引导库。例3中,期望不完整,此时检索引导库,机器人根据缺省属性会询问用户:“请问要放到哪个篮子里”,再根据用户反馈的信息,补全案例属性。
S44:案例重用及完整意图生成
当不完整的意图通过一次或多次引导,产生完整的期望(必要属性都不为空,并不是所有属性都要求有值),调用案例库中该完整期望对应的解决方案并与实时三维环境信息匹配后重用,生成一连串可执行动作序列,从而实现指定的作业任务。
S5:语音合成
S51:文本分析
将输入的文本规范化,并处理用户可能的拼接错误,将出现的不规范或无法发音的字符过滤掉。分析文本中的词或短语的边界,确定文字的读音,同时分析文本中出现的数字、姓氏、特殊字符以及各种多音字的读音方式。确定发音时的语气变换机不同音的轻重方式。最终,将输入的文字转换成计算机能够处理的内部参数,便于后续模块进一步处理并生成相应的信息。
S52:韵律建模
为合成语音规划出音段特征,韵律参数包括了基频、音长、音强,使合成语音能正确表达语意,听起来更加自然。
S53:语音合成
根据韵律建模的结果,采用基音同步叠加法PSOLA将文本转换成语音输出。把处理好的文本所对应的单字或短语的语音基元从语音合成库中提取,利用特定的语音合成技术对语音基元进行韵律特性的调整和修改,最终合成出符合要求的语音,通过音响设备反馈给用户。
应当理解的是,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims (5)

1.一种基于自然语言的机器人深度交互与推理方法,其特征在于,包括以下步骤:
1)语音识别:接收用户语音输入,对输入信号进行处理,得到文本信息;
2)获取案例属性:将步骤1)中获取的文本进行分词处理,然后将分词后的文本与案例库中的案例进行基于向量空间模型的文本相似度匹配提取案例的属性;
所述案例库用于存储根据实际场景预先设计的案例,每一个案例有三个基本属性值,包括:案例的最初属性集合,案例的解决方案,经过和环境交互与推理后产生的最终属性集合;
3)深度对话与三维情景交互:如果根据步骤2)提取案例的属性获得的用户意图不完整,则结合Kinect传感器获取的实时地图文件对用户进行多次引导,直至获取完整意图,然后针对用户完整意图的作业任务生成解决方案;
所述步骤3)深度对话与三维情景交互过程具体包括如下步骤:
3.1)当推理机接收到语音信息输入时,机器人根据Kinect传感器获取的地图信息判断用户输入语音,若与当前地图信息不相关,则机器人会进行用户引导;若用户输入与当前地图信息相关,则机器人会将用户输入与案例库中的案例进行匹配,若存在相似案例,则将用户输入信息与Kinect传感器获取的地图信息进行匹配,判断是否能够满足用户期望并反馈给用户;
3.2)通过案例检索和地图匹配之后,推理机就得到了相应任务属性和匹配度,接下来对这些信息进行分析从而得到用户期望,如果计算得到用户期望是完整的则不需要进行进一步引导,转入步骤3.4),如果期望不完整,则需要进行进一步用户引导,转入步骤3.3);
3.3)用XML文件构建一个引导案例库,所述引导库包含了用户期望不完整时针对缺少属性对用户做出的引导方案;将用户期望的每个属性与引导案例库案例的属性一一比较,相同为1,不同为0,得到的值相加,值最大的为最佳案例,取该引导案例作为引导方案引导用户;直至获取完整的用户期望;
3.4)调用案例库中该完整期望对应的解决方案并与实时三维环境信息匹配后重用,生成一连串可执行动作序列,从而实现指定的作业任务;
语音合成:推理机将得到的解决方案以文本的形式表示出来,以语音的方式发送给用户。
2.根据权利要求1所述的基于自然语言的机器人深度交互与推理方法,其特征在于,所述步骤1)语音识别过程具体包括如下步骤:
1.1)预处理:通过麦克风阵列采集用户语音信息,对输入的原始语音信号进行处理,滤除掉其中的不重要的信息以及背景噪声,并进行语音信号的端点检测、语音分帧以及预加重处理;
1.2)特征提取:提取出反映语音信号特征的关键特征参数形成特征矢量序列;
1.3)采用隐马尔科夫模型进行声学模型建模,在识别的过程中将待识别的语音与声学模型进行匹配,从而获取识别结果;
1.4)对训练文本数据库进行语法、语义分析,经过基于统计模型训练得到N-Gram语言模型,从而提高识别率,减少搜索范围;
1.5)针对输入的语音信号,根据己经训练好的HMM声学模型、语言模型及字典建立一个识别网络,根据搜索算法在该网络中寻找最佳的一条路径,这个路径就是能够以最大概率输出该语音信号的词串,从而确定这个语音样本所包含的文字。
3.根据权利要求1所述的基于自然语言的机器人深度交互与推理方法,其特征在于,所述步骤2)中案例库的建立采用如下步骤:
根据需求设计对话主题,根据对话主题来设计主题树,主题树分为主题节点,必要属性节点和叶节点,每一个结点都有一个二值的有效状态符;
根据主题树的节点来写对话生成函数,这些对话生成函数的集合构成引导库;在不同的***状态下,调用该函数会得到不同的应答输出,每个对话生成函数都只负责它所对应结点的应答,在设计和修改时互不影响。
4.根据权利要求1所述的基于自然语言的机器人深度交互与推理方法,其特征在于,所述步骤2)中获取案例属性过程具体包括如下步骤:
2.1)对步骤1)中获得的文本进行分词处理,即将文本分割成单个词组;
2.2)将分词后的文本与案例库中的案例进行匹配,由于每个案例包含问题的特征和相应任务属性,当检索到最相似案例时,将提取案例对应的任务属性。
5.一种基于自然语言的机器人深度交互与推理装置,其特征在于,包括:
点云采集模块,用于将Kinect采集到的地图深度信息和颜色信息经过融合处理后生成三维点云数据,经过预处理、关键点提取、描述子提取,再通过物体特征数据库进行特征匹配得到三维场景语义地图描述文件;
语音识别模块,用于对麦克风阵列采集的用户输入的语音信号进行降噪处理,并采用MFCC算法进行特征提取,然后结合HMM声学模型和N-gram语言模型,通过语音解码搜索算法将语音信号转化为文本;
深度对话与三维情景交互模块,用于将接收到的文本与案例库中的案例进行检索寻找最相似的案例,结合物体识别节点得到的地图文件进行地图匹配、期望分析和引导,从而完善用户的期望生成解决方案,同时对用户的答复和引导信息以文本的形式发送给语音合成节点;
语音合成模块,使用TTS技术将人机交互时得到的文本通过文本分析、韵律建模和语音合成三个步骤生成相应的语音信号反馈给用户;
案例库,用于存储根据实际场景预先设计的案例,所述案例包含以下基本属性值:属性集合和案例的解决方案。
CN201610302605.5A 2016-05-09 2016-05-09 一种基于自然语言的机器人深度交互与推理方法与装置 Active CN106056207B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610302605.5A CN106056207B (zh) 2016-05-09 2016-05-09 一种基于自然语言的机器人深度交互与推理方法与装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610302605.5A CN106056207B (zh) 2016-05-09 2016-05-09 一种基于自然语言的机器人深度交互与推理方法与装置

Publications (2)

Publication Number Publication Date
CN106056207A CN106056207A (zh) 2016-10-26
CN106056207B true CN106056207B (zh) 2018-10-23

Family

ID=57176186

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610302605.5A Active CN106056207B (zh) 2016-05-09 2016-05-09 一种基于自然语言的机器人深度交互与推理方法与装置

Country Status (1)

Country Link
CN (1) CN106056207B (zh)

Families Citing this family (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6439806B2 (ja) * 2017-01-11 2018-12-19 富士ゼロックス株式会社 ロボット装置及びプログラム
CN106847271A (zh) * 2016-12-12 2017-06-13 北京光年无限科技有限公司 一种用于对话交互***的数据处理方法及装置
CN107066444B (zh) * 2017-03-27 2020-11-03 上海奔影网络科技有限公司 基于多轮交互的语料生成方法和装置
CN106997243B (zh) * 2017-03-28 2019-11-08 北京光年无限科技有限公司 基于智能机器人的演讲场景监控方法及装置
CN107423398B (zh) * 2017-07-26 2023-04-18 腾讯科技(上海)有限公司 交互方法、装置、存储介质和计算机设备
CN109522531B (zh) * 2017-09-18 2023-04-07 腾讯科技(北京)有限公司 文案生成方法和装置、存储介质及电子装置
CN107622523B (zh) * 2017-09-21 2018-08-21 石器时代(内蒙古)智能机器人科技有限公司 一种智能机器人
CN107919126A (zh) * 2017-11-24 2018-04-17 合肥博焱智能科技有限公司 一种智能语音交互***
CN108009285B (zh) * 2017-12-22 2019-04-26 重庆邮电大学 基于自然语言处理的林业生态环境人机交互方法
CN107993651B (zh) * 2017-12-29 2021-01-19 深圳和而泰数据资源与云技术有限公司 一种语音识别方法、装置、电子设备及存储介质
CN108114469A (zh) * 2018-01-29 2018-06-05 北京神州泰岳软件股份有限公司 基于对话的游戏交互方法、装置、终端及游戏交互模型
CN110399471A (zh) * 2018-04-25 2019-11-01 北京快乐智慧科技有限责任公司 一种引导式情景对话方法和***
CN111755009A (zh) * 2018-06-26 2020-10-09 苏州思必驰信息科技有限公司 语音服务方法、***、电子设备及存储介质
CN110750626B (zh) * 2018-07-06 2022-05-06 ***通信有限公司研究院 一种基于场景的任务驱动的多轮对话方法及***
CN109063840A (zh) * 2018-07-10 2018-12-21 广州极天信息技术股份有限公司 一种交互式动态推理方法及装置
CN110853674A (zh) * 2018-07-24 2020-02-28 中兴通讯股份有限公司 文本核对方法、设备以及计算机可读存储介质
CN109119064A (zh) * 2018-09-05 2019-01-01 东南大学 一种适用于翻转课堂的英语口语教学***的实现方法
CN109243451A (zh) * 2018-10-22 2019-01-18 武汉科技大学 一种基于机器人语音交互的网络销售方法及***
CN109766072B (zh) * 2018-12-17 2022-02-01 深圳壹账通智能科技有限公司 信息校验输入方法、装置、计算机设备和存储介质
CN109724603A (zh) * 2019-01-08 2019-05-07 北京航空航天大学 一种基于环境特征检测的室内机器人导航方法
CN110047480A (zh) * 2019-04-22 2019-07-23 哈尔滨理工大学 用于社区医院科室查询的辅助管理机器人头部装置及控制
CN110096707B (zh) * 2019-04-29 2020-09-29 北京三快在线科技有限公司 生成自然语言的方法、装置、设备及可读存储介质
CN111935348A (zh) * 2019-05-13 2020-11-13 阿里巴巴集团控股有限公司 提供通话处理服务的方法和装置
CN113366467A (zh) * 2019-06-26 2021-09-07 深圳市欢太科技有限公司 信息推荐方法、装置、电子设备以及存储介质
CN110310620B (zh) * 2019-07-23 2021-07-13 苏州派维斯信息科技有限公司 基于原生发音强化学习的语音融合方法
CN110784603A (zh) * 2019-10-18 2020-02-11 深圳供电局有限公司 一种离线质检用智能语音分析方法及***
CN110955675B (zh) * 2019-10-30 2023-12-19 ***股份有限公司 机器人对话方法、装置、设备及计算机可读存储介质
CN110928302A (zh) * 2019-11-29 2020-03-27 华中科技大学 一种人机协同自然语言空间导航方法及***
CN110956958A (zh) * 2019-12-04 2020-04-03 深圳追一科技有限公司 搜索方法、装置、终端设备及存储介质
CN112233666A (zh) * 2020-10-22 2021-01-15 中国科学院信息工程研究所 一种云存储环境下中文语音密文存储、检索方法及***
CN112100338B (zh) * 2020-11-02 2022-02-25 北京淇瑀信息科技有限公司 一种智能机器人的对话主题扩展方法、装置和***
CN112435658A (zh) * 2020-12-18 2021-03-02 中国南方电网有限责任公司 一种基于语料库的自然语言处理对话交流的人机交互***
CN112732743B (zh) * 2021-01-12 2023-09-22 北京久其软件股份有限公司 一种基于中文自然语言的数据分析方法及装置
CN113034592B (zh) * 2021-03-08 2021-08-31 西安电子科技大学 基于自然语言描述的三维场景目标检测建模及检测方法
CN114265920B (zh) * 2021-12-27 2022-07-01 北京易聊科技有限公司 一种基于信号和场景的智能机器人对话方法及***
CN115527538B (zh) * 2022-11-30 2023-04-07 广汽埃安新能源汽车股份有限公司 对话语音生成方法、装置
CN116804691B (zh) * 2023-06-28 2024-02-13 国网安徽省电力有限公司青阳县供电公司 一种用于电力***的调度自动化设备故障监测方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101510222A (zh) * 2009-02-20 2009-08-19 北京大学 一种多层索引语音文档检索方法及其***
CN101551947A (zh) * 2008-06-11 2009-10-07 俞凯 辅助口语语言学习的计算机***
CN101604204A (zh) * 2009-07-09 2009-12-16 北京科技大学 智能情感机器人分布式认知技术

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101551947A (zh) * 2008-06-11 2009-10-07 俞凯 辅助口语语言学习的计算机***
CN101510222A (zh) * 2009-02-20 2009-08-19 北京大学 一种多层索引语音文档检索方法及其***
CN101604204A (zh) * 2009-07-09 2009-12-16 北京科技大学 智能情感机器人分布式认知技术

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
《基于语音识别与文字理解的导购机器人设计与实现》;程志强;《中国优秀硕士论文全文数据库,信息科技辑》;20150331;第I140-462页 *

Also Published As

Publication number Publication date
CN106056207A (zh) 2016-10-26

Similar Documents

Publication Publication Date Title
CN106056207B (zh) 一种基于自然语言的机器人深度交互与推理方法与装置
US20180203946A1 (en) Computer generated emulation of a subject
CN112037754B (zh) 一种语音合成训练数据的生成方法及相关设备
CN107851434A (zh) 使用自适应增量学习方法的语音识别***和方法
CN115329779B (zh) 一种多人对话情感识别方法
CN106971709A (zh) 统计参数模型建立方法和装置、语音合成方法和装置
CN116863038A (zh) 一种文本生成数字人语音及面部动画的方法
Bhosale et al. End-to-End Spoken Language Understanding: Bootstrapping in Low Resource Scenarios.
KR20200084443A (ko) 음성 변조 시스템 및 방법
CN104538025A (zh) 手势到汉藏双语语音转换方法及装置
CN111653270A (zh) 语音处理方法、装置、计算机可读存储介质及电子设备
Basak et al. Challenges and Limitations in Speech Recognition Technology: A Critical Review of Speech Signal Processing Algorithms, Tools and Systems.
Ling An acoustic model for English speech recognition based on deep learning
Vlasenko et al. Fusion of acoustic and linguistic information using supervised autoencoder for improved emotion recognition
Bharti et al. Automated speech to sign language conversion using Google API and NLP
Asadiabadi et al. Multimodal speech driven facial shape animation using deep neural networks
CN107123420A (zh) 一种语音识别***及其交互方法
CN108629024A (zh) 一种基于声音识别的教学考勤方法
CN115731917A (zh) 语音数据处理方法、模型训练方法、装置及存储介质
CN113257225A (zh) 一种融合词汇及音素发音特征的情感语音合成方法及***
Mahavidyalaya Phoneme and viseme based approach for lip synchronization
CN113538645A (zh) 一种用于虚拟形象的肢体动作与语言因素匹配方法及装置
CN115424616A (zh) 一种音频数据筛选方法、装置、设备及计算机可读介质
Zainkó et al. Adaptation of Tacotron2-based Text-To-Speech for Articulatory-to-Acoustic Mapping using Ultrasound Tongue Imaging
CN110910904A (zh) 一种建立语音情感识别模型的方法及语音情感识别方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant