CN111274367A - 语意分析方法、语意分析***及非暂态计算机可读取媒体 - Google Patents

语意分析方法、语意分析***及非暂态计算机可读取媒体 Download PDF

Info

Publication number
CN111274367A
CN111274367A CN201811422249.6A CN201811422249A CN111274367A CN 111274367 A CN111274367 A CN 111274367A CN 201811422249 A CN201811422249 A CN 201811422249A CN 111274367 A CN111274367 A CN 111274367A
Authority
CN
China
Prior art keywords
vocabulary
vector
generate
semantic analysis
feature vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811422249.6A
Other languages
English (en)
Inventor
邱育贤
杨伟桢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute for Information Industry
Original Assignee
Institute for Information Industry
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute for Information Industry filed Critical Institute for Information Industry
Publication of CN111274367A publication Critical patent/CN111274367A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • G10L15/05Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

一种语意分析方法、语意分析***及非暂态计算机可读取媒体。语意分析方法包括:输入语音并辨识语音以产生输入语句;其中输入语句包含多个词汇;根据每一词汇对应的词性从词汇中选择至少一关键词汇;根据输入语句建立剖析树,并根据剖析树以及至少一关键词汇找出多个关联子句;计算关联子句之间的关联特征向量;组合关联特征向量与每一词汇对应的词汇向量,以产生每一词汇对应的词汇特征向量;以及利用语意分析模型分析词汇特征向量以产生分析结果;其中,分析结果包含每一词汇对应的属性分类以及输入语句对应的意图。借此,达到提升自然语言理解技术准确率的功能。

Description

语意分析方法、语意分析***及非暂态计算机可读取媒体
技术领域
本案是有关于一种语意分析方法、语意分析***以及非暂态计算机可读取媒体,且特别是有关于一种用以分析自然语言意图的语意分析方法、语意分析***及非暂态计算机可读取媒体。
背景技术
近年来自然语言理解技术(Natural language understanding,NLU)的发展已逐渐成熟(例如:***的语音辨识或Siri),使用者在操作移动装置或个人计算机等电子产品时,也越来越常使用语音输入或语音控制的功能,然而,以往进行自然语言理解技术时通常是利用标记数据或关键信息进行类神经网络的训练,但通常也耗费时间过大以及准确率的问题。因此,如何让自然语言理解技术在不花费过多处理时间的情况下,增加自然语言分析的准确率,为本领域待改进的问题之一。
发明内容
本发明的主要目的是提供一种语意分析方法、语意分析***以及非暂态计算机可读取媒体,其利用词汇的词性以及关联剖析找出关键词汇以及关联子句,达到提升自然语言理解技术准确率的功能。
为达成上述目的,本案的第一态样是提供一种语意分析方法,此方法包含以下步骤:输入语音并辨识语音以产生输入语句;其中输入语句包含多个词汇,每一词汇具有对应的词汇向量;根据每一词汇对应的词性从词汇中选择至少一关键词汇;根据输入语句的词汇建立剖析树,并根据剖析树以及至少一关键词汇找出多个关联子句;其中,每一关联子句包含部分的词汇;计算关联子句之间的关联特征向量;串接关联特征向量与每一词汇对应的词汇向量,以产生每一词汇对应的词汇特征向量;以及利用语意分析模型分析词汇特征向量以产生分析结果;其中,分析结果包含每一词汇对应的属性分类以及输入语句对应的意图。
根据本案一实施例,还包含:利用所述多个词汇、每一该词汇对应的词汇向量以及该关联特征向量作为训练数据,以产生该语意分析模型。
根据本案一实施例,还包含:将该输入语句进行断词处理以产生一词汇集合;其中,该词汇集合包含所述多个词汇。
根据本案一实施例,每一该关联子句包含该至少一关键词汇的一部分。
根据本案一实施例,计算所述多个关联子句之间的该关联特征向量,还包含:利用每一该关联子句的部分的所述词汇对应的词汇向量进行N元语法计算以产生多个第一N元语法特征;根据所述多个第一N元语法特征进行一特征计算以产生一特征向量;以及根据该特征向量进行一权重计算,以产生该关联特征向量。
根据本案一实施例,计算所述多个关联子句之间的该关联特征向量,还包含:利用所述多个词汇对应的词汇向量进行N元语法计算以产生多个第一N元语法特征;利用每一该关联子句的部分的所述词汇对应的词汇向量进行N元语法计算以产生多个第二N元语法特征;将所述多个第一N元语法特征以及所述多个第二N元语法特征分别进行一特征计算以产生一第一特征向量以及一第二特征向量;以及根据该第二特征向量进行一权重计算以产生一加权向量,将该第一特征向量与该加权向量串接,以产生该关联特征向量。
根据本案一实施例,该权重计算是利用所述多个关联子句中的该至少一关键词汇的数量决定一权重值。
本案的第二态样是提供一种语意分析***,其包含:音频接收器、处理器以及储存装置。音频接收器用以接收语音。处理器与音频接收器电性连接。储存装置用以储存输入语句以及语意分析模型。处理器包含:语音辨识元件、关键词汇选择元件、关联子句产生元件、特征向量计算元件、词汇向量产生元件以及分析结果产生元件。语音辨识元件用以辨识语音以产生输入语句;其中输入语句包含多个词汇,每一词汇具有对应的词汇向量。关键词汇选择元件与语音辨识元件电性连接,用以根据每一词汇对应的词性从词汇中选择至少一关键词汇。关联子句产生元件与关键词汇选择元件电性连接,用以根据输入语句的词汇建立剖析树,并根据剖析树以及至少一关键词汇找出多个关联子句;其中,每一关联子句包含部分的词汇。特征向量计算元件与关联子句产生元件电性连接,用以计算关联子句之间的关联特征向量。词汇向量产生元件与特征向量计算元件电性连接,用以串接关联特征向量与每一词汇对应的词汇向量,以产生每一词汇对应的词汇特征向量。分析结果产生元件与词汇向量产生元件电性连接,利用语意分析模型分析词汇特征向量以产生分析结果;其中,分析结果包含每一词汇对应的属性分类以及输入语句对应的意图。
根据本案一实施例,还包含:一分析模型建立元件,与该词汇向量产生元件与该分析结果产生元件电性连接,用以利用所述多个词汇、每一该词汇对应的词汇向量以及该关联特征向量作为训练数据,以产生该语意分析模型。
根据本案一实施例,还包含:一断词处理元件,与该语音辨识元件与该关键词汇选择元件电性连接,用以将该输入语句进行断词处理以产生一词汇集合;其中,该词汇集合包含所述多个词汇。
根据本案一实施例,每一该关联子句包含该至少一关键词汇的一部分。
根据本案一实施例,该特征向量计算元件更用以利用每一该关联子句的部分的所述词汇对应的词汇向量进行N元语法计算以产生多个第一N元语法特征,根据所述多个第一N元语法特征进行一特征计算以产生一特征向量,且根据该特征向量进行一权重计算,以产生该关联特征向量。
根据本案一实施例,该特征向量计算元件更用以利用所述多个词汇对应的词汇向量进行N元语法计算以产生多个第一N元语法特征,利用每一该关联子句的部分的所述词汇对应的词汇向量进行N元语法计算以产生多个第二N元语法特征,将所述多个第一N元语法特征以及所述多个第二N元语法特征分别进行一特征计算以产生一第一特征向量以及一第二特征向量,根据该第二特征向量进行一权重计算以产生一加权向量,且将该第一特征向量与该加权向量串接,以产生该关联特征向量。
根据本案一实施例,该权重计算是利用所述多个关联子句中的该至少一关键词汇的数量决定一权重值。
本案的第三态样是提供一种非暂态计算机可读取媒体包含至少一指令程序,由处理器执行至少一指令程序以实行语意分析方法,其包含以下步骤:输入语音并辨识语音以产生输入语句;其中输入语句包含多个词汇,每一词汇具有对应的词汇向量;根据每一词汇对应的词性从词汇中选择至少一关键词汇;根据输入语句的词汇建立剖析树,并根据剖析树以及至少一关键词汇找出多个关联子句;其中,每一关联子句包含部分的词汇;计算关联子句之间的关联特征向量;串接关联特征向量与每一词汇对应的词汇向量,以产生每一词汇对应的词汇特征向量;以及利用语意分析模型分析词汇特征向量以产生分析结果;其中,分析结果包含每一词汇对应的属性分类以及输入语句对应的意图。
本发明的语意分析方法、语意分析***及非暂态计算机可读取媒体,其利用词汇的词性以及关联剖析找出关键词汇以及关联子句,再利用N元语法计算特征向量后,根据语意分析模型计算出输入语句对应的意图以及每一词汇对应的属性分类,达到提升自然语言理解技术准确率的功能。
附图说明
为让本发明的上述和其他目的、特征、优点与实施例能更明显易懂,所附附图的说明如下:
图1是根据本案的一些实施例所绘示的语意分析***的示意图;
图2是根据本案的一些实施例所绘示的处理器的示意图;
图3是根据本案的一些实施例所绘示的语意分析方法的流程图;
图4是根据本案的一些实施例所绘示的剖析树的示意图;
图5是根据本案的一些实施例所绘示的步骤S350的流程图;以及
图6是根据本案的一些实施例所绘示的步骤S350的流程图。
具体实施方式
以下揭示提供许多不同实施例或例证用以实施本发明的不同特征。特殊例证中的元件及配置在以下讨论中被用来简化本揭示。所讨论的任何例证只用来作为解说的用途,并不会以任何方式限制本发明或其例证的范围和意义。此外,本揭示在不同例证中可能重复引用数字符号且/或字母,这些重复皆为了简化及阐述,其本身并未指定以下讨论中不同实施例且/或配置之间的关系。
请参阅图1。图1是根据本案的一些实施例所绘示的语意分析***100的示意图。如图1所绘示,语意分析***100包含音频接收器110、处理器120以及储存装置130。处理器120电性连接至音频接收器110以及储存装置130,音频接收器110用以接收语音,储存装置130用以储存输入语句以及语意分析模型DB。处理器120用以针对输入语句进行语意分析,并计算出输入语句的词汇对应的属性分类以及输入语句的意图。
于本发明各实施例中,音频接收器110可以实施为麦克风或是音频收发器等装置。处理器120可以实施为集成电路如微控制单元(microcontroller)、微处理器(microprocessor)、数字信号处理器(digital signal processor)、特殊应用集成电路(application specific integrated circuit,ASIC)、逻辑电路或其他类似元件或上述元件的组合。储存装置130可以实施为记忆体、硬盘、随身盘、记忆卡等,本揭露不以此为限。
请参阅图2。图2是根据本案的一些实施例所绘示的处理器120的示意图。处理器120包含语音辨识元件121、关键词汇选择元件122、关联子句产生元件123、特征向量计算元件124、词汇向量产生元件125、分析结果产生元件126、分析模型建立元件127以及断词处理元件128。关键词汇选择元件122与语音辨识元件121以及关联子句产生元件123电性连接,断词处理元件128与关键词汇选择元件122以及语音辨识元件121电性连接,特征向量计算元件124与关联子句产生元件123以及词汇向量产生元件125电性连接,词汇向量产生元件125与分析结果产生元件126电性连接,并且分析模型建立元件127与词汇向量产生元件125以及分析结果产生元件126电性连接。
请参阅图3。图3是根据本案的一些实施例所绘示的语意分析方法300的流程图。于一实施例中,图3所示的语意分析方法300可以应用于图1的语意分析***100上,处理器120根据下列语意分析方法300所描述的步骤对输入语句进行语意分析,并计算出输入语句的词汇对应的属性分类以及输入语句的意图。
语意分析方法300首先执行步骤S310输入语音并辨识语音以产生输入语句,以及步骤S320将输入语句进行断词处理以产生词汇集合。于一实施例中,词汇集合包含多个词汇,每一个词汇具有对应的词汇向量。举例而言,输入语句为「我想要看搭配学生方案的Samsung手机」,经由断词处理后输入语句可以分成词汇V1(即「我」)、词汇V2(即「想要」)、词汇V3(即「看」)、词汇V4(即「搭配」)、词汇V5(即「学生方案」)、词汇V6(即「的」)、词汇V7(即「Samsung」)及词汇V8(即「手机」),上述断词处理后的8个词汇可以形成词汇集合。
接着,每个词汇都具有对应的词汇向量,举例而言,词汇V1对应的词汇向量是(1,2,1),词汇V2对应的词汇向量是(1,0,9),词汇V3对应的词汇向量是(2,3,4),词汇V4对应的词汇向量是(2,6,7),词汇V5对应的词汇向量是(5,4,3),词汇V6对应的词汇向量是(7,8,9),词汇V7对应的词汇向量是(1,7,8),词汇V8对应的词汇向量是(3,0,4)。
接着,语意分析方法300执行步骤S330根据每一词汇对应的词性从词汇中选择至少一关键词汇。值得注意义的是,一般名词与专有名词通常是自然语言中比较重要的词汇,因此至少一关键词汇通常都是词汇的一部分,于上述的实施例中,词汇V7、词汇V6以及词汇V4是此范例中的关键词汇。
接着,语意分析方法300执行步骤S340根据输入语句的词汇建立剖析树,并根据剖析树以及至少一关键词汇找出多个关联子句。其中,每一关联子句包含部分的词汇。请一并参考图4,图4是根据本案的一些实施例所绘示的剖析树的示意图。如图4所示的实施例,利用词汇V1、词汇V2、词汇V3、词汇V4、词汇V5、词汇V6、词汇V7及词汇V8建立剖析树。在本实施例中,剖析树可以利用中央研究院提供的中文句结构树数据库(Sinica Treebank)建立,本揭露不以此为限。剖析树建立完毕后,分别将词汇V4、词汇V6及词汇V7三个关键词汇作为起始点,回推到根部R,经过的词汇将形成为关联子句。举例而言,从词汇V4开始经由路径P1会经过词汇V3及词汇V1,因此词汇V1、词汇V3及词汇V4将作为第一个关联子句。接着从词汇V6开始经由路径P2会经过词汇V4、词汇V3及词汇V1,因此词汇V1、词汇V3、词汇V4及词汇V6将作为第二个关联子句。接着从词汇V7开始经由路径P3会经过词汇V5、词汇V4、词汇V3及词汇V1,因此词汇V1、词汇V3、词汇V4、词汇V5及词汇V7将作为第三个关联子句。在此实施例中,由于关键词汇有三个因此会形成三个关联子句,由此可知,关联子句的数量与关键词汇有关。而三个关联子句中的词汇都来自于词汇集合中的部分词汇,并且每一关联子句也会包含至少一关键词汇的一部分。
接着,语意分析方法300进一步执行步骤S350计算关联子句之间的关联特征向量。步骤S350还包含步骤S351a~S353a。请一并参考图5,图5是根据本案的一些实施例所绘示的步骤S350的流程图。语意分析方法300进一步执行步骤S351a利用每一关联子句的部分的词汇对应的词汇向量进行N元语法(N-gram)计算以产生多个第一N元语法特征。举例而言,请一并参考表一及表二,第一个关联子句的词汇向量如表一所示,首先进行二元语法计算,利用2×1大小的矩阵针对词汇V1、词汇V3以及词汇V4对应的词汇向量进行卷积(Convolution)运算,因此可以得出表二所示第一关联子句的二元语法计算结果。举例而言,如果2×1大小的矩阵为[1,2]T,利用此矩阵对第1栏的行向量(1,2)进行卷积运算计算出的结果为5,再利用此矩阵对第1栏的行向量(2,2)进行卷积运算计算出的结果为6。其余第2栏以及第3栏的行向量计算与上述相同,在此不再赘述。
表一:第一个关联子句的词汇向量
Figure BDA0001880744900000071
表二:第一个关联子句的二元语法计算结果
第1栏 第2栏 第3栏
5 8 9
6 15 18
接着,再进行三元语法计算,利用3×1大小的矩阵针对词汇V1、词汇V3以及词汇V4对应的词汇向量进行卷积(Convolution)运算,因此可以得出表三所示第一个关联子句的三元语法计算结果。举例而言,如果3×1大小的矩阵为[1,1,1]T,利用此矩阵对第1栏的行向量(1,2,2)进行卷积运算计算出的结果为5。其余第2栏以及第3栏的行向量计算与上述相同,在此不再赘述。第一N元语法特征即为第一个关联子句的二元语法计算结果以及三元语法计算结果,在此实施例中仅以二元语法以及三元语法的计算作为范例,也可以使用四元语法或五元语法,本揭露不限于此。
表三:第一个关联子句的三元语法计算结果
第1栏 第2栏 第3栏
5 11 12
接着,再举例而言,请一并参考表四及表五,第二个关联子句的词汇向量如表四所示,首先进行二元语法计算,利用2×1大小的矩阵针对词汇V1、词汇V3、词汇V4以及词汇V6对应的词汇向量进行卷积运算,因此可以得出表五所示第二个关联子句的二元语法计算结果。根据上述的实施例,2×1大小的矩阵为[1,2]T,利用此矩阵对第1栏的行向量(1,2)进行卷积运算计算出的结果为5,利用此矩阵对第1栏的行向量(2,2)进行卷积运算计算出的结果为6,再利用此矩阵对第1栏的行向量(2,7)进行卷积运算计算出的结果为16。其余第2栏以及第3栏的行向量计算与上述相同,在此不再赘述。
表四:第二个关联子句的词汇向量
Figure BDA0001880744900000081
表五:第二个关联子句的二元语法计算结果
第1栏 第2栏 第3栏
5 8 9
6 15 18
16 22 25
接着,再进行三元语法计算,利用3×1大小的矩阵针对词汇V1、词汇V3、词汇V4以及词汇V6对应的词汇向量进行卷积运算,因此可以得出表六所示第二个关联子句的三元语法计算结果。根据上述实施例,如果3×1大小的矩阵为[1,1,1]T,利用此矩阵对第1栏的行向量(1,2,2)进行卷积运算计算出的结果为5,再利用此矩阵对第1栏的行向量(2,2,7)进行卷积运算计算出的结果为11。其余第2栏以及第3栏的行向量计算与上述相同,在此不再赘述。
表六:第二个关联子句的三元语法计算结果
第1栏 第2栏 第3栏
5 11 12
11 17 20
承上述,第三个关联子句的计算方式与第一个关联子句以及第二个关联子句的计算方式相同,故在此不再赘述。第三个关联子句的二元语法计算结果如表七所示,第三个关联子句的三元语法计算结果如表八所示。第二N元语法特征即为第二个关联子句的二元语法计算结果以及三元语法计算结果。
表七:第三个关联子句的二元语法计算结果
第1栏 第2栏 第3栏
5 8 9
6 15 18
12 14 13
7 18 19
表八:第三个关联子句的三元语法计算结果
第1栏 第2栏 第3栏
5 11 12
9 13 14
8 17 18
接着,语意分析方法300执行步骤S352a根据第一N元语法特征进行特征计算以产生特征向量。于一实施例中,计算出第一N元语法特征后,会进行特征计算。请一并参考表二以及表三,首先针对第一个关联子句的二元语法计算结果进行最大值筛选,从表二的第1栏所示的结果中选择最大值,在此即为6;从表二的第2栏所示的结果中选择最大值,在此即为15;从表二的第3栏所示的结果中选择最大值,在此即为18。因此在经过最大值筛选后的第一个关联子句的二元语法计算结果为(6,15,18)。接着针对第一个关联子句的三元语法计算结果进行最大值筛选,因此在经过最大值筛选后的第一个关联子句的三元语法计算结果为(5,11,12)。接着,将最大值筛选后的第一个关联子句的二元语法计算结果与最大值筛选后的第一个关联子句的三元语法计算结果相加为第一个关联子句的特征向量,在此第一个关联子句的特征向量为(11,26,30)。
承上述,第二个关联子句的特征向量的计算方式与上述第一个关联子句的特征向量的计算方式相同,故在此不再赘述。经过最大值筛选后的第二个关联子句的二元语法计算结果为(6,22,25),经过最大值筛选后的第二个关联子句的三元语法计算结果为(11,17,20)。接着,将最大值筛选后的第二个关联子句的二元语法计算结果与最大值筛选后的第二个关联子句的三元语法计算结果相加即为第二个关联子句的特征向量,在此第二个关联子句的特征向量为(27,39,45)。
承上述,第三个关联子句的特征向量的计算方式与上述第一个关联子句的特征向量及第二个关联子句的特征向量的计算方式相同,同样在此不再赘述。经过最大值筛选后的第三个关联子句的二元语法计算结果为(12,18,19),经过最大值筛选后的第三个关联子句的三元语法计算结果为(9,17,18)。接着,将最大值筛选后的第三个关联子句的二元语法计算结果与最大值筛选后的第三个关联子句的三元语法计算结果相加即为第三个关联子句的特征向量,在此第三个关联子句的特征向量为(21,35,37)。
接着,语意分析方法300进一步执行步骤S353a根据特征向量进行权重计算,以产生关联特征向量。其中,权重计算是根据关联子句中的该至少一关键词汇的数量决定,接续上方实施例,在第一个关联子句中具有词汇V4一个关键词汇,第二个关联子句中具有词汇V4以及词汇V6两个关键词汇,以及第三个关联子句中具有词汇V4以及词汇V7两个关键词汇。总共有五个关键词汇,故第一个关联子句对应的权重为1/5,第二个关联子句对应的权重为2/5,第三个关联子句对应的权重为2/5。因此,关键特征向量=第一个关联子句的特征向量×(1/5)+第二个关联子句的特征向量×(2/5)+第三个关联子句的特征向量×(2/5)。
于另一实施例中,语意分析方法300进一步执行步骤S350计算关联子句之间的关联特征向量。步骤S350还包含步骤S351b~S353b。请一并参考图6,图5是根据本案的一些实施例所绘示的步骤S350的流程图。语意分析方法300进一步执行步骤S351b利用词汇对应的词汇向量进行N元语法计算以产生多个第一N元语法特征,以及利用每一关联子句的部分的词汇对应的词汇向量进行N元语法计算以产生多个第二N元语法特征。步骤S351b的计算方式与步骤S351a相同,在此不再赘述。步骤S351b与步骤S351a的差异在于,步骤S351b更用以计算输入语句的N元语法特征,即为第一N元语法特征。
接着,语意分析方法300执行步骤S352b第一N元语法特征以及第二N元语法特征分别进行特征计算以产生第一特征向量以及第二特征向量。承上述,步骤S352b的计算方式与步骤S352a的计算方式相同,故在此不再赘述。步骤S352b与步骤S352a的差异在于,步骤S352b更用以计算输入语句的N元特征向量,即为第一特征向量。
接着,语意分析方法300进一步执行步骤S353b根据第二特征向量进行权重计算以产生加权向量,将加权向量与第一特征向量串接,以产生关联特征向量。于此实施例中,第二特征向量的权重计算方式与前述相同,在此不再赘述。第二特征向量经过权重计算后会得到加权向量,加权向量再与第一特征向量串接,即可得到关联特征向量。举例而言,第二特征向量经过权重计算得到的加权向量为(20,33,38),如果第一特征向量为(29,35,44),经过串接后的关联特征向量为(29,35,44,20,33,38)。
接着,语意分析方法300进一步执行步骤S360串接关联特征向量与每一词汇对应的词汇向量,以产生每一词汇对应的词汇特征向量。于一实施例中,将步骤S350计算出的关联特征向量与每一词汇对应的词汇向量串接,以产生每一词汇对应的词汇特征向量。举例而言,词汇V7对应的词汇向量为(1,7,8),如果关联特征向量为(20,33,38),词汇V7对应的词汇特征向量即将对应的词汇向量(1,7,8)与关联特征向量(20,33,38)串接为(1,7,8,20,33,38)。经过上述的计算后,词汇特征向量可以包含关键词汇的信息,加强词汇之间的关联强度,使得语意分析模型DB可以在对词汇进行属性分类时可以更准确。
接着,语意分析方法300执行步骤S370利用语意分析模型DB分析词汇特征向量以产生分析结果。于一实施例中,在执行步骤S370之前需要先建立语意分析模型DB。意即,根据这些词汇、每一个词汇对应的词汇向量以及上述产生的关联特征向量作为训练数据产生语意分析模型DB。更进一步来说,将这些词汇、每一词汇对应的词汇向量以及上述产生的关联特征向量输入至Bi-LSTM模型(Bidirectional LSTM)进行运算,以据此产生语意分析模型DB。经过语意分析模型DB计算之后会得出每一词汇对应的属性分类以及输入语句对应的意图的分析结果,语意分析模型DB计算后可以将输入的属性分类为B-type、I-type以及O-type,B-type表示为一个词汇的开始,I-type则是接续在B-type后方的词汇,O-type则是属于未事先定义的其它词汇。
接续上方实施例,词汇V1-V8经过上述计算词汇特征向量并将计算结果输入至语意分析模型DB后,将可以得出词汇V7以及词汇V6是属于B-type的属性分类,词汇V2、词汇V1、词汇V3、词汇V5、词汇V8及词汇V4是属于O-type的属性分类,且输入语句「我想要看搭配学生方案的Samsung手机」的意图为「选择手机」。
由上述本案的实施方式可知,主要是改进以往自然语言理解的技术,利用词汇的词性以及关联剖析找出关键词汇以及关联子句,再利用N元语法计算特征向量后,根据语意分析模型计算出输入语句对应的意图以及每一词汇对应的属性分类,达到提升自然语言理解技术准确率的功能。
另外,上述例示包含依序的示范步骤,但这些步骤不必依所显示的顺序被执行。以不同顺序执行该些步骤皆在本揭示内容的考量范围内。在本揭示内容的实施例的精神与范围内,可视情况增加、取代、变更顺序及/或省略这些步骤。
虽然本案已以实施方式揭示如上,然其并非用以限定本案,任何熟悉此技艺者,在不脱离本案的精神和范围内,当可作各种的更动与润饰,因此本案的保护范围当视所附的权利要求书所界定的范围为准。

Claims (15)

1.一种语意分析方法,其特征在于,包含:
输入一语音并辨识该语音以产生一输入语句;其中该输入语句包含多个词汇,每一该词汇具有对应的词汇向量;
根据每一该词汇对应的词性从所述多个词汇中选择至少一关键词汇;
根据该输入语句的所述多个词汇建立一剖析树,并根据该剖析树以及该至少一关键词汇找出多个关联子句;其中,每一该关联子句包含部分的所述词汇;
计算所述多个关联子句之间的一关联特征向量;
串接该关联特征向量与每一该词汇对应的词汇向量,以产生每一该词汇对应的一词汇特征向量;以及
利用一语意分析模型分析该词汇特征向量以产生一分析结果;其中,该分析结果包含每一该词汇对应的属性分类以及该输入语句对应的意图。
2.根据权利要求1所述的语意分析方法,其特征在于,还包含:
利用所述多个词汇、每一该词汇对应的词汇向量以及该关联特征向量作为训练数据,以产生该语意分析模型。
3.根据权利要求1所述的语意分析方法,其特征在于,还包含:
将该输入语句进行断词处理以产生一词汇集合;其中,该词汇集合包含所述多个词汇。
4.根据权利要求1所述的语意分析方法,其特征在于,每一该关联子句包含该至少一关键词汇的一部分。
5.根据权利要求1所述的语意分析方法,其特征在于,计算所述多个关联子句之间的该关联特征向量,还包含:
利用每一该关联子句的部分的所述词汇对应的词汇向量进行N元语法计算以产生多个第一N元语法特征;
根据所述多个第一N元语法特征进行一特征计算以产生一特征向量;以及
根据该特征向量进行一权重计算,以产生该关联特征向量。
6.根据权利要求1所述的语意分析方法,其特征在于,计算所述多个关联子句之间的该关联特征向量,还包含:
利用所述多个词汇对应的词汇向量进行N元语法计算以产生多个第一N元语法特征;
利用每一该关联子句的部分的所述词汇对应的词汇向量进行N元语法计算以产生多个第二N元语法特征;
将所述多个第一N元语法特征以及所述多个第二N元语法特征分别进行一特征计算以产生一第一特征向量以及一第二特征向量;以及
根据该第二特征向量进行一权重计算以产生一加权向量,将该第一特征向量与该加权向量串接,以产生该关联特征向量。
7.根据权利要求5或6所述的语意分析方法,其特征在于,该权重计算是利用所述多个关联子句中的该至少一关键词汇的数量决定一权重值。
8.一种语意分析***,其特征在于,包含:
一音频接收器,用以接收一语音;
一处理器,与该音频接收器电性连接,该处理器包含:
一语音辨识元件,用以辨识该语音以产生一输入语句,其中该输入语句包含多个词汇,每一该词汇具有对应的词汇向量;
一关键词汇选择元件,与该语音辨识元件电性连接,用以根据每一该词汇对应的词性从所述多个词汇中选择至少一关键词汇;
一关联子句产生元件,与该关键词汇选择元件电性连接,用以根据该输入语句的所述多个词汇建立一剖析树,并根据该剖析树以及该至少一关键词汇找出多个关联子句;其中,每一该关联子句包含部分的所述词汇;
一特征向量计算元件,与该关联子句产生元件电性连接,用以计算所述多个关联子句之间的一关联特征向量;
一词汇向量产生元件,与该特征向量计算元件电性连接,用以串接该关联特征向量与每一该词汇对应的词汇向量,以产生每一该词汇对应的一词汇特征向量;以及
一分析结果产生元件,与该词汇向量产生元件电性连接,利用一语意分析模型分析该词汇特征向量以产生一分析结果;其中,该分析结果包含每一该词汇对应的属性分类以及该输入语句对应的意图;以及
一储存装置,用以储存该输入语句以及该语意分析模型。
9.根据权利要求8所述的语意分析***,其特征在于,还包含:
一分析模型建立元件,与该词汇向量产生元件与该分析结果产生元件电性连接,用以利用所述多个词汇、每一该词汇对应的词汇向量以及该关联特征向量作为训练数据,以产生该语意分析模型。
10.根据权利要求8所述的语意分析***,其特征在于,还包含:
一断词处理元件,与该语音辨识元件与该关键词汇选择元件电性连接,用以将该输入语句进行断词处理以产生一词汇集合;其中,该词汇集合包含所述多个词汇。
11.根据权利要求8所述的语意分析***,其特征在于,每一该关联子句包含该至少一关键词汇的一部分。
12.根据权利要求8所述的语意分析***,其特征在于,该特征向量计算元件更用以利用每一该关联子句的部分的所述词汇对应的词汇向量进行N元语法计算以产生多个第一N元语法特征,根据所述多个第一N元语法特征进行一特征计算以产生一特征向量,且根据该特征向量进行一权重计算,以产生该关联特征向量。
13.根据权利要求8所述的语意分析***,其特征在于,该特征向量计算元件更用以利用所述多个词汇对应的词汇向量进行N元语法计算以产生多个第一N元语法特征,利用每一该关联子句的部分的所述词汇对应的词汇向量进行N元语法计算以产生多个第二N元语法特征,将所述多个第一N元语法特征以及所述多个第二N元语法特征分别进行一特征计算以产生一第一特征向量以及一第二特征向量,根据该第二特征向量进行一权重计算以产生一加权向量,且将该第一特征向量与该加权向量串接,以产生该关联特征向量。
14.根据权利要求12或13所述的语意分析***,其特征在于,该权重计算是利用所述多个关联子句中的该至少一关键词汇的数量决定一权重值。
15.一种非暂态计算机可读取媒体,其特征在于,包含至少一指令程序,由一处理器执行该至少一指令程序以实行一语意分析方法,其包含:
输入一语音并辨识该语音以产生一输入语句;其中该输入语句包含多个词汇,每一该词汇具有对应的词汇向量;
根据每一该词汇对应的词性从所述多个词汇中选择至少一关键词汇;
根据该输入语句的所述多个词汇建立一剖析树,并根据该剖析树以及该至少一关键词汇找出多个关联子句;其中,每一该关联子句包含部分的所述词汇;
计算所述多个关联子句之间的一关联特征向量;
串接该关联特征向量与每一该词汇对应的词汇向量,以产生每一该词汇对应的一词汇特征向量;以及
利用一语意分析模型分析该词汇特征向量以产生一分析结果;其中,该分析结果包含每一该词汇对应的属性分类以及该输入语句对应的意图。
CN201811422249.6A 2018-11-20 2018-11-27 语意分析方法、语意分析***及非暂态计算机可读取媒体 Pending CN111274367A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
TW107141301 2018-11-20
TW107141301A TWI666558B (zh) 2018-11-20 2018-11-20 語意分析方法、語意分析系統及非暫態電腦可讀取媒體

Publications (1)

Publication Number Publication Date
CN111274367A true CN111274367A (zh) 2020-06-12

Family

ID=68049688

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811422249.6A Pending CN111274367A (zh) 2018-11-20 2018-11-27 语意分析方法、语意分析***及非暂态计算机可读取媒体

Country Status (3)

Country Link
US (1) US10867598B2 (zh)
CN (1) CN111274367A (zh)
TW (1) TWI666558B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113204943A (zh) * 2021-05-05 2021-08-03 杭州新范式生物医药科技有限公司 一种语意的结构化表示方法与将一个语意序列识别为一个语意的方法

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI790393B (zh) * 2019-08-02 2023-01-21 威進國際資訊股份有限公司 社工語意輔助分析系統及其使用方法
TWI728507B (zh) * 2019-10-15 2021-05-21 財團法人資訊工業策進會 產生一對話狀態追蹤模型之裝置及方法
CN111680129B (zh) * 2020-06-16 2022-07-12 思必驰科技股份有限公司 语义理解***的训练方法及***
CN112489643B (zh) * 2020-10-27 2024-07-12 广东美的白色家电技术创新中心有限公司 转换方法、转换表的生成方法、装置及计算机存储介质
CN112380870A (zh) * 2020-11-19 2021-02-19 平安科技(深圳)有限公司 用户意图分析方法、装置、电子设备及计算机存储介质
CN113053387A (zh) * 2021-02-26 2021-06-29 上海声通信息科技股份有限公司 一种支持语义理解的语音录入***
CN113380240B (zh) * 2021-05-07 2022-04-12 荣耀终端有限公司 语音交互方法和电子设备
US11868432B1 (en) 2022-06-16 2024-01-09 Sichuan University Method for extracting kansei adjective of product based on principal component analysis and explanation (PCA-E)
CN115062702B (zh) * 2022-06-16 2023-09-08 四川大学 基于pca-e的产品感性语义词汇提取方法
TWI832792B (zh) * 2023-08-16 2024-02-11 中華電信股份有限公司 基於上下文情境與使用歷程的意圖評選系統及其方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090030686A1 (en) * 2007-07-27 2009-01-29 Fuliang Weng Method and system for computing or determining confidence scores for parse trees at all levels
US20160124943A1 (en) * 2014-11-04 2016-05-05 Kabushiki Kaisha Toshiba Foreign language sentence creation support apparatus, method, and program
CN107451200A (zh) * 2017-07-06 2017-12-08 西安交通大学 使用随机量化词汇树的检索方法及基于其的图像检索方法
CN107688984A (zh) * 2017-07-27 2018-02-13 上海壹账通金融科技有限公司 产品信息推送方法、装置、存储介质和计算机设备

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI389100B (zh) * 2008-11-19 2013-03-11 Inst Information Industry 語音情緒的分類方法及其情緒語意模型的建立方法
TW201113870A (en) * 2009-10-09 2011-04-16 Inst Information Industry Method for analyzing sentence emotion, sentence emotion analyzing system, computer readable and writable recording medium and multimedia device
US8346563B1 (en) 2012-04-10 2013-01-01 Artificial Solutions Ltd. System and methods for delivering advanced natural language interaction applications
US10068174B2 (en) 2012-08-02 2018-09-04 Artifical Solutions Iberia S.L. Hybrid approach for developing, optimizing, and executing conversational interaction applications
US9875237B2 (en) 2013-03-14 2018-01-23 Microsfot Technology Licensing, Llc Using human perception in building language understanding models
CN105955959B (zh) * 2016-05-06 2019-04-26 深圳大学 一种情感分类方法及***
JP6727607B2 (ja) * 2016-06-09 2020-07-22 国立研究開発法人情報通信研究機構 音声認識装置及びコンピュータプログラム
TWI640877B (zh) * 2017-06-14 2018-11-11 財團法人資訊工業策進會 語意分析裝置、方法及其電腦程式產品
US20190213284A1 (en) * 2018-01-11 2019-07-11 International Business Machines Corporation Semantic representation and realization for conversational systems
CN108197115B (zh) * 2018-01-26 2022-04-22 上海智臻智能网络科技股份有限公司 智能交互方法、装置、计算机设备和计算机可读存储介质
KR102060486B1 (ko) * 2018-07-12 2019-12-30 주식회사 아카인텔리전스 시맨틱 그래프 데이터베이스 기반의 챗봇 발언 생성 방법
US20200027446A1 (en) * 2018-07-20 2020-01-23 Comcast Cable Communications, Llc Visualization interface for voice input

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090030686A1 (en) * 2007-07-27 2009-01-29 Fuliang Weng Method and system for computing or determining confidence scores for parse trees at all levels
US20160124943A1 (en) * 2014-11-04 2016-05-05 Kabushiki Kaisha Toshiba Foreign language sentence creation support apparatus, method, and program
CN107451200A (zh) * 2017-07-06 2017-12-08 西安交通大学 使用随机量化词汇树的检索方法及基于其的图像检索方法
CN107688984A (zh) * 2017-07-27 2018-02-13 上海壹账通金融科技有限公司 产品信息推送方法、装置、存储介质和计算机设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113204943A (zh) * 2021-05-05 2021-08-03 杭州新范式生物医药科技有限公司 一种语意的结构化表示方法与将一个语意序列识别为一个语意的方法

Also Published As

Publication number Publication date
TWI666558B (zh) 2019-07-21
US20200160851A1 (en) 2020-05-21
TW202020692A (zh) 2020-06-01
US10867598B2 (en) 2020-12-15

Similar Documents

Publication Publication Date Title
CN111274367A (zh) 语意分析方法、语意分析***及非暂态计算机可读取媒体
US10216725B2 (en) Integration of domain information into state transitions of a finite state transducer for natural language processing
CN107480143B (zh) 基于上下文相关性的对话话题分割方法和***
CN104166462B (zh) 一种文字的输入方法和***
US20180276525A1 (en) Method and neural network system for human-computer interaction, and user equipment
US9558741B2 (en) Systems and methods for speech recognition
CN110162753B (zh) 用于生成文本模板的方法、装置、设备和计算机可读介质
CN108228576B (zh) 文本翻译方法及装置
CN112395385B (zh) 基于人工智能的文本生成方法、装置、计算机设备及介质
US11790174B2 (en) Entity recognition method and apparatus
CN112562640B (zh) 多语言语音识别方法、装置、***及计算机可读存储介质
CN111192570A (zh) 语言模型训练方法、***、移动终端及存储介质
KR101483947B1 (ko) 핵심어에서의 음소 오류 결과를 고려한 음향 모델 변별 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체
CN111508497B (zh) 语音识别方法、装置、电子设备及存储介质
CN106815593B (zh) 中文文本相似度的确定方法和装置
CN113919424A (zh) 文本处理模型的训练、文本处理方法、装置、设备和介质
CN111026281B (zh) 一种客户端的词组推荐方法、客户端及存储介质
CN112133285B (zh) 语音识别方法、装置、存储介质和电子设备
CN111640423B (zh) 一种词边界估计方法、装置及电子设备
CN112632956A (zh) 文本匹配方法、装置、终端和存储介质
CN104199811A (zh) 短句解析模型建立方法及***
Penagarikano et al. Dimensionality reduction for using high-order n-grams in SVM-based phonotactic language recognition
US20220414340A1 (en) Artificial intelligence-based semantic recognition method, apparatus, and device
US12026632B2 (en) Response phrase selection device and method
KR101095864B1 (ko) 연속 숫자의 음성 인식에 있어서 혼동행렬과 신뢰도치 기반의 다중 인식후보 생성 장치 및 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200612