CN106372055A - 一种人机自然语言交互中的语义相似处理方法及*** - Google Patents

一种人机自然语言交互中的语义相似处理方法及*** Download PDF

Info

Publication number
CN106372055A
CN106372055A CN201610709517.7A CN201610709517A CN106372055A CN 106372055 A CN106372055 A CN 106372055A CN 201610709517 A CN201610709517 A CN 201610709517A CN 106372055 A CN106372055 A CN 106372055A
Authority
CN
China
Prior art keywords
sentence
user input
data base
search data
preliminary search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610709517.7A
Other languages
English (en)
Other versions
CN106372055B (zh
Inventor
彭军辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Listening Robot Technology Co Ltd
Original Assignee
Beijing Listening Robot Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Listening Robot Technology Co Ltd filed Critical Beijing Listening Robot Technology Co Ltd
Priority to CN201610709517.7A priority Critical patent/CN106372055B/zh
Publication of CN106372055A publication Critical patent/CN106372055A/zh
Application granted granted Critical
Publication of CN106372055B publication Critical patent/CN106372055B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种人机自然语言交互中的语义相似处理方法及***,涉及自然语言人机交互领域。目的在于解决现有人机交互技术在语义理解上存在准确率低,导致人机交互无法正常实现的问题。该方法实现过程为:S1、建立初步查询数据库并接收用户输入语句;S2、根据用户输入语句的格式对初步查询数据库中的语句进行筛选;S3、将初步查询数据库中筛选出的语句与用户输入语句进行语义对比,并输出最终结果。本发明首先通过用户输入语句的格式对数据库中的语句进行初步筛选,然后通过语义相似性的比较对比用户输入语句和数据库中问题语句之间的相似性,使机器人对语义理解的正确率提高10%至25%,使人机对话的过程变得更加自然、流畅。

Description

一种人机自然语言交互中的语义相似处理方法及***
技术领域
本发明涉及自然语言人机交互领域。
背景技术
目前人机交互领域当中,在对比两句话的相似性时,并不处理句式,不关注句子里词和词之间的关系,甚至不关注虚词。例如在机器人中输入“你和小明比谁更厉害”和“小明和你比更厉害”,机器人是无法分清楚这两句话的差别的。对于一些虚词,机器人也无法进行区分,例如“你干什么”和“你干什么的”之间的差别。
但是在客服领域,在机器人问答方面,只要机器人不能准确区分两句话的意思,机器人就不能准确理解用户意图,不能给用户满意的答案。以目前的技术,现在语义理解的平均正确率只有64%,还远远无法达到人机正常交互的目的。
发明内容
本发明所要解决的技术问题是提供一种人机自然语言交互中的语义相似处理方法及***,目的在于解决现有人机交互技术在语义理解上存在准确率低,导致人机交互无法正常实现的问题。
本发明解决上述技术问题的技术方案如下:一种人机自然语言交互中的语义相似处理方法,它是通过以下方式实现的:
S1、建立初步查询数据库并接收用户输入语句;
S2、根据用户输入语句的格式对初步查询数据库中的语句进行筛选;
S3、将初步查询数据库中筛选出的语句与用户输入语句进行语义对比,并输出最终结果。
进一步,S2具体实现过程包括:
S21、提取用户输入语言中的主语、谓语和宾语;
S22、将用户输入语言中的主语、谓语和宾语与初步查询数据库中所有句子的主语、谓语和宾语进行对比;
S23、在初步查询数据库中筛选出具有与用户输入语言相同主语、谓语和宾语的语句。
进一步,所述S3具体实现过程包括:
S31、将用户输入语句进行词组拆分;
S32、将用户输入语句中所有词组分别与初步查询数据库中筛选出的语句中所包含的词组进行对比;
S33、根据用户输入语句以及初步查询数据库的词组对比获得每两个句子之间的语义相似值,并根据语义相似值的结果输出最终结果。
所述语义相似值的获取过程为:将用户输入语句与初步查询数据库中每个语句对比之后相同的词组个数除以用户输入语句中所有的词组个数即为语义相似值。
本发明的有益效果是:本发明首先通过用户输入语句的格式对数据库中的语句进行初步筛选,然后通过语义相似性的比较对比用户输入语句和数据库中问题语句之间的相似性,将最佳结果输出给用户,使机器人对语义理解的正确率提高10%至25%,使人机对话的过程变得更加自然、流畅。
一种人机自然语言交互中的语义相似处理***,该***包括:
数据库建立模块,用于建立初步查询数据库并接收用户输入语句;
语句筛选模块,用于根据用户输入语句的格式对初步查询数据库中的语句进行筛选;
语义对比模块,用于将初步查询数据库中筛选出的语句与用户输入语句进行语义对比,并输出最终结果。
进一步,所述语句筛选模块包括:
语句提取模块,用于提取用户输入语言中的主语、谓语和宾语;
格式对比模块,用于将用户输入语言中的主语、谓语和宾语与初步查询数据库中所有句子的主语、谓语和宾语进行对比;
筛选结果获取模块,用于在初步查询数据库中筛选出具有与用户输入语言相同主语、谓语和宾语的语句。
进一步,所述语义对比模块包括:
词组拆分模块,用于将用户输入语句进行词组拆分;
词组对比模块,用于将用户输入语句中所有词组分别与初步查询数据库中筛选出的语句中所包含的词组进行对比;
结果输出模块,用于根据用户输入语句以及初步查询数据库的词组对比获得每两个句子之间的语义相似值,并根据语义相似值的结果输出最终结果。
进一步,所述语义相似值的获取过程为:将用户输入语句与初步查询数据库中每个语句对比之后相同的词组个数除以用户输入语句中所有的词组个数即为语义相似值。
附图说明
图1为本发明实施例所述的人机自然语言交互中的语义相似处理方法的流程图;
图2为本发明实施例所述的根据用户输入语句的格式对初步查询数据库中的语句进行筛选的流程图;
图3为本发明实施例所述的将初步查询数据库中筛选出的语句与用户输入语句进行语义对比的流程图;
图4为本发明实施例所述的人机自然语言交互中的语义相似处理***的原理示意图;
图5为本发明实施例所述的语句筛选模块2的原理示意图;
图6为本发明实施例所述的语义对比模块3的原理示意图。
附图中,各标号所代表的部件列表如下:
1、数据库建立模块,2、语句筛选模块,3、语义对比模块,4、语句提取模块,5、格式对比模块,6、筛选结果获取模块,7、词组拆分模块,8、词组对比模块,9、结果输出模块。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
实施例1
如图1所示,本实施例提出了一种人机自然语言交互中的语义相似处理方法,它是通过以下方式实现的:
S1、建立初步查询数据库并接收用户输入语句;
S2、根据用户输入语句的格式对初步查询数据库中的语句进行筛选;
S3、将初步查询数据库中筛选出的语句与用户输入语句进行语义对比,并输出最终结果。
本实施例中,在对用户输入语句进行处理的开始,首先对用于输入语句的格式进行提取,通过提取问题的主干部分进行对比从而进行第一步删选;具体过程如图2所示:
S21、提取用户输入语言中的主语、谓语和宾语;
S22、将用户输入语言中的主语、谓语和宾语与初步查询数据库中所有句子的主语、谓语和宾语进行对比;
S23、在初步查询数据库中筛选出具有与用户输入语言相同主语、谓语和宾语的语句。
在进行初步筛选后,数据库中可能还会存在很多问题的主谓宾和用户输入语句的主谓宾是相同的,但是相比而言,初步查询数据库中与用户输入语句相对应的语句已经很少了,然后通过将筛选出的每个语句的词组与用户输入语句的词组进行对比的工作量则非常小了,对比速度也非常快,具体过程如图3所示:
S31、将用户输入语句进行词组拆分;
S32、将用户输入语句中所有词组分别与初步查询数据库中筛选出的语句中所包含的词组进行对比;
S33、根据用户输入语句以及初步查询数据库的词组对比获得每两个句子之间的语义相似值,并根据语义相似值的结果输出最终结果。
其中,语义相似值的获取过程为:将用户输入语句与初步查询数据库中每个语句对比之后相同的词组个数除以用户输入语句中所有的词组个数即为语义相似值。
举个例子,比如用户输入的语句当中有十个词:A1+A2+A3+A4+A5+A6+A7+A8+A9+A0,而初步查询数据库中与其主谓宾与完全相同的一个语句中有五个词与用户输入语句完全相同:A2+A3+A4+A5+A6,由于这两个句子的句式相同,则认为这两个句子的相似性为50%,如果有四个词相同,则相似性为40%,依次类推。根据用户输入语句与初步查询数据库中语句进行语义对比,筛选出语义相似值最高的语句,则该语句即为最终输出语句。
实施例2
如图4所示,本实施例提出了一种人机自然语言交互中的语义相似处理***,该***包括:
数据库建立模块1,用于建立初步查询数据库并接收用户输入语句;
语句筛选模块2,用于根据用户输入语句的格式对初步查询数据库中的语句进行筛选;
语义对比模块3,用于将初步查询数据库中筛选出的语句与用户输入语句进行语义对比,并输出最终结果。
优选的,如图5所示,所述语句筛选模块2包括:
语句提取模块4,用于提取用户输入语言中的主语、谓语和宾语;
格式对比模块5,用于将用户输入语言中的主语、谓语和宾语与初步查询数据库中所有句子的主语、谓语和宾语进行对比;
筛选结果获取模块6,用于在初步查询数据库中筛选出具有与用户输入语言相同主语、谓语和宾语的语句。
优选的,如图6所示,所述语义对比模块3包括:
词组拆分模块7,用于将用户输入语句进行词组拆分;
词组对比模块8,用于将用户输入语句中所有词组分别与初步查询数据库中筛选出的语句中所包含的词组进行对比;
结果输出模块9,用于根据用户输入语句以及初步查询数据库的词组对比获得每两个句子之间的语义相似值,并根据语义相似值的结果输出最终结果。
优选的,所述语义相似值的获取过程为:将用户输入语句与初步查询数据库中每个语句对比之后相同的词组个数除以用户输入语句中所有的词组个数即为语义相似值。
本实施例首先通过用户输入语句的格式对数据库中的语句进行初步筛选,然后通过语义相似性的比较对比用户输入语句和数据库中问题语句之间的相似性,将最佳结果输出给用户,使机器人对语义理解的正确率提高10%至25%,使人机对话的过程变得更加自然、流畅。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种人机自然语言交互中的语义相似处理方法,其特征在于,它是通过以下方式实现的:
S1、建立初步查询数据库并接收用户输入语句;
S2、根据用户输入语句的格式对初步查询数据库中的语句进行筛选;
S3、将初步查询数据库中筛选出的语句与用户输入语句进行语义对比,并输出最终结果。
2.根据权利要求1所述的一种人机自然语言交互中的语义相似处理方法,其特征在于,所述S2具体实现过程包括:
S21、提取用户输入语言中的主语、谓语和宾语;
S22、将用户输入语言中的主语、谓语和宾语与初步查询数据库中所有句子的主语、谓语和宾语进行对比;
S23、在初步查询数据库中筛选出具有与用户输入语言相同主语、谓语和宾语的语句。
3.根据权利要求2所述的一种人机自然语言交互中的语义相似处理方法,其特征在于,所述S3具体实现过程包括:
S31、将用户输入语句进行词组拆分;
S32、将用户输入语句中所有词组分别与初步查询数据库中筛选出的语句中所包含的词组进行对比;
S33、根据用户输入语句以及初步查询数据库的词组对比获得每两个句子之间的语义相似值,并根据语义相似值的结果输出最终结果。
4.根据权利要求3所述的一种人机自然语言交互中的语义相似处理方法,其特征在于,所述语义相似值的获取过程为:将用户输入语句与初步查询数据库中每个语句对比之后相同的词组个数除以用户输入语句中所有的词组个数即为语义相似值。
5.一种人机自然语言交互中的语义相似处理***,其特征在于,它包括:
数据库建立模块(1),用于建立初步查询数据库并接收用户输入语句;
语句筛选模块(2),用于根据用户输入语句的格式对初步查询数据库中的语句进行筛选;
语义对比模块(3),用于将初步查询数据库中筛选出的语句与用户输入语句进行语义对比,并输出最终结果。
6.根据权利要求5所述的一种人机自然语言交互中的语义相似处理***,其特征在于,所述语句筛选模块(2)包括:
语句提取模块(4),用于提取用户输入语言中的主语、谓语和宾语;
格式对比模块(5),用于将用户输入语言中的主语、谓语和宾语与初步查询数据库中所有句子的主语、谓语和宾语进行对比;
筛选结果获取模块(6),用于在初步查询数据库中筛选出具有与用户输入语言相同主语、谓语和宾语的语句。
7.根据权利要求6所述的一种人机自然语言交互中的语义相似处理***,其特征在于,所述语义对比模块(3)包括:
词组拆分模块(7),用于将用户输入语句进行词组拆分;
词组对比模块(8),用于将用户输入语句中所有词组分别与初步查询数据库中筛选出的语句中所包含的词组进行对比;
结果输出模块(9),用于根据用户输入语句以及初步查询数据库的词组对比获得每两个句子之间的语义相似值,并根据语义相似值的结果输出最终结果。
8.根据权利要求7所述的一种人机自然语言交互中的语义相似处理***,其特征在于,所述语义相似值的获取过程为:将用户输入语句与初步查询数据库中每个语句对比之后相同的词组个数除以用户输入语句中所有的词组个数即为语义相似值。
CN201610709517.7A 2016-08-23 2016-08-23 一种人机自然语言交互中的语义相似处理方法及*** Active CN106372055B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610709517.7A CN106372055B (zh) 2016-08-23 2016-08-23 一种人机自然语言交互中的语义相似处理方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610709517.7A CN106372055B (zh) 2016-08-23 2016-08-23 一种人机自然语言交互中的语义相似处理方法及***

Publications (2)

Publication Number Publication Date
CN106372055A true CN106372055A (zh) 2017-02-01
CN106372055B CN106372055B (zh) 2019-10-29

Family

ID=57879031

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610709517.7A Active CN106372055B (zh) 2016-08-23 2016-08-23 一种人机自然语言交互中的语义相似处理方法及***

Country Status (1)

Country Link
CN (1) CN106372055B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109815484A (zh) * 2018-12-21 2019-05-28 平安科技(深圳)有限公司 基于交叉注意力机制的语义相似度匹配方法及其匹配装置
CN110019688A (zh) * 2019-01-23 2019-07-16 艾肯特公司 对机器人进行训练的方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1928864A (zh) * 2006-09-22 2007-03-14 浙江大学 一种基于问答库的中文自然语言问答方法
CN101286161A (zh) * 2008-05-28 2008-10-15 华中科技大学 一种基于概念的智能中文问答***
JP2008253551A (ja) * 2007-04-05 2008-10-23 Toshiba Corp 読影レポート検索装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1928864A (zh) * 2006-09-22 2007-03-14 浙江大学 一种基于问答库的中文自然语言问答方法
JP2008253551A (ja) * 2007-04-05 2008-10-23 Toshiba Corp 読影レポート検索装置
CN101286161A (zh) * 2008-05-28 2008-10-15 华中科技大学 一种基于概念的智能中文问答***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李静静: "导游对话***的相关技术研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109815484A (zh) * 2018-12-21 2019-05-28 平安科技(深圳)有限公司 基于交叉注意力机制的语义相似度匹配方法及其匹配装置
CN109815484B (zh) * 2018-12-21 2022-03-15 平安科技(深圳)有限公司 基于交叉注意力机制的语义相似度匹配方法及其匹配装置
CN110019688A (zh) * 2019-01-23 2019-07-16 艾肯特公司 对机器人进行训练的方法

Also Published As

Publication number Publication date
CN106372055B (zh) 2019-10-29

Similar Documents

Publication Publication Date Title
CN106202476A (zh) 一种基于知识图谱的人机对话的方法及装置
CN103077164A (zh) 文本分析方法及文本分析器
CN106557508A (zh) 一种文本关键词提取方法和装置
CN107273474A (zh) 基于潜在语义分析的自动摘要抽取方法及***
CN103605691B (zh) 用于处理社交网络中发布内容的装置和方法
CN105653620B (zh) 智能问答***的日志分析方法及装置
CN109408811A (zh) 一种数据处理方法及服务器
CN104317784A (zh) 一种跨平台用户识别方法和***
CN108108426A (zh) 自然语言提问的理解方法、装置及电子设备
CN102509001A (zh) 一种自动去除时序数据野值点的方法
CN106847279A (zh) 基于机器人操作***ros的人机交互方法
CN105868311A (zh) 一种数据解析的方法和装置
CN109033282A (zh) 一种基于抽取模板的网页正文抽取方法及装置
CN114528312A (zh) 一种结构化查询语言语句的生成方法和装置
CN104007836A (zh) 一种手写字输入的处理方法及终端设备
CN106919697A (zh) 一种将数据同时导入多个Hadoop组件的方法
CN107341142B (zh) 一种基于关键词提取分析的企业关系计算方法及***
CN105095436A (zh) 数据源数据自动建模方法
CN106372055A (zh) 一种人机自然语言交互中的语义相似处理方法及***
US10909144B1 (en) Taxonomy generation with statistical analysis and auditing
CN110275938B (zh) 基于非结构化文档的知识提取方法及***
CN105550361A (zh) 日志处理方法及装置和问答信息处理方法及装置
CN111178080A (zh) 一种基于结构化信息的命名实体识别方法及***
CN110321557A (zh) 一种文本分类方法、装置、电子设备及存储介质
CN106250366A (zh) 一种针对问答***的数据处理方法及***

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant