CN114936272A - 一种问答方法及*** - Google Patents
一种问答方法及*** Download PDFInfo
- Publication number
- CN114936272A CN114936272A CN202110457701.8A CN202110457701A CN114936272A CN 114936272 A CN114936272 A CN 114936272A CN 202110457701 A CN202110457701 A CN 202110457701A CN 114936272 A CN114936272 A CN 114936272A
- Authority
- CN
- China
- Prior art keywords
- question
- candidate
- sentences
- keywords
- standard
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000012545 processing Methods 0.000 claims description 38
- 238000012216 screening Methods 0.000 claims description 32
- 238000001914 filtration Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 8
- 230000008878 coupling Effects 0.000 claims description 5
- 238000010168 coupling process Methods 0.000 claims description 5
- 238000005859 coupling reaction Methods 0.000 claims description 5
- 230000004044 response Effects 0.000 claims description 5
- 230000000875 corresponding effect Effects 0.000 description 67
- 238000013461 design Methods 0.000 description 19
- 230000011218 segmentation Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 9
- 230000006870 function Effects 0.000 description 5
- 238000013500 data storage Methods 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000003745 diagnosis Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000006837 decompression Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005265 energy consumption Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 201000007270 liver cancer Diseases 0.000 description 1
- 208000014018 liver neoplasm Diseases 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000000241 respiratory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
- G06F40/35—Discourse or dialogue representation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供一种问答方法及***,该方法可以应用于问答***,在该方法中,问答***可以获取待解答问句,从标准问答库的多个标准问句中,匹配出与待解答问句的相似度大于预设值的K个第一候选问句;其中,标准问答库中包含每个标准问句对应的答案,每个标准问句的配置文件中包含关键词;进而可以将待解答问句中的关键词与k个第一候选问句中的关键词进行匹配,从K个第一候选问句中筛选出N个第二候选问句;最后,基于N个第二候选问句对应的答案,输出待解答问句的答案。如此,有效提升问答***匹配问题的准确率,进而有效提升用户体验,且有效减少人工标注量。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种问答方法及***。
背景技术
随着人工智能(artificial intelligence,AI)技术的发展,人工智能在很多领域都有着广泛的应用,例如人机问答交互等领域。人机问答交互领域中,设定了基于AI的常规问答(Frequently Asked Questions,FAQ)***中,该FAQ***可以感知用户输入的问题,从现有的知识库中匹配出与该问题相关的问句,并将该相关问句的答案作为该问题的答案输出。然而,现有的FAQ***问题匹配的准确率较低。
为了提升问题匹配的准确率,业界提出基于语义识别模型来进行问题匹配,但该识别模型的实现依赖大量的人工标注语料,存在人力成本较高的问题。
发明内容
本申请提供一种问答方法及问答***,用于提高问答***匹配问题的准确率,以及降低人工标注成本。
第一方面,本申请实施例提供一种问答方法,该方法可以由问答***执行,该方法包括:首先,获取用户输入的第一问句;然后,从标准问答库的多个标准问句中,匹配出与第一问句的相似度大于预设值的K个第一候选问句;其中,标准问答库中包含每个标准问句对应的答案,每个标准问句的配置文件中包含关键词;进而可以将第一问句中的关键词与k个第一候选问句中的关键词进行匹配,从K个第一候选问句中筛选出N个第二候选问句;最后,基于N个第二候选问句对应的答案,输出第一问句的答案。其中,K为大于等于2的整数,N为大于等于1的整数。
在本申请实施例中,可以基于标准问句中的配置文件中的关键词,对问句匹配过程中的多个第一候选问句进行筛选,并基于筛选出的N个第二候选问句对应的答案,确定用户所输入问句的答案,有效提升问题匹配的准确率,提升用户体验。并且,问题匹配准确率提升使得人工标注量减少,进而降低人工标注成本。
在一种可能的设计中,每个标准问句的配置文件还包括筛选指示,筛选指示可以用于表示该标准问句是否包含关键词;进而问答***可以基于K个第一候选问句的筛选指示,确定K个第一候选问句中包含关键词的M个第三候选问句;然后,将第一关键词与M个第三候选问句中的关键词进行匹配,从M个第三候选问句中筛选出N个第二候选问句。如果将第一关键词与M个第三候选问句中的关键词进行匹配,未筛选出问句,则将K个第一候选问句中除M个第三候选问句以外的问句,作为第二候选问句。M为小于K的整数。
在该设计中,通过基于每个标准问句的配置文件中的筛选指示,筛选出K个第一候选问句中包含关键词的M个第三候选问句,再对第一问句中的关键词进行匹配,有效提升关键词匹配成功的概率。
在一种可能的设计中,配置文件中的关键词包含实体词,该实体词用于指示人和/或物体。由于实体词所指示的人或物在问句中一般是用于描述用户想要执行相应操作的核心对象,在该设计中,将实体词作为关键词,使得根据实体词筛选出的第二候选问句与用户所输入问句的相关性更大,进而有效提升问题匹配的准确性。
在一种可能的设计中,配置文件中的关键词包含实体词和非实体词。
在该设计中,关键词可以包含实体词和非实体词,进而使得基于包含实体词和非实体词中的关键词匹配出来的第二候选问句与用户所输入问句的相关性更大,进一步提升问题匹配的准确性,并且能有效满足用户多样化的匹配需求。
应理解,问答***基于N个第二候选问句对应的答案,输出第一问句的答案,有多种实现方式。
方式1,若只有一个第二候选问句,将该第二候选问句对应的答案作为第一问句的答案并输出。
在方式1中,在接收到用户输入问句时,有效保证能够输出答案,进而提升用户体验。
方式2,若有多个第二候选问句,确定多个第二候选问句中与第一问句的相似度评分最高的第二问句,将第二问句对应的答案作为第一问句的答案并输出。
在方式2中,将多个第二候选问句中与用户所输入问句相似度评分最高的第二候选问句对应的答案作为用户所输入问句对应的答案输出,有效保证问题匹配的准确性,进而提升用户体验。
在一种可能的设计中,问答***在从标准问答库的多个标准问句中,匹配出与第一问句的相似度大于预设值的K个第一候选问句之前,还可以:获取至少一个配置项;基于至少一个配置项,生成每个标准问句对应的配置文件。
其中,配置项包括以下一项或多项:
问题字段,用于指示配置项对应配置的标准问句;
筛选指示字段,用于指示配置项对应配置的标准问句是否包含关键词;
关键词字段,用于指示配置项对应配置的标准问句中的关键词。
在该设计中,可以基于获取到的配置项,生成每个标准问句中的配置文件,进而使得问答***可以基于标准问句中配置文件包含的关键词,对用户所输入问句中的关键词进行匹配,进而有效提升问题匹配的准确率。
其中,问答***获取至少一个配置项有多种实现方式,包括但不限于以下方式:
方式1,接收用户输入的第一文件;基于第一文件,确定至少一个配置项。
在方式1中,通过对用户输入的第一文件进行解析,可以快速获取至少一个配置项,进而提升配置标准问句的效率。
方式2,在用户界面上显示多个标准问句;接收针对一个或多个标准问句的输入操作,响应于输入操作,确定至少一个配置项。
在方式2中,为用户提供用户界面,使得用户可以灵活直观地选择需要进行配置的标准问句,有效提升用户体验。
第二方面,本申请实施例提供了一种问答***,该问答***可以用于实现上述问答方法。作为一种示例,该问答***可以包括:
获取模块,用于获取用户输入的第一问句;
处理模块,用于从标准问答库的多个标准问句中,匹配出与第一问句的相似度大于预设值的K个第一候选问句;标准问答库中包含每个标准问句对应的答案,每个标准问句的配置文件中包含关键词;将第一问句中的关键词与K个第一候选问句中的关键词进行匹配,从K个第一候选问句中筛选出N个第二候选问句;基于N个第二候选问句对应的答案,输出第一问句的答案。其中,K为大于等于2的整数;N为大于等于1的整数。
在一种可能的设计中,每个标准问句的配置文件还包括筛选指示,筛选指示用于表示该标准问句是否包含关键词;处理模块在将第一问句中的关键词与K个第一候选问句中的关键词进行匹配之前,还可以用于:基于K个第一候选问句的筛选指示,确定K个第一候选问句中包含关键词的M个第三候选问句,M为小于K的整数。
进而,处理模块在用于将第一问句中的关键词与K个第一候选问句中的关键词进行匹配时,具体用于:将第一问句中的关键词与M个第三候选问句中的关键词进行匹配,从M个第三候选问句中筛选出N个第二候选问句;或者,将第一问句中的关键词与M个第三候选问句中的关键词进行匹配,未筛选出问句,则将K个第一候选问句中除M个第三候选问句以外的问句,作为第二候选问句。
在一种可能的设计中,配置文件中的关键词包含实体词,实体词用于指示人和/或物体。
在一种可能的设计中,配置文件中的关键词包含实体词和非实体词。
在一种可能的设计中,所述处理模块在基于N个第二候选问句对应的答案,输出第一问句的答案,具体用于:若只有一个第二候选问句,将该第二候选问句对应的答案作为第一问句的答案并输出;或者,若有多个第二候选问句,则确定多个第二候选问句中与第一问句的相似度评分最高的第二问句,将第二问句对应的答案作为第一问句的答案并输出。
在一种可能的设计中,在处理模块用于从标准问答库的多个标准问句中,匹配出与第一问句的相似度大于预设值的K个第一候选问句之前,获取模块还用于:获取至少一个配置项;处理模块还用于,基于至少一个配置项,生成每个标准问句对应的配置文件;
其中,配置项包括以下一项或多项:
问题字段,用于指示配置项对应配置的标准问句;
筛选指示字段,用于指示配置项对应配置的标准问句是否包含关键词;
关键词字段,用于指示配置项对应配置的标准问句中的关键词。
在一种可能的设计中,获取模块在用于获取至少一个配置项时,具体用于:接收用户输入的第一文件;处理模块还用于,基于第一文件,确定至少一个配置项。
在一种可能的设计中,问答***还包括显示模块,该显示模块可以用于在用户界面上显示多个标准问句;获取模块在用于获取至少一个配置项时,具体用于:接收针对一个或多个标准问句的输入操作;处理模块,还用于响应于输入操作,确定至少一个配置项。
第三方面,本申请实施例提供一种电子设备,包括:处理器,处理器用于与存储器耦合,读取并执行存储器中的计算机程序指令,以执行第一方面或第一方面中任一可能的设计中所述的方法。
第四方面,本申请实施里提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,当所述计算机程序被计算机执行时,使得所述计算机执行第一方面或第一方面中任一可能的设计中所述的方法。
上述第二方面至第四方面中任一方面可以达到的技术效果,具体可以参照上述第一方面中任意一种上述第二方面至第四方面中任一方面可以达到的技术效果,具体可以参照上述第一方面中任意一种可能的设计所带来的技术效果描述,这里不再赘述。
附图说明
图1为本申请实施例提供的一种可能的应用场景的示意图;
图2为本申请实施例提供的一种问答方法的流程示意图;
图3A为本申请实施例提供的场景示意图之一;
图3B为本申请实施例提供的用户界面的示意图之一;
图4为本申请实施例提供的用户界面的示意图之二;
图5为本申请实施例提供的用户界面的示意图之三;
图6为本申请实施例提供的用户界面的示意图之四;
图7为本申请实施例提供的一种问答***的结构示意图;
图8为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为了使本申请实施例的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施例作进一步地详细描述。
需要说明的是,本申请实施例中“多个”是指两个或两个以上,鉴于此,本申请实施例中也可以将“多个”理解为“至少两个”。“至少一个”,可理解为一个或多个,例如理解为一个、两个或更多个。例如,包括至少一个,是指包括一个、两个或更多个,而且不限制包括的是哪几个,例如,包括A、B和C中的至少一个,那么包括的可以是A、B、C、A和B、A和C、B和C、或A和B和C。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”,如无特殊说明,一般表示前后关联对象是一种“或”的关系。除非有相反的说明,本申请实施例提及“第一”、“第二”等序数词用于对多个对象进行区分,不用于限定多个对象的顺序、时序、优先级或者重要程度。
为了便于理解,下面对本申请实施例涉及的相关术语进行进一步的解释。
(1)标准问答库,是指存储有多个标准问句,以及标准问句对应的答案的知识库。
(2)问答***,可以与用户进行交互的软件***,并且可以从标准问答库中匹配出与用户输入问句相关的答案。
(3)关键词,可以理解为问句中的重要性较高的名词或动词。其中,重要性可以通过逆文档频率(term frequency-inverse document frequency,TF-IDF)值来衡量。
(4)实体词,可以理解为问句中用于指示人和/或物体的特征词,具体可以是名词,例如人名、地名、物体名称等。
(5)非实体词,可以理解为问句中除实体词之外的词,具体可以是动词,例如查询、理赔,或者是名词,例如规则、意义、思想等。
(6)配置文件,可以理解为用于配置每个标准问句的属性信息(例如,关键词)的文件。
本申请实施例提供了一种问答方法,该方法可以由问答***执行。在该方法中,问答***获取第一用户输入的待解答问句之后,从标准问答库的多个标准问句中,匹配出与待解答问句的相似度大于预设值的K个第一候选问句;然后,将待解答问句中的关键词与K个第一候选问句中的关键词进行匹配,从K个第一候选问句中筛选出N个第二候选问句;最后,基于N个第二候选问句对应的答案,输出待解答问句的答案。
该方法中,问答***基于标准问句的配置文件中的关键词,对用户输入的待解答问句初步匹配得到的多个第一候选问句进行二次筛选,再基于筛选出来的第二候选问句的答案,确定待解答问句的答案。如此,有效提升问答***匹配问句的准确率,进而有效提升用户体验,且有效减少人工标注量。具体方案将在后文详细介绍。
图1示出了本申请实施例适用的一种可能应用场景,该应用场景中可以包括用户和电子设备,用户和电子设备进行交互,以实现本申请实施例提供的问答方法。其中,用户一般指需要对问答***进行操作(例如,阅读,查询等)的用户。
如图1所示,所述电子设备可以是智能手机、智能音箱、穿戴式终端或者机器人中的任一种。当然所述电子设备不仅仅限于图1中所示的示例,还可以为其他电子设备,例如笔记本电脑、平板电脑、车载电脑、个人数字助理(personal digital assistant,PDA)、智能手表、个人计算机((personal computer,PC)、电视机等等。当然所述电子设备不限于上述列举的设备,只要是具有接收语音,以及输出语音的功能和/或具有显示功能的电子设备即可,在本申请实施例中,不对该电子设备的具体形式进行限制。
在一种可能的实施方式中,所述电子设备除具备上述功能外,还具有声音或语音分析、语义分析、语音合成等功能,若电子设备具备数据存储与数据处理的能力,则在该应用场景中只存在用户和所述电子设备即可以完成本申请实施例提供的问答方法的实现过程。
在另一种可能的实施方式中,如图1中所示,该应用场景中还可以包括服务器,若电子设备不具备数据存储和数据处理能力时,所述电子设备可以通过网络与服务器连接,由服务器完成数据的存储与处理,进而用户、所述电子设备及服务器共同交互完成本申请实施例提供的问答方法的实现过程。
当然,在所述电子设备具备数据存储与数据处理的能力时,为了减少所述电子设备的能耗,所述电子设备同样可以通过网络与服务器连接,由服务器完成数据的存储与处理,本申请对此不作限定。
需要说明的是,图1示出的应用场景示意图还可包括其他设备,在此不再示出。
图2为本申请实施例提供的一种问答方法的流程示意图,该方法可以由问答***执行,该方法包括以下步骤:
S201、获取用户输入的待解答问句。
应理解,“用户”是指与本申请实施例提供的问答***进行交互,实现问答过程的用户。
本申请实施例中,待解答问句可以是中文字符(例如,“今天天气怎么样?”),也可以是英文字符(例如,“What's the date today?”),也可以是中文字符和英文字符的组合(例如,“Houston天气怎么样?”),或者是其他一种或多种语言字符组合得到,这里不作具体的限定。
其中,待解答问句可以是用户输入的语音信息,也可以用户输入的文字信息,本申请实施例不作具体的限定。
应理解,待解答问句的类型不同,问答***获取待解答问句的具体实施方式也不同。
在待解答问句为语音信息时,问答***可以通过检测用户输入的语音指令,来确定用户输入的待解答问句。
示例性的,如图3A所示,问答***应用于语音机器人时,问答***可以通过语音机器人中的音频检测模块检测用户输入的语音指令,来确定待解答问句。
在待解答问句为文字信息时,问答***可以通过图形用户界面(graphical userinterface,GUI),获取用户输入的待解答问句。
示例性的,问答***可提供如图3B所示的用户界面,问答***通过检测用户在图3B所示的文本框中输入的文字信息,来确定待解答问句。
S202、从标准问答库的多个标准问句中,匹配出与待解答问句的相似度大于预设值的K个第一候选问句。其中,K为大于等于2的整数,标准问答库中包含每个标准问句对应的答案,每个标准问句的配置文件中包含关键词。
其中,预设值可以是80%、90%等,本申请实施例不作具体的限定。
应理解,针对不同的业务领域可以设置不同的标准问答库。“标准问句对应的答案”可以理解为是基于标准问句对应的意图所获取到的结果。例如,标准问句是“今日邮件”,“今日邮件”对应的意图是“查询今日邮件”,则问答***可以自动获取问答***关联的邮箱中在今天之内收到的所有邮件,将这些邮件作为“今日邮件”的答案。
在一种可能的实施方式中,标准问答库中的一个标准问句可以对应一个答案,或者,标准问答库中的多个标准问句可以对应一个答案。
如表1所示,标准问答库中的标准问句为“查询本周邮件”、“查询今日邮件”,它们对应的答案分别为“邮件10-邮件40”、“邮件3-邮件5”。
表1
标准问句 | 答案 |
查询本周邮件 | 邮件10-邮件40 |
查询今日邮件 | 邮件3-邮件5 |
如表2所示,标准问答库中的标准问句为“查看电脑剩余运行内存”、“电脑还剩多少运行内存”,它们对应的答案均为“电脑内存为30%”;如此,语义相同的标准问句可以对应同一个答案,使得问答***的匹配准确率更高。
表2
如表3所示,标准问答库中的标准问句为“查询邮件”、“查询今日邮件”、“昨日邮件”,其中,“查询邮件”和“查询今日邮件”对应的答案均为“邮件3-邮件5”,“昨日邮件”对应的答案为“邮件1-邮件2”。
表3
以上仅仅是对标准问答库中标准问句和答案之间的对应关系进行举例,并非限定。应理解,上述对应关系可以根据问答***所应用的业务领域的数据变化,进行实时更新。
需要说明的是,步骤S202中匹配第一候选问句的过程,主要包括以下步骤:
步骤A、问答***对待解答问句进行预处理。
在一种可能的实施方式中,对待解答问句进行预处理,可以是词性标注、分词操作、去停用词等中的任一种。其中,词性标注可以理解为给每一个单词打上词性标签,词性标签包括形容词、动词、名词、副词、连词、叹词和方位词等等,具体可以通过成分似然性自动词性标注***(contituent-likelihood automatic word-tagging system,CLAWS)等算法来实现;分词操作可以理解为将每一条语料划分为多个单词,具体可以通过词袋(bag ofwords,BOW)、TF-IDF等方法结合基于统计、规则等中文分词方法来实现;停用词是指为节省存储空间和提高搜索效率,搜索引擎在索引页面或处理搜索请求时会自动忽略某些字或词,例如,语气助词、副词、介词、连接词等,通常自身并无明确的意义的词。
例如,待解答问句是“查询上个月的绩效”,问答***对待解答问句进行分词操作和词性标注,可以得到“查询”、“上个月”、“的”、“绩效”四个单词,对应词性分别为动词、名词、助词、名词;再对这四个词进行去停用词操作,得到三个词“查询”、“上个月”、“绩效”。
又例如,待解答问句是“上海今天天气怎么样”,对待解答问句进行分词操作和词性标注,可以得到“上海”、“今天”、“天气”、“怎么样”四个单词,对应词性分别为名词、代词、名词、代词。
可选的,问答***在分词操作过程中,还可以加载新词词典,将待解答问句的文本与新词词典中的短语进行匹配,可以确定分词短语。其中,新词词典包括了从大量领域语料中通过新词发现的方式,确定出的问句中大量频繁出现的固定搭配的短语。
例如,待解答问句是“查询昨天的邮件”,问答***对待解答问句进行分词操作,可以得到“查询”、“昨天的”和“邮件”三个单词;进一步将待解答问句与新词词典进行文本匹配,可以得到固定搭配短语“查询邮件”,则最终的分词结果为“昨天的”和“查询邮件”。
步骤B、问答***对预处理后的待解答问句和标准问句进行文本匹配,将多个标准问句中与待解答问句的相似度大于预设值的标准问句,作为K个第一候选问句。
其中,文本匹配包括字面匹配和/或语义匹配。
在一种可能的实施方式中,问答***可以基于预设匹配算法对预处理后的待解答问句和标准问句进行字面匹配,根据字面匹配的程度来衡量标准问句与待解答问句的相似度,进而将相似度大于预设值的标准问句作为第一候选问句。其中,预设匹配算法可以是(brute force,BF)算法、(rabin-karp,RK)算法、(knuth-morris-pratt,KMP)、jaccard等算法中的任一种,本申请实施例不作具体的限定。
示例性的,预设值为60%,待解答问句为“退票规则是啥?”,问答***对待解答问句进行预处理之后,得到的单词为“退票”、“规则”、“是”、“啥”,进而根据这四个单词,对从标准问答库中的标准问句逐一进行字面匹配,确定出每个标准问句与待解答问句的字面匹配程度;进而得到字面匹配程度大于60%的标准问句为:“退票规则是什么”“退票能退多少钱”、“买票规则是什么”和“退款规则是什么”,则将这些问句作为第一候选问句。
在该实施方式中,只需对待解答问句进行字面匹配,就可以确定待解答问句与标准问句的相似度,有效提升匹配问句的效率。
可选的,问答***对待解答问句预处理,得到待解答问句中的已标注词性的单词之后,可以只选择待解答问句中的动词和名词,来与标准问句进行字面匹配。如此,可进一步提升确定文本匹配的效率。
示例性的,预设值为60%,待解答问句继续以“退票规则是啥?”为例,问答***对待解答问句进行预处理,得到的单词为“退票”、“规则”、“是”、“啥”,对应词性分别为动词、名词、助词、代词;问答***可以选择其中的动词“退票”和名词“规则”,对从标准问答库中的标准问句逐一进行字面匹配,确定出的相似度大于60%的标准问句有:“退票规则”、“买票规则”和“退款规则”,则将这些标准问句作为第一候选问句。
在另一种可能的实施方式中,问答***可以对预处理后的待解答问句和标准问句进行字面匹配和语义匹配,基于字面匹配程度和语义匹配程度,确定标准问句与待解答问句的相似度,进而将相似度大于预设值的标准问句作为第一候选问句。
示例性的,预设值为60%,待解答问句为“退票规则是啥?”,问答***对待解答问句预处理之后,得到的单词为“退票”、“规则”、“是”、“啥”,进而根据这四个单词,确定出标准问答库中与待解答问句字面匹配程度大于60%的标准问句有:“退票规则是什么”“退票能退多少钱”、“买票规则是什么”和“退款规则是什么”;进一步,问答***确定出这些问句中与待解答问句语义匹配程度大于60%的标准问句有“退票规则是什么”和“退款规则是什么”,则“退票规则是什么”和“退款规则是什么”与待解答问句的相似度大于预设值,将“退票规则是什么”和“退款规则是什么”作为第二候选问句。
在该实施方式中,通过对待解答问句进行字面匹配和语义匹配,使得匹配出的第一候选问句与待解答问句的相关性更高,进而有效提升问答***匹配问句的准确率。
S203、将待解答问句中的关键词与k个第一候选问句中的关键词进行匹配,从K个第一候选问句中筛选出N个第二候选问句。
在一种可能的实施方式中,问答***在将待解答问句中的关键词与第一候选问句中的关键词进行匹配之前,需要提取待解答问句中的关键词。其中,提取待解答问句中的关键词的具体过程可以通过分词操作和词性标注、TF-IDF值评估等方法中的一种或多种实现。
下面介绍不同情况下,待解答问句中的关键词的提取方式。
第一种情况,将待解答问句中的动词和/或名词确定为关键词。
1、待解答问句中关键词为名词。
示例性的,待解答问句为“退票规则是啥?”,问答***对待解答问句进行分词操作及词性标注,得到的单词为“退”、“票”、“规则”、“是”、“啥”,词性分别为动词、名词、名词、助词、代词;问答***进一步计算名词“票”和名词“规则”的TF-IDF值,将其中TF-IDF值最大的名词“票”作为待解答问句中的关键词。
2、待解答问句中关键词为名词和动词。
示例性的,待解答问句为“退票规则是啥?”,问答***对待解答问句进行分词操作及词性标注,得到的单词为“退”、“票”、“规则”、“是”、“啥”,词性分别为动词、名词、名词、助词、代词,问答***进一步计算动词“退”、名词“票”和“规则”各自的TF-IDF值,将TF-IDF值大于预设值的动词“退”和名词“票”作为待解答问句中的关键词。
在第一种情况中,可以结合单词的词性和TF-IDF值,提取关键词,如此,有效保证关键词的准确性。
第二种情况,将待解答问句中的实体词和/或非实体词确定为关键词。
其中,实体词可以是用于描述真实事物或人物的名词,例如北京、肝癌、邮件等;非实体词可以是用于描述抽象概念的名词(例如规则、意义等)或动词(例如,查询、购买等)。
1、待解答问句中关键词为实体词。
示例性的,待解答问句为“退票规则是啥?”,问答***对待解答问句进行分词操作及词性标注,得到的单词为“退”、“票”、“规则”、“是”、“啥”,词性分别为动词、名词、名词、助词、代词;问答***进一步判断这5个词是否为实体词,判断发现“票”为实体词,则将“票”作为待解答问句中的关键词。
2、待解答问句中关键词为实体词和非实体词。
示例性的,待解答问句为“退票规则是啥?”,问答***对待解答问句进行分词操作及词性标注,得到的单词为“退”、“票”、“规则”、“是”、“啥”,词性分别为动词、名词、名词、助词、代词,问答***进一步判断这5个词是否为实体词或非实体词,判断得到实体词为“票”、非实体词为“退”和“规则”;则将“票”、“退”和“规则”作为待解答问句中的关键词。
由于实体词所指示的人或物在问句中一般是用于描述用户想要执行相应操作的核心对象,在第二种情况中,将待解答问句中的实体词和/或非实体词作为待解答问句的关键词,可以使得后续基于该关键词筛选出的第二候选问句与用户所输入问句的相关性更大,进而有效提升问题匹配的准确性。
需要说明的是,K个第一候选问句可能存在以下情况:
情况1,K个第一候选问句中的所有第一候选问句均包含关键词。
情况2,K个第一候选问句中的部分第一候选问句中包含关键词。
情况3,K个第一候选问句中的所有第一候选问句均未包含关键词。
应理解,这里的“关键词”是指每个第一候选问句中的关键词,并非待解答问句中的关键词。
由于K个第一候选问句的不同情况,对应不同的筛选第二候选问句的方法,下面分别对以上三种情况进行讨论。
1)K个第一候选问句中的所有第一候选问句中均包含关键词。
在将待解答问句中的关键词与k个第一候选问句中的关键词进行匹配时,问答***可以直接将待解答问句中的关键词与每个第一候选问句中的关键词一一进行匹配,将与第一关键词匹配的关键词对应的第一候选问句作为第二候选问句。如此,可以快速筛选出第二候选问句。
例如,待解答问句为“查看上个月的邮件”,待解答问句中的关键词为“邮件”,第一候选问句有“查看上个月的账单”、“查看上个月的绩效”、“上个月的邮件有哪些”、“这星期的邮件有哪些”;问答***基于关键词“邮件”进行筛选后,得到的第二候选问句为“上个月的邮件有哪些”、“这星期的邮件有哪些”。
2)K个第一候选问句中的部分第一候选问句的中包含关键词。
在一种可能的实施方式中,每个标准问句的配置文件中还包括筛选指示,该筛选指示可以用于表示该标准问句中是否包含关键词;在将待解答问句中的关键词与k个第一候选问句中的关键词进行匹配时之前,问答***还可以基于K个第一候选问句的筛选指示,确定K个第一候选问句中包含关键词的M个第三候选问句,再将待解答问句中的关键词与M个第三候选问句中的关键词进行匹配,进而从M个第三候选问句中筛选出N个第二候选问句。如此,基于筛选指示对需要筛选的第一候选问句进一步筛选,使得进行关键词匹配的问句变少,进而有效提高匹配关键词的效率。
示例性的,待解答问句为“查看上个月的邮件”,待解答问句中的关键词为“邮件”,第一候选问句为:“查看上个月的账单”、“查看上个月的绩效”、“上个月的邮件有哪些”、“这星期的邮件有哪些”,问答***基于这些候选问句的筛选指示进一步确定出包含关键词的第三候选问句:“查看上个月的账单”、“查看上个月的绩效”、“上个月的邮件有哪些”;进而问答***可以基于关键词“邮件”,对“查看上个月的账单”、“查看上个月的绩效”、“上个月的邮件有哪些”进行关键词匹配,得到第二候选问句“上个月的邮件有哪些”。
可选的,若将待解答问句中的关键词与M个第三候选问句中的关键词进行匹配,未筛选出问句,则将K个第一候选问句中除M个第三候选问句以外的问句,作为第二候选问句。
示例性的,待解答问句为“查看上个月的邮件”,待解答问句中的关键词为“邮件”,第一候选问句有“查看上个月的账单”、“查看上个月的绩效”、“上个月的邮件有哪些”,问答***基于这些候选问句的筛选指示进一步,确定出包含关键词的第三候选问句:“查看上个月的账单”、“查看上个月的绩效”;进而问答***只基于关键词“邮件”对“查看上个月的账单”、“查看上个月的绩效”进行匹配,发现没有匹配到问句,则将“上个月的邮件有哪些”作为第二候选问句。
3)所有第一候选问句的中均未包含关键词。
所有第一候选问句的中均未包含关键词,则问答***不对待解答问句中的关键词进行匹配,直接将所有的第一候选问句作为第二候选问句。如此,可以保证一定能快速筛选出第二候选问句。
例如,第一候选问句有“查看上个月的账单”、“查看上个月的绩效”、“上个月的邮件有哪些”,问答***基于这些候选问句的筛选指示,未确定出包含关键词的问句,则将查看上个月的账单”、“查看上个月的绩效”、“上个月的邮件有哪些”均作为第二候选问句。
S204、基于N个第二候选问句对应的答案,输出待解答问句的答案。
应理解,答案可以是问句对应的文字答案,也可以是问句对应的对象执行的相应动作。
N=1时,只存在一个第二候选问句,则将该第二候选问句对应的答案作为待解答问句的答案并输出;
N≥2时,存在多个第二候选问句,确定多个第二候选问句中与待解答问句的相似度评分最高的问句,将该问句对应的答案作为待解答问句的答案并输出。
在一种可能的实施方式中,可以将每个第二候选问句和待解答问句组合,得到N条第一信息;将N条第一信息,输入语义识别模型,该语义识别模型可以确定出每个第二候选问句和待解答问句的相似度评分,进而输出相似度评分最高的问句对应的答案。其中,语义识别模型可以通过CBOW算法实现。
其中,待解答问句的答案可以以语音的形式输出,也可以以文本的形式输出,或者以文本对应的图像输出,本申请实施例不作具体的限定。
示例性的,请继续参见图3A,问答***应用于机器人,机器人检测到用户输入的待解答问句为“北京天气多少度”,问答***从标准问答库中匹配出的第一候选问句中,筛选出的第二候选问句为“北京温度”、“查询北京昨天天气”、“北京今天天气”,进而问答***可以将“北京温度”、“查询北京昨天天气”、“北京今天天气”分别和待解答问句相组合,并输入语义识别模型,语义识别模型输出这三个问句与待解答问句的相似度评分分别为75分、60分、85分,则将“北京今天天气”对应的答案“23度”,作为待解答问句的答案,以语音的形式输出给用户。
示例性的,问答***通过图3B所示的用户界面,检测到用户输入的待解答问句为“北京的天气”,并匹配出待解答问句的答案为“23度”,也可以在该用户界面,输出相应的文字信息。
在图2所示的实施例中,问答***基于待解答问句的文字特征、关键词,对标准问答库中的多个标准语句,多次筛选,确定待解答问句的答案。如此,有效提升问答***匹配问句的准确率,进而有效提升用户体验,且有效减少人工标注量。
需要说明的是,在对用户输入的待解答问句进行答案匹配之前,用户可以根据实际需求对标准问答库中的每个标准问句进行配置,生成每个标准问句的配置文件。该用户可以是问答***的后台维护人员。
在一种可能的实施方式中,问答***可以获取至少一个配置项;基于至少一个配置项,生成每个标准问句对应的配置文件。其中,配置项包括以下一项或多项:
问题字段,用于指示配置项对应配置的标准问句;
筛选指示字段,用于指示配置项对应配置的标准问句是否包含关键词;
关键词字段,用于指示配置项对应配置的标准问句中的关键词。
本申请实施例中,每个标准问句对应的配置文件可以理解为该标准问句的属性文件。示例1,请参见表4,表4为标准问句1“查询电脑参数”的配置文件1,该配置文件1中包括标准问句1的关键词“电脑参数”。
表4
示例2,请参见表5,表5为标准问句2“查询邮件”的配置文件2,配置文件2中包括标准问句2的筛选指示和关键词。
表5
示例3,请参见表6,表6为标准问句3“查询邮件”的配置文件3,配置文件3中包括标准问句3的筛选指示,该筛选指示的取值为“False”,则该标准问句中未标识关键词,则未配置关键词字段。
表6
下面介绍问答***获取至少一个配置项的实施方式。
方式1,接收第二用户输入的第一文件;基于第一文件,确定至少一个配置项。
示例性的,问答***可以提供如图4所示的文件上传界面,问答***可以通过该文件上传界面接收用户输入的第一文件,通过对第一文件进行解析,可以得到至少一个配置项。其中,第一文件可以是一个Excel表,或者是数据库表,本申请实施例不作具体的限定。
方式2,接收针对一个或多个标准问句的输入操作(例如,点击操作),响应于输入操作,确定至少一个配置项。
示例1,问答***可以提供如图5中(a)所示的用户配置界面,在该用户配置界面中显示有标准问句1和标准问句2,检测到用户针对标准问句2对应标识的点击操作,显示图5中(b)所示的用户配置界面,该界面中显示了标准问句2的筛选指示字段、关键词字段,进一步检测到用户针对关键词字段的点击操作,可以显示如图5中(b)所示的文本框,进而该用户可以在该文本框中输入标准问句2的关键词。
示例性2,问答***可以提供如图6中(a)所示的用户配置界面,在该用户配置界面中检测到用户输入了一个实体词“邮件”,问答***可以在标准问答库中筛选出与该实体词关联的多个标准问句(例如“查邮件”、“查本周邮件”、“查今日邮件”、“查未读邮件”等),进一步问答***检测到用户对如图6中(b)所示的一个或多个问句的选择操作,则自动将“邮件”确定为用户所选择问句的配置项,基于该配置项生成对用户所选择问句的配置文件。如次,用户可以快速完成对标准问句的配置。
为了便于更好地理解,下面结合具体的应用场景,介绍本申请实施例提供的问答方法的实现过程。
场景1,服务器参数查询。
问答***以网页的形式提供给用户使用,问答***通过用户界面接收用户输入的文字信息,得到待解答问句“服务器1的性能参数是多少?”。
首先,问答***中对待解答问句进行预处理,然后将预处理后的问句和多个标准问句进行字面匹配和语义匹配,从标准问答库中的多个标准问句中筛选出与待解答问句相似度大于80%的第一候选问句:“服务器1的性能参数是多少?”、“服务器1的性能参数怎么查找?”、“服务器3性能参数是怎样的?”。
然后,问答***对“服务器1的性能参数是多少?”进行关键词提取,得到关键词“服务器1”;而三个第一候选问句中的配置文件中的关键词分别为“服务器1”、“服务器1”和“服务器3”,问答***基于待解答问句中的关键词“服务器1”对第一候选问句进行筛选,得到第二候选问句:“服务器1的性能参数是多少?”和“服务器1的性能参数怎么查找?”。
接着,问答***确定出“服务器1的性能参数是多少?”和“服务器1的性能参数怎么查找?”中与待解答问句的相似度评分最大的问句为“服务器1的性能参数是多少?”,则将“服务器1的性能参数是多少?”对应的答案,作为待解答问句的答案在用户界面中以文字的形式输出。
场景2,导诊机器人。
问答***应用于医院中智能导诊机器人,该导诊机器人可以持续采集用户的语音指令,问答***根据导诊机器人采集到的语音指令,得到待解答问句“感冒挂什么科”。
导诊机器人对待解答问句“感冒挂什么科”进行预处理,得到四个单词“感冒”、“挂”、“什么”、“科”,基于这四个单词,与标准问答库中的多个标准问句进行文本匹配和语义匹配,从标准问答库中的多个标准问句中筛选出相似度大于80%的第一候选问句:“感冒去哪里”、“感冒挂什么科室”、“眼睛不舒服挂什么科”。
导诊机器人提取出待解答问句“感冒挂什么科”中的关键词“感冒”和“科”,而“感冒去哪里”中的配置文件中的关键词分别为“感冒”,“感冒挂什么科室”中的配置文件中的关键词分别为“感冒”、“科室”,“眼睛不舒服挂什么科”中的配置文件中的关键词分别为“眼睛”、“科”;导诊机器人基于关键词“感冒”和“科”对第三候选问句中的关键词进行匹配,得到关键词最匹配的第二候选问句“感冒挂什么科室”。
然后,导诊机器人将第二候选问句“感冒挂什么科室”的对应的答案作为待解答问句“感冒挂什么科”的答案输出。具体的,导诊机器人可以匹配出“查询感冒对应的挂号科室”的意图,自动查询感冒对应的挂号科室,并通过语音或者文字的方式输出“呼吸科”。如此,可实现智能导诊,可以帮用户快速找到需要挂号的科室,提高患者就医体验度,降低科室的转诊率,同时为导诊台减压。
应理解,上述两种应用场景仅为举例而非限定,本申请提供的确定问答方法还可以应用在其他应用场景中。
以上介绍了本申请实施例提供的问答方法的实现过程,以下介绍执行问答方法的问答***。
图7是本申请实施例提供的一种问答***的结构示意图。如图7所示的问答***700可以用于执行上述实施例中的问答方法,问答***700包括:
获取模块701,用于获取第一用户输入的待解答问句;
处理模块702,用于从标准问答库的多个标准问句中,匹配出与待解答问句的相似度大于预设值的K个第一候选问句;标准问答库中包含每个标准问句对应的答案,每个标准问句的配置文件中包含关键词;将待解答问句中的关键词与K个第一候选问句中的关键词进行匹配,从K个第一候选问句中筛选出N个第二候选问句;基于N个第二候选问句对应的答案,输出待解答问句的答案。其中,K为大于等于2的整数;N为大于等于1的整数。
在一种可能的实施方式中,每个标准问句的配置文件还包括筛选指示,筛选指示用于表示该标准问句是否包含关键词;处理模块702在将待解答问句中的关键词与K个第一候选问句中的关键词进行匹配之前,还可以用于:基于K个第一候选问句的筛选指示,确定K个第一候选问句中包含关键词的M个第三候选问句,M为小于K的整数。
进而,处理模块702在用于将待解答问句中的关键词与K个第一候选问句中的关键词进行匹配时,具体用于:将待解答问句中的关键词与M个第三候选问句中的关键词进行匹配,从M个第三候选问句中筛选出N个第二候选问句;或者,将待解答问句中的关键词与M个第三候选问句中的关键词进行匹配,未筛选出问句,则将K个第一候选问句中除M个第三候选问句以外的问句,作为第二候选问句。
在一种可能的实施方式中,配置文件中的关键词包含实体词,实体词用于指示人和/或物体;处理模块702可以用于将待解答问句中的实体词确定为关键词,进而基于该实体词与K个第一候选问句中的关键词进行匹配,从K个第一候选问句中筛选出N个第二候选问句。
在一种可能的实施方式中,配置文件中的关键词还包含非实体词;处理模块702可以用于将待解答问句中的实体词和非实体词(例如,将实体词“保险”和非实体词“理赔”)作为关键词,进而基于该关键词与K个第一候选问句中的关键词进行匹配,从K个第一候选问句中筛选出N个第二候选问句。
在一种可能的实施方式中,若只有一个第二候选问句,处理模块702可以将该第二候选问句对应的答案作为待解答问句的答案并输出;若有多个第二候选问句,处理模块702可以确定多个第二候选问句中与待解答问句的相似度评分最高的第二问句,并将第二问句对应的答案作为待解答问句的答案并输出。
在一种可能的实施方式中,在处理模块702用于从标准问答库的多个标准问句中,匹配出与待解答问句的相似度大于预设值的K个第一候选问句之前,获取模块701还用于:获取至少一个配置项;处理模块702还用于,基于至少一个配置项,生成每个标准问句对应的配置文件。
在一种可能的实施方式中,配置项包括以下一项或多项:
问题字段,用于指示配置项对应配置的标准问句;
筛选指示字段,用于指示配置项对应配置的标准问句是否包含关键词;
关键词字段,用于指示配置项对应配置的标准问句中的关键词。
在一种可能的实施方式中,获取模块701在用于获取至少一个配置项时,具体用于:接收第二用户输入的第一文件;处理模块702还用于,基于第一文件,确定至少一个配置项。
可选的,问答***还包括显示模块703,显示模块703可以用于在用户界面上显示多个标准问句。在一种可能的实施方式中,获取模块701在用于获取至少一个配置项时,具体用于:接收针对一个或多个标准问句的输入操作;处理模块702,还用于响应于输入操作,确定至少一个配置项。
图7中的各个单元的只一个或多个可以软件、硬件、固件或其结合实现。软件或固件包括但不限于计算机程序指令或代码,并可以被硬件处理器所执行。硬件包括但不限于各类集成电路,如中CPU、GPU或DSP等。
图8提供了一种电子设备,如图8所示,电子设备800具体可以用于实现上述图7所示实施例中问答***700的功能。
电子设备800包括总线801、处理器802、显示器803和存储器804。处理器802、存储器804和显示器803之间通过总线801通信。其中,显示器803和存储器804相对于电子设备800是可选的,故图中用虚线表示。
总线801可以是外设部件互连标准(peripheral component interconnect,PCI)总线或扩展工业标准结构(extended industry standard architecture,EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,图8中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
处理器802可以为中央处理器(central processing unit,CPU)、图形处理器(graphics processing unit,GPU)、微处理器(micro processor,MP)或者数字信号处理器(digital signal processor,DSP)等处理器中的任意一种或多种。
显示器803是一种输入输出(input/output,I/O)设备。该设备可以将图形用户界面显示到屏幕上,以供用户进行相应的操作。根据制造材料不同,显示器803可以分为液晶显示器(liquid crystal display,LCD)、有机电激光(organic light emitting diode,OLED)显示器等。具体地,显示器803可以显示如图3B-至图6所示的用户界面。
存储器804可以包括易失性存储器(volatile memory),例如随机存取存储器(random access memory,RAM)。存储器804还可以包括非易失性存储器(non-volatilememory),例如只读存储器(read-only memory,ROM),快闪存储器,机械硬盘(hard drivedrive,HDD)或固态硬盘(solid state drive,SSD)。
存储器804中存储有可执行的程序代码,处理器802执行该可执行的程序代码以执行前述问答方法。
在一种可能的实施例中,处理器802执行上述程序代码,以控制显示器803通过图形用户界面接收用户操作,然后控制显示器803通过总线801传输用户操作至处理器802,处理器802可以根据用户操作,对标准问答库中的标准问句进行配置。
在另一种可能的实施例中,处理器802执行上述程序代码,以控制显示器803通过用户界面接收包含至少一个配置项的文件,然后控制显示器803通过总线801传输该文件至处理器802,处理器802可以该文件对标准问答库中的标准问句进行配置。
在一些可能的实现方式中,处理器802还可以控制其他接口接收用户输入的问句,并从标准问答库中匹配出与该问句的答案,并输出给用户。其中,其他接口可以是麦克风等。具体地,麦克风可以接收以语音形式输入的问句。
基于同一技术构思,本申请实施例还提供一种计算机可读介质,该计算机可读介质存储有用于设备执行的程序代码,该程序代码包括用于执行前述实施例中的问答方法。
基于同一技术构思,本申请实施例还提供一种包含指令的计算机程序指令,当该计算机程序指令在计算机上运行时,使得计算机执行前述实施例中的问答方法。
基于同一技术构思,本申请实施例还提供一种芯片,所述芯片包括处理器与数据接口,所述处理器用于通过所述数据接口读取并执行存储器上存储的指令,执行前述实施例中的问答方法。
在一种可能的设计中,所述芯片还可以包括存储器,所述存储器中存储有指令,所述处理器用于执行所述存储器上存储的指令,当所述指令被执行时,所述处理器用于执行前述实施例中的问答方法。
需要说明的是,本申请实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。在本申请的实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
上述实施例,可以全部或部分地通过软件、硬件、固件或其他任意组合来实现。当使用软件实现时,上述实施例可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以为通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集合的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质。半导体介质可以是固态硬盘(solid state drive,SSD)。
在本申请所提供的几个实施例中,应该理解到,所揭露的***和方法,可以通过其它的方式实现。例如,以上所描述的***实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,***0或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (18)
1.一种问答方法,其特征在于,包括:
获取用户输入的第一问句;
从标准问答库的多个标准问句中,匹配出与所述第一问句的相似度大于预设值的K个第一候选问句;其中,所述K为大于等于2的整数;所述标准问答库中包含每个所述标准问句对应的答案,每个所述标准问句的配置文件中包含关键词;
将所述第一问句中的关键词与所述K个第一候选问句中的关键词进行匹配,从所述K个第一候选问句中筛选出N个第二候选问句;所述N为大于等于1的整数;
基于N个所述第二候选问句对应的答案,输出所述第一问句的答案。
2.如权利要求1所述的方法,其特征在于,每个所述标准问句的所述配置文件还包括筛选指示,所述筛选指示用于表示该标准问句是否包含关键词;
在将所述第一问句中的关键词与所述K个第一候选问句中的关键词进行匹配之前,还包括:基于所述K个第一候选问句的筛选指示,确定所述K个第一候选问句中包含关键词的M个第三候选问句,所述M为小于所述K的整数;
所述将所述第一问句中的关键词与所述K个第一候选问句中的关键词进行匹配,包括:将所述第一问句中的关键词与所述M个第三候选问句中的关键词进行匹配,从所述M个第三候选问句中筛选出N个所述第二候选问句;或者,
将所述第一问句中的关键词与所述M个第三候选问句中的关键词进行匹配,未筛选出问句,则将所述K个第一候选问句中除所述M个第三候选问句以外的问句,作为所述第二候选问句。
3.如权利要求1或2所述的方法,其特征在于,所述配置文件中的关键词包含实体词,所述实体词用于指示人和/或物体。
4.如权利要求3所述的方法,其特征在于,所述配置文件中的关键词还包含非实体词。
5.如权利要求1-4任一项所述的方法,其特征在于,所述基于N个所述第二候选问句对应的答案,输出所述第一问句的答案,包括:
若只有一个所述第二候选问句,将该第二候选问句对应的答案作为所述第一问句的答案并输出;或者,
若有多个所述第二候选问句,确定多个所述第二候选问句中与所述第一问句的相似度评分最高的第二问句,将所述第二问句对应的答案作为所述第一问句的答案并输出。
6.如权利要求1-5任一项所述的方法,其特征在于,在从标准问答库的多个标准问句中,匹配出与所述第一问句的相似度大于预设值的K个第一候选问句之前,还包括:
获取至少一个配置项;
基于所述至少一个配置项,生成每个所述标准问句对应的所述配置文件;
其中,所述配置项包括以下一项或多项:
问题字段,用于指示所述配置项对应配置的所述标准问句;
筛选指示字段,用于指示所述配置项对应配置的所述标准问句是否包含关键词;
关键词字段,用于指示所述配置项对应配置的所述标准问句中的关键词。
7.如权利要求6所述的方法,其特征在于,所述获取至少一个配置项,包括:
接收所述用户输入的第一文件;
基于所述第一文件,确定所述至少一个配置项。
8.如权利要求6所述的方法,其特征在于,所述获取至少一个配置项,包括:
在用户界面上显示多个所述标准问句;
接收针对一个或多个所述标准问句的输入操作,响应于所述输入操作,确定所述至少一个配置项。
9.一种问答***,其特征在于,包括:
获取模块,用于获取用户输入的第一问句;
处理模块,用于从标准问答库的多个标准问句中,匹配出与所述第一问句的相似度大于预设值的K个第一候选问句;其中,所述K为大于等于2的整数;所述标准问答库中包含每个所述标准问句对应的答案,每个所述标准问句的配置文件中包含关键词;将所述第一问句中的关键词与所述K个所述第一候选问句中的关键词进行匹配,从所述K个第一候选问句中筛选出N个第二候选问句;所述N为大于等于1的整数;基于N个所述第二候选问句对应的答案,输出所述第一问句的答案。
10.如权利要求9所述的***,其特征在于,每个所述标准问句的所述配置文件还包括筛选指示,所述筛选指示用于表示该标准问句是否包含关键词;
所述处理模块在将所述第一问句中的关键词与所述K个第一候选问句中的关键词进行匹配之前,还用于:基于所述K个第一候选问句的筛选指示,确定所述K个第一候选问句中包含关键词的M个第三候选问句,所述M为小于所述K的整数;
所述处理模块在用于将所述第一问句中的关键词与所述K个第一候选问句中的关键词进行匹配时,具体用于:
将所述第一问句中的关键词与所述M个第三候选问句中的关键词进行匹配,从所述M个第三候选问句中筛选出N个所述第二候选问句;或者,
将所述第一问句中的关键词与所述M个第三候选问句中的关键词进行匹配,未筛选出问句,则将所述K个第一候选问句中除所述M个第三候选问句以外的问句,作为所述第二候选问句。
11.如权利要求9或10所述的***,其特征在于,所述配置文件中的关键词包含实体词,所述实体词用于指示人和/或物体。
12.如权利要求11所述的***,其特征在于,所述配置文件中的关键词还包含非实体词。
13.如权利要求9-12任一项所述的***,其特征在于,所述处理模块在用于基于N个所述第二候选问句对应的答案,输出所述第一问句的答案时,具体用于:
若只有一个所述第二候选问句,将该第二候选问句对应的答案作为所述第一问句的答案并输出;或者,
若有多个所述第二候选问句,确定多个所述第二候选问句中与所述第一问句的相似度评分最高的第二问句,将所述第二问句对应的答案作为所述第一问句的答案并输出。
14.如权利要求9-13任一项所述的***,其特征在于,在所述处理模块用于从标准问答库的多个标准问句中,匹配出与所述第一问句的相似度大于预设值的K个第一候选问句之前,所述获取模块还用于:获取至少一个配置项;
所述处理模块还用于,基于所述至少一个配置项,生成每个所述标准问句对应的所述配置文件;
其中,所述配置项包括以下一项或多项:
问题字段,用于指示所述配置项对应配置的所述标准问句;
筛选指示字段,用于指示所述配置项对应配置的所述标准问句是否包含关键词;
关键词字段,用于指示所述配置项对应配置的所述标准问句中的关键词。
15.如权利要求14所述的***,其特征在于,所述获取模块在用于获取至少一个配置项时,具体用于:接收用户输入的第一文件;
所述处理模块还用于,基于所述第一文件,确定所述至少一个配置项。
16.如权利要求14所述的***,其特征在于,还包括显示模块;
所述显示模块,用于在用户界面上显示多个所述标准问句;
所述获取模块在用于获取至少一个配置项时,具体用于:接收针对一个或多个所述标准问句的输入操作;
所述处理模块,还用于响应于所述输入操作,确定所述至少一个配置项。
17.一种电子设备,其特征在于,其特征在于,包括:处理器,所述处理器用于与存储器耦合,读取并执行所述存储器中的计算机程序指令,以执行如权利要求1-8中任一项所述的方法。
18.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,当所述计算机程序被计算机执行时,使得所述计算机执行如权利要求1-8任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110457701.8A CN114936272A (zh) | 2021-04-27 | 2021-04-27 | 一种问答方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110457701.8A CN114936272A (zh) | 2021-04-27 | 2021-04-27 | 一种问答方法及*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114936272A true CN114936272A (zh) | 2022-08-23 |
Family
ID=82863144
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110457701.8A Pending CN114936272A (zh) | 2021-04-27 | 2021-04-27 | 一种问答方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114936272A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160247068A1 (en) * | 2013-11-01 | 2016-08-25 | Tencent Technology (Shenzhen) Company Limited | System and method for automatic question answering |
CN106649868A (zh) * | 2016-12-30 | 2017-05-10 | 首都师范大学 | 问答匹配方法及装置 |
CN108595619A (zh) * | 2018-04-23 | 2018-09-28 | 海信集团有限公司 | 一种问答方法及设备 |
CN110990541A (zh) * | 2018-09-30 | 2020-04-10 | 北京国双科技有限公司 | 一种实现问答的方法及装置 |
CN111984763A (zh) * | 2020-08-28 | 2020-11-24 | 海信电子科技(武汉)有限公司 | 一种答问处理方法及智能设备 |
CN112084315A (zh) * | 2020-09-07 | 2020-12-15 | 腾讯科技(深圳)有限公司 | 问答互动方法、装置、存储介质及设备 |
-
2021
- 2021-04-27 CN CN202110457701.8A patent/CN114936272A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160247068A1 (en) * | 2013-11-01 | 2016-08-25 | Tencent Technology (Shenzhen) Company Limited | System and method for automatic question answering |
CN106649868A (zh) * | 2016-12-30 | 2017-05-10 | 首都师范大学 | 问答匹配方法及装置 |
CN108595619A (zh) * | 2018-04-23 | 2018-09-28 | 海信集团有限公司 | 一种问答方法及设备 |
CN110990541A (zh) * | 2018-09-30 | 2020-04-10 | 北京国双科技有限公司 | 一种实现问答的方法及装置 |
CN111984763A (zh) * | 2020-08-28 | 2020-11-24 | 海信电子科技(武汉)有限公司 | 一种答问处理方法及智能设备 |
CN112084315A (zh) * | 2020-09-07 | 2020-12-15 | 腾讯科技(深圳)有限公司 | 问答互动方法、装置、存储介质及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Shaalan et al. | A hybrid approach to Arabic named entity recognition | |
CN108334490B (zh) | 关键词提取方法以及关键词提取装置 | |
US10198506B2 (en) | System and method of sentiment data generation | |
US10552467B2 (en) | System and method for language sensitive contextual searching | |
CN111324771B (zh) | 视频标签的确定方法、装置、电子设备及存储介质 | |
US10311113B2 (en) | System and method of sentiment data use | |
Maier et al. | Machine translation vs. multilingual dictionaries assessing two strategies for the topic modeling of multilingual text collections | |
WO2021068932A1 (zh) | 基于电子书的实体关联信息的展示方法及电子设备 | |
US9940355B2 (en) | Providing answers to questions having both rankable and probabilistic components | |
JP5399450B2 (ja) | 医療用語の曖昧性を判定するシステム、方法およびソフトウェア | |
US20210103622A1 (en) | Information search method, device, apparatus and computer-readable medium | |
JP2013061951A (ja) | カテゴリ化によるホスト・コンテンツとゲスト・コンテンツの自動マッチングのための機構 | |
US7860873B2 (en) | System and method for automatic terminology discovery | |
KR20150130214A (ko) | 텍스트를 포함하는 문서 분류 및 분석 방법 및 이를 수행하는 문서 분류 및 분석 장치 | |
CN111814481B (zh) | 购物意图识别方法、装置、终端设备及存储介质 | |
Qian et al. | Detecting new Chinese words from massive domain texts with word embedding | |
Rodrigues et al. | Advanced applications of natural language processing for performing information extraction | |
Moradi et al. | A hybrid approach for Persian named entity recognition | |
US9904736B2 (en) | Determining key ebook terms for presentation of additional information related thereto | |
Li et al. | A novel methodology for retrieving infographics utilizing structure and message content | |
CN109783612B (zh) | 报表数据定位方法及装置、存储介质、终端 | |
Moratanch et al. | Anaphora resolved abstractive text summarization (AR-ATS) system | |
Chen et al. | An automatic method for extracting innovative ideas based on the scopus® database | |
WO2019231635A1 (en) | Method and apparatus for generating digest for broadcasting | |
Jabbar et al. | A comparative review of Urdu stemmers: Approaches and challenges |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20220823 |
|
RJ01 | Rejection of invention patent application after publication |