CN110990528A - 一种问答方法、装置及电子设备 - Google Patents

一种问答方法、装置及电子设备 Download PDF

Info

Publication number
CN110990528A
CN110990528A CN201911186885.8A CN201911186885A CN110990528A CN 110990528 A CN110990528 A CN 110990528A CN 201911186885 A CN201911186885 A CN 201911186885A CN 110990528 A CN110990528 A CN 110990528A
Authority
CN
China
Prior art keywords
candidate
memo
information
memorandum
question
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911186885.8A
Other languages
English (en)
Inventor
岳聪
雷欣
李志飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Go Out And Ask Suzhou Information Technology Co ltd
Original Assignee
Go Out And Ask Suzhou Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Go Out And Ask Suzhou Information Technology Co ltd filed Critical Go Out And Ask Suzhou Information Technology Co ltd
Priority to CN201911186885.8A priority Critical patent/CN110990528A/zh
Publication of CN110990528A publication Critical patent/CN110990528A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3343Query execution using phonetics

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种问答方法、装置及电子设备。该方法的一实施例包括:获取查询语信息;从问答库中选取与所述查询语信息对应的多个候选备忘录信息;通过备忘录筛选模型和打分算法计算所述多个候选备忘录信息中每个候选备忘录信息的正确率得分;将正确率得分最高的候选备忘录信息作为准备忘录信息。本发明实施例通过从问答库中选取与所述查询语信息对应的多个候选备忘录信息,并通过备忘录筛选模型和打分算法计算所述多个候选备忘录信息中每个候选备忘录信息的正确率得分,而后将正确率得分最高的候选备忘录信息作为准备忘录信息,从而提高备忘录信息筛选的正确率,进而提高应答的准确率。

Description

一种问答方法、装置及电子设备
技术领域
本发明属于智能技术领域,尤其涉及一种问答方法、装置及电子设备。
背景技术
语音交互是一种人机交互方式。区别于传统的图形界面交互,语音交互可以使人通过自然地说话和计算机完成信息交互和指令传达,就像平时人和人之间用自然语言交流一样。语音备忘***,是指用户可以使用语音交互的方式,让智能交互设备记录住具体的备忘录内容。同时,也可以通过语音搜索的方式,得到自身之前已经存储的各种备忘录信息。
现有技术的检索***筛选备忘录信息时,通常利用算法打分的方法进行备忘录信息筛选,而不能有效地利用语义进行备忘录信息的筛选。
发明内容
有鉴于此,本发明实施例提供一种问答方法、装置及电子设备,能够提升备忘录筛选的正确率。
为实现上述目的,根据本发明实施例第一方面,提供一种问答方法。
本发明实施例的一种问答方法,包括:获取查询语信息;从问答库中选取与所述查询语信息对应的多个候选备忘录信息;通过备忘录筛选模型和打分算法计算所述多个候选备忘录信息中每个候选备忘录信息的正确率得分;将正确率得分最高的候选备忘录信息作为准备忘录信息。
可选的,所述问答方法还包括:获取问答库中的开源问答数据集和众包备忘录问答数据集;将所述开源问答数据集和众包备忘录问答数据集分别作为预训练样本数据和准训练样本数据进行模型训练,得到所述备忘录筛选模型。
可选的,所述将所述开源问答数据集和众包备忘录问答数据集分别作为预训练样本数据和准训练样本数据进行模型训练,得到所述备忘录筛选模型,包括:将所述开源问答数据集作为预训练样本数据对语言模型进行训练,得到预备忘录筛选模型;将所述众包备忘录问答数据集作为准训练样本数据对所述预备忘录筛选模型进行训练,得到备忘录筛选模型。
可选的,所述通过备忘录筛选模型和打分算法计算所述多个候选备忘录信息中每个候选备忘录信息的正确率得分,包括:通过备忘录筛选模型计算所述多个候选备忘录信息中每个候选备忘录信息的模型得分;通过打分算法计算所述多个候选备忘录信息中每个候选备忘录信息的算法得分;对所述候选备忘录信息的模型得分和算法得分进行线性加权相加,得到所述候选备忘录信息的正确率得分。
可选的,所述通过打分算法计算所述多个候选备忘录信息中每个候选备忘录信息的算法得分,包括:通过TF-IDF算法计算所述多个候选备忘录信息中每个候选备忘录信息与所述查询语信息之间的TF-IDF得分;或,通过编辑距离算法计算所述多个候选备忘录信息中每个候选备忘录信息与所述查询语信息之间的编辑距离得分;或,通过最长公共子序列算法计算所述多个候选备忘录信息中每个候选备忘录信息的序列得分。
可选的,所述的问答方法还包括:对所述多个候选备忘录信息中的每个所述候选备忘录信息的TF-IDF得分、编辑距离得分和序列得分进行线性加权相加,得到每个所述候选备忘录信息的算法得分。
为实现上述目的,本发明实施例第二方面,还提供一种问答装置。
本发明实施例的一种问答装置,包括:获取模块,用于获取查询语信息;选取模块,用于从问答库中选取与所述查询语信息对应的多个候选备忘录信息;计算模块,用于通过备忘录筛选模型和打分算法计算所述多个候选备忘录信息中每个候选备忘录信息的正确率得分;准备忘录模块,用于将正确率得分最高的候选备忘录信息作为准备忘录信息。
可选的,所述的装置还包括:获取模块,还用于获取问答库中的开源问答数据集和众包备忘录问答数据集;模型训练模块,用于将所述开源问答数据集和众包备忘录问答数据集分别作为预训练样本数据和准训练样本数据进行模型训练,得到所述备忘录筛选模型。
可选的,所述模型训练模块包括:预备忘录筛选模型单元,用于将所述开源问答数据集作为预训练样本数据对语言模型进行训练,得到预备忘录筛选模型;准备忘录筛选模型单元,用于将所述众包备忘录问答数据集作为准训练样本数据对所述预备忘录筛选模型进行训练,得到备忘录筛选模型。
为实现上述目的,根据本发明实施例第三方面,还提供一种电子设备。
本发明实施例的一种电子设备包括:一个或多个处理器;存储装器,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面所述的问答方法。
为实现上述目的,根据本发明实施例第四方面,还提供了一种计算机可读介质。
本发明实施例的一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现如第一方面所述的问答方法。
上述发明中的一个实施例具有如下优点或有益效果:通过从问答库中选取与所述查询语信息对应的多个候选备忘录信息,并通过备忘录筛选模型和打分算法计算所述多个候选备忘录信息中每个候选备忘录信息的正确率得分,而后将正确率得分最高的候选备忘录信息作为准备忘录信息,从而提高备忘录信息筛选的正确率,进而提高应答的准确率。
上述的非惯用的可选方式所具有的进一步的效果将在下文结合具体实施方式加以说明。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:在附图中,相同或对应的标号表示相同或对应的部分。
图1为本发明一实施例的问答方法的流程图;
图2为本发明另一实施例的问答方法的流程图;
图3为本发明一实施例的问答装置的示意图;
图4为本发明实施例可以应用于其中的示例性***架构图;
图5是适于用来实现本发明实施例的终端设备或服务器的计算机***的结构示意图;
图6为本发明实施例的问答方法对测试样例进行测试的结果。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
图1为本发明一实施例的问答方法的流程图。如图1所示,本发明实施例的问答方法包括:
S101:获取查询语信息;
具体地,查询语信息是通过手动打字方式或者通过语音记录方式输入***。其中通过语音记录方式输入***的查询语信息,在***内会自动转换成文字的形式。
S102:从问答库中选取与所述查询语信息对应的多个候选备忘录信息;
S103:通过备忘录筛选模型和打分算法计算所述多个候选备忘录信息中每个候选备忘录信息的正确率得分;
具体地,利用问答数据集对现有模型进行训练,得到备忘录筛选模型;对备忘录筛选模型和打分算法分别施加不同的权重以计算所述多个候选备忘录信息中每个候选备忘录信息的正确率得分。
例如,现有模型是指自然语言处理学术界和工业界已经开源了部分预训练好的开源语言模型和词向量模型。现有模型包括:Elmo模型、GPT模型、Bert模型等;现有模型能够一定程度上捕捉字词语义、上下文语义关联等信息的语义表示。
S104:将正确率得分最高的候选备忘录信息作为准备忘录信息。
应理解,在本发明的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在的逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
本发明实施例通过从问答库中选取与所述查询语信息对应的多个候选备忘录信息,并通过备忘录筛选模型和打分算法计算所述多个候选备忘录信息中每个候选备忘录信息的正确率得分,而后将正确率得分最高的候选备忘录信息作为准备忘录信息,从而提高备忘录信息筛选的正确率,进而提高应答的准确率。
图2为本发明另一实施例的问答方法的流程图。如图2所示,本发明实施的问答方法包括:
S201:获取问答库中的开源问答数据集和众包备忘录问答数据集;
具体地,开源问答数据集和众包备忘录问答数据集均是问题和答案一一对应的数据集。开源问答数据集对问题的种类不作任何限定,包括不同种类的问题;而众包备忘录问答数据集是针对特定种类问题的问答数据集。
S202:将所述开源问答数据集作为预训练样本数据对语言模型进行训练,得到预备忘录筛选模型;
S203:将所述众包备忘录问答数据集作为准训练样本数据对所述预备忘录筛选模型进行训练,得到备忘录筛选模型。
具体地,采用开源问答数据集对语言模型进行第一次微调训练,得到预备忘录筛选模型,读取预备忘录筛选模型的模型权重;然后采用众包备忘录问答数据集预备忘录筛选模型进行第二次微调训练,最终得到备忘录筛选模。
S204:获取查询语信息;
S205:从问答库中选取与所述查询语信息对应的多个候选备忘录信息;
S206:通过备忘录筛选模型计算所述多个候选备忘录信息中每个候选备忘录信息的模型得分;
在这里,模型得分是指每个候选备忘录信息与所述查询语信息的相似度得分;相似度得分取0-1之间的数值。
S207:通过打分算法计算所述多个候选备忘录信息中每个候选备忘录信息的算法得分;
具体地,通过打分算法计算所述多个候选备忘录信息中每个候选备忘录信息的算法得分包括:通过TF-IDF算法计算所述多个候选备忘录信息中每个候选备忘录信息与所述查询语信息之间的TF-IDF得分;或,通过编辑距离算法计算所述多个候选备忘录信息中每个候选备忘录信息与所述查询语信息之间的编辑距离得分;或,通过最长公共子序列算法计算所述多个候选备忘录信息中每个候选备忘录信息的序列得分;对所述多个候选备忘录信息中的每个所述候选备忘录信息的TF-IDF得分、编辑距离得分和序列得分进行线性加权相加,得到每个所述候选备忘录信息的算法得分。
S208:对所述候选备忘录信息的模型得分和算法得分进行线性加权相加,得到所述候选备忘录信息的正确率得分。
S209:将正确率得分最高的候选备忘录信息作为准备忘录信息。
例如,候选备忘录信息的正确率得分=0.9乘以算法得分+0.1乘以备忘录筛选模型得分。
如图6所示为本发明实施例的问答方法对测试样例进行测试的结果。主要是针对包含362个测试样例的测试集进行验证的结果。其中,final表示算法权重,qr_sim表示备忘录筛选模型权重,p@1表示每个样例中包含1个准备忘录信息的正确样例数量,p@2表示每个样例中包含2个准备忘录信息的正确样例数量,p@3表示每个样例中包含3个准备忘录信息的正确样例数量,p@4表示每个样例中包含4个准备忘录信息的正确样例数量,p@5表示每个样例中包含5个准备忘录信息的正确样例数量,p@10表示每个样例中包含10个准备忘录信息的正确样例数量。随着备忘录筛选模型权重的增加,候选备忘录信息的正确率也在上升。当以p@1作为主要衡量标准的测试设置中,优选地,采用算法权重为0.9,备忘录筛选模型权重为0.1。
应理解,在本发明的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在的逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
本发明实施例通过对采用开源问答数据集对语言模型进行第一次微调训练得到预备忘录筛选模型,并采用众包备忘录问答数据集预备忘录筛选模型进行第二次微调训练得到备忘录筛选模型;而后对备忘录筛选模型和算法施以不同的权重,以计算所述多个候选备忘录信息中每个候选备忘录信息的正确率得分,并将正确率得分最高的候选备忘录信息作为准备忘录信息,从而提高了问答过程中备忘录筛选的正确率。
如图3所示,为本发明一实施例的问答装置的示意图。所述的装置300包括:获取模块301,用于获取查询语信息;选取模块302,用于从问答库中选取与所述查询语信息对应的多个候选备忘录信息;计算模块303,用于通过备忘录筛选模型和打分算法计算所述多个候选备忘录信息中每个候选备忘录信息的正确率得分;准备忘录模块304,用于将正确率得分最高的候选备忘录信息作为准备忘录信息。
在可选的实施例中,所述的装置还包括:获取模块,还用于获取问答库中的开源问答数据集和众包备忘录问答数据集;模型训练模块,用于将所述开源问答数据集和众包备忘录问答数据集分别作为预训练样本数据和准训练样本数据进行模型训练,得到所述备忘录筛选模型。
在可选的实施例中,所述模型训练模块包括:预备忘录筛选模型单元,用于将所述开源问答数据集作为预训练样本数据对语言模型进行训练,得到预备忘录筛选模型;准备忘录筛选模型单元,用于将所述众包备忘录问答数据集作为准训练样本数据对所述预备忘录筛选模型进行训练,得到备忘录筛选模型。
在可选的实施例中,计算模块包括:模型计算单元,用于通过备忘录筛选模型计算所述多个候选备忘录信息中每个候选备忘录信息的模型得分;算法计算单元,用于通过打分算法计算所述多个候选备忘录信息中每个候选备忘录信息的算法得分;线性算法单元,用于对所述候选备忘录信息的模型得分和算法得分进行线性加权相加,得到所述候选备忘录信息的正确率得分。
在可选的实施例中,算法计算单元包括:TF-IDF算法子单元,用于通过TF-IDF算法计算所述多个候选备忘录信息中每个候选备忘录信息与所述查询语信息之间的TF-IDF得分;或,编辑距离算法子单元,用于通过编辑距离算法计算所述多个候选备忘录信息中每个候选备忘录信息与所述查询语信息之间的编辑距离得分;或,最长公共子序列算法子单元,用于通过最长公共子序列算法计算所述多个候选备忘录信息中每个候选备忘录信息的序列得分。
在可选的实施例中,算法计算单元还包括:线性计算子单元,用于对所述多个候选备忘录信息中的每个所述候选备忘录信息的TF-IDF得分、编辑距离得分和序列得分进行线性加权相加,得到每个所述候选备忘录信息的算法得分。
图4为本发明实施例可以应用于其中的示例性***架构图。
如图4所示,***架构400可以包括终端设备401、402、403,网络404和服务器405。网络404用以在终端设备401、402、403和服务器405之间提供通信链路的介质。网络404可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备401、402、403通过网络404与服务器405交互,以接收或发送消息等。终端设备401、402、403上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
终端设备401、402、403可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器405可以是提供各种服务的服务器,例如对用户利用终端设备401、402、403所产生的点击事件提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的点击数据、文本内容等数据进行分析等处理,并将处理结果(例如目标推送信息、产品信息--仅为示例)反馈给终端设备。
需要说明的是,本申请实施例所提供的问答方法一般由服务器405执行,相应地,问答装置一般设置于服务器405中。
应该理解,图4中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
根据本发明的实施例,本发明还提供了一种电子设备和一种计算机可读介质。
本发明的电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明实施例的一种问答方法。
本发明的计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现本发明实施例的一种问答方法。
下面参考图5,其示出了适于用来实现实施例的终端设备或服务器的计算机***的结构示意图。图5示出的终端设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,计算机***500包括中央处理单元(CPU)501,其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM503中,还存储有***500操作所需的各种程序和数据。CPU501、ROM502以及RAM503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。以下部件连接至I/O接口505:包括键盘、鼠标等的输入部分506;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507;包括硬盘等的存储部分508;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器510上,以便于从其上读出的计算机程序根据需要被安装入存储部分508。
特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分509从网络上被下载和安装,和/或从可拆卸介质511被安装。在该计算机程序被中央处理单元(CPU)501执行时,执行本发明的***中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、***或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储序的有形介质,该程序可以被指令执行***、***或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行***、***或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括发送模块、获取模块、确定模块和第一处理模块。其中,这些模块的名称在某种情况下并不构成对该单元本身的限定,例如,发送模块还可以被描述为“向所连接的服务端发送图片获取请求的模块”。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括:获取查询语信息;从问答库中选取与所述查询语信息对应的多个候选备忘录信息;通过备忘录筛选模型和打分算法计算所述多个候选备忘录信息中每个候选备忘录信息的正确率得分;将正确率得分最高的候选备忘录信息作为准备忘录信息。
从以上描述可以看出,本发明实施例通过对采用开源问答数据集对语言模型进行第一次微调训练得到预备忘录筛选模型,并采用众包备忘录问答数据集预备忘录筛选模型进行第二次微调训练得到备忘录筛选模型;而后对备忘录筛选模型和算法施以不同的权重,以计算所述多个候选备忘录信息中每个候选备忘录信息的正确率得分,并将正确率得分最高的候选备忘录信息作为准备忘录信息,从而提高了问答过程中备忘录筛选的正确率。
上述产品可执行本发明实施例所提供的问答方法,具备执行问答方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明实施例所提供的方法。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
以上所述,仅为本发明的具体实施路径,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种问答方法,其特征在于,包括:
获取查询语信息;
从问答库中选取与所述查询语信息对应的多个候选备忘录信息;
通过备忘录筛选模型和打分算法计算所述多个候选备忘录信息中每个候选备忘录信息的正确率得分;
将正确率得分最高的候选备忘录信息作为准备忘录信息。
2.根据权利要求1所述的方法,其特征在于,还包括:
获取问答库中的开源问答数据集和众包备忘录问答数据集;
将所述开源问答数据集和众包备忘录问答数据集分别作为预训练样本数据和准训练样本数据进行模型训练,得到所述备忘录筛选模型。
3.根据权利要求2所述的方法,其特征在于,所述将所述开源问答数据集和众包备忘录问答数据集分别作为预训练样本数据和准训练样本数据进行模型训练,得到所述备忘录筛选模型,包括:
将所述开源问答数据集作为预训练样本数据对语言模型进行训练,得到预备忘录筛选模型;
将所述众包备忘录问答数据集作为准训练样本数据对所述预备忘录筛选模型进行训练,得到备忘录筛选模型。
4.根据权利要求1至3任一项所述的方法,其特征在于,所述通过备忘录筛选模型和打分算法计算所述多个候选备忘录信息中每个候选备忘录信息的正确率得分,包括:
通过备忘录筛选模型计算所述多个候选备忘录信息中每个候选备忘录信息的模型得分;
通过打分算法计算所述多个候选备忘录信息中每个候选备忘录信息的算法得分;
对所述候选备忘录信息的模型得分和算法得分进行线性加权相加,得到所述候选备忘录信息的正确率得分。
5.根据权利要求4所述的方法,其特征在于,所述通过打分算法计算所述多个候选备忘录信息中每个候选备忘录信息的算法得分,包括:
通过TF-IDF算法计算所述多个候选备忘录信息中每个候选备忘录信息与所述查询语信息之间的TF-IDF得分;
或,通过编辑距离算法计算所述多个候选备忘录信息中每个候选备忘录信息与所述查询语信息之间的编辑距离得分;
或,通过最长公共子序列算法计算所述多个候选备忘录信息中每个候选备忘录信息的序列得分。
6.根据权利要求5所述的方法,其特征在于,所述通过打分算法计算所述多个候选备忘录信息中每个候选备忘录信息的算法得分,还包括:
对所述多个候选备忘录信息中的每个所述候选备忘录信息的TF-IDF得分、编辑距离得分和序列得分进行线性加权相加,得到每个所述候选备忘录信息的算法得分。
7.一种问答装置,其特征在于,包括:
获取模块,用于获取查询语信息;
选取模块,用于从问答库中选取与所述查询语信息对应的多个候选备忘录信息;
计算模块,用于通过备忘录筛选模型和打分算法计算所述多个候选备忘录信息中每个候选备忘录信息的正确率得分;
准备忘录模块,用于将正确率得分最高的候选备忘录信息作为准备忘录信息。
8.根据权利要求7所述的装置,其特征在于,还包括:
获取模块,还用于获取问答库中的开源问答数据集和众包备忘录问答数据集;
模型训练模块,用于将所述开源问答数据集和众包备忘录问答数据集分别作为预训练样本数据和准训练样本数据进行模型训练,得到所述备忘录筛选模型。
9.根据权利要求8所述的装置,其特征在于,所述模型训练模块包括:
预备忘录筛选模型单元,用于将所述开源问答数据集作为预训练样本数据对语言模型进行训练,得到预备忘录筛选模型;
准备忘录筛选模型单元,用于将所述众包备忘录问答数据集作为准训练样本数据对所述预备忘录筛选模型进行训练,得到备忘录筛选模型。
10.一种电子设备,其特征在于,包括:一个或多个处理器;存储装器,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-6中任一项所述的方法。
CN201911186885.8A 2019-11-27 2019-11-27 一种问答方法、装置及电子设备 Pending CN110990528A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911186885.8A CN110990528A (zh) 2019-11-27 2019-11-27 一种问答方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911186885.8A CN110990528A (zh) 2019-11-27 2019-11-27 一种问答方法、装置及电子设备

Publications (1)

Publication Number Publication Date
CN110990528A true CN110990528A (zh) 2020-04-10

Family

ID=70087586

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911186885.8A Pending CN110990528A (zh) 2019-11-27 2019-11-27 一种问答方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN110990528A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112364150A (zh) * 2021-01-12 2021-02-12 南京云创大数据科技股份有限公司 一种结合检索与生成的智能问答方法和***

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107038220A (zh) * 2017-03-20 2017-08-11 北京光年无限科技有限公司 用于生成备忘录的方法、智能机器人及***
CN108345672A (zh) * 2018-02-09 2018-07-31 平安科技(深圳)有限公司 智能应答方法、电子装置及存储介质
CN109271505A (zh) * 2018-11-12 2019-01-25 深圳智能思创科技有限公司 一种基于问题答案对的问答***实现方法
CN109800292A (zh) * 2018-12-17 2019-05-24 北京百度网讯科技有限公司 问答匹配度的确定方法、装置及设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107038220A (zh) * 2017-03-20 2017-08-11 北京光年无限科技有限公司 用于生成备忘录的方法、智能机器人及***
CN108345672A (zh) * 2018-02-09 2018-07-31 平安科技(深圳)有限公司 智能应答方法、电子装置及存储介质
CN109271505A (zh) * 2018-11-12 2019-01-25 深圳智能思创科技有限公司 一种基于问题答案对的问答***实现方法
CN109800292A (zh) * 2018-12-17 2019-05-24 北京百度网讯科技有限公司 问答匹配度的确定方法、装置及设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112364150A (zh) * 2021-01-12 2021-02-12 南京云创大数据科技股份有限公司 一种结合检索与生成的智能问答方法和***

Similar Documents

Publication Publication Date Title
CN109460513B (zh) 用于生成点击率预测模型的方法和装置
CN111428010B (zh) 人机智能问答的方法和装置
US20180365257A1 (en) Method and apparatu for querying
CN108121699B (zh) 用于输出信息的方法和装置
CN111159220B (zh) 用于输出结构化查询语句的方法和装置
CN109858045B (zh) 机器翻译方法和装置
CN108228567B (zh) 用于提取组织机构的简称的方法和装置
CN110232920B (zh) 语音处理方法和装置
CN110059172B (zh) 基于自然语言理解的推荐答案的方法和装置
US20190188623A1 (en) Cognitive and dynamic business process generation
CN107885872B (zh) 用于生成信息的方法和装置
US11366973B2 (en) Method and apparatus for determining a topic
CN113672699A (zh) 基于知识图谱的nl2sql生成方法
CN111026849B (zh) 数据处理方法和装置
CN112182255A (zh) 用于存储媒体文件和用于检索媒体文件的方法和装置
CN110990528A (zh) 一种问答方法、装置及电子设备
US20200159824A1 (en) Dynamic Contextual Response Formulation
CN113360590B (zh) 兴趣点信息的更新方法、装置、电子设备及存储介质
CN110881056A (zh) 用于推送信息的方法和装置
US11922129B2 (en) Causal knowledge identification and extraction
CN109857838B (zh) 用于生成信息的方法和装置
CN113111230B (zh) 基于正则表达式的接处警文本户籍地地址提取方法和装置
CN112148751B (zh) 用于查询数据的方法和装置
CN111767290B (zh) 用于更新用户画像的方法和装置
CN112148847A (zh) 一种语音信息的处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination