CN102737042A - 建立问句生成模型的方法和装置以及问句生成方法和装置 - Google Patents

建立问句生成模型的方法和装置以及问句生成方法和装置 Download PDF

Info

Publication number
CN102737042A
CN102737042A CN2011100879119A CN201110087911A CN102737042A CN 102737042 A CN102737042 A CN 102737042A CN 2011100879119 A CN2011100879119 A CN 2011100879119A CN 201110087911 A CN201110087911 A CN 201110087911A CN 102737042 A CN102737042 A CN 102737042A
Authority
CN
China
Prior art keywords
question sentence
template
query
probability
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011100879119A
Other languages
English (en)
Other versions
CN102737042B (zh
Inventor
赵世奇
王海峰
方高林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201110087911.9A priority Critical patent/CN102737042B/zh
Publication of CN102737042A publication Critical patent/CN102737042A/zh
Application granted granted Critical
Publication of CN102737042B publication Critical patent/CN102737042B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种建立问句生成模型的方法和装置以及问句生成方法和装置,建立的问句生成模型包括:问句模板与搜索请求(query)之间的对应关系以及各query到对应问句模板的概率;其中建立问句模型的方法包括:从搜索日志中,统计各query以及用户从query对应的搜索结果中点击的问句之间的对应关系;从统计到的问句中抽取出问句模板,并记录问句模板对应的query;计算各query到对应问句模板的概率。问句生成方法包括:确定用户输入的搜索请求Qr在问句生成模型中的相似query;从相似query在问句生成模型中对应的各问句模板中,为Qr选择问句模板;利用Qr对问句模板进行实例化,得到Qr对应的问句。

Description

建立问句生成模型的方法和装置以及问句生成方法和装置
【技术领域】
本发明涉及计算机技术领域,特别涉及一种建立问句生成模型的方法和装置以及问句生成方法和装置。
【背景技术】
问答社区(CQA,Community-based Question Answering)是指诸如百度知道、搜搜问问等由网络用户之间相互提问和回答的知识问答平台。由于其准确性、及时性等优势,近年来得到了迅速的发展。在问答社区中涉及的问答页面通常以提问作为标题,以便与用户在搜索引擎中输入的query进行匹配,为用户提供想要的信息。
在目前的问答社区中有两个问题亟待解决:其一、提高基于问答社区的信息搜索技术的准确率。用户在搜索时心里通常是存在一个清晰明确的问句的,不过出于省时省力的考虑会仅输入几个关键词作为query进行搜索。例如:用户输入“姚明身高”的query时,想问的问句是“姚明的身高是多少?”。对用户输入的query进行搜索匹配时,可能会匹配到虽然命中关键词但与用户实际想问的问句相关性较低的页面。其二、如何根据热点需求自动导入提问,等待用户回答。
基于对上述两个问题的考量,如何利用搜索日志中的query生成需求明确且易于理解的问句是关键。
【发明内容】
有鉴于此,本发明提供了一种建立问句生成模型的方法和装置以及问句生成方法和装置,以便于利用搜索日志中的query生成需求明确且易于理解的问句。
具体技术方案如下:
一种建立问句生成模型的方法,所述问句生成模型包括:问句模板与搜索请求query之间的对应关系以及各query到对应问句模板的概率;该方法包括:
A、从搜索日志中,统计各query以及用户从query对应的搜索结果中点击的问句之间的对应关系;
B、从统计到的问句中抽取出问句模板,并将问句模板以及问句模板对应的query记录在数据库中;
C、计算各query到对应问句模板的概率,并将各query到问句模板的概率记录在所述数据库中。
其中,所述点击的问句为:点击的页面标题中所包含的问句,且该问句包含对应query进行分词处理后得到的各词语。
具体地,所述步骤B中从统计到的问句中抽取出问句模板可以包括:
将统计到的问句中所包含对应query进行分词处理后得到的词语抽象成变量槽的形式,并记录变量槽与query进行分词处理后得到的各词语的位置关系,从而得到问句模板。
在所述步骤C中,按照公式
Figure BDA0000054433400000021
计算query Qri到问句模板Tp的概率p(Tp|Qri);
其中,c(Qri)表示Qri在所述搜索日志中出现的次数,c(Tp,Qri)表示Qri对应到Tp的次数。
一种问句生成方法,该方法包括:
A、确定用户输入的搜索请求Qr在问句生成模型中的相似query,所述问句生成模型包括:问句模板与query之间的对应关系以及各query到对应问句模板的概率;
B、从所述相似query在问句生成模型中对应的各问句模板中,为所述Qr选择问句模板;
C、利用所述Qr对选择的问句模板进行实例化,得到所述Qr对应的问句。
其中,所述步骤A中确定出的相似query与所述Qr具有相同个数的词语,且与所述Qr至少含有一个相同的词语。
所述步骤B具体包括:
B11、将所述相似query对应的各问句模板确定为所述Qr对应的候选问句模板;
B12、利用所述Qr与相似query的相似度以及问句生成模型中相似query到相似query对应各问句模板的概率,确定所述Qr到对应各候选问句模板的概率;
B13、选择所述Qr到对应各候选问句模板的概率满足预设条件的候选问句模板作为所述Qr对应的问句模板。
此时,所述Qr到对应各候选问句模板的概率采用如下公式计算:
f ( Tp j , Qr ) = log Σ i = 1 m p ( Tp j | Qr i ) p ( Qr i | Qr ) ;
其中,f(Tpj,Qr)为所述Qr到问句模板Tpj的概率,Qri为所述相似query中对应Tpj的相似query,p(Qri|Qr)为Qr与Qri的相似度,m为步骤A确定出的相似query中对应Tpj的相似query数目,p(Tpj|Qri)为问句生成模型中Qri到问句模板Tpj的概率。
所述步骤B13具体包括:
选择所述Qr到对应各候选问句模板的概率值达到预设的模板概率阈值的候选问句模板作为所述Qr对应的问句模板;或者,
选择所述Qr到对应各候选问句模板的概率值排在前N1个的候选问句模板作为所述Qr对应的问句模板,其中N1为预设的正整数。
此时更进一步地,在所述步骤C之后还包括:
利用所述问句的通顺度,或者,利用所述Qr到所述问句所使用问句模板的概率和所述问句的通顺度,为所述步骤C得到的各问句打分,选择分值排在前N2个的问句作为最终所述Qr对应的问句,其中N2为预设的正整数。
或者,所述步骤B具体包括:
将问句生成模型中所述相似query对应的各问句模板确定为所述Qr对应的问句模板。
此时更进一步地,在所述步骤C之后还包括:
利用所述Qr到所述问句所使用问句模板的概率和所述问句的通顺度中的一种或组合,为所述步骤C得到的各问句打分,选择分值排在前N3个的问句作为最终所述Qr对应的问句,其中N3为预设的正整数。
其中,利用所述Qr到所述问句所使用问句模板的概率,为所述步骤C得到的各问句打分具体为:
按照V(qs)=f(Tpc,Qr),得到问句qs的打分值V(qs);
其中,
Figure BDA0000054433400000041
f(Tpc,Qr)所为所述Qr到问句模板Tpc的概率,m为步骤A确定出的相似query中对应Tpc的数目,Qri为所述相似query中对应Tpc的相似query,p(Qri|Qr)为Qr与Qri的相似度,p(Tpc|Qri)为问句生成模型中Qri到问句模板Tpc的概率。
上述问句生成方法中,利用所述问句的通顺度,为所述步骤C得到的各问句打分具体为:
按照得到问句qs的打分值V(qs);
其中nqs为问句qs包含的词语数目,ti为问句qs中包含的第i个词语;
Figure BDA0000054433400000043
c(ti-2ti-1ti)为词语ti-2、ti-1和ti构成的三元组在语料库中出现的次数,c(ti-2ti-1)为词语ti-2、ti-1构成的二元组在语料库中出现的次数。
利用所述Qr到所述问句所使用问句模板的概率和所述问句的通顺度,为所述步骤C得到的各问句打分具体为:
按照V(qs)=λf(Tpc,Qr)+(1-λ)fLM(qs),得到问句qs的打分值V(qs);
其中,λ为预设的权值参数,Tpc为得到qs所使用的问句模板,
Figure BDA0000054433400000051
nqs为问句qs包含的词语数目,ti为问句qs中包含的第i个词语;
Figure BDA0000054433400000052
c(ti-2ti-1ti)为词语ti-2、ti-1和ti构成的三元组在语料库中出现的次数,c(ti-2ti-1)为词语ti-2、ti-1构成的二元组在语料库中出现的次数;
Figure BDA0000054433400000053
为所述Qr到问句模板Tpc的概率,m为步骤A确定出的相似query中对应Tpc的数目,Qri为所述相似query中对应Tpc的相似query,p(Qri|Qr)为Qr与Qri的相似度,p(Tpc|Qri)为问句生成模型中Qri到问句模板Tpc的概率。
所述p(Qri|Qr)为:
Figure BDA0000054433400000054
其中
Figure BDA0000054433400000055
为Qri中第k个词语Qri_k和Qr中第k个词语Qr_k之间的相似度。
以上问句生成方法中,所述步骤C具体包括:
按照所述问句模板记录的变量槽与query进行分词处理后各词语的位置关系,将所述Qr进行分词处理后得到的各词语填充至所述问句模板的变量槽,得到所述Qr对应的问句。
一种建立问句生成模型的装置,所述问句生成模型包括:问句模板与搜索请求query之间的对应关系以及各query到对应问句模板的概率;该装置包括:日志统计单元、模板抽取单元和概率计算单元;
所述日志统计单元,用于从搜索日志中,统计各query以及用户从query对应的搜索结果中点击的问句之间的对应关系;
所述模板抽取单元,用于从所述日志统计单元统计到的问句中抽取出问句模板,并将问句模板以及问句模板对应的query记录在数据库中;
所述概率计算单元,用于计算各query到对应问句模板的概率,并将各问句到对应模板的概率记录在所述数据库中。
所述点击的问句为:点击的页面标题中所包含的问句,且该问句包含对应query进行分词处理后得到的各词语。
其中,所述模板抽取单元具体包括:分词处理子单元、变量槽形成子单元和位置记录子单元;
所述分词处理子单元,用于将所述日志统计单元统计到的query进行分词处理;
所述变量槽形成子单元,用于将所述日志统计单元统计到的问句中所包含对应query进行分词处理后得到的词语抽象成变量槽的形式,以形成问句模板,将问句模板以及问句模板对应的query记录在所述数据库中;
所述位置记录子单元,用于记录变量槽与query进行分词处理后得到的各词语的位置关系至所述数据库中。
所述概率计算单元具体按照公式计算query Qri到问句模板Tp的概率p(Tp|Qri);
其中,c(Qri)表示Qri在所述搜索日志中出现的次数,c(Tp,Qri)表示Qri对应到Tp的次数。
一种问句生成装置,该装置包括:相似query确定单元、模板选择单元和问句生成单元;
所述相似query确定单元,用于确定用户输入的搜索请求Qr在问句生成模型中的相似query;
所述模板选择单元,用于从所述相似query在问句生成模型中对应的各问句模板中,为所述Qr选择问句模板;
所述问句生成单元,用于利用所述Qr对所述模板选择单元选择的问句模板进行实例化,得到所述Qr对应的问句;
其中,所述问句生成模型包括:问句模板与query之间的对应关系以及各query到对应问句模板的概率。
所述相似query确定单元确定出的相似query与所述Qr具有相同个数的词语,且与所述Qr至少含有一个相同的词语。
所述模板选择单元可以具体包括:候选模板选择子单元、概率计算子单元和模板确定子单元;
所述候选模板选择子单元,用于将所述相似query确定单元确定出的相似query对应的各问句模板确定为所述Qr对应的候选问句模板;
所述概率计算子单元,用于利用所述Qr与相似query的相似度以及问句生成模型中相似query到相似query对应各问句模板的概率,确定所述Qr到对应各候选问句模板的概率;
所述模板确定子单元,用于选择所述Qr到对应各候选问句模板的概率满足预设条件的候选问句模板作为所述Qr对应的问句模板。
具体地,所述概率计算子单元采用公式
Figure BDA0000054433400000071
计算所述Qr到对应各候选问句模板的概率;
其中,f(Tpj,Qr)为所述Qr到问句模板Tpj的概率,Qri为所述相似query中对应Tpj的相似query,p(Qri|Qr)为Qr与Qri的相似度,m为所述相似query确定单元确定出的相似query中对应Tpj的相似query数目,p(Tpj|Qri)为问句生成模型中Qri到问句模板Tpj的概率。
所述模板确定子单元选择所述Qr到对应各候选问句模板的概率值达到预设的模板概率阈值的候选问句模板作为所述Qr对应的问句模板;或者,
选择所述Qr到对应各候选问句模板的概率值排在前N1个的候选问句模板作为所述Qr对应的问句模板,其中N1为预设的正整数。
此时更进一步地,该装置还包括:第一问句选择单元,用于利用所述问句的通顺度,或者,利用所述Qr到所述问句所使用问句模板的概率和所述问句的通顺度,为所述问句生成单元得到的各问句打分,选择分值排在前N2个的问句作为最终所述Qr对应的问句,其中N2为预设的正整数。
具体地,所述第一问句选择单元可以按照V(qs)=fLM(qs)或者V(qs)=λf(Tpc,Qr)+(1-λ)fLM(qs),得到问句qs的打分值V(qs);
其中
Figure BDA0000054433400000081
nqs为问句qs包含的词语数目,ti为问句qs中包含的第i个词语;
Figure BDA0000054433400000082
c(ti-2ti-1ti)为词语ti-2、ti-1和ti构成的三元组在语料库中出现的次数,c(ti-2ti-1)为词语ti-2、ti-1构成的二元组在语料库中出现的次数;
λ为预设的权值参数,Tpc为得到qs所使用的问句模板,
Figure BDA0000054433400000083
f(Tpc,Qr)为所述Qr到问句模板Tpc的概率,m为所述相似query确定单元确定出的相似query中对应Tpc的相似query数目,Qri为所述相似query中对应Tpc的相似query,p(Qri|Qr)为Qr与Qri的相似度,p(Tpc|Qri)为问句生成模型中Qri到问句模板Tpc的概率。
或者,所述模板选择单元具体将问句生成模型中所述相似query对应的各问句模板确定为所述Qr对应的问句模板。
此时更进一步地,该装置还包括:第二问句选择单元,用于利用所述Qr到所述问句所使用问句模板的概率和所述问句的通顺度中的一种或组合,为所述问句生成单元得到的各问句打分,选择分值排在前N3个的问句作为最终所述Qr对应的问句,其中N3为预设的正整数。
所述第二问句选择单元具体按照V(qs)=f(Tpc,Qr)、V(qs)=fLM(qs)或者V(qs)=λf(Tpc,Qr)+(1-λ)fLM(qs),得到问句qs的打分值V(qs);
其中,
Figure BDA0000054433400000084
nqs为问句qs包含的词语数目,ti为问句qs中包含的第i个词语;
Figure BDA0000054433400000085
c(ti-2ti-1ti)为词语ti-2、ti-1和ti构成的三元组在语料库中出现的次数,c(ti-2ti-1)为词语ti-2、ti-1构成的二元组在语料库中出现的次数;
λ为预设的权值参数,Tpc为得到qs所使用的问句模板,
Figure BDA0000054433400000091
f(Tpc,Qr)所为所述Qr到问句模板Tpc的概率,m为所述相似query确定单元确定出的相似query中对应Tpc的数目,Qri为所述相似query中对应Tpc的相似query,p(Qri|Qr)为Qr与Qri的相似度,p(Tpc|Qri)为问句生成模型中Qri到问句模板Tpc的概率。
所述 p ( Qr i | Qr ) = Π k = 1 K sim ( t Q r i _ k , t Qr _ k ) ;
其中
Figure BDA0000054433400000093
为Qri中第k个词语Qri_k和Qr中第k个词语Qr_k之间的相似度。
上述问句生成装置中,所述问句生成单元具体按照所述问句模板记录的变量槽与query进行分词处理后各词语的位置关系,将所述Qr进行分词处理后得到的各词语填充至所述问句模板的变量槽,得到所述Qr对应的问句。
由以上技术方案可以看出,通过本发明能够建立包含问句模板与query之间对应关系以及各query到对应问句模板的概率的问句生成模型,对于用户输入的query,能够利用问句生成模型确定出用户输入的query所对应的相似query,利用该相似query进一步确定出问句模板,并利用该问句模板生成用户输入的query所对应的问句。由于在建立的问句生成模型中相似query之间通常具有相同的需求,且问句生成模型中的问句模板是基于搜索日志中实际存在的问句挖掘出来的,因此通过本发明生成的问句需求明确且易于理解。
【附图说明】
图1为本发明实施例一提供的建立问句生成模型的方法流程图;
图2为本发明实施例二提供的问句生成方法的流程图;
图3为本发明实施例三提供的问句生成方法的流程图;
图4为本发明实施例四提供的建立问句生成模型的装置结构图;
图5为本发明实施例五中提供的一种问句生成装置的结构图;
图6为本发明实施例五中提供的另一种问句生成装置的结构图。
【具体实施方式】
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
实施例一、
图1为本发明实施例一提供的建立问句生成模型的方法流程图,如图1所示,该方法可以包括以下步骤:
步骤101:从搜索日志中,统计各用户查询的query以及用户从query对应的搜索结果中点击的问句之间的对应关系。
本步骤实际是从搜索日志中抽取“query-问句”对。即如果用户查询了一个query,且在搜索结果中点击了包含问句标题的页面,就将该query和该问句之间的对应关系抽取出来。
其中,可以限定上述问句包含对query进行分词处理后得到的各词语,也就是说,抽取出的“query-问句”对中,query中的各词语必须包含在问句中。例如:query为“故宫门票”,问句为“故宫门票多少钱”或者“故宫门票在哪买”。
在本步骤中,可以将统计得到的query以及问句之间的对应关系存储为数据表的形式,供以下步骤使用。
步骤102:从统计到的问句中抽取出问句模板,并将问句模板以及问句模板对应的query记录在数据库中。
本步骤可以将问句中所包含对应query进行分词处理后得到的词语抽象成变量槽的形式,从而得到问句模板。其中,变量槽的个数可以与query进行分词处理后得到的词语的个数一致。例如:query为“故宫门票”,问句为“故宫门票多少钱”,将query进行分词处理后得到的词语为“故宫”和“门票”,将问句中“故宫”和“门票”抽象成变量槽的形式为“【X1】【X2】多少钱”,其中“【X1】”和“【X2】”为两个变量槽。
另外,为了保证在后续实例化的过程中能够保证变量槽填充的正确顺序,在问句模板中同时记录变量槽与query进行分词处理后各词语的位置关系。例如,【X1】对应query进行分词处理后的第一个词语,【X2】对应query进行分词处理后的第二个词语。
步骤103:计算各query到对应问句模板的概率,并将各query到问句模板的概率记录在数据库中。
当完成对搜索日志的统计后,会得到大量的问句模板并记录有各问句模板对应的query有哪些,即同一个问句模板可能对应有多个不同的query。例如:问句模板“【X1】【X2】多少钱”对应的query可以为:“故宫门票”、“奥迪A9”、“诺亚方舟船票”等等。但各query到对应问句模板的概率并不一定相同。
在计算各query到对应问句模板的概率时,可以基于极大似然估计法进行计算:
p ( Tp | Qr i ) = c ( Tp , Qr i ) c ( Qr i ) - - - ( 1 )
其中,p(Tp|Qri)为query Qri到问句模板Tp的概率,c(Qri)表示Qri在搜索日志中出现的次数,c(Tp,Qri)表示Qri对应到Tp的次数。
本步骤之后,数据库中会存储有query与问句模板的对应关系,query到对应问句模板的概率,数据库中的存储形式可以如表1所示。需要说明的是,表1仅为数据库存储形式的一个实例,本发明并不限定数据库中存储的具体形式。
表1
  query1  问句模板1   query1到问句模板1的概率
  query2  问句模板1   query2到问句模板1的概率
  query3  问句模板1   query3到问句模板1的概率
  query1  问句模板2   query4到问句模板2的概率
  query3  问句模板2   query5到问句模板2的概率
  ...  ...   ...
至此,问句生成模型建立完毕,该问句生成模型中包含:问句模板与query之间的对应关系、query到对应问句模板的概率。
本发明提供的问句生成方法主要包括:S1、确定用户输入的搜索请求Qr在问句生成模型中的相似query,其中问句生成模型包括:问句模板与query之间的对应关系以及各query到对应问句模板的概率;S2、从相似query在问句生成模型中对应的各问句模板中,为Qr选择问句模板;S3、利用Qr对问句模板进行实例化,得到Qr对应的问句。
具体地,可以采用实施例二和实施例三提供的两种方式实现本发明的上述问句生成方法:
实施例二、
图2为本发明实施例二提供的问句生成方法的流程图,如图2所示,该方法可以包括以下步骤:
步骤201:确定用户输入的query Qr在问句生成模型中的相似query。
在实施例一所示的流程中,离线挖掘出了问句生成模型,在问句生成模型中存在大量的问句模板,利用这些问句模板就可以自动生成用户所输入query对应的问句。但关键在于,在大量的问句模板中如何选择,通常相似query的检索意图也是相似的,它们应该能够实例化相同的问句模板。因此,在确定问句生成模板时,首先确定用户输入的query在问句生成模型中的相似query。
在确定相似query时采用的策略可以为:相似query与Qr具有相同个数的词语,且与Qr至少含有一个相同的词语,按照该策略可以确定出一个Qr的相似query构成的集合。
步骤202:将问句生成模型中相似query对应的各问句模板确定为Qr对应的候选问句模板。
由于在问句生成模型中,步骤201确定出的相似query都对应有问句模板,可以首先将相似query对应的问句模板作为Qr对应的候选问句模板,假设候选问句模板构成的集合为{Tp1,Tp2,...,Tpn}。
步骤203:利用Qr与相似query的相似度以及问句生成模型中相似query到相似query对应各问句模板的概率,确定Qr到对应各候选问句模板的概率。
本步骤中,Qr到候选问句模板Tpj的概率f(Tpj,Qr)可以为:
f ( Tp j , Qr ) = log Σ i = 1 m p ( Tp j | Qr i ) p ( Qr i | Qr ) - - - ( 2 )
其中,p(Qri|Qr)为Qr与相似query Qri的相似度,m为确定出的相似query中对应Tpj的数目,p(Tpj|Qri)为问句生成模型中Qri到问句模板Tpj的概率,可以利用公式(1)计算。
p(Qri|Qr)可以采用以下公式计算:
p ( Qr i | Qr ) = Π k = 1 K sim ( t Qr i _ k , t Qr _ k ) - - - ( 3 )
其中,
Figure BDA0000054433400000133
为Qri中第k个词语Qri_k和Qr中第k个词语Qr_k之间的相似度。两个词语之间的相似度可以基于分布假设(distributional hypothesis)计算得到,即利用语料库统计出两个词语的上下文词所构成的特征向量,将两个特征向量之间的相似度作为两个词语之间的相似度,两个词语之间相似度的计算方法是现有技术,在此不再详细赘述。
步骤204:选择Qr到对应各候选问句模板的概率满足预设条件的候选问句模板作为Qr对应的问句模板。
本步骤可以根据步骤203的计算结果,选择概率值达到预设的模板概率阈值的候选问句模板作为Qr对应的问句模板,或者,选择概率值排在前N1个的候选问句模板作为Qr对应的问句模板,其中N1为预设的正整数。
步骤205:利用Qr对选择的问句模板进行实例化,得到Qr对应的问句。
本步骤中的实例化过程实际上就是将Qr进行分词处理后得到的各词语填充至问句模板的变量槽,得到Qr对应的问句。更进一步地,在将Qr进行分词处理后得到的各词语填充至问句模板的变量槽中时,可以按照问句模板记录的变量槽与query进行分词处理后各词语的位置关系进行填充。
举个例子:如果用户输入的Qr为“门票颐和园”,在查找相似query时,相似query中词语的顺序与Qr基本相同,诸如“门票故宫”、“门票北海”等。那么在问句生成模型中,“门票故宫”、“门票北海”等相似query对应的问句模板就是“【X2】【X1】多少钱”,其中变量槽【X2】对应query进行分词处理后的第二个词语,变量槽【X1】对应query进行分词处理后的第一个词语。按照该位置关系进行填充后,得到的问句为“颐和园的门票多少钱”。
由于在选择问句模板时,Qr对应的问句模板可能选择出多个,那么生成的问句也可能是多个,因此更优地,可以进一步执行步骤206从得到的问句中选择出优选的问句。
步骤206:利用得到的各问句的通顺度为得到的各问句打分,选择打分值排在前N2个的问句作为最终Qr对应的问句,其中N2为预设的正整数。
在计算问句的通顺度时,可以基于三元语言模型来计算,利用问句qs的通顺度为问句打分时,打分值V(qs)可以采用如下的公式计算:
V(qs)=fLM(qs)    (4)
其中, f LM ( qs ) = 1 n qs Σ i = 1 n qs log ( p LM ( t i | t i - 2 t i - 1 ) ) - - - ( 5 )
fLM(qs)为问句qs的通顺度,nqs为问句qs包含的词语数目,ti为问句qs中包含的第i个词语。
P LM ( t i | t i - 2 t i - 1 ) = c ( t i - 2 t i - 1 t i ) c ( t i - 2 t i - 1 ) - - - ( 6 )
其中,c(ti-2ti-1ti)为词语ti-2、ti-1和ti构成的三元组在语料库中出现的次数,c(ti-2ti-1)为词语ti-2、ti-1构成的二元组在语料库中出现的次数。
另外,在为问句进行打分时,除了利用问句的通顺度之外,还可以结合Qr到问句模板的概率,此时,为问句打分可以采用如下的公式计算:
V(qs)=λf(Tpc,Qr)+(1-λ)fLM(qs)    (7)
其中,Tpc为得到qs所使用的问句模板,f(Tpc,Qr)采用公式(2)进行计算。λ为预设的权值参数,可以通过训练方式得到,也可以采用经验值。
实施例三、
图3为本发明实施例三提供的问句生成方法的流程图,如图3所示,该方法可以包括以下步骤:
步骤301同步骤201,不再赘述。
步骤302:将问句生成模型中相似query对应的各问句模板确定为Qr对应的问句模板。
步骤303:利用Qr对确定的问句模板进行实例化,得到Qr对应的问句。
本实施例与实施例二不同的是,先确定出相似query对应的所有问句模板都进行实例化,作为Qr对应的候选问句,然后在从候选问句中选择出较优的问句。
对问句模板进行实例化的过程与实施例二中涉及的实例化过程相同,在此不再赘述。
步骤304:利用Qr到问句所使用的问句模板的概率和问句的通顺度中的一种或组合,为步骤303得到的各问句打分,选择打分值排在前N3个的问句作为最终Qr对应的问句,其中N3为预设的正整数。
如果仅利用Qr到问句所使用的问句模板的概率为问句打分,则问句qs的打分值V(qs)可以使用如下公式:
V(qs)=f(Tpc,Qr)    (8)
其中,Tpc为得到qs所使用的问句模板,f(Tpc,Qr)采用公式(2)进行计算。
如果仅利用问句的通顺度为问句打分,则问句qs的打分值V(qs)可以使用公式(4)进行计算。
如果结合利用Qr到问句所使用的问句模板的概率以及问句的通顺度为问句打分,则问句qs的打分值V(qs)可以使用公式(7)进行计算。
以上是对本发明所提供的方法进行的详细描述,下面对本发明所提供的装置进行详细描述。
实施例四、
图4为本发明实施例四提供的建立问句生成模型的装置结构图,如图4所示,该装置可以包括:日志统计单元400、模板抽取单元410和概率计算单元420。
日志统计单元400,用于从搜索日志中,统计各query以及用户从query对应的搜索结果中点击的问句之间的对应关系。
其中,上述点击的问句可以为:点击的页面标题中所包含的问句,且该问句包含对query进行分词处理后得到的各词语。
模板抽取单元410,用于从日志统计单元400统计到的问句中抽取出问句模板,并将问句模板以及记录问句模板对应的query记录在数据库中。
概率计算单元420,用于计算各query到对应问句模板的概率,并将各问句到对应模板的概率记录在上述数据库中。
具体地,模板抽取单元410可以包括:分词处理子单元411、变量槽形成子单元412和位置记录子单元413。
分词处理子单元411,用于将日志统计单元400统计到的query进行分词处理。
变量槽形成子单元412,用于将日志统计单元400统计到的问句中所包含对应query进行分词处理后得到的词语抽象成变量槽的形式,以形成问句模板,将问句模板以及问句模板对应的query记录在上述数据库中。
问句模板中抽象出的变量槽的个数可以与query进行分词处理后得到的词语个数一致。
位置记录子单元413,用于记录变量槽与query进行分词处理后得到的各词语的位置关系至上述数据库中。该位置关系的记录用于在后续利用问句模板生成问句过程中,保证变量槽填充的正确顺序。
概率计算单元在计算各query到对应问句模板的概率时,可以基于极大似然估计法进行计算,即按照公式计算query Qri到问句模板Tp的概率p(Tp|Qri)。
其中,c(Qri)表示Qri在搜索日志中出现的次数,c(Tp,Qri)表示Qri对应到Tp的次数。
通过图4所示结构的装置,可以建立包含问句模板与query之间的对应关系、query到对应问句模板的概率的问句生成模型。
实施例五、
图5为本发明实施例五提供的一种问句生成装置的结构图,该装置使用图4所示装置建立的问句生成模型。如图5所示,该装置可以包括:相似query确定单元500、模板选择单元510和问句生成单元520。
相似query确定单元500,用于确定用户输入的query Qr在问句生成模型中的相似query。
其中,相似query确定单元500确定出的相似query与Qr具有相同个数的词语,且与Qr至少含有一个相同的词语。
模板选择单元510,用于从相似query在问句生成模型中对应的各问句模板中,为Qr选择问句模板。
问句生成单元520,用于利用Qr对模板选择单元510选择的问句模板进行实例化,得到Qr对应的问句。
其中,上述问句生成单元520可以按照问句模板记录的变量槽与query进行分词处理后各词语的位置关系,将Qr进行分词处理后得到的各词语填充至问句模板的变量槽,得到Qr对应的问句。
对于实施例三和实施例四所述的实现方式,该装置可以具体采用两种不同的实现方式,其中一种如图5所示,另一种如图6所示。
首先介绍第一种实现方式,如图5所示,模板选择单元510可以具体包括:候选模板选择子单元511、概率计算子单元512和模板确定子单元513。
候选模板选择子单元511,用于将相似query确定单元500确定出的相似query对应的各问句模板确定为Qr对应的候选问句模板。
概率计算子单元512,用于利用Qr与相似query的相似度以及问句生成模型中相似query到相似query对应各问句模板的概率,确定Qr到对应各候选问句模板的概率。
模板确定子单元513,用于选择Qr到对应各候选问句模板的概率满足预设条件的候选问句模板作为Qr对应的问句模板。
其中,概率计算子单元512在计算Qr到对应各候选问句模板的概率时,可以具体采用公式
Figure BDA0000054433400000181
f(Tpj,Qr)为Qr到问句模板Tpj的概率,Qri为相似query中对应Tpj的相似query,p(Qri|Qr)为Qr与Qri的相似度,m为相似query确定单元500确定出的相似query中对应Tpj的相似query数目,p(Tpj|Qri)为问句生成模型中Qri到问句模板Tpj的概率。
根据概率计算子单元512的概率计算结果,模板确定子单元513可以选择Qr到对应各候选问句模板的概率值达到预设的模板概率阈值的候选问句模板作为Qr对应的问句模板;或者,选择Qr到对应各候选问句模板的概率值排在前N1个的候选问句模板作为Qr对应的问句模板,其中N1为预设的正整数。
在该实现方式中,该装置还可以进一步包括:第一问句选择单元530,用于利用问句的通顺度,或者,利用Qr到问句所使用问句模板的概率和问句的通顺度,为问句生成单元520得到的各问句打分,选择分值排在前N2个的问句作为最终Qr对应的问句,其中N2为预设的正整数。
具体地,第一问句选择单元530可以按照V(qs)=fLM(qs)或者V(qs)=λf(Tpc,Qr)+(1-λ)fLM(qs),得到问句qs的打分值V(qs)。
其中
Figure BDA0000054433400000191
nqs为问句qs包含的词语数目,ti为问句qs中包含的第i个词语;
Figure BDA0000054433400000192
c(ti-2ti-1ti)为词语ti-2、ti-1和ti构成的三元组在语料库中出现的次数,c(ti-2ti-1)为词语ti-2、ti-1构成的二元组在语料库中出现的次数。
λ为预设的权值参数,Tpc为得到qs所使用的问句模板,
Figure BDA0000054433400000193
f(Tpc,Qr)为Qr到Tpc的概率,m为相似query确定单元500确定出的相似query中对应Tpc的相似query数目,Qri为相似query中对应Tpc的相似query,p(Qri|Qr)为Qr与Qri的相似度,p(Tpc|Qri)为问句生成模型中Qri到问句模板Tpc的概率。
第二种实现方式,如图6所示,模板选择单元510具体将问句生成模型中相似query对应的各问句模板确定为Qr对应的问句模板。
此时,该装置还可以包括:第二问句选择单元630,用于利用Qr到问句所使用问句模板的概率和问句的通顺度中的一种或组合,为问句生成单元520得到的各问句打分,选择分值排在前N3个的问句作为最终Qr对应的问句,其中N3为预设的正整数。
其中,第二问句选择单元630可以具体按照V(qs)=f(Tpc,Qr)、V(qs)=fLM(qs)或者V(qs)=λf(Tpc,Qr)+(1-λ)fLM(qs),得到问句qs的打分值V(qs)。
其中,
Figure BDA0000054433400000194
nqs为问句qs包含的词语数目,ti为问句qs中包含的第i个词语;
Figure BDA0000054433400000195
c(ti-2ti-1ti)为词语ti-2、ti-1和ti构成的三元组在语料库中出现的次数,c(ti-2ti-1)为词语ti-2、ti-1构成的二元组在语料库中出现的次数。
λ为预设的权值参数,Tpc为得到qs所使用的问句模板,
Figure BDA0000054433400000201
f(Tpc,Qr)所为Qr到问句模板Tpc的概率,m为相似query确定单元确定出的相似query中对应Tpc的数目,Qri为相似query中对应Tpc的相似query,p(Qri|Qr)为Qr与Qri的相似度,p(Tpc|Qri)为问句生成模型中Qri到问句模板Tpc的概率。
在上述两种实现方式中,第一问句选择单元530和第二问句选择单元630所采用的
Figure BDA0000054433400000202
其中
Figure BDA0000054433400000203
为Qri中第k个词语Qri_k和Qr中第k个词语Qr_k之间的相似度。
通过本发明提供的问句生成方法和装置生成用户输入的query对应的问句后,可以用于但不限于以下应用:
其一、能够利用生成的问句实现基于问答社区的信息搜索,从而使得检索的针对性更强,减小无关问句的搜索结果,提高搜索的效率和准确率。
其二、能够将生成的问句自动导入问答社区作为提问,等待用户问答。由于本发明生成的问句需求明确且易于理解,因此能够为问答社区贡献较优的资源。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (33)

1.一种建立问句生成模型的方法,其特征在于,所述问句生成模型包括:问句模板与搜索请求query之间的对应关系以及各query到对应问句模板的概率;该方法包括:
A、从搜索日志中,统计各query以及用户从query对应的搜索结果中点击的问句之间的对应关系;
B、从统计到的问句中抽取出问句模板,并将问句模板以及问句模板对应的query记录在数据库中;
C、计算各query到对应问句模板的概率,并将各query到问句模板的概率记录在所述数据库中。
2.根据权利要求1所述的方法,其特征在于,所述点击的问句为:点击的页面标题中所包含的问句,且该问句包含对应query进行分词处理后得到的各词语。
3.根据权利要求1所述的方法,其特征在于,所述步骤B中从统计到的问句中抽取出问句模板具体包括:
将统计到的问句中所包含对应query进行分词处理后得到的词语抽象成变量槽的形式,并记录变量槽与query进行分词处理后得到的各词语的位置关系,从而得到问句模板。
4.根据权利要求1所述的方法,其特征在于,在所述步骤C中,按照公式
Figure FDA0000054433390000011
计算query Qri到问句模板Tp的概率p(Tp|Qri);
其中,c(Qri)表示Qri在所述搜索日志中出现的次数,c(Tp,Qri)表示Qri对应到Tp的次数。
5.一种问句生成方法,其特征在于,该方法包括:
A、确定用户输入的搜索请求Qr在问句生成模型中的相似query,所述问句生成模型包括:问句模板与query之间的对应关系以及各query到对应问句模板的概率;
B、从所述相似query在问句生成模型中对应的各问句模板中,为所述Qr选择问句模板;
C、利用所述Qr对选择的问句模板进行实例化,得到所述Qr对应的问句。
6.根据权利要求5所述的方法,其特征在于,所述步骤A中确定出的相似query与所述Qr具有相同个数的词语,且与所述Qr至少含有一个相同的词语。
7.根据权利要求5所述的方法,其特征在于,所述步骤B具体包括:
B11、将所述相似query对应的各问句模板确定为所述Qr对应的候选问句模板;
B12、利用所述Qr与相似query的相似度以及问句生成模型中相似query到相似query对应各问句模板的概率,确定所述Qr到对应各候选问句模板的概率;
B13、选择所述Qr到对应各候选问句模板的概率满足预设条件的候选问句模板作为所述Qr对应的问句模板。
8.根据权利要求7所述的方法,其特征在于,所述Qr到对应各候选问句模板的概率采用如下公式计算:
f ( Tp j , Qr ) = log Σ i = 1 m p ( Tp j | Qr i ) p ( Qr i | Qr ) ;
其中,f(Tpj,Qr)为所述Qr到问句模板Tpj的概率,Qri为所述相似query中对应Tpj的相似query,p(Qri|Qr)为Qr与Qri的相似度,m为步骤A确定出的相似query中对应Tpj的相似query数目,p(Tpj|Qri)为问句生成模型中Qri到问句模板Tpj的概率。
9.根据权利要求7所述的方法,其特征在于,所述步骤B13具体包括:
选择所述Qr到对应各候选问句模板的概率值达到预设的模板概率阈值的候选问句模板作为所述Qr对应的问句模板;或者,
选择所述Qr到对应各候选问句模板的概率值排在前N1个的候选问句模板作为所述Qr对应的问句模板,其中N1为预设的正整数。
10.根据权利要求7所述的方法,其特征在于,在所述步骤C之后还包括:
利用所述问句的通顺度,或者,利用所述Qr到所述问句所使用问句模板的概率和所述问句的通顺度,为所述步骤C得到的各问句打分,选择分值排在前N2个的问句作为最终所述Qr对应的问句,其中N2为预设的正整数。
11.根据权利要求5所述的方法,其特征在于,所述步骤B具体包括:
将问句生成模型中所述相似query对应的各问句模板确定为所述Qr对应的问句模板。
12.根据权利要求11所述的方法,其特征在于,在所述步骤C之后还包括:
利用所述Qr到所述问句所使用问句模板的概率和所述问句的通顺度中的一种或组合,为所述步骤C得到的各问句打分,选择分值排在前N3个的问句作为最终所述Qr对应的问句,其中N3为预设的正整数。
13.根据权利要求12所述的方法,其特征在于,利用所述Qr到所述问句所使用问句模板的概率,为所述步骤C得到的各问句打分具体为:
按照V(qs)=f(Tpc,Qr),得到问句qs的打分值V(qs);
其中,
Figure FDA0000054433390000031
f(Tpc,Qr)所为所述Qr到问句模板Tpc的概率,m为步骤A确定出的相似query中对应Tpc的数目,Qri为所述相似query中对应Tpc的相似query,p(Qri|Qr)为Qr与Qri的相似度,p(Tpc|Qri)为问句生成模型中Qri到问句模板Tpc的概率。
14.根据权利要求10或12所述的方法,其特征在于,利用所述问句的通顺度,为所述步骤C得到的各问句打分具体为:
按照
Figure FDA0000054433390000032
得到问句qs的打分值V(qs);
其中nqs为问句qs包含的词语数目,ti为问句qs中包含的第i个词语;
Figure FDA0000054433390000033
c(ti-2ti-1ti)为词语ti-2、ti-1和ti构成的三元组在语料库中出现的次数,c(ti-2ti-1)为词语ti-2、ti-1构成的二元组在语料库中出现的次数。
15.根据权利要求10或12所述的方法,其特征在于,利用所述Qr到所述问句所使用问句模板的概率和所述问句的通顺度,为所述步骤C得到的各问句打分具体为:
按照V(qs)=λf(Tpc,Qr)+(1-λ)fLM(qs),得到问句qs的打分值V(qs);
其中,λ为预设的权值参数,Tpc为得到qs所使用的问句模板,
Figure FDA0000054433390000041
nqs为问句qs包含的词语数目,ti为问句qs中包含的第i个词语;
Figure FDA0000054433390000042
c(ti-2ti-1ti)为词语ti-2、ti-1和ti构成的三元组在语料库中出现的次数,c(ti-2ti-1)为词语ti-2、ti-1构成的二元组在语料库中出现的次数;
Figure FDA0000054433390000043
f(Tpc,Qr)为所述Qr到问句模板Tpc的概率,m为步骤A确定出的相似query中对应Tpc的数目,Qri为所述相似query中对应Tpc的相似query,p(Qri|Qr)为Qr与Qri的相似度,p(Tpc|Qri)为问句生成模型中Qri到问句模板Tpc的概率。
16.根据权利要求8或13所述的方法,其特征在于,所述p(Qri|Qr)为:
Figure FDA0000054433390000044
其中
Figure FDA0000054433390000045
为Qri中第k个词语Qri_k和Qr中第k个词语Qr_k之间的相似度。
17.根据权利要求5所述的方法,其特征在于,所述步骤C具体包括:
按照所述问句模板记录的变量槽与query进行分词处理后各词语的位置关系,将所述Qr进行分词处理后得到的各词语填充至所述问句模板的变量槽,得到所述Qr对应的问句。
18.一种建立问句生成模型的装置,其特征在于,所述问句生成模型包括:问句模板与搜索请求query之间的对应关系以及各query到对应问句模板的概率;该装置包括:日志统计单元、模板抽取单元和概率计算单元;
所述日志统计单元,用于从搜索日志中,统计各query以及用户从query对应的搜索结果中点击的问句之间的对应关系;
所述模板抽取单元,用于从所述日志统计单元统计到的问句中抽取出问句模板,并将问句模板以及问句模板对应的query记录在数据库中;
所述概率计算单元,用于计算各query到对应问句模板的概率,并将各问句到对应模板的概率记录在所述数据库中。
19.根据权利要求18所述的装置,其特征在于,所述点击的问句为:点击的页面标题中所包含的问句,且该问句包含对应query进行分词处理后得到的各词语。
20.根据权利要求18所述的装置,其特征在于,所述模板抽取单元具体包括:分词处理子单元、变量槽形成子单元和位置记录子单元;
所述分词处理子单元,用于将所述日志统计单元统计到的query进行分词处理;
所述变量槽形成子单元,用于将所述日志统计单元统计到的问句中所包含对应query进行分词处理后得到的词语抽象成变量槽的形式,以形成问句模板,将问句模板以及问句模板对应的query记录在所述数据库中;
所述位置记录子单元,用于记录变量槽与query进行分词处理后得到的各词语的位置关系至所述数据库中。
21.根据权利要求18所述的装置,其特征在于,所述概率计算单元具体按照公式
Figure FDA0000054433390000051
计算query Qri到问句模板Tp的概率p(Tp|Qri);
其中,c(Qri)表示Qri在所述搜索日志中出现的次数,c(Tp,Qri)表示Qri对应到Tp的次数。
22.一种问句生成装置,其特征在于,该装置包括:相似query确定单元、模板选择单元和问句生成单元;
所述相似query确定单元,用于确定用户输入的搜索请求Qr在问句生成模型中的相似query;
所述模板选择单元,用于从所述相似query在问句生成模型中对应的各问句模板中,为所述Qr选择问句模板;
所述问句生成单元,用于利用所述Qr对所述模板选择单元选择的问句模板进行实例化,得到所述Qr对应的问句;
其中,所述问句生成模型包括:问句模板与query之间的对应关系以及各query到对应问句模板的概率。
23.根据权利要求22所述的装置,其特征在于,所述相似query确定单元确定出的相似query与所述Qr具有相同个数的词语,且与所述Qr至少含有一个相同的词语。
24.根据权利要求22所述的装置,其特征在于,所述模板选择单元具体包括:候选模板选择子单元、概率计算子单元和模板确定子单元;
所述候选模板选择子单元,用于将所述相似query确定单元确定出的相似query对应的各问句模板确定为所述Qr对应的候选问句模板;
所述概率计算子单元,用于利用所述Qr与相似query的相似度以及问句生成模型中相似query到相似query对应各问句模板的概率,确定所述Qr到对应各候选问句模板的概率;
所述模板确定子单元,用于选择所述Qr到对应各候选问句模板的概率满足预设条件的候选问句模板作为所述Qr对应的问句模板。
25.根据权利要求24所述的装置,其特征在于,所述概率计算子单元采用公式
Figure FDA0000054433390000061
计算所述Qr到对应各候选问句模板的概率;
其中,f(Tpj,Qr)为所述Qr到问句模板Tpj的概率,Qri为所述相似query中对应Tpj的相似query,p(Qri|Qr)为Qr与Qri的相似度,m为所述相似query确定单元确定出的相似query中对应Tpj的相似query数目,p(Tpj|Qri)为问句生成模型中Qri到问句模板Tpj的概率。
26.根据权利要求24所述的装置,其特征在于,所述模板确定子单元选择所述Qr到对应各候选问句模板的概率值达到预设的模板概率阈值的候选问句模板作为所述Qr对应的问句模板;或者,
选择所述Qr到对应各候选问句模板的概率值排在前N1个的候选问句模板作为所述Qr对应的问句模板,其中N1为预设的正整数。
27.根据权利要求24所述的装置,其特征在于,该装置还包括:第一问句选择单元,用于利用所述问句的通顺度,或者,利用所述Qr到所述问句所使用问句模板的概率和所述问句的通顺度,为所述问句生成单元得到的各问句打分,选择分值排在前N2个的问句作为最终所述Qr对应的问句,其中N2为预设的正整数。
28.根据权利要求27所述的装置,其特征在于,所述第一问句选择单元具体按照V(qs)=fLM(qs)或者V(qs)=λf(Tpc,Qr)+(1-λ)fLM(qs),得到问句qs的打分值V(qs);
其中nqs为问句qs包含的词语数目,ti为问句qs中包含的第i个词语;
Figure FDA0000054433390000072
c(ti-2ti-1ti)为词语ti-2、ti-1和ti构成的三元组在语料库中出现的次数,c(ti-2ti-1)为词语ti-2、ti-1构成的二元组在语料库中出现的次数;
λ为预设的权值参数,Tpc为得到qs所使用的问句模板,
Figure FDA0000054433390000073
f(Tpc,Qr)为所述Qr到问句模板Tpc的概率,m为所述相似query确定单元确定出的相似query中对应Tpc的相似query数目,Qri为所述相似query中对应Tpc的相似query,p(Qri|Qr)为Qr与Qri的相似度,p(Tpc|Qri)为问句生成模型中Qri到问句模板Tpc的概率。
29.根据权利要求22所述的装置,其特征在于,所述模板选择单元具体将问句生成模型中所述相似query对应的各问句模板确定为所述Qr对应的问句模板。
30.根据权利要求29所述的装置,其特征在于,该装置还包括:第二问句选择单元,用于利用所述Qr到所述问句所使用问句模板的概率和所述问句的通顺度中的一种或组合,为所述问句生成单元得到的各问句打分,选择分值排在前N3个的问句作为最终所述Qr对应的问句,其中N3为预设的正整数。
31.根据权利要求30所述的装置,其特征在于,所述第二问句选择单元具体按照V(qs)=f(Tpc,Qr)、V(qs)=fLM(qs)或者V(qs)=λf(Tpc,Qr)+(1-λ)fLM(qs),得到问句qs的打分值V(qs);
其中,nqs为问句qs包含的词语数目,ti为问句qs中包含的第i个词语;
Figure FDA0000054433390000082
c(ti-2ti-1ti)为词语ti-2、ti-1和ti构成的三元组在语料库中出现的次数,c(ti-2ti-1)为词语ti-2、ti-1构成的二元组在语料库中出现的次数;
λ为预设的权值参数,Tpc为得到qs所使用的问句模板,
Figure FDA0000054433390000083
f(Tpc,Qr)所为所述Qr到问句模板Tpc的概率,m为所述相似query确定单元确定出的相似query中对应Tpc的数目,Qri为所述相似query中对应Tpc的相似query,p(Qri|Qr)为Qr与Qri的相似度,p(Tpc|Qri)为问句生成模型中Qri到问句模板Tpc的概率。
32.根据权利要求28或31所述的装置,其特征在于,所述 p ( Qr i | Qr ) = Π k = 1 K sim ( t Q r i _ k , t Qr _ k ) ;
其中
Figure FDA0000054433390000085
为Qri中第k个词语Qri_k和Qr中第k个词语Qr_k之间的相似度。
33.根据权利要求22所述的装置,其特征在于,所述问句生成单元具体按照所述问句模板记录的变量槽与query进行分词处理后各词语的位置关系,将所述Qr进行分词处理后得到的各词语填充至所述问句模板的变量槽,得到所述Qr对应的问句。
CN201110087911.9A 2011-04-08 2011-04-08 建立问句生成模型的方法和装置以及问句生成方法和装置 Active CN102737042B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110087911.9A CN102737042B (zh) 2011-04-08 2011-04-08 建立问句生成模型的方法和装置以及问句生成方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110087911.9A CN102737042B (zh) 2011-04-08 2011-04-08 建立问句生成模型的方法和装置以及问句生成方法和装置

Publications (2)

Publication Number Publication Date
CN102737042A true CN102737042A (zh) 2012-10-17
CN102737042B CN102737042B (zh) 2015-03-25

Family

ID=46992562

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110087911.9A Active CN102737042B (zh) 2011-04-08 2011-04-08 建立问句生成模型的方法和装置以及问句生成方法和装置

Country Status (1)

Country Link
CN (1) CN102737042B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104885081A (zh) * 2012-12-27 2015-09-02 触摸式有限公司 搜索***和相应方法
CN105760359A (zh) * 2014-11-21 2016-07-13 财团法人工业技术研究院 问句处理***及其方法
CN106095932A (zh) * 2016-06-13 2016-11-09 竹间智能科技(上海)有限公司 百科知识问句识别方法及装置
CN106649786A (zh) * 2016-12-28 2017-05-10 北京百度网讯科技有限公司 基于深度问答的答案检索方法及装置
CN108021547A (zh) * 2016-11-04 2018-05-11 株式会社理光 一种自然语言的生成方法、自然语言生成装置及电子设备
CN108363743A (zh) * 2018-01-24 2018-08-03 清华大学深圳研究生院 一种智能问题生成方法、装置和计算机可读存储介质
CN109002540A (zh) * 2018-07-23 2018-12-14 电子科技大学 一种中文通告文档问题答案对自动生成方法
CN109478188A (zh) * 2016-08-16 2019-03-15 国立研究开发法人情报通信研究机构 对话***以及用于其的计算机程序
CN111061851A (zh) * 2019-12-12 2020-04-24 中国科学院自动化研究所 基于给定事实的问句生成方法及***
US10664657B2 (en) 2012-12-27 2020-05-26 Touchtype Limited System and method for inputting images or labels into electronic devices
CN116089589A (zh) * 2023-02-10 2023-05-09 阿里巴巴达摩院(杭州)科技有限公司 问句生成方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1556482A (zh) * 2003-12-31 2004-12-22 中兴通讯股份有限公司 一种用于实现数据库多表查询的数据处理方法
CN101101605A (zh) * 2007-07-24 2008-01-09 华为技术有限公司 搜索网页的方法、装置及***和建立索引数据库的装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1556482A (zh) * 2003-12-31 2004-12-22 中兴通讯股份有限公司 一种用于实现数据库多表查询的数据处理方法
CN101101605A (zh) * 2007-07-24 2008-01-09 华为技术有限公司 搜索网页的方法、装置及***和建立索引数据库的装置

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11200503B2 (en) 2012-12-27 2021-12-14 Microsoft Technology Licensing, Llc Search system and corresponding method
CN104885081A (zh) * 2012-12-27 2015-09-02 触摸式有限公司 搜索***和相应方法
US10664657B2 (en) 2012-12-27 2020-05-26 Touchtype Limited System and method for inputting images or labels into electronic devices
CN105760359A (zh) * 2014-11-21 2016-07-13 财团法人工业技术研究院 问句处理***及其方法
CN105760359B (zh) * 2014-11-21 2020-03-20 财团法人工业技术研究院 问句处理***及其方法
CN106095932A (zh) * 2016-06-13 2016-11-09 竹间智能科技(上海)有限公司 百科知识问句识别方法及装置
CN109478188A (zh) * 2016-08-16 2019-03-15 国立研究开发法人情报通信研究机构 对话***以及用于其的计算机程序
CN108021547A (zh) * 2016-11-04 2018-05-11 株式会社理光 一种自然语言的生成方法、自然语言生成装置及电子设备
CN106649786B (zh) * 2016-12-28 2020-04-07 北京百度网讯科技有限公司 基于深度问答的答案检索方法及装置
CN106649786A (zh) * 2016-12-28 2017-05-10 北京百度网讯科技有限公司 基于深度问答的答案检索方法及装置
CN108363743A (zh) * 2018-01-24 2018-08-03 清华大学深圳研究生院 一种智能问题生成方法、装置和计算机可读存储介质
CN108363743B (zh) * 2018-01-24 2020-06-02 清华大学深圳研究生院 一种智能问题生成方法、装置和计算机可读存储介质
CN109002540A (zh) * 2018-07-23 2018-12-14 电子科技大学 一种中文通告文档问题答案对自动生成方法
CN109002540B (zh) * 2018-07-23 2021-03-16 电子科技大学 一种中文通告文档问题答案对自动生成方法
CN111061851A (zh) * 2019-12-12 2020-04-24 中国科学院自动化研究所 基于给定事实的问句生成方法及***
CN111061851B (zh) * 2019-12-12 2023-08-08 中国科学院自动化研究所 基于给定事实的问句生成方法及***
CN116089589A (zh) * 2023-02-10 2023-05-09 阿里巴巴达摩院(杭州)科技有限公司 问句生成方法及装置
CN116089589B (zh) * 2023-02-10 2023-08-29 阿里巴巴达摩院(杭州)科技有限公司 问句生成方法及装置

Also Published As

Publication number Publication date
CN102737042B (zh) 2015-03-25

Similar Documents

Publication Publication Date Title
CN102737042B (zh) 建立问句生成模型的方法和装置以及问句生成方法和装置
CN110046240B (zh) 结合关键词检索与孪生神经网络的目标领域问答推送方法
CN106991092B (zh) 基于大数据挖掘相似裁判文书的方法和设备
CN102262634B (zh) 一种自动问答方法及***
CN110704743B (zh) 一种基于知识图谱的语义搜索方法及装置
CN112035730B (zh) 一种语义检索方法、装置及电子设备
KR102128549B1 (ko) 인공 지능 질의 응답 시스템, 방법 및 컴퓨터 프로그램
CN106682194A (zh) 基于深度问答的答案定位方法及装置
CN105808590B (zh) 搜索引擎实现方法、搜索方法以及装置
WO2017181834A1 (zh) 一种智能问答方法及装置
CN104866593A (zh) 一种基于知识图谱的数据库搜索方法
KR20190020119A (ko) 검색어를 위한 오류 정정 방법 및 기기
CN102693279B (zh) 一种快速计算评论相似度的方法、装置及***
JP2017511922A (ja) スマート質問回答の実現方法、システム、および記憶媒体
CN106537370A (zh) 在存在来源和翻译错误的情况下对命名实体鲁棒标记的方法和***
US11775594B2 (en) Method for disambiguating between authors with same name on basis of network representation and semantic representation
CN102915314A (zh) 一种纠错对自动生成方法及***
CN116166782A (zh) 一种基于深度学习的智能问答方法
CN108304424B (zh) 文本关键词提取方法及文本关键词提取装置
Dong et al. A natural language question answering system as a participant in human Q&A portals
CN102411568A (zh) 基于旅游业特征词库的中文分词方法
CN116680384A (zh) 知识问答方法、装置、设备及存储介质
CN107436955A (zh) 一种基于Wikipedia概念向量的英文词语相关度计算方法和装置
CN113742446A (zh) 一种基于路径排序的知识图谱问答方法及***
CN102999521B (zh) 一种识别搜索需求的方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant