CN106663125A - 提问句生成装置以及计算机程序 - Google Patents

提问句生成装置以及计算机程序 Download PDF

Info

Publication number
CN106663125A
CN106663125A CN201580043433.8A CN201580043433A CN106663125A CN 106663125 A CN106663125 A CN 106663125A CN 201580043433 A CN201580043433 A CN 201580043433A CN 106663125 A CN106663125 A CN 106663125A
Authority
CN
China
Prior art keywords
sentence
enquirement
question
word
answer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201580043433.8A
Other languages
English (en)
Other versions
CN106663125B (zh
Inventor
鸟泽健太郎
后藤淳
朱利安·克洛埃特泽
川田拓也
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State-Run Research And Development Legal Person Nict
Original Assignee
State-Run Research And Development Legal Person Nict
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State-Run Research And Development Legal Person Nict filed Critical State-Run Research And Development Legal Person Nict
Publication of CN106663125A publication Critical patent/CN106663125A/zh
Application granted granted Critical
Publication of CN106663125B publication Critical patent/CN106663125B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

提供对用户进行辅助的装置,针对用户感兴趣的问题,能容易地作成保证能在提问应答***中得到具有一定以上的精度的回答的提问句。提问句生成装置与提问应答***一起使用,包括:单词接收单元,其接收成为提问句生成的基础的单词等(480);和提问句生成用数据库(502),其由提问句生成用的多个条目构成。多个条目各自以单词作为键且包含在提问应答***中使用的与该单词同时出现的回答句句型。提问句生成装置还包括:提问句生成部(506),其以由单词接收单元接收到的单词等(480)作为键从提问句生成用数据库(502)中检索回答句句型,从检索到的回答句句型和接收到的单词等(480)生成提问句。

Description

提问句生成装置以及计算机程序
技术领域
本发明涉及提问应答***,特别涉及使利用者更易于使用提问应答***的技术。
背景技术
已经开发出了应用自然语言处理技术的各种提问应答***。在这样的***中,若将自然语言句子所构成的提问句提供给***,则回答以自然语言句子给出。在计算机技术以及网络技术实现了长足进步的现在,广泛利用这样的提问应答***的条件已经齐备。但是,广泛渗透到一般的用户的提问应答***可以说完全没有。
作为其理由而能考虑各种理由。例如在现有的提问应答***中,用户关于自己感兴趣的事情创建提问句,提供给提问应答***,并接收其回答。但是,即使如这样对提问应答***提问,也很少会得到正确的答案,大多情况下必须多次重新进行提问。若这样的情况重复发生,最初对提问应答***怀有兴趣的用户最后也不再利用提问应答***。另外,即使用户怀有某些疑问,很多情况下也不能将其表现为具体的提问。而提问应答***若不以某些形态进行具体的提问,就得不到回答。因此,即使有某些疑问,只要不能使其成为明确的提问句的形态,就得不到正确的回答,结果是难以效率良好地使用提问应答***。
另一方面,还有利用所谓的关键词的信息检索这样的技术。在该技术中,若将关键词提供给***,就从数据库中检索与该关键词关联高的句子,对用户显示该句子。在该方法中,存在以下问题:若找不到正确的关键词就得不到适合的信息作为针对提问的回答。并且,由于对于提问不能得到精确的回答,因此还存在必须阅读检索到的大量文档的问题。
作为这样的对关键词检索进行辅助的技术,有以下所谓的关键词建议功能:若输入关键词,就实时辅助显示与该关键词同时输入的机会多的关键词。用户能通过选择被建议的关键词来提高检索的精度。
但是,存在即使使用了关键词建议功能也不能使关键词之间的关系明确这样的问题。看起来是,只要不能指定多个关键词在怎样的状况下使用,检索的精度就会停滞在某种程度的阶段。结果,不能解决用户不阅读大量的文档就得不到回答这样的问题。
发明内容
发明要解决的课题
现有的提问应答***未渗透到用户的原因被认为是作成提问句时的成本的高低。在提问应答***中,用户根据自身的兴趣来作成适当的提问句并不一定很容易。例如,对于虽然对TPP感兴趣但不知道能问询什么才好的用户来说,现有的提问应答***无能为力。另外,为了得到更好的结果,用户需要多次创建提问句并进行变更来对***进行询问。即使用户为了作成提问句而花费了时间,只要所得到的回答与其时间不相称,用户就也不会再积极地利用提问应答***。
另一方面,在利用了关键词建议功能的关键词检索的情况下,输入成为关键词的罗列。得到的结果虽然也可能是与关键词的关联高的文档,但给出针对用户的提问的适当的回答的可能性不高。其结果是,用户为了得到针对自己的疑问的回答而需要阅读大量的检索的结果得到的文档,便利性很低。
因此,在利用自然语言处理技术的提问应答***中,谋求用于使提问句的作成成本降低且用户能容易地生成基于自然语言句子的适当的提问句的技术。这时,期望不准备人工的回答就能生成对各种领域的用户的提问都能得到适当的回答的提问句。
因此,本发明的目的在于,提供对用户进行辅助的装置以及计算机程序,在想要利用提问应答***针对用户感兴趣的问题得到回答的情况下,用户能容易地作成能得到精度高的回答的提问句。
本发明的其他目的在于,提供对用户进行辅助的装置以及计算机程序,针对用户感兴趣的问题,能容易地作成保证能在提问应答***中得到具有一定以上的精度的回答的提问句。
用于解决课题的手段
本发明的第1局面所涉及的提问句生成装置与提问应答***一起使用,包括:单词接收单元,其接收成为提问句生成的基础的单词或单词串;和提问句生成用数据库,其由提问句生成用的多个记录构成。多个记录各自以单词作为键(key)且包含在提问应答***中使用的与该单词同时出现的回答句句型(pattern)。提问句生成装置还包括第1提问句生成单元,该第1提问句生成单元以由单词接收单元接收到的单词作为键从提问句生成用数据库中检索回答句句型,从检索到的回答句句型和接收到的单词生成提问句。
优选地,提问句生成装置还包括:同义词辞典,其保存单词或回答句句型、或者该双方的同义关系或含意关系;和提问句归并单元,其响应于提问句生成单元生成了多个提问句这一情况,参照同义词辞典将多个提问句归并成更少数量的提问句并输出。
更优选地,提问句生成装置还包括:词库(thesaurus),其保存将单词或回答句句型、或者该双方按照它们的意思在体系上进行分类后的分类信息;和提问句归并单元,其响应于提问句生成单元生成了多个提问句这一情况,参照词库将多个提问句归并成更少数量的提问句并输出。
更优选地,单词接收单元能接收多个单词,提问句生成用数据库能以由单词接收单元接收到的多个单词作为键来检索与该多个单词同时出现的回答句句型。
提问句生成单元可以包括提问/回答生成单元,该提问/回答生成单元以由单词接收单元接收到的单词作为键从提问句生成用数据库中检索回答句句型,从检索到的回答句句型和接收到的单词生成提问句以及针对该提问句的回答句。
提问应答***可以包括事实型提问应答子***,该事实型提问应答子***若被提供事实型的提问句,则将该提问句的句型和该提问句中包含的单词或单词串作为键来检索回答句生成用数据库并生成回答句候补。提问应答***的回答句生成用数据库和提问句生成装置的所述提问句生成用数据库能包含从相同的语料库生成的共同的记录。
优选地,提问应答***还包括非事实型提问应答子***,该非事实型提问应答子***若被提供非事实型的提问句,则从语料库中提取多个成为回答句候补的段(passage),通过预先学习完毕的分数算出单元算出表示作为针对被提供的提问的回答的适合度的分数,将具有最上位的分数的回答句候补作为针对被提供的所述提问的回答而输出。提问句生成装置还包括:提问句数据库,其存储多个提问句,该多个提问句各自是从预先准备的不具有提问和回答这样的明示的区别的段的集合内的任一个段生成的提问句,且以成为生成该提问句的基础的段作为回答;第2提问句生成单元,其若接收到成为提问句生成的基础的单词或单词串,则参照提问句数据库,从成为该提问句生成的基础的单词或单词串、或者它们的同义词或含有它们的意思的词、和存储于提问句数据库的提问句生成新的提问句并输出;和用于将第1提问句生成单元以及第2提问句生成单元输出的提问句汇总输出的单元。
本发明的第2局面所涉及的提问句生成装置与提问应答***一起使用。提问应答***包括非事实型提问应答子***,该非事实型提问应答子***若被提供非事实型的提问句,则从语料库中提取多个成为回答句候补的段,通过预先学习完毕的分数算出单元在各段算出表示作为针对上述提问的回答的适合度的分数,将具有最上位的分数的回答句候补作为针对上述提问的回答而输出。提问句生成装置包括:提问句数据库,其存储多个提问句,该多个提问句各自是从语料库内的任一个段生成的提问句,且以成为生成该提问句的基础的段作为回答;和提问句生成单元,其若接收到成为提问句生成的基础的单词或单词串,则参照提问句数据库,从成为该提问句生成的基础的单词或单词串、或者它们的同义词或含有它们的意思的词、和存储于提问句数据库的提问句生成新的提问句并输出。
本发明的第3局面所涉及的计算机程序是使计算机作为与提问应答***一起使用的提问句生成装置发挥功能的计算机程序。该计算机与提问句生成用的多个记录所构成的提问句生成用数据库连接来使用。多个记录各自以单词作为键且包含在提问应答***中使用的与该单词同时出现的回答句句型。计算机程序使计算机作为如下单元发挥功能:单词接收单元,其接收成为提问句生成的基础的单词或单词串;和提问句生成单元,其以由单词接收单元接收到的单词作为键从提问句生成用数据库中检索回答句句型,从检索到的回答句句型和接收到的单词生成提问句。
附图说明
图1是表示利用了采用本发明的实施方式所涉及的提问句生成装置的提问应答***的网络的整体构成的概略框图。
图2是表示本发明的实施方式所涉及的提问应答***的整体构成的框图。
图3是表示图2所示的提问应答***当中的提问应答子***的构成的框图。
图4是表示图3所示的提问应答子***当中的事实型提问应答子***的构成的框图。
图5是表示图3所示的提问应答子***当中的非事实型提问应答子***的构成的框图。
图6是表示图2所示的提问应答***当中的事实型提问句生成子***的构成的框图。
图7是表示图2所示的提问应答***当中的非事实型提问句生成子***的构成的框图。
图8是表示在图2所示的提问应答***中按照输入对处理进行划分的程序的控制结构的流程图。
图9是表示图2所示的提问应答***的初始画面的一例的图。
图10是表示在图9所示的画面中输入单词等时显示的提问应答***的画面的一例的图。
图11是表示实现采用本发明的实施方式所涉及的提问句生成装置的提问应答***的计算机的硬件构成的框图。
具体实施方式
在以下的说明以及附图中,对同一部件标注同一参照编号。因此,不再重复对它们的详细的说明。
[构成]
在到此为止开发出的提问应答***中,对于例如“安倍政权在寻求什么”这样的提问,生成“A在寻求B”这样的句型,以该句型和A=“安倍政权”这样的2个键来检索数据库,得到相当于B的单词作为回答。数据库从因特网的WEB站点收集大量的句子,以一个单词和句型作为键,以另一个单词作为回答而登记在表格中,由此进行准备。在该示例中,若数据库中有“安倍政权在寻求参加TPP”这样的句子,则对于上述那样的提问就能从数据库中得到B=“参加TPP”这样的回答。
在提问中,有以下提问:作为回答,能用单纯的单词或短的词组来回答的类型的提问(称作事实型提问);和理由、做事的方法等不能用单词或短的词组来回答的类型的提问(称作非事实型提问)。上述所示的“安倍政权在寻求什么”是事实型提问的示例。“安倍政权为什么要寻求TPP”是非事实型提问的示例。以下说明的实施方式所涉及的***不管对事实型提问还是对非事实型提问,都通过对用户提示提问例来进行用于用户进行适当的提问的辅助。
参照图1,采用本发明的一实施方式所涉及的提问句生成***的提问应答***164与因特网162连接,用于对从与相同的因特网162连接的移动终端166以及计算机168提供的提问句给出适当的回答。提问应答***164为此预先从因特网上的WEB站点的集合170收集大量的文本数据,生成用于生成针对提问的应答的数据库(以下称作“DB”)并保持。
图2是表示图1所示的提问应答***164的概略构成的框图。参照图2,提问应答***164包括:提问应答***用语料库200,其由从因特网收集的句子构成;前处理部202,其进行前处理,该前处理用来从存储于提问应答***用语料库200的句子生成针对提问的回答的生成用DB以及用于辅助用户作成适当的提问句的提问句生成用DB;提问应答子***240,其若被提供提问句,则检索自己所保持的回答生成用DB来生成并输出自然语言的回答句;事实型提问句生成子***242,其若接收到1个或多个单词(以下称作“单词等”),则以该单词等作为键,参照事实型提问句生成用DB,来生成以与该单词关联的单词、事物等作为回答的多个事实型提问句,并输出其列表;非事实型提问句生成子***244,其若接收到单词等,则基于该单词等,参照非事实型提问句生成用DB,来生成探寻与该单词关联的某些理由、方法、定义等的非事实型提问句;提问应答***的前端210;提问应答子***用数据生成部204,其使用前处理部202的输出来生成用于提问应答子***240的DB;事实型提问句生成子***用数据生成部206,其使用前处理部202的输出来生成用于事实型提问句生成子***242的DB;和非事实型提问句生成子***用数据生成部208,其使用前处理部202的输出来生成用于非事实型提问句生成子***244的DB。
前端210包括:接口230,其提供向因特网162的连接;WEB服务器232;WEB站点响应用DB234;WEB站点响应用程序存储部236;和程序执行***238,其按照经由接口230以及WEB服务器232从其他终端给出的请求,从WEB站点响应用程序存储部236读出适当的程序,从WEB站点响应用DB234中检索适当的数据来生成WEB页面,经由WEB服务器232以及接口230回信给对方终端。对于程序执行***238来说,若接收到的请求是提问的形式就对提问应答子***240提供该提问,将从提问应答子***240得到的回答回信给对方终端。若请求是单词等的形式,就对事实型提问句生成子***242以及非事实型提问句生成子***244提供该单词等,将得到的提问句回信给对方终端。
图3表示提问应答子***240及其关联构成,参照该图3,前处理部202包括:词素解析部280,其对提问应答***用语料库200内的各句子进行词素解析,附加词类、活用形、读法等语法信息来作为词素串输出;和修饰被修饰解析部282,其使用词素解析部280输出的词素串来对句子的修饰被修饰关系进行解析,用以词为节点、以它们之间的修饰被修饰关系为边的网络(图表)形式进行输出。
提问应答子***用数据生成部204包括:辞典300,其存储单词的意思类;句型收集部308,其使用存储于辞典300的信息,从由修饰被修饰解析部282输出的修饰被修饰关系的网络提取各种句型来作成句型辞典304,并基于句型收集部308的输出来生成回答句生成用DB306,该回答句生成用DB306以如下形式来存储回答句候补,即,若被提供某单词和句型ID,则能以该单词和句型ID作为键来检索与它们同时出现的其他单词;和DB构建部302,其接受修饰被修饰解析部282的输出,用来构建用于非事实型提问应答子***332的解析完毕语料库310。回答句生成用DB306为了实现上述的功能,在本实施方式中,以能高速检索的形式来存储由成为键的单词以及句型ID和成为检索对象的单词这3个一组所构成的大量的记录。
提问应答子***240包括:事实型提问应答子***330,其生成针对事实型的提问的回答;非事实型提问应答子***332,其生成针对非事实型的提问的回答;提问类别判定部334,其接受提问句260,判定该提问句是事实型提问句还是非事实型提问句,并输出判定结果;提问划分部336,其接受提问句260和提问类别判定部334的输出,按照提问句的类别将提问句260划分成给事实型提问应答子***330的提问句340、和给非事实型提问应答子***332的提问句342;和回答选择部338,其接受事实型提问应答子***330输出的回答句344和非事实型提问应答子***332输出的回答句346,按照提问类别判定部334输出的提问类别选择某一个,作为回答句262来输出。
事实型的提问句和非事实型的提问句的形态不同。因此,作为提问划分部336,也能采用遵循基于提问句的形态的规则来划分提问句这样的方案。但在本实施方式中,使用以下方案:将预先收集大量事实型的提问句和非事实型的提问句而得到的数据作为指导训练数据,进行机器学习以便对两者进行判别。例如能使用SVM(Support Vector Machine:支持矢量机)。
另外,图2所示的事实型提问句生成子***用数据生成部206具有与非事实型提问句生成子***用数据生成部208相同的构成。关于该非事实型提问句生成子***用数据生成部208的详细情况在后面叙述。
图4是表示事实型提问应答子***330的概略构成的框图。事实型提问应答子***330包括:句型辞典304,其将句型与各句型ID一起存储;前述的回答句生成用DB306;词库360,其将单词以及句型按照它们的意思类在体系上进行分类;同义词/含意辞典362,其存储单词间以及句型间的同义词关系以及含意关系;提问解析部364,其接受提问句340,利用句型辞典304、词库360以及同义词/含意辞典362对提问句340进行解析,输出对提问句的句型进行确定的句型ID和提问句中出现的单词;查询生成部366,其基于提问解析部364的输出来生成用于从回答句生成用DB306取出需要的信息的查询语句;回答句检索部368,其利用查询生成部366生成的查询语句来检索回答句生成用DB306;和回答选择部370,其从回答句检索部368输出的回答句中选择最适合的回答作为针对提问句340的回答句,并作为回答句344输出。另外,句型辞典304还按每个句型保存向以具有该句型的句子出现在提问应答***用语料库200中的句子访问的访问信息。因此,只要获知句型ID,就能容易地访问具有该句型的句子。
另外,在以下的记载中导入的词库以及同义/含意辞典均与词库360以及同义词/含意辞典362同样地,不仅分别存储针对单词的还分别存储针对句型的它们的分类信息以及同义关系/含意关系。另外,作为句型,不仅包含“A喜欢Y”、“A寻求B”这样的含2个变量的句型,还包含“吃X”、“引起X”这样的仅含1个变量的句型。另外,也可以使含3个以上变量的句型包含在句型辞典中。
参照图5,非事实型提问应答子***332使用从前述的图2所示的提问应答***用语料库200得到的解析完毕语料库310。
针对该解析完毕语料库310,为了使全文检索高速进行而预先作成与单词等相关的索引。非事实型提问应答子***332如后述那样包括:SVM402,其用于输出表示回答句候补是何种程度适合作为针对提问句342的回答句的分数;SVM学习部400,其使用提问应答***用语料库200来进行SVM402的学习;回答句生成部404,其参照解析完毕语料库310生成针对提问句342的回答候补,使用SVM402来附加次序,将最上位的回答候补作为回答句346输出。
回答句生成部404包括:提问句解析部450,其接收提问句342,对提问句342进行预先确定的语法上的解析,针对提问句342中包含的各单词,输出为了生成特性而需要的信息(词类、活用形、修饰被修饰结构等);候补句检索部452,其使用提问句解析部450的输出和提问句,对解析完毕语料库310进行全文检索,来提取针对提问的给定个数的回答候补句;和回答候补句存储部454,其将候补句检索部452提取到的回答候补句与这些语法信息一起存储。另外,在此所说的“回答候补句”并不限于通常的意义上的一句,也可以是多个句子。以下,将这样的一句或多个句子的汇集称作“段”(passage)。另外,在此所说的“句”并不一定仅是通常意义的“句”,还指形成句子的一部分的句子。
回答句生成部404还包括:特性矢量生成部456,其针对提问句342与存储于回答候补句存储部454的回答候补句的组合的每一个生成以提问句解析部450输出的特性和从回答候补句得到的特性作为分量的特性矢量并输出;和回答句排序部458,其针对特性矢量生成部456输出的特性矢量的每一个,使用SVM402进行评分,按照分数对与特性矢量对应的回答候补句进行排序,并作为回答句346输出。
SVM学习部400用于预先进行SVM402的学习。SVM学习部400包括:QA句提取部420,其从解析完毕语料库310提取提问以及回答成为对的句子(以下称为QA句);和QA句存储部422,其存储QA句提取部420输出的QA句。在此,所谓QA句,是指提问与其回答的组。在因特网上例如存在能使提问句和其回答成为配对来检索的站点、以及能检索或一览显示专门用语的定义等的站点等。通过对从这些站点收集的信息实施简单的加工,能提取众多的QA句。该情况下的回答句可以是一句,但也可以是前述的段单位。在QA句存储部422中还存储作为QA句并不是正确的组合的QA句。这些不正确的QA句可以手输入,也可以组合从解析完毕语料库310随机提取的2个句子。对QA句的每一个附加表示这些QA句是否是正确的组合的标记。SVM学习部400还包括:学习数据生成部424,其从存储于QA句存储部422的各QA句生成用于进行SVM402的有指导训练学习的学习数据;学习数据存储部426,其存储学习数据生成部424输出的学习数据;和学习处理部428,其使用存储于学习数据存储部426的学习数据来进行SVM402的学习。通过进行这样的学习,SVM402被最优化,以便输出表示被提供的QA句是否是正确的QA句的输出和表示其可靠度的分数。
作为用作在此的SVM的学习数据的特性而考虑以下各种。例如在提问句具有询问某些事项的理由的“为什么...”这样的形式的情况下,在回答句候补内存在“理由”、“是因为”、“根据”等成为判定是针对这样的提问句的适当的回答的线索的词(线索词)。能将是否有这样的线索词作为特性之一。作为特性,除此以外,还能使用提问句内的内容词如何出现在回答句中、这些内容词与线索词的位置关系如何,在提问表示针对某事物的善恶的判断的情况下,还能使用回答句中是否有表示与该判断相同的判断的部分、存在于提问中的独立词是否集中出现在回答句内等。一般认为,在适合作为针对某提问句的回答的回答句中,存在该提问句本身、或该提问句多少变形后的句子。另外,在适合针对提问句的回答的回答句中,存在很多存在于提问句中的独立词,且它们大多汇合出现。若它们集中在线索词的附近,回答句就进一步成为适合作为针对提问句的回答的回答句。因此,期望将以上所述那样的特性用在回答句的合格性的评分中。
图6是表示事实型提问句生成子***242的概略构成的框图。参照图6,事实型提问句生成子***242包括:句型辞典500,其是与图4所示的句型辞典304同样地构建的辞典,能以单词和句型ID作为键,从提问应答***用语料库200中检索包含该单词且具有由该句型ID确定的句型的句子;提问句生成用DB502,其由包含多个记录的表格构成;候补检索部504,其接受单词等480;和提问句生成部506,其使用从候补检索部504输出的句型ID以及句型辞典500来检索提问应答***用语料库200,读出包含对应的句型和单词等的回答句并变形成提问句形式,作为提问句候补输出。提问句生成用DB502与图4所示的回答句生成用DB306同样地从提问应答***用语料库200生成。提问句生成用DB502以能高速检索的形式存储由2个单词和1个句型ID这3个一组所构成的大量的记录。在本实施方式中,提问句生成用DB502的各记录的内容与图4所示的回答句生成用DB306完全相同,记录数也相同。但在回答句生成用DB306中,是以一个单词和句型ID作为键来检索另一个单词的构成,与此相对,在提问句生成用DB502中,成为以某单词作为键来检索句型ID和另一个单词的构成,在这点上不同。因此,若用RDB来构建回答句生成用DB306和提问句生成用DB502,则仅是改变SQL语句就行,能由两者共用1个DB。在本实施方式中,重视响应性而将回答句生成用DB306和提问句生成用DB502设为分开的DB,但实质上由于两者能利用相同的数据以相同的记录构成来构建,所以具有不需要为了重新创建特别的DB以便提示提问句而从数据的收集开始进行的效果。
另外,并不需要提问句生成用DB502和回答句生成用DB306的记录的内容以及记录数彼此完全相同。若提问句生成用DB502是回答句生成用DB306的子集,则使用提问句生成用DB502生成的提问句必然会在回答句生成用DB306中找到回答。因此,能将保证以一定的精度得到回答的提问句提示给用户。
进而,即使在假设回答句生成用DB306中没有的记录存在于提问句生成用DB502的情况下,也能用与回答句生成用DB306不同的手段得到针对它们的回答。例如如针对算术计算的回答那样,还考虑能以一定的算法得到回答这样的提问。在这样的情况下,不需要对应的记录存在于回答句生成用DB306中。因此,在提问句生成用DB502中也可以存在回答句生成用DB306的子集以外的记录。在该情况下,能从回答句生成用DB306的子集简单地生成提问句生成用DB502这样的效果也不会改变。
另外,在上述实施方式中,回答句生成用DB306的记录和提问句生成用DB502的记录的内容相同。即,回答句生成用DB306的记录的列(column)构成和提问句生成用DB502的列构成相同。但两者不需要严格相同。例如,在设置“从短的回答起依次显示”或“按照回答从新到旧的次序显示”等选项作为提问应答***的回答显示中的回答的显示顺序的情况下,有时会在回答句生成用DB306的各记录中没置回答的字符数或回答记录的最初的收集日这样的列。并不需要针对它们也在提问句生成用DB502中进行设置。同样的事情还能反过来说。
即,对于回答句生成用DB306和提问句生成用DB502来说,在也将记录的列构成包括在内的情况下,只要有相互共同的部分即可。即,作为各记录的列,也可以将本实施方式中说明的构成作为共同部分,在这些以外存在相互不共同的列,作为DB整体,除了相互对应的、即由相同语料库的相同部分形成的共同的记录以外,这些以外的记录也可以存在于各DB中。
即使设为这样的构成,能以回答句生成用DB306为基础来构建提问句生成用DB502的效果也不会改变。
事实型提问句生成子***242进一步包括:词库508;同义词/含意辞典510;评分规则存储部514,其存储用于对提问句进行评分的评分规则;和提问句归并/选择部512,其使用词库508以及同义词/含意辞典510将提问句中相似的提问归并,将剩下的提问句按照存储于评分规则存储部514的规则进行评分,选择分数高的提问句来输出提问句列表482。提问句生成用DB502的各记录成为能以单词作为键来参照与该单词同时出现的句型的形式。另外,在提问归并/选择部512所进行的提问句的归并中,使用以下那样的手法。
·利用单词的同义关系,将处于同义关系的单词统一成代表单词。
·针对句型也利用同义关系,将处于同义关系的句型统一成代表句型。
·针对单词以及句型的含意关系也进行同样的处理。但在该情况下,在是处于含意关系的2个单词的情况下,统一成意思上位于上位的单词,即统一成含有下位词的意思的词。针对句型也同样。
·这样的置换的结果,针对成为同一或大致同一的提问句,留下这当中1个,删除其他。
另外,针对使代表单词以及代表句型为怎样的单词以及句型,只要预先存储在词库以及同义/含意辞典中即可。代表单词以及代表句型既可以人工登记,也可以通过某些机器学习来预先确定。另外,上述的单词以及句型的统一的顺序可以以任何顺序进行。可以在基于单词的同义关系的统一之后进行提问句的统一等,阶段性地进行提问句的归并。
评分规则存储部514存储的评分的规则是作为提问句而将什么样的句子置于上位这样的与站点的策略相关联的规则。例如,考虑基于成为提问句的基础的句子中出现的单词的由词库508指定的类来进行评分,或者根据出现的多个单词的组合来使分数变高变低。另外,还能基于原本的句子中存在但未出现在提问句中的单词的类来进行评分。不仅是单词的类,也可以对全部或一部分单词的每一个附加用于评分的某些信息。进一步地,也可以决定评分规则之间适用的优先顺位。该评分规则和遵循该规则的评分计算方法按照一种编程语言上的策划(Scheme)来设计。因此,存储于评分规则存储部514的评分规则期望能用评分规则制定用的专用的工具作成、更新。当然,若规则基于文本,则也能由理解了上述的编程上的策划的用户用例如文本编辑器等来记述该规则。
图7是表示非事实型提问句生成子***用数据生成部208以及非事实型提问句生成子***244的概略构成的框图。
参照图7,非事实型提问句生成子***用数据生成部208包括:解析完毕语料库550,其保存图3所示的修饰被修饰解析部282的输出;段分割部552,其将存储于解析完毕语料库550的各文档分割成各自包含5句左右的句子的段;和分割完毕语料库554,其存储被分割成段的文档。段分割部552分割的段可以具有相互重复的部分。非事实型提问句生成子***用数据生成部208进一步包括:提问句候补提取部556,其从存储于分割完毕语料库554的各段提取具有提问句的形式的句子,作为提问句候补;提问句候补生成部558,其从存储于分割完毕语料库554的各段生成以该段或该段的一部分句子作为回答这样的提问句候补;提问句候补分数算出部560,其针对提问句候补提取部556以及提问句候补生成部558的各个输出,使用与图5所示的非事实型提问应答子***332中学习完毕的SVM402相同的SVM,来算出作为该段或该段中包含的句子成为回答这样的提问句的分数;和提问句候补选择部562,其仅选择提问句候补分数算出部560算出的分数为阈值以上的提问句,来构建提问句DB580。
非事实型提问句生成子***244包括:提问句DB580,其成为能以单词等作为键来检索包含该单词等的提问句的形式;词库584;同义词/含意辞典582;评分规则存储部586,其存储对提问句进行评分时的规则,且与图6的评分规则存储部514是同样的;提问句生成部588,其响应于接受到单词等480这一情况,从提问句DB580以单词等480作为键来读出提问句,生成多个提问句候补;和提问句归并/选择部590,其通过针对提问句生成部588生成的多个提问句使用词库584以及同义词/含意辞典582来对同义词、表征同种意思的单词以及句型等进行归并,从而对提问句候补进行归并,进而利用存储于评分规则存储部586的规则来算出提问句的分数,按照分数将提问句排顺序,并作为提问句列表484输出。
图8是表示在图2所示的程序执行***238从终端装置接受到某些请求时用于按照该请求中附加的用户的输入在提问应答子***240、事实型提问句生成子***242以及非事实型提问句生成子***244中对处理进行划分的程序的控制结构的流程图。
参照图8,程序执行***238执行的划分程序包括:步骤610,判定输入是否是提问句,根据判定是肯定还是否定来使控制的流程分支;步骤612,响应于步骤610的判定是肯定这一情况而通过图2所示的提问应答子***240作成针对提问句的回答,将回答作为返回值,并重回到母例程;步骤614,响应于步骤610的判定是否定这一情况而判定输入是否是单词等,根据判定是肯定还是否定来使控制的流程分支;步骤616,响应于步骤614的判定是肯定这一情况而将单词等交给事实型提问句生成子***242以及非事实型提问句生成子***244来作成提问句的排列,将结果汇总成1个排列作为返回值,并重回到母例程;和步骤618,响应于步骤614的判定是否定这一情况而将表示错误的种类的值代入到表示返回值的变量,并重回到母例程。
[动作]
具有以上说明的构成的提问应答***164如以下那样动作。提问应答***164的动作分为准备和服务时这2个阶段。以下依次进行说明。
<准备>
准备阶段进行图4所示的句型辞典304以及回答句生成用DB306的作成、图5所示的SVM402的学习、图6所示的提问句生成用DB502的作成、图7所示的提问句DB580的作成。另外,在这些处理之前,预先从因特网上的WEB站点收集大量的句例来作成提问应答***用语料库200。另外还预先准备提问类别判定部334(参照图2)、词库360、同义词/含意辞典362(均参照图4)、词库508、同义词/含意辞典510以及评分规则存储部514(参照图6)、同义词/含意辞典582、评分规则存储部586以及词库584(参照图7)等。
(1)句型辞典304以及回答句生成用DB306的作成
参照图3,前处理部202的词素解析部280对保存于提问应答***用语料库200的各句子进行词素解析,将附加了词类信息等语法信息的词素串提供给修饰被修饰解析部282。修饰被修饰解析部282基于被提供的词素串来对原本的句子的修饰被修饰关系进行解析,作成修饰被修饰关系的网络。修饰被修饰解析部282在作成的网络上提取具有给定的下限数以上以及给定的上限数以下的节点的全部路径。通过将与这些路径对应的单词连结来得到1个词组或句子。修饰被修饰解析部282将这样得到的词组或句子提供给句型收集部308。
提问应答子***用数据生成部204的句型收集部308一边参照辞典300一边将从修饰被修饰解析部282提供的词组以及句子分类成句型。在该分类中,例如通过将属于各词组以及句子的单词抽象化成它们所属的类,将属于相同的类的单词作为相同单词来处理,由此将相同形态的词组以及句子归并成1个句型。句型收集部308使用这样得到的句型以及句子来生成图4所示的句型辞典304。另外,该句型辞典304由分别被附加了唯一的句型ID的句型以及句子构成。
句型收集部308还针对各词组或句子,用能以属于它们的单词和句型ID作为键来检索词组或句子的形式来作成回答句生成用DB306。
相同地,提问应答子***用数据生成部204的DB构建部302构建解析完毕语料库310,该解析完毕语料库310保存修饰被修饰解析部282输出的词组以及句子、和用于对它们进行全文检索的索引。
(2)SVM402的学习
参照图5,QA句提取部420从解析完毕语料库310提取QA句,并保存于QA句存储部422。在QA句提取部420中也可以进一步以手动操作来追加QA句。在QA句存储部422中还存储作为QA句不是正确的组合的QA句。这些不正确的QA句可以手动输入,也可以组合从解析完毕语料库310中随机提取的2个句子。对QA句的每一个附加表示这些QA句是否是正确的组合的标记。学习数据生成部424从存储于QA句存储部422的各QA句生成用于进行SVM402的有指导训练学习的学习数据,保存到学习数据存储部426。学习处理部428使用存储于学习数据存储部426的学习数据来进行SVM402的学习。通过进行这样的学习,SVM402被优化成输出表示被提供的QA句是否是正确的QA句的输出和表示其可靠度的分数。
(3)事实型提问句生成子***242的提问句生成用DB502的作成
参照图6,提问句生成用DB502用与回答句生成用DB306(图3)同样的手法作成。但提问句生成用DB502是若被提供某单词或单词群就以该单词或单词群作为键来检索句型ID这样的数据库形式。
(4)非事实型提问句生成子***244的提问句DB580
图7所示的提问句DB580如以下那样作成。首先,针对解析完毕语料库550(与图5所示的解析完毕语料库310同样地完成了基于前处理部202的前处理),将各文档分割成以5个左右的句子为单位的段,在分割完毕语料库554中保存这些段。提问句候补提取部556生成从存在于各段的单词生成的全部单词串,以简单的句型变换将它们变换成提问句形式。例如,设想以下情况:段包含“如大家知道的那样,天是蓝色的。”以及“这是因为空气中的分子使太阳光的蓝色部分散射。”这样2个句子。从该段的单词能得到“大家知道”、“天是蓝色的”、“这是因为”、“空气中的分子使太阳光”、“空气中的分子使太阳光的蓝色部分散射”等大量的单词串。例如,若将这样得到的单词串变换成“为什么...”这样形式的句型,则能得到“为什么大家知道?”、“为什么天是蓝色的?”、“为什么这是因为?”、“为什么空气中的分子使太阳光?”、“为什么空气中的分子使太阳光的蓝色部分散射?”等提问句候补。另外,若段中有相当于提问句的句子或表现,则也将它们提取出来,加入到提问句候补中。
这样得到的提问句候补均被提供给提问句候补分数算出部560。提问句候补分数算出部560使用图3所示的非事实型提问应答子***332的SVM402来算出表示这些提问句候补成为以原本的段作为回答的提问的程度的分数并输出。提问句候补选择部562针对各提问句候补选择由提问句候补分数算出部560算出的分数为阈值以上的提问句,保存到提问句DB580。该提问句DB580成为能以单词等作为键来检索包含该单词的提问句的形式。
通过用这样的方法生成提问句,能得到如下那样的效果。即,有时原本的段中包含的个别的句子单独不能成为某提问句的回答。在这样的情况下,很难从个别的句子生成适当的提问句。但根据本实施方式,由于从由使用段中的单词的、全部可能的组合构成的单词串形成提问句,所以例如能得到段中的多个句子组合而成的结果成为回答这样的提问句。也有时能得到段本身成为回答这样的提问句。
进而,根据上述那样的方法,由于将段中的全部单词的组合作为提问句候补来考虑,因此还有能非常灵活地生成提问句这样的效果。用于此的算法也简单。在生成单词的组合时,还能通过施加某些限制来仅使用满足特定的条件的单词的组合。例如能施加仅具有修饰被修饰关系的单词的组合、仅由连续的单词构成的单词串这样的限制。通过这样能抑制生成单词串时的计算成本。
若考虑如下的事情就能理解用上述的方法能够选择适当的提问句这点。即,若是成为针对非事实型的提问的正当的回答(或包含成为正当的回答的句子)的段,则应当包含与该提问在意思上同义或类似的表现或者句子。是说,若预先从段中提取了这样的表现或句子,则能将该表现或句子作为不论是以该段作为回答的什么样的提问句都同义的提问、或类似的提问的代表元素。
<服务时>
·初始画面
用户例如在图1所示的计算机168中启动浏览器,输入提问应答***164的首页的地址并按下返回键。其结果,图2的接口230接收到该请求,将该请求交给WEB服务器232。在并未通过该请求特别进行程序的指定时,WEB服务器232指定用于作成首页的特定的程序并将该请求提供给程序执行***238。
程序执行***238从WEB站点响应用程序存储部236读出并执行由WEB服务器232指定的程序。即,程序执行***238执行所读出的程序中的命令,从WEB站点响应用DB234中将必要的信息和指定在程序中输出这一情况的静态的文本进行组合,生成表征首页的HTML文件并返回给WEB服务器232。WEB服务器232经由接口230将该HTML文件回信给发送来请求的终端。在该HTML文件中嵌入用于请求特定的记事的详细显示的表单(form)。在各表单中指定对该记事进行确定的信息和用于对其进行处理的程序名。若用户按下请求特定的记事的详细的表单所具备的按钮,就将用于进行该记事的详细显示的程序名和为了进行详细显示而需要的信息发送到前端210。若WEB服务器232将该请求提供给程序执行***238,则程序执行***238从WEB站点响应用程序存储部236读出所指定的程序,按照所指定的条件从WEB站点响应用DB234读出记事,生成用来显示的HTML文件并回信给对方终端。前端210如此地一边按照来自对方终端的请求动态地生成画面一边向对方终端提供各种信息。
·输入提问句时
若被提供了提问句,则提问应答***164如以下那样动作。
程序执行***238若从用户接收到提问句,就将该提问句提供给提问应答子***240,将其结果得到的回答句回信给对方终端。若从对方终端取代提问句而接收到单词等,则程序执行***238将该单词等提供给事实型提问句生成子***242以及非事实型提问句生成子***244来生成提问句的排列。程序执行***238生成将这样得到的提问句的排列的文本嵌入后得到的HTML语句,并回信给对方终端。在该示例中,该HTML语句嵌入了若点击各提问句就将该提问句发送给前端210这样的脚本。
在本实施方式中,若访问了采用提问应答***164的WEB站点的首页,就显示图9所示这样的画面。在该示例中,该WEB站点是新闻站点。首页640由各种要素构成,但在该示例中,在画面的右中央附近设置了提问句的输入栏642。在紧挨输入栏642的上方显示在输入栏642中输入提问句或感兴趣的单词等这样进行告知的消息。在输入栏642的下方显示广告栏、天气栏、以及其他在此未图示的各种信息。该输入栏形成执行图2所示的特定的程序那样进行指定的表单的一部分。在此,设用户在输入栏642中输入了例如“安倍政权”这样的词。
该单词与特定的程序名一起被发送到提问应答***164的前端210。前端210的程序执行***238从WEB站点响应用程序存储部236读出并执行该特定的程序。该程序包含在图8中示出控制结构的程序,作为其一部分的例程。其结果,在上面记载的那样的条件下,经过图8的步骤610→步骤614→步骤616的路径将单词等提供给图2所示的事实型提问句生成子***242以及非事实型提问句生成子***244。
参照图6,事实型提问句生成子***242的候补检索部504以被输入的单词等480作为键来对提问句生成用DB502进行检索,取出与该单词等同时出现的回答句的句型ID。提问句生成部506通过使用从候补检索部504提供的单词等和句型ID来对句型辞典500进行检索,从而取出对具有该单词等和由句型ID确定的句型的句子进行访问的访问信息。提问句生成部506还能使用该访问信息来访问提问应答***用语料库200,取出目标的句子。其结果,从提问应答***用语料库200取出具有与候补检索部504输出的句型ID相当的句型且包含单词等480的句子。由于在提问应答***用语料库200中存储了大量的句子,因此取出的句子通常成为相当的数量。提问句生成部506将这样取出的句子变形成提问句形式。例如,设将“安倍政权”这样的词作为单词等480来提供,从提问句生成用DB502取出的句型ID是“A在寻求B”这样的句型。设在提问应答***用语料库200中存在“安倍政权在寻求参加TPP。”这样的句子。由于该句子包含该“安倍政权”这样的词,因此被提问句生成部506从提问应答***用语料库200中取出。提问句生成部506针对各句型保持有将句子变形成提问形式的规则。例如对于“A在寻求B”这样的句子保持了例如(1)“A寻求的是什么”这样的变形、(2)“寻求B的是谁”这样的变形等作为规则。在此,应用使句型中的单词当中相当于单词等480的单词留下这样的变形规则。在这里所举出的示例中,采用上述(1)的示例,生成“安倍政权寻求的是什么”这样的提问句。
提问句生成部506针对从提问应答***用语料库200取出的各句子,按照其句型和单词等用上述那样的处理来生成提问句候补,提供给提问句归并/选择部512。
提问应答***用语料库200包含从因特网上的WEB站点收集的大量的句子。因此,通常存在相同的句子、或者句子的形态或表现虽然多少不同但表征大致相同意思的多个句子。若将它们全都显示于画面,则作为用户反而会感到麻烦。作为提问句,尽可能显示多样的内容有助于用户的提问作成。因此,提问句归并/选择部512参照词库508以及同义词/含意辞典510将同义词归并到一个单词,或将表征下位概念的多个单词置换成它们的共同的上位概念的单词,由此对成为相同句子的句子进行归并,或将作为句子的句型不同但内容相同的句型归并成任意1者。其结果,提问句候补被归并。提问归并/选择部512进一步按照存储于评分规则存储部514的评分规则对提问句候补进行评分。按照分数对提问句排顺序,选择分数的上位的给定数的提问句候补作为提问句列表482来输出。
参照图7,非事实型提问句生成子***244若被提供了单词等480,则如以下那样动作。提问句生成部588若被提供了单词等480,则以该单词作为键来对提问句DB580进行检索,取出非事实型的提问句候补。在提问句DB580中还存储有大量的提问句。因此,通常提问句生成部588所取出的提问句候补是大量的。提问句归并/选择部590如这样使用词库584以及同义词/含意辞典582将大量的提问句候补进行归并。提问句归并/选择部590进一步按照存储于评分规则存储部586的评分规则对留下的提问句候补进行评分、排顺序,并选择分数高的给定个数的提问句作为提问句列表484来输出。
再次参照图2,程序执行***238生成嵌入了从事实型提问句生成子***242以及非事实型提问句生成子***244输出的提问句的文本、和点击提问句时将该提问句发送给提问应答***164的脚本的HTML源文件,经由WEB服务器232以及接口230发送到对方终端。
在对方终端显示图10所示的页面660。在页面660中,不同于首页640,在输入栏642的正下方显示基于“安倍政权”这样的单词而作成的多个提问句664。在该示例中,若选择了提问句664的任一者,则通过嵌入到HTML文件的脚本来进行处理以便将该提问句输入到输入栏642,对提问应答***164发送包含该提问句的请求。
在该情况下,提问应答***164如下那样动作。参照图2,该请求经由接口230以及WEB服务器232被提供给程序执行***238。程序执行***238读出并执行在图8中示出控制结构的程序。
参照图8,在该情况下,步骤610的判定成为肯定,在步骤612中由提问应答子***240生成针对该提问句的回答,并发送到对方终端。
更具体地,参照图2,提问句从程序执行***238被交到提问应答子***240。参照图3,接受到提问句260的提问类别判定部334判定该提问是事实型还是非事实型,将判定结果提供给提问划分部336以及回答选择部338。
若提问是事实型,提问划分部336就将问句340提供给事实型提问应答子***330,若是非事实型,提问划分部336就将提问句342提供给非事实型提问应答子***332。
若提问是事实型,则事实型提问应答子***330如以下那样动作。参照图4,提问解析部364使用词库360以及同义词/含意辞典362来对提问句340进行解析,确定与提问句340对应的回答句的句型的句型ID和提问句中出现的单词并提供给查询生成部366。
查询生成部366以被提供的句型ID和出现单词作为键来生成用于在回答句生成用DB306中检索回答候补的查询语句,并提供给回答句检索部368。回答句检索部368通过将该查询语句引入到回答句生成用DB306,从而从回答句生成用DB306读出回答候补,并提供给回答选择部370。回答选择部370选择所读出的回答候补当中最适合作为针对提问句340的回答的回答候补,作为回答句344提供给程序执行***238。该情况下的回答选择部370所进行的选择能通过利用了例如提问句340和回答候补中共有的单词的数量、两者的句型的组合、两者中使用的单词的类以及级别(level)的组合等的评分来进行。
其结果,与该提问句对应的回答句被从提问应答***164回信并显示在画面。
另一方面,在提问是非事实型的情况下,非事实型提问应答子***332如以下那样动作。参照图5,若接受到提问句342,则提问句解析部450对提问句进行预先确定的语法上的解析,针对提问句342中包含的独立词即各单词,作成为了生成特性而需要的信息,并输出。候补句检索部452基于所输出的信息对解析完毕语料库310进行全文检索,取出给定个数的包含提问句342中所包含的各单词的回答候补,并与它们的语法信息一起保存到回答候补句存储部454中。
特性矢量生成部456按提问句解析部450与存储于回答候补句存储部454的各回答候补的每个组合,使用它们的语法信息来生成构成与由学习数据生成部424生成的特性矢量相同的特性矢量。其中,该组成矢量与学习数据生成部424所生成的不同,不具有表示该组合是否是正确的组合的标记。
回答句排序部458将按提问句与各回答候补的每个组合得到的特性矢量提供给SVM402,从SVM402接受分数。该分数表示回答候补是何种程度适合作为针对提问句的回答句。回答句排序部458将这样得到的提问句与各回答候补的组合根据它们的分数降序地进行排序,将最上位的回答句作为回答句346来输出。
在用户从最初起输入了某些提问句的情况下,提问应答子***240对该提问句与上述同样地进行处理,将回答回信给对方终端。
[基于计算机的实现]
上述的实施方式所涉及的提问应答***164能由计算机硬件和安装于其上的软件来实现。参照图11,该计算机***930包括具有存储器端口952以及DVD(Digital VersatileDisc:数字多功能盘)驱动器950的计算机940、键盘946、鼠标948和监视器942。实际上,由于所使用的数据库非常大且提问应答***用语料库200需要大容量的存储装置,以及为了使响应性良好,而采用基于多个计算机的分散处理。在此,为了方便,作为由1台计算机安装提问应答***164来进行说明。
计算机940除了包括存储器端口952以及DVD驱动器950以外,还包括:CPU(中央处理装置)956;与CPU956、存储器端口952以及DVD驱动器950连接的总线966;存储引导程序等的读出专用存储器(ROM)958;和与总线966连接的存储程序命令、***程序、以及作业数据等的随机存取存储器(RAM)960。计算机***930进一步包括提供向能与其他终端通信的网络的连接的网络接口(I/F)944。
用于使计算机***930进行作为提问应答***164的各功能部的动作的计算机程序存储于装备在DVD驱动器950或存储器端口952的DVD962或可移动存储器964中,进而转发给硬盘954。或者,程序也可以通过未图示的网络而发送给计算机940并存储在硬盘954中。程序在执行时被载入到RAM960。也可以从DVD962、从可移动存储器964或经由网络I/F944直接将程序载入到RAM960。
该程序包含使计算机940作为该实施方式所涉及的提问应答***164的各功能部进行动作的多个命令。进行该动作所需的基本的功能的几个由在计算机940上进行动作的操作***(OS)或第3方的程序、或者安装在计算机940的各种编程工具包的模块提供。因此,该程序可以不必一定包含实现本实施方式的***以及方法所需的全部功能。该程序只要包含命令当中通过用控制成能得到所期望的结果的做法来调用适当的功能或编程工具包内的适当的程序工具从而执行作为上述的非事实型的提问应答***的动作的命令即可。计算机***930的动作是周知的。因而在此不再重复。
根据上述实施方式所涉及的提问应答***164,若用户输入自己感兴趣的单词等,则提示与该单词等相关联的提问句即由提问应答***得到正确的回答的可能性高的提问的列表。用户通过点击所提示的提问当中能得到自己希望获知的回答的提问句,从而能以高的概率得到针对该提问的回答。即,不重复提问句的作成就能容易地得到自己想要获知的信息。并且,为了提问提示而需要的资源能由计算机自动准备。因此,具有即使成为对象的领域很大也能容易地构建上述***的效果。
关于原本的提问应答***(上述实施方式中图2所示的提问应答子***240)的精度,能预先通过实验来测定。例如,针对非事实型提问,能基于实验结果按由图5所示的回答句排序部458进行选择时的分数的每个阈值来估计能得到何种程度的精度。在事实型的提问的情况下,针对按每个提问的句型得到的回答的精度为何种程度,能预先进行测定。以这些精度为基础,对生成提示给用户的提问句时的分数的阈值以及/或者提问句生成中所用的句型施加限制,由此能生成能在该提问应答***中保证能得到具有一定以上的精度的回答的提问句。
[变形例]
在上述实施方式中,以语言为日语来进行说明。但本发明并不限定于这样的实施方式。通过使用与各种语言相应的辞典等,能用同样的构成来实现用于各种语言的提问应答***以及用于此的提问句候补作成子***。也可以预先作成用于各种语言的***,自动识别所输入的语言从而以适当的语言用的***来输出提问句列表以及回答。
在上述实施方式中,图2所示的事实型提问句生成子***242以及非事实型提问句生成子***244均生成并输出提问句列表。但本发明并不限定于这样的实施方式。例如,也可以在各提问句候补中附加针对该提问句的回答句来作成HTML文件并输出给浏览器。在该情况下,针对各提问句候补的回答既可以从最初起就显示,也可以不显示。在从最初起不显示的情况下,可以将在用户点击了提问句时进行显示那样的脚本嵌入到HTML语句中。
在上述实施方式中,将提问句候补生成为完全的自然语言句子。但也可以不生成完全的自然语言句子,例如可以以自然语言句子当中、将作为提问的回答而重要的单词用某些符号(例如字母表的“X”等)表征的肯定句的形式来生成提问句候补。
另外,在上述实施方式中,在输入单词等时生成与该单词相关联的提问句候补。但也可以不仅如此,还对附带修饰短语的名词短语(体言结尾)等形态的输入进行处理。
在上述实施方式中,生成了事实型和非事实型这两种类型的提问句,但也可以仅生成任意一种。
在上述实施方式中,将句型的一部分或全部与表示意思上的分类的词库建立关联。在该情况下,也能通过使用该分类将所生成的提问句限定成与一部分意思类建立关联的句型。例如在预先将“B出发”这样的句型与“CREATION”这样的类建立关联并得到了包含与CREATION类建立关联的句型的句子的情况下,能通过在开头附加“为什么”而生成询问其理由的提问,能高水平地进行意思上的处理。同样的情况也可以对名词等来说明。例如设将“安倍政权”与“政治主体”这样的类建立关联。在该情况下,例如在得到了包含与政治上的类建立关联的名词的句子的情况下,能生成询问其目的的提问。另外,若将“地球温室效应”这样的单词分类到“社会问题”类,则针对包含地球温室效应这样的单词的句子,能通过组合句型的意思上的分类来生成询问其结果这样的提问句。另外,本发明并不限定于这样的实施方式,还能作为对句型仅进行收集、分类这样的***。
另外,针对这样的包含向意思上的类的分类、以及希望生成的提问的方向性、倾向等的词库,可以预先从大量的文档中自动学习。
在上述实施方式中,在由用户提供了单词等的情况下生成并提示提问句的候补。但本发明并不限定于这样的实施方式。例如,也可以在得到了针对提问句的回答句时,使用该回答句中所包含的单词进一步生成提问句的候补,并提示给用户。若采用这样的方式,则能针对一次得到了回答的提问进一步进行深入的分析。即,能通过自动生成的多个提问句的回答的组合进一步生成复杂的提问。
在上述实施方式中,作为针对提问句的回答而提示了单词或回答句。但本发明并不限定于这样的实施方式。例如可以将与这样得到的回答相关联的新闻报道等的一部分同时进行提示。
在上述实施方式中,用户没有进行区别。但例如通过进行用户登记来预先将由用户选择的提问句的倾向作为信息来积蓄,能有效利用该信息。其结果,能通过上述的提问句生成***来更有效地利用提问应答***。例如,还能将包含属于用户所喜好的类的单词的提问句在列表的上位进行提示,或者将用户经常选择的句型的提问句在上位进行提示,或者基于到此为止的用户的提问选择历史对要提取的提问句所属的领域进行某种程度的限定来示出。
在上述实施方式中,提问候补以单纯的列表形式对用户进行提示。但提示方法并不限于此。例如,可以对提问候补基于它们的主题来进行分类,按主题区分来显示。也可以在视觉上将属于各主题的提问分类显示于显示面上的不同的区域。尽可能将各区域以颜色区分来显示。如此,能在视觉上理解所生成的提问相互的关系,用户的提问的选择作业变得更容易。
在上述实施方式中,在进行非事实型提问句候补的评分时,使用了SVM402。但评分所用的方案并不限定于SVM。作为所谓的机器学习中使用的手法,只要是使用模型来输出针对输入的某些分数的手法,不论什么样的手法都能使用。
本次公开的实施方式仅是例示,本发明并不仅限制在上述的实施方式。本发明的范围在参酌发明的详细的说明的记载的基础上,由权利要求的各权利要求示出,包含与其中所记载的语句等同的意义以及范围内的全部变更。
产业上的利用可能性
本发明能够利用于对以自然语言给出的提问提供回答的服务、和由这些服务使用的提问应答***中。
标号的说明
164 提问应答***
232 WEB服务器
238 程序执行***
200 提问应答***用语料库
204 提问应答子***用数据生成部
206 事实型提问句生成子***用数据生成部
208 非事实型提问句生成子***用数据生成部
240 提问应答子***
242 事实型提问句生成子***
244 非事实型提问句生成子***
304 句型辞典
306 回答句生成用DB
310、550 解析完毕语料库
330 事实型提问应答子***
332 非事实型提问应答子***
340、342 提问句
344、346 回答句
360、508、584 词库
362、510 同义词/含意辞典
364 提问解析部
400 SVM学习部
402 SVM
404 回答句生成部
480 单词等
482、484 提问句列表
502 提问句生成用DB
506、588 提问句生成部
512、590 提问句归并/选择部

Claims (9)

1.一种提问句生成装置,与提问应答***一起使用,其中,
所述提问句生成装置包括:
单词接收单元,其接收成为提问句生成的基础的单词或单词串;和
提问句生成用数据库,其由提问句生成用的多个记录构成,
所述多个记录各自以单词作为键且包含在所述提问应答***中使用的与该单词同时出现的回答句句型,
所述提问句生成装置还包括:
第1提问句生成单元,其以由所述单词接收单元接收到的单词作为键从所述提问句生成用数据库中检索回答句句型,从检索到的回答句句型和接收到的所述单词生成提问句。
2.根据权利要求1所述的提问句生成装置,其中,
所述提问句生成装置还包括:
同义词辞典,其保存单词或回答句句型、或者该双方的同义关系或含意关系;和
提问句归并单元,其响应于所述提问句生成单元生成了多个提问句这一情况,参照所述同义词辞典将所述多个提问句归并成更少数量的提问句并输出。
3.根据权利要求1所述的提问句生成装置,其中,
所述提问句生成装置还包括:
词库,其保存将单词或回答句句型、或者该双方按照它们的意思在体系上进行分类后的分类信息;和
提问句归并单元,其响应于所述提问句生成单元生成了多个提问句这一情况,参照所述词库将所述多个提问句归并成更少数量的提问句并输出。
4.根据权利要求1~3中任一项所述的提问句生成装置,其中,
所述单词接收单元能接收多个单词,
所述提问句生成用数据库能以由所述单词接收单元接收到的多个单词作为键来检索与该多个单词同时出现的回答句句型。
5.根据权利要求1~4中任一项所述的提问句生成装置,其中,
所述提问句生成单元包括:
提问/回答生成单元,其以由所述单词接收单元接收到的单词作为键从所述提问句生成用数据库中检索回答句句型,从检索到的回答句句型和接收到的所述单词生成提问句以及针对该提问句的回答句。
6.根据权利要求1~5中任一项所述的提问句生成装置,其中,
所述提问应答***包括:
事实型提问应答子***,其若被提供事实型的提问句,则将该提问句的句型和该提问句中包含的单词或单词串作为键来检索回答句生成用数据库并生成回答句候补,
所述提问应答***的所述回答句生成用数据库和所述提问句生成装置的所述提问句生成用数据库包含从相同的语料库生成的共同的记录。
7.根据权利要求1~6中任一项所述的提问句生成装置,其中,
所述提问应答***还包括:
非事实型提问应答子***,其若被提供非事实型的提问句,则从语料库中提取多个成为回答句候补的段,通过预先学习完毕的分数算出单元算出表示作为针对被提供的所述提问的回答的适合度的分数,将具有最上位的分数的回答句候补作为针对被提供的所述提问的回答而输出,
所述提问句生成装置还包括:
提问句数据库,其存储多个提问句,所述多个提问句各自是从预先准备的不具有提问和回答这样的明示的区别的段的集合内的任一个段生成的提问句,且以成为生成该提问句的基础的段作为回答;
第2提问句生成单元,其若接收到成为提问句生成的基础的单词或单词串,则参照所述提问句数据库,从成为该提问句生成的基础的单词或单词串、或者它们的同义词或含有它们的意思的词、和存储于所述提问句数据库的提问句生成新的提问句并输出;和
用于将所述第1提问句生成单元以及第2提问句生成单元输出的提问句汇总输出的单元。
8.一种提问句生成装置,与提问应答***一起使用,其中,
所述提问应答***包括:
非事实型提问应答子***,其若被提供非事实型的提问句,则从语料库中提取多个成为回答句候补的段,通过预先学习完毕的分数算出单元在各段算出表示作为针对被提供的所述提问的回答的适合度的分数,将具有最上位的分数的回答句候补作为针对被提供的所述提问的回答而输出,
所述提问句生成装置包括:
提问句数据库,其存储多个提问句,所述多个提问句各自是从所述语料库内的任一个段生成的提问句,且以成为生成该提问句的基础的段作为回答;和
提问句生成单元,其若接收到成为提问句生成的基础的单词或单词串,则参照所述提问句数据库,从成为该提问句生成的基础的单词或单词串、或者它们的同义词或含有它们的意思的词、和存储于所述提问句数据库的提问句生成新的提问句并输出。
9.一种计算机程序,使计算机作为与提问应答***一起使用的提问句生成装置发挥功能,其中,
该计算机与提问句生成用的多个记录所构成的提问句生成用数据库连接来使用,所述多个记录各自以单词作为键且包含在所述提问应答***中使用的与该单词同时出现的回答句句型,
所述计算机程序使所述计算机作为如下单元发挥功能:
单词接收单元,其接收成为提问句生成的基础的单词或单词串;和
提问句生成单元,其以由所述单词接收单元接收到的单词作为键从所述提问句生成用数据库中检索回答句句型,从检索到的回答句句型和接收到的所述单词生成提问句。
CN201580043433.8A 2014-08-21 2015-08-10 提问句生成装置以及记录介质 Active CN106663125B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2014-168702 2014-08-21
JP2014168702A JP6414956B2 (ja) 2014-08-21 2014-08-21 質問文生成装置及びコンピュータプログラム
PCT/JP2015/072622 WO2016027714A1 (ja) 2014-08-21 2015-08-10 質問文生成装置及びコンピュータプログラム

Publications (2)

Publication Number Publication Date
CN106663125A true CN106663125A (zh) 2017-05-10
CN106663125B CN106663125B (zh) 2020-06-30

Family

ID=55350659

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201580043433.8A Active CN106663125B (zh) 2014-08-21 2015-08-10 提问句生成装置以及记录介质

Country Status (6)

Country Link
US (1) US10380149B2 (zh)
EP (1) EP3185140A4 (zh)
JP (1) JP6414956B2 (zh)
KR (1) KR102408082B1 (zh)
CN (1) CN106663125B (zh)
WO (1) WO2016027714A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111428448A (zh) * 2020-03-02 2020-07-17 平安科技(深圳)有限公司 文本生成方法、装置、计算机设备及可读存储介质
CN111506712A (zh) * 2019-01-30 2020-08-07 株式会社东芝 对话***、对话方法、程序以及存储介质
CN112579666A (zh) * 2020-12-15 2021-03-30 深港产学研基地(北京大学香港科技大学深圳研修院) 智能问答***和方法及相关设备

Families Citing this family (52)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106469169A (zh) 2015-08-19 2017-03-01 阿里巴巴集团控股有限公司 信息处理方法及装置
US10289740B2 (en) * 2015-09-24 2019-05-14 Searchmetrics Gmbh Computer systems to outline search content and related methods therefor
CN105786794B (zh) * 2016-02-05 2018-09-04 青岛理工大学 一种问答对检索方法及社区问答检索***
CA3024078C (en) 2016-05-29 2024-04-09 Wix.Com Ltd. Creation and update of hierarchical websites based on collected business knowledge
JP6819990B2 (ja) 2016-08-16 2021-01-27 国立研究開発法人情報通信研究機構 対話システム及びそのためのコンピュータプログラム
WO2018066489A1 (ja) * 2016-10-07 2018-04-12 国立研究開発法人情報通信研究機構 ノン・ファクトイド型質問応答システム及び方法並びにそのためのコンピュータプログラム
JP6929539B2 (ja) * 2016-10-07 2021-09-01 国立研究開発法人情報通信研究機構 ノン・ファクトイド型質問応答システム及び方法並びにそのためのコンピュータプログラム
CN106777232B (zh) * 2016-12-26 2019-07-12 上海智臻智能网络科技股份有限公司 问答抽取方法、装置及终端
US10528665B2 (en) * 2017-01-11 2020-01-07 Satyanarayana Krishnamurthy System and method for natural language generation
JP6815899B2 (ja) * 2017-03-02 2021-01-20 東京都公立大学法人 出力文生成装置、出力文生成方法および出力文生成プログラム
JP6218057B1 (ja) * 2017-07-14 2017-10-25 Jeインターナショナル株式会社 自動応答サーバー装置、端末装置、応答システム、応答方法、およびプログラム
JP2020526846A (ja) * 2017-07-24 2020-08-31 バイオメディカル オブジェクツ インク 構造化自然言語知識システム
CN108509477B (zh) * 2017-09-30 2019-10-11 平安科技(深圳)有限公司 语义识别方法、电子装置及计算机可读存储介质
KR102100951B1 (ko) * 2017-11-16 2020-04-14 주식회사 마인즈랩 기계 독해를 위한 질의응답 데이터 생성 시스템
US10915560B2 (en) * 2017-11-30 2021-02-09 International Business Machines Corporation Ranking passages by merging features from factoid answers
US10810215B2 (en) * 2017-12-15 2020-10-20 International Business Machines Corporation Supporting evidence retrieval for complex answers
KR101854912B1 (ko) * 2018-03-07 2018-05-04 주식회사 텐디 어플리케이션들 사이의 연관도 분석 방법 및 어플리케이션들 사이의 연관도 분석 장치
US11544605B2 (en) 2018-03-07 2023-01-03 International Business Machines Corporation Unit conversion in a synonym-sensitive framework for question answering
JP7149560B2 (ja) * 2018-04-13 2022-10-07 国立研究開発法人情報通信研究機構 リクエスト言換システム、リクエスト言換モデル及びリクエスト判定モデルの訓練方法、及び対話システム
EP3814922A4 (en) * 2018-05-31 2022-02-16 Comptia SYSTEM AND PROCEDURES FOR AN ADAPTIVE COMPETENCE ASSESSMENT MODEL
WO2019235103A1 (ja) * 2018-06-07 2019-12-12 日本電信電話株式会社 質問生成装置、質問生成方法及びプログラム
JP7087938B2 (ja) * 2018-06-07 2022-06-21 日本電信電話株式会社 質問生成装置、質問生成方法及びプログラム
JP7172226B2 (ja) * 2018-07-20 2022-11-16 株式会社リコー 検索装置、検索方法及び検索プログラム
JP7003020B2 (ja) * 2018-09-18 2022-01-20 ヤフー株式会社 情報処理装置、情報処理方法、およびプログラム
JP2020057117A (ja) * 2018-09-28 2020-04-09 株式会社リコー 情報処理装置、情報処理方法及びプログラム
JP7231190B2 (ja) * 2018-11-02 2023-03-01 株式会社ユニバーサルエンターテインメント 情報提供システム、及び、情報提供制御方法
US10970322B2 (en) * 2018-11-26 2021-04-06 International Business Machines Corporation Training an artificial intelligence to generate an answer to a query based on an answer table pattern
KR102018819B1 (ko) * 2019-01-14 2019-09-04 주식회사 크라우드웍스 특정 주제에 관한 질문-답변 데이터 셋 자동 생성 방법 및 장치
CN110162604B (zh) * 2019-01-24 2023-09-12 腾讯科技(深圳)有限公司 语句生成方法、装置、设备及存储介质
JP7319504B2 (ja) * 2019-01-30 2023-08-02 株式会社東芝 対話システム、対話方法、プログラム、及び記憶媒体
JP7230576B2 (ja) * 2019-02-20 2023-03-01 日本電信電話株式会社 生成装置、学習装置、生成方法及びプログラム
JP7474459B2 (ja) * 2019-04-16 2024-04-25 株式会社ユニバーサルエンターテインメント 情報提供システム、及び、情報提供方法
CN110297893B (zh) * 2019-05-16 2024-03-19 平安科技(深圳)有限公司 自然语言问答方法、装置、计算机装置及存储介质
JP7180767B2 (ja) 2019-05-29 2022-11-30 富士通株式会社 応答処理プログラム、応答処理方法および情報処理装置
CN110569342B (zh) * 2019-08-15 2023-04-07 创新先进技术有限公司 问题匹配方法、装置、设备及计算机可读存储介质
CN110765244B (zh) * 2019-09-18 2023-06-06 平安科技(深圳)有限公司 获取应答话术的方法、装置、计算机设备及存储介质
JP7316165B2 (ja) * 2019-09-20 2023-07-27 株式会社日立製作所 情報処理方法および情報処理装置
KR102189894B1 (ko) * 2019-10-10 2020-12-11 주식회사 렉스퍼 외국어 문장 빈칸 추론 문제 자동 생성 방법 및 시스템
US11238074B2 (en) * 2019-10-18 2022-02-01 International Business Machines Corporation Efficient grammatical property alignment for a question answering system
CN110955765A (zh) * 2019-11-22 2020-04-03 中国南方电网有限责任公司 智能助理的语料构建方法、装置、计算机设备和存储介质
CN110968674B (zh) * 2019-12-04 2023-04-18 电子科技大学 基于词向量表征的问题评论对的构建方法
US11256754B2 (en) * 2019-12-09 2022-02-22 Salesforce.Com, Inc. Systems and methods for generating natural language processing training samples with inflectional perturbations
WO2021130964A1 (ja) * 2019-12-26 2021-07-01 日本電気株式会社 情報提供方法
CN112307160A (zh) * 2020-02-26 2021-02-02 北京字节跳动网络技术有限公司 用于生成信息的方法和装置
CN111858883A (zh) * 2020-06-24 2020-10-30 北京百度网讯科技有限公司 三元组样本的生成方法、装置、电子设备及存储介质
CN111782785B (zh) * 2020-06-30 2024-04-19 北京百度网讯科技有限公司 自动问答方法、装置、设备以及存储介质
CN111858887B (zh) * 2020-07-13 2022-09-20 北京航空航天大学 一种机场服务的社区问答***
CN112256853A (zh) * 2020-10-30 2021-01-22 深圳壹账通智能科技有限公司 问题生成方法、装置、设备及计算机可读存储介质
KR102410068B1 (ko) * 2021-08-11 2022-06-22 주식회사 보인정보기술 자연어 모델을 기반으로 한 질의-응답 페어 생성 방법 및 이러한 방법을 수행하는 장치
US11860946B2 (en) 2022-01-11 2024-01-02 Kyndryl, Inc. Autonomous webpage content summation
JP7372372B2 (ja) * 2022-02-18 2023-10-31 ヤフー株式会社 情報処理装置、情報処理方法および情報処理プログラム
JP7462375B2 (ja) 2022-05-12 2024-04-05 Line Works株式会社 サーバ、プログラム、情報処理方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102663129A (zh) * 2012-04-25 2012-09-12 中国科学院计算技术研究所 医疗领域深度问答方法及医学检索***
CN103049433A (zh) * 2012-12-11 2013-04-17 微梦创科网络科技(中国)有限公司 自动问答方法、自动问答***及构建问答实例库的方法

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100434688B1 (ko) * 2000-05-25 2004-06-04 주식회사 다이퀘스트 대화형 db, faq리스트, 웹사이트에 대한 통합형 자연어 질의-응답 검색 방법
JP2003058464A (ja) 2001-06-06 2003-02-28 Neogenesis Corp 質問応答システム
JP3981734B2 (ja) * 2003-11-21 2007-09-26 独立行政法人情報通信研究機構 質問応答システムおよび質問応答処理方法
JP4185500B2 (ja) * 2005-03-14 2008-11-26 株式会社東芝 文書検索システム、文書検索方法及びプログラム
JP2006252382A (ja) * 2005-03-14 2006-09-21 Fuji Xerox Co Ltd 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム
JP4650072B2 (ja) 2005-04-12 2011-03-16 富士ゼロックス株式会社 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム
JP2007141090A (ja) * 2005-11-21 2007-06-07 Fuji Xerox Co Ltd 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム
JP4849596B2 (ja) 2005-12-08 2012-01-11 独立行政法人情報通信研究機構 質問応答装置、質問応答方法および質問応答プログラム
JP2007207127A (ja) * 2006-02-04 2007-08-16 Fuji Xerox Co Ltd 質問応答システム、質問応答処理方法及び質問応答プログラム
JP2007219955A (ja) * 2006-02-17 2007-08-30 Fuji Xerox Co Ltd 質問応答システム、質問応答処理方法及び質問応答プログラム
US8983977B2 (en) * 2006-03-01 2015-03-17 Nec Corporation Question answering device, question answering method, and question answering program
US8275803B2 (en) 2008-05-14 2012-09-25 International Business Machines Corporation System and method for providing answers to questions
JP5858456B2 (ja) * 2011-01-21 2016-02-10 国立研究開発法人情報通信研究機構 情報検索サービス提供装置及びコンピュータプログラム
JP5520259B2 (ja) * 2011-07-05 2014-06-11 ヤフー株式会社 質問例提示装置、方法及びプログラム
JP5825676B2 (ja) * 2012-02-23 2015-12-02 国立研究開発法人情報通信研究機構 ノン・ファクトイド型質問応答システム及びコンピュータプログラム
JP5431532B2 (ja) * 2012-06-08 2014-03-05 日本電信電話株式会社 質問応答装置、モデル学習装置、方法、及びプログラム
JP5882241B2 (ja) * 2013-01-08 2016-03-09 日本電信電話株式会社 質問応答用検索キーワード生成方法、装置、及びプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102663129A (zh) * 2012-04-25 2012-09-12 中国科学院计算技术研究所 医疗领域深度问答方法及医学检索***
CN103049433A (zh) * 2012-12-11 2013-04-17 微梦创科网络科技(中国)有限公司 自动问答方法、自动问答***及构建问答实例库的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
XUE X, YU T, JIANG D, ET AL: "Automatically Mining Question Reformulation Patterns from Search Log Data", 《 MEETING OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS》 *
ZHANG, YU, ET AL: "Phrasal paraphrase based question reformulation for archived question retrieval", 《PLOS ONE》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111506712A (zh) * 2019-01-30 2020-08-07 株式会社东芝 对话***、对话方法、程序以及存储介质
CN111506712B (zh) * 2019-01-30 2023-11-07 株式会社东芝 对话***、对话方法、程序以及存储介质
CN111428448A (zh) * 2020-03-02 2020-07-17 平安科技(深圳)有限公司 文本生成方法、装置、计算机设备及可读存储介质
WO2021174827A1 (zh) * 2020-03-02 2021-09-10 平安科技(深圳)有限公司 文本生成方法、装置、计算机设备及可读存储介质
CN111428448B (zh) * 2020-03-02 2024-05-07 平安科技(深圳)有限公司 文本生成方法、装置、计算机设备及可读存储介质
CN112579666A (zh) * 2020-12-15 2021-03-30 深港产学研基地(北京大学香港科技大学深圳研修院) 智能问答***和方法及相关设备

Also Published As

Publication number Publication date
CN106663125B (zh) 2020-06-30
US20170242915A1 (en) 2017-08-24
WO2016027714A1 (ja) 2016-02-25
US10380149B2 (en) 2019-08-13
EP3185140A1 (en) 2017-06-28
JP2016045652A (ja) 2016-04-04
EP3185140A4 (en) 2018-03-07
JP6414956B2 (ja) 2018-10-31
KR20170046611A (ko) 2017-05-02
KR102408082B1 (ko) 2022-06-13

Similar Documents

Publication Publication Date Title
CN106663125A (zh) 提问句生成装置以及计算机程序
CN106649768B (zh) 基于深度问答的问答澄清方法和装置
KR101895249B1 (ko) 지능 문답 구현 방법, 시스템 및 저장 매체
US10366116B2 (en) Discrepancy curator for documents in a corpus of a cognitive computing system
CN107180045B (zh) 一种互联网文本蕴含地理实体关系的抽取方法
Baldoni et al. From tags to emotions: Ontology-driven sentiment analysis in the social semantic web
US9715493B2 (en) Method and system for monitoring social media and analyzing text to automate classification of user posts using a facet based relevance assessment model
US20190129903A1 (en) Automated Curation of Documents in a Corpus for a Cognitive Computing System
CN110443571A (zh) 基于知识图谱进行简历评估的方法、装置及设备
CN110807091A (zh) 一种酒店智能问答推荐与决策支持分析方法及***
CN102576355A (zh) 知识发现的方法和***
Yang et al. Learning to answer biomedical factoid & list questions: OAQA at BioASQ 3B.
CN110781300B (zh) 基于百度百科知识图谱的旅游资源文化特色评分算法
Goh et al. Showcasing Leximancer in tourism and hospitality research: a review of Leximancer-based research published in tourism and hospitality journals during 2014–2020
Morgan et al. Automatically assembling a full census of an academic field
Riza et al. Natural language processing and levenshtein distance for generating error identification typed questions on TOEFL
Ye et al. Feature extraction of travel destinations from online Chinese-language customer reviews
JP6260678B2 (ja) 情報処理装置、情報処理方法、及び情報処理プログラム
JP5877775B2 (ja) コンテンツ管理装置、コンテンツ管理システム、コンテンツ管理方法、プログラム、及び記憶媒体
US20140012854A1 (en) Method or system for semantic categorization
Kawamura et al. Science graph for characterizing the recent scientific landscape using paragraph vectors
Golub et al. Automated classification of web pages in hierarchical browsing
Ardanuy Entity-Centric Text Mining for Historical Documents
Daoud et al. Extracting terminological relationships from historical patterns of social media terms
KR102434880B1 (ko) 멀티미디어 플랫폼 기반 지식 공유 서비스 제공 시스템

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant