CN111382251A - 文本生成方法、文本生成装置以及已学习模型 - Google Patents

文本生成方法、文本生成装置以及已学习模型 Download PDF

Info

Publication number
CN111382251A
CN111382251A CN201911343811.0A CN201911343811A CN111382251A CN 111382251 A CN111382251 A CN 111382251A CN 201911343811 A CN201911343811 A CN 201911343811A CN 111382251 A CN111382251 A CN 111382251A
Authority
CN
China
Prior art keywords
text
neural network
auxiliary
information
generator
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911343811.0A
Other languages
English (en)
Inventor
横手健一
岩山真
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Publication of CN111382251A publication Critical patent/CN111382251A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • G06F40/56Natural language generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Human Computer Interaction (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及文本生成方法、文本生成装置以及已学习模型,减轻学习数据的构筑的困难性并且应对处理的复杂化。置换信息收集部决定辅助置换器的作用;辅助置换器教师数据生成部根据置换信息DB的参照结果,生成在辅助置换器的机器学习中使用的置换教师数据;辅助置换器生成部根据置换教师数据DB生成辅助置换器;辅助置换器文本生成器结合部将辅助置换器生成部生成的辅助置换器结合到未学习的文本生成器;文本生成信息收集部收集文本的生成前信息以及生成后信息;文本生成器教师数据生成部根据生成信息DB的参照结果,生成在文本生成器的机器学习中使用的生成教师数据;文本生成器生成部根据生成教师数据DB生成文本生成器。

Description

文本生成方法、文本生成装置以及已学习模型
技术领域
本发明涉及文本生成方法、文本生成装置以及已学习模型。
背景技术
在与自然语言处理有关的许多***中,需要辨识2个文本的意思或意图是否相同。例如,考虑具有提问文和回答文的配对,接受来自用户的输入,在找到适合于该输入的提问文之后,输出与该提问文对应的回答的提问应答***。
来自用户的输入未必成为与提问应答***具有的提问文相同的文本。即使提问应答***具有作为提问文的“请问车站的地点”、作为回答文的“往北200米”的配对,也有不是从用户输入“请问车站的地点”、而是“想知道车站的地点”这样的文本的情况。提问应答***在根据是否与“请问车站的地点”完全一致而寻找相应的提问文的情况下,不能针对“想知道车站的地点”这样的输入而回答“往北200米”。
不限于所述事例,由于输入活用形的变动、具有相同的意思的其他单词,在提问应答***中,可能引起尽管具有回答文,但不能将来自用户的输入与对应的提问文相关联这样的结果。
作为解决这样的问题的方法之一,有复述生成(Paraphrase Generation)。复述生成是在某个文本被提供时生成具有相同的意思的其他文本的技术。通过进行复述生成,针对一个回答文而将多个提问文对应起来,提问应答***能够针对各种输入进行回答。
在非专利文献1~3中,公开了用以神经网络为首的端到端(End-to-End)架构进行复述生成的方法。例如,在如根据“想确认车站的地点”生成“想知道车站的地点”的处理那样,仅置换文本的一部分的动词的情况下,因为能够使用同义词词典等自动地构筑学习用数据,想要实现的处理也不复杂,所以与端到端架构的适合性良好。
现有技术文献
非专利文献
非专利文献1:Paraphrase Generation with Deep Reinforcement LearningZichao Li,Xin Jiang,Lifeng Shang,Hang Li,EMNLP 2018
非专利文献2:Neural Paraphrase Generation with Stacked Residual LSTMNetworks aaditya prakash,Sadid A.Hasan,Kathy Lee,VivekDatla,Ashequl Qadir,Joey Liu,Oladimeji Farri,COLING 2016
非专利文献3:Joint Copying and Restricted Generation for ParaphraseZiqiang Cao,Chuwei Luo,Wenjie Li,Sujian Li,AAAI 2017
发明内容
然而,例如,在如根据“车站的地点在哪”生成“想乘坐电车”的处理那样,变更文本的单词以及文体的情况下,因为想要实现的处理变得复杂,需要大量的学习数据,而且也难以自动地构筑学习数据,所以与端到端架构的适合性差。
本发明是鉴于上述情况而完成的,其目的在于提供一种能够减轻学习数据的构筑的困难性并且应对处理的复杂化的文本生成方法、文本生成装置以及已学习模型。
为了达成上述目的,在第1观点所涉及的文本生成方法中,生成对将文本分割而得到的要素的配对进行了学习的辅助置换器,生成在所述辅助置换器的结合后对复述前后的文本进行了学习的文本生成器,并使用所述文本生成器来生成文本。
根据本发明,能够减轻学习数据的构筑的困难性并且应对处理的复杂化。
附图说明
图1是示出第1实施方式所涉及的文本生成装置的硬件结构的框图。
图2是示出图1的文本生成装置的功能性的结构的框图。
图3是示出储存于图2的置换信息DB的置换信息的一个例子的图。
图4是示出储存于图2的置换教师数据DB的置换教师数据的一个例子的图。
图5是示出储存于图2的生成信息DB的生成信息的一个例子的图。
图6是示出储存于图2的生成教师数据DB的生成教师数据的一个例子的图。
图7是示出图2的文本生成装置的动作的流程图。
图8是示出图7的置换信息收集处理的流程图。
图9是示出图7的辅助置换器教师数据生成处理的流程图。
图10是示出图7的辅助置换器生成处理的流程图。
图11是示出图7的文本生成信息收集处理的流程图。
图12是示出图7的文本生成器教师数据生成处理的流程图。
图13是示出图7的文本生成器生成处理的流程图。
图14是示出第2实施方式所涉及的已学习模型的结构例的框图。
图15是示出第3实施方式所涉及的已学习模型的结构例的框图。
图16是示出在复述生成中使用图15的已学习模型时的学习数据的一个例子的框图。
图17是示出第4实施方式所涉及的已学习模型的结构例的框图。
(符号说明)
110:处理器;120:主存储器;130:辅助存储装置;140:输入设备;150:输出设备;160:网络设备;170:总线;201:用户终端;210:辅助置换器DB;211:置换信息DB;212:置换教师数据DB;221:置换信息收集部;222:辅助置换器教师数据生成部;223:辅助置换器生成部;230:文本生成器DB;231:生成信息DB;232∶生成教师数据DB;240:辅助置换器文本生成器结合部;251:文本生成信息收集部;252:文本生成器教师数据生成部;253:文本生成器生成部;260:文本生成器。
具体实施方式
参照附图说明实施方式。此外,以下说明的实施方式不限定权利要求书所涉及的发明,另外,在实施方式中说明的诸多要素及其组合的全部未必在发明的解决手段中必须。
图1是示出第1实施方式所涉及的文本生成装置的硬件结构的框图。
在图1中,文本生成装置100具备处理器110、主存储器120、辅助存储装置130、输入设备140、输出设备150以及网络设备160。处理器110、主存储器120、辅助存储装置130、输入设备140、输出设备150以及网络设备160经由总线170相互连接。主存储器120以及辅助存储装置130能够从处理器110访问。
处理器110是掌管文本生成装置100整体的动作控制的硬件。处理器110可以是CPU(Central Processing Unit,中央处理单元),也可以是GPU(Graphics Processing Unit,图形处理单元)。处理器110可以是单核处理器,也可以是多核处理器。处理器110也可以具备进行处理的一部分或者全部的硬件电路(例如FPGA(Field-Programmable Gate Array,现场可编程门阵列)或者ASIC(Application Specific Integrated Circuit,专用集成电路))。
主存储器120例如能够由SRAM或者DRAM等半导体存储器构成。在主存储器120中能够储存处理器11执行中的程序、或者设置用于处理器110执行程序的工作区。
辅助存储装置130是具备大容量的存储容量的存储设备,例如,是硬盘装置或者SSD(Solid State Drive,固态硬盘)。辅助存储装置130能够保持各种程序的执行文件、在程序的执行中使用的数据。在辅助存储装置130中能够储存学习数据130A以及文本生成程序130B。学习数据130A可以经由网络设备160从网络180收集,也可以用户经由输入设备140直接输入。文本生成程序1130B可以是能够安装到文本生成装置100的软件,也可以作为固件被纳入文本生成装置100。
输入设备140例如是键盘、鼠标、触摸板、卡读取器、声音输入装置等。输出设备150例如是画面显示装置(液晶监视器、有机EL(Electro Luminescence,电致发光)显示器、图形卡等)、声音输出装置(扬声器等)、印刷装置等。
网络设备160是具备控制与外部的通信的功能的硬件。网络设备160与网络180连接。网络180可以是因特网等WAN(Wide Area Network,广域网),也可以是WiFi或者以太网(注册商标)等LAN(Local Area Network,局域网),还可以WAN和LAN混合存在。
处理器110将学习数据130A以及文本生成程序130B读出到主存储器120,并使用学习数据130A来执行文本生成程序130B。此时,处理器110能够生成学习了将文本分割而得到的要素的配对的辅助置换器,生成在该辅助置换器的结合后学习了复述前后的文本的文本生成器,并使用该文本生成器来生成文本。将文本分割而得到的要素例如是标记(token)。标记是能够从文本中作为具有意思的部分抽出的最小单位,例如是单词或者单词的片断。
此外,也可以使多个处理器、计算机分担文本生成程序130B的执行。或者,处理器110也可以经由网络180对云计算机等指示文本生成程序130B的全部或者一部分的执行,并接受其执行结果。
在此,能够使辅助置换器具有为了生成表层相似度低的文本而需要的功能的一部分。因此,通过文本生成器结合辅助置换器,能够将文本生成器应获得的功能限定于为了生成表层相似度低的文本而需要的功能的一部分。因此,能够提供能够使文本生成器的学习所需的数据量减少、即使在不能准备表层相似度低的大量的教师数据的状况下也能够进行表层相似度低的复述生成的学习的文本生成方法。
2个文本的“表层相似度低”是指,单词、文体大幅不同。具体而言,能够将在包括不同的要素的文本之间通过1个要素的置换不会成为要素相同的集合的文本彼此定义为表层相似度低。即,2个文本x、y的表层相似度能够如以下定义。
设定文本分割方法D。文本分割方法D能够关注词素、句子结构、依存结构、专有表达以及子词单元(Sub word unit)中的至少任意1个来决定。词素是具有意思的表达要素的最小单位。句子结构是将文本分割而得到的邻接的语句彼此的意思上以及功能上的关系。依存结构是单词间的相依性关系。专有表达是专有名词(人名、组织名以及地名等)、日期、时间表达、数量以及金额等表达。关于子词单元,即使是一个单词,在该单词的出现频度低的情况下,将进一步分割单词而成的小的单位作为要素。子词单元根据算法、实现的差异还被称为句块(sentencepiece)或者词块(wordpiece)等。
接下来,用文本分割方法D分割各文本x、y,定义以下的集合X、Y。
X=(x1,x2,x3···xn)
Y=(y1,y2,y3,····ym)
其中,x1、x2、x3···xn(n是正的整数)是文本x的要素。y1、y2、y3、····ym(m是正的整数)是文本y的要素。
将集合X、Y的所有要素相同、或者通过集合X内的1个要素的置换而成为与集合Y相同的情况定义为表层相似度高。将并非如此的情况定义为表层相似度低。
在表层相似度低的情况下,在2个文本之间不同的单词有2个以上,具有意思的最小单位的差异也有2个以上。因此,在表层相似度低的文本之间,难以判断意思或意图是否相同,难以搜集表层相似度低并且意思或意图相同的文本的配对。另一方面,在表层相似度高的情况下,在2个文本之间不同的单词仅有1个,具有意思的最小单位的差异仅有1个。因此,在表层相似度高的文本之间,意思或意图是否相同的判断的困难性被减轻,搜集表层相似度高并且意思或意图相同的文本的配对比较容易。
用于生成辅助置换器的学习数据是将文本分割而得到的要素的配对,具有意思的最小单位的差异仅有1个。因此,能够使得用于生成辅助置换器的学习数据的收集容易化,文本生成器对为了生成表层相似度低的文本而需要的功能的一部分进行学习即可,所以能够减轻表层相似度低的文本的学习所需的数据收集的困难性。
例如,在“想确认车站的地点”与“想知道车站的地点”这样的2个文本之间,不同的单词仅有1个。因此,能够容易地判断这2个文本的意思或意图是否相同,易于将这样的2个文本作为学习数据大量收集。另一方面,在“车站的地点在哪”与“想乘坐电车”这样的2个文本之间,不同的单词有2个以上。因此,难以判断这2个文本的意思或意图是否相同,难以将这样的2个文本作为学习数据大量收集。
在该情况下,将“车站在哪”和“想乘坐电车”这样的2个文本分别分割为要素,并决定辅助置换器的作用。此时,定义能够将“乘坐电车”置换为“车站”的辅助置换器A、以及能够将“想”置换为“在哪”的辅助置换器B。辅助置换器A的作用是从行为内容向行为对象的变换。辅助置换器B的作用是从愿望句向疑问句的变换。
针对辅助置换器A、B,收集与各作用相应的置换前信息以及置换后信息。然后,使用置换前信息以及置换后信息,生成在各辅助置换器A、B的机器学习中使用的教师数据。然后,使用该教师数据,生成辅助置换器A、B。
接下来,将辅助置换器A、B与未学习的文本生成器结合。然后,收集在文本生成器的学习中使用的生成前信息以及生成后信息。生成前信息是“想乘坐电车”这样的文本,生成后信息是“车站在哪”这样的文本。然后,使用生成前信息以及生成后信息,生成在文本生成器的机器学习中使用的教师数据。然后,使用该教师数据来生成文本生成器。然后,通过使用已学习的文本生成器,根据来自用户终端的输入文本生成应答文本。
由此,文本生成器能够在学习时和文本生成时灵活利用辅助置换器的处理。此时,文本生成器应获得的功能是“从行为内容向行为对象的变换”、“从愿望句向疑问句的变换”以及“根据输入文本有取舍地选择并利用所述2个功能”这样的三个功能。其中,“从行为内容向行为对象的变换”以及“从愿望句向疑问句的变换”这样的2个功能是通过与辅助置换器结合而获得的,所以文本生成器只要仅获得“根据输入文本有取舍地选择并利用所述2个功能”这样的功能即可。
由此,能够将文本生成器应获得的功能限定于为了生成表层相似度低的文本而需要的功能的一部分。因此,能够使难以收集的表层相似度低的文本的学习所需的数据量减少,即使在不能准备大量的教师数据的状况下,也能够用端到端架构进行表层相似度低的复述生成的学习。
图2是示出图1的文本生成装置的功能性的结构的框图。此外,在以下的说明中,在将动作主体记载为“~部”的情况下,意味着图1的处理器110从辅助存储装置130读出作为程序的“~部”,载入到主存储器120之后实现“~部”的功能。
在图2中,文本生成装置100具备辅助置换器DB(Data Base,数据库)210、文本生成器DB 230、置换信息收集部221、辅助置换器教师数据生成部222、辅助置换器生成部223、辅助置换器文本生成器结合部240、文本生成信息收集部251、文本生成器教师数据生成部252、文本生成器生成部253以及文本生成器260。文本生成装置100与用户终端201连接。
辅助置换器DB 210储存辅助置换器的生成所需的数据。辅助置换器DB 210具备置换信息DB 211以及置换教师数据DB 212。置换信息DB 211储存用于辅助置换器的生成的置换前信息以及置换后信息。置换前信息以及置换后信息例如是将文本分割而得到的标记的配对。置换教师数据DB 212储存在辅助置换器的机器学习中使用的教师数据。
文本生成器DB 230储存文本生成器的生成所需的数据。文本生成器DB 230具备生成信息DB 231以及生成教师数据DB 232。生成信息DB 231储存用于文本生成器的生成的生成前信息以及生成后信息。生成教师数据DB 232储存在文本生成器的机器学习中使用的教师数据。
置换信息收集部221接受来自用户终端201的输入,并决定辅助置换器的作用。辅助置换器能够针对每个作用设置多个。例如,关于2个辅助置换器A、B,能够对辅助置换器A提供“从行为内容向行为对象的变换”这样的作用,并对辅助置换器B提供“从愿望句向疑问句的变换”这样的作用。然后,置换信息收集部221收集与各作用相应的置换前信息以及置换后信息并储存到置换信息DB 211。
辅助置换器教师数据生成部222根据置换信息DB 211的参照结果,生成在辅助置换器的机器学习中使用的置换教师数据并储存到置换教师数据DB 212。辅助置换器生成部223根据置换教师数据DB 212的参照结果,生成辅助置换器。辅助置换器文本生成器结合部240将辅助置换器生成部223生成的辅助置换器结合到未学习的文本生成器。
文本生成信息收集部251接受来自用户终端201的输入,收集文本的生成前信息以及生成后信息并储存到生成信息DB 231。文本生成器教师数据生成部252根据生成信息DB231的参照结果,生成在文本生成器的机器学习中使用的生成教师数据并储存到生成教师数据DB 232。文本生成器生成部253根据生成教师数据DB 232的参照结果,生成文本生成器260。文本生成器260根据来自用户终端201的输入文本,生成应答文本。此时,文本生成器260能够针对输入文本,生成表层相似度低的应答文本。
图3是示出储存于图2的置换信息DB的置换信息的一个例子的图。
在图3中,置换信息DB 211的数据300包括1个以上的“置换信息”记录。“置换信息”记录包括“作用”以及“收集方法”等多个字段。字段“置换前信息”保持置换前的文本的要素信息。字段“置换后信息”保持置换后的文本的要素信息。字段“作用”保持用于识别相应的置换的作用的信息。
作用例如是从行为内容向行为对象、从愿望句向疑问句、反义词、略语、别名、从行为内容向行为主体、从行为内容向行为结果、从上位概念词向下位概念词以及比喻。在“从行为内容向行为对象”这样的作用中,例如,作为置换前信息保持“乘坐电车”,作为置换后信息保持“车站”。在“从愿望句向疑问句”这样的作用中,例如,作为置换前信息保持“想”,作为置换后信息保持“在哪”。在“反义词”这样的作用中,例如,作为置换前信息保持“有趣”,作为置换后信息保持“无聊”。
字段“收集方法”保持用于识别为了收集“置换信息”记录而使用的方法的信息。收集方法在来自用户终端201的直接输入的情况下保持“直接输入”。收集方法在经由图1的网络180利用Web站点的语言资源的情况下保持Web站点的地址。
例如,在收集中使用爬虫(crawling)的情况下,相比于表层相似度低的复述前后的文本的收集,置换前信息以及置换后信息的收集更容易。另外,在由用户直接输入的情况下,相比于表层相似度低的复述前后的文本,更易于想到置换前信息以及置换后信息。因此,能够容易地收集在辅助置换器的学习中使用的学习数据。
图4是示出储存于图2的置换教师数据DB的置换教师数据的一个例子的图。
在图4中,置换教师数据DB 212的数据400包括1个以上的“置换教师数据”记录。“置换教师数据”记录包括“作用”以及“变换方法”等多个字段。
字段“作用”保持用于识别能够将该记录用作机器学习的教师数据的置换器的作用的信息。例如,在字段“作用”中保持“从疑问句向愿望句”的情况下,该记录能够利用于被定义了“从疑问句向愿望句”的作用的辅助置换器的学习。
字段“变换方法”保持用于识别为了将“置换信息”记录的置换前信息变换为说明变量而使用的方法的信息。另外,字段“变换方法”保持用于识别为了将“置换信息”记录的置换后信息变换为目的变量而使用的方法的信息。字段“说明变量”保持通过在字段“变换方法”中保持的方法将“置换信息”记录的置换前信息变换为说明变量而得到的结果。字段“目的变量”保持通过在变换方法字段中保持的方法将“置换信息”记录的置换后信息变换为目的变量而得到的结果。这些说明变量以及目的变量能够用矢量数据表达。
图5是示出储存于图2的生成信息DB的生成信息的一个例子的图。
在图5中,生成信息DB 231的数据500包括1个以上的“生成信息”记录。“生成信息”记录包括“收集方法”以及“生成前信息”等多个字段。
字段“收集方法”保持用于识别为了收集“生成信息”记录而使用的方法的信息。收集方法在来自用户终端的直接输入的情况下保持“直接输入”。收集方法在经由通信网络利用外部Web站点的语言资源的情况下保持Web站点的地址。字段“生成前信息”保持生成前的文本信息。字段“生成后信息”保持生成后的文本信息。
生成前信息以及生成后信息能够使用复述前后的文本。生成前信息以及生成后信息优选表层相似度低。但是,也可以与表层相似度无关地设定生成前信息以及生成后信息。
图6是示出储存于图2的生成教师数据DB的生成教师数据的一个例子的图。
在图6中,生成教师DB 232的数据600包括1个以上的“生成教师数据”记录。“生成教师数据”记录包括“变换方法”以及“说明变量”等多个字段。字段“变换方法”保持用于识别为了将“生成信息”记录的生成前信息变换为说明变量而使用的方法的信息。另外,字段“变换方法”保持用于识别为了将“生成信息”记录的生成后信息变换为目的变量而使用的方法的信息。
字段“说明变量”保持通过在变换方法字段中保持的方法将“生成信息”记录的生成前信息变换为说明变量而得到的结果。字段“目的变量”保持通过在变换方法字段中保持的方法将“生成信息”记录的生成后信息变换为目的变量而得到的结果。这些说明变量以及目的变量能够用矢量数据表达。
图7是示出图2的文本生成装置的动作的流程图。
在图7中,图2的置换信息收集部221接受来自用户终端201的输入,并进行置换信息收集处理(S701)。
接下来,辅助置换器教师数据生成部222生成用于生成辅助置换器的置换教师数据(S702)。接下来,辅助置换器生成部223根据置换教师数据,生成辅助置换器(S703)。接下来,辅助置换器文本生成器结合部240将辅助置换器结合到未学习的文本生成器(S704)。
接下来,文本生成信息收集部251进行文本生成信息收集处理(S705)。接下来,文本生成器教师数据生成部252生成用于生成文本生成器260的生成教师数据(S706)。接下来,文本生成器生成部253根据生成教师数据,生成已学习的文本生成器260(S707)。接下来,文本生成器260根据来自用户终端201的输入文本,生成应答文本(S708)。
接下来,文本生成器260判断是否有来自用户终端201的追加输入。在有来自用户终端201的追加输入的情况下(S709:“是”),文本生成器260返回到步骤708,根据输入文本,生成应答文本。另一方面,在没有来自用户终端201的追加输入的情况下(S709:“否”),文本生成器260结束文本生成处理。
在文本生成器260中,端到端模型的说明变量成为输入。因此,在通过在图12的步骤1301中获得的变换方法将输入文本变换为说明变量之后,输入到端到端模型。另外,在文本生成器260中,端到端模型的目的变量成为输出。因此,在通过在图12的步骤1301中获得的逆变换方法将目的变量变换为应答文本之后,输出到用户终端201。
图8是示出图7的置换信息收集处理的流程图。
在图8中,图2的置换信息收集部221决定辅助置换器的作用(S801)。接下来,置换信息收集部221决定与各作用相应的置换前信息以及置换后信息的收集方法(S802)。
接下来,置换信息收集部221判断收集方法是否为来自用户终端201的直接输入。在收集方法是来自用户终端201的直接输入的情况下(S803:“是”),置换信息收集部221接收来自用户终端201的输入(S804)。在收集方法不是来自用户终端201的直接输入的情况下(S803:“否”),置换信息收集部221用直接输入以外的收集方法取得置换前信息以及置换后信息(S805)。接下来,置换信息收集部221将收集到的置换前信息以及置换后信息储存到置换信息DB 211(S806)。
图9是示出图7的辅助置换器教师数据生成处理的流程图。
在图9中,图2的辅助置换器教师数据生成部222参照置换信息DB 211,获得向说明变量以及目的变量的变换处理以及逆变换处理(S901)。
接下来,辅助置换器教师数据生成部222将从置换信息DB 211获得的置换前信息以及置换后信息向说明变量以及目的变量变换(S902)。接下来,辅助置换器教师数据生成部222将这些说明变量以及目的变量储存到置换教师数据DB 212(S903)。
图10是示出图7的辅助置换器生成处理的流程图。
在图10中,图2的辅助置换器生成部223将生成的辅助置换器初始化(S1001)。
接下来,辅助置换器生成部223从置换教师数据DB 212取得与想生成的辅助置换器对应的说明变量以及目的变量作为置换教师数据(S1002)。接下来,辅助置换器生成部223根据取得的置换教师数据使辅助置换器学习(S1003)。
图11是示出图7的文本生成信息收集处理的流程图。
在图11中,图2的文本生成信息收集部251决定生成前信息以及生成后信息的收集方法(S1201)。
接下来,文本生成信息收集部251判断收集方法是否为来自用户终端201的直接输入。在收集方法是来自用户终端201的直接输入的情况下(S1202:“是”),文本生成信息收集部251接收来自用户终端201的输入(S1203)。在收集方法不是来自用户终端201直接的输入的情况下(S1203:“否”),文本生成信息收集部251用直接输入以外的收集方法取得生成前信息以及生成后信息(S1204)。接下来,文本生成信息收集部251将收集到的生成前信息以及生成后信息储存到生成信息DB 231(S1205)。
图12是示出图7的文本生成器教师数据生成处理的流程图。
在图12中,图2的文本生成器教师数据生成部252参照生成信息DB 231,获得向说明变量以及目的变量的变换处理以及逆变换处理(S1301)。接下来,文本生成器教师数据生成部252将从生成信息DB 231获得的生成前信息以及生成后信息向说明变量以及目的变量变换(S1302)。接下来,文本生成器教师数据生成部252将这些说明变量以及目的变量储存到生成教师数据DB 232(S1303)。
图13是示出图7的文本生成器生成处理的流程图。
在图13中,图2的文本生成器生成部253将生成的端到端模型初始化(S1401)。
接下来,从生成教师数据DB 232取得与生成的端到端模型对应的说明变量以及目的变量作为生成教师数据(S1402)。接下来,文本生成器生成部253根据取得的生成教师数据使端到端模型学习(S1403)。
此外,上述辅助置换器以及文本生成器都能够用神经网络实现。此时,通过将文本生成器的神经网络的一部分置换为辅助置换器的神经网络,能够将辅助置换器结合到文本生成器。以下,说明将辅助置换器以及文本生成器都用神经网络实现的结构例。
图14是示出第2实施方式所涉及的已学习模型的结构例的框图。
在图14中,该已学习模型具备神经网络10、20、30。神经网络10具备输入层、中间层以及输出层。神经网络10的输入层具备节点11,神经网络10的中间层具备节点12,神经网络10的输出层具备节点13。神经网络10的输入层的节点11的输出被结合到中间层的节点12的输入,中间层的节点12的输出被结合到输出层的节点13的输入。
在神经网络10的中间层设置有神经网络20、30。能够使神经网络20、30具有相互不同的作用。各神经网络20、30的输入被结合到神经网络10的输入层的节点11的输出。各神经网络20、30的输出被结合到神经网络10的输出层的节点13的输入。
神经网络20具备输入层、中间层以及输出层。神经网络20的输入层具备节点21,神经网络20的中间层具备节点22,神经网络20的输出层具备节点23。输入层的节点21的输出被结合到中间层的节点22的输入,中间层的节点22的输出被结合到输出层的节点23的输入。
神经网络20、30能够在已学习的状态下结合到未学习的神经网络10。然后,能够在已学习的神经网络20、30被结合到神经网络10的状态下,使神经网络10学习。向神经网络10输入说明变量14,从神经网络10输出目的变量15。
图15是示出第3实施方式所涉及的已学习模型的结构例的框图。
在图15中,该已学习模型具备神经网络20、30、40。神经网络40具备输入层、中间层以及输出层。神经网络40的输入层具备节点41,神经网络40的中间层具备节点42,神经网络40的输出层具备节点43。神经网络40的输入层的节点41的输出被结合到中间层的节点42的输入,中间层的节点42的输出被结合到输出层的节点43的输入。
在神经网络40的输入层设置有神经网络20、30。各神经网络20、30的输出被结合到神经网络40的中间层的节点42的输入。
神经网络20、30能够在已学习的状态下结合到未学习的神经网络40。然后,能够在已学习的神经网络20、30被结合到神经网络40的状态下,使神经网络40学习。向神经网络40输入说明变量14,从神经网络10输出目的变量15。
在此,通过在神经网络40的输入层设置神经网络20、30,各神经网络20、30能够干涉未进行任何变换的原始的输入数据。
图16是示出在复述生成中使用图15的已学习模型时的学习数据的一个例子的框图。
在图16中,设为作为复述前后的文本,有“想寄存行李”这样的文本1和“存物柜在哪”这样的文本2。另外,设为作为复述前后的其他文本,有“想停车”这样的文本3和“停车场在哪”这样的文本4。
此时,设为使辅助置换器A具有“从行为内容向行为对象的变换”这样的作用,使辅助置换器B具有“从愿望句向疑问句的变换”这样的作用。辅助置换器A能够由图15的神经网络30构成,辅助置换器B能够由图15的神经网络20构成。
在此,通过将分割“想寄存行李”这样的文本1得到的“寄存行李”这样的要素1A和分割“存物柜在哪”这样的文本2得到的“存物柜”这样的要素2A作为学习数据5A提供给辅助置换器A,辅助置换器A学习“从行为内容向行为对象的变换”的功能。另外,通过将分割“想停车”这样的文本3得到的“停车”这样的要素3A和分割“停车场在哪”这样的文本4得到的“停车场”这样的要素4A作为学习数据6A提供给辅助置换器A,辅助置换器A学习“从行为内容向行为对象的变换”的功能。
进而,通过将分割“想寄存行李”这样的文本1得到的“想”这样的要素1B和分割“存物柜在哪”这样的文本2得到的“在哪”这样的要素2B作为学习数据5B提供给辅助置换器B,辅助置换器B学习“从愿望句向疑问句的变换”的功能。
在生成学习了“从行为内容向行为对象的变换”的功能的辅助置换器A以及学习了“从愿望句向疑问句的变换”的功能的辅助置换器B后,使这些已学习的辅助置换器A、B结合到未学习的神经网络40。
接下来,通过将“想寄存行李”这样的文本1和“存物柜在哪”这样的文本2作为学习数据5提供给神经网络40,神经网络40学习“根据输入文本,有取舍地选择并利用辅助置换器A、B的功能”这样的功能。
接下来,在将“想停车”这样的文本3输入到神经网络40时,辅助置换器A将“停车”这样的要素3A变换为“停车场”这样的要素4A,辅助置换器B将“想”这样的要素3B变换为“在哪”这样的要素4B。然后,神经网络40通过组合“停车场”这样的要素4A和“在哪”这样的要素4B,能够针对“想停车”这样的输入文本,输出“停车场在哪”这样的应答文本。
在此,在结合辅助置换器A、B前的神经网络40的端到端学习中,仅通过将“想寄存行李”这样的文本1和“存物柜在哪”这样的文本2作为学习数据5提供,仅获得“行李”、“寄存”、“存物柜”以及“在哪”这样的关键词间的相关的强弱,而不获得手段→目的置换、愿望→疑问置换这样的抽象的处理。
相对于此,在结合辅助置换器A、B后的神经网络40的端到端学习中,能够学习手段→目的置换、愿望→疑问置换的组合,能够提高表层相似度低、且需要抽象的处理的复述的学习效率。
此外,在上述实施方式中,示出将神经网络一部分置换为其他神经网络的嵌套结构是2个阶段的情况,但神经网络的嵌套结构也可以是N(N是2以上的整数)个阶段。
图17是示出第4实施方式所涉及的已学习模型的结构例的框图。此外,在图17的例子中,示出神经网络的嵌套结构是3个阶段的情况。
在图17中,该已学习模型具备神经网络50、60、70、80、90。神经网络50具备输入层、中间层以及输出层。神经网络50的输入层具备节点51,神经网络50的中间层具备节点52,神经网络50的输出层具备节点53。神经网络50的输入层的节点51的输出被结合到中间层的节点52的输入,中间层的节点52的输出被结合到输出层的节点53的输入。
在神经网络50的中间层设置有神经网络60、70。能够使神经网络60、70具有相互不同的作用。各神经网络60、70的输入被结合到神经网络50的输入层的节点51的输出。各神经网络60、70的输出被结合到神经网络50的输出层的节点53的输入。
神经网络60具备输入层、中间层以及输出层。神经网络60的输入层具备节点61,神经网络60的中间层具备节点62,神经网络60的输出层具备节点63。输入层的节点61的输出被结合到中间层的节点62的输入,中间层的节点62的输出被结合到输出层的节点63的输入。
在神经网络60的中间层设置有神经网络80、90。能够使神经网络80、90具有相互不同的作用。各神经网络80、90的输入被结合到神经网络60的输入层的节点61的输出。各神经网络80、90的输出被结合到神经网络60的输出层的节点63的输入。
神经网络80具备输入层、中间层以及输出层。神经网络80的输入层具备节点81,神经网络80的中间层具备节点82,神经网络80的输出层具备节点83。输入层的节点81的输出被结合到中间层的节点82的输入,中间层的节点82的输出被结合到输出层的节点83的输入。
神经网络80、90能够在已学习的状态下结合到未学习的神经网络60。然后,能够在已学习的神经网络80、90被结合到神经网络60的状态下,使神经网络60学习。进而,神经网络60、70能够在已学习的状态下结合到未学习的神经网络50。然后,能够在已学习的神经网络60、70被结合到神经网络50的状态下,使神经网络50学习。
如以上说明,根据上述实施方式,通过将神经网络的一部分结合到已学习的其他神经网络,能够使其他神经网络具有用神经网络实现的功能的一部分。此时,相比于学习用神经网络实现的功能的全部的学习数据的收集,能够使学习用神经网络实现的功能的一部分的学习数据的收集容易化,能够减轻学习数据的收集的困难性并且应对用神经网络实现的功能的复杂化。
此外,关于上述神经网络,示出在复述生成中使用的情况,但也可以在图像处理、文字辨识处理、声音辨识处理、脸认证处理以及自动驾驶等复述生成以外的处理中使用。上述神经网络能够在AI(artificial intelligence,人工智能)能够应用的所有技术领域中使用。
另外,在使第2神经网络结合到第1神经网络的一部分的节点的情况下,可以使第2神经网络的输出结合到第1神经网络的内部节点的输入,也可以使第2神经网络的输入结合到第1神经网络的内部节点的输出。
以上,说明了本发明的实施方式,但这些实施方式只不过是一个例子,本发明的技术的范围不限定于这些。例如,辅助置换器以及文本生成器也可以不用神经网络实现。从置换信息或者生成信息向教师数据的变换也可以不用编码器-解码器(Encoder-Decoder)网络实现。

Claims (15)

1.一种文本生成方法,其中,
生成对将文本分割而得到的要素的配对进行了学习的辅助置换器,
生成在所述辅助置换器的结合后对复述前后的文本进行了学习的文本生成器,
使用所述文本生成器来生成文本。
2.根据权利要求1所述的文本生成方法,其中,
收集将所述文本分割而得到的要素的配对,
根据所述要素的配对,生成在所述辅助置换器的学习中使用的置换教师数据,
根据所述置换教师数据,生成所述辅助置换器,
结合所述辅助置换器和未学习的文本生成器,
收集在所述文本生成器的学习中使用的所述复述前后的文本,
根据所述复述前后的文本,生成在所述文本生成器的学习中使用的生成教师数据,
根据所述生成教师数据,生成能够执行所述文本的复述的所述文本生成器。
3.根据权利要求1所述的文本生成方法,其中,
在包括不同的要素的文本之间,将通过1个要素的置换不会成为要素相同的集合的文本彼此定义为表层相似度低时,
所述复述前后的文本的所述表层相似度低。
4.根据权利要求1所述的文本生成方法,其中,
所述文本生成器对由所述辅助置换器学习的所述要素的配对的组合进行学习。
5.根据权利要求1所述的文本生成方法,其中,
所述文本生成器是具有输入层、中间层以及输出层的神经网络,
所述辅助置换器设置于所述神经网络的输入层或者中间层。
6.根据权利要求1所述的文本生成方法,其中,
针对所述要素的配对表示的每个作用生成所述辅助置换器,
针对每个所述作用生成的多个辅助置换器被结合到所述文本生成器。
7.根据权利要求6所述的文本生成方法,其中,
所述作用是从以下中的至少任意1个选择的:从行为内容向行为对象、从愿望句向疑问句、反义词、略语、别名、从行为内容向行为主体、从行为内容向行为结果、从上位概念词向下位概念词以及比喻。
8.一种文本生成装置,具备:
辅助置换器生成部,生成对将文本分割而得到的要素的配对进行了学习的辅助置换器;以及
文本生成器生成部,生成在所述辅助置换器的结合后对复述前后的文本进行了学习的文本生成器。
9.一种已学习模型,具备:
第1神经网络;以及
第2神经网络,被结合到所述第1神经网络的一部分的节点。
10.根据权利要求9所述的已学习模型,其中,
所述第2神经网络设置于所述第1神经网络的输入层,
所述第1神经网络具备被输入来自所述第1神经网络的输入层的节点的输出和来自所述第2神经网络的输出这双方的节点。
11.根据权利要求9所述的已学习模型,其中,
所述第2神经网络设置于所述第1神经网络的中间层,
所述第1神经网络具备被输入来自所述第1神经网络的节点的输出和来自所述第2神经网络的输出这双方的节点。
12.根据权利要求9所述的已学习模型,其中,
所述第2神经网络对由所述第1神经网络学习的功能的一部分进行学习,
所述第1神经网络对由所述第2神经网络学习了的功能的组合进行学习。
13.根据权利要求11所述的已学习模型,其中,
所述第2神经网络针对每个作用对由所述第1神经网络学习的功能的一部分进行学习。
14.根据权利要求13所述的已学习模型,其中,
在包括不同的要素的文本之间,将通过1个要素的置换不会成为要素相同的集合的文本彼此定义为表层相似度低时,
所述第2神经网络针对所述要素的配对表示的每个作用对所述表层相似度低的文本之间的要素的配对进行学习,
所述第1神经网络对由所述第2神经网络学习了的所述要素的配对的组合进行学习。
15.根据权利要求9所述的已学习模型,其中,
还具备被结合到所述第1神经网络的一部分的节点的第3神经网络,
所述第2神经网络的功能和所述第3神经网络的功能的作用相互不同。
CN201911343811.0A 2018-12-25 2019-12-24 文本生成方法、文本生成装置以及已学习模型 Pending CN111382251A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018-241388 2018-12-25
JP2018241388A JP2020102131A (ja) 2018-12-25 2018-12-25 テキスト生成方法、テキスト生成装置および学習済みモデル

Publications (1)

Publication Number Publication Date
CN111382251A true CN111382251A (zh) 2020-07-07

Family

ID=71097698

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911343811.0A Pending CN111382251A (zh) 2018-12-25 2019-12-24 文本生成方法、文本生成装置以及已学习模型

Country Status (3)

Country Link
US (1) US20200202079A1 (zh)
JP (1) JP2020102131A (zh)
CN (1) CN111382251A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004171354A (ja) * 2002-11-21 2004-06-17 Communication Research Laboratory 言語解析処理方法、文変換処理方法、言語解析処理システム、および文変換処理システム
CN103092829A (zh) * 2011-10-27 2013-05-08 北京百度网讯科技有限公司 一种复述资源获取方法及***
CN106354852A (zh) * 2016-09-02 2017-01-25 北京百度网讯科技有限公司 基于人工智能的搜索方法及装置
CN108140019A (zh) * 2015-10-09 2018-06-08 三菱电机株式会社 语言模型生成装置、语言模型生成方法及其程序、语音识别装置以及语音识别方法及其程序

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004171354A (ja) * 2002-11-21 2004-06-17 Communication Research Laboratory 言語解析処理方法、文変換処理方法、言語解析処理システム、および文変換処理システム
CN103092829A (zh) * 2011-10-27 2013-05-08 北京百度网讯科技有限公司 一种复述资源获取方法及***
CN108140019A (zh) * 2015-10-09 2018-06-08 三菱电机株式会社 语言模型生成装置、语言模型生成方法及其程序、语音识别装置以及语音识别方法及其程序
CN106354852A (zh) * 2016-09-02 2017-01-25 北京百度网讯科技有限公司 基于人工智能的搜索方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
宁丹丹等: "基于序列到序列模型的句子级复述生成", 《智能计算机与应用》 *
张文波: "基于互动问答社区的复述抽取", 《中国优秀硕士学位论文全文数据库电子期刊信息科技辑》 *
翁贞: "基于Markov网络模型的复述自动抽取方法的研究", 《中国优秀硕士学位论文全文数据库电子期刊信息科技辑》 *

Also Published As

Publication number Publication date
JP2020102131A (ja) 2020-07-02
US20200202079A1 (en) 2020-06-25

Similar Documents

Publication Publication Date Title
JP6699509B2 (ja) トピック表現の精緻化
US10635977B2 (en) Multi-task learning using knowledge distillation
CN113761936B (zh) 一种基于多头自注意力机制的多任务篇章级事件抽取方法
CN108604311B (zh) 利用层级式外部存储器的增强神经网络
US20160232442A1 (en) Passage justification scoring for question answering
JP2021197133A (ja) 意味マッチング方法、装置、電子機器、記憶媒体及びコンピュータプログラム
CN111046158B (zh) 问答匹配方法及模型训练方法、装置、设备、存储介质
Jing et al. Multiplex graph neural network for extractive text summarization
CN114519356B (zh) 目标词语的检测方法、装置、电子设备及存储介质
Yang et al. Deep learning and its applications to natural language processing
KR101985900B1 (ko) 텍스트 콘텐츠 작성자의 메타정보를 추론하는 방법 및 컴퓨터 프로그램
WO2023211602A1 (en) Exploring entities of interest over multiple data sources using knowledge graphs
CN114841146B (zh) 文本摘要生成方法和装置、电子设备及存储介质
Hartmann et al. XAINES: Explaining AI with narratives
Dunđer et al. Through the limits of newspeak: an analysis of the vector representation of words in George Orwell’s 1984
CN111382251A (zh) 文本生成方法、文本生成装置以及已学习模型
O’Donoghue et al. Towards Dr inventor: a tool for promoting scientific creativity
Kapanova et al. Generalized nets: A new approach to model a hashtag linguistic network on Twitter
Hemalatha et al. A Novel Approach for Blind-Image to Audio Conversion in Regional Language
Sharma et al. FakedBits-Detecting Fake Information on Social Platforms using Multi-Modal Features.
Burgin et al. In the Circle of Sense and Nonsense: Through a Mathematical Model of Meaning
Skurniak et al. Multi-Module Recurrent Neural Networks with Transfer Learning
Mohamad Rasli et al. A comparative study of conceptual graph and concept map
CN111597211B (zh) 一种数据流图处理方法、装置、设备以及可读存储介质
Dere et al. IMAGINE: MIND MAP GENERATION TOOL USING AI TECHNOLOGIES

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200707

WD01 Invention patent application deemed withdrawn after publication