CN110347802B - 一种文本分析方法及装置 - Google Patents

一种文本分析方法及装置 Download PDF

Info

Publication number
CN110347802B
CN110347802B CN201910649742.XA CN201910649742A CN110347802B CN 110347802 B CN110347802 B CN 110347802B CN 201910649742 A CN201910649742 A CN 201910649742A CN 110347802 B CN110347802 B CN 110347802B
Authority
CN
China
Prior art keywords
word
vector
unit
question
answered
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910649742.XA
Other languages
English (en)
Other versions
CN110347802A (zh
Inventor
毛颖
李天阳
唐剑波
李长亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kingsoft Digital Entertainment Co Ltd
Chengdu Kingsoft Digital Entertainment Co Ltd
Original Assignee
Beijing Kingsoft Digital Entertainment Co Ltd
Chengdu Kingsoft Digital Entertainment Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kingsoft Digital Entertainment Co Ltd, Chengdu Kingsoft Digital Entertainment Co Ltd filed Critical Beijing Kingsoft Digital Entertainment Co Ltd
Priority to CN201910649742.XA priority Critical patent/CN110347802B/zh
Publication of CN110347802A publication Critical patent/CN110347802A/zh
Application granted granted Critical
Publication of CN110347802B publication Critical patent/CN110347802B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Machine Translation (AREA)

Abstract

本申请提供一种文本分析方法及装置。所述文本分析方法,包括:将待分析文本和待回答问题输入至文本分析模型中进行处理,得到待分析文本和待回答问题中每一个词单元对应的第一词向量;将待分析文本和待回答问题进行词性标注处理,得到待分析文本和待回答问题中每一个词单元对应的第二词向量;将第一词向量与第二词向量相结合,并输入至答案获取模型中进行处理,得到每一个词单元对应的第三词向量;基于每一个词单元对应的第三词向量,获得每一个词单元作为待回答问题对应的答案开始位置以及答案结束位置的概率;基于每一个词单元作为答案开始位置以及答案结束位置的概率,确定所述待回答问题的答案。所述文本分析方法及装置,可以提高答***性。

Description

一种文本分析方法及装置
技术领域
本申请涉及计算机技术领域,特别涉及一种文本分析方法、装置、计算设备、计算机可读存储介质及芯片。
背景技术
自然语言处理(Natural Language Processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向,它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理的应用场景,从大的方面讲,是对于语言文字的智能处理,包括阅读理解、问答对话、写作、翻译等等。这些应用场景,又可以细分成若干任务,包括从一连串字中识别词,从一连串词中识别词组、从语句中识别主谓宾、定语、状语、从语句中识别语气情绪、从整篇文章中提炼摘要、根据提问从整篇文章中寻找答案即阅读理解与问答,等等。
其中,对于阅读理解与问答任务,通常选用双向注意力神经网络模型模型(Bidirectional Encoder Representation from Transformers,BERT)进行处理。但是,BERT模型无法充分提取文章与问题的相互依赖关系及信息,模型效果有待提升。
发明内容
有鉴于此,本申请实施例提供了一种文本分析方法、装置、计算设备、计算机可读存储介质及芯片,以解决现有技术中存在的技术缺陷。
本申请实施例公开了一种文本分析方法,包括:
将待分析文本和待回答问题输入至文本分析模型中进行处理,得到所述待分析文本和所述待回答问题中每一个词单元对应的第一词向量;
将所述待分析文本和所述待回答问题进行词性标注处理,得到所述待分析文本和所述待回答问题中每一个所述词单元对应的第二词向量;
将所述第一词向量与所述第二词向量相结合,并输入至答案获取模型中进行处理,得到每一个所述词单元对应的第三词向量;
基于每一个所述词单元对应的第三词向量,获得每一个所述词单元作为待回答问题对应的答案开始位置以及答案结束位置的概率;
基于每一个所述词单元作为答案开始位置以及答案结束位置的概率,确定所述待回答问题的答案。
进一步地,在所述将待分析文本和待回答问题输入至文本分析模型中进行处理,得到所述待分析文本和所述待回答问题中每一个词单元对应的第一词向量之前,还包括:
将所述待分析文本和所述待回答问题分别进行分词处理,得到所述词单元。
进一步地,在所述将待分析文本和待回答问题输入至文本分析模型中进行处理,得到所述待分析文本和所述待回答问题中每一个词单元对应的第一词向量之前,还包括:
将所述待分析文本划分为至少一个输入单元;
将所述输入单元和所述待回答问题分别进行分词处理,得到所述词单元;
所述将待分析文本和待回答问题输入至文本分析模型中进行处理,得到所述待分析文本和所述待回答问题中每一个词单元对应的第一词向量,包括:
将每一个所述输入单元分别和所述待回答问题作为一个输入集输入至所述文本分析模型中进行处理,得到所述输入集中每一个词单元对应的第一词向量。
进一步地,所述将每一个所述输入单元和所述待回答问题作为一个输入集输入至文本分析模型中进行处理,得到所述输入集中每一个词单元对应的第一词向量,包括:
将所述输入单元和所述待回答问题进行预嵌入处理,得到所述输入单元和所述待回答问题中每一个所述词单元的词向量、句向量和位置向量;
将所词向量、句向量和位置向量作为一个输入集输入至所述文本分析模型中进行处理,得到所述输入集中每一个所述词单元对应的第一词向量。
进一步地,将所述待分析文本和所述待回答问题进行词性标注处理,得到所述待分析文本和所述待回答问题中每一个所述词单元对应的第二词向量,包括:
将所述待分析文本和所述待回答问题分别进行分词处理,得到所述词单元;
对每一个所述词单元进行词性标注,得到携带有词性信息的词单元;
将所述携带有词性信息的词单元进行词嵌入处理,得到每一个所述词单元对应的所述第二词向量。
进一步地,所述将所述第一词向量与所述第二词向量相结合,并输入至答案获取模型中进行处理,得到每一个所述词单元对应的第三词向量,包括:
将每一个所述词单元的所述第一词向量与所述第二词向量进行拼接,得到所述词单元对应的拼接向量;
将所述拼接向量输入至所述答案获取模型中进行处理,到每一个所述词单元对应的第三词向量。
进一步地,所述答案获取模型包括第一子层、第二子层和第三子层;
所述将所述拼接向量输入至所述答案获取模型中进行处理,到每一个所述词单元对应的第三词向量,包括:
将所述拼接向量输入至所述第一子层中进行处理,得到所述第一子层的输出向量;
将所述第一子层的输出向量输入至所述第二子层中进行处理,得到所述第二子层的输出向量;
将所述第二子层的输出向量输入至所述第三子层中进行处理,得到所述第三词向量。
进一步地,所述基于每一个所述词单元对应的第三词向量,获得每一个所述词单元作为待回答问题对应的答案开始位置以及答案结束位置的概率,包括:
将每一个所述词单元对应的第三词向量进行线性映射以及非线性变换,分别获得每一个词单元作为问题对应的答案开始位置以及答案结束位置的概率。
一种文本分析装置,包括:
第一处理模块,被配置为将待分析文本和待回答问题输入至文本分析模型中进行处理,得到所述待分析文本和所述待回答问题中每一个词单元对应的第一词向量;
第二处理模块,被配置为将所述待分析文本和所述待回答问题进行词性标注处理,得到所述待分析文本和所述待回答问题中每一个所述词单元对应的第二词向量;
第三处理模块,被配置为将所述第一词向量与所述第二词向量相结合,并输入至答案获取模型中进行处理,得到每一个所述词单元对应的第三词向量;
概率获取模块,被配置为基于每一个所述词单元对应的第三词向量,获得每一个所述词单元作为待回答问题对应的答案开始位置以及答案结束位置的概率;
答案确定模块,被配置为基于每一个所述词单元作为答案开始位置以及答案结束位置的概率,确定所述待回答问题的答案。
可选地,所述文本分析装置,还包括:
分词处理模块,被配置为将所述待分析文本和所述待回答问题分别进行分词处理,得到所述词单元。
可选地,所述文本分析装置,还包括:
划分模块,被配置为将所述待分析文本划分为至少一个输入单元;
将所述输入单元和所述待回答问题分别进行分词处理,得到所述词单元;
所述第一处理模块,进一步地配置为:
将每一个所述输入单元分别和所述待回答问题作为一个输入集输入至所述文本分析模型中进行处理,得到所述输入集中每一个词单元对应的第一词向量。
可选地,所述第一处理模块,进一步地被配置为:
将所述输入单元和所述待回答问题进行预嵌入处理,得到所述输入单元和所述待回答问题中每一个所述词单元的词向量、句向量和位置向量;
将所述词向量、句向量和位置向量作为一个输入集输入至所述文本分析模型中进行处理,得到所述输入集中每一个所述词单元对应的第一词向量。
可选地,所述第二处理模块,进一步地被配置为:
将所述待分析文本和所述待回答问题分别进行分词处理,得到所述词单元;
对每一个所述词单元进行词性标注,得到携带有词性信息的词单元;
将所述携带有词性信息的词单元进行词嵌入处理,得到每一个所述词单元对应的所述第二词向量。
可选地,所述第三处理模块,进一步地被配置为:
将每一个所述词单元的所述第一词向量与所述第二词向量进行拼接,得到所述词单元对应的拼接向量;
将所述拼接向量输入至所述答案获取模型中进行处理,到每一个所述词单元对应的第三词向量。
可选地,所述答案获取模型包括第一子层、第二子层和第三子层;
所述第三处理模块,进一步地被配置为:
将所述拼接向量输入至所述第一子层中进行处理,得到所述第一子层的输出向量;
将所述第一子层的输出向量输入至所述第二子层中进行处理,得到所述第二子层的输出向量;
将所述第二子层的输出向量输入至所述第三子层中进行处理,得到所述第三词向量。
可选地,所述概率获取模块,进一步地被配置为:
将每一个所述词单元对应的第三词向量进行线性映射以及非线性变换,分别获得每一个词单元作为问题对应的答案开始位置以及答案结束位置的概率。
一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现所述文本分析方法的步骤。
一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现所述文本分析方法的步骤。
一种芯片,其存储有计算机指令,该指令被处理器执行时实现所述文本分析方法的步骤。
本申请提供的文本分析方法、装置、计算设备、计算机可读存储介质及芯片,通过将待分析文本和待回答问题通过文本分析模型得到的第一词向量和通过词性标注处理得到的第二词向量相结合,并输入至答案获取模型中进行更进一步的提取分析,可以更进一步地、更深层次的提取待分析文本与待回答问题之间的信息,有效提高答***性。
附图说明
图1是本申请一实施例所述的计算设备的结构示意图;
图2是本申请一实施例所述的文本分析方法的步骤流程示意图;
图3是本申请一实施例所述的文本分析模型输入集的生成示意图;
图4是本申请一实施例所述的BERT模型的结构示意图;
图5是本申请一实施例所述的文本分析装置的结构示意图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
首先,对本发明一个或多个实施例涉及的名词术语进行解释。
BERT模型:谷歌于2018年10月提出的双向注意力神经网络模型。BERT模型通过拼接问题与文章,利用注意力机制获取文章信息以及问题与文章之间的相互依赖关系,从而获得问题与文章每个词单元的相互依赖表示向量,最终通过线性映射与非线性变换分别获得每个词单元作为答案开始与结束位置的概率。
词单元(token):对输入文本做任何实际处理前,都需要将其分割成诸如词、标点符号、数字或纯字母数字等语言单元,这些单元被称为词单元。对于英文文本,词单元可以是一个单词、一个标点符号、一个数字等,对于中文文本,最小的词单元可以是一个字、一个标点符号、一个数字等。
词嵌入:是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中,每个单词或词组被映射为实数域上的向量。
长短期记忆网络(Long Short-Term Memory,LSTM)模型:是一种时间递归神经网络,适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。LSTM模型可以用来连接先前的信息到当前的任务上,例如使用过去的语句来推测对当前语句的理解。
归一化指数函数Softmax:是逻辑函数的一种推广,它能将一个含任意实数的K维向量“压缩”到另一个K维实向量中,使得每一个元素的范围都在[0,1]之间,并且所有元素的和为1。
在本申请中,提供了一种文本分析方法、装置、计算设备、计算机可读存储介质及芯片,在下面的实施例中逐一进行详细说明。
图1是示出了根据本说明书一实施例的计算设备100的结构框图。该计算设备100的部件包括但不限于存储器110和处理器120。处理器120与存储器110通过总线130相连接,数据库150用于保存数据。
计算设备100还包括接入设备140,接入设备140使得计算设备100能够经由一个或多个网络160通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备140可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC))中的一个或多个,诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口,等等。
在本说明书的一个实施例中,计算设备100的上述部件以及图1中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图1所示的计算设备结构框图仅仅是出于示例的目的,而不是对本说明书范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备100可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备100还可以是移动式或静止式的服务器。
其中,处理器120可以执行图2所示方法中的步骤。
如图2所示,一种文本分析方法,包括步骤S210至步骤S250。
步骤S210:将待分析文本和待回答问题输入至文本分析模型中进行处理,得到所述待分析文本和所述待回答问题中每一个词单元对应的第一词向量。
在实际应用中,可以预先将所述待分析文本划分为至少一个输入单元,并将所述输入单元和所述待回答问题分别进行分词处理,得到所述词单元。
具体地,可以基于待分析文本的字符数以及预设的每个输入单元可以容纳的字符数对待分析文本进行输入单元的划分。例如,假设一个输入单元最多可以包含a个字符,待分析文本中共包含b个字符,且a、b均为正整数,在a≥b的情况下,可以将待分析文本整体作为一个输入单元,在a<b的情况下,判断b/a是否为整数,若是,可以将待分析文本划分为b/a个输入单元,若否,可以将待分析文本划分为b/a+1个输入单元。
例如,假设每个输入单元最多可以容纳100个字符,待分析文本A中包括220个字符,待分析文本B中包括80个字符,待分析文本C中包括100个字符,则可以将待分析文本A划分成三个输入单元,待分析文本B整体可以作为一个输入单元,待分析文本C整体也可以作为一个输入单元。
进一步地,将每一个所述输入单元分别和所述待回答问题作为一个输入集输入至所述文本分析模型中进行处理,得到所述输入集中每一个词单元对应的第一词向量。
具体地,每一个输入集均包括待分析文本的一个输入单元和待回答问题。
例如,假设待分析文本A包括三个输入单元,分别为输入单元A1、输入单元A2和输入单元A3,则输入单元A1与待回答问题组成输入集A1输入至文本分析模型中进行处理,输入单元A2与待回答问题组成输入集A2输入至文本分析模型中进行处理,输入单元A3与待回答问题组成输入集A3输入至文本分析模型中进行处理。
进一步地,可以将所述输入单元和所述待回答问题进行预嵌入处理,得到所述输入单元和所述待回答问题中每一个所述词单元的词向量、句向量和位置向量;将每一个所述输入单元和所述待回答问题中所述词单元的词向量、句向量和位置向量作为一个输入向量集输入至所述文本分析模型中进行处理,得到所述输入集中每一个所述词单元对应的第一词向量。
具体地,所述预嵌入处理是指对所述输入单元和所述待回答问题输入至嵌入层预先进行词嵌入处理,得到所述输入单元和所述待回答问题中每一个所述词单元的词向量、句向量和位置向量。其中,词向量为每个词单元对应的向量,句向量为每个词单元所属的句子向量,位置向量为每个词单元对应的位置所生成的向量。
例如,如图3所示,图3是文本分析模型输入集的生成示意图,假设输入单元包括“my dog likes bones”和“what does dog like”两个句子。其中,“my dog likes bones”作为待分析文本(输入单元),“what does dog like”作为待回答问题,将上述输入单元和待回答问题进行词嵌入处理后,即得到如图3所示的输入集。其中,E表示向量,字母下标表示不同的句子,***数字下标表示该词单元在整个输入集中的位置,在确定词单元在输入集中的位置时,既可以将待分析文本置于待回答问题的前方,也可以将待分析文本置于待回答问题的后方,本申请对此不做限制。
所述文本分析模型可以是BERT模型,如图4所示,BERT模型可以包括n个堆栈层,该n个堆栈层依次连接。每个堆栈层中还包括:自注意力层、第一规范层、前馈层以及第二规范层。将词向量、句向量和位置向量组成的输入集输入至第1个堆栈层,得到第1个堆栈层的输出向量,并将第1个堆栈层的输出向量输入至第2个堆栈层……依次类推,最终得到最后一个堆栈层的输出向量。将最后一个堆栈层的输出向量作为每个词单元的第一词向量。
步骤S220:将所述待分析文本和所述待回答问题进行词性标注处理,得到所述待分析文本和所述待回答问题中每一个所述词单元对应的第二词向量。
在实际应用中,可以将所述待分析文本和所述待回答问题分别进行分词处理,得到所述词单元;对每一个所述词单元进行词性标注,得到携带有词性信息的词单元;将所述携带有词性信息的词单元进行词嵌入处理,得到每一个所述词单元对应的所述第二词向量。
具体地,词性是指以词的特点作为划分词类的根据。对每一个所述词单元进行词性标注,即基于每一个词单元的特点为该词单元标注相应的词性信息。其中,词性信息可以是词性类别信息,包括名词、动词、形容词、处所词、方位词、区别词、状态词、代词、数词、量词、介词、代词、副词、语气词、字符串、标点符号等等。例如,可以为表示人、事物、地点或抽象概念的词单元标注词性信息“名词”,可以为表示动作或状态的词单元标注词性信息“动词”,可以为表示行为或状态特征的词单元标注词性信息“副词”等,其他情况可依次类推,不再赘述。将所述携带有词性信息的词单元进行词嵌入处理,即得到每一个词单元所对应的携带有词性信息的第二词向量。
例如,假设待分析文本包括“my dog likes bones”,对待分析文本进行分词处理后,得到包括“my”、“dog”、“likes”、“bones”在内的词单元,并对每一个词单元进行词性标注,得到词单元“my”的词性信息为“形容词(adj)”,“dog”、“bones”的词性信息为“名词(n)”,词单元“likes”的词性信息为“动词(v)”,将上述携带有词性信息的词单元进行词嵌入处理,即得到如表1所示的第二词向量。
表1
词单元 my dog likes bones
词性信息 形容词 名词 动词 名词
第二词向量 E<sub>(my,adj)</sub> E<sub>(dog,n)</sub> E<sub>(likes,v)</sub> E<sub>(bones,n)</sub>
步骤S230:将所述第一词向量与所述第二词向量相结合,并输入至答案获取模型中进行处理,得到每一个所述词单元对应的第三词向量。
在实际应用中,可以将每一个所述词单元的所述第一词向量与所述第二词向量进行拼接,得到所述词单元对应的拼接向量;将所述拼接向量输入至所述答案获取模型中进行处理,得到每一个所述词单元对应的第三词向量。
具体地,若任一词单元的第一词向量为a维向量,第二词向量为b维向量,将所述a维第一词向量与所述b维第二词向量拼接,得到c维拼接词向量,其中,c=a+b,将所述c维拼接向量输入至答案获取模型中进行处理,即得到该词单元对应的第三词向量。
例如,假设词单元“bones”的第一词向量E1的大小为768维,第二词向量E2的大小为64维,则将词单元“bones”的第一词向量E1与第二词向量E2进行拼接,得到832维的拼接向量E12,将拼接向量E12输入至答案获取模型中,即得到词单元“bones”对应的第三词向量。
进一步地,所述答案获取模型包括第一子层、第二子层和第三子层。可以将所述拼接向量输入至所述第一子层中进行处理,得到所述第一子层的输出向量;将所述第一子层的输出向量输入至所述第二子层中进行处理,得到所述第二子层的输出向量;将所述第二子层的输出向量输入至所述第三子层中进行处理,得到所述第三词向量。
其中,所述答案获取模型为三层的双向LSTM结构,第一子层、第二子层和第三子层均为双向LSTM网络模型。
步骤S240:基于每一个所述词单元对应的第三词向量,获得每一个所述词单元作为待回答问题对应的答案开始位置以及答案结束位置的概率。
在实际应用中,可以将每一个所述词单元对应的第三词向量进行线性映射以及非线性变换,分别获得每一个词单元作为问题对应的答案开始位置以及答案结束位置的概率。
具体地,线性映射是从一个向量空间V到另一个向量空间W的映射。通过线性映射,以实现词向量的维度至句向量的维度的转换。非线性变换,就是把原始的特征向量做非线性变换,得到一个新的特征向量,使用这个新的特征向量来做线性的分类,则对应到原始的特征空间中,相当于做了非线性的分类。
在实际应用中,可以通过Softmax等各种方式实现,本申请对此不做限制。
步骤S250:基于每一个所述词单元作为答案开始位置以及答案结束位置的概率,确定所述待回答问题的答案。
具体地,可以通过比较每一个词单元作为答案开始位置的概率大小,确定在待分析文本中待回答问题答案的开始位置,同样的,可以通过比较每一个词单元作为答案结束位置的概率大小,确定在待分析文本中待回答问题答案的结束位置。
例如,假设待分析文本包括“my dog likes bones”,待回答问题包括“what doesdog like”,词单元“my”作为答案开始位置的概率为m1,作为答案结束位置的概率为n1,词单元“dog”作为答案开始位置的概率为m2,作为答案结束位置的概率为n2,词单元“likes”作为答案开始位置的概率为m3,作为答案结束位置的概率为n3,词单元“bones”作为答案开始位置的概率为m4,作为答案结束位置的概率为n4,其中,m4>m3>m2>m1,n4>n3>n2>n1,由此可见,词单元“bones”作为答案开始位置的概率以及作为答案结束位置的概率均最大,则待回答问题“what does dog like”的答案为“bones”。
下面结合具体的例子对上述实施例做进一步说明。
例如,假设待分析文本为“The Silk Road is divided into the Land SilkRoad and the Sea Silk Road.The Land Silk Road originated in the Western HanDynasty and the Sea Silk Road formed in the Qin and Han Dynasties”,待回答问题为“What period did the land Silk Road originate from”,将待分析文本和待回答问题进行分词处理,得到包括“The”、“Silk”、“Road”、“is”、“divided”、“into”等词在内的词单元,且该待分析文本的字符数量小于一个输入单元所能容纳的最大字符数量,故将该待分析文本整体作为一个输入单元,置于待回答问题之前并与待回答问题一起进行输入。
对于上述输入单元以及待回答问题进行预嵌入处理,得到输入集中每一个词单元对应的词向量、句向量以及位置向量,组成输入向量集。以待分析文本中的“Land”为例,词单元“Land”在待分析文本中共出现两次,在待回答问题中出现一次,假设“Land”在待分析文本中第一次出现为“Land1”,第二次出现为“Land2”,在待回答问题中为“Land3”,经过预嵌入处理,三个“Land”词单元分别得到如表2所示的词向量、句向量以及位置向量,其他词单元的处理情况可以此类推,不再赘述。
表2
Figure BDA0002134040980000151
Figure BDA0002134040980000161
将上述词单元对应的词向量、句向量以及位置向量的集合作为输入集输入文本分析模型(BERT模型)中进行处理,得到第一词向量Ex1~Ex46
对每一个所述词单元进行词性标注,得到携带有词性信息的词单元,词单元“The”的词性信息为定冠词,词单元“Silk”的词性信息为形容词,词单元“Road”的词性信息为名词,词单元“is”的词性信息为动词,词单元“divided”的词性信息为动词,词单元“into”的词性信息为介词,其他词单元的词性信息可以此类推,不再赘述。将所述携带有词性信息的词单元进行词嵌入处理,得到每一个所述词单元对应的所述第二词向量Ey1~Ey46
将每一个所述词单元的所述第一词向量(Ex1~Ex46)与所述第二词向量(Ey1~Ey46)进行拼接,得到所述词单元对应的拼接向量(Ex1+Ey1~Ex46+Ey46);将拼接向量(Ex1+Ey1~Ex46+Ey46)输入至所述答案获取模型中进行处理,得到每一个所述词单元对应的第三词向量(Ez1~Ez46),经过线性映射和非线性变换,得到如下所述的每一个词单元作为答案开始位置和答案结束位置的概率。
答案开始位置概率:[0.28,0.27,0.55,0.23,0.12,0.40,0.33,0.60,0.11,0.22,0.61,0.65,0.40,0.29,0.44,0.38,0.60,0.35,0.39,0.16,0.97,0.57,0.10,0.11,0.31,0.22,0.31,0.18,0.62,0.07,0.52,0.33,0.51,0.77,0.10,0.40,0.40,0.29,0.28,0.28,0.46,0.91,0.15,0.27,0.14,0.09]
答案结束位置概率:[0.26,0.11,0.54,0.72,0.27,0.64,0.41,0.14,0.78,0.87,0.66,0.27,0.16,0.21,0.05,0.39,0.66 0.27,0.28,0.11,0.13,0.39,0.51,0.57,1.83,0.26,0.25,0.50,0.18,0.13,0.10,0.98,0.62,0.50,0.48,0.50,0.50,0.50,0.30,0.15,0.33,0.25,0.61,1.12,1.25,0.5]
由此可以得出,答案开始位置概率最高的为第22位词单元,答案结束位置概率最高的为第25位词单元,故待回答问题的答案为“the Western Han Dynasty”。
本申请一实施例所述的文本分析方法,将经过BERT模型处理得到的向量与经过词性标注处理得到的携带有词性信息的向量相结合,并输入至由三层双向LSTM模型构成的答案获取模型中进行更进一步地处理,可以在得到结合有BERT模型输出信息以及词性信息的向量的基础上,经过更多及更深层次的计算,提取到更多的语义信息和句义信息,有效提高提取到的语义信息、句义信息提取的丰富度及深度,从而提高问答效果以及答案准确率。
如图5所示,一种文本分析装置,包括:
第一处理模块510,被配置为将待分析文本和待回答问题输入至文本分析模型中进行处理,得到所述待分析文本和所述待回答问题中每一个词单元对应的第一词向量。
第二处理模块520,被配置为将所述待分析文本和所述待回答问题进行词性标注处理,得到所述待分析文本和所述待回答问题中每一个所述词单元对应的第二词向量。
第三处理模块530,被配置为将所述第一词向量与所述第二词向量相结合,并输入至答案获取模型中进行处理,得到每一个所述词单元对应的第三词向量。
概率获取模块540,被配置为基于每一个所述词单元对应的第三词向量,获得每一个所述词单元作为待回答问题对应的答案开始位置以及答案结束位置的概率。
答案确定模块550,被配置为基于每一个所述词单元作为答案开始位置以及答案结束位置的概率,确定所述待回答问题的答案。
可选地,所述文本分析装置,还包括:
分词处理模块,被配置为将所述待分析文本和所述待回答问题分别进行分词处理,得到所述词单元。
可选地,所述文本分析装置,还包括:
划分模块,被配置为将所述待分析文本划分为至少一个输入单元。
将所述输入单元和所述待回答问题分别进行分词处理,得到所述词单元。
所述第一处理模块510,进一步地配置为:
将每一个所述输入单元分别和所述待回答问题作为一个输入集输入至所述文本分析模型中进行处理,得到所述输入集中每一个词单元对应的第一词向量。
可选地,所述第一处理模块510,进一步地被配置为:
将所述输入单元和所述待回答问题进行预嵌入处理,得到所述输入单元和所述待回答问题中每一个所述词单元的词向量、句向量和位置向量。
将所述词向量、句向量和位置向量作为一个输入集输入至所述文本分析模型中进行处理,得到所述输入集中每一个所述词单元对应的第一词向量。
可选地,所述第二处理模块520,进一步地被配置为:
将所述待分析文本和所述待回答问题分别进行分词处理,得到所述词单元。
对每一个所述词单元进行词性标注,得到携带有词性信息的词单元。
将所述携带有词性信息的词单元进行词嵌入处理,得到每一个所述词单元对应的所述第二词向量。
可选地,所述第三处理模块530,进一步地被配置为:
将每一个所述词单元的所述第一词向量与所述第二词向量进行拼接,得到所述词单元对应的拼接向量。
将所述拼接向量输入至所述答案获取模型中进行处理,到每一个所述词单元对应的第三词向量。
可选地,所述答案获取模型包括第一子层、第二子层和第三子层。
所述第三处理模块530,进一步地被配置为:
将所述拼接向量输入至所述第一子层中进行处理,得到所述第一子层的输出向量。
将所述第一子层的输出向量输入至所述第二子层中进行处理,得到所述第二子层的输出向量。
将所述第二子层的输出向量输入至所述第三子层中进行处理,得到所述第三词向量。
可选地,所述概率获取模块540,进一步地被配置为:
将每一个所述词单元对应的第三词向量进行线性映射以及非线性变换,分别获得每一个词单元作为问题对应的答案开始位置以及答案结束位置的概率。
本申请一实施例所述的文本分析装置,通过将包含有不同信息的向量相结合,并进行更进一步地更深层次的处理,可以有效提高问答效果以及答***率。
本申请一实施例还提供一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现以下步骤:
将待分析文本和待回答问题输入至文本分析模型中进行处理,得到所述待分析文本和所述待回答问题中每一个词单元对应的第一词向量。
将所述待分析文本和所述待回答问题进行词性标注处理,得到所述待分析文本和所述待回答问题中每一个所述词单元对应的第二词向量。
将所述第一词向量与所述第二词向量相结合,并输入至答案获取模型中进行处理,得到每一个所述词单元对应的第三词向量。
基于每一个所述词单元对应的第三词向量,获得每一个所述词单元作为待回答问题对应的答案开始位置以及答案结束位置的概率。
基于每一个所述词单元作为答案开始位置以及答案结束位置的概率,确定所述待回答问题的答案。
本申请一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现如前所述文本分析方法的步骤。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的文本分析方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述文本分析方法的技术方案的描述。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本申请的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

Claims (13)

1.一种文本分析方法,其特征在于,包括:
将待分析文本划分为至少一个输入单元;
将所述输入单元和待回答问题分别进行分词处理,得到词单元;
将每一个所述输入单元分别和所述待回答问题作为一个输入集输入至文本分析模型中进行处理,得到所述输入集中每一个词单元对应的第一词向量;
将所述待分析文本和所述待回答问题进行词性标注处理,得到所述待分析文本和所述待回答问题中每一个所述词单元对应的第二词向量;
将每一个所述词单元的所述第一词向量与所述第二词向量进行拼接,得到所述词单元对应的拼接向量;
将所述拼接向量输入至答案获取模型中进行处理,得到每一个所述词单元对应的第三词向量;
将每一个所述词单元对应的第三词向量进行线性映射以及非线性变换,分别获得每一个词单元作为问题对应的答案开始位置以及答案结束位置的概率;
比较每一个所述词单元作为答案开始位置的概率大小,确定出所述待回答问题的答案的开始位置,比较每一个所述词单元作为答案结束位置的概率的大小,确定出所述待回答问题的答案的结束位置。
2.根据权利要求1所述的文本分析方法,其特征在于,在所述将待分析文本和待回答问题输入至文本分析模型中进行处理,得到所述待分析文本和所述待回答问题中每一个词单元对应的第一词向量之前,还包括:
将所述待分析文本和所述待回答问题分别进行分词处理,得到所述词单元。
3.根据权利要求1所述的文本分析方法,其特征在于,所述将每一个所述输入单元和所述待回答问题作为一个输入集输入至文本分析模型中进行处理,得到所述输入集中每一个词单元对应的第一词向量,包括:
将所述输入单元和所述待回答问题进行预嵌入处理,得到所述输入单元和所述待回答问题中每一个所述词单元的词向量、句向量和位置向量;
将所述词向量、句向量和位置向量作为一个输入集输入至所述文本分析模型中进行处理,得到所述输入集中每一个所述词单元对应的第一词向量。
4.根据权利要求1所述的文本分析方法,其特征在于,将所述待分析文本和所述待回答问题进行词性标注处理,得到所述待分析文本和所述待回答问题中每一个所述词单元对应的第二词向量,包括:
将所述待分析文本和所述待回答问题分别进行分词处理,得到所述词单元;
对每一个所述词单元进行词性标注,得到携带有词性信息的词单元;
将所述携带有词性信息的词单元进行词嵌入处理,得到每一个所述词单元对应的所述第二词向量。
5.根据权利要求1所述的文本分析方法,其特征在于,所述答案获取模型包括第一子层、第二子层和第三子层;
所述将所述拼接向量输入至所述答案获取模型中进行处理,到每一个所述词单元对应的第三词向量,包括:
将所述拼接向量输入至所述第一子层中进行处理,得到所述第一子层的输出向量;
将所述第一子层的输出向量输入至所述第二子层中进行处理,得到所述第二子层的输出向量;
将所述第二子层的输出向量输入至所述第三子层中进行处理,得到所述第三词向量。
6.一种文本分析装置,其特征在于,包括:
第一处理模块,被配置为将待分析文本划分为至少一个输入单元;将所述输入单元和待回答问题分别进行分词处理,得到词单元;将每一个所述输入单元分别和所述待回答问题作为一个输入集输入至文本分析模型中进行处理,得到所述输入集中每一个词单元对应的第一词向量;
第二处理模块,被配置为将所述待分析文本和所述待回答问题进行词性标注处理,得到所述待分析文本和所述待回答问题中每一个所述词单元对应的第二词向量;
第三处理模块,被配置为将每一个所述词单元的所述第一词向量与所述第二词向量进行拼接,得到所述词单元对应的拼接向量;将所述拼接向量输入至答案获取模型中进行处理,到每一个所述词单元对应的第三词向量;
概率获取模块,被配置为将每一个所述词单元对应的第三词向量进行线性映射以及非线性变换,分别获得每一个词单元作为问题对应的答案开始位置以及答案结束位置的概率;
答案确定模块,被配置为比较每一个所述词单元作为答案开始位置的概率大小,确定出所述待回答问题的答案的开始位置,比较每一个所述词单元作为答案结束位置的概率的大小,确定出所述待回答问题的答案的结束位置。
7.根据权利要求6所述的文本分析装置,其特征在于,还包括:
分词处理模块,被配置为将所述待分析文本和所述待回答问题分别进行分词处理,得到所述词单元。
8.根据权利要求6所述的文本分析装置,其特征在于,所述第一处理模块,进一步地被配置为:
将所述输入单元和所述待回答问题进行预嵌入处理,得到所述输入单元和所述待回答问题中每一个所述词单元的词向量、句向量和位置向量;
将所述词向量、句向量和位置向量作为一个输入集输入至所述文本分析模型中进行处理,得到所述输入集中每一个所述词单元对应的第一词向量。
9.根据权利要求6所述的文本分析装置,其特征在于,所述第二处理模块,进一步地被配置为:
将所述待分析文本和所述待回答问题分别进行分词处理,得到所述词单元;
对每一个所述词单元进行词性标注,得到携带有词性信息的词单元;
将所述携带有词性信息的词单元进行词嵌入处理,得到每一个所述词单元对应的所述第二词向量。
10.根据权利要求6所述的文本分析装置,其特征在于,所述答案获取模型包括第一子层、第二子层和第三子层;
所述第三处理模块,进一步地被配置为:
将所述拼接向量输入至所述第一子层中进行处理,得到所述第一子层的输出向量;
将所述第一子层的输出向量输入至所述第二子层中进行处理,得到所述第二子层的输出向量;
将所述第二子层的输出向量输入至所述第三子层中进行处理,得到所述第三词向量。
11.一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,其特征在于,所述处理器执行所述指令时实现权利要求1-5任意一项所述方法的步骤。
12.一种计算机可读存储介质,其存储有计算机指令,其特征在于,该指令被处理器执行时实现权利要求1-5任意一项所述方法的步骤。
13.一种芯片,其存储有计算机指令,其特征在于,该指令被处理器执行时实现权利要求1-5任意一项所述方法的步骤。
CN201910649742.XA 2019-07-17 2019-07-17 一种文本分析方法及装置 Active CN110347802B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910649742.XA CN110347802B (zh) 2019-07-17 2019-07-17 一种文本分析方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910649742.XA CN110347802B (zh) 2019-07-17 2019-07-17 一种文本分析方法及装置

Publications (2)

Publication Number Publication Date
CN110347802A CN110347802A (zh) 2019-10-18
CN110347802B true CN110347802B (zh) 2022-09-02

Family

ID=68178782

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910649742.XA Active CN110347802B (zh) 2019-07-17 2019-07-17 一种文本分析方法及装置

Country Status (1)

Country Link
CN (1) CN110347802B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110781663B (zh) * 2019-10-28 2023-08-29 北京金山数字娱乐科技有限公司 文本分析模型的训练方法及装置、文本分析方法及装置
CN110837558B (zh) * 2019-11-07 2022-04-15 成都星云律例科技有限责任公司 一种裁判文书实体关系抽取方法及***
CN111241244A (zh) * 2020-01-14 2020-06-05 平安科技(深圳)有限公司 基于大数据的答案位置获取方法、装置、设备及介质
CN113127729A (zh) * 2020-01-16 2021-07-16 深圳绿米联创科技有限公司 家居方案的推荐方法、装置、电子设备及存储介质
CN113535887B (zh) * 2020-04-15 2024-04-02 北京金山数字娱乐科技有限公司 一种公式相似度检测方法及装置
CN114648022A (zh) * 2020-12-17 2022-06-21 北京金山数字娱乐科技有限公司 文本分析方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109753661A (zh) * 2019-01-11 2019-05-14 国信优易数据有限公司 一种机器阅读理解方法、装置、设备及存储介质
CN109766423A (zh) * 2018-12-29 2019-05-17 上海智臻智能网络科技股份有限公司 基于神经网络的问答方法及装置、存储介质、终端
WO2019106965A1 (ja) * 2017-12-01 2019-06-06 日本電信電話株式会社 情報処理装置、情報処理方法、及びプログラム
CN109977428A (zh) * 2019-03-29 2019-07-05 北京金山数字娱乐科技有限公司 一种答案获取的方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10909329B2 (en) * 2015-05-21 2021-02-02 Baidu Usa Llc Multilingual image question answering

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019106965A1 (ja) * 2017-12-01 2019-06-06 日本電信電話株式会社 情報処理装置、情報処理方法、及びプログラム
CN109766423A (zh) * 2018-12-29 2019-05-17 上海智臻智能网络科技股份有限公司 基于神经网络的问答方法及装置、存储介质、终端
CN109753661A (zh) * 2019-01-11 2019-05-14 国信优易数据有限公司 一种机器阅读理解方法、装置、设备及存储介质
CN109977428A (zh) * 2019-03-29 2019-07-05 北京金山数字娱乐科技有限公司 一种答案获取的方法及装置

Also Published As

Publication number Publication date
CN110347802A (zh) 2019-10-18

Similar Documents

Publication Publication Date Title
CN110347802B (zh) 一种文本分析方法及装置
US11288295B2 (en) Utilizing word embeddings for term matching in question answering systems
CN109522553B (zh) 命名实体的识别方法及装置
CN109977428B (zh) 一种答案获取的方法及装置
CN110765244A (zh) 获取应答话术的方法、装置、计算机设备及存储介质
CN112131366A (zh) 训练文本分类模型及文本分类的方法、装置及存储介质
CN113127624B (zh) 问答模型的训练方法及装置
CN110609886A (zh) 一种文本分析方法及装置
CN111930914A (zh) 问题生成方法和装置、电子设备以及计算机可读存储介质
CN113536801A (zh) 阅读理解模型的训练方法及装置、阅读理解方法及装置
CN112287085B (zh) 语义匹配方法、***、设备及存储介质
CN112632258A (zh) 文本数据处理方法、装置、计算机设备和存储介质
CN113342944B (zh) 一种语料泛化方法、装置、设备及存储介质
CN115878752A (zh) 文本情感的分析方法、装置、设备、介质及程序产品
CN114282592A (zh) 一种基于深度学习的行业文本匹配模型方法及装置
Lyu et al. Deep learning for textual entailment recognition
CN110705310B (zh) 一种文章生成的方法和装置
CN113590768B (zh) 一种文本关联度模型的训练方法及装置、问答方法及装置
US11880664B2 (en) Identifying and transforming text difficult to understand by user
CN115795007A (zh) 智能问答方法、智能问答装置、电子设备及存储介质
CN115292492A (zh) 意图分类模型的训练方法、装置、设备及存储介质
Ling Coronavirus public sentiment analysis with BERT deep learning
CN114691716A (zh) Sql语句转换方法、装置、设备及计算机可读存储介质
JP2018010481A (ja) 深層格解析装置、深層格学習装置、深層格推定装置、方法、及びプログラム
CN113407664A (zh) 语义匹配方法、装置和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant