CN112528621B - 文本处理、文本处理模型训练方法、装置和存储介质 - Google Patents

文本处理、文本处理模型训练方法、装置和存储介质 Download PDF

Info

Publication number
CN112528621B
CN112528621B CN202110182270.9A CN202110182270A CN112528621B CN 112528621 B CN112528621 B CN 112528621B CN 202110182270 A CN202110182270 A CN 202110182270A CN 112528621 B CN112528621 B CN 112528621B
Authority
CN
China
Prior art keywords
vector
text
replacement
replaced
initial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110182270.9A
Other languages
English (en)
Other versions
CN112528621A (zh
Inventor
周干斌
林芬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202110182270.9A priority Critical patent/CN112528621B/zh
Publication of CN112528621A publication Critical patent/CN112528621A/zh
Application granted granted Critical
Publication of CN112528621B publication Critical patent/CN112528621B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种文本处理方法、装置、计算机设备和存储介质。所述方法包括:获取输入文本、待替换单元和替换位置;将输入文本和待替换单元进行向量化,得到文本向量和待替换单元向量;基于文本向量进行正向语义提取和逆向语义提取,得到正向语义向量和逆向语义向量,基于替换位置从正向语义向量和逆向语义向量中确定目标正向语义向量和目标逆向语义向量;基于目标正向语义向量和目标逆向语义向量进行上下文语义计算,得到替换位置上下文语义向量;基于替换位置上下文语义向量和待替换单元向量进行替换预测,得到可替换度,可替换度用于表征输入文本中替换位置对应的文本单元被待替换单元进行替换的可能性。采用本方法能够提高文本替换的准确性。

Description

文本处理、文本处理模型训练方法、装置和存储介质
技术领域
本申请涉及计算机技术领域,特别是涉及一种文本处理、文本处理模型训练以及搜索方法、装置、计算机设备和存储介质。
背景技术
随着人工智能技术的发展,出现了自然语言处理技术,通过自然语言处理技术中的文本处理技术可以实现对文本替换,比如,对文本中的同义词进行替换等等。目前,对于文本替换的方法通常是使用正则表达式或者模板进行匹配,匹配成功后对文本中词进行替换。然而,目前使用正则表达式或者模板进行文本替换的方法,容易导致替换后的文本存在局部不通顺的问题,文本替换的准确性较低。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高文本替换准确性的文本处理、文本处理模型训练方法、装置、计算机设备和存储介质。
一种文本处理方法,所述方法包括:
获取输入文本和对应的替换信息,替换信息包括待替换单元和替换位置;
将输入文本向量化,得到文本向量,并将待替换单元向量化,得到待替换单元向量;
基于文本向量进行正向语义提取和逆向语义提取,得到正向语义向量和逆向语义向量,基于替换位置从正向语义向量和逆向语义向量中确定目标正向语义向量和目标逆向语义向量;
基于目标正向语义向量和目标逆向语义向量进行上下文语义计算,得到替换位置的上下文语义向量;
基于替换位置的上下文语义向量和待替换单元向量进行替换预测,得到可替换度,可替换度用于表征输入文本中替换位置对应的文本单元被待替换单元进行替换的可能性。
在其中一个实施例中,所述将所述输入文本向量化,得到文本向量,并将所述待替换单元向量化,得到待替换单元向量,包括:
将所述输入文本进行字级别划分,得到各个输入字,将所述各个输入字向量化,得到各个输入字向量;
并将所述待替换单元进行字级别划分,得到各个待替换字,将所述各个待替换字向量化,得到各个待替换字向量。
在其中一个实施例中,所述基于所述文本向量进行逆向语义提取,得到所述逆向语义向量,从所述逆向语义向量中确定在所述待替换单元起始位置对应的语义向量,得到第一逆向语义向量,包括:
获取预设终止隐向量,并按照从终止到起始的顺序从文本向量中确定当前字逆向向量;
基于所述预设终止隐向量和当前字逆向向量进行逆向隐状态计算,得到所述当前字逆向向量对应的当前字逆向语义向量;
将所述当前字逆向语义向量作为预设终止隐向量,并返回按照从终止到起始的顺序依次从文本向量中确定当前字逆向向量的步骤迭代计算,直到得到所述文本向量中各个字向量对应的逆向语义向量;
从所述各个字向量中确定所述待替换单元起始位置对应的目标字逆向向量,将所述目标字逆向向量对应的逆向语义向量作为第一逆向语义向量。
一种文本处理装置,所述装置包括:
文本获取模块,用于获取输入文本和对应的替换信息,替换信息包括待替换单元和替换位置;
向量化模块,用于将输入文本向量化,得到文本向量,并将待替换单元向量化,得到待替换单元向量;
语义向量确定模块,用于基于文本向量进行正向语义提取和逆向语义提取,得到正向语义向量和逆向语义向量,基于替换位置从正向语义向量和逆向语义向量中确定目标正向语义向量和目标逆向语义向量;
计算模块,用于基于目标正向语义向量和目标逆向语义向量进行上下文语义计算,得到替换位置的上下文语义向量;
替换预测模块,用于基于替换位置的上下文语义向量和待替换单元向量进行替换预测,得到可替换度,可替换度用于表征输入文本中替换位置对应的文本单元被待替换单元进行替换的可能性。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取输入文本和对应的替换信息,替换信息包括待替换单元和替换位置;
将输入文本向量化,得到文本向量,并将待替换单元向量化,得到待替换单元向量;
基于文本向量进行正向语义提取和逆向语义提取,得到正向语义向量和逆向语义向量,基于替换位置从正向语义向量和逆向语义向量中确定目标正向语义向量和目标逆向语义向量;
基于目标正向语义向量和目标逆向语义向量进行上下文语义计算,得到替换位置的上下文语义向量;
基于替换位置的上下文语义向量和待替换单元向量进行替换预测,得到可替换度,可替换度用于表征输入文本中替换位置对应的文本单元被待替换单元进行替换的可能性。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取输入文本和对应的替换信息,替换信息包括待替换单元和替换位置;
将输入文本向量化,得到文本向量,并将待替换单元向量化,得到待替换单元向量;
基于文本向量进行正向语义提取和逆向语义提取,得到正向语义向量和逆向语义向量,基于替换位置从正向语义向量和逆向语义向量中确定目标正向语义向量和目标逆向语义向量;
基于目标正向语义向量和目标逆向语义向量进行上下文语义计算,得到替换位置的上下文语义向量;
基于替换位置的上下文语义向量和待替换单元向量进行替换预测,得到可替换度,可替换度用于表征输入文本中替换位置对应的文本单元被待替换单元进行替换的可能性。
上述文本处理方法、装置、计算机设备和存储介质,通过获取输入文本和对应的替换信息,然后对输入文本进行正向语义提取和逆向语义提取,得到正向语义向量和逆向语义向量,基于替换位置从正向语义向量和逆向语义向量中确定目标正向语义向量和目标逆向语义向量,然后计算得到替换位置上下文语义向量,最后使用基于替换位置上下文语义向量和待替换单元向量进行替换预测,得到可替换度,可替换度用于表征输入文本中替换位置对应的文本单元被待替换单元进行替换的可能性。即通过提取到替换位置上下文语义向量,然后使用替换位置上下文语义向量和待替换单元向量进行替换预测,从而提高了可替换度的准确性,然后通过可替换度进行文本替换,能够提高文本替换的准确性。
一种文本处理模型训练方法,所述方法包括:
获取训练样本,训练样本中包括训练文本、训练信息和训练权重,训练信息中包括训练单元和训练替换位置;
将训练样本输入到初始文本处理模型中,初始文本处理模型将输入文本进行初始向量化,得到初始文本向量,并将训练单元进行初始向量化,得到初始训练单元向量,基于初始文本向量进行正向语义提取和逆向语义提取,得到初始正向语义向量和初始逆向语义向量,基于训练替换位置从初始正向语义向量和初始逆向语义向量中确定目标初始正向语义向量和目标初始逆向语义向量,基于目标初始正向语义向量和目标初始逆向语义向量进行初始上下文语义计算,得到训练替换位置的初始上下文语义向量,基于训练替换位置的初始上下文语义向量和初始训练单元向量进行初始替换预测,得到初始可替换度;
基于初始可替换度和训练权重计算得到初始目标可替换度,当初始目标可替换度最大化时,得到文本处理模型。
在其中一个实施例中,在所述基于所述初始可替换度和所述训练权重计算得到初始目标可替换度之后,还包括:
当所述初始目标可替换度未最大化时,基于所述初始目标可替换度更新所述初始文本处理模型,得到更新文本处理模型,将所述更新文本处理模型作为初始文本处理模型,并返回将所述训练样本输入到初始文本处理模型中的步骤迭代执行,直到所述初始目标可替换度最大化。
在其中一个实施例中,所述训练样本包括训练替换样本和未替换样本,所述训练替换样本包括训练文本、训练替换信息和替换权重,所述训练替换信息中包括训练待替换单元和训练替换位置,所述未替换样本中包括所述输入文本、未替换信息和未替换权重,所述未替换信息中包括未替换单元和所述训练替换位置;
所述将所述训练样本输入到初始文本处理模型中,包括
将所述训练替换样本和未替换样本输入到初始文本处理模型中,得到输出的所述训练替换样本对应的第一初始可替换度和所述未替换样本对应的第二初始可替换度;
所述基于所述初始可替换度和所述训练权重计算得到初始目标可替换度,当所述初始目标可替换度最大化时,得到文本处理模型,包括:
基于所述第一初始可替换度和所述替换权重计算得到第一初始目标可替换度,并基于所述第二初始可替换度和所述未替换权重计算得到第二初始目标可替换度,基于所述第一初始目标可替换度和所述第二初始目标可替换度得到特定初始目标可替换度,当所述特定初始目标可替换度最大化时,得到文本处理模型。
一种文本处理模型训练装置,所述装置包括:
样本获取模块,用于获取训练样本,训练样本中包括训练文本、训练信息和训练权重,训练信息中包括训练单元和训练替换位置;
初始模型计算模块,用于将训练样本输入到初始文本处理模型中,初始文本处理模型将输入文本进行初始向量化,得到初始文本向量,并将训练单元进行初始向量化,得到初始训练单元向量,基于初始文本向量进行正向语义提取和逆向语义提取,得到初始正向语义向量和初始逆向语义向量,基于训练替换位置从初始正向语义向量和初始逆向语义向量中确定目标初始正向语义向量和目标初始逆向语义向量,基于目标初始正向语义向量和目标初始逆向语义向量进行初始上下文语义计算,得到训练替换位置的初始上下文语义向量,基于训练替换位置的初始上下文语义向量和初始训练单元向量进行初始替换预测,得到初始可替换度;
迭代模块,用于基于初始可替换度和训练权重计算得到初始目标可替换度,当初始目标可替换度最大化时,得到文本处理模型。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取训练样本,训练样本中包括训练文本、训练信息和训练权重,训练信息中包括训练单元和训练替换位置;
将训练样本输入到初始文本处理模型中,初始文本处理模型将输入文本进行初始向量化,得到初始文本向量,并将训练单元进行初始向量化,得到初始训练单元向量,基于初始文本向量进行正向语义提取和逆向语义提取,得到初始正向语义向量和初始逆向语义向量,基于训练替换位置从初始正向语义向量和初始逆向语义向量中确定目标初始正向语义向量和目标初始逆向语义向量,基于目标初始正向语义向量和目标初始逆向语义向量进行初始上下文语义计算,得到训练替换位置的初始上下文语义向量,基于训练替换位置的初始上下文语义向量和初始训练单元向量进行初始替换预测,得到初始可替换度;
基于初始可替换度和训练权重计算得到初始目标可替换度,当初始目标可替换度最大化时,得到文本处理模型。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取训练样本,训练样本中包括训练文本、训练信息和训练权重,训练信息中包括训练单元和训练替换位置;
将训练样本输入到初始文本处理模型中,初始文本处理模型将输入文本进行初始向量化,得到初始文本向量,并将训练单元进行初始向量化,得到初始训练单元向量,基于初始文本向量进行正向语义提取和逆向语义提取,得到初始正向语义向量和初始逆向语义向量,基于训练替换位置从初始正向语义向量和初始逆向语义向量中确定目标初始正向语义向量和目标初始逆向语义向量,基于目标初始正向语义向量和目标初始逆向语义向量进行初始上下文语义计算,得到训练替换位置的初始上下文语义向量,基于训练替换位置的初始上下文语义向量和初始训练单元向量进行初始替换预测,得到初始可替换度;
基于初始可替换度和训练权重计算得到初始目标可替换度,当初始目标可替换度最大化时,得到文本处理模型。
上述文本处理模型训练方法、装置、计算机设备和存储介质,通过获取训练样本,将训练样本输入到初始文本处理模型中,然后初始文本处理模型将输入文本进行语义提取,得到初始正向语义向量和初始逆向语义向量,基于替换位置使用初始正向语义向量和初始逆向语义向量计算得到替换位置初始上下文语义向量,最后使用替换位置初始上下文语义向量和初始训练单元向量进行替换预测,得到初始可替换度,基于初始可替换度和训练权重计算得到初始目标可替换度,当初始目标可替换度最大化时,得到文本处理模型,由于使用了替换位置上下文语义向量进行替换预测,从而提高了替换预测的准确,然后当初始目标可替换度最大化时,得到文本处理模型,从而提高了训练得到的文本处理模型的准确性。
一种搜索方法,所述方法包括:
接收搜索指令,搜索指令中携带有搜索文本;
根据搜索指令将搜索文本发送服务器,服务器接收搜索文本,基于搜索文本查找对应的替换信息,替换信息包括待替换单元和替换位置,将搜索文本向量化,得到搜索文本向量,并将待替换单元向量化,得到待替换单元向量;基于搜索文本向量进行正向语义提取和逆向语义提取,得到正向语义向量和逆向语义向量,基于替换位置从正向语义向量和逆向语义向量中确定目标正向语义向量和目标逆向语义向量;基于目标正向语义向量和目标逆向语义向量进行上下文语义计算,得到替换位置的上下文语义向量;基于替换位置的上下文语义向量和待替换单元向量进行替换预测,得到可替换度,基于可替换度使用待替换单元对搜索文本中替换位置对应的文本单元进行替换,得到替换文本,基于替换文本和搜索文本查找对应的搜索结果;
接收服务器返回的搜索结果,将搜索结果进行展示。
一种搜索装置,所述装置包括:
指令接收模块,用于接收搜索指令,搜索指令中携带有搜索文本;
搜索模块,用于根据搜索指令将搜索文本发送服务器,服务器接收搜索文本,基于搜索文本查找对应的替换信息,替换信息包括待替换单元和替换位置,将搜索文本向量化,得到搜索文本向量,并将待替换单元向量化,得到待替换单元向量;基于搜索文本向量进行正向语义提取和逆向语义提取,得到正向语义向量和逆向语义向量,基于替换位置从正向语义向量和逆向语义向量中确定目标正向语义向量和目标逆向语义向量;基于目标正向语义向量和目标逆向语义向量进行上下文语义计算,得到训练替换位置的上下文语义向量;基于训练替换位置的上下文语义向量和待替换单元向量进行替换预测,得到可替换度,基于可替换度使用待替换单元对搜索文本中替换位置对应的文本单元进行替换,得到替换文本,基于替换文本和搜索文本查找对应的搜索结果;
展示模块,用于接收服务器返回的搜索结果,将搜索结果进行展示。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
接收搜索指令,搜索指令中携带有搜索文本;
根据搜索指令将搜索文本发送服务器,服务器接收搜索文本,基于搜索文本查找对应的替换信息,替换信息包括待替换单元和替换位置,将搜索文本向量化,得到搜索文本向量,并将待替换单元向量化,得到待替换单元向量;基于搜索文本向量进行正向语义提取和逆向语义提取,得到正向语义向量和逆向语义向量,基于替换位置从正向语义向量和逆向语义向量中确定目标正向语义向量和目标逆向语义向量;基于目标正向语义向量和目标逆向语义向量进行上下文语义计算,得到训练替换位置的上下文语义向量;基于训练替换位置的上下文语义向量和待替换单元向量进行替换预测,得到可替换度,基于可替换度使用待替换单元对搜索文本中替换位置对应的文本单元进行替换,得到替换文本,基于替换文本和搜索文本查找对应的搜索结果;
接收服务器返回的搜索结果,将搜索结果进行展示。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
接收搜索指令,搜索指令中携带有搜索文本;
根据搜索指令将搜索文本发送服务器,服务器接收搜索文本,基于搜索文本查找对应的替换信息,替换信息包括待替换单元和替换位置,将搜索文本向量化,得到搜索文本向量,并将待替换单元向量化,得到待替换单元向量;基于搜索文本向量进行正向语义提取和逆向语义提取,得到正向语义向量和逆向语义向量,基于替换位置从正向语义向量和逆向语义向量中确定目标正向语义向量和目标逆向语义向量;基于目标正向语义向量和目标逆向语义向量进行上下文语义计算,得到训练替换位置的上下文语义向量;基于训练替换位置的上下文语义向量和待替换单元向量进行替换预测,得到可替换度,基于可替换度使用待替换单元对搜索文本中替换位置对应的文本单元进行替换,得到替换文本,基于替换文本和搜索文本查找对应的搜索结果;
接收服务器返回的搜索结果,将搜索结果进行展示。
上述搜索方法、装置、计算机设备和存储介质,通过将搜索文本发送到服务器,服务器基于搜索文本查找对应的替换信息,并使用替换位置上下文语义向量和待替换单元向量进行替换预测,得到可替换度,基于可替换度使用待替换单元对搜索文本中替换位置对应的文本单元进行替换,得到替换文本,基于替换文本和搜索文本查找对应的搜索结果,由于使用了替换文本和搜索文本来共同查找对应的搜索结果,从而能够提高了得到的搜索结果的准确性,然后接收搜索结果并展示,方便用户的使用。
附图说明
图1为一个实施例中文本处理方法的应用环境图;
图2为一个实施例中文本处理方法的流程示意图;
图3为一个实施例中模型预测的流程示意图;
图4为一个实施例中网络预测的流程示意图;
图5为一个实施例中得到替换位置上下文语义向量的流程示意图;
图6为一个实施例中得到第一正向语义向量的流程示意图;
图7为一个实施例中得到第一逆向语义向量的流程示意图;
图8为一个实施例中得到可替换度的流程示意图;
图9为一个实施例中文本处理模型训练方法的流程示意图;
图10为一个实施例中获取训练样本的流程示意图;
图11为一个实施例中搜索方法的流程示意图;
图12为一个具体实施例中文本处理方法的流程示意图;
图13为一个具体实施例中搜索页面的示意图;
图14为一个具体实施例中模型预测的示意图;
图15为一个实施例中文本处理装置的结构框图;
图16为一个实施例中文本处理模型训练装置的结构框图;
图17为一个实施例中搜索装置的结构框图;
图18为一个实施例中计算机设备的内部结构图;
图19为另一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
自然语言处理(Nature Language processing, NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
本申请实施例提供的方案涉及人工智能的文本处理等技术,具体通过如下实施例进行说明:
本申请提供的文本处理方法,可以应用于如图1所示的应用环境中。其中,用户终端102通过网络与服务器104进行通信。服务器104获取到终端102发送的输入文本,服务器104从数据库106中获取输入文本对应的替换信息,替换信息包括待替换单元和替换位置;服务器104将输入文本向量化,得到文本向量,并将待替换单元向量化,得到待替换单元向量;服务器104基于文本向量进行正向语义提取和逆向语义提取,得到正向语义向量和逆向语义向量,基于替换位置从正向语义向量和逆向语义向量中确定目标正向语义向量和目标逆向语义向量;服务器104基于目标正向语义向量和目标逆向语义向量进行上下文语义计算,得到替换位置的上下文语义向量;服务器104基于替换位置的上下文语义向量和待替换单元向量进行替换预测,得到可替换度,可替换度用于表征输入文本中替换位置对应的文本单元被待替换单元进行替换的可能性。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种文本处理方法,以该方法应用于图1中的服务器为例进行说明,可以理解的是,该文本处理方法也可以应用于终端中,也可以应用在区块链节点中,在本实施例中,包括以下步骤:
步骤202,获取输入文本和对应的替换信息,替换信息包括待替换单元和替换位置。
其中,输入文本是指需要进行文本替换的文本,该输入文本可以是一个句子、一个锻炼或者一个篇章。 该输入文本可以是不同语言类型的文本,比如,可以是中文文本、日语文本、英语文本、德语文本等等。该文本替换可以是替换输入文本中的词、字或者句子等。替换信息用于表征替换的具体信息,包括待替换单元和替换位置,待替换单元是指等待进行替换的文本单元,是需要预测是否能够进行替换的单元,该待替换单元可以是句、词、字、符号、表情等等。该待替换单元可以是同义单元,也可以是使用替换模板得到的单元,还可以是使用正则表达式得到的单元。替换位置用于表示待替换单元在输入文本中进行替换的位置,即输入文本中被替换的单元在输入文本中的位置。输入文本中被替换的单元是指输入文本中待替换单元替换掉的文本单元。
具体地,服务器可以从数据库中获取到输入文本和对应的替换信息。服务器也可以从终端获取到用户输入的输入文本,然后根据输入文本查找到对应的替换信息。比如,服务器可以将输入文本分词,根据分词结果从数据库中查找到匹配的待替换词,该数据库中保存有预先建立好匹配关系的待替换词和替换词,然后根据分词结果匹配的待替换词确定词替换位置。在一个实施例中,服务器可以获取到第三方服务器发送的输入文本和对应的替换信息,该第三方服务器是用于提供业务服务的服务器。
在一个实施例中,待替换单元也可以是待替换句或者待替换字。待替换句是指需要预测是否能替换到输入文本中的句子,待替换字是指需要预测是否能替换到输入文本中的字。然后服务器获取到的替换信息中包括待替换句对应的句替换位置或者待替换字对应的字替换位置。
步骤204,将输入文本向量化,得到文本向量,并将待替换单元向量化,得到待替换单元向量。
其中,文本向量是指输入文本对应的向量,待替换单元向量是指待替换单元对应的向量。
具体地,服务器可以分别将输入文本和待替换单元进行向量化,得到文本向量和待替换单元向量,其中,可以进行字级别的向量化,即分别将输入文本和待替换单元划分为各个字,然后将各个字进行向量化。也可以进行词级别的向量化,即分别将输入文本和待替换单元划分为各个词,然后将各个词向量化。在一个实施例中,当待替换单元为表情符号时,可以获取到预先设置好的表情符号对应的表情符号向量。
步骤206,基于文本向量进行正向语义提取和逆向语义提取,得到正向语义向量和逆向语义向量,基于替换位置从正向语义向量和逆向语义向量中确定目标正向语义向量和目标逆向语义向量。
其中,正向语义提取是指从文本向量中的起始位置开始到终止位置结束依次进行语义提取。逆向语义提取是指从文本向量中的终止位置开始到起始位置结束依次进行语义提取。正向语义向量是指基于文本向量从起始位置到终止位置进行语义提取得到的向量。逆向语义向量是指基于文本向量从终止位置到起始位置依次进行语义提取得到的向量。目标正向语义向量是指根据替换位置从正向语义向量中得到的向量。目标逆向语义向量是指根据替换位置从逆向语义向量中得到的向量。
具体地,服务器对文本向量按照从起始位置到终止位置的顺序进行正向语义提取并按照从终止位置到起始位置的顺序进行逆向语义提取,得到正向语义向量和逆向语义向量,然后根据替换位置从正向语义向量中确定替换位置处上下文对应的语义向量,得到目标正向语义向量,并从逆向语义向量中确定替换位置处上下文对应的语义向量,得到目标逆向语义向量。
步骤208,基于目标正向语义向量和目标逆向语义向量进行上下文语义计算,得到替换位置的上下文语义向量。
其中,替换位置的上下文语义向量是用于表征输入文本中替换位置上下文对应的语义向量。该替换位置上下文是指根据替换位置从输入文本中进行文本筛选得到的文本。比如,待替换单元起始位置之前的文本或者包含替换位置以及词终止位置之前的文本或者待替换单元起始位置之后的文本等等。
具体地,服务器可以对目标正向语义向量和目标逆向语义向量进行加权计算,得到替换位置的上下文语义向量,比如,可以使用预设正向权重对目标正向语义向量进行加权,并使用预设逆向权重对目标逆向语义向量进行加权,然后计算加权和,得到替换位置上下文语义向量。其中预设正向权重和预设逆向权重可以是预先设置好的权重,也可以是使用神经网络进行训练后得到的权重。
步骤210,基于替换位置的上下文语义向量和待替换单元向量进行替换预测,得到可替换度,可替换度用于表征输入文本中替换位置对应的文本单元被待替换单元进行替换的可能性。
其中,可替换度用于表征输入文本中替换位置对应的文本单元被待替换单元进行替换的可能性,即是指使用待替换单元替换输入文本中替换位置对应文本单元的概率。
具体地,服务器使用替换位置上下文语义向量和待替换单元向量计算待替换单元对应的词分布向量,根据词分布向量得到可替换度,其中,词分布向量用于表征待替换单元划分后各个划分结果对应的替换概率,比如,划分结果为字时,词分布向量中包括有各个字对应的替换概率。然后根据各个划分结果对应的替换概率计算得到可替换度。基于该可替换度对输入文本进行替换。在一个实施例中,服务器可以基于可替换度使用待替换单元对输入文本中替换位置对应的文本单元进行替换,得到替换文本,即将可替换度与预设可替换度阈值进行比较,当可替换度超过预设可替换度阈值时,使用待替换单元对输入文本中替换位置对应的词进行替换,得到替换文本,该替换文本是指对输入文本使用待替换单元进行替换后得到的文本。当可替换度未超过预设可替换度阈值时,输入文本保持不变。
上述文本处理方法、装置、计算机设备和存储介质,通过获取输入文本和对应的替换信息,然后对输入文本进行正向语义提取和逆向语义提取,得到正向语义向量和逆向语义向量,基于替换位置从正向语义向量和逆向语义向量中确定目标正向语义向量和目标逆向语义向量,然后计算得到替换位置上下文语义向量,最后使用基于替换位置上下文语义向量和待替换单元向量进行替换预测,得到可替换度。即通过提取到替换位置上下文语义向量,然后使用替换位置的上下文语义向量和待替换单元向量进行替换预测,从而提高了得到的可替换度的准确性,然后通过可替换度进行文本替换时,能够提高文本替换的准确性。
在一个实施例中,如图3所示,文本处理方法还包括:
步骤302,将输入文本和替换信息输入文本处理模型中,文本处理模型将输入文本向量化,得到文本向量,并将待替换单元向量化,得到待替换单元向量,基于文本向量进行正向语义提取和逆向语义提取,得到正向语义向量和逆向语义向量,基于替换位置从正向语义向量和逆向语义向量中确定目标正向语义向量和目标逆向语义向量;基于目标正向语义向量和目标逆向语义向量进行上下文语义计算,得到替换位置的上下文语义向量,基于替换位置的上下文语义向量和待替换单元向量进行替换预测,得到可替换度;文本处理模型是基于神经网络算法使用训练文本和对应的训练替换信息进行训练得到的。
步骤304,基于可替换度使用待替换单元对输入文本中替换位置对应的文本单元进行替换,得到替换文本。
其中,文本处理模型是基于神经网络算法使用训练文本和对应的训练替换信息进行训练得到的,训练文本是指训练时使用的输入文本,训练替换信息是指训练时使用的训练文本对应的替换信息。神经网络算法可以是RNN算法,RNN(Recurrent Neural Network,循环神经网络)算法,RNN是一类以序列(sequence)数据为输入,在序列的演进方向进行递归(recursion)且所有节点(循环单元)按链式连接的递归神经网络。神经网络算法也可以是BERT(Bidirectional Encoder Representation from Transformers,双向Transformer的Encoder)算法、CNN(Convolutional Neural Networks,卷积神经网络)算法等等。替换文本是指对输入文本使用待替换单元进行替换后得到的文本。
具体地,服务器预先基于神经网络算法使用训练文本和对应的训练替换信息进行训练,得到文本处理模型,然后将文本处理模型进行部署使用。当服务器获取到输入文本和对应的替换信息时,将输入文本和替换信息输入文本处理模型中,文本处理模型进行替换预测,得到输出的可替换度,当可替换度超过预设可替换度阈值时,使用待替换单元对输入文本中替换位置对应的文本进行替换,得到替换文本。
在上述实施例中,通过将输入文本和替换信息输入文本处理模型中进行文本替换预测,能够提高文本替换预测的效率。
在一个实施例中,文本处理模型包括编码网络和解码网络。
如图4所示,步骤302,将输入文本和替换信息输入文本处理模型中,包括:
步骤402,将输入文本和替换信息输入到编码网络中,编码网络将输入文本向量化,得到文本向量,并将待替换单元向量化,得到待替换单元向量,基于文本向量进行正向语义提取和逆向语义提取,得到正向语义向量和逆向语义向量,基于替换位置从正向语义向量和逆向语义向量中确定目标正向语义向量和目标逆向语义向量,基于目标正向语义向量和目标逆向语义向量进行上下文语义计算,得到替换位置的上下文语义向量。
步骤404,将替换位置的上下文语义向量和待替换单元向量输入到解码网络中,解码网络基于替换位置的上下文语义向量和待替换单元向量进行替换预测,得到可替换度。
其中,编码网络用于提取到替换位置上下文语义向量,该编码网络可以是双向循环神经网络。即替换位置之前和替换位置之后的文本都会影响替换位置的语义信息。解码网络用于进行替换预测,得到可替换度。该解码网络可以是一个循环神经网络,通过以序列生成的方式使用于替换位置上下文语义向量和待替换单元向量计算待替换单元划分结果对应的替换概率。
具体地,服务器将输入文本和替换信息输入到编码网络中,编码网络通过计算输出替换位置的上下文语义向量,然后将替换位置的上下文语义向量和待替换单元向量输入到解码网络中,解码网络对替换位置的上下文语义向量和待替换单元向量进行替换预测,输出得到的可替换度。
在上述实施例中,通过编码网络提取到替换位置上下文语义向量,然后通过解码网络在预测得到可替换度,从而使得到的可替换度提高了准确性。
在一个实施例中,将输入文本和待替换单元进行向量化,得到文本向量和待替换单元向量,包括:
将输入文本进行字级别划分,得到各个输入字,将各个输入字向量化,得到各个输入字向量;并将待替换单元进行字级别划分,得到各个待替换字,将各个待替换字向量化,得到各个待替换字向量。
其中,输入字是指输入文本中的字,输入字向量是指输入字对应的向量。待替换字是指待替换单元中的字,待替换字向量是指待替换字对应的向量。
具体地,服务器将输入文本进行字级别划分,得到各个输入字,然后将各个输入字向量化,同时将待替换单元进行字级别划分,得到各个待替换字,将各个待替换字向量化,得到各个待替换字向量。其中,可以使用任意的向量化方法,比如,使用词典向量化、使用词集模型进行向量化、使用词袋模型向量化、使用one-hot编码向量化以及使用神经网络向量化等等。
在一个实施例中,将输入文本进行词级别划分,得到各个输入词,将各个输入词向量化,得到各个输入词向量,并将待替换单元进行词级别划分,得到各个待替换单元,将各个待替换单元向量化,得到各个待替换单元向量。
在上述实施例中,通过将输入文本和待替换单元进行字级别划分后进行向量化,从而得到各个输入字向量化和各个待替换字向量,方便后续的使用。
在一个实施例中,替换位置包括待替换单元起始位置和待替换单元长度;
如图5所示,基于文本向量进行正向语义提取和逆向语义提取,得到正向语义向量和逆向语义向量,基于替换位置从正向语义向量和逆向语义向量中确定目标正向语义向量和目标逆向语义向量,包括:
步骤502,基于文本向量进行正向语义提取,得到正向语义向量,从正向语义向量中确定在待替换单元起始位置之前的语义向量,得到第一正向语义向量。
其中,待替换单元起始位置是指待替换单元在输入文本中替换时对应的起始位置。待替换单元长度是指待替换单元的长度,可以根据待替换单元中符号的个数得到,比如,输入文本为“请说明你妈妈生日是什么时间”,待替换单元为“母亲”,则待替换单元起始位置可以是输入文本中第五个字“妈”的位置。待替换单元长度为2。正向语义向量是指按照从起始位置开始到终止位置的结束的顺序依次对文本向量进行语义提取得到的向量。第一正向语义向量是指用于表征输入文本中在待替换单元起始位置之前的文本对应的语义向量,即用于表征从输入文本左侧到替换位置左侧的语义信息。当待替换单元为表情符号时,一个表情符号为1个长度。表情符号的长度可以是预先设置好的。
具体地,正向语义向量是指按照从起始位置开始到终止位置的结束的顺序依次对文本向量中各个划分结果对应向量进行语义提取,得到各个正向语义向量,比如,对文本向量中各个字向量进行语义提取,得到各个字向量对应的正向语义向量。然后从各个正向语义向量中确定在待替换单元起始位置之前的对应的正向语义向量,得到第一正向语义向量。比如,计算得到“妈”的位置之前的字“你”的语义向量,得到第一正向语义向量,该第一正向语义向量用于表征输入文本中“请说明你”的语义信息。
在一个实施例中,对输入文本添加用于表征文本起始的字符和用于表征文本终止的字符,得到目标文本,比如,在输入文本的起始位置和终止位置各添加一个特殊片段<END>得到目标文本。然后服务器将目标文本向量化,得到目标文本向量。使用目标文本向量进行正向语义提取,从而得到第一正向语义向量。
步骤504,基于待替换单元起始位置和待替换单元长度确定目标位置,从正向语义向量中确定目标位置对应的语义向量,得到第二正向语义向量。
其中,目标位置是指计算得到的能够计算第二正向语义向量的位置,即是指待替换单元的在输入文本中的终止位置,比如,输入文本“请说明你妈妈生日是什么时间”中待替换单元“妈妈”对应的终止位置为六。第二正向语义向量用于表征输入文本中目标位置的字向量对应的语义向量,即第二正向语义向量用于表征从输入文本左侧到替换位置右侧的语义信息。
具体地,服务器使用基于待替换单元起始位置和待替换单元长度确定目标位置,然后从各个字向量对应的正向语义向量中确定在目标位置之前的字向量对应的语义向量,得到第二正向语义向量。比如,计算得到第六个字“妈”的正向语义向量,得到第一正向语义向量,该第一正向语义向量用于表征输入文本中“请说明你妈妈”的语义信息。
步骤506,基于文本向量进行逆向语义提取,得到逆向语义向量,从逆向语义向量中确定待替换单元起始位置对应的语义向量,得到第一逆向语义向量。
其中,逆向语义向量是指按照从终止位置开始到起始位置的结束的顺序依次对文本向量进行语义提取得到的向量。第一逆向语义向量是指用于表征输入文本中在待替换单元起始位置之前的文本对应的语义向量,即用于表征从输入文本右侧到替换位置左侧的语义信息。
具体地,服务器按照从终止位置开始到起始位置的结束的顺序依次对文本向量进行语义提取,得到各个逆向语义向量,然后从各个逆向语义向量中确定待替换单元起始位置对应的逆向语义向量,得到第一逆向语义向量。比如,输入文本“请说明你妈妈生日是什么时间”中待替换单元“妈妈”对应的起始位置为五,然后计算第五个字“妈”的逆向语义向量,得到第一逆向语义向量,该第一逆向语义向量用于表征“间时么什是日生妈妈”的语义信息。
步骤508,从逆向语义向量中确定在目标位置之后的语义向量,得到第二逆向语义向量。
其中,第二逆向语义向量是指用于表征在目标位置之后的逆向语义向量,是指从输入文本右侧到替换位置右侧的语义信息。
具体地,服务器从各个逆向语义向量中确定在目标位置之后的语义向量,得到第二逆向语义向量。比如,输入文本“请说明你妈妈生日是什么时间”中待替换单元“妈妈”对应的终止位置为五,然后计算第六个字“妈”之后的“生”字对应的逆向语义向量,得到第一逆向语义向量,该第一逆向语义向量用于表征“间时么什是日生”的语义信息。
基于目标正向语义向量和目标逆向语义向量进行上下文语义计算,得到替换位置的上下文语义向量,包括:
步骤510,基于第一正向语义向量、第二正向语义向量、第一逆向语义向量和第二逆向语义向量计算加权和,得到替换位置的上下文语义向量。
具体地,服务器计算第一正向语义向量、第二正向语义向量、第一逆向语义向量和第二逆向语义向量的加权和,其中,第一正向语义向量、第二正向语义向量、第一逆向语义向量和第二逆向语义向量可以对应有不同的权重,可以是预先设置好的,也可以是通过神经网络训练得到的。然后得到替换位置的上下文语义向量。
在上述实施例中,通过计算第一正向语义向量、第二正向语义向量、第一逆向语义向量和第二逆向语义向量,进而得到替换位置上下文语义向量,能够使计算得到的替换位置上下文语义向量更加准确,从而能够提高得到的可推荐度的准确性。
在一个实施例中,如图6所示,步骤502,即基于文本向量进行正向语义提取,得到正向语义向量,从正向语义向量中确定在词起始位 置之前的语义向量,得到第一正向语义向量,包括:
步骤602,获取预设起始隐向量,并按照从起始到终止的顺序从文本向量中确定当前字向量。
其中,预设起始隐向量是指预先设置好的用于从起始位置到终止位置进行隐状态计算时使用的向量。当前字向量是指按照字级别的划分得到的文本向量中当前需要计算语义向量的字向量。在一个实施例中,可以按照从起始到终止的顺序从文本向量中确定当前词正向向量,当前词向量是指按照词级别的划分得到的文本向量中当前需要计算语义向量的词向量。
具体地,服务券获取到预先设置好的起始隐向量,并按照从起始到终止的顺序从文本向量中确定当前字向量,比如,从文本向量中确定起始字对应的起始字向量。
步骤604,基于预设起始隐向量和当前字向量进行正向隐状态计算,得到当前字向量对应的当前字正向语义向量。
具体地,服务器基于预设起始隐向量和当前字向量使用循环神经网络进行正向隐状态计算,得到前字向量对应的当前字正向语义向量。
步骤606,将当前字正向语义向量作为预设起始隐向量,并返回按照从起始到终止的顺序依次从文本向量中确定当前字向量的步骤迭代计算,直到得到文本向量中各个字向量对应的正向语义向量。
具体地,服务器将当前字正向语义向量作为预设起始隐向量,并返回按照从起始到终止的顺序依次从文本向量中确定当前字向量的步骤迭代计算,直到得到文本向量中各个字向量对应的正向语义向量,即在得到文本向量中终止向量对应的正向语义向量时,迭代结束。
在一个具体实施例中,在双向循环神经网络中,从输入文本的起始位置到终止位置依次进行正向语义提取,可以使用公式(1)提取得到正向语义向量。
Figure 234967DEST_PATH_IMAGE001
公式(1)
其中,
Figure 415412DEST_PATH_IMAGE002
表示第t个字对应的正向语义向量,
Figure 874075DEST_PATH_IMAGE003
表示第t-1个字对应的正向语义向量,
Figure 747353DEST_PATH_IMAGE004
表示第t个字对应的文本向量中的字向量。
Figure 674989DEST_PATH_IMAGE005
是指预设起始隐向量可以设置好初始值,比如0,或者可训练的向量或者其他数值。即服务器使用
Figure 393547DEST_PATH_IMAGE006
和文本向量中起始字向量使用公式(1)计算起始字向量对应的正向语义向量,然后使用起始字向量对应的正向语义向量迭代起始字向量之后的字向量对应的正向语义向量,直到计算得到终止字向量对应的正向语义向量时,迭代结束,在一个具体的实施例中,终止字向量是指特殊片段<END>对应的字向量,计算得到<END>的字向量对应的正向语义向量时,迭代结束。
步骤608,从各个字向量中确定在待替换单元起始位置之前的目标字向量,将目标字向量对应的正向语义向量作为第一正向语义向量。
具体地,目标字向量是指输入文本中待替换单元起始位置之前的字对应的向量。服务器将目标字向量对应的正向语义向量作为第一正向语义向量。比如,待替换单元起始位置为B,待替换单元长度为L,则第一正向语义向量是指第B-1位置对应的正向语义向量。
在一个实施例中,从各个字向量中确定目标位置对应的字向量,将目标位置对应的字向量对应的正向语义向量作为第二正向语义向量。比如,待替换单元起始位置为B,待替换单元长度为L,则第二正向语义向量是指第B-1+L位置对应的正向语义向量。
在上述实施例中,通过使用预设起始隐向量和文本向量迭代计算得到文本向量中每个字向量对应的正向语义向量,然后基于替换信息从每个字向量对应的正向语义向量中确定正向语义向量,提高了得到的正向语义向量的准确性。
在一个实施例中,如图7所示,步骤506,即基于文本向量进行逆向语义提取,得到逆向语义向量,从逆向语义向量中确定待替换单元起始位置对应的语义向量,得到第一逆向语义向量,包括:
步骤702,获取预设终止隐向量,并按照从终止到起始的顺序从文本向量中确定当前字逆向向量。
其中,预设终止隐向量是指预先设置好的用于从终止位置到起始位置进行隐状态计算时使用的向量,该预设终止隐向量可以和预设起始隐向量相同,也可以不同。当前字逆向向量是指在逆向计算时从文本向量中确定的当前字对应的向量。当前字逆向向量是当前需要计算逆向语义信息的向量。逆向是指从终止位置到起始位置,正向是指从起始位置到终止位置。
具体地,服务器获取到设终止隐向量,并按照从终止到起始的顺序从文本向量中确定当前字逆向向量,比如,将文本向量中终止字对应的终止字向量作为当前字逆向向量。
步骤704,基于预设终止隐向量和当前字逆向向量进行逆向隐状态计算,得到当前字逆向向量对应的当前字逆向语义向量。
步骤706,将当前字逆向语义向量作为预设终止隐向量,并返回按照从终止到起始的顺序依次从文本向量中确定当前字逆向向量的步骤迭代计算,直到得到文本向量中各个字向量对应的逆向语义向量。
具体地,服务器使用如下所示的公式(2)进行逆向隐状态计算,得到当前字逆向向量对应的当前字逆向语义向量。
Figure 972295DEST_PATH_IMAGE007
公式(2)
其中,
Figure 750896DEST_PATH_IMAGE008
表示第t个字对应的逆向语义向量,
Figure 162898DEST_PATH_IMAGE009
表示第t-1个字对应的逆向语义向量,
Figure 685146DEST_PATH_IMAGE010
表示第t个字对应的文本向量中的字向量。
Figure 118401DEST_PATH_IMAGE011
是指预设终止隐向量可以设置好初始值,比如0,或者可训练的向量或者其他数值。即服务器使用
Figure 67903DEST_PATH_IMAGE012
和文本向量中终止字向量使用公式(2)计算终止字向量对应的逆向语义向量,然后使用终止字向量对应的逆向语义向量迭代计算终止字向量之前的字向量对应的逆向语义向量,直到计算得到起始字向量对应的逆向语义向量时,迭代结束,在一个具体的实施例中,起始字向量是指特殊片段<END>对应的字向量,计算得到<END>的字向量对应的逆向语义向量时,迭代结束。
步骤708,从各个字向量中确定待替换单元起始位置对应的目标字逆向向量,将目标字逆向向量对应的逆向语义向量作为第一逆向语义向量。
具体地,目标字逆向向量是指输入文本中待替换单元起始位置对应的字的向量,服务器将目标字逆向向量对应的逆向语义向量作为第一逆向语义向量。比如,待替换单元起始位置为B,待替换单元长度为L,则第一逆向语义向量是指第B位置对应的正向语义向量。
在一个实施例中,从各个字向量中确定在目标位置之后的字向量,将在目标位置之后的字向量对应的逆向语义向量作为第二逆向语义向量。比如,待替换单元起始位置为B,待替换单元长度为L,则第二逆向语义向量是指第B+L位置对应的正向语义向量。
在上述实施例中,通过使用预设终止隐向量和文本向量迭代计算得到文本向量中每个字向量对应的逆向语义向量,然后基于替换信息从每个字向量对应的逆向语义向量中确定逆向语义向量,提高了得到的逆向语义向量的准确性。
在一个具体的实施例中,可以使用如下所示的公式(3)计算得到替换位置上下文语义向量。
Figure 704552DEST_PATH_IMAGE013
公式(3)
其中,C是指替换位置上下文语义向量,
Figure 30491DEST_PATH_IMAGE014
是指第一正向语义向量,
Figure 318253DEST_PATH_IMAGE015
是第一正向语义向量的权重,
Figure 438655DEST_PATH_IMAGE016
是指第二正向语义向量,
Figure 828180DEST_PATH_IMAGE017
是指第二正向语义向量的权重。
Figure 692230DEST_PATH_IMAGE018
是指第一逆向语义向量,
Figure 37761DEST_PATH_IMAGE019
是指第一逆向语义向量的权值,
Figure 470011DEST_PATH_IMAGE020
是指第二逆向语义向量,
Figure 205885DEST_PATH_IMAGE021
是指第二逆向语义向量的权值。其中,
Figure 998261DEST_PATH_IMAGE015
Figure 870402DEST_PATH_IMAGE017
Figure 470623DEST_PATH_IMAGE019
Figure 693794DEST_PATH_IMAGE021
可以是指定的值,也可以是使用循环神经网络训练得到的。通过使用上述公式计算得到替换位置上下文语义向量,提高了得到替换位置上下文语义向量的效率和准确性。
在一个实施例中,基于替换位置上下文语义向量和待替换单元向量进行替换预测,得到可替换度,包括:
基于替换位置上下文语义向量和待替换单元向量进行隐状态计算,得到待替换隐向量,基于待替换隐向量进行回归计算,得到可替换度。
其中,待替换隐向量是指待替换单元向量对应的隐状态向量,待替换单元向量中每个字向量都有对应的待替换隐向量。
具体地,服务器使用替换位置上下文语义向量和待替换单元向量进行隐状态计算,比如,可以使用循环神经网络进行隐状态计算,得到待替换隐向量,然后使用于待替换隐向量进行回归计算,得到可替换度。
在一个实施例中,如图8所示,基于替换位置上下文语义向量和待替换单元向量进行隐状态计算,得到待替换隐向量,基于待替换隐向量进行回归计算,得到可替换度,包括:
步骤802,获取预设目标隐向量,按照从起始到终止的顺序从待替换单元向量中确定当前待替换字向量。
其中,预设目标隐向量是指预先设置好的用于计算待替换隐向量时使用的起始隐向量。当前待替换字向量是指待替换单元中当前需要进行待替换隐向量计算的待替换字对应的向量。
具体地,服务器获取到取预设目标隐向量,然后按照从起始到终止的顺序从待替换单元向量中确定起始待替换字对应的起始待替换字向量,将起始待替换字向量作为当前待替换字向量。
步骤804,基于预设目标隐向量、替换位置上下文语义向量和当前待替换字向量计算当前待替换字向量对应的当前待替换字隐向量。
具体地,服务器计算得到每个待替换字对应的待替换字隐向量,比如,可以使用如下所述的公式(4)计算待替换字隐向量。
Figure 24281DEST_PATH_IMAGE022
公式(4)
其中,
Figure 16508DEST_PATH_IMAGE023
表示第t个待替换字对应的待替换字隐向量。
Figure 790560DEST_PATH_IMAGE024
表示第t-1个待替换字隐向量。
Figure 235448DEST_PATH_IMAGE025
是指预设目标隐向量。
Figure 369626DEST_PATH_IMAGE026
表示第t个待替换字对应的待替换字向量。C表示替换位置上下文语义向量。基于预设目标隐向量、替换位置上下文语义向量和当前待替换字向量使用循环神经网络进行隐状态计算,得到当前待替换字向量对应的当前待替换字隐向量。
步骤806,基于当前待替换字隐向量进行回归计算,得到当前待替换字向量对应的当前待替换字替换概率。
具体地,服务器使用每个待替换字对应的待替换字隐向量进行回归计算,得到每个待替换字向量对应的待替换字替换概率。比如,可以使用如下所示的公式(5)计算得到待替换单元对应的词分布向量,从而得到每个待替换字替换概率。
Figure 747518DEST_PATH_IMAGE027
公式(5)
其中,
Figure 426892DEST_PATH_IMAGE028
表示在C的条件下第t个待替换字对应的替换概率,
Figure 624655DEST_PATH_IMAGE029
表示第t个待替换字对应的分布向量。
Figure 500207DEST_PATH_IMAGE030
表示第t个待替换字对应的待替换字隐向量,U是网络参数,是通过训练得到的,
Figure 342392DEST_PATH_IMAGE031
,其中,R是实数,V是指待替换单元中字的总数量。Softmax函数是指归一化指数函数,能将一个含任意实数的K维向量z“压缩”到另一个K维实向量σ(z)中,使得每一个元素的范围都在(0,1)之间,并且所有元素的和为1。
步骤808,将当前待替换字隐向量作为预设目标隐向量,并返回按照从起始到终止的顺序从待替换单元向量中确定当前待替换字向量的步骤迭代执行,直到得到各个待替换字向量对应的待替换字替换概率。
具体地,服务器将当前待替换字隐向量作为预设目标隐向量,并返回步骤802按照从起始到终止的顺序从待替换单元向量中确定当前待替换字向量的步骤迭代执行,直到得到每个待替换字向量对应的待替换字替换概率。
步骤810,基于各个待替换字向量对应的待替换字替换概率进行累乘计算,得到可替换度。
具体地,服务器将于各个待替换字向量对应的待替换字替换概率进行累乘计算,得到可替换度。比如,可以使用如下所示的公式(6)计算可替换度。
Figure 317302DEST_PATH_IMAGE032
公式(6)
其中,
Figure 126995DEST_PATH_IMAGE033
是在输入文本q的条件下替换位置包括待替换单元起始位置B和待替换单元长度L对应的词替换为待替换单元y的概率。在一个实施例中,服务器也可以计算各个待替换字替换概率的加权和,得到可替换度。
在上述实施例中,通过计算替换位置上下文语义向量和待替换字向量计算得到每个待替换字对应的替换概率,进而计算得到可替换度,从而使得到的可替换度更加的准确。
在一个实施例中,如图9所示,提供了一种文本处理模型训练方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
步骤902,获取训练样本,训练样本中包括训练文本、训练信息和训练权重,训练信息中包括训练单元和训练替换位置。
其中,训练样本是指训练文本处理模型时使用的样本。训练文本是指训练时使用的输入文本。训练信息是指训练时训练文本对应的替换信息。信号权重是指训练文本对应的权重,该训练权重用于表征训练文本的展现次数,该展现次数是统计得到的。训练单元是指训练时使用的文本单元。训练替换位置是指训练时使用的文本单元对应的替换位置。
具体地,服务器可以直接从数据库中获取到训练样本,也可以从互联网中采集语料,通过语料提取到训练样本,还可以直接从提供训练样本的服务方获取到训练样本。
步骤904,将训练样本输入到初始文本处理模型中,初始文本处理模型将输入文本进行初始向量化,得到初始文本向量,并将训练单元进行初始向量化,得到初始训练单元向量,基于初始文本向量进行正向语义提取和逆向语义提取,得到初始正向语义向量和初始逆向语义向量,基于训练替换位置从初始正向语义向量和初始逆向语义向量中确定目标初始正向语义向量和目标初始逆向语义向量,基于目标初始正向语义向量和目标初始逆向语义向量进行初始上下文语义计算,得到训练替换位置的初始上下文语义向量,基于训练替换位置的初始上下文语义向量和初始训练单元向量进行初始替换预测,得到初始可替换度。
其中,初始文本处理模型是指模型参数初始化的文本处理模型。初始文本处理模型是使用循环神经网络建立的。初始文本向量是指使用初始文本处理模型进行向量化后得到的训练文本对应的向量。初始训练单元向量是指使用初始文本处理模型进行向量化后得到的训练单元对应的向量。初始正向语义向量和初始逆向语义向量是使用初始文本处理模型中的初始语义提取参数进行语义提取得到的向量。训练替换位置的初始上下文语义向量是指使用初始文本处理模型计算得到的训练替换位置的上下文语义向量。初始可替换度是指使用初始文本处理模型预测得到的训练单元对应的可替换度。
具体地,服务器将训练样本输入到初始文本处理模型中进行训练,初始文本处理模型通过双向循环神经网络计算得到训练替换位置的上下文语义向量,然后根据训练替换位置的上下文语义向量和初始训练单元向量使用单向循环神经网络进行替换预测,输出初始可替换度。
步骤906,基于初始可替换度和训练权重计算得到初始目标可替换度。
其中,初始目标可替换度是指使用初始可替换度计算得到的目标可替换度。
具体地,服务器使用训练权重对初始可替换度进行加权计算,得到初始目标可替换度。
步骤908,判断初始目标可替换度是否最大化,当初始目标可替换度最大化时执行步骤910a,当初始目标可替换度未最大化时,执行步骤910b并返回步骤904执行。
步骤910a,得到文本处理模型。
步骤910b,当初始目标可替换度未最大化时,基于初始目标可替换度更新初始文本处理模型,得到更新文本处理模型,将更新文本处理模型作为初始文本处理模型,并返回将训练样本输入到初始文本处理模型中的步骤携带执行,直到初始目标可替换度最大化。
其中,判断初始目标可替换度是否最大化是指判断初始目标可替换度对应的总似然误差是否最大化。
具体地,服务器可以使用如下所示的公式(7)来判断初始目标可替换度是否最大化。
Figure 478342DEST_PATH_IMAGE034
公式(7)
其中,W表示训练权重。
Figure 172104DEST_PATH_IMAGE035
表示初始目标可替换度。当初始目标可替换度未最大化时,基于初始目标可替换度更新初始文本处理模型,其中,可以使用梯度下降法反向更新初始文本处理模型,得到更新文本处理模型,也可以使用其他优化算法更新初始文本处理模型,比如,AdaGrad(自适应学习率)算法、Adam(Adaptive momentestimation,自适应矩估计)算法等等。将更新文本处理模型作为初始文本处理模型,并返回将训练样本输入到初始文本处理模型中的步骤携带执行,直到初始目标可替换度最大化时,将初始目标可替换度最大化时的模型作为训练得到的文本处理模型。
上述文本处理模型训练方法,通过获取训练样本,将训练样本输入到初始文本处理模型中,然后初始文本处理模型将输入文本进行语义提取,得到初始正向语义向量和初始逆向语义向量,基于替换位置使用初始正向语义向量和初始逆向语义向量计算得到训练替换位置的初始上下文语义向量,最后使用训练替换位置的初始上下文语义向量和初始训练单元向量进行替换预测,得到初始可替换度,基于初始可替换度和训练权重计算得到初始目标可替换度,当初始目标可替换度最大化时,得到文本处理模型,由于使用了替换位置上下文语义向量进行替换预测,从而提高了替换预测的准确,然后当初始目标可替换度最大化时,得到文本处理模型,从而提高了训练得到的文本处理模型的准确性。
在一个实施例中,训练样本包括训练替换样本和未替换样本,训练替换样本包括训练文本、训练替换信息和替换权重,训练替换信息中包括训练待替换单元和训练替换位置,未替换样本中包括训练文本、未替换信息和未替换权重,未替换信息中包括未替换单元和训练替换位置;
步骤S904,将训练样本输入到初始文本处理模型中,包括
将训练替换样本和未替换样本输入到初始文本处理模型中,得到输出的训练替换样本对应的第一初始可替换度和未替换样本对应的第二初始可替换度。
其中,训练文本是指训练时使用的输入文本。替换权重用于表征将训练文本在有待替换单元的情况下进行替换的权重,即是指训练替换文本对应的权重。未替换信息用于指示训练文本待替换单元对应的词替换为自身,即保持不变。未替换权重用于表征训练文本在有待替换单元的情况下保持不变的权重,即是指训练文本对应的权重。未替换单元是指训练文本中替换位置的文本单元。
具体地,服务器将训练替换样本和未替换样本输入到初始文本处理模型中,初始文本处理模型将训练文本、待替换单元和未替换单元进行初始向量化,得到初始文本向量、初始待替换单元向量和初始未替换单元向量,基于初始文本向量进行正向语义提取和逆向语义提取,得到初始正向语义向量和初始逆向语义向量,基于训练替换位置从初始正向语义向量和初始逆向语义向量中确定目标初始正向语义向量和目标初始逆向语义向量,基于目标初始正向语义向量和目标初始逆向语义向量进行初始上下文语义计算,得到训练替换位置的初始上下文语义向量,基于训练替换位置的初始上下文语义向量和初始待替换单元向量进行初始替换预测,得到训练替换样本对应的第一初始可替换度,并基于训练替换位置的初始上下文语义向量和初始未替换词向量进行初始替换预测,得到未替换样本对应的第二初始可替换度。
步骤906,基于初始可替换度和训练权重计算得到初始目标可替换度,当初始目标可替换度最大化时,得到文本处理模型,包括:
基于第一初始可替换度和替换权重计算得到第一初始目标可替换度,并基于第二初始可替换度和未替换权重计算得到第二初始目标可替换度,基于第一初始目标可替换度和第二初始目标可替换度得到特定初始目标可替换度,当特定初始目标可替换度最大化时,得到文本处理模型。
其中,第一初始目标可替换度是指对第一初始可替换度使用替换权重进行加权计算后得到的可替换度。第二初始目标可替换度是指对第二初始可替换度使用未替换权重进行加权计算后得到的可替换度。
具体地,服务器计算第一初始可替换度和替换权重的乘积得到第一初始目标可替换度。并计算第二初始可替换度和未替换权重的乘积得到第二初始目标可替换度,然后将第一初始目标可替换度和第二初始目标可替换度相加,得到特定初始目标可替换度,当特定初始目标可替换度最大化时,得到文本处理模型。在一个实施例中,当计算得到的第一初始目标可替换度和第二初始目标可替换度都最大化时,得到文本处理模型。
在上述实施例中,通过使用替换样本和未替换样本训练文本处理模型,从而能够使训练得到的文本处理模型提高的替换预测的准确性。
在一个实施例中,如图10所示,步骤902,获取训练样本,包括:
步骤1002,获取训练语料,将训练语料进行句级别划分,得到训练句。
其中,训练语料是指采集到能够提取训练样本的语料。比如,可以是长文本、搜索日志、微博日志、查询日志等等。训练句是指提取训练样本时使用的句子文本。
具体地,服务器从互联网采集到训练语料,然后将训练语料进行拆分,比如,将训练语料进行句级别划分,得到各个训练句。
步骤1004,基于训练句按照预设替换关系确定替换训练匹配对,替换训练匹配对包括训练输入句和对应的训练替换句。
其中,替换训练匹配对用于表征能够进行替换的一对文本,包括训练输入句和对应的训练替换句。训练输入句是指训练句本身,是指在训练时使用的输入文本。训练替换句是指将训练句中的词替换为待替换单元后得到的替换文本。预设替换关系是指预先设置好的替换关系,包括同义词替换,模板替换、正则表达式替换等等。
具体地,服务器对每个训练句提取全部可能的替换方式,得到各个替换训练匹配对。比如,训练输入句为q,训练替换句为q’,替换方式为(q,x,y,B,L)。其中,x是指训练输入句中的词,y是指替换训练输入句x的词。B表示x在训练输入句中的起始位置,L表示训练输入句中的词x的长度。比如,对于字符串q=“XX总统的老婆”,假使允许“老婆”替换为“夫人”,则q对应的替换信息为S= {(x=老婆,y=夫人,B=6,L=2)}。
步骤1006,统计训练输入句在训练语料中的输入句出现次数,基于输入句出现次数计算保持权重。
具体地,服务器统计出训练输入句在训练语料中的输入句出现次数,然后使用输入句出现次数计算保持权重。其中,可以使用如下所示的公式(8)计算保持权重。
Figure 849073DEST_PATH_IMAGE036
公式(8)
其中,V表示输入句出现次数,
Figure 880482DEST_PATH_IMAGE037
是指保存权重。
步骤1008,统计训练替换句在训练语料中的替换句出现次数,基于替换句出现次数计算替换权重。
具体地,服务器统计训练替换句在训练语料中的替换句出现次数,使用替换句出现次数计算替换权重,其中,可以使用如下所述的公式(9)计算替换权重。
Figure 769941DEST_PATH_IMAGE038
公式(9)
其中,
Figure 789981DEST_PATH_IMAGE039
是指替换权重,
Figure 496906DEST_PATH_IMAGE040
是指替换句出现次数。
Figure 890978DEST_PATH_IMAGE041
,表示衰减系数,是预先设置好的。
步骤1010,基于训练输入句和保持权重得到保持样本,基于训练替换句和替换权重得到训练替换样本。
具体地,服务器使用训练输入句、保持信息和保持权重得到保持样本,使用训练替换句,替换信息和替换权重得到替换样本。比如,得到的保持样本可以是
Figure 459494DEST_PATH_IMAGE042
,替换样本可以是
Figure 255411DEST_PATH_IMAGE043
,其中,q是指训练输入句,x是指q中的词,y是指替换q的词。B是指待替换单元起始位置,L是指待替换单元长度。其中,当替换句出现次数多于输入句出现次数时,输入句就倾向于替换成替换句。并且,由于衰减系数对替换权重进行限制,只有当替换句出现次数多于输入句出现次数时,输入句变化为q的概率才可能高于不替换的概率,从而能够使训练模型时减少低频噪音数据的干扰,避免长尾替换概率虚高。在一个具体的实施例中,计算得到“健康码”0.5*ln v=5,“键康码”ln v’=0.69,同时,我们有“键康”替换为“健康”的替换关系,则获取到以下两条训练样本:
Figure 133237DEST_PATH_IMAGE044
在上述实施例中,通过获取到保持样本和替换样本,通过保持样本和替换样本得到训练样本,然后使用训练样本训练得到文本处理模型,可以训练得到的文本处理模型更加的准确。
在一个实施例中,如图11所示,提供了一种搜索方法,以该方法应用于图1中的终端为例进行说明,包括以下步骤:
步骤1102,接收搜索指令,搜索指令中携带有搜索文本。
具体地,搜索指令是指使用搜索文本进行搜索的指令,搜索文本可以是搜索词,也可以是搜索句子。该搜索文本可以是用户输入的文本,该搜索文本也可以是用户通过点击操作点击的文本等等,该搜索文本是关联网络地址的文本,用户点击关联网络地址的文本终端接收到搜索指令,搜索指令中携带有搜索文本,然后将搜索指令发送到关联的网络地址。该网络地址可以是服务器的地址。
步骤1104,根据搜索指令将搜索文本发送服务器,服务器接收搜索文本,基于搜索文本查找对应的替换信息,替换信息包括待替换单元和替换位置,将搜索文本向量化,得到搜索文本向量,并将待替换单元向量化,得到待替换单元向量;基于搜索文本向量进行正向语义提取和逆向语义提取,得到正向语义向量和逆向语义向量,基于替换位置从正向语义向量和逆向语义向量中确定目标正向语义向量和目标逆向语义向量;基于目标正向语义向量和目标逆向语义向量进行上下文语义计算,得到替换位置的上下文语义向量;基于替换位置的上下文语义向量和待替换单元向量进行替换预测,得到可替换度,基于可替换度使用待替换单元对搜索文本中替换位置对应的文本单元进行替换,得到替换文本,基于替换文本和搜索文本查找对应的搜索结果。
具体地,终端根据搜索指令将搜索文本发送服务器,服务器接收待搜索文本,基于搜索文本在数据库中查找对应的替换信息,该数据库中存在有各种使用替换方式进行替换后得到的替换信息。比如,服务器可以遍历搜索文本中的每个词,查找每个词对应的待替换单元,然后根据待替换单元和替换位置得到替换信息。然后将搜索文本和待替换单元进行向量化,得到搜索文本向量和待替换单元向量;基于搜索文本向量进行正向语义提取和逆向语义提取,得到正向语义向量和逆向语义向量,基于替换位置从正向语义向量和逆向语义向量中确定目标正向语义向量和目标逆向语义向量;基于目标正向语义向量和目标逆向语义向量进行上下文语义计算,得到替换位置的上下文语义向量;基于替换位置的上下文语义向量和待替换单元向量进行替换预测,得到可替换度,基于可替换度使用待替换单元对搜索文本中替换位置对应的文本单元进行替换,得到替换文本。在一个实施例中,服务器可以直接将搜索文本和对应的替换信息输入到文本处理模型中进行替换预测,得到输出的可替换度。在一个实施例中,服务器可以使用上述任意实施例中的文本处理方法基于搜索文本和对应的替换信息进行替换预测,得到可替换度。
服务器在可替换度超过预测可替换度阈值的情况下,使用替换文本和搜索文本查找对应的搜索结果,在可替换度未超过预测可替换度阈值的情况下,使用搜索文本查找对应的搜索结果。然后将查找到的搜索结果返回终端中。s
步骤1106,接收服务器返回的搜索结果,将搜索结果进行展示。
具体地,终端接收到服务器返回的搜索结果,可以将搜索结果进行展示,比如,可以通过网页进行展示,可以通过语音提醒的方式进行展示,可以通过列表、视频等各种方式进行展示。
在上述搜索方法中,通过接收到搜索指令时,向服务器发送搜索文本,然后服务器通过计算搜索文本和替换信息的可替换度,确定是否进行替换,然后可以使用替换文本和搜索文本共同查找搜索结果,从而能够使得到的搜索结果更加的准确。
在一个具体的实施例中,如图12所示,提供一种文本处理方法,具体包括以下步骤:
步骤1202,获取输入文本和对应的替换信息,替换信息包括待替换单元和替换位置,将输入文本和替换信息输入到文本处理模型的编码网络中。
步骤1204,编码网络将输入文本进行字级别划分,得到各个输入字,将各个输入字向量化,得到各个输入字向量,并将待替换单元进行字级别划分,得到各个待替换字,将各个待替换字向量化,得到各个待替换字向量。
步骤1206,编码网络获取预设起始隐向量,并按照从起始到终止的顺序从文本向量中确定当前字向量,基于预设起始隐向量和当前字向量进行正向隐状态计算,得到当前字向量对应的当前字正向语义向量。
步骤1208,编码网络将当前字正向语义向量作为预设起始隐向量,并返回按照从起始到终止的顺序依次从文本向量中确定当前字向量的步骤迭代计算,直到得到文本向量中各个字向量对应的正向语义向量。
步骤1210,编码网络从各个字向量中确定在替换位置之前的目标字正向向量,将目标字正向向量对应的正向语义向量作为第一正向语义向量。基于待替换单元起始位置和待替换单元长度确定目标位置,从正向语义向量中确定在目标位置之前的语义向量,得到第二正向语义向量。
步骤1212,编码网络获取预设终止隐向量,并按照从终止到起始的顺序从文本向量中确定当前字逆向向量;基于预设终止隐向量和当前字逆向向量进行逆向隐状态计算,得到当前字逆向向量对应的当前字逆向语义向量。
步骤1214,编码网络将当前字逆向语义向量作为预设终止隐向量,并返回按照从终止到起始的顺序依次从文本向量中确定当前字逆向向量的步骤迭代计算,直到得到文本向量中各个字向量对应的逆向语义向量。
步骤1216,编码网络从各个字向量中确定待替换单元起始位置对应的目标字逆向向量,将目标字逆向向量对应的逆向语义向量作为第一逆向语义向量,从逆向语义向量中确定在目标位置之后的语义向量,得到第二逆向语义向量。
步骤1218,编码网络基于第一正向语义向量、第二正向语义向量、第一逆向语义向量和第二逆向语义向量计算加权和,得到替换位置上下文语义向量。
步骤1220,将替换位置上下文语义向量和待替换单元向量输入到解码网络中,解码网络获取预设目标隐向量,按照从起始到终止的顺序从待替换单元向量中确定当前待替换字向量;基于预设目标隐向量、替换位置上下文语义向量和当前待替换字向量计算当前待替换字向量对应的当前待替换字隐向量;基于当前待替换字隐向量进行回归计算,得到当前待替换字向量对应的当前待替换字替换概率。
步骤1222,解码网络将当前待替换字隐向量作为预设目标隐向量,并返回按照从起始到终止的顺序从待替换单元向量中确定当前待替换字向量的步骤迭代执行,直到得到各个待替换字向量对应的待替换字替换概率。
步骤1224,基于各个待替换字向量对应的待替换字替换概率进行累乘计算,得到可替换度。基于可替换度使用待替换单元对输入文本中替换位置对应的文本单元进行替换,得到替换文本。
本申请还提供一种应用场景,该应用场景应用上述的文本处理方法。具体地,该文本处理方法在该应用场景的应用如下:
如图13所示,为搜索界面示意图,用户从该搜索界面的输入框中输入文本,该输入文本可以是 “XXX老婆是谁”,终端接收到搜索指令时,将输入文本可以是 “XXX老婆是谁”发送到服务器。服务器接收到输入文本,查找到“XXX老婆是谁”对应的待替换单元为“夫人”和替换位置包括待替换单元起始位置为3(待替换单元起始位置从0开始)和待替换单元长度为2,此时将 “XXX老婆是谁”和替换信息输入到文本处理模型中,如图14所示,为文本处理模型中进行替换预测的示意图。即通过编码器正向计算每个字的正向语义向量,并逆向计算每个字的逆向语义向量。然后基于替换信息使用对应的正向语义向量和逆向语义向量计算得到替换位置的上下文语义向量,然后解码器基于替换位置上下文语义向量和待替换单元向量计算得到“夫”的替换概率
Figure 14606DEST_PATH_IMAGE045
和“人”的替换概率
Figure 121233DEST_PATH_IMAGE046
,将“夫”的替换概率和“人”替换概率进行累乘得到可替换度, 当该可替换度超过可替换度阈值时,得到替换文本“XXX夫人是谁”,使用“XXX夫人是谁”和“XXX老婆是谁”进行搜索,得到搜索结果,将搜索结果发送终端,终端显示搜索结果。
本申请还另外提供一种应用场景,该应用场景应用上述的文本处理方法。具体地,该文本处理方法在该应用场景的应用如下:
在对文本中同义词判定的过程中,获取到需要同义词判定的文本,将需要同义词判定的文本和同义词输入到文本处理模型中进行替换预测,得到可替换度,当可替换度达到预先设定好的同义词阈值时,得到该同义词和文本中的词为同义词的判定结果。
应该理解的是,虽然图2-12的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-12中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图15所示,提供了一种文本处理装置1500,该装置可以采用软件模块或硬件模块,或者是二者的结合成为计算机设备的一部分,该装置具体包括:文本获取模块1502、向量化模块1504、语义向量确定模块1506、计算模块1508和替换预测模块1510,其中:
文本获取模块1502,用于获取输入文本和对应的替换信息,替换信息包括待替换单元和替换位置;
向量化模块1504,用于将输入文本向量化,得到文本向量,并将待替换单元向量化,得到待替换单元向量;
语义向量确定模块1506,用于基于文本向量进行正向语义提取和逆向语义提取,得到正向语义向量和逆向语义向量,基于替换位置从正向语义向量和逆向语义向量中确定目标正向语义向量和目标逆向语义向量;
计算模块1508,用于基于目标正向语义向量和目标逆向语义向量进行上下文语义计算,得到替换位置的上下文语义向量;
替换预测模块1510,用于基于替换位置的上下文语义向量和待替换单元向量进行替换预测,得到可替换度,可替换度用于表征输入文本中替换位置对应的文本单元被待替换单元进行替换的可能性。
在一个实施例中,文本处理装置1500,还包括:
模型预测模块,用于将输入文本和替换信息输入文本处理模型中,文本处理模型将输入文本向量化,得到文本向量,并将待替换单元向量化,得到待替换单元向量,基于文本向量进行正向语义提取和逆向语义提取,得到正向语义向量和逆向语义向量,基于替换位置从正向语义向量和逆向语义向量中确定目标正向语义向量和目标逆向语义向量;基于目标正向语义向量和目标逆向语义向量进行上下文语义计算,得到替换位置的上下文语义向量,基于替换位置的上下文语义向量和待替换单元向量进行替换预测,得到可替换度;文本处理模型是基于神经网络算法使用训练文本和对应的训练替换信息进行训练得到的;
基于可替换度使用待替换单元对输入文本中替换位置对应的文本单元进行替换,得到替换文本。
在一个实施例中,文本处理模型包括编码网络和解码网络;模型预测模块,包括:
编码单元,用于将输入文本和替换信息输入到编码网络中,编码网络将输入文本向量化,得到文本向量,并将待替换单元向量化,得到待替换单元向量,基于文本向量进行正向语义提取和逆向语义提取,得到正向语义向量和逆向语义向量,基于替换位置从正向语义向量和逆向语义向量中确定目标正向语义向量和目标逆向语义向量,基于目标正向语义向量和目标逆向语义向量进行上下文语义计算,得到替换位置的上下文语义向量;
解码单元,用于将替换位置的上下文语义向量和待替换单元向量输入到解码网络中,解码网络基于替换位置的上下文语义向量和待替换单元向量进行替换预测,得到可替换度。
在一个实施例中,向量化模块1504还用于将输入文本进行字级别划分,得到各个输入字,将各个输入字向量化,得到各个输入字向量;并将待替换单元进行字级别划分,得到各个待替换字,将各个待替换字向量化,得到各个待替换字向量。
在一个实施例中,替换位置包括待替换单元起始位置和待替换单元长度;
语义向量确定模块1506,包括:
第一正向向量确定单元,用于基于文本向量进行正向语义提取,得到正向语义向量,从正向语义向量中确定在待替换单元起始位置之前的语义向量,得到第一正向语义向量;
第二正向向量确定单元,用于基于待替换单元起始位置和待替换单元长度确定目标位置,从正向语义向量中确定在目标位置之前的语义向量,得到第二正向语义向量;
第一逆向向量确定单元,用于基于文本向量进行逆向语义提取,得到逆向语义向量,从逆向语义向量中确定在待替换单元起始位置对应的语义向量,得到第一逆向语义向量;
第二逆向向量确定单元,用于从逆向语义向量中确定在目标位置之后的语义向量,得到第二逆向语义向量;
计算模块1508还用于基于第一正向语义向量、第二正向语义向量、第一逆向语义向量和第二逆向语义向量计算加权和,得到替换位置的上下文语义向量。
在一个实施例中,第一正向向量确定单元还用于获取预设起始隐向量,并按照从起始到终止的顺序从文本向量中确定当前字向量;基于预设起始隐向量和当前字向量进行正向隐状态计算,得到当前字向量对应的当前字正向语义向量;将当前字正向语义向量作为预设起始隐向量,并返回按照从起始到终止的顺序依次从文本向量中确定当前字向量的步骤迭代计算,直到得到文本向量中各个字向量对应的正向语义向量;从各个字向量中确定在替换位置之前的目标字正向向量,将目标字正向向量对应的正向语义向量作为第一正向语义向量。
在一个实施例中,第一逆向向量确定单元还用于获取预设终止隐向量,并按照从终止到起始的顺序从文本向量中确定当前字逆向向量;基于预设终止隐向量和当前字逆向向量进行逆向隐状态计算,得到当前字逆向向量对应的当前字逆向语义向量;将当前字逆向语义向量作为预设终止隐向量,并返回按照从终止到起始的顺序依次从文本向量中确定当前字逆向向量的步骤迭代计算,直到得到文本向量中各个字向量对应的逆向语义向量;从各个字向量中确定待替换单元起始位置对应的目标字逆向向量,将目标字逆向向量对应的逆向语义向量作为第一逆向语义向量。
在一个实施例中,替换预测模块1510,包括:
替换度计算模块,用于基于替换位置上下文语义向量和待替换单元向量进行隐状态计算,得到待替换隐向量,基于待替换隐向量进行回归计算,得到可替换度。
在一个实施例中,替换度计算模块还用于获取预设目标隐向量,按照从起始到终止的顺序从待替换单元向量中确定当前待替换字向量;基于预设目标隐向量、替换位置上下文语义向量和当前待替换字向量计算当前待替换字向量对应的当前待替换字隐向量;基于当前待替换字隐向量进行回归计算,得到当前待替换字向量对应的当前待替换字替换概率;将当前待替换字隐向量作为预设目标隐向量,并返回按照从起始到终止的顺序从待替换单元向量中确定当前待替换字向量的步骤迭代执行,直到得到各个待替换字向量对应的待替换字替换概率;基于各个待替换字向量对应的待替换字替换概率进行累乘计算,得到可替换度。
一种文本处理模型训练装置1600,如图16所示,该装置包括:
样本获取模块1602,用于获取训练样本,训练样本中包括训练文本、训练信息和训练权重,训练信息中包括训练单元和训练替换位置;
初始模型计算模块1604,用于将训练样本输入到初始文本处理模型中,初始文本处理模型将输入文本进行初始向量化,得到初始文本向量,并将训练单元进行初始向量化,得到初始训练单元向量,基于初始文本向量进行正向语义提取和逆向语义提取,得到初始正向语义向量和初始逆向语义向量,基于训练替换位置从初始正向语义向量和初始逆向语义向量中确定目标初始正向语义向量和目标初始逆向语义向量,基于目标初始正向语义向量和目标初始逆向语义向量进行初始上下文语义计算,得到训练替换位置的初始上下文语义向量,基于训练替换位置初始的上下文语义向量和初始训练单元向量进行初始替换预测,得到初始可替换度。
迭代模块1606,用于基于初始可替换度和训练权重计算得到初始目标可替换度,当初始目标可替换度最大化时,得到文本处理模型。
在一个实施例中,迭代模块1606还用于当初始目标可替换度未最大化时,基于初始目标可替换度更新初始文本处理模型,得到更新文本处理模型,将更新文本处理模型作为初始文本处理模型,并返回将训练样本输入到初始文本处理模型中的步骤携带执行,直到初始目标可替换度最大化。
在一个实施例中,训练样本包括训练替换样本和未替换样本,训练替换样本包括训练文本、训练替换信息和替换权重,训练替换信息中包括训练待替换单元和训练替换位置,未替换样本中包括训练文本、未替换信息和未替换权重,未替换信息中包括未替换词和训练替换位置;
初始模型计算模块1604还用于将训练替换样本和未替换样本输入到初始文本处理模型中,得到输出的训练替换样本对应的第一初始可替换度和未替换样本对应的第二初始可替换度;
迭代模块1606还用于基于第一初始可替换度和替换权重计算得到第一初始目标可替换度,并基于第二初始可替换度和未替换权重计算得到第二初始目标可替换度,基于第一初始目标可替换度和第二初始目标可替换度得到特定初始目标可替换度,当特定初始目标可替换度最大化时,得到文本处理模型。
在一个实施例中,样本获取模块1602还用于获取训练语料,将训练语料进行句级别划分,得到训练句;基于训练句按照预设替换关系确定替换训练匹配对,替换训练匹配对包括训练输入句和对应的训练替换句;统计训练输入句在训练语料中的输入句出现次数,基于输入句出现次数计算保持权重;统计训练替换句在训练语料中的替换句出现次数,基于替换句出现次数计算替换权重;基于训练输入句和保持权重得到保持样本,基于训练替换句和替换权重得到训练替换样本。
一种搜索装置1700,如图17所示,该装置包括:
指令接收模块1702,用于接收搜索指令,搜索指令中携带有搜索文本;
搜索模块1704,用于根据搜索指令将搜索文本发送服务器,服务器接收搜索文本,基于搜索文本查找对应的替换信息,替换信息包括待替换单元和替换位置,将搜索文本向量化,得到搜索文本向量,并将待替换单元向量化,得到待替换单元向量;基于搜索文本向量进行正向语义提取和逆向语义提取,得到正向语义向量和逆向语义向量,基于替换位置从正向语义向量和逆向语义向量中确定目标正向语义向量和目标逆向语义向量;基于目标正向语义向量和目标逆向语义向量进行上下文语义计算,得到替换位置的上下文语义向量;基于替换位置的上下文语义向量和待替换单元向量进行替换预测,得到可替换度,基于可替换度使用待替换单元对搜索文本中替换位置对应的文本单元进行替换,得到替换文本,基于替换文本和搜索文本查找对应的搜索结果;
展示模块1706,用于接收服务器返回的搜索结果,将搜索结果进行展示。
关于文本处理装置、文本处理模型训练装置以及搜索装置的具体限定可以参见上文中对于文本处理方法、文本处理模型训练方法以及搜索方法的限定,在此不再赘述。上述文本处理装置、文本处理模型训练装置以及搜索装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图18所示。该计算机设备包括通过***总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备可为区块链上一节点。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储替换信息和训练样本。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文本处理方法和文本处理模型训练方法。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图19所示。该计算机设备包括通过***总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***和计算机程序。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种搜索方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图18和19中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (19)

1.一种文本处理方法,其特征在于,所述方法包括:
获取输入文本和对应的替换信息,所述替换信息包括待替换单元和替换位置;
将所述输入文本向量化,得到文本向量,并将所述待替换单元向量化,得到待替换单元向量;
基于所述文本向量进行正向语义提取和逆向语义提取,得到正向语义向量和逆向语义向量,基于所述替换位置从所述正向语义向量和所述逆向语义向量中确定目标正向语义向量和目标逆向语义向量;
基于所述目标正向语义向量和目标逆向语义向量进行上下文语义计算,得到所述替换位置的上下文语义向量;
基于所述替换位置的上下文语义向量和所述待替换单元向量进行替换预测,得到可替换度,所述可替换度用于表征所述输入文本中所述替换位置对应的文本单元被所述待替换单元进行替换的可能性。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将所述输入文本和所述替换信息输入文本处理模型中,所述文本处理模型将所述输入文本向量化,得到文本向量,并将所述待替换单元向量化,得到待替换单元向量,基于所述文本向量进行正向语义提取和逆向语义提取,得到正向语义向量和逆向语义向量,基于所述替换位置从所述正向语义向量和所述逆向语义向量中确定目标正向语义向量和目标逆向语义向量;基于所述目标正向语义向量和目标逆向语义向量进行上下文语义计算,得到所述替换位置的上下文语义向量,基于所述替换位置的上下文语义向量和所述待替换单元向量进行替换预测,得到可替换度;所述文本处理模型是基于神经网络算法使用训练文本和对应的训练替换信息进行训练得到的;
基于所述可替换度使用所述待替换单元对所述输入文本中所述替换位置对应的文本单元进行替换,得到替换文本。
3.根据权利要求2所述的方法,其特征在于,所述文本处理模型包括编码网络和解码网络;
所述将所述输入文本和所述替换信息输入文本处理模型中,包括:
将所述输入文本和所述替换信息输入到所述编码网络中,所述编码网络将所述输入文本向量化,得到文本向量,并将所述待替换单元向量化,得到待替换单元向量,基于所述文本向量进行正向语义提取和逆向语义提取,得到正向语义向量和逆向语义向量,基于所述替换位置从所述正向语义向量和所述逆向语义向量中确定目标正向语义向量和目标逆向语义向量,基于所述目标正向语义向量和目标逆向语义向量进行上下文语义计算,得到所述替换位置的上下文语义向量;
将所述替换位置的上下文语义向量和所述待替换单元向量输入到所述解码网络中,所述解码网络基于所述替换位置的上下文语义向量和所述待替换单元向量进行替换预测,得到可替换度。
4.根据权利要求1-3任意一项所述的方法,其特征在于,所述将所述输入文本向量化,得到文本向量,并将所述待替换单元向量化,得到待替换单元向量,包括:
将所述输入文本进行字级别划分,得到各个输入字,将所述各个输入字向量化,得到各个输入字向量;
并将所述待替换单元进行字级别划分,得到各个待替换字,将所述各个待替换字向量化,得到各个待替换字向量。
5.根据权利要求1-3任意一项所述的方法,其特征在于,所述替换位置包括待替换单元起始位置和待替换单元长度;
所述基于所述文本向量进行正向语义提取和逆向语义提取,得到正向语义向量和逆向语义向量,基于所述替换位置从所述正向语义向量和所述逆向语义向量中确定目标正向语义向量和目标逆向语义向量,包括:
基于所述文本向量进行正向语义提取,得到所述正向语义向量,从所述正向语义向量中确定在所述待替换单元起始位置之前的语义向量,得到第一正向语义向量;
基于所述待替换单元起始位置和所述待替换单元长度确定目标位置,从所述正向语义向量中确定所述目标位置对应的语义向量,得到第二正向语义向量;
基于所述文本向量进行逆向语义提取,得到所述逆向语义向量,从所述逆向语义向量中确定所述待替换单元起始位置对应的语义向量,得到第一逆向语义向量;
从所述逆向语义向量中确定在所述目标位置之后的语义向量,得到第二逆向语义向量;
所述基于所述目标正向语义向量和目标逆向语义向量进行上下文语义计算,得到所述替换位置的上下文语义向量,包括:
基于所述第一正向语义向量、所述第二正向语义向量、所述第一逆向语义向量和所述第二逆向语义向量计算加权和,得到所述替换位置的上下文语义向量。
6.根据权利要求5所述的方法,其特征在于,所述基于所述文本向量进行正向语义提取,得到所述正向语义向量,从所述正向语义向量中确定在所述待替换单元起始位置之前的语义向量,得到第一正向语义向量,包括:
获取预设起始隐向量,并按照从起始到终止的顺序从文本向量中确定当前字向量;
基于所述预设起始隐向量和当前字向量进行正向隐状态计算,得到所述当前字向量对应的当前字正向语义向量;
将所述当前字正向语义向量作为预设起始隐向量,并返回按照从起始到终止的顺序依次从文本向量中确定当前字向量的步骤迭代计算,直到得到所述文本向量中各个字向量对应的正向语义向量;
从所述各个字向量中确定在所述替换位置之前的目标字正向向量,将所述目标字正向向量对应的正向语义向量作为第一正向语义向量。
7.根据权利要求5所述的方法,其特征在于,所述基于所述文本向量进行逆向语义提取,得到所述逆向语义向量,从所述逆向语义向量中确定所述待替换单元起始位置对应的语义向量,得到第一逆向语义向量,包括:
获取预设终止隐向量,并按照从终止到起始的顺序从文本向量中确定当前字逆向向量;
基于所述预设终止隐向量和当前字逆向向量进行逆向隐状态计算,得到所述当前字逆向向量对应的当前字逆向语义向量;
将所述当前字逆向语义向量作为预设终止隐向量,并返回按照从终止到起始的顺序依次从文本向量中确定当前字逆向向量的步骤迭代计算,直到得到所述文本向量中各个字向量对应的逆向语义向量;
从所述各个字向量中确定所述待替换单元起始位置对应的目标字逆向向量,将所述目标字逆向向量对应的逆向语义向量作为第一逆向语义向量。
8.根据权利要求1-3任意一项所述的方法,其特征在于,所述基于所述替换位置的上下文语义向量和所述待替换单元向量进行替换预测,得到可替换度,包括:
基于所述替换位置的上下文语义向量和所述待替换单元向量进行隐状态计算,得到待替换隐向量,基于所述待替换隐向量进行回归计算,得到可替换度。
9.根据权利要求8所述的方法,其特征在于,所述基于所述替换位置的上下文语义向量和所述待替换单元向量进行隐状态计算,得到待替换隐向量,基于所述待替换隐向量进行回归计算,得到可替换度,包括:
获取预设目标隐向量,按照从起始到终止的顺序从所述待替换单元向量中确定当前待替换字向量;
基于所述预设目标隐向量、所述替换位置的上下文语义向量和所述当前待替换字向量计算所述当前待替换字向量对应的当前待替换字隐向量;
基于所述当前待替换字隐向量进行回归计算,得到所述当前待替换字向量对应的当前待替换字替换概率;
将所述当前待替换字隐向量作为预设目标隐向量,并返回按照从起始到终止的顺序从所述待替换单元向量中确定当前待替换字向量的步骤迭代执行,直到得到各个待替换字向量对应的待替换字替换概率;
基于所述各个待替换字向量对应的待替换字替换概率进行累乘计算,得到所述可替换度。
10.一种文本处理模型训练方法,其特征在于,所述方法包括:
获取训练样本,所述训练样本中包括训练文本、训练信息和训练权重,所述训练信息中包括训练单元和训练替换位置;
将所述训练样本输入到初始文本处理模型中,所述初始文本处理模型将所述训练文本进行初始向量化,得到初始文本向量,并将所述训练单元进行初始向量化,得到初始训练单元向量,基于所述初始文本向量进行正向语义提取和逆向语义提取,得到初始正向语义向量和初始逆向语义向量,基于所述训练替换位置从所述初始正向语义向量和所述初始逆向语义向量中确定目标初始正向语义向量和目标初始逆向语义向量,基于所述目标初始正向语义向量和目标初始逆向语义向量进行初始上下文语义计算,得到所述训练替换位置的初始上下文语义向量,基于所述训练替换位置的初始上下文语义向量和所述初始训练单元向量进行初始替换预测,得到初始可替换度;
基于所述初始可替换度和所述训练权重计算得到初始目标可替换度,当所述初始目标可替换度最大化时,得到文本处理模型。
11.根据权利要求10所述的方法,其特征在于,在所述基于所述初始可替换度和所述训练权重计算得到初始目标可替换度之后,还包括:
当所述初始目标可替换度未最大化时,基于所述初始目标可替换度更新所述初始文本处理模型,得到更新文本处理模型,将所述更新文本处理模型作为初始文本处理模型,并返回将所述训练样本输入到初始文本处理模型中的步骤迭代执行,直到所述初始目标可替换度最大化。
12.根据权利要求10所述的方法,其特征在于,所述训练样本包括训练替换样本和未替换样本,所述训练替换样本包括训练文本、训练替换信息和替换权重,所述训练替换信息中包括训练待替换单元和训练替换位置,所述未替换样本中包括所述训练文本、未替换信息和未替换权重,所述未替换信息中包括未替换单元和所述训练替换位置;
所述将所述训练样本输入到初始文本处理模型中,包括
将所述训练替换样本和未替换样本输入到初始文本处理模型中,得到输出的所述训练替换样本对应的第一初始可替换度和所述未替换样本对应的第二初始可替换度;
所述基于所述初始可替换度和所述训练权重计算得到初始目标可替换度,当所述初始目标可替换度最大化时,得到文本处理模型,包括:
基于所述第一初始可替换度和所述替换权重计算得到第一初始目标可替换度,并基于所述第二初始可替换度和所述未替换权重计算得到第二初始目标可替换度,基于所述第一初始目标可替换度和所述第二初始目标可替换度得到特定初始目标可替换度,当所述特定初始目标可替换度最大化时,得到文本处理模型。
13.根据权利要求12所述的方法,其特征在于,所述获取训练样本,包括:
获取训练语料,将所述训练语料进行句级别划分,得到训练句;
基于所述训练句按照预设替换关系确定替换训练匹配对,所述替换训练匹配对包括训练输入句和对应的训练替换句;
统计所述训练输入句在所述训练语料中的输入句出现次数,基于所述输入句出现次数计算保持权重;
统计所述训练替换句在所述训练语料中的替换句出现次数,基于所述替换句出现次数计算替换权重;
基于所述训练输入句和保持权重得到保持样本,基于所述训练替换句和替换权重得到训练替换样本。
14.一种搜索方法,其特征在于,所述方法包括:
接收搜索指令,所述搜索指令中携带有搜索文本;
根据所述搜索指令将所述搜索文本发送服务器,所述服务器接收所述搜索文本,基于所述搜索文本查找对应的替换信息,所述替换信息包括待替换单元和替换位置,将所述搜索文本向量化,得到搜索文本向量,并将所述待替换单元向量化,得到待替换单元向量;基于所述搜索文本向量进行正向语义提取和逆向语义提取,得到正向语义向量和逆向语义向量,基于所述替换位置从所述正向语义向量和所述逆向语义向量中确定目标正向语义向量和目标逆向语义向量;基于所述目标正向语义向量和目标逆向语义向量进行上下文语义计算,得到所述替换位置的上下文语义向量;基于所述替换位置的上下文语义向量和所述待替换单元向量进行替换预测,得到可替换度,基于所述可替换度使用所述待替换单元对所述搜索文本中所述替换位置对应的文本单元进行替换,得到替换文本,基于所述替换文本和所述搜索文本查找对应的搜索结果;
接收所述服务器返回的所述搜索结果,将所述搜索结果进行展示。
15.一种文本处理装置,其特征在于,所述装置包括:
文本获取模块,用于获取输入文本和对应的替换信息,所述替换信息包括待替换单元和替换位置;
向量化模块,用于将所述输入文本向量化,得到文本向量,并将所述待替换单元向量化,得到待替换单元向量;
语义向量确定模块,用于基于所述文本向量进行正向语义提取和逆向语义提取,得到正向语义向量和逆向语义向量,基于所述替换位置从所述正向语义向量和所述逆向语义向量中确定目标正向语义向量和目标逆向语义向量;
计算模块,用于基于所述目标正向语义向量和目标逆向语义向量进行上下文语义计算,得到所述替换位置的上下文语义向量;
替换预测模块,用于基于所述替换位置的上下文语义向量和所述待替换单元向量进行替换预测,得到可替换度,所述可替换度用于表征所述输入文本中所述替换位置对应的文本单元被所述待替换单元进行替换的可能性。
16.一种文本处理模型训练装置,其特征在于,所述装置包括:
样本获取模块,用于获取训练样本,所述训练样本中包括训练文本、训练信息和训练权重,所述训练信息中包括训练单元和训练替换位置;
初始模型计算模块,用于将所述训练样本输入到初始文本处理模型中,所述初始文本处理模型将所述训练文本进行初始向量化,得到初始文本向量,并将所述训练单元进行初始向量化,得到初始训练单元向量,基于所述初始文本向量进行正向语义提取和逆向语义提取,得到初始正向语义向量和初始逆向语义向量,基于所述训练替换位置从所述初始正向语义向量和所述初始逆向语义向量中确定目标初始正向语义向量和目标初始逆向语义向量,基于所述目标初始正向语义向量和目标初始逆向语义向量进行初始上下文语义计算,得到所述训练替换位置的初始上下文语义向量,基于所述训练替换位置的初始上下文语义向量和所述初始训练单元向量进行初始替换预测,得到初始可替换度;
迭代模块,用于基于所述初始可替换度和所述训练权重计算得到初始目标可替换度,当所述初始目标可替换度最大化时,得到文本处理模型。
17.一种搜索装置,其特征在于,所述装置包括:
指令接收模块,用于接收搜索指令,所述搜索指令中携带有搜索文本;
搜索模块,用于根据所述搜索指令将所述搜索文本发送服务器,所述服务器接收所述搜索文本,基于所述搜索文本查找对应的替换信息,所述替换信息包括待替换单元和替换位置,将所述搜索文本向量化,得到搜索文本向量,并将所述待替换单元向量化,得到待替换单元向量;基于所述搜索文本向量进行正向语义提取和逆向语义提取,得到正向语义向量和逆向语义向量,基于所述替换位置从所述正向语义向量和所述逆向语义向量中确定目标正向语义向量和目标逆向语义向量;基于所述目标正向语义向量和目标逆向语义向量进行上下文语义计算,得到所述替换位置的上下文语义向量;基于所述替换位置的上下文语义向量和所述待替换单元向量进行替换预测,得到可替换度,基于所述可替换度使用所述待替换单元对所述搜索文本中所述替换位置对应的文本单元进行替换,得到替换文本,基于所述替换文本和所述搜索文本查找对应的搜索结果;
展示模块,用于接收所述服务器返回的所述搜索结果,将所述搜索结果进行展示。
18.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至14中任一项所述的方法的步骤。
19.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至14中任一项所述的方法的步骤。
CN202110182270.9A 2021-02-10 2021-02-10 文本处理、文本处理模型训练方法、装置和存储介质 Active CN112528621B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110182270.9A CN112528621B (zh) 2021-02-10 2021-02-10 文本处理、文本处理模型训练方法、装置和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110182270.9A CN112528621B (zh) 2021-02-10 2021-02-10 文本处理、文本处理模型训练方法、装置和存储介质

Publications (2)

Publication Number Publication Date
CN112528621A CN112528621A (zh) 2021-03-19
CN112528621B true CN112528621B (zh) 2021-05-14

Family

ID=74975682

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110182270.9A Active CN112528621B (zh) 2021-02-10 2021-02-10 文本处理、文本处理模型训练方法、装置和存储介质

Country Status (1)

Country Link
CN (1) CN112528621B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114495101A (zh) * 2022-01-12 2022-05-13 北京百度网讯科技有限公司 文本检测方法、文本检测网络的训练方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102737112A (zh) * 2012-04-25 2012-10-17 北京航空航天大学 基于表现语义分析的概念相关度计算方法
CN108874174A (zh) * 2018-05-29 2018-11-23 腾讯科技(深圳)有限公司 一种文本纠错方法、装置以及相关设备
CN109241268A (zh) * 2018-07-05 2019-01-18 腾讯科技(深圳)有限公司 一种相似信息推荐方法、装置、设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111078889B (zh) * 2019-12-20 2021-01-05 大连理工大学 一种基于多种注意力和改进预训练的药物间关系抽取方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102737112A (zh) * 2012-04-25 2012-10-17 北京航空航天大学 基于表现语义分析的概念相关度计算方法
CN108874174A (zh) * 2018-05-29 2018-11-23 腾讯科技(深圳)有限公司 一种文本纠错方法、装置以及相关设备
CN109241268A (zh) * 2018-07-05 2019-01-18 腾讯科技(深圳)有限公司 一种相似信息推荐方法、装置、设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Term weighting approaches for text categorization improving;L. A. Matsunaga et al.;《Eighth International Conference on Intelligent Systems Design and Applications》;20081126;第409-414页 *
基于深度学习的关系抽取研究综述;庄传志 等;《中文信息学报》;20191231;第33卷(第12期);第1-18页 *

Also Published As

Publication number Publication date
CN112528621A (zh) 2021-03-19

Similar Documents

Publication Publication Date Title
CN110598206B (zh) 文本语义识别方法、装置、计算机设备和存储介质
CN109086303B (zh) 基于机器阅读理解的智能对话方法、装置、终端
US11227118B2 (en) Methods, devices, and systems for constructing intelligent knowledge base
CN108829822B (zh) 媒体内容的推荐方法和装置、存储介质、电子装置
CN111444320B (zh) 文本检索方法、装置、计算机设备和存储介质
CN110032632A (zh) 基于文本相似度的智能客服问答方法、装置及存储介质
WO2022199504A1 (zh) 内容识别方法、装置、计算机设备和存储介质
CN106095845B (zh) 文本分类方法和装置
WO2020140073A1 (en) Neural architecture search through a graph search space
US20230244704A1 (en) Sequenced data processing method and device, and text processing method and device
CN110390106B (zh) 基于双向关联的语义消歧方法、装置、设备及存储介质
CN111462751A (zh) 解码语音数据的方法、装置、计算机设备和存储介质
CN111339308B (zh) 基础分类模型的训练方法、装置和电子设备
CN112307048B (zh) 语义匹配模型训练方法、匹配方法、装置、设备及存储介质
CN109710921A (zh) 词语相似度的计算方法、装置、计算机设备及存储介质
CN114330343A (zh) 词性感知嵌套命名实体识别方法、***、设备和存储介质
CN114064852A (zh) 自然语言的关系抽取方法、装置、电子设备和存储介质
CN115409111A (zh) 命名实体识别模型的训练方法和命名实体识别方法
CN110852071A (zh) 知识点检测方法、装置、设备及可读存储介质
CN113239697B (zh) 实体识别模型训练方法、装置、计算机设备及存储介质
CN114281996A (zh) 长文本分类方法、装置、设备及存储介质
CN112528621B (zh) 文本处理、文本处理模型训练方法、装置和存储介质
CN111178082A (zh) 一种句向量生成方法、装置及电子设备
CN114706973A (zh) 抽取式文本摘要生成方法、装置、计算机设备及存储介质
CN113536784A (zh) 文本处理方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40041364

Country of ref document: HK