CN111324722B - 一种训练词语权重模型的方法和*** - Google Patents

一种训练词语权重模型的方法和*** Download PDF

Info

Publication number
CN111324722B
CN111324722B CN202010409812.7A CN202010409812A CN111324722B CN 111324722 B CN111324722 B CN 111324722B CN 202010409812 A CN202010409812 A CN 202010409812A CN 111324722 B CN111324722 B CN 111324722B
Authority
CN
China
Prior art keywords
text
texts
words
word
mark
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010409812.7A
Other languages
English (en)
Other versions
CN111324722A (zh
Inventor
陈晓军
崔恒斌
陈显玲
杨明晖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202010409812.7A priority Critical patent/CN111324722B/zh
Publication of CN111324722A publication Critical patent/CN111324722A/zh
Application granted granted Critical
Publication of CN111324722B publication Critical patent/CN111324722B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本说明书实施例提供一种训练词语权重模型的方法和***。所述方法包括:获取多个文本对;判断所述文本对中两个文本之间是否匹配,得到匹配结果;基于所述匹配结果确定所述文本对中文本的词语的重要性标识,得到含有所述重要性标识的多个文本对;基于多个训练数据训练词语权重模型,所述训练数据来源于含有所述重要性标识的多个文本对中的文本。

Description

一种训练词语权重模型的方法和***
技术领域
本说明书涉及机器学习技术领域,特别涉及一种训练词语权重模型的方法和***。
背景技术
在智能交互中,通常采用配置知识库的方式实现智能客服与用户的问答交流。智能交互***可以基于文本语义和词语权重,在问答知识库中为智能客户匹配针对用户问题的答案。词语权重可以提高答案匹配的准确性。
因此,期望提供一种训练词语权重模型的方法和***,提高词语权重的确定效率。
发明内容
本说明书的一个方面提供一种训练词语权重模型的方法。所述方法包括:获取多个文本对;判断所述文本对中两个文本之间是否匹配,得到匹配结果;基于所述匹配结果确定所述文本对中文本的词语的重要性标识,得到含有所述重要性标识的多个文本对;基于多个训练数据训练词语权重模型,所述训练数据来源于含有所述重要性标识的多个文本对中的文本。
在一些实施例中,所述基于所述匹配结果确定所述文本对中文本的词的重要性标识,得到含有所述重要性标识的多个文本对,包括:判断所述文本对的两个文本是否匹配,并进行以下处理中的一种或多种:处理一:若所述两个文本不匹配,则对所述两个文本中的不同词语做出第一标记;处理二:若所述两个文本不匹配,则对所述两个文本中的相同词语做出第二标记;处理三:若所述两个文本匹配,则对所述两个文本中的相同词语做出第一标记;处理四:若所述两个文本匹配,则对所述两个文本中的不同词语做出第二标记;所述第一标记和所述第二标记为所述重要性标识,所述第一标记的重要性高于所述第二标记的重要性。
在一些实施例中,所述方法还包括:所述词语权重模型包括向量化模型和权重子模型;所述向量化模型对输入的文本中的词语进行向量表示,生成的向量包含所述词语的信息和所述词语在所述文本中的上下文信息;所述权重子模型基于所述向量生成权重预测值。
在一些实施例中,所述方法还包括:获取被检索文本;基于所述词语权重模型确定所述被检索文本中词语的权重;基于所述被检索文本中词语的权重确定所述被检索文本的检索关键词;基于所述检索关键词确定至少一个检索结果。
在一些实施例中,所述方法还包括:获取第一文本和第二文本;基于所述词语权重模型确定所述第一文本中词语的权重,以及基于所述词语权重模型确定所述第二文本中词语的权重;基于所述第一文本和所述第二文本中词语的权重,计算所述第一文本和所述第二文本的向量距离;基于所述向量距离确定所述第一文本和所述第二文本是否匹配。
本说明书的另一方面提供一种训练词语权重模型的***。所述***包括:获取模块,用于获取多个文本对;判断模块,用于判断所述文本对中两个文本之间是否匹配,得到匹配结果;标记模块,用于基于所述匹配结果确定所述文本对中文本的词语的重要性标识,得到含有所述重要性标识的多个文本对;训练模块,用于基于多个训练数据训练词语权重模型,所述训练数据来源于含有所述重要性标识的多个文本对中的文本。
本说明书的另一方面提供一种训练词语权重模型的装置,包括处理器,所述处理器用于执行如前所述的方法。
本说明书的另一方面提供一种计算机可读存储介质,所述存储介质存储计算机指令,当计算机读取存储介质中的计算机指令后,计算机执行如前所述的方法。
附图说明
本说明书将以示例性实施例的方式进一步说明,这些示例性实施例将通过附图进行详细描述。这些实施例并非限制性的,在这些实施例中,相同的编号表示相同的结构,其中:
图1是根据本说明书的一些实施例所示的训练词语权重模型***的应用场景示意图;
图2是根据本说明书的一些实施例所示的训练词语权重模型方法的示意图;
图3是根据本说明书的一些实施例所示的文本匹配判断方法的示意图;以及
图4是根据本说明书的一些实施例所示的训练词语权重模型的示意图。
具体实施方式
为了更清楚地说明本说明书实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本说明书的一些示例或实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图将本说明书应用于其它类似情景。除非从语言环境中显而易见或另做说明,图中相同标号代表相同结构或操作。
应当理解,本文使用的“***”、“装置”、“单元”和/或“模组”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而,如果其他词语可实现相同的目的,则可通过其他表达来替换所述词语。
如本说明书和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其它的步骤或元素。
虽然本说明书对根据本说明书的实施例的***中的某些模块或单元做出了各种引用,然而,任何数量的不同模块或单元可以被使用并运行在客户端和/或服务器上。所述模块仅是说明性的,并且所述***和方法的不同方面可以使用不同模块。
本说明书中使用了流程图用来说明根据本说明书的实施例的***所执行的操作。应当理解的是,前面或后面操作不一定按照顺序来精确地执行。相反,可以按照倒序或同时处理各个步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。
图1是根据本说明书的一些实施例所示的训练词语权重模型***的应用场景示意图。
训练词语权重模型***100可以是一个线上平台,其可以包括服务器110、网络120、用户终端130、数据库140以及其他数据源150。
服务器110可以用于管理资源以及处理来自本***至少一个组件或外部数据源(例如,云数据中心)的数据和/或信息。在一些实施例中,服务器110可以是一个单个的服务器或者一个服务器群。服务器群可以是集中式的或分布式的(例如,服务器110可以是一分布式的***)。在一些实施例中,服务器110可以是本地的或远程的。在一些实施例中,服务器110可以在一个云端平台上实现,或者以虚拟方式提供。仅仅作为示例,云端平台可以包括私有云、公共云、混合云、社区云、分布云、跨云、多云等或上述举例的任意组合。在一些实施例中,服务器110可以在一个计算设备上实现,该计算设备可以包括一个或多个部件。
在一些实施例中,服务器110可以包括处理设备112。处理设备112可以处理与训练词语权重模型相关的信息和/或数据以执行本说明书中描述的一个或多个功能。例如,处理设备112可以基于从用户终端130获取的文本对数据,确定文本中词语的权重。在一些实施例中,处理设备112可以包括一个或多个处理器(例如,单晶片处理器或多晶片处理器)。仅仅作为示例,处理设备112可以包括一个或多个硬件处理器,例如中央处理器(CPU)、专用积体电路(ASIC)、专用指令集处理器(ASIP)、图像处理单元(GPU)、物理运算处理单元(PPU)、数位讯号处理器(DSP)、现场可编程门阵列(FPGA)、可编程逻辑装置(PLD)、控制器、微控制器单元、精简指令集电脑(RISC)、微处理器等或上述举例的任意组合。
网络120可以连接***100的各组成部分和/或连接***100与外部资源部分。网络120使得各组成部分之间,以及与***100之外其他部分之间可以进行通讯,促进数据和/或信息的交换。在一些实施例中,网络120可以是有线网络或无线网络中的任意一种,或其组合。仅仅作为示例,网络120可以包括电缆网络、有线网络、光纤网络、远端通信网络、内联网、互联网、局域网(LAN)、广域网(WAN)、无线局域网(WLAN)、城域网(MAN)、广域网(WAN)、公共开关电话网络(PSTN)、蓝牙网络、ZigBee网络、近场通信(NFC)网络等或上述举例的任意组合。在一些实施例中,网络120可以包括一个或多个网络交换点。例如,网络120可以包括有线或无线网络交换点,如基站和/或互联网交换点120-1、120-2、……,通过交换点,训练词语权重模型***100的一个或多个部件可以连接到网络120以交换数据和/或信息。
用户终端130可以用于输入文本和/或接收文本输出。在一些实施例中,用户可以是用户终端130的使用者。例如,用户可以使用用户终端130输入询问文本。又例如,用户可以通过用户终端130接收与其问询相关的答复文本。在一些实施例中,用户终端130可以包括移动装置130-1、平板电脑130-2、膝上型电脑130-3等或上述举例的任意组合。
数据库140可以用于储存数据和/或指令。在一些实施例中,数据库140可以在单个中央服务器、通过通信链路连接的多个服务器或多个个人设备中实现。在一些实施例中,数据库140可以包括大容量存储器、可以移动存储器、挥发性读写存储器(例如,随机存取存储器RAM)、只读存储器(ROM)等或上述举例的任意组合。示例性的大容量存储器可以包括磁盘、光盘、固态磁盘等。在一些实施例中,数据库140可以在一个云端平台上实现。仅仅作为示例,云端平台可以包括私有云、公共云、混合云、社区云、分布云、跨云、多云等或上述举例的任意组合。
其他数据源150可以用于为***100提供其他信息的一个或多个来源。在一些实施例中,其他数据源150可以包括一个或多个设备、一个或多个应用程序接口、一个或多个数据库查询接口、一个或多个基于协议的信息获取接口、或其他可获取信息的方式等,或上述方式中两种或多种的组合。在一些实施例中,数据源提供的信息可以包括在提取信息时已存在的、在提取信息时临时生成的,或上述方式的组合。在一些实施例中,其他数据源150可以用于为***100提供文本对数据等。
在一些实施例中,服务器110、用户终端130以及其他可能的***组成部分中可以包括数据库140。在一些实施例中,服务器110、用户终端130以及其他可能的***组成部分中可以包括处理设备112。
在一些实施例中,服务器110可以通过网络120与训练词语权重模型***100的其他组件(如用户终端130、数据库140和/或其他数据源150等)通信,以获取其中的信息和/或数据。例如,服务器110可以通过网络120获取储存于数据库140中的文本对数据。在一些实施例中,数据库140可以与网络120连接以与训练词语权重模型***100中的一个或多个部件(例如,服务器110、用户终端130等)通信。在一些实施例中,训练词语权重模型***100中的一个或多个部件可以通过网络120访问储存于数据库140和/或其他数据源150中的数据或指令。在一些实施例中,数据库140和/或其他数据源150可以直接与训练词语权重模型***100中的一个或多个部件(例如,服务器110、用户终端130)连接或通信。在一些实施例中,数据库140可以是服务器110的一部分。在一些实施例中,训练数据生成***100的一个或多个部件(例如,服务器110、用户终端130等)可以拥有存取数据库140的许可。
训练词语权重模型***100可以通过实施本说明书中披露的方法和/或过程以生成用于训练词语权重模型的训练数据。在一些实施例中,***100可以基于从用户终端130、或数据库140、或其他数据源150中获取的多个文本对,通过分析文本之间的匹配性对文本中词语标记重要性标识,以获得训练词语权重模型的训练数据。
图2是根据本说明书的一些实施例所示的训练词语权重模型方法的示意图。
如图2所示,训练词语权重模型方法200可以在处理设备112实现。处理设备112可以基于获取的多个文本对,通过文本对之间匹配性对文本中的词进行标记以获得训练词语权重模型的训练数据。
步骤210,获取多个文本对。具体地,步骤210可以由获取模块执行。
每个文本对可以由至少两个文本组成。在一些实施例中,文本可以是由字符有顺序组成的串。例如,文本可以包括汉字、字母、符号、数字以及其他文字。在一些实施例中,文本对可以用于训练自然语言理解模型。例如,文本对可以用于智能问答场景、检索场景等中的自然语言理解模型训练。
在一些实施例中,处理设备可以从数据库中获取多个文本对。例如,数据库可以包括手机应用程序的后台数据库、网络开源数据库、平台数据库等。在一些实施例中,处理设备可以从智能客服数据库中获取多个文本对。例如:处理设备可以从问答机器人的问题库中选取任意两个文本作为一个文本对,也可以从问答机器人的答案库中选取任意两个文本作为一个文本对,也可以从用户历史提问数据库和对应的问答机器人的问题库中各选取一个文本作为文本对等。在一些实施例中,处理设备可以通过其他任意可行的方式获取文本对,本说明书对此不做限制。
步骤220,判断文本对中两个文本之间是否匹配,得到匹配结果。具体地,步骤220可以由判断模块执行。
文本匹配结果可以反映两个文本之间的语义相关性。例如,两个匹配的文本可以为问答场景中的用户提问和对应的客服回答,或智能问答***中用户的提问和对应的预设问题等。
在一些实施例中,处理设备可以通过匹配神经网络计算文本对中两个文本之间是否匹配。例如,匹配神经网络可以包括但不限于循环神经网络(Recurrent NeuralNetwork, RNN)、卷积神经网络(Convolutional Neural Networks, CNN)、BERT(Bidirectional Encoder Representations from Transformers)网络等。
在一些实施例中,处理设备可以基于文本的匹配标签来判断两个文本是否匹配。在一些实施例中,匹配标签可以包括数字标注、突出显示、符号标注等一种或多种的组合。例如,文本对中的文本一和文本二可以带有相同或不同的标注,表示文本一和文本二之间匹配或不匹配。匹配标签可以通过任意合理的常规方式获得,例如,匹配标签可以通过人工或机器对文本进行标注获得、或基于用户反馈获得,本说明书对此不做限制。在一些实施例中,处理设备可以通过其他方式判断两个文本之间是否匹配,本说明书对此不做限制。
在一些实施例中,匹配结果可以包括两个文本之间匹配,或两个文本之间不匹配。在一些实施例中,匹配结果可以通过文字、数字、符号等的方式表示。例如,可以用文字“是”、或数字“1”、或符号“√”等来表示两个文本之间匹配,对应的可以用文字“否”、或数字“0”、或符号“×”等来表示两个文本之间不匹配。
步骤230,基于匹配结果确定文本对中文本的词语的重要性标识,得到含有重要性标识的多个文本对。具体地,步骤230可以由标记模块执行。重要性标识可以反映文本中词语相对该文本语义表达的重要程度。例如,对于文本“这款好医保何时生效”,基于该文本的语义,其关键词语可能为“好医保”、“何时生效”,则可以对文本中的“好医保”或“何时生效”进行标记,以作为该文本的重要性标识。
在一些实施例中,重要性标识可以包括突出显示、批注、特殊符号等一种或多种的组合。在一些实施例中,重要性表示可以包括重要标识和非重要标识。例如,可以将文本中重要的词语标记重要标识以表明该词语重要,和/或将文本中不重要的词语标记非重要标识以表明该词语不重要。在一些实施例中,处理设备可以基于文本之间匹配结果的不同,采取不同重要性标识方式。具体地:
两个文本不匹配时,对两个文本的不同词语标记重要标识。
当文本对中的两个文本不匹配时,处理设备可以基于该匹配结果将两个文本中的差异部分标记重要,相同部分标记不重要。更多细节内容可以参见图3及其相关描述,在此不再赘述。
两个文本匹配时,对两个文本的相同词语标记重要标识。
当文本对中的两个文本匹配时,处理设备可以基于该匹配结果将两个文本中的相同部分标记重要,差异部分标记不重要。关于两个文本不匹配的更多细节内容可以参见图3及其相关描述,在此不再赘述。
处理设备可以基于文本对的重要性标识,得到含有重要性标识的多个文本对。
步骤240,基于多个训练数据训练词语权重模型。具体地,步骤240可以由训练模块执行。
处理设备可以基于文本的重要性标识生成训练词语权重模型的权重标识值,以基于训练数据训练词语权重模型。在一些实施例中,训练数据来源于含有重要性标识的多个文本对中的文本。在一些实施例中,处理设备可以将训练数据输入初始权重模型进行学习,以获得训练好的词语权重模型。在一些实施例中,词语权重模型可以包括LSTM模型、CNN模型、BERT模型等。
在一些实施例中,词语权重模型的输入可以是文本,输出可以是文本的词语权重预测值。更多细节可以参见本说明书其他部分(例如,图4及其相关描述),在此不再赘述。
图3是根据本说明书的一些实施例所示的文本匹配判断方法的示意图。
如图3所示,文本匹配判断方法300可以在处理设备112(如标记模块)实现。处理设备可以基于两个文本匹配结果,对文本进行处理一、处理二、处理三和处理四中的一种或多种,以下将结合图3具体说明。
步骤310,判断文本对的两个文本是否匹配。
在一些实施例中,处理设备可以通过匹配神经网络判断两个文本是否匹配。在一些实施例中,处理设备可以基于文本的匹配标签来判断两个文本是否匹配。具体可以参见图2及其相关描述,在此不在赘述。
步骤320,若两个文本不匹配,可以进行处理一323和/或处理二325。
当两个文本不匹配时,处理设备可以进行处理一323:将两个文本中的不同词语做出第一标记;和/或处理二325:对两个文本中的相同词语做出第二标记。第一标记和第二标记为重要性标识,且第一标记的重要性高于第二标记的重要性。例如,文本一“这款好医保何时生效”和文本二“这款意外险何时生效”的匹配结果为不匹配,处理设备可以分别将文本一与文本二中的不同词语“好医保”和“意外险”作出第一标记,对文本一和文本二的相同词语“这”、“何时生效”分别作出第二标记。其中,第一标记表示对应词语对文本的语义表达相对更重要,第二标记表示对应词语对相关文本的语义表达较为不重要。
在一些实施例中,第一标记和/或第二标记可以为数值。在一些实施例中,数值可以包括0、0.25、0.75、1等。例如,处理设备可以将第一文本和第二文本中的不同词语标记为数字1,相同词语标记为数字0或者相同词语不做标记,其中数字1的重要性高于数字0。在一些实施例中,标记数值与两个文本中不相同词语的个数相关。例如,若第一文本和第二文本中仅包含一个不同词语,处理设备可以将不同词语标记为1,若第一文本和第二文本中包含两个不同词语时,处理设备可以将两个不同词语分别标记为0.75等。标记数值与文本中不同词语个数的关联性可以为任意合理的方式,本说明书对此不做限制。
在问答场景或检索场景中***更关注文本的语义表达,对于不匹配的两个文本,其表达的语义不相同,因此文本中不同部分更为重要。例如,对于两个不匹配的文本,文本一“这款好医保何时生效”和文本二“这款意外险何时生效”,均为对生效时间的提问,匹配对应客服答复时更关注的是生效的主体,文本一和文本二的主体即为两个文本中的不同词语“好医保”和“意外险”,即该不同词语相对文本的重要性更高,因此可以对两个文本中的不同词语“好医保”和“意外险”分别做出第一标记,对两个文本中的相同词语“这”、“何时生效”分别做出第二标记。
步骤330,若两个文本匹配,可以进行处理三333和/或处理四335。
当两个文本匹配时,处理设备可以进行处理三333:对两个文本中的相同词语做出第一标记;和/或处理四335:对两个文本中的不同词语做出第二标记。例如,文本三“今天中午去哪里”和文本四“今天中午开车去哪里”的匹配结果为匹配,处理设备可以分别将文本三与文本四中的相同词语“今天中午”和“去哪里”作出第一标记,对文本三和文本四的不同词语“开车”作出第二标记。其中,第一标记表示对应词语对文本的语义表达相对更重要,第二标记表示对应词语对相关文本的语义表达较为不重要。
在问答场景或检索场景中***更关注文本的语义表达,对于匹配的两个文本,其表达的语义相同,因此文本中相同部分更为重要。例如,对于两个匹配的文本文本三“***还款失败”和文本四“为什么***还款失败”,文本三和文本四的语义相同,均为对***还款的咨询,匹配对应客服答复时更关注的是文本三和文本四中相同词语“***还款失败”,即该相同词语相对文本的重要性更高,因此可以对两个文本中的相同词语“***还款失败”分别做出第一标记,对两个文本中的不同词语“为什么”做出第二标记。
在一些实施例中,处理设备可以基于多个文本对中不同文本之间的匹配结果,对文本进行处理一、处理二、处理三和处理四中的一种或多种。例如,处理设备可以基于文本一和文本二的匹配结果,对文本一和文本二做出第一标记和/或第二标记,也可以基于文本一(或文本二)与文本三(或文本四)的匹配结果,对文本一(或文本二)和文本三(或文本四)做出第一标记和/或第二标记。即文本一可以和文本二组成文本对得到重要性标识,也可以和文本三组成文本对得到另一个重要性标识。
在一些替代性实施例中,文本的重要性标识可以通过其他可行的方式实现,本说明书对此不做限制。
应当注意的是,上述有关方法200、方法300的描述仅仅是为了示例和说明,而不限定本申请的适用范围。对于本领域技术人员来说,在本申请的指导下可以对方法200、方法300进行各种修正和改变。然而,这些修正和改变仍在本申请的范围之内。
图4是根据本说明书的一些实施例所示的训练词语权重模型的示意图。
步骤410,对输入的文本中的词语进行向量表示。
在一些实施例中,输入文本可以为用户通过用户终端等输入的查询或询问语句。在一些实施例中,处理设备可以通过向量化模型对输入文本中的词语进行向量表示,生成对应的文本向量。在一些实施例中,向量化模型的输入可以是输入文本,输出可以为输入文本对应的向量。在一些实施例中,向量化模型的输入可以为分词后的输入文本,输出可以为输入文本中分词后词语对应的向量表示。
在一些实施例中,向量化模型的输出向量可以包含输入文本中词语的信息和词语在对应文本中的上下文信息。
在一些实施例中,向量化模型可以包括但不限于LSTM(Long Short-Term Memory)模型、BiLSTM(Bi-directional Long Short-Term Memory)模型、GRU(Gate RecurrentUnit)模型等。
步骤420,基于向量生成权重预测值。
在一些实施例中,处理设备可以基于向量化模型的输出向量通过权重子模型生成输入文本的文本权重预测值。权重预测值可以反映对应词语在文本中的重要程度。在一些实施例中,权重预测值可以为数字、百分比等。例如,权重预测值可以为数字“1”、“2”、“3”等,其中数字值越大对应词语的权重预测值越大,表示该词语在文本中越重要。
在一些实施例中,权重子模型的输入可以为向量化模型输出的词向量,输出可以为词语的文本权重预测值。
步骤430,基于损失函数调整词语权重模型的预测结果。
在一些实施例中,处理设备可以基于损失函数优化词语权重模型参数,以使得词语权重模型的预测结果更加准确。具体地,处理设备可以将损失函数设置为初始模型的学习目标,以提高模型输出结果的准确性。例如,处理设备可以将loss(y,y')=y'*logy+(1-y')*log(1-y)设定为权重子模型的学习目标。其中,y可以表示权重子模型输出的文本权重预测值,y'可以表示文本权重标识值。例如,文本权重标识值可以取值为1或0,1可以表示词语在文本中重要性较高,0可以表示词语在文本中重要性较低。文本权重标识值可以基于文本的重要性标识获得。
在一些实施例中,处理设备可以将训练数据输入初始词语权重模型,将损失函数作为词语权重模型的学习目标,获得训练好的词语权重模型。
应当注意的是,上述有关方法400的描述仅仅是为了示例和说明,而不限定本申请的适用范围。对于本领域技术人员来说,在本申请的指导下可以对方法400进行各种修正和改变。然而,这些修正和改变仍在本申请的范围之内。
在一些实施例中,训练好的词语权重模型可以应用于智能交互、智能检索等场景中。
在一些实施例中,处理设备可以获取被检索文本。被检索文本可以为检索数据中的文本。例如,被检索文本可以为智能交互中,机器客服的答案数据库中的文本。处理设备可以通过训练好的词语权重模型确定被检索文本中词语的权重,并基于被检索文本中词语的权重确定被检索文本的检索关键词。
在一些实施例中,处理设备可以将权重值最大,或权重值排名topN的词语确定为被检索文本的检索关键词。例如,处理设备可以确定机器客服答案数据库某文本中每个词语的权重,将权重值最高的词语确定为该被检索文本的关键词。
处理设备可以基于被检索文本中的检索关键词确定至少一个检索结果。例如,若用户提问为“这款意外险何时生效”,该提问中关键词为“意外险”和“生效”,处理设备可以从智能客服数据库中,获取与“意外险”和/或“生效”相似的检索关键词对应的被检索文本确定为检索结果,并将其作为智能客服的答复输出给用户。
在一些实施例中,处理设备可以获取第一文本和第二文本。第一文本和第二文本可以分别为检索场景或智能交互场景中的检索文本和与检索文本可能相关的候选文本。例如,智能交互场景中,可以将用户提问作为第一文本,第二文本可以为在机器客服答案数据库中检索到的与用户提问可能相关的答案。
处理设备可以基于训练好的词语权重模型确定第一文本中词语的权重,以及第二文本中词语的权重。具体地,可以将第一文本和第二文本作为词语权重模型的输入,分别输入词语权重模型,基于词语权重模型的输出获得第一文本中词语的权重,以及第二文本中词语的权重。
在一些实施例中,处理设备可以基于第一文本和第二文本中词语的权重,计算第一文本和第二文本的向量距离。例如,处理设备可以在计算过程中将每个词语的权重值作为该词语的系数,以计算两个文本的向量距离。向量距离可以反映第一文本和第二文本的相似度。其中,距离与相似度负相关,即距离越大,相似度越小。在一些实施例中,向量距离可以包括但不限于余弦距离、欧式距离、曼哈顿距离、马氏距离或闵可夫斯基距离等。
在一些实施例中,处理设备可以基于向量距离确定第一文本和第二文本是否匹配。在一些实施例中,处理设备可以通过设置距离阈值确定第一文本和第二文本是否匹配。例如,可以设置第一阈值,当第一文本和第二文本的向量距离大于第一阈值时,表示两个文本之间的相似度可能较低,则确定第一文本和第二文本不匹配;反之,如果向量距离小于第一阈值,则确定第一文本和第二文本之间匹配。
在一些实施例中,处理设备可以基于第一文本和第二文本的匹配结果,确定检索结果。例如,若第一文本为用户提问,第二文本为从数据库中检索到的与第一文本相关的机器客服的候选答案,则可以将与第一文本匹配的第二文本作为智能客服的答案用以答复用户。
可以理解,上述相关描述仅作为示例,并非对本说明书的限制。在一些替代性实施例中,训练好的词语权重模型可以用于其他任意合理的场景,检索结果或匹配结果可以通过其他任意可行的方式获得。
在一些实施例中,训练词语权重模型***(如训练词语权重模型***100)可以包括获取模块、判断模块、标记模块、训练模块、确定模块和匹配模块等。
获取模块可以用于获取多个文本对。判断模块可以用于判断文本对中两个文本之间是否匹配,得到匹配结果。
标记模块可以用于基于匹配结果确定文本对中文本的词语的重要性标识,得到含有重要性标识的多个文本对。标记模块还可以用于判断文本对的两个文本是否匹配,并进行以下处理中的一种或多种:处理一:若两个文本不匹配,则对两个文本中的不同词语做出第一标记;处理二:若两个文本不匹配,则对两个文本中的相同词语做出第二标记;处理三:若两个文本匹配,则对两个文本中的相同词语做出第一标记;处理四:若两个文本匹配,则对两个文本中的不同词语做出第二标记。
训练模块可以用于基于多个训练数据训练词语权重模型,训练数据来源于含有重要性标识的多个文本对中的文本。
确定模块可以用于获取被检索文本,基于词语权重模型确定被检索文本中词语的权重;并基于被检索文本中词语的权重确定被检索文本的检索关键词,基于检索关键词确定至少一个检索结果。
匹配模块可以用于获取第一文本和第二文本,基于词语权重模型确定第一文本中词语的权重,以及基于词语权重模型确定第二文本中词语的权重;基于第一文本和第二文本中词语的权重,计算第一文本和第二文本的向量距离;并基于向量距离确定第一文本和第二文本是否匹配。
更多关于获取模块、判断模块、标记模块、训练模块、确定模块和匹配模块的描述可以参见本说明书其他地方(例如,图2、图3及其相关描述),在此不再赘述。需要注意的是,以上对于训练词语权重模型***及其模块的描述,仅为描述方便,并不能把本说明书限制在所举实施例范围之内。
本说明书实施例可能带来的有益效果包括但不限于:(1)通过文本匹配结果学习文本中词语的权重,可以减少人工成本,提高权重确定效率;(2)通过文本匹配与文本不匹配分别采用不同的词语重要性标识方式,可以提高确定词语在文本中权重的准确性。需要说明的是,不同实施例可能产生的有益效果不同,在不同的实施例里,可能产生的有益效果可以是以上任意一种或几种的组合,也可以是其他任何可能获得的有益效果。
上文已对基本概念做了描述,显然,对于本领域技术人员来说,上述详细披露仅仅作为示例,而并不构成对本说明书的限定。虽然此处并没有明确说明,本领域技术人员可能会对本说明书进行各种修改、改进和修正。该类修改、改进和修正在本说明书中被建议,所以该类修改、改进、修正仍属于本说明书示范实施例的精神和范围。
同时,本说明书使用了特定词语来描述本说明书的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本说明书至少一个实施例相关的某一特征、结构或特点。因此,应强调并注意的是,本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一个替代性实施例”并不一定是指同一实施例。此外,本说明书的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。
此外,本领域技术人员可以理解,本说明书的各方面可以通过若干具有可专利性的种类或情况进行说明和描述,包括任何新的和有用的工序、机器、产品或物质的组合,或对他们的任何新的和有用的改进。相应地,本说明书的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“***”。此外,本说明书的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品,该产品包括计算机可读程序编码。
计算机存储介质可能包含一个内含有计算机程序编码的传播数据信号,例如在基带上或作为载波的一部分。该传播信号可能有多种表现形式,包括电磁形式、光形式等,或合适的组合形式。计算机存储介质可以是除计算机可读存储介质之外的任何计算机可读介质,该介质可以通过连接至一个指令执行***、装置或设备以实现通讯、传播或传输供使用的程序。位于计算机存储介质上的程序编码可以通过任何合适的介质进行传播,包括无线电、电缆、光纤电缆、RF、或类似介质,或任何上述介质的组合。
本说明书各部分操作所需的计算机程序编码可以用任意一种或多种程序语言编写,包括面向对象编程语言如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB.NET、Python等,常规程序化编程语言如C语言、VisualBasic、Fortran2003、Perl、COBOL2002、PHP、ABAP,动态编程语言如Python、Ruby和Groovy,或其他编程语言等。该程序编码可以完全在用户计算机上运行、或作为独立的软件包在用户计算机上运行、或部分在用户计算机上运行部分在远程计算机运行、或完全在远程计算机或处理设备上运行。在后种情况下,远程计算机可以通过任何网络形式与用户计算机连接,比如局域网(LAN)或广域网(WAN),或连接至外部计算机(例如通过因特网),或在云计算环境中,或作为服务使用如软件即服务(SaaS)。
此外,除非权利要求中明确说明,本说明书所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用,并非用于限定本说明书流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例,但应当理解的是,该类细节仅起到说明的目的,附加的权利要求并不仅限于披露的实施例,相反,权利要求旨在覆盖所有符合本说明书实施例实质和范围的修正和等价组合。例如,虽然以上所描述的***组件可以通过硬件设备实现,但是也可以只通过软件的解决方案得以实现,如在现有的处理设备或移动设备上安装所描述的***。
同理,应当注意的是,为了简化本说明书披露的表述,从而帮助对一个或多个发明实施例的理解,前文对本说明书实施例的描述中,有时会将多种特征归并至一个实施例、附图或对其的描述中。但是,这种披露方法并不意味着本说明书对象所需要的特征比权利要求中提及的特征多。实际上,实施例的特征要少于上述披露的单个实施例的全部特征。
一些实施例中使用了描述成分、属性数量的数字,应当理解的是,此类用于实施例描述的数字,在一些示例中使用了修饰词“大约”、“近似”或“大体上”来修饰。除非另外说明,“大约”、“近似”或“大体上”表明所述数字允许有±20%的变化。相应地,在一些实施例中,说明书和权利要求中使用的数值参数均为近似值,该近似值根据个别实施例所需特点可以发生改变。在一些实施例中,数值参数应考虑规定的有效数位并采用一般位数保留的方法。尽管本说明书一些实施例中用于确认其范围广度的数值域和参数为近似值,在具体实施例中,此类数值的设定在可行范围内尽可能精确。
针对本说明书引用的每个专利、专利申请、专利申请公开物和其他材料,如文章、书籍、说明书、出版物、文档等,特此将其全部内容并入本说明书作为参考。与本说明书内容不一致或产生冲突的申请历史文件除外,对本说明书权利要求最广范围有限制的文件(当前或之后附加于本说明书中的)也除外。需要说明的是,如果本说明书附属材料中的描述、定义、和/或术语的使用与本说明书所述内容有不一致或冲突的地方,以本说明书的描述、定义和/或术语的使用为准。
最后,应当理解的是,本说明书中所述实施例仅用以说明本说明书实施例的原则。其他的变形也可能属于本说明书的范围。因此,作为示例而非限制,本说明书实施例的替代配置可视为与本说明书的教导一致。相应地,本说明书的实施例不仅限于本说明书明确介绍和描述的实施例。

Claims (12)

1.一种训练词语权重模型的方法,包括:
获取多个文本对;
判断所述文本对中两个文本之间是否匹配,得到匹配结果;
基于所述匹配结果确定所述文本对中文本的词语的重要性标识,得到含有所述重要性标识的多个文本对,其中,若所述匹配结果为不匹配,则所述两个文本中的不同词语标记的重要性高于相同词语的标记的重要性;若所述匹配结果为匹配,则所述两个文本中的相同词语标记的重要性高于不同词语的标记的重要性;
基于多个训练数据训练词语权重模型,所述训练数据来源于含有所述重要性标识的多个文本对中的文本。
2.如权利要求1所述的方法,所述基于所述匹配结果确定所述文本对中文本的词的重要性标识,得到含有所述重要性标识的多个文本对,包括:
判断所述文本对的两个文本是否匹配,并进行以下处理中的一种或多种:
处理一:若所述两个文本不匹配,则对所述两个文本中的不同词语做出第一标记;
处理二:若所述两个文本不匹配,则对所述两个文本中的相同词语做出第二标记;
处理三:若所述两个文本匹配,则对所述两个文本中的相同词语做出第一标记;
处理四:若所述两个文本匹配,则对所述两个文本中的不同词语做出第二标记;
所述第一标记和所述第二标记为所述重要性标识,所述第一标记的重要性高于所述第二标记的重要性。
3.如权利要求1所述的方法,所述方法还包括:
所述词语权重模型包括向量化模型和权重子模型;
所述向量化模型对输入的文本中的词语进行向量表示,生成的向量包含所述词语的信息和所述词语在所述文本中的上下文信息;
所述权重子模型基于所述向量生成权重预测值。
4.如权利要求1所述的方法,所述方法还包括:
获取被检索文本;
基于所述词语权重模型确定所述被检索文本中词语的权重;
基于所述被检索文本中词语的权重确定所述被检索文本的检索关键词;
基于所述检索关键词确定至少一个检索结果。
5.如权利要求1所述的方法,所述方法还包括:
获取第一文本和第二文本;
基于所述词语权重模型确定所述第一文本中词语的权重,以及基于所述词语权重模型确定所述第二文本中词语的权重;
基于所述第一文本和所述第二文本中词语的权重,计算所述第一文本和所述第二文本的向量距离;
基于所述向量距离确定所述第一文本和所述第二文本是否匹配。
6.一种训练词语权重模型的***,包括:
获取模块,用于获取多个文本对;
判断模块,用于判断所述文本对中两个文本之间是否匹配,得到匹配结果;
标记模块,用于基于所述匹配结果确定所述文本对中文本的词语的重要性标识,得到含有所述重要性标识的多个文本对,其中,若所述匹配结果为不匹配,则所述两个文本中的不同词语标记的重要性高于相同词语的标记的重要性;若所述匹配结果为匹配,则所述两个文本中的相同词语标记的重要性高于不同词语的标记的重要性;
训练模块,用于基于多个训练数据训练词语权重模型,所述训练数据来源于含有所述重要性标识的多个文本对中的文本。
7.如权利要求6所述的***,所述标记模块进一步用于:
判断所述文本对的两个文本是否匹配,并进行以下处理中的一种或多种:
处理一:若所述两个文本不匹配,则对所述两个文本中的不同词语做出第一标记;
处理二:若所述两个文本不匹配,则对所述两个文本中的相同词语做出第二标记;
处理三:若所述两个文本匹配,则对所述两个文本中的相同词语做出第一标记;
处理四:若所述两个文本匹配,则对所述两个文本中的不同词语做出第二标记;
所述第一标记和所述第二标记为所述重要性标识,所述第一标记的重要性高于所述第二标记的重要性。
8.如权利要求6所述的***,所述词语权重模型包括向量化模型和权重子模型;
所述向量化模型对输入的文本中的词语进行向量表示,生成的向量包含所述词语的信息和所述词语在所述文本中的上下文信息;
所述权重子模型基于所述向量生成权重预测值。
9.如权利要求6所述的***,还包括确定模块,所述确定模块用于:
获取被检索文本;
基于所述词语权重模型确定所述被检索文本中词语的权重;
基于所述被检索文本中词语的权重确定所述被检索文本的检索关键词;
基于所述检索关键词确定至少一个检索结果。
10.如权利要求6所述的***,还包括匹配模块,所述匹配模块用于:
获取第一文本和第二文本;
基于所述词语权重模型确定所述第一文本中词语的权重,以及基于所述词语权重模型确定所述第二文本中词语的权重;
基于所述第一文本和所述第二文本中词语的权重,计算所述第一文本和所述第二文本的向量距离;
基于所述向量距离确定所述第一文本和所述第二文本是否匹配。
11.一种训练词语权重模型的装置,包括处理器,所述处理器用于执行如权利要求1~5中任一项所述的方法。
12.一种计算机可读存储介质,所述存储介质存储计算机指令,当计算机读取存储介质中的计算机指令后,计算机执行如权利要求1~5中任一项所述的方法。
CN202010409812.7A 2020-05-15 2020-05-15 一种训练词语权重模型的方法和*** Active CN111324722B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010409812.7A CN111324722B (zh) 2020-05-15 2020-05-15 一种训练词语权重模型的方法和***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010409812.7A CN111324722B (zh) 2020-05-15 2020-05-15 一种训练词语权重模型的方法和***

Publications (2)

Publication Number Publication Date
CN111324722A CN111324722A (zh) 2020-06-23
CN111324722B true CN111324722B (zh) 2020-08-14

Family

ID=71168218

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010409812.7A Active CN111324722B (zh) 2020-05-15 2020-05-15 一种训练词语权重模型的方法和***

Country Status (1)

Country Link
CN (1) CN111324722B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113609248A (zh) * 2021-08-20 2021-11-05 北京金山数字娱乐科技有限公司 词权重生成模型训练方法及装置、词权重生成方法及装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100583101C (zh) * 2008-06-12 2010-01-20 昆明理工大学 基于领域知识的文本分类特征选择及权重计算方法
CN105975459B (zh) * 2016-05-24 2018-09-21 北京奇艺世纪科技有限公司 一种词项的权重标注方法和装置
CN108304424B (zh) * 2017-03-30 2021-09-07 腾讯科技(深圳)有限公司 文本关键词提取方法及文本关键词提取装置
CN108334533B (zh) * 2017-10-20 2021-12-24 腾讯科技(深圳)有限公司 关键词提取方法和装置、存储介质及电子装置
CN108509638B (zh) * 2018-04-11 2023-06-27 联想(北京)有限公司 一种问题提取方法及电子设备

Also Published As

Publication number Publication date
CN111324722A (zh) 2020-06-23

Similar Documents

Publication Publication Date Title
CN109815487A (zh) 文本质检方法、电子装置、计算机设备及存储介质
CN107491547A (zh) 基于人工智能的搜索方法和装置
CN109408821B (zh) 一种语料生成方法、装置、计算设备及存储介质
CN109460457A (zh) 文本语句相似度计算方法、智能政务辅助解答***及其工作方法
CN110704586A (zh) 一种信息处理方法及***
CN111353033B (zh) 一种训练文本相似度模型的方法和***
CN111309887B (zh) 一种训练文本关键内容提取模型的方法和***
US11461613B2 (en) Method and apparatus for multi-document question answering
CN117290492A (zh) 知识库问答方法、装置、电子设备及存储介质
CN111046147A (zh) 一种问答方法、装置及终端设备
CN111582500A (zh) 一种提高模型训练效果的方法和***
CN111324738B (zh) 一种确定文本标签的方法和***
CN113377936A (zh) 智能问答方法、装置及设备
CN113821622B (zh) 基于人工智能的答案检索方法、装置、电子设备及介质
CN111767375A (zh) 语义召回方法、装置、计算机设备及存储介质
CN114647713A (zh) 基于虚拟对抗的知识图谱问答方法、设备及存储介质
CN113821527A (zh) 哈希码的生成方法、装置、计算机设备及存储介质
CN115374259A (zh) 一种问答数据挖掘方法、装置及电子设备
CN111324722B (zh) 一种训练词语权重模型的方法和***
CN111198949B (zh) 一种文本标签确定方法和***
CN112132269B (zh) 模型处理方法、装置、设备及存储介质
CN111353290B (zh) 一种自动响应用户询问的方法和***
CN111611796A (zh) 下位词的上位词确定方法、装置、电子设备及存储介质
CN114398482A (zh) 一种词典构造方法、装置、电子设备及存储介质
CN115757694A (zh) 招聘行业文本召回方法及***、设备与介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant