CN112434524A

CN112434524A - 一种文本信息处理方法、装置、电子设备及存储介质

Info

Publication number: CN112434524A
Application number: CN202011308053.1A
Authority: CN
Inventors: 牛力强
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-11-20
Filing date: 2020-11-20
Publication date: 2021-03-02

Abstract

本发明提供了一种文本信息处理方法、装置、电子设备、存储介质，方法包括：获取待处理文本信息；对所述待处理文本信息进行分词处理，确定至少一个候选关键词向量；对候选关键词向量进行动态调整，形成候选关键词向量集合，通过深度强化学习网络，基于所述候选关键词向量集合与奖励值参数，确定与所述待处理文本信息相匹配的关键词抽取策略；基于所述关键词抽取策略对所述候选关键词向量集合进行抽取，获得至少一个关键词向量作为所述待处理文本信息的关键词，由此，减少关键词提取中对词粒度的依赖，使得所提取的待处理文本信息的关键词适用不同的使用场景，提高用户的使用体验。

Description

一种文本信息处理方法、装置、电子设备及存储介质

技术领域

本发明涉及信息处理技术，尤其涉及文本信息处理方法、装置、电子设备及存储介质。

背景技术

人机交互(HCI Human–Computer Interaction)是指人与计算机之间使用某种对话语言，以一定的交互方式确定人与计算机之间的信息交换过程。随着人机交互技术的发展，越来越多的基于人机交互技术的智能产品应运而生，例如聊天机器人(chatter bot)等。这些智能产品可以和用户进行聊天交流，并根据用户的问题生成相应的回答信息。其中，问题文本Query的理解在搜索引擎、对话***等NLP领域是核心技术，更准确的理解用户的请求，***才可以更好给出对应的答案。Query通常是一段文本或者是一句话经过语音识别之后得到的文本，而query关键词的抽取对于query的理解起着重要的作用。

传统的关键词提取主要是先经过一些预处理(如中文分词)，之后基于统计模型和序列标注模型给每个候选词打分，最后选相应的关键词使用，但这一过程所选取的关键词精确度较低，影响了人工智能对问题文本的处理，导致处理结果精确性较差。

发明内容

有鉴于此，本发明实施例提供一种文本信息处理方法、装置、电子设备及存储介质，能够实现问题文本的处理效果更加准确，减少关键词提取中对词粒度的依赖，使得所提取的待处理文本信息的关键词适用不同的使用场景，减少问题语句中的关联信息对关键词提取的影响，提高用户的使用体验。

本发明实施例的技术方案是这样实现的：

本发明实施例提供了一种文本信息处理方法，包括：

获取待处理文本信息；

对所述待处理文本信息进行分词处理，确定至少一个候选关键词向量；

通过词向量处理网络，对候选关键词向量进行动态调整，形成候选关键词向量集合，以及与所述候选关键词向量集合中的不同关键词向量所分别对应的奖励值参数；

通过深度强化学习网络，基于所述候选关键词向量集合与奖励值参数，确定与所述待处理文本信息相匹配的关键词抽取策略；

基于所述关键词抽取策略对所述候选关键词向量集合进行抽取，获得至少一个关键词向量作为所述待处理文本信息的关键词。

本发明实施例还提供了一种文本信息处理装置，包括：

信息传输模块，用于获取待处理文本信息；

信息处理模块，用于对所述待处理文本信息进行分词处理，确定至少一个候选关键词向量；

所述信息处理模块，用于通过词向量处理网络，对候选关键词向量进行动态调整，形成候选关键词向量集合，以及与所述候选关键词向量集合中的不同关键词向量所分别对应的奖励值参数；

所述信息处理模块，用于通过深度强化学习网络，基于所述候选关键词向量集合与奖励值参数，确定与所述待处理文本信息相匹配的关键词抽取策略；

所述信息处理模块，用于基于所述关键词抽取策略对所述候选关键词向量集合进行抽取，获得至少一个关键词向量作为所述待处理文本信息的关键词。

上述方案中，

所述信息处理模块，用于根据所述待处理文本信息所携带的问题文本参数信息，触发相应的分词库；

所述信息处理模块，用于通过所触发的所述分词库单词词典对所述问题文本进行分词处理，形成不同的词语级问题文本；

所述信息处理模块，用于对所述不同的词语级问题文本进行除噪处理，形成与所述问题文本相对应的词语级特征向量集合，其中，所述词语级特征向量集合中包括至少一个候选关键词向量。

上述方案中，

所述信息处理模块，用于确定对所述问题文本进行分词处理时所使用的分词库的名称；

所述信息处理模块，用于根据与所述分词库的名称，确定与所述问题文本相对应的词语级特征向量相匹配的分词库的参数，其中，所述分词库的参数包括：

所述分词库的种类、所述分词库的名称和所述分词库的版本。

上述方案中，

所述信息处理模块，用于确定与所述词向量处理网络的使用环境相匹配的动态噪声阈值；

所述信息处理模块，用于根据所述动态噪声阈值对所述问题文本集合进行去噪处理，并触发与所述动态噪声阈值相匹配的动态分词策略；

所述信息处理模块，用于根据与所述动态噪声阈值相匹配的动态分词策略，对所述问题文本进行分词处理，形成与所述问题文本相对应的动态词语级特征向量集合。

上述方案中，

所述信息处理模块，用于确定与所述词向量处理网络的使用环境相对应的固定噪声阈值；

所述信息处理模块，用于根据所述固定噪声阈值对所述问题文本集合进行去噪处理，并触发与所述固定噪声阈值相匹配的固定分词策略；

所述信息处理模块，用于根据与所述固定噪声阈值相匹配的固定分词策略，对所述问题文本进行分词处理，与所述问题文本相对应的固定词语级特征向量集合。

上述方案中，

所述信息处理模块，用于通过所述词向量处理网络，利用蒙特卡罗树搜索算法对所述候选关键词向量进行删除与合并，实现对所述候选关键词向量进行动态调整；

所述信息处理模块，用于确定所述候选关键词向量集合中的每一个候选关键词向量在标准语料库中出现的次数信息；

所述信息处理模块，用于确定每一个候选关键词向量相匹配的字符向量在所述标准语料库中出现的次数信息；

所述信息处理模块，用于基于所述候选关键词向量在标准语料库中出现的次数信息以及字符向量在所述标准语料库中出现的次数信息，确定所述候选关键词向量集合中的不同关键词向量所分别对应的奖励值参数。

上述方案中，

所述信息处理模块，用于通过深度强化学习网络，基于所述候选关键词向量集合与奖励值参数，确定通过所述深度强化学习网络的策略子网络抽取与所述待处理文本信息相匹配的关键词，或者

所述信息处理模块，用于确定通过所述深度强化学习网络的价值子网络抽取与所述待处理文本信息相匹配的关键词。

上述方案中，

所述信息处理模块，用于通过所述奖励值参数，确定与所述深度强化学习网络的策略子网络相匹配的权重参数；

所述信息处理模块，用于响应于所述权重参数，通过所述深度强化学习网络的策略子网络，根据所述候选关键词向量集合生成与所述待处理文本信息相对应的关键词以及所述关键词的被选取概率；

所述信息处理模块，用于根据所述关键词的被选取概率，获得至少一个关键词向量作为所述待处理文本信息的关键词。

上述方案中，

所述信息处理模块，用于通过所述奖励值参数，确定与所述深度强化学习网络的价值子网络相匹配的状态动作值函数；

所述信息处理模块，用于响应于所述状态动作值函数，通过所述深度强化学习网络的价值子网络，根据所述候选关键词向量集合以及相应关键词向量的状态值，生成与所述待处理文本信息相对应的关键词以及所述关键词的被选取概率；

上述方案中，

所述信息处理模块，用于确定与所述待处理文本信息的使用环境的特征；

所述信息处理模块，用于在数据源中，获取与所述待处理文本信息的使用环境的特征相匹配的训练样本集合；

根据与所述训练样本相匹配的特征集合和相应的问题文本标签对所深度强化学所述信息处理模块，用于习网络进行训练，以实现确定与所述深度强化学习网络中的价值子网络和策略子网络相适配的模型参数。

本发明实施例还提供了一种电子设备，所述电子设备包括：

存储器，用于存储可执行指令；

处理器，用于运行所述存储器存储的可执行指令时，实现前序的文本信息处理方法。

本发明实施例还提供了一种计算机可读存储介质，存储有可执行指令，其特征在于，所述可执行指令被处理器执行时实现前序的文本信息处理方法。

本发明实施例具有以下有益效果：

本发明通过获取待处理文本信息；对所述待处理文本信息进行分词处理，确定至少一个候选关键词向量；通过词向量处理网络，对候选关键词向量进行动态调整，形成候选关键词向量集合，以及与所述候选关键词向量集合中的不同关键词向量所分别对应的奖励值参数；通过深度强化学习网络，基于所述候选关键词向量集合与奖励值参数，确定与所述待处理文本信息相匹配的关键词抽取策略；基于所述关键词抽取策略对所述候选关键词向量集合进行抽取，获得至少一个关键词向量作为所述待处理文本信息的关键词，由此能够实现问题文本的处理效果更加准确，减少关键词提取中对词粒度的依赖，使得所提取的待处理文本信息的关键词适用不同的使用场景，减少问题语句中的关联信息对关键词提取的影响，提高用户的使用体验。

附图说明

图1为本发明实施例提供的文本信息处理方法的使用场景示意图；

图2为本发明实施例提供的文本信息处理装置的组成结构示意图；

图3为本发明实施例中问题文本关键词提取过程示意图；

图4为本发明实施例提供的文本信息处理方法一个可选的流程示意图；

图5为本发明实施例中通过小程序进行文本信息处理的示意图；

图6为本发明实施例提供的文本信息处理方法一个可选的流程示意图；

图7为本发明实施例中文本信息处理效果示意图；

图8为本发明实施例中文本信息处理效果示意图；

图9为本发明实施例中文本信息处理一个可选的过程示意图；

图10为本发明实施例中文本信息处理方法一个可选的数据结构示意图；

图11为本发明实施例中的蒙特卡罗树搜索算法处理示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，所描述的实施例不应视为对本发明的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

对本发明实施例进行进一步详细说明之前，对本发明实施例中涉及的名词和术语进行说明，本发明实施例中涉及的名词和术语适用于如下的解释。

1)响应于，用于表示所执行的操作所依赖的条件或者状态，当满足所依赖的条件或状态时，所执行的一个或多个操作可以是实时的，也可以具有设定的延迟；在没有特别说明的情况下，所执行的多个操作不存在执行先后顺序的限制。

2)分词：又称切词，起作用为把一个完整的句子的文本信息切分成多个词，例如：XX是个中国歌手。分词后的结果为：XX、中国、歌手。

3)分词库：又称切词库，指一种特定的分词方法，不同的分词库各自对应的单词字典，并可以根据各自对应的单词字典对相应的文本信息进行分词处理。

4)token：词单元，对输入文本做任何实际处理前，都需要将其分割成诸如词、标点符号、数字或纯字母数字等语言单元。这些单元被称为词单元。

5)Softmax：归一化指数函数，是逻辑函数的一种推广。它能将一个含任意实数的K维向量“压缩”到另一个K维实向量中，使得每一个元素的范围都在[0，1]之间，并且所有元素的和为1。

6)模型训练，对图像数据集进行多分类学习。该模型可采用Tensor Flow、torch等深度学习框架进行构建，使用CNN等神经网络层的多层结合组成多分类模型。模型的输入为图像经过openCV等工具读取形成的三通道或原通道矩阵，模型输出为多分类概率，通过softmax等算法最终输出网页类别。在训练时，模型通过交叉熵等目标函数向正确趋势逼近。

7)神经网络(Neural Network，NN)：人工神经网络(Artificial Neural Network，ANN)，简称神经网络或类神经网络，在机器学习和认知科学领域，是一种模仿生物神经网络(动物的中枢神经***，特别是大脑)的结构和功能的数学模型或计算模型，用于对函数进行估计或近似。

8)编码器-解码器结构：机器翻译技术常用的网络结构。由编码器和解码器两部分组成，编码器将输入的文本转换为一系列能够表达输入文本特征的上下文向量，解码器接收编码器输出的结果作为自己的输入，输出对应的另一种语言的文本序列。

9)小程序(Mini Program)，是一种基于面向前端的语言(例如JavaScript)开发的、在超文本标记语言(HTML，Hyper Text Markup Language)页面中实现服务的程序，由客户端(例如浏览器或内嵌浏览器核心的任意客户端)经由网络(如互联网)下载、并在客户端的浏览器环境中解释和执行的软件，节省在客户端中安装的步骤。例如，通过语音指令唤醒终端中的小程序实现在社交网络客户端中可以下载、运行用于实现机票购买、任务处理与制作、数据展示等各种服务的小程序。

10)query文本：智能助手中用户输入的一个请求语句，通常只包含用户的一个意图期望。例如：“来一首刘德华的冰雨”；“给我讲愚公移山的故事”；“我想看电影无间道”等等。

图1为本发明实施例提供的文本信息处理方法的使用场景示意图，参见图1，终端(包括终端10-1和终端10-2)上设置有能够执行不同功能相应客户端其中，所属客户端为终端(包括终端10-1和终端10-2)通过网络300从相应的服务器200中获取不同的文章进行浏览或者获得服务器中所保存的小程序或者公众号，当终端运行即时通讯客户端进程时，可以通过所提供的搜索功能根据关键词搜索朋友圈、小程序、文章、公众号、小说、音乐、表情等不同内容，也可以搜索互联中的任意类型的资源。终端通过网络300连接服务器200，网络300可以是广域网或者局域网，又或者是二者的组合，使用无线链路实现数据传输，其中，终端(包括终端10-1和终端10-2)通过网络300从相应的服务器200中所获取的文章类型并不相同，例如：终端(包括终端10-1和终端10-2)既可以通过网络300从相应的服务器200中获取与检索指令A相匹配的小程序或公众号，也可以通过网络300从相应的服务器200中获取仅与检索指令A相匹配的文章进行浏览。这一过程中，用户通过所设置的语音识别软件客户端可以输入相应的待语音识别语句作为搜索指令，聊天客户端也可以接收相应的语音识别结果，并将所接收的作为搜索指令的语音识别结果(问题文本)向用户进行展示，或者执行与问题文本相匹配的任务。

在本发明的一些实施例中，服务器200中所保存的不同类型的小程序可以是在不同编程语言的软件代码环境中所编写的，代码对象可以是不同类型的代码实体。例如，在C语言的软件代码中，一个代码对象可以是一个函数。在JAVA语言的软件代码中，一个代码对象可以是一个类，IOS端OC语言中可以是一段目标代码。在C++语言的软件代码中，一个代码对象可以是一个类或一个函数以执行来自于不同终端的问题文本。其中本申请中不再对检索指令的来源进行区分。其中，即时通讯客户端进程中小程序可以触发搜索引擎，小程序(Mini Program)，是一种基于面向前端的语言(例如JavaScript)开发的、在超文本标记语言(HTML，Hyper Text Markup Language)页面中实现服务的程序，由客户端(例如浏览器或内嵌浏览器核心的任意客户端)经由网络(如互联网)下载、并在客户端的浏览器环境中解释和执行的软件，节省在客户端中安装的步骤。例如，通过语音指令唤醒终端中的小程序实现在社交网络客户端中可以下载、运行用于实现机票购买、任务处理与制作、数据展示等各种服务的小程序。

服务器200根据终端识别的关键词通过网络300向终端(终端10-1和/或终端10-2)发送相应的搜索结果，因此。作为一个事例，终端10-1可以用于获取待处理文本信息；对所述待处理文本信息进行分词处理，确定至少一个候选关键词向量；通过词向量处理网络，对候选关键词向量进行动态调整，形成候选关键词向量集合，以及与所述候选关键词向量集合中的不同关键词向量所分别对应的奖励值参数；通过深度强化学习网络，基于所述候选关键词向量集合与奖励值参数，确定与所述待处理文本信息相匹配的关键词抽取策略；基于所述关键词抽取策略对所述候选关键词向量集合进行抽取，获得至少一个关键词向量作为所述待处理文本信息的关键词。

其中，本申请实施例所提供的文本信息处理方法是基于人工智能实现的，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

在本申请实施例中，主要涉及的人工智能软件技术包括上述语音处理技术和机器学习等方向。例如，可以涉及语音技术(Speech Technology)中的语音识别技术(AutomaticSpeech Recognition，ASR)，其中包括语音信号预处理(Speech signal preprocessing)、语音信号频域分析(Speech signal frequency analyzing)、语音信号特征提取(Speechsignal feature extraction)、语音信号特征匹配/识别(S peech signal featurematching/recognition)、语音的训练(Speech training)等。

例如可以涉及机器学习(Machine learning，ML)，机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习通常包括深度学习(Deep Learning)等技术，深度学习包括人工神经网络(artificial neural network)，例如卷积神经网络(ConvolutionalNeural Network，CNN)、循环神经网络(Recurrent Neural Network，RNN)、深度神经网络(Deep neural network，DNN)等。

可以理解的是，本申请提供的文本信息处理方法以及语音处理可以应用于智能设备(Intelligent device)上，智能设备可以是任何一种具有语音指令识别功能的设备，例如可以是智能终端、智能家居设备(如智能音箱、智能洗衣机等)、智能穿戴设备(如智能手表)、车载智能中控***(通过语音指令唤醒终端中执行不同任务的小程序)或者AI智能医疗设备(通过语音指令进行唤醒触发)等。

下面对本发明实施例的文本信息处理装置的结构做详细说明，文本信息处理装置可以各种形式来实施，如带有文本信息处理功能的专用终端，也可以为设置有文本信息处理功能的服务器，例如前序图1中的服务器200。图2为本发明实施例提供的文本信息处理装置的组成结构示意图，可以理解，图2仅仅示出了文本信息处理装置的示例性结构而非全部结构，根据需要可以实施图2示出的部分结构或全部结构。

本发明实施例提供的文本信息处理装置包括：至少一个处理器201、存储器202、用户接口203和至少一个网络接口204。文本信息处理装置中的各个组件通过总线***205耦合在一起。可以理解，总线***205用于实现这些组件之间的连接通信。总线***205除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线***205。

其中，用户接口203可以包括显示器、键盘、鼠标、轨迹球、点击轮、按键、按钮、触感板或者触摸屏等。

可以理解，存储器202可以是易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。本发明实施例中的存储器202能够存储数据以支持终端(如10-1)的操作。这些数据的示例包括：用于在终端(如10-1)上操作的任何计算机程序，如操作***和应用程序。其中，操作***包含各种***程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序可以包含各种应用程序。

在一些实施例中，本发明实施例提供的文本信息处理装置可以采用软硬件结合的方式实现，作为示例，本发明实施例提供的文本信息处理装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本发明实施例提供的文本信息处理方法。例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，Application SpecificIntegrated Circuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，Complex Programmable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)或其他电子元件。

作为本发明实施例提供的文本信息处理装置采用软硬件结合实施的示例，本发明实施例所提供的文本信息处理装置可以直接体现为由处理器201执行的软件模块组合，软件模块可以位于存储介质中，存储介质位于存储器202，处理器201读取存储器202中软件模块包括的可执行指令，结合必要的硬件(例如，包括处理器201以及连接到总线205的其他组件)完成本发明实施例提供的文本信息处理方法。

作为示例，处理器201可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

作为本发明实施例提供的文本信息处理装置采用硬件实施的示例，本发明实施例所提供的装置可以直接采用硬件译码处理器形式的处理器201来执行完成，例如，被一个或多个应用专用集成电路(ASIC，Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，ComplexProgrammable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable GateArray)或其他电子元件执行实现本发明实施例提供的文本信息处理方法。

本发明实施例中的存储器202用于存储各种类型的数据以支持文本信息处理装置的操作。这些数据的示例包括：用于在文本信息处理装置上操作的任何可执行指令，如可执行指令，实现本发明实施例的从文本信息处理方法的程序可以包含在可执行指令中。

在另一些实施例中，本发明实施例提供的文本信息处理装置可以采用软件方式实现，图2示出了存储在存储器202中的文本信息处理装置，其可以是程序和插件等形式的软件，并包括一系列的模块，作为存储器202中存储的程序的示例，可以包括文本信息处理装置，文本信息处理装置中包括以下的软件模块信息传输模块2081和信息处理模块2082。当文本信息处理装置中的软件模块被处理器201读取到RAM中并执行时，将实现本发明实施例提供的文本信息处理方法，下面介绍本发明实施例中文本信息处理装置中各个软件模块的功能，

其中，

信息传输模块2081，用于获取待处理文本信息。

信息处理模块2082，用于对所述待处理文本信息进行分词处理，确定至少一个候选关键词向量。

所述信息处理模块2082，用于通过词向量处理网络，对候选关键词向量进行动态调整，形成候选关键词向量集合，以及与所述候选关键词向量集合中的不同关键词向量所分别对应的奖励值参数。

所述信息处理模块2082，用于通过深度强化学习网络，基于所述候选关键词向量集合与奖励值参数，确定与所述待处理文本信息相匹配的关键词抽取策略。

所述信息处理模块2082，用于基于所述关键词抽取策略对所述候选关键词向量集合进行抽取，获得至少一个关键词向量作为所述待处理文本信息的关键词。

根据图2所示的电子设备，在本申请的一个方面中，本申请还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述文本信息处理方法的各种可选实现方式中所提供的不同实施例及实施例的组合。

结合图2示出的文本信息处理装置说明本发明实施例提供的文本信息处理装置方法，在介绍本发明实施例提供的文本信息处理装置方法之前，首先介绍相关技术中实现关键词的提取的过程，图3为本发明实施例中问题文本关键词提取过程示意图，具体可以使用中文分词与统计模型处理，下面以原始问题文本为“中老年人遇到动脉硬化怎么办”为例进行说明，传统技术的处理过程包括：通过分词处理形成候选词：中，老年人，遇到，动脉，硬化，怎么办，之后(1)统计词频TF、逆文档频率IDF作为候选词的权重；(2)利用LDA等主题模型选取主题、主题词及其概率值；(3)基于图结构来计算，候选词作为图的节点，通过PageRank等方法计算候选词的权重；通过序列标注模型对于每个候选词标注作为关键词的概率，根据候选词的权重或者概率来选择top k作为关键词，例如得到关键词是“老年人、动脉、硬化”。这一过程的缺陷在于，依赖分词的结果有两个方面的问题：(1)过于依赖分词的结果，分词往往带来一些粒度较细的错误，比如这里没有分词得到“中老年人”而是“中”和“老年人”。(2)基于统计和序列标注模型，在词向量的层面，没有考虑到词与词的组合，如“动脉”和“硬化”应该合成一个关键词“动脉硬化”。

为了克服上述缺陷，参见图4，图4为本发明实施例提供的文本信息处理方法一个可选的流程示意图，可以理解地，图4所示的步骤可以由运行文本信息处理装置的各种电子设备执行，例如可以是如带有检索指令处理功能的专用终端、手机或者运行检索功能小程序的通信装置。下面针对图4示出的步骤进行说明。

步骤401：文本信息处理装置获取文本处理环境中的待处理文本信息。

其中，不同的文本处理环境中的待处理文本信息的来源可以不同，例如：在智能医疗终端中，待处理文本信息可以是辅助诊断的病历信息，也可以是病患所输入的体征信息和问题信息。在移动终端的媒资类使用环境中，待处理文本信息可以是智能音箱和车载智能***所向用户呈现的新闻文本信息。

步骤402：文本信息处理装置对所述待处理文本信息进行分词处理，确定至少一个候选关键词向量。

在本发明的一些实施例中，对所述待处理文本信息进行分词处理，确定至少一个候选关键词向量，可以通过以下方式实现：

根据所述待处理文本信息所携带的问题文本参数信息，触发相应的分词库；通过所触发的所述分词库单词词典对所述问题文本进行分词处理，形成不同的词语级问题文本；对所述不同的词语级问题文本进行除噪处理，形成与所述问题文本相对应的词语级特征向量集合，其中，所述词语级特征向量集合中包括至少一个候选关键词向量。其中，确定对所述问题文本进行分词处理时所使用的分词库的名称；根据与所述分词库的名称，确定与所述问题文本相对应的词语级特征向量相匹配的分词库的参数，其中，所述分词库的参数包括：所述分词库的种类、所述分词库的名称和所述分词库的版本。其中，参考图5，图5为本发明实施例中通过小程序进行文本信息处理的示意图，其中，结合前序实施例的描述，不同的终端设备(例如前序图1所示的终端10-1和/或终端10-2)可以在各自对应搜索界面上(例如网页、信息搜索APP和微信的搜索小程序)提供用于输入待搜索的关键词的搜索栏，以及用于对该待搜索的关键词进行数据搜索的搜索按键，用户通过语音指令在搜索栏中输入问题文本，当该终端设备检测到对该搜索按键的点击操作时，触发该服务器启动相应的分词指令，该分词指令携带该搜索栏中的关键词，该服务器接收该分词指令。或者，该终端设备在搜索界面上显示热门搜索关键词，当检测到对热门搜索关键词的点击操作时，该终端设备向该服务器发送该分词指令，该分词指令携带该热门搜索关键词，该服务器接收该分词指令。需要说明的是本发明实施例对该分词指令的触发方式不做限定。

其中，由于使用不同的分词库对同一文本信息处理时，所形成的词语级特征向量并不完全相同，因此据与所述分词库的名称，确定与所述搜索指令文本相对应的词语级特征向量相匹配的分词库的参数，实现确定对搜索指令文本进行分词所使用的分词库的参数，例如：搜索指令文本为“光阴的故事歌手A的mp3”使用分词库A进行处理后，形成与所述搜索指令文本相对应的词语级特征向量集合A(光阴的故事；歌手A的mp3)；使用分词库B进行处理后，形成与所述搜索指令文本相对应的词语级特征向量集合B(光阴的故事；歌手A；mp3)；使用分词库A1进行处理后，形成与所述搜索指令文本相对应的词语级特征向量集合A1(光阴；故事；歌手A；mp3)。

在本发明的一些实施例中，可以确定与所述词向量处理网络的使用环境相匹配的动态噪声阈值；根据所述动态噪声阈值对所述问题文本集合进行去噪处理，并触发与所述动态噪声阈值相匹配的动态分词策略；根据与所述动态噪声阈值相匹配的动态分词策略，对所述问题文本进行分词处理，形成与所述问题文本相对应的动态词语级特征向量集合。其中，由于电子设备的使用环境不同，与使用环境相匹配的动态噪声阈值也不相同，例如，移动终端的小程序对媒资类信息进行检索的使用环境中，与所述使用环境相匹配的动态噪声阈值需要小于智能音箱和车载智能***环境中的动态噪声阈值。

在本发明的一些实施例中，可以确定与所述词向量处理网络的使用环境相对应的固定噪声阈值；根据所述固定噪声阈值对所述问题文本集合进行去噪处理，并触发与所述固定噪声阈值相匹配的固定分词策略；根据与所述固定噪声阈值相匹配的固定分词策略，对所述问题文本进行分词处理，与所述问题文本相对应的固定词语级特征向量集合。其中，当词向量处理网络固化于相应的硬件机构中，例如医院中的智能分诊***时，使用环境为对医疗信息相关的口语指令进行处理与关键词提取时，由于噪声较为单一，通过固定词向量处理网络相对应的固定噪声阈值，能够有效提神词向量处理网络的训练速度，减少用户的等待时间，使得词向量处理网络更加适应医院的智能分诊使用环境。

步骤403：文本信息处理装置通过词向量处理网络，对候选关键词向量进行动态调整，形成候选关键词向量集合，以及与所述候选关键词向量集合中的不同关键词向量所分别对应的奖励值参数。

在本发明的一些实施例中，通过词向量处理网络，对候选关键词向量进行动态调整，形成候选关键词向量集合，以及与所述候选关键词向量集合中的不同关键词向量所分别对应的奖励值参数，可以通过以下方式实现：

通过所述词向量处理网络，利用蒙特卡罗树搜索算法对所述候选关键词向量进行删除与合并，实现对所述候选关键词向量进行动态调整；确定所述候选关键词向量集合中的每一个候选关键词向量在标准语料库中出现的次数信息；确定每一个候选关键词向量相匹配的字符向量在所述标准语料库中出现的次数信息；基于所述候选关键词向量在标准语料库中出现的次数信息以及字符向量在所述标准语料库中出现的次数信息，确定所述候选关键词向量集合中的不同关键词向量所分别对应的奖励值参数。具体来说，还可以根据所述待处理文本信息的文本处理环境，确定与所述文本处理环境相适配的词向量处理网络的模型参数，基于与所述文本处理环境相适配的词向量处理网络的模型参数，通过相匹配的蒙特卡罗树搜索算法对所述候选关键词向量进行删除或者合并，动态调整所述候选关键词向量的数量。其中，依旧以query＝“中老年人遇到动脉硬化怎么办”为例说明。其中，这里操作的对象是一对候选词，如“中”-“老年人”、“遇到”-“动脉”、“硬化”-“怎么办”等。所有候选词对完成操作之后组成一个集合，用<>表示集合，如<“中老年人”、“遇到”、“动脉”、“硬化”、“怎么办”>，具体每个候选词对可执行操作包括表1所示的以下几类：

表1

Action(动作)	具体说明和例子，以“动脉”-“硬化”为例
		NO_ACTION：无操作	“动脉”、“硬化”
MERGE_left：左合并	“动脉硬化”
		MERGE_right：右合并	“硬化动脉”
DELETE_left：左删除	“硬化”
		DELETE_right：右删除	“动脉”
DELETE_ALL：删除所有	“”

另外这里奖励reward的计算，可以首先有一个比较大的文章语料库，从中可以计算集合中每个词项(term)的在包含所有字的文章中的出现概率值。举例子说明，如词项“动脉”包含字“动”和“脉”，计算整个语料同时包含“动”和“脉的文章有m篇，且两者出现的频次分别是m1、m2，这m篇中“动脉”出现的文章数量为n，出现频次为n1，则“动脉”的奖励值参数reward计算参考公式1：

步骤404：文本信息处理装置通过深度强化学习网络，基于所述候选关键词向量集合与奖励值参数，确定与所述待处理文本信息相匹配的关键词抽取策略。

其中，可以通过深度强化学习网络，基于所述候选关键词向量集合与奖励值参数，确定通过所述深度强化学习网络的策略子网络抽取与所述待处理文本信息相匹配的关键词，或者确定通过所述深度强化学习网络的价值子网络抽取与所述待处理文本信息相匹配的关键词。

步骤405：文本信息处理装置基于所述关键词抽取策略对所述候选关键词向量集合进行抽取，获得至少一个关键词向量作为所述待处理文本信息的关键词。

继续参考图6，图6为本发明实施例提供的文本信息处理方法一个可选的流程示意图，可以理解地，图6所示的步骤可以由运行文本信息处理装置的各种终端执行，例如可以是如带有检索指令处理功能的专用终端或者运行智能检索小程序的电子设备。下面针对图6示出的步骤进行说明。

步骤601：通过所述奖励值参数，确定与所述深度强化学习网络的策略子网络相匹配的权重参数。

步骤602：当候选词向量状态固定时，响应于所述权重参数，通过所述深度强化学习网络的策略子网络，根据所述候选关键词向量集合生成与所述待处理文本信息相对应的关键词以及所述关键词的被选取概率。

步骤603：根据所述关键词的被选取概率，获得至少一个关键词向量作为所述待处理文本信息的关键词。

步骤604：通过所述奖励值参数，确定与所述深度强化学习网络的价值子网络相匹配的状态动作值函数。

步骤605：当候选词向量状态不固定时，响应于所述状态动作值函数，通过所述深度强化学习网络的价值子网络，根据所述候选关键词向量集合以及相应关键词向量的状态值，生成与所述待处理文本信息相对应的关键词以及所述关键词的被选取概率。

步骤606：根据所述关键词的被选取概率，获得至少一个关键词向量作为所述待处理文本信息的关键词。

由此，可以获得待处理文本信息的关键词。

进一步地，还可以确定与所述待处理文本信息的使用环境的特征；在数据源中，获取与所述待处理文本信息的使用环境的特征相匹配的训练样本集合；根据与所述训练样本相匹配的特征集合和相应的问题文本标签对所深度强化学习网络进行训练，以实现确定与所述深度强化学习网络中的价值子网络和策略子网络相适配的模型参数。

参考图7和图8，图7为本发明实施例中文本信息处理效果示意图，图8为本发明实施例中文本信息处理效果示意图，其中，显示用户界面，所述用户界面中包括以第一人称视角对即时通讯软件进程中的搜索功能小程序进行使用的视角画面，所述用户界面中还包括显示控制组件；通过所述显示控制组件，控制展示与用户通过语音所输入的问题文本相匹配的搜索结果。例如：用户在微信进程中通过语音指令输入问题文本为“明星A的歌曲电影电视剧有哪些”，通过本申请所提供的文本信息处理方法可以形成待处理文本信息的关键词“明星A”、“歌曲”、“电影”、“电视剧”，所提供的搜索结果为与关键词“明星A”、“歌曲”、“电影”、“电视剧”相关的搜索结果A1；或者参考图8，其中，如图8所示，短视频播放界面可以是相应的短视频APP中所展现的，也可以是通过微信小程序所触发的(深度强化学习网络可以经过训练后封装于相应的APP或以插件形式保存于微信小程序中)，短视频可以通过相应的应用程序响应于用户通过语音指令所输入的问题文本，并将推荐结果向用户进行推荐，有效的后续相关视频的推荐可以有效地提升用户的使用体验，用户在短视频进程中通过语音指令输入问题文本为“明星B今年的作品”通过本申请所提供的文本信息处理方法确定问题文本的关键词为“明星B”“今年的作品”，所提供的搜索结果为“明星B”的作品中标记为“今年的作品B1”。

图9为本发明实施例中文本信息处理一个可选的过程示意图，其中，当词向量处理网络固化于相应的硬件机构中，例如医院中的智能诊疗***时，使用环境为对医疗信息相关的口语指令进行处理与关键词提取时，用户通过输入语音指令作为问题文本，智能诊疗***通过本申请所提供的文本信息处理方法实现提取问题文本的关键词，并根据关键词获得相应的回复信息。以问题文本(query)为“中老年人遇到动脉硬化怎么办”说明智能诊疗***的文本信息处理方法。其中，具体包括以下步骤：

步骤901：对问题文本进行中文分词处理，得到候选词集合S。

其中，图10为本发明实施例中文本信息处理方法一个可选的数据结构示意图，具体来说，需要先利用蒙特卡罗树搜索算法来采样生成可能的关键词组合，其中蒙特卡罗树搜索(MCTS Monte Carlo Tree Search)是一类树搜索算法的统称，可以解决一些探索空间巨大的问题，例如：围棋算法都是基于MCTS实现的。蒙特卡罗树搜索是一种基于树数据结构、能权衡探索与利用、在搜索空间巨大仍然比较有效的搜索算法。当通过蒙特卡罗树搜索算法实现对候选关键词向量进行动态调整之后，计算不同的关键词向量对应的奖励值reward，之后利用深度强化学习网络(Deep RL)来学习策略网络。其中，深度强化学习网络包括：策略子网络policy network和价值子网络value network来执行抽取过程，以通过不同的关键词抽取策略确定与待处理文本信息相匹配的关键词。

步骤902：确定经过分词处理新增变量F，存储集合中所有词项对的操作状态，并确定初始操作状态为0。

其中，图11为本发明实施例中的蒙特卡罗树搜索算法处理示意图，对于待处理文本信息“中老年人遇到动脉硬化怎么办”，分词得到的初始候选词集合<“中”、“老年人”、“遇到”、“动脉”、“硬化”、“怎么办”>进行序列化的模拟操作，并且计算对应的奖励值reward，其中，蒙特卡罗树搜索算法的处理结果最终会生成一棵树形结构，树中每个节点表示一种组合可能性，同时每个节点有对应的value值，这里value值根据序列中每个节点的奖励值reward的后向传播过程(back propagation)计算得到。

步骤903：检查变量F中所有词向量的状态，判断操作状态是否全为1，当词向量的操作状态全为1时执行步骤904，否则执行步骤908。

步骤904：从变量F中选择任一操作状态为0的词向量作为蒙特卡罗树搜索算法的起始节点。

步骤905：更新所选择的词向量的操作状态为1。

步骤906：根据关键词抽取策略执行关键词抽取(action)，当action不为NO_ACTION时，则得到新的集合S'，同时更新S为S'，当action为NO_ACTION时，迭代执行步骤904。

其中，由于整个待处理文本信息关键词的抽取过程是一个序列化的任务，深度强化学习网络基于蒙特卡罗树搜索算法的模拟结果，选择相应的关键词抽取策略。其中，深度强化学习网络的设置参考表2：

表2

步骤907：重置变量F，更新所有的词向量，以及调整操作状态为0。

其中，通过深度强化学习网络，基于所述候选关键词向量集合与奖励值参数，确定通过所述深度强化学习网络的策略子网络抽取与所述待处理文本信息相匹配的关键词时，可以通过给定state的情况下最大化action的概率p(action|state)，同时用奖励值作为权重，预测阶段根据policy选择最大概率的action，获取关键词。

进一步地，当确定通过所述深度强化学习网络的价值子网络抽取与所述待处理文本信息相匹配的关键词时，可以根据state拟合奖励值的状态-动作值函数Q-function，在预测阶段根据Q-function的值选择最大的action，实现获取关键词。

步骤908：获取集合中的词向量为目标文本的关键词。

其中，通过本申请所提供的文本信息处理方法所获得的关键词如表3所示，相比于相关技术的处理结果，本申请的文本信息处理方法能够不依赖词的粒度提取关键词，所提取的关键词适用相应的使用场景，便于神经网络模型对于关键词的使用。

表3

本发明具有以下有益技术效果：

以上所述，仅为本发明的实施例而已，并非用于限定本发明的保护范围，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种文本信息处理方法，其特征在于，所述方法包括：

获取文本处理环境中的待处理文本信息；

2.根据权利要求1所述的方法，其特征在于，所述对所述待处理文本信息进行分词处理，确定至少一个候选关键词向量，包括：

根据所述待处理文本信息所携带的问题文本参数信息，触发相应的分词库；

通过所触发的所述分词库单词词典对所述问题文本进行分词处理，形成不同的词语级问题文本；

对所述不同的词语级问题文本进行除噪处理，形成与所述问题文本相对应的词语级特征向量集合，其中，所述词语级特征向量集合中包括至少一个候选关键词向量。

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

确定对所述问题文本进行分词处理时所使用的分词库的名称；

根据与所述分词库的名称，确定与所述问题文本相对应的词语级特征向量相匹配的分词库的参数，其中，所述分词库的参数包括：

4.根据权利要求2所述的方法，其特征在于，所述对所述不同的词语级问题文本进行除噪处理，形成与所述问题文本相对应的词语级特征向量集合，包括：

确定与所述词向量处理网络的使用环境相匹配的动态噪声阈值；

根据所述动态噪声阈值对所述问题文本集合进行去噪处理，并触发与所述动态噪声阈值相匹配的动态分词策略；

根据与所述动态噪声阈值相匹配的动态分词策略，对所述问题文本进行分词处理，形成与所述问题文本相对应的动态词语级特征向量集合。

5.根据权利要求2所述的方法，其特征在于，所述对所述不同的词语级问题文本进行除噪处理，形成与所述问题文本相对应的词语级特征向量集合，包括：

确定与所述词向量处理网络的使用环境相对应的固定噪声阈值；

根据所述固定噪声阈值对所述问题文本集合进行去噪处理，并触发与所述固定噪声阈值相匹配的固定分词策略；

根据与所述固定噪声阈值相匹配的固定分词策略，对所述问题文本进行分词处理，与所述问题文本相对应的固定词语级特征向量集合。

6.根据权利要求1所述的方法，其特征在于，所述通过词向量处理网络，对候选关键词向量进行动态调整，形成候选关键词向量集合，以及与所述候选关键词向量集合中的不同关键词向量所分别对应的奖励值参数，包括：

通过所述词向量处理网络，利用蒙特卡罗树搜索算法对所述候选关键词向量进行删除与合并，实现对所述候选关键词向量进行动态调整；

确定所述候选关键词向量集合中的每一个候选关键词向量在标准语料库中出现的次数信息；

确定每一个候选关键词向量相匹配的字符向量在所述标准语料库中出现的次数信息；

基于所述候选关键词向量在标准语料库中出现的次数信息以及字符向量在所述标准语料库中出现的次数信息，确定所述候选关键词向量集合中的不同关键词向量所分别对应的奖励值参数。

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

根据所述待处理文本信息的文本处理环境，确定与所述文本处理环境相适配的词向量处理网络的模型参数；

基于与所述文本处理环境相适配的词向量处理网络的模型参数，通过相匹配的蒙特卡罗树搜索算法对所述候选关键词向量进行删除或者合并，动态调整所述候选关键词向量的数量。

8.根据权利要求1所述的方法，其特征在于，所述通过深度强化学习网络，基于所述候选关键词向量集合与奖励值参数，确定与所述待处理文本信息相匹配的关键词抽取策略，包括：

通过深度强化学习网络，基于所述候选关键词向量集合与奖励值参数，确定通过所述深度强化学习网络的策略子网络抽取与所述待处理文本信息相匹配的关键词，或者

确定通过所述深度强化学习网络的价值子网络抽取与所述待处理文本信息相匹配的关键词。

9.根据权利要求8所述的方法，其特征在于，所述基于所述关键词抽取策略对所述候选关键词向量集合进行抽取，获得至少一个关键词向量作为所述待处理文本信息的关键词，包括：

通过所述奖励值参数，确定与所述深度强化学习网络的策略子网络相匹配的权重参数；

响应于所述权重参数，通过所述深度强化学习网络的策略子网络，根据所述候选关键词向量集合生成与所述待处理文本信息相对应的关键词以及所述关键词的被选取概率；

根据所述关键词的被选取概率，获得至少一个关键词向量作为所述待处理文本信息的关键词。

10.根据权利要求8所述的方法，其特征在于，所述基于所述关键词抽取策略对所述候选关键词向量集合进行抽取，获得至少一个关键词向量作为所述待处理文本信息的关键词，包括：

通过所述奖励值参数，确定与所述深度强化学习网络的价值子网络相匹配的状态动作值函数；

响应于所述状态动作值函数，通过所述深度强化学习网络的价值子网络，根据所述候选关键词向量集合以及相应关键词向量的状态值，生成与所述待处理文本信息相对应的关键词以及所述关键词的被选取概率；

11.根据权利要求1所述的方法，其特征在于，所述方法还包括：

确定与所述待处理文本信息的使用环境的特征；

在数据源中，获取与所述待处理文本信息的使用环境的特征相匹配的训练样本集合；

根据与所述训练样本相匹配的特征集合和相应的问题文本标签对所深度强化学习网络进行训练，以实现确定与所述深度强化学习网络中的价值子网络和策略子网络相适配的模型参数。

12.一种文本信息处理装置，其特征在于，所述装置包括：

信息传输模块，用于获取文本处理环境中的待处理文本信息；

13.根据权利要求12所述的装置，其特征在于，

14.一种电子设备，其特征在于，所述电子设备包括：

存储器，用于存储可执行指令；

处理器，用于运行所述存储器存储的可执行指令时，实现权利要求1至11任一项所述的文本信息处理方法。

15.一种计算机可读存储介质，存储有可执行指令，其特征在于，所述可执行指令被处理器执行时实现权利要求1至11任一项所述的文本信息处理方法。