CN112905787A

CN112905787A - 文本信息处理方法、短信处理方法、电子设备及可读介质

Info

Publication number: CN112905787A
Application number: CN202010116886.1A
Authority: CN
Inventors: 田帅; 鲁梦平; 师婷婷; 陈毅臻; 吴汉杰; 戴云峰
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-02-25
Filing date: 2020-02-25
Publication date: 2021-06-04
Anticipated expiration: 2040-02-25
Also published as: CN112905787B

Abstract

本申请公开了一种文本信息处理方法、短信处理方法、电子设备及可读介质，涉及计算机技术领域，所述文本信息包括第一数量个文本单元，所述方法包括：获取待处理文本单元的局部特征向量和全局特征向量，其中，所述待处理文本单元为所述第一数量个文本单元中的第二数量个文本单元，所述第二数量小于或等于所述第一数量；根据所述局部特征向量和全局特征向量获取至少一个所述文本单元的标签；根据所述标签由所述待处理的文本信息中提取目标内容。因此，标签的确定能够考虑到文本单元在全局和局部的特性，进而使得标签的确定更加准确，因此，根据该标签由文本信息提取的目标内容也更加准确，即对文本信息的识别准确率更高。

Description

文本信息处理方法、短信处理方法、电子设备及可读介质

技术领域

本申请涉及计算机技术领域，更具体地，涉及一种文本信息处理方法、短信处理方法、电子设备及可读介质。

背景技术

文本数据是计算机科学中最常见的一种半结构化数据，现实世界中的很多信息都需要通过文本进行传输，人与人之间的沟通也可以借助文本信息的交流来实现。目前的文本数据的识别技术，大多是依据文本数据中各个字或词等独立个体的内容，通过深度学习模型提取文本数据的语义特征，识别准确率不高。

发明内容

本申请提出了一种文本信息处理方法、短信处理方法、电子设备及可读介质，以改善上述缺陷。

第一方面，本申请实施例提供了一种文本信息处理方法，所述文本信息包括第一数量个文本单元，所述方法包括：获取待处理文本单元的局部特征向量和全局特征向量，其中，所述待处理文本单元为所述第一数量个文本单元中的第二数量个文本单元，所述第二数量小于或等于所述第一数量；根据所述局部特征向量和所述全局特征向量获取所述待处理文本单元的标签；根据所述标签由所述文本信息中提取目标内容。

第二方面，本申请实施例还提供了一种短信处理方法，，所述方法包括：基于所述短信内的文本单元对应的局部特征向量和全局特征向量，得到所述短信的目标内容；根据所述目标内容指示所述用户终端执行目标操作。

第三方面，本申请实施例还提供了一种电子设备，包括：一个或多个处理器；存储器；一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行上述方法。

第四方面，本申请实施例还提供了一种计算机可读介质，所述可读存储介质存储有处理器可执行的程序代码，所述程序代码被所述处理器执行时使所述处理器执行上述方法。

本申请提供的文本信息处理方法、短信处理方法、电子设备及可读介质，应用于文本信息的处理，获取文本信息内的所述文本单元的局部特征向量和全局特征向量。本申请实施例能够根据所述局部特征向量和全局特征向量获取文本单元的标签，使得文本单元的标签的确定能够同时参考文本单元的局部特征和全局特征，使得标签的确定能够考虑到文本单元在全局和局部的特性，进而使得标签的确定更加准确，因此，根据该标签由文本信息提取的目标内容也更加准确，即对文本信息的识别准确率更高。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请实施例提供的文本信息处理方法的运行环境的示意图；

图2示出了本申请一实施例提供的文本信息处理方法的方法流程图；

图3示出了本申请另一实施例提供的文本信息处理方法的方法流程图；

图4示出了图3中S330的流程图；

图5示出了本申请实施例提供的提取模型的示意图；

图6示出了本申请实施例提供的获取融合向量的流程图；

图7示出了本申请实施例提供的短信实体内容的提取模型流程图；

图8示出了本申请又一实施例提供的文本信息处理方法的方法流程图；

图9示出了本申请实施例提供的支付完成界面的示意图；

图10示出了本申请实施例提供的账单提醒信息的示意图；

图11示出了本申请实施例提供的客户端登录界面的示意图；

图12示出了本申请实施例提供的填充有验证码的界面示意图；

图13示出了本申请实施例提供的出行提醒信息的示意图；

图14示出了本申请一实施例提供的文本处理装置的模块框图；

图15示出了本申请另一实施例提供的文本处理装置的模块框图；

图16示出了本申请实施例提供的电子设备的模块框图；

图17示出了本申请实施例提供的用于保存或者携带实现根据本申请实施例的文本信息处理方法的程序代码的存储单元。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

为了更好地理解本申请实施例的方案，下面先结合图1对本申请实施例可能的运行环境进行简单的介绍。

请参阅图1，图1示出了本申请实施例提供的文本信息处理方法的运行环境。如图1中所示，用户终端100和服务器200位于无线网络或有线网络中，用户终端100和服务器200进行数据交互。服务器200可以是单独的服务器，也可以是服务器集群，可以是本地服务器，也可以是云端服务器。

在一些实施例中，服务器200具有文本处理能力。例如，将用于文本处理的算法或者人工智能模型部署在服务器200内。服务器200通过交互接口接收来自用户终端100发送的待识别的文本或者文本识别请求，再通过服务器200的存储数据的存储器以及数据处理的处理器进行机器学习、深度学习、搜索、推理、决策等方式的文本处理，得到文本识别结果，将文本识别结果发送至用户终端100，或者根据该文本识别结果将推送内容发送至用户终端100，该推送内容可以是指示用户终端100显示的内容，也可以是控制用户终端100执行指定操作的控制指令等信息。其中，服务器200的存储器可以是一个统称，包括本地存储以及存储历史数据的数据服务器，数据服务器可以部署在服务器200上，也可以在其它网络服务器上。

其中，服务器200可以是服务器集群，即服务器200可以包括多个服务器，在文本处理的过程中，每个服务器所负责的功能不同。例如，服务器200可以包括数据处理服务器、运算服务器和存储服务器，数据处理服务器用于与用户终端交互，获取用户终端发送的待处理的文本，将该待处理文本发送至运算服务器，运算服务器对待处理文本处理，例如，文本分类、语义识别或实体内容识别等，得到识别结果，并将识别结果发送至数据处理服务器，数据处理服务器根据该识别结果确定推送策略，并根据该推送策略由存储服务器内获取该推送策略对应的推送内容，将该推送内容发送至用户终端。需要说明的是，上述存储服务器可以不必使用，而数据处理服务器可以直接将识别结果发送至用户终端，用户终端根据该识别结果执行指定操作。

作为另一种实施方式，用户终端100安装有具有文本处理能力的客户端，该客户端可以具有用户操作界面，也可以是不具有用户操作界面的服务组件。例如，该客户端可以是广播接收器，当用户终端收到一条短信时***会发送一条广播："android.provider.Telephony.SMS_RECEIVED"，通过该广播就能够知道是否有新短信文本，通过该广播还可以获取到短信文本的内容，并对该短信文本执行本申请实施例所提供的文本信息处理方法。服务器200可以提供推送策略，即客户端将文本识别结果发送至服务器200，服务器200根据该文本识别结果确定推送内容并推送至用户终端100的客户端。

目前的文本内的实体内容的识别，大多仅仅考虑了文本内的单个词或字的语义。例如，采用基于bi-LSTM-CRF网络的深度学习方法进行文本实体内容识别，具体步骤是：首先将文本逐字或逐词输入到bi-LSTM网络(双边LSTM网络)中，其中，LSTM网络为长短时记忆网络模型(Long Short Memory Network)的简称，然后将bi-LSTM网络的隐藏层状态作为条件随机场(conditional random field，CRF)模型的输入，预测每个字词的标签，最后采用最小化负对数似然损失函数的方法驱动模型，更新参数，并能够得到实体内容识别结果。

虽然，上述方法相对于手工模版标注，在准确度上已有一定的提升，但准确度上仍有缺陷。

本申请实施例提供的文本信息处理方法将采用局部上下文信息和全局信息识别文本，以在文本内提取所需的内容，提高文本识别的准确度。

为了更好地理解本申请实施例的方案，下面先对本申请实施例所使用的技术名词解释。

文本，是指书面或印刷作品的原始文字或该作品的表现形式，也可以是该作品的编辑或修订副本。文本可以理解为多个文字或者字符的集合，在计算机或者类似的计算设备中，文本与字符会按照某种编码格式(例如ASCII或者Unicode)进行编码后存储为计算机可读的格式。

文本单元，也可以称为节点，可以是文本被切分后的独立的个体。单个字、标点符号以及连续数字和金额数字(带逗号分隔符)均为一个节点。假设，待处理的文本信息为一段文字，其内容为“您尾号xxxx卡9月5日10:25营业网点支出(卡取)1,000元，余额xxxx.xx元。【某某银行】”，则多个文本单元为“您”、“尾”、“号”、“xxxx”、“卡”、“9”、“月”、“5”、“日”、“10”、“:”、“25”、“营”、“业”、“网”、“点”、“支”、“出”、“(”、“卡”、“取”、“1,000”、“元”、“。”、“【”、“某”、“某”、“银”、“行”、“】”。

文本信息，是指包含有文本的信息，例如，该文本信息可以是短信以及各种网络消息或者其他的能够被文本处理软件打开的信息等。在计算机或者类似的计算设备中，文本信息可以是指一个字符串。

局部特征向量，可以是以某个文本单元为中心，其周围的N个文本单元的特征向量所构成的该文本单元的局部上下文信息。

全局特征向量为一个文本信息的所有文本单元共同组成的全局信息。具体地，全局特征向量为表征文本中所有词构成的全文语义环境的向量，可以表示整个文本的全文语义信息，具体可以由所有词对应的词向量共同得到全局特征向量。

融合向量，是指至少两个向量在融合之后得到的向量。其中，融合的方式可以是拼接、相加、赋权相加等方式。

标签，是指用于描述文本单元的类型的信息。

为了克服上述缺陷，本申请实施例提供了一种文本信息处理方法，如图2所示，该方法包括：S201至S204。该方法的执行主体可以是上述服务器或上述客户端，其中，该文本处理客户端可以是安装在用户终端内的服务组件或者具有用户操作界面的应用程序。作为一种实施方式，以该方法的执行主体是服务器为例，对本申请实施例的方法描述。

S201：获取待处理文本单元的局部特征向量和全局特征向量。

其中，待处理文本单元可以是文本信息所包含的所有文本单元中的至少部分的文本单元。在一些实施例中，文本信息包括第一数量个文本单元，待处理文本单元为第一数量个文本单元中的第二数量个文本单元，第二数量小于或等于第一数量。

在一些实施例中，文本信息中所包含的文本单元的数量，即第一数量，可以是大于或等于1的自然数，而第二数量为小于或等于第一数量的自然数。需要说明的是，如果第一数量为1个，则第二数量也为1个，即第二数量等于第一数量，如果第一数量为多个，则第二数量可以小于第一数量，也可以等于第一数量，其中，多个的含义是至少两个。

所以，待处理文本单元可以是文本信息所包括的所有文本单元的全部文本单元，也可以是文本信息所包括的所有文本单元中的部分文本单元，具体地，请参阅后续实施例的描述。

于本申请实施例中，为了方便描述，本申请实施例中处理的文本信息可以称为待处理的文本信息，待处理的文本信息可以是客户端发送至服务器的。作为一种实施方式，客户端可以基于获取请求将待处理的文本信息发送至服务器。其中，该获取请求可以是服务器发送至客户端的，用于指示客户端将该获取请求指定的文本内容发送至服务器。例如，该获取请求指定的文本内容可以是用户终端在指定时间段内所存储的文本，则该处理文本信息是用户终端在指定时间段内所存储的文本。

再例如，该获取请求指定的文本内容可以是用户终端在指定时间段接收到的文本信息，其中，接收到的文本信息可以是短信文本，也可以是用户终端内安装的应用程序所接收到的其他应用程序的用户发送的文本数据，可以称为应用文本，则该处理文本信息是消息文本，则该消息文本包括该短信文本和应用文本的至少一种。

于本申请实施例中，待处理的文本信息可以是上述消息文本。需要说明的是，该待处理的文本信息可以是获取其他终端或者客户端发送的文本格式的信息，也可以是通过接收到的其他终端或者客户端发送的非文本格式的信息提取得到的文本信息。其中，该非文本格式的信息可以包括语音和图像的至少一种。其中，该图像内包括文字图像。例如，该非文本格式的信息可以是用户终端内的社交客户端所接收的对端的社交客户端的用户发送的语音或者图像，用户终端识别该语音得到文本信息，或者，识别该图像内的文字图像，得到文本信息。

例如，该文本信息可以是用户终端接收到的短信文本，例如，该文本信息的内容是“您尾号xxxx卡9月5日10:25营业网点支出(卡取)1,000元，余额xxxx.xx元。【某某银行】”。也可以是，用户终端接收到了一个语音数据，解析该语音得到上述内容，还可以是，用户终端接收到该内容的文本的截图，解析该图像，分析该图像内的文本图像得到上述内容。

文本信息内可以包括至少一个文本单元。作为一种实施方式，可以通过分词处理文本信息，得到文本信息内的多个文本单元。

在获取到待处理的文本信息的多个文本单元之后，对该多个文本单元向量化，以得到多个文本单元的特征向量。其中，该向量化的方式可以是词频统计方法或者独热编码(One-hot encoding)等方法。

作为一种实施方式，在获取到待处理的文本信息的文本单元的特征向量之后，该多个特征向量构成该待处理的文本信息对应的向量矩阵，每个文本单元的向量在该向量矩阵都对应一个标号，标号能够表示向量在矩阵内的位置。例如，标号b₃₃表示该向量在矩阵中位于第三行第三列。

作为一种实施方式，确定每个文本单元的局部特征向量的实施方式可以是，获取该文本单元的特征向量在该向量矩阵中的位置，根据向量矩阵中该位置附近的N个向量确定该文本单元的局部特征向量。例如，将向量矩阵中该位置附近的N个向量作为该文本单元的局部特征向量。

作为另一种实施方式，可以根据文本单元的特征向量与附近的文本单元的特征向量的关联性确定该文本单元的局部特征向量。例如，可以使用注意力模型得到文本单元的局部特征向量，详细的实施方式可以参考后续实施例。

另外，全局特征向量可以是根据文本信息所有被处理的文本单元而确定的。其中，文本信息所有被处理的文本单元可以是文本信息内的所有文本单元，也可以是文本信息内的部分文本单元。作为一种实施方式，该全局特征向量可以根据长短时记忆网络模型(LongShort Memory Network，LSTM)而获得，详细的实施方式可以参考后续实施例。

作为一种实施方式，客户端或者服务器在获取到待处理的文本信息的时候，确定是否有处理该文本信息的权限，如果有，则执行获取至少一个文本单元的局部特征向量和全局特征向量。

在一些实施例中，客户端或者服务器获取产生该文本信息的应用程序的应用标识，查找是否具备处理该应用标识的应用程序产生的文本信息的权限，如果有，则执行获取至少一个文本单元的局部特征向量和全局特征向量。其中，该应用程序产生的文本信息可以是该应用程序发送、接收或生成的文本信息。

在另一些实施例中，确定是否有处理该文本信息的权限的实施方式可以是，获取该文本信息的私密类型，其中，该私密类型包括隐私数据和非隐私数据。如果该文本信息的私密类型为非隐私数据则确定有处理该文本信息的权限，如果该文本信息的私密类型为隐私数据则确定不具有处理该文本信息的权限。

作为一种实施方式，该私密类型的确定可以是确定该文本信息内是否存在指定关键字，如果存在，则确定该文本信息的私密类型为隐私数据，如果不存在，则确定该文本信息的私密类型为非隐私数据。其中，该指定关键字可以是私密类关键字，可以是用户预先设定的或者根据需求而设定的。例如，该私密类关键字可以是手机号码或者密码等。

S202：根据局部特征向量和全局特征向量获取待处理文本单元的标签。

作为一种实施方式，可以预先设定一个提取模型，该提取模型的功能可以是根据待处理文本单元的局部特征向量和全局特征向量确定该待处理文本单元的标签。通过人工标注有标签的样本对该提取模型训练，在该模型训练完成之后，在需要确定待处理文本信息的文本单元的情况下，将待处理文本单元的局部特征向量和全局特征向量输入前述训练完成的提取模型，能够得到文本单元的标签。其中，该提取模型内用于根据待处理文本单元的局部特征向量和全局特征向量得到待处理文本单元的标签的算法可以是Textrank算法或者条件随机场算法等。

作为一种实施方式，该标签可以是BIOE标签。该BIOE标签可以包括四个类别的标签，分别为B类标签、I类标签、O类标签和E类标签。该四类标签的确定与需要从文本信息确定的指定内容类型相关。

在一些实施例中，属于该指定内容类型的内容命名为实体内容。例如，该指定类型是金融类，则文本信息内的账户余额、***、账号以及金额等相关的内容都可以是实体内容。其中，B类标签表示实体内容的开始字符，I类标签表示实体内容的中间字符，E类标签表示实体内容的结束字符，O类标签表示与实体内容无关的字符。

另外，B类标签、I类标签和E类标签还可以包括子标签，即B类标签可以包括至少一个B类子标签，例如，B-xxxx，其中，“xxxx”为内容类型标签，用于表示实体内容的类型。例如，“xxxx”为“Tail”表示该实体内容的类型为尾号，则B-Tail表示尾号类型的实体内容的开始字符。

同理，I类标签和E类标签均可以包括子标签，例如，I类子标签可以是I-xxxx，E类子标签可以是E-xxxx。例如，I-Tail表示尾号类型的实体内容的中间字符，E-Tail表示尾号类型的实体内容的结束字符。

通常，B类标签、I类标签和E类标签，或者B类标签和E类标签是连续的。例如，“航班”的两个字符对应的标签类型依次是BE，即该实体内容有两个字符组成，该两个字符中的第一个字符“航”为B类标签表示该类字符的开始字符，该两个字符中的第二个字符“班”为E类标签表示该类字符的结束字符。再例如，“出租车”的三个字符对应的标签类型依次是BIE，该三个字符中的第一个字符“出”为B类标签表示该类字符的开始字符，该三个字符中的第三个字符“租”为I类标签表示该类字符的中间字符，该三个字符中的第三个字符“车”为E类标签表示该类字符的结束字符。

因此，一般在BE连续出现，或者BIE，再或者B、多个连续的I以及E连续出现的时候，B类标签、I类标签和E类标签的内容类型标签可以是一致的。例如，“航班”的两个字符对应的标签依次是B-FLY和E-FLY，即B类标签和E类标签的内容类型标签均为FLY。

S203：根据标签由文本信息中提取目标内容。

在获取到待处理文本单元的标签之后，能够确定待处理的文本信息内的待处理文本单元的标签的类型，从而根据该类型查找所需要的实体内容，即目标内容。作为一种实施方式，确定所需要的实体内容对应的指定标签，查找指定标签对应的文本单元，根据所查找到的文本单元得到目标内容。

其中，指定标签可以根据预先设定的实体内容的类型与多个标签类型的对应关系，作为一种实施方式，预先设定一个对应关系，在该对应关系内包括多个实体内容的类型和每个实体内容的类型对应的标签类型，其中，该标签类型可以是上述的B类子标签、I类子标签和E类子标签。

作为一种实施方式，根据该对应关系，确定所需要的实体内容的类型对应的标签类型作为指定标签，在根据该指定标签由文本信息内查找到与该指定标签匹配的标签对应的文本单元之后，将所查找的文本单元整合成目标内容。

在一些实施例，如果B类标签附近均为O类标签或无字符，则为判定该B类字符对应的文本单元为单字符实体；如果按照文本方向，确定B类标签的文本单元之前的文本单元的类型为O类标签或该B类标签的文本单元之前无字符，而B类标签的文本单元之后的文本单元的类型为E类标签，则查找到连续标签为BE的两个文本单元，则判定该两个文本单元记为双字符实体。

其中，文本方向为文本信息的语义方向，与用户的语言习惯相匹配，例如，文本信息的内容是“我爱吃油条”，按照该文本信息的文字方向确定的多个文本单元，依次为“我”“爱”“吃”“油”“条”，也就是说，以序列或数组A来记录该文本信息，则A＝(“我”“爱”“吃”“油”“条”)，其A内的各个元素依次是，a[1]＝“我”,a[2]＝“爱”,a[3]＝“吃”,a[4]＝“油”,a[5]＝“条”。其中，该序列A中的a[1]、a[2]、a[3]、a[4]、a[5]的顺序与文本方向匹配，则文本信息内的多个文本单元的特征向量可以按照上述序列或数组的方式记录，每个文本单元都可以对应一个元素，根据每个元素的下标就能够确定文本单元的之前的文本单元、之后的文本单元，以及邻近的文本单元。

如果按照文本方向，确定B类标签的文本单元之前的文本单元的类型为O类标签或该B类标签的文本单元之前无字符，而B类标签的文本单元之后的两个连续的文本单元的类型依次为I类标签和E类标签，则判定该三个文本单元记为三字符实体。

同理，若按照文本方向，确定B类标签的文本单元之前的文本单元的类型为O类标签或该B类标签的文本单元之前无字符，而B类标签的文本单元之后的三个连续的文本单元的类型依次为I类标签、I类标签和E类标签，则判定该三个文本单元记为四字符实体，依次类推，还能够确定五字符实体、六字符实体等等。

由整合之后得到的多个实体确定目标内容。作为一种实施方式，提取目标内容的策略根据所提取内容的目的或者用途而确定，即可以根据使用该目标内容的需求而确定，具体地，请参考后续实施例。

需要说明的是，根据标签由待处理的文本信息中提取目标内容可以是由处理客户端执行的，则获取至少一个文本单元的局部特征向量和全局特征向量，以及根据局部特征向量和全局特征向量获取至少一个文本单元的标签的操作可以由服务器执行，服务器将文本单元的标签发送至处理客户端，由处理客户端根据该标签由待处理的文本信息中提取目标内容。

请参阅图3，图3示出了本申请实施例提供的一种文本信息处理方法，该方法的执行主体可以是上述服务器或上述客户端。作为一种实施方式，以该方法的执行主体是服务器，对本申请实施例的方法描述。如图3所示，该方法包括：S310至S350。

S310：获取待处理文本单元的局部特征向量和全局特征向量。

S320：获取待处理文本单元的局部特征向量对应的第一权重和全局特征向量对应的第二权重。

作为一种实施方式，本申请实施例可以使用提取模型确定文本信息的待处理文本单元的标签，即可以将待处理文本单元的局部特征向量和全局特征向量输入提取模型，得到待处理文本单元的标签。

在一些实施例中，为了便于计算以及提高标签识别的准确性，可以将局部特征向量和全局特征向量融合成一个向量，则文本信息的待处理文本单元的局部特征向量构成的局部特征组，以及文本信息的待处理文本单元的局部特征向量构成的局部特征组，能够融合成一个融合特征组。其中，特征组可以是多个特征向量构成的矩阵或者数组等。

其中，不论是拼接或相加，还是赋权相加的方式，局部特征向量和全局特征向量都各自对应一个权重，该权重用于表示局部特征向量和全局特征向量在融合后的结果内的比重，具体地的融合方式可以参考后续S330的介绍。

作为一种实施方式，该第一权重和第二权重的取值可以根据依据经验而设定的或者是一个默认的固定值。为了增加第一权重和第二权重的适应性以及准确性，可以根据文本单元的特征向量确定该文本单元的局部特征向量对应的第一权重和全局特征向量对应的第二权重。

如图4所示，S320可以包括步骤S321和S322。

S321：获取待处理文本单元的特征向量。

其中，特征向量的获取方式可以参考前述实施例，在此不再赘述。

作为一种实施方式，上述提取模型如图5所示，该提取模型包括嵌入层、局部特征层、全局特征层、特征融合层、条件随机场层，其中，s₁、s₂、s₃、s₄、s₅为输入提取模型的文本单元的特征向量，y₁、y₂、y₃、y₄、y₅为提取模型所输出的文本单元的标签。下面将结合具体的方法流程说明该提取模型内各层的作用。

在一些实施例中，将多个文本信息的文本单元的向量化之后得到的向量，记为序列S＝(s₁,s₂,…,s_n)，其中，n为文本单元的数量，即上述第二数量。该数量可以是文本信息的所有文本单元的数量，也可以是文本信息内的部分文本单元的数量。

作为一种实施方式，该部分单元可以是文本信息中去除最前面的a个文本单元和最后面的b个文本单元之后剩下的文本单元。其中，a和b的取值可以依据经验而设定，例如，a的取值为3，b的取值为1。

考虑到，文本信息的前面几个字符可能是称呼，例如“您好，”，则可以将“您”“好”“，”这三个文本单元去除，例如，文本信息的最后面的一个字符可能是标点符号，例如，句号。则可以将最后的“。”去除。被去除的文本单元可以不必被获取特征向量以及不需要被用于第一权重和第二权重的确定。

上述向量化得到序列S的方式可以是上述的one-hot编码方法，该方法得到的向量可以作为文本单元的特征向量，但是，该方法得到的向量过于稀疏，会增加计算复杂度并且也无法标识出语义特征，则可以将该序列S转换为嵌入向量。

作为一种实施方式，将序列S＝(s₁,s₂,…,s_n)输入嵌入层获得特征向量。具体地，将S＝(s₁,s₂,…,s_n)输入嵌入层，嵌入层将S＝(s₁,s₂,…,s_n)转换为稠密的嵌入向量，则文本单元的嵌入向量记为文本单元的特征向量。所得到的嵌入向量为稠密向量，且能够被捕获字符的语义特征。例如“牛蛙”和“青蛙”在嵌入向量空间中距离较近，而距离越近标识字符语义越相近。作为一种实施方式，根据下式确定嵌入向量：

x_t＝W_e[v_t] (1)

其中，

为词向量嵌入矩阵，m为嵌入向量的维度，D为字典的大小，v_t表示节点s_t在字典中的索引，x_t为第t个文本单元s_t的嵌入向量，W_e[v_t]表示矩阵W_e的第v_t列，将嵌入向量x_t作为文本单元s_t的特征向量，则各个文本单元的特征向量为X＝(x₁,x₂,…,x_n)，即嵌入层的输出结果为x₁,x₂,…,x_n。其中，字典用于将每个文本单元应一个数值表示，该数值用于表示该文本单元在字典内的位置，例如，一句话“有趣的灵魂重两百斤”，将每个字按照字典的位置编码，假如字典有1000个字，“有”这个字再字典的第100个位置，“趣”在字典的第107个位置，由此，就能够得到这句话内各个文本单元的特征向量。

另外，在获取待处理文本单元的特征向量之前，可以对待处理样本执行预处理操作，该预处理操作包括停用词过滤和字典生成，停用词过滤，是文本分析中一个预处理方法。它的功能是过滤分词结果中的噪声(例如，“的”、“是”、“啊”等)。字典生成的方式可以是，获取大量的文本信息，对文本信息做分词处理，基于word2vec等算法对分词后的语料库进行预训练生成词向量词典。其中的字词是不重复的，word2vec会对文本中的字、词和标点基本元素的出现频率进行统计，通过无监督训练，获得作为基础语料基础构成元素的字词对应的指定维度的向量表征。

于本申请实施例中，服务器或客户端可以根据文本单元的特征向量获取该文本单元的局部特征向量和全局特征向量。

如图5所示，嵌入层输出的文本单元的特征向量输入局部特征层得到局部特征向量，并且将特征向量输入全局特征层得到全局特征向量，如图5中的粗线示出了提取全局特征向量的流向，嵌入层与局部特征层之间的细线示出了提取局部特征向量的流向。

作为一种实施方式，局部特征层获取局部特征向量的方式可以是，设定一个窗口参数w，该窗口参数w可以是一个可选的超参数，用于表示窗口的大小，该值可以是奇数，例如，w为5。根据该窗口参数确定局部特征向量。

具体地，获取待处理文本单元的局部特征向量的实施方式可以是，获取待处理文本单元的特征向量；根据预先获取的窗口参数和特征向量，确定待处理文本单元的窗口向量；根据窗口向量获取待处理文本单元的局部特征向量。

通过窗口参数能够在上述特征向量X中选定x_t附近的至少一个特征向量，则所选定的特征向量可以作为x_t的窗口向量。

作为一种实施方式，每个文本单元对应一个窗口，该窗口的大小由该窗口的窗口参数表示，因此，n个文本单元可以划分出n个窗口。假设H_t为第t个特征向量的窗口向量，则其定义如下式：

其中，t＝1,2,…,n，其中，x_t为第t个文本单元的特征向量，x_t+1为第t+1个文本单元的特征向量，依次类推，其他的上述公式括号内的其他x表示其他的文本单元。如上式所示，H_t所包含的文本单元是以x_t为中心的附近w个特征向量。

另外，需要说明的是，如果上式中的x下标超出特征向量X的下标的范围，可以采用零向量填补。如图5中所示的在s₁的左侧和s₅的右侧均被填补了零向量。例如，t为2，w为5，x2的窗口向量为(0,x₁,x₂,x₃,x₄)，即,t-(w-1)/2的计算结果为0，则X的下标的范围为[1,n],则0已经超出了X的下标的范围，因此，x₀的位置处填补0。

作为一种实施方式，可以根据文本单元的窗口向量，依据自注意力机制确定该文本单元的局部特征向量。具体地，根据下式确定局部特征向量：

其中，l_t为第t个文本单元的局部特征向量，其值取自矩阵L_t的第(w-1)/2行，L_t为第t个文本单元的特征向量x_t对应的窗口向量中，某一特征向量x_i(其中，i＝t-(w-1)/2,…,t+(w-1)/2)与其余w-1个特征向量之间的关联性，即特征向量x_i与其他的特征向量之间的相似度。softmax函数为概率归一化函数，令

softmax函数的表达式为：

其中，Q_r,i为矩阵Q的第r行，第i列的元素。

通过上述公式(3)、(4)和(5)，能够以文本单元x_t为参照，度量其与所对应的窗口向量内的各个文本单元的相似度后，归一化相似度，并根据相似度重构文本单元x_t的特征向量，则重构后的特征向量为该文本单元的局部特征向量。

对所有n个窗口向量都执行上述公式(3)和(4)，就能够得到每个文本单元的局部特征向量，拼接所有文本单元的局部特征向量，得到文本信息的局部特征矩阵F_l＝(l₁,l₂,…,l_n)。

作为一种实施方式，本申请实施例也可以根据文本单元的特征向量确定文本单元的全局特征向量。例如，可以使用LSTM网络得到文本单元的全局特征向量。LSTM网络模型中对传统文本递归神经网络(Text Recurrent Neural Network，Text RNN)的改进是不再使用最后一个隐藏元作为分类，而是使用了所有的隐藏元的信息，这使其可以更全面的提取每一个文本单元的上下文信息。

该LSTM网络的数学标识如下：

c_t＝f_t⊙c_t-1+i_t⊙g_t (7)

h_t＝o_t⊙tanh(c_t) (8)

其中，h_t为第t个文本单元的全局特征向量，x_t为第t个文本单元的特征向量，M：

为可训练参数构成的仿射变换，其中，a＝m+h_lstm，b＝4h_lstm，h_lstm为LSTM网络隐层单元数。其中，可训练参数是指，通过有监督学习算法进行梯度反向传播更新的参数。仿射变换是指将输入特征转换到另一个特征空间中，使得模型学习文本的语义特征和上下文特征。

其中，σ为概率归一化函数，例如，sigmoid。i_t和g_t用于表示第t个输入门用于保存到单元状态(cell state)中的部分，其中，i_t表示第t个输入的信息有多少是需要保存到单元状态的，g_t表示第t个输入产生的新信息来添加到单元状态中。f_t为第t个遗忘门的输入，o_t表示第t个输出门的输出，t时刻的记忆单元c_t为遗忘门调和的上一时刻记忆单元c_t-1和输入门调和的当前时刻信息g_t之和，在初始化时，c₀和h₀设置为零向量。

为了便于描述，将上述公式(6)、(7)和(8)记为LSTM(·)。

根据下式确定全局特征向量：

其中，⊕为拼接操作，即向量拼接操作，→表示前向传播，←表示后向传播。通过上述公式获取每个文本单元的全局特征向量，就能够得到文本信息的全局特征矩阵F_g＝(h₁,h₂,…,h_n)。

S322：根据特征向量，确定待处理文本单元的第一权重和第二权重。

作为一种实施方式，根据文本单元的特征向量确定局部特征向量和全局特征向量融合时的比重，即确定第一权重和第二权重，可以根据文本单元的特征向量得到一个数值，根据该数值确定的第一权重和第二权重之和始终等于一个固定值，并且该数值越大，第一权重越小，第二权重越大，该数值越小，第一权重越大，第二权重越小。

当然，也可以是，该数值越小，第一权重越大，第二权重越小，该数值越大，第一权重越小，第二权重越大。从而，第一权重和第二权重的大小，即局部特征向量和全局特征向量融合时的比重由特征向量影响。

在一些实施例中，可以将该数值归一化之后得到一个小于1大于0的数值，并根据该数值得到第一权重和第二权重。具体地，该文本单元的特征向量对应的数值归一化之后，记为该文本单元的分值，则根据特征向量，确定待处理文本单元的第一权重和第二权重的实施方式可以是，根据特征向量，确定待处理文本单元的分值；根据分值确定待处理文本单元的第一权重和第二权重。

在将向量特征融合前，模型会在每一个时间步计算一个分值a_t决定当前文本单元对应的局部特征向量和全局特征向量的权重。其中，时间步可以是处理每个文本单元的顺序，例如，可以是处理文本单元的特征向量矩阵X内的各个特征向量的处理周期，例如，按照处理周期T来处理特征向量矩阵X内的各个特征向量，则每个周期就可以看作是一个时间步。

作为一种实施方式，本申请实施例使用门控机制为局部特征向量和全局特征向量设定权重，如图5所示，门控机制获取文本单元的特征向量，输出第一权重和第二权重至特征融合层。其中，门控机制可以是一段程序代码或者功能组件，该门控机制可以根据每个文本单元的特征向量的分值为该文本单元的局部特征向量设置第一权重，以及为该文本单元的全局特征向量设置第二权重。具体地，可以根据下式确定待处理文本单元的分值：

a_t＝σ(Wx_t+b) (12)

其中，a_t为第t个文本单元的分值，W为权重矩阵，x_t为第t个文本单元的特征向量，b为偏置值，σ为概率归一化函数。W是一个线性变换，将数据映射到另一个维度空间中，通过σ的非线性变换和监督学习下的参数更新，W将进行自适应的调整和学习。在得到特征向量x_t的分值a_t之后，将(1-a_t)作为第t个文本单元的第一权重，将a_t作为第t个文本单元的第二权重，因此当a_t较大时，特征向量x_t的全局特征向量h_t的权重较大，特征向量x_t的局部特征向量l_t的权重较小。

S330：根据局部特征向量、全局特征向量、第一权重和第二权重，得到待处理文本单元的融合向量。

如图5所示，特征融合层获取全局特征层输入的全局特征向量、局部特征层输入的局部特征向量、门控机制输入的第一权重和第二权重，并根据局部特征向量、全局特征向量、第一权重和第二权重，得到文本单元的融合向量。

第一权重和第二权重分别表示局部特征向量和全局特征向量在融合向量中的占比，确定融合向量的过程可以看作，根据第一权重和局部特征向量得到第一向量因子，根据第二权重和全局特征向量得到第二向量因子，根据第一向量因子和第二向量因子得到融合向量。

作为一种实施方式，可以将第一权重和局部特征向量的乘积作为第一向量因子，也可以是在第一权重和局部特征向量的乘积的基础上，得到第一向量因子，例如，得到第一权重和局部特征向量的乘积，并将该乘积加上一个数值或者乘以某个数值等操作，得到第一向量因子。同理，也可以将第二权重和全局特征向量的乘积作为第二向量因子。

作为一种实施方式，可以将第一向量因子和第二向量因子之和作为融合向量。具体地，根据下式确定融合向量：

r_t＝a_t⊙h_t-1+(1-a_t)⊙l_t (13)

其中，⊙为逐点乘积算子，h_t为第t个文本单元的全局特征向量，l_t为第t个文本单元的局部特征向量，r_t为t个文本单元的融合向量。依据该公式(13)得到融合向量的流程如图6所示。

因此，融合向量中全局特征向量和局部特征向量的占比，可以根据当前的文本单元的特征向量自适应调整，例如，a_t较大时，则第t个文本单元需要更多全局特征向量，反之则需要更多的局部特征向量。

S340：根据融合向量，确定待处理文本单元的标签。

作为一种实施方式，可以依据条件随机场(conditional random field，CRF)模型以及待处理文本单元的融合向量，获取待处理文本单元的标签。

如图5所示，通过上述方式得到的融合向量送入条件随机场层，条件随机场层以及条件随机场算法通过文本单元的融合向量，得到文本单元的标签。作为一种实施方式，可以根据下式确定文本单元的标签：

Y^*＝argmax_Yp(Y|S) (14)

其中，p(Y|S)为预先学习的随机场的条件概率，其中，S为观测序列，即将观测序列S转换为融合向量，进一步通过融合向量得到隐状态Y，Y为输出的标签。在完成该条件概率的学习之后，能够根据上述公式(14)得到观测序列S(即待处理的文本信息)内的多个文本单元的标签。

需要说明的是，本申请实施例中，提取模型的学习过程与上述根据提取模型得到文本信息的多个标签的过程类似。具体地，在学习该模型之前，需要执行数据组织操作，即获取模型训练所需的数据集。如图7所示，图7示出了本申请实施例提供的短信实体提取流程，该流程能够说明上述提取模型的学习过程和根据提取模型得到短信实体内容的过程。

具体地，如图7所示，提取模型的学习过程包括：S701至S709。根据提取模型得到短信实体内容的过程包括：S701、S703至S708、S710和S711。两种不同的过程可以基于不同的需求，即模型训练还是模型应用而选择。

于本申请实施例中，待处理的文本信息为短信文本，其中，针对短信文本的收集以及S702至S711的操作可以参考前序实施例，在此不再赘述。

作为一种实施方式，在提取模型的学习过程，S701和S702可以看作是数据集的获取操作，具体地，该数据集的获取方式可以是，获取文本样本数据，该样本数据包括多个文本样本，根据上述的方式确定文本样本的多个文本单元，从而得到文本样本S＝(s₁,s₂,…,s_n)，具体的过程可参考前述文本单元的特征向量的获取过程。对每个文本样本的多个文本单元执行人工序列标注操作，标注的方式可以参考前述实施例，例如，使用BIOE标签为每个文本样本的多个文本单元进行标注，从而每个文本单元被标注有标签。

其中，n为样本内的文本单元的个数，Y为该文本样本对应的标签，Y＝(y₁,y₂,…,y_n)，其中，y_i为文本单元s_i的标签，

为模型训练所需的数据集。其中，这里S的下标j是样本的索引，代表的是从1到Q个文本样本数据构成的数据集Ω。

在得到文本样本数据之后，提取模型的学习过程和根据提取模型得到短信实体内容的过程均可以通过步骤S704至S708，确定文本样本数据内的每个文本单元的融合向量，以及基于融合向量得到待处理文本单元的标签。作为一种实施方式，将融合向量输入CRF模型，得到最大观测序列S。另外，该CRF网络的函数为：

log(p(Y|S))＝g(S,Y)-log∑_Y'exp(g(S,Y')) (15)

其中，

其中，

表示节点s_i的标签为y_i的概率。

表示从y_i转移到y_i+1的概率。转移概率是指从当前状态所有取值转移到下一状态所有取值的概率，例如，副词后跟动词的概率，动词后跟名词的概率等等。在进行序列预测时，目标是使得整体序列的预测概率最大化，而不是单一只考虑某个节点，节点间的概率转移矩阵也是整体求解的一个必要参数。

结合

和

能够预测得到节点s_i的标签概率最大化。例如，当前节点取值为1时概率为0.6，而取值为2时的概率为0.4。当前节点取值1转移到下个节点任何取值的概率均为0，则说明当前节点取值为1时并不合理。

作为一种实施方式，在提取模型的学习过程中，需要执行S709，来完成该提取模型的学习，具体地，可以通过ADAM梯度优化算法和反向传播算法最小化公式(15)对应的负对数似然函数，从而更新模型参数直至收敛。收敛后的模型，就完成了对上述p(Y|S)的学习。

S350：根据标签由文本信息中提取目标内容。

参阅图7，在根据提取模型得到短信实体内容的过程中，需要执行S711，即根据目标内容指示用户终端执行目标操作，该步骤的实施方式可以参考后续实施例。

请参阅图8，图8示出了本申请实施例提供的一种短信处理方法，该方法的执行主体可以是上述服务器或上述安装在用户终端内的客户端。作为一种实施方式，以该方法的执行主体是客户端，对本申请实施例的方法描述。如图8所示，该方法包括：S801至S802。

S801：基于短信内的文本单元对应的局部特征向量和全局特征向量，得到短信的目标内容。

其中，文本单元、局部特征向量、全局特征向量和目标内容的含义可以参考前述实施例，该目标内容可以是上述的实体内容。

作为一种实施方式，用户终端能够提取所接收的短信，并将该短信发送至服务器，服务器根据前述实施例获取该短信对应的目标内容。具体地，服务器获取用户终端发送的待处理的短信，并得到该短信对应的待处理文本单元，获取待处理文本单元的局部特征向量和全局特征向量，根据局部特征向量和全局特征向量获取待处理文本单元的标签，根据标签由文本信息中提取目标内容。具体地，获取目标内容的实施方式，可以参考前述实施例，在此不再赘述。

S802：根据目标内容指示用户终端执行目标操作。

在根据标签由待处理的文本信息中提取目标内容之后，还可以根据目标内容指示用户终端执行目标操作。

其中，前述的所需的实体内容与目标操作有关。作为一种实施方式，执行该目标操作是需要的内容为所需实体内容，前述确定标签的时候也可以根据目标操作所需的实体内容来确定，则根据局部特征向量和全局特征向量获取待处理文本单元的标签的实施方式可以是，获取目标操作的需求信息，该需求信息内记录有该目标操作所需的实体内容，根据该需求信息以及局部特征向量和全局特征向量获取待处理文本单元的标签。

在一些实施例中，该目标操作可以是用户终端内的客户端执行的操作。于本申请实施例中，该目标操作可以包括指示用户终端执行账单提醒操作、验证码填写操作和出行提醒操作。

需要说明的是，根据目标内容执行目标操作的执行主体可以是服务器，则服务器将该目标内容发送至用户终端，指示用户终端执行目标操作。根据目标内容执行目标操作的执行主体可以是上述客户端，该客户端指示用户终端执行目标操作。

作为一种实施方式，目标操作包括指示用户终端执行账单提醒操作，目标内容包括消费内容，根据目标内容执行目标操作的实施方式可以是，根据消费内容生成账单提醒信息；将账单提醒信息在用户终端的屏幕上显示。

其中，消费内容可以包括时间、***、消费额、余额等信息。作为一种实施方式，消费内容设置可以是标签类型为消费类型或与消费类型相关的类型所对应的文本单元构成的内容，则该时间、***、消费额、余额等信息可以是标签类型为时间、***、消费额、余额等类型的文本单元构成的内容。

如内容是“您尾号xxxx卡9月5日10:25营业网点支出(卡取)1,000，余额xxxx.xx元。【某某银行】”的文本信息，得到的文本单元的标签如下表所示：

表1

您

尾

号

xxxx

卡

9

月

O

B-Tail

O

B-Month

O

5

日

10

：

25

营

业

B-Day

O

B-Hour

O

B-Minute

O

网

点

支

出

(

卡

取

O

B-MeanEx

E-MeanEx

O

)

1,000

，

余

额

xxxx.xx

元

O

B-Amount

O

B-Balance

O

。

【

某

银

行

】

O

B-PlatForm

I-PlatForm

E-PlatForm

O

如上表1所示，根据前述的文本单元整合成目标内容的方式，表1中的各个标签整合之后的结果可以是，单字符实体：“xxxx”类型是Tail(尾号)，“9”类型是Month(月份)，“5”类型是Day(类型是日期)，“10”类型是Hour(时间)，“25”类型是Minute(分钟)，“1,000”类型是Amount(金额)，“xxxx.xx”类型是Balance(余额)；双字符实体：“支出”类型是MeanEx(支付)，四字符实体：“某某银行”类型是PlatForm(开户行)。

通过提取到的消费内容可以生成账单提醒信息，该账单提醒信息能够告知用户某某账户的消费金额或者剩余金额，则作为一种实施方式，该账单提醒信息可以包括消费金额和剩余金额的至少一种。

例如，上述例子得到的目标内容是“xxxx”、“9”、“5”、“10”、“25”、“1,000”、“xxxx.xx”、“支出”和“某某银行”，其中，“9”、“5”、“10”、“25”属于时间类型的信息，“支出”和“1,000”为消费额类型，“xxxx.xx”为余额类型，“xxxx”和“某某银行”为***类型。

其中，属于消费内容的标签类型可以预先设定，例如，预先设定MeanEx不属于消费额类型，则根据该例子确定的“支出”就不属于消费额类型。作为一种实施方式，根据该例子确定的提醒信息为“某某银行XXXX消费1,000，余额xxxx.xx”，即选择***、消费额、余额等新作为消费内容，根据该消费内容生成该提醒信息。

作为一种实施方式，将账单提醒信息在用户终端的屏幕上显示的实施方式可以是，将账单提醒信息在用户终端的第一目标客户端的指定界面上显示。

在一些实施例中，该第一目标客户端可以是用户当前完成支付的支付客户端，则该支付客户端的指定界面可以是客户端的支付完成界面。如图9所示，用户在支付客户端内完成当前账单的支付之后，显示该支付完成界面，并且获取到与本次支付操作对应的支付短信901。

如图9所示，该短信在顶部状态栏内通过短信提醒组件显示，由于顶部状态栏所显示的内容的字数有限，用户无法通过短信提醒组件查阅到该短信的所有内容，而如果要查阅该内容，需要切换到用户终端的短信客户端，在该短信客户端内点开该短信查阅完整内容，或者，在图9所示的界面内点击该短信提醒组件，能够切换至短信客户端内的该支付短信的查阅界面。

但是，这会使得支付客户端被切换，而打断用户对支付客户端的操作。通过本申请实施例的账单提醒信息不仅使得用户快速阅读到短信内的内容，还可以避免支付客户端被切换至后台。

如图10所示，账单提醒信息1001在该支付客户端的支付完成界面内显示。例如，该账单提醒信息1001显示的内容是“账单提醒：某某银行XXXX消费1,000，余额xxxx.xx”。也就是说，服务器或客户端将支付短信901作为待处理的文本信息，执行上述方法，以得到账单提醒信息，并且在支付完成界面内显示，则用户即使不进入该短信的查阅界面，也能够得到该短信的账单相关的内容，便于即使核实本次消费的金额以及账户内的余额。

作为另一种实施方式，也可以是不必限定在具体的客户端的界面内显示该账单提醒信息。具体地，可以是在获取到该账单提醒信息，就在屏幕上显示。进一步地，可以在屏幕被点亮的时候，再将账单提醒信息在屏幕上显示。

作为另一种实施方式，目标操作包括指示用户终端执行验证码填写操作，目标内容包括验证码，根据目标内容执行目标操作的实施方式可以是，将验证码发送至第二目标客户端，指示第二目标客户端将验证码输入当前所显示的验证码输入区域内。其中，获取该验证码的方式可以是，提取文本信息中的标签的类型为验证码类型的标签。

其中，该第二目标客户端可以是用户请求获取验证码的客户端，或者用户请求输入验证码的客户端。如图11所示，该第二目标客户端的登录界面，用户需要在该界面内输入手机号，并且输入该手机号的用户终端收到的验证码，并且在该第二目标客户端的验证码输入区域1103输入验证码，并且在验证通过之后，才能够成功登录该第二目标客户端。

作为一种实施方式，用户在该第二目标客户端的界面上点击验证码获取控件1102，则该第二目标客户端对应的服务器会发送一个验证码至用户所填写的手机号对应的用户终端，则该用户终端能够接收到包含有服务器所发送的验证码的短信，记为验证短信1101，用户需要查阅该短信的内容，才能够得知该验证码。

所以，用户同样会面临上述查阅支付短信的内容时所带来的不便，即会造成不同应用的切换以及查阅短信时的繁琐的操作。即使用户可以通过顶部状态栏所显示的短信提醒组件，看到该验证短信1101内的验证码，但是依然需要手动将该验证码输入至验证码输入区域1103，操作比较繁琐。

而本申请实施例中，服务器在获取到该验证短信之后，通过上述方法步骤获取该验证短信内的验证码，自动输入第二目标客户端的当前所显示的验证码输入区域1103，则如图12所示，第二目标客户端能够自动将验证码1234输入到验证码输入区域1103内，能够减少用户的操作。

作为又一种实施方式，目标内容包括出行内容，根据目标内容执行目标操作的实施方式可以是，根据出行内容生成出行提醒信息；将出行提醒信息在用户终端的屏幕上显示。

其中，出行内容可以包括出发地、目的地、出发时间、出发车次和座位等类型的信息，则获取出行内容的方式可以是，由文本信息中提取与出行类型匹配的标签对应的文本单元，根据该文本单元得到出行内容。其中，该出行类型包括出发地、目的地、出发时间、出发车次和座位等类型。

作为一种实施方式，在用户使用旅行类APP购买飞机票、高铁票等票务的时候，该APP的服务器确定使用该APP的用户的手机号，会发送一个出行短信至该手机号对应的用户终端。该出行短信内包括出发地、目的地、出发时间、出发车次和座位等出行内容。

在一些实施例中，用户终端可以通过预先安装的第三目标客户端提取该出行短信，提取得到该出行短信内的出行内容，当然，也可以将该出行短信发送至服务器，由服务器获取该出行短信内的出行内容。从而根据该出行内容生成出行提醒信息。该出行提醒信息用于告知用户该出行内容，并且提醒用户注意给出行内容，提醒的方式可以是通过弹窗或者语音的方式。

作为一种实施方式，考虑到用户为了避免出行迟到会设置闹钟。则该出行内容包括出行时间，上述第三目标客户端为闹钟客户端。

在一些实施例中，服务器或客户端获取用户终端内的闹钟客户端设置的闹铃信息，该闹铃信息包括闹钟时刻以及对应的闹铃日期，而如果该闹铃信息属于重复闹铃，则根据该重复的规则，能够确定该闹铃信息对应的多个闹铃日期。例如，闹铃信息属于重复闹铃，其重复规则是每周一至周五，则根据日历能够确定当前获取到该出行时间的时刻之后的多个闹铃信息对应的闹铃日期。

另外，如果该闹铃信息不属于重复闹铃，则根据当前时刻能够得到该闹铃信息对应的闹铃日期。例如，今天是1月1日，周一，而闹铃信息为周二早上8点，则可以确定该闹铃信息为1月1日之后的第一个周二，即1月2日。

其中，该出行时间包括出行时刻和出行日期，如果闹铃客户端内设置了多个闹铃信息，则每个闹铃信息对应的多个闹铃日期都能够确定，找到与出行日期匹配的闹铃日期，作为目标闹铃日期，其中，与出行日期匹配的闹铃日期可以是，与出行日期属于同一天的闹铃日期。

确定闹钟时刻在该出行时刻之前的闹铃信息，作为待选闹铃信息，根据该待选闹铃信息确定目标闹铃信息，然后，在该目标闹铃信息对应的目标闹铃界面被显示的时候，在该目标闹铃界面内显示该出行提醒信息。从而能够在用户被目标闹铃信息提醒的时候，在该目标闹铃信息界面内接收到该出行提醒信息，以便能够方便及时的获知出行内容。

如图13所示，在该闹铃信息界面内显示有出行提醒信息1301，如图13所示，该出行提醒信息1301的内容为出行提醒：10月20日，早上9:00，航班****，飞往A城市。用户能够在被闹铃提醒的时候，顺便获知出行时乘坐的交通工具、该交通工具的出发时间、目的地等信息。

作为一种实施方式，根据该待选闹铃信息确定目标闹铃信息的实施方式可以是，将待选闹铃信息中，闹钟时刻最早的闹铃信息作为目标闹铃信息。

综上，本申请实施例提供的结合文本信息的全局特征向量和局部特征向量提取文本信息中的目标内容的方法，相比bi-LSTM-CRF模型的准确率更高。

具体地，本申请实施例在收支账单和验证码两种应用场景上进行实验来验证模型的有效性。实验数据集由用户授权的银行收支短信2640条和验证码短信400条组成，将数据集按照7:1:2的比例划分为训练集、验证集和测试集。实验模型包括：bi-LSTM-CRF模型和本申请实施例的提取模型，上述模型在两个应用场景的实验结果如表2和表3所示，其中，表2为收支账单场景实验结果，表3为短信验证码场景实验结果。

表2

方法	准确率(Acc.)	F1值(F1 score)
			本申请实施例的文本信息处理方法	99.97	99.86
基于bi-LSTM-CRF的方法	99.87	99.22

表3

模型	准确率(Acc.)	F1值(F1 score)
			本申请实施例的文本信息处理方法	95.19	82.89
基于bi-LSTM-CRF的方法	94.87	80.27

从表2和表3中可以看出，本申请实施例所提出的提取模型在两种评价指标上均优于现有技术方案，由此印证了本申请实施例的文本信息处理方法的有效性。尤其是识别验证码实体，F1值可以达到99％以上，因此本申请实施例的提取模型可以胜任便捷输入验证码任务。其中，F1值(F1 Score)，是统计学中用来衡量二分类模型精确度的一种指标。它同时兼顾了分类模型的精确率和召回率。

本申请实施例的提取模型可端到端(例如，服务器到用户终端，或者，用户终端内的文本处理客户端至执行目标操作的客户端)地提取短信实体信息，其不仅减少了人力成本的消耗，同时提高了短信实体识别的准确率，从而保障了底层数据的质量，使得下游任务(即执行目标操作)的体验感更好。

请参阅图14，其示出了本申请实施例提供的一种文本信息处理装置1400的结构框图。所述文本信息包括第一数量个文本单元，该装置可以包括：获取单元1410、确定单元1420和提取单元1430。

获取单元1410，用于获取待处理文本单元的局部特征向量和全局特征向量，其中，所述待处理文本单元为所述第一数量个文本单元中的第二数量个文本单元，所述第二数量小于或等于所述第一数量。

确定单元1420，用于根据局部特征向量和全局特征向量获取待处理文本单元的标签。

提取单元1430，用于根据标签由文本信息中提取目标内容。

请参阅图15，其示出了本申请实施例提供的一种文本信息处理装置1500的结构框图。所述文本信息包括第一数量个文本单元，该装置可以包括：获取单元1510、确定单元1520、提取单元1530和业务单元1540。

获取单元1510，用于获取待处理文本单元的局部特征向量和全局特征向量，其中，所述待处理文本单元为所述第一数量个文本单元中的第二数量个文本单元，所述第二数量小于或等于所述第一数量。

进一步地，获取单元1510还用于获取待处理文本单元的特征向量；根据预先获取的窗口参数和特征向量，确定待处理文本单元的窗口向量；根据窗口向量获取待处理文本单元的局部特征向量。其中，待处理的文本信息为短信文本。

确定单元1520，用于根据局部特征向量和全局特征向量获取待处理文本单元的标签。

进一步地，确定单元1520还用于获取待处理文本单元的局部特征向量对应的第一权重和全局特征向量对应的第二权重；根据局部特征向量、全局特征向量、第一权重和第二权重，得到待处理文本单元的融合向量；根据融合向量，确定待处理文本单元的标签。

进一步地，确定单元1520还用于获取待处理文本单元的特征向量；根据特征向量，确定待处理文本单元的第一权重和第二权重。

进一步地，确定单元1520还用于根据特征向量，确定待处理文本单元的分值；根据分值确定待处理文本单元的第一权重和第二权重。

进一步地，确定单元1520还用于根据下式确定待处理文本单元的分值：

a_t＝σ(Wx_t+b)，

其中，a_t为第t个文本单元的分值，W为权重矩阵，x_t为第t个文本单元的特征向量，b为偏置值，σ为概率归一化函数；将(1-a_t)作为第t个文本单元的第一权重，将a_t作为第t个文本单元的第二权重，其中，t为不大于n的自然数，n为所述第二数量。

进一步地，确定单元1520还用于根据下式确定融合向量：

r_t＝a_t⊙h_t-1+(1-a_t)⊙l_t，

其中，⊙为逐点乘积算子，h_t为第t个文本单元的全局特征向量，l_t为第t个文本单元的局部特征向量，r_t为t个文本单元的融合向量，其中，t为不大于n的自然数，n为所述第二数量。

进一步地，确定单元1520还用于依据条件随机场模型以及待处理文本单元的融合向量，获取待处理文本单元的标签。

提取单元1530，用于根据标签由待处理的文本信息中提取目标内容。

业务单元1540，用于根据目标内容指示用户终端执行目标操作。

进一步地，业务单元1540还用于根据消费内容生成账单提醒信息；将账单提醒信息在用户终端的屏幕上显示。

进一步地，业务单元1540还用于将验证码发送至客户端，指示客户端将验证码输入当前所显示的验证码输入区域内。

进一步地，业务单元1540还用于根据出行内容生成出行提醒信息；将出行提醒信息在用户终端的屏幕上显示。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，模块相互之间的耦合可以是电性，机械或其它形式的耦合。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

请参考图16，其示出了本申请实施例提供的一种电子设备的结构框图。该电子设备10可以是智能手机、平板电脑、电子书、计算机等能够运行应用程序的电子设备。作为一种实施方式，本申请中的电子设备10可以是上述的服务器，则该电子设备可以执行上述图2至图7的方法实施例。作为另一种实施方式，该电子设备还可以是用户终端，用于执行上述图8的方法实施例。

本申请中的电子设备10可以包括一个或多个如下部件：处理器110、存储器120、以及一个或多个应用程序，其中一个或多个应用程序可以被存储在存储器120中并被配置为由一个或多个处理器110执行，一个或多个程序配置用于执行如前述方法实施例所描述的方法。

处理器110可以包括一个或者多个处理核。处理器110利用各种接口和线路连接整个电子设备100内的各个部分，通过运行或执行存储在存储器120内的指令、程序、代码集或指令集，以及调用存储在存储器120内的数据，执行电子设备10的各种功能和处理数据。可选地，处理器110可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable LogicArray，PLA)中的至少一种硬件形式来实现。处理器110可集成中央处理器(CentralProcessing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作***、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器110中，单独通过一块通信芯片进行实现。

存储器120可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。存储器120可用于存储指令、程序、代码、代码集或指令集。存储器120可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作***的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储终端在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。

请参考图17，其示出了本申请实施例提供的一种计算机可读存储介质的结构框图。该计算机可读介质1700中存储有程序代码，程序代码可被处理器调用执行上述方法实施例中所描述的方法。

计算机可读存储介质1700可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地，计算机可读存储介质1700包括非易失性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质1700具有执行上述方法中的任何方法步骤的程序代码1710的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码1710可以例如以适当形式进行压缩。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种文本信息处理方法，其特征在于，所述文本信息包括第一数量个文本单元，所述方法包括：

获取待处理文本单元的局部特征向量和全局特征向量，其中，所述待处理文本单元为所述第一数量个文本单元中的第二数量个文本单元，所述第二数量小于或等于所述第一数量；

根据所述局部特征向量和所述全局特征向量获取所述待处理文本单元的标签；

根据所述标签由所述文本信息中提取目标内容。

2.根据权利要求1所述的方法，其特征在于，所述根据所述局部特征向量和所述全局特征向量获取所述待处理文本单元的标签，包括：

获取所述待处理文本单元的所述局部特征向量对应的第一权重和所述全局特征向量对应的第二权重；

根据所述局部特征向量、所述全局特征向量、所述第一权重和所述第二权重，得到所述待处理文本单元的融合向量；

根据所述融合向量，确定所述待处理文本单元的标签。

3.根据权利要求2所述的方法，其特征在于，所述获取所述待处理文本单元的所述局部特征向量对应的第一权重和所述全局特征向量对应的第二权重，包括：

获取所述待处理文本单元的特征向量；

根据所述特征向量，确定所述待处理文本单元的第一权重和第二权重。

4.根据权利要求3所述的方法，其特征在于，所述根据所述特征向量，确定所述待处理文本单元的所述第一权重和所述第二权重，包括：

根据所述特征向量，确定所述待处理文本单元的分值；

根据所述分值确定所述待处理文本单元的所述第一权重和所述第二权重。

5.根据权利要求4所述的方法，其特征在于，所述根据所述特征向量，确定所述待处理文本单元的所述分值，根据所述分值确定所述待处理文本单元的所述第一权重和所述第二权重，包括：

根据下式确定所述待处理文本单元的所述分值：

a_t＝σ(Wx_t+b)，

其中，a_t为第t个文本单元的分值，W为权重矩阵，x_t为第t个文本单元的特征向量，b为偏置值，σ为概率归一化函数；

将(1-a_t)作为第t个文本单元的第一权重，将a_t作为第t个文本单元的第二权重，其中，t为不大于n的自然数，n为所述第二数量。

6.根据权利要求5所述的方法，其特征在于，所述根据所述局部特征向量、所述全局特征向量、所述第一权重和所述第二权重，得到至少一个所述文本单元的所述融合向量，包括：

根据下式确定所述融合向量：

r_t＝a_t⊙h_t-1+(1-a_t)⊙l_t，

7.根据权利要求1所述的方法，其特征在于，所述获取所述待处理文本单元的所述局部特征向量，包括：

获取所述待处理文本单元的特征向量；

根据预先获取的窗口参数和所述特征向量，确定所述待处理文本单元的窗口向量；

根据所述窗口向量获取所述待处理文本单元的所述局部特征向量。

8.根据权利要求1所述的方法，其特征在于，所述文本信息为短信文本。

9.根据权利要求1-8任一所述的方法，其特征在于，所述根据所述标签由所述待处理的文本信息中提取目标内容之后，还包括：

根据所述目标内容指示用户终端执行目标操作。

10.根据权利要求9所述的方法，其特征在于，所述目标内容包括消费内容，所述根据所述目标内容指示用户终端执行目标操作，包括：

根据所述消费内容生成账单提醒信息；

将所述账单提醒信息在用户终端的屏幕上显示。

11.根据权利要求9所述的方法，其特征在于，所述目标内容包括验证码，所述根据所述目标内容指示用户终端执行目标操作，包括：

将所述验证码发送至客户端，指示所述客户端将所述验证码输入当前所显示的验证码输入区域内。

12.根据权利要求9所述的方法，其特征在于，所述目标内容包括出行内容，所述根据所述目标内容指示用户终端执行目标操作，包括：

根据所述出行内容生成出行提醒信息；

将所述出行提醒信息在用户终端的屏幕上显示。

13.一种短信处理方法，其特征在于，应用于用户终端，所述方法包括：

基于所述短信内的文本单元对应的局部特征向量和全局特征向量，得到所述短信的目标内容；

根据所述目标内容指示所述用户终端执行目标操作。

14.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行如权利要求13所述的方法。

15.一种计算机可读介质，其特征在于，所述可读存储介质存储有处理器可执行的程序代码，所述程序代码被所述处理器执行时使所述处理器执行权利要求1-12任一项所述方法。