CN111831818A - 文本信息识别方法、装置及存储介质 - Google Patents

文本信息识别方法、装置及存储介质 Download PDF

Info

Publication number
CN111831818A
CN111831818A CN201910300057.6A CN201910300057A CN111831818A CN 111831818 A CN111831818 A CN 111831818A CN 201910300057 A CN201910300057 A CN 201910300057A CN 111831818 A CN111831818 A CN 111831818A
Authority
CN
China
Prior art keywords
content
text information
identification
recognition
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910300057.6A
Other languages
English (en)
Inventor
李志鹏
吴荣强
张光宇
何小锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201910300057.6A priority Critical patent/CN111831818A/zh
Publication of CN111831818A publication Critical patent/CN111831818A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Machine Translation (AREA)

Abstract

本申请提供一种文本信息识别方法、装置及存储介质,其中,该方法包括:获取包括文本信息的待识别内容,基于所述待识别内容对应的拼音序列和识别模型,确定针对待识别内容中文本信息的第一识别结果,以及基于待识别内容对应的汉字序列和该识别模型,确定针对待识别内容中文本信息的第二识别结果,最后基于上述第一识别结果对应的第一向量和第二识别结果对应的第二向量,得到待识别内容的文本信息识别结果。该技术方案通过拼音序列和汉字序列的处理,能够提高待识别内容中的文本信息识别效果,提高了文本信息的识别准确度,提升了用户体验。

Description

文本信息识别方法、装置及存储介质
技术领域
本申请涉及信息处理技术领域,尤其涉及一种文本信息识别方法、装置及存储介质。
背景技术
随着科学技术的不断发展,用户在电商网站上足不出户便可购到所需商品,用户在接收到所购商品后通常会对所购商品和卖家进行商品质量和卖家服务质量进行评论,从而为其他买家提供参考。
现有技术中,用户评论中可能存在广告、不文明用语等类型的文本信息。通常情况下,在电商网站上新增一条新的用户评论时,可以判别该用户评论中是否存在上述类型的文本信息,若是,则对其中的这类文本信息进行处理,以保证其他用户的使用体验。
然而,现有的文本信息识别方法仅能识别出待识别内容(例如,用户评价)中的部分目标文本信息,存在识别准确度低,用户体验差的问题。
发明内容
本申请提供一种文本信息识别方法、装置及存储介质,以解决现有文本信息识别方法存在的文本信息识别准确度低,用户体验差的问题。
本申请第一方面提供的一种文本信息识别方法,包括:
获取待识别内容,所述待识别内容包括:文本信息;
基于所述待识别内容对应的拼音序列和识别模型,确定针对所述待识别内容中文本信息的第一识别结果;
基于所述待识别内容对应的汉字序列和所述识别模型,确定针对所述待识别内容中文本信息的第二识别结果;
基于所述第一识别结果对应的第一向量和所述第二识别结果对应的第二向量,得到所述待识别内容的文本信息识别结果。
在本实施例中,利用该识别模型对待识别内容进行拼音序列和汉字序列的处理,能够提高待识别内容中的文本信息识别效果,提高了文本信息的识别准确度,提升了用户体验。
在第一方面的一种可能设计中,所述基于所述第一识别结果对应的第一向量和第二识别结果对应的第二向量,得到所述待识别内容的文本信息识别结果,包括:
基于向量相同位置进行叠加的原理,将所述第一识别结果对应的第一向量和所述第二识别结果对应的第二向量进行组合,得到合成向量;
将所述合成向量通过全连接网络处理后输入到判别式模型中,得到所述待识别内容的文本信息识别结果。
在第一方面的另一种可能设计中,在所述基于所述待识别内容对应的拼音序列和识别模型,确定针对所述待识别内容中文本信息的第一识别结果之前,所述方法还包括:
对所述待识别内容进行预处理,得到所述待识别内容对应的汉字序列;
利用所述识别模型将所述汉字序列转换成所述拼音序列。
在第一方面的再一种可能设计中,在所述基于所述待识别内容对应的拼音序列和识别模型,确定针对所述待识别内容中文本信息的第一识别结果之前,所述方法还包括:
获取历史识别样本集合,所述历史识别样本集合包括:多条携带文本信息的历史识别内容;
基于所述历史识别样本集合中每条历史识别内容对应的拼音序列对预设网络中的第一子网络进行训练,得到所述识别模型包括的第一识别网络,所述第一识别网络具有识别拼音序列中文本信息的功能;
基于所述历史识别样本集合中每条历史识别内容对应的汉字序列对所述预设网络中的第二子网络进行训练,得到所述识别模型包括的第二识别网络,所述第二识别网络具有识别汉字序列中文本信息的功能。
在第一方面的上述可能设计中,在所述基于所述历史识别样本集合中每条历史识别内容对应的拼音序列对预设网络中的第一子网络进行训练,得到所述识别模型包括的第一识别网络之前,所述方法还包括:
对所述历史识别样本集合中每条历史识别内容进行预处理,得到每条历史识别内容对应的汉字序列;
获取每条历史识别内容对应汉字序列的拼音标注结果,所述拼音标注结果是人工基于每条历史识别内容的上下文信息确定的;
基于所述拼音标注结果,将所述历史识别样本集合中每条历史识别内容对应的汉字序列转换成拼音序列;
基于所述历史识别样本集合中每条历史识别内容对应的汉字序列和拼音序列对所述预设网络中的第三子网络进行训练,得到所述识别模型包括的转换网络,所述转换网络具有将汉字序列转换为拼音序列的功能。
在第一方面的又一种可能设计中,所述方法还包括:
检测所述待识别内容对应的汉字序列和/或拼音序列中是否有存在于文本词库中的文本信息,得到第三识别结果,所述文本词库包括历史识别过程中确定的文本信息对应的汉字序列和拼音序列;
基于所述第三识别结果,对所述文本信息识别结果进行更新,将更新后的文本信息识别结果作为所述待识别内容的文本信息识别结果。
在第一方面的上述任意一种可能设计中,所述待识别内容包括:电商网站上的用户评论内容,所述待识别内容中的文本信息包括:用户评论内容中的关键词。
在第一方面的上述任意一种可能设计中,所述待识别内容包括:云存储***中的待脱敏内容,所述待识别内容中的文本信息包括:待脱敏内容中的敏感信息。
本申请第二方面提供一种文本信息识别装置,包括:获取模块、识别模块和确定模块;
所述获取模块,用于获取待识别内容,所述待识别内容包括:文本信息;
所述识别模块,用于基于所述待识别内容对应的拼音序列和识别模型,确定针对所述待识别内容中文本信息的第一识别结果,基于所述待识别内容对应的汉字序列和所述识别模型,确定针对所述待识别内容中文本信息的第二识别结果;
所述确定模块,用于基于所述第一识别结果对应的第一向量和所述第二识别结果对应的第二向量,得到所述待识别内容的文本信息识别结果。
在第二方面的一种可能设计中,所述确定模块,具体用于基于向量相同位置进行叠加的原理,将所述第一识别结果对应的第一向量和所述第二识别结果对应的第二向量进行组合,得到合成向量,以及将所述合成向量通过全连接网络处理后输入到判别式模型中,得到所述待识别内容的文本信息识别结果。
在第二方面的另一种可能设计中,所述装置还包括:处理模块;
所述处理模块,用于在所述识别模块基于所述待识别内容对应的拼音序列和识别模型,确定针对所述待识别内容中文本信息的第一识别结果之前,对所述待识别内容进行预处理,得到所述待识别内容对应的汉字序列,利用所述识别模型将所述汉字序列转换成所述拼音序列。
在第二方面的再一种可能设计中,所述获取模块,还用于获取历史识别样本集合,所述历史识别样本集合包括:多条携带文本信息的历史识别内容;
所述装置还包括:训练模块;
所述训练模块,用于基于所述历史识别样本集合中每条历史识别内容对应的拼音序列对预设网络中的第一子网络进行训练,得到所述识别模型包括的第一识别网络,所述第一识别网络具有识别拼音序列中文本信息的功能,基于所述历史识别样本集合中每条历史识别内容对应的汉字序列对所述预设网络中的第二子网络进行训练,得到所述识别模型包括的第二识别网络,所述第二识别网络具有识别汉字序列中文本信息的功能。
在第二方面的上述可能设计中,所述处理模块,还用于对所述历史识别样本集合中每条历史识别内容进行预处理,得到每条历史识别内容对应的汉字序列;
所述获取模块,还用于获取每条历史识别内容对应汉字序列的拼音标注结果,所述拼音标注结果是人工基于每条历史识别内容的上下文信息确定的,基于所述拼音标注结果;
所述处理模块,还用于将所述历史识别样本集合中每条历史识别内容对应的汉字序列转换成拼音序列;
所述训练模块,还用于基于所述历史识别样本集合中每条历史识别内容对应的汉字序列和拼音序列对所述预设网络中的第三子网络进行训练,得到所述识别模型包括的转换网络,所述转换网络具有将汉字序列转换为拼音序列的功能。
在第二方面的又一种可能设计中,所述装置还包括:检测模块和更新模块;
所述检测模块,用于检测所述待识别内容对应的汉字序列和/或拼音序列中是否有存在于文本词库中的文本信息,得到第三识别结果,所述文本词库包括历史识别过程中确定的文本信息对应的汉字序列和拼音序列;
所述更新模块,用于基于所述第三识别结果,对所述文本信息识别结果进行更新,将更新后的文本信息识别结果作为所述待识别内容的文本信息识别结果。
在第二方面的上述任意一种可能设计中,所述待识别内容包括:电商网站上的用户评论内容,所述待识别内容中的文本信息包括:用户评论内容中的关键词。
在第二方面的上述任意一种可能设计中,所述待识别内容包括:云存储***中的待脱敏内容,所述待识别内容中的文本信息包括:待脱敏内容中的敏感信息。
本申请第三方面提供一种文本信息识别装置,包括处理器、存储器及存储在所述存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述第一方面以及第一方面各可能设计所述的方法。
本申请第四方面提供一种存储介质,所述存储介质中存储有指令,当其在计算机上运行时,使得计算机执行如第一方面以及第一方面各可能设计所述的方法。
本申请实施例提供的文本信息识别方法、装置及存储介质,通过获取包括文本信息的待识别内容,基于待识别内容对应的拼音序列和识别模型,确定针对待识别内容中文本信息的第一识别结果,基于待识别内容对应的汉字序列和该识别模型,确定针对待识别内容中文本信息的第二识别结果,基于该第一识别结果对应的第一向量和第二识别结果对应的第二向量,得到该待识别内容的文本信息识别结果。该方法通过拼音序列和汉字序列的处理,能够提高待识别内容中的文本信息识别效果,提高了文本信息的识别准确度,提升了用户体验。
附图说明
图1为本申请实施例提供的文本信息识别方法实施例一的流程示意图;
图2为本申请实施例提供的文本信息识别方法实施例二的流程示意图;
图3为本申请实施例提供的文本信息识别方法实施例三的流程示意图;
图4为本申请实施例提供的文本信息识别方法实施例四的流程示意图;
图5为本申请实施例提供的文本信息识别方法实施例五的流程示意图;
图6为识别模型对应的预设网络的结构示意图;
图7为本申请实施例提供的文本信息识别方法实施例六的流程示意图;
图8为本申请实施例提供的文本信息识别装置实施例一的结构示意图;
图9为本申请实施例提供的文本信息识别装置实施例二的结构示意图;
图10为本申请实施例提供的文本信息识别装置实施例三的结构示意图;
图11为本申请实施例提供的文本信息识别装置实施例四的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
以下,对本申请实施例中的部分用语进行解释说明,以便于本领域技术人员理解:
机器学习:机器学习是指用某些算法指导计算机利用已知数据得出适当的模型,并利用此模型对新的情境给出判断的过程。
待识别内容:待识别内容可以指从大数据平台、电商平台、业务平台等多种平台获取到的某段内容,该内容中可以包括:文本信息、符号信息、图形信息、表情信息等多种不同表现形式的内容。示例性的,待识别内容中的文本信息可以例如是从大数据平台获取的待脱敏内容、从电商平台获取的用户评论内容、从业务平台获取的业务信息等,本申请实施例并不对待识别内容的具体表现形式进行限定,其可以根据实际情况确定。
相应的,待识别内容中的文本信息可以指一些目标文本信息,例如,待脱敏内容中带有的用户身份信息、年龄信息等敏感信息,用户评论内容中带有的辱骂、赞赏等感情色彩的关键词或者带有平台名称等广告宣传性质的关键词等,其中,用户评论内容中带有的辱骂、涉黄、广告等关键词也可以称为违禁词,本实施例并不对待识别内容中的文本信息进行限定。
LSTM:长短期记忆(long short-term memory,LSTM)网络是一种时间递归神经网络,LSTM适合于处理和预测时间序列中间隔和延迟非常长的重要事件。
Bi-LSTM:双向长短期记忆网络(bi-directional long short-term memory)由前向LSTM与后向LSTM组合而成,是由两个LSTM构成,前向LSTM从正向获取序列信息,后向LSTM从反向获取序列信息,这样可以综合整个序列的完整信息,以及序列中每个位置的顺序。
CRF:条件随机场(conditional random field,CRF)是一种判别式模型,是随机场的一种,常用于标注或分析序列资料,例如,自然语言文字或是生物序列。
本申请实施例提供的文本信息识别方法可以适用于服务器,该服务器可以用于识别待处理平台中的文本信息。示例性的,该待处理平台可以是电商平台、大数据平台或业务平台等,因而,该文本信息识别方法可以用于电商平台上用户评论内容中的关键词识别、大数据平台上待脱敏内容中的敏感信息识别、业务平台上的目标业务信息识别。
值得说明的是,在实际应用中,该文本信息识别方法还可以适用于其他场景中的文本信息识别,本实施例并不对具体的应用场景技术限定,其可以根据实际情况确定。
示例性的,下述可以以本申请的文本信息识别方法适用于电商平台上用户评论内容中的关键词识别对本申请的技术方案进行解释说明。
在电商技术领域中,随着网络技术的快速发展,用户在电商网站上购买所需物品的方式越来越普遍。由于网上购物时,用户只能根据商品详情里记载的内容了解商品的基本信息,无法看到真实的商品,因而,相关用户购买商品后对该商品的质量评价以及对卖家的服务质量评价非常重要,其不仅可以体现卖家的口碑信誉,还可能影响消费者的下单判断,而且这也是获取消费者反馈互动的最直接方式,所以,用户评价具有非常高的指导价值,可以在很大程度上为其他买家提供参考。所以,用户评论内容是电商领域中十分重要的数据。
在现实生活中,某些买家基于利益考虑或情绪影响等因素,在对商品质量或卖家服务质量进行评论时,可能会在用户评论内容中携带广告性质的关键词,或者带有偏激感情色彩的不文明用语等关键词,进而影响到其他用户的购物体验。因而,如何识别出用户评论内容中的关键词是电商领域中的重要部分,是保证用户评论质量的前提。
同理,随着大数据技术的不断成熟发展和应用范围不断扩大,涉及大数据技术的开发项目越来越多,如何对大规模数据进行脱敏,并利用脱敏后的数据搭建一个大数据项目的测试环境的需求越来越强烈,因而,如何识别大数据平台上待脱敏内容中的敏感信息或者业务平台上的目标业务信息,是实现待脱敏数据中敏感信息的脱敏和敏感信息隐私保护的关键。
针对现有技术中的文本信息识别方法仅能识别出待识别内容中的部分目标文本信息,存在识别准确度低,用户体验差的问题,针对该问题,本申请实施例提供了一种文本信息识别方法、装置及存储介质,通过获取包括文本信息的待识别内容,基于待识别内容对应的拼音序列和识别模型,确定针对待识别内容中文本信息的第一识别结果,基于待识别内容对应的汉字序列和该识别模型,确定针对待识别内容中文本信息的第二识别结果,基于该第一识别结果对应的第一向量和第二识别结果对应的第二向量,得到该待识别内容的文本信息识别结果。该方法通过拼音序列和汉字序列的处理,能够提高待识别内容中的文本信息识别效果,提高了文本信息的识别准确度,提升了用户体验。
下面,通过具体实施例对本申请的技术方案进行详细说明。需要说明的是,下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。
图1为本申请实施例提供的文本信息识别方法实施例一的流程示意图。该方法可以适用于服务器,该服务器用于对待处理平台上的事务进行处理,例如,该服务器可以用于处理电商网站上的商品信息维护、订单获取、订单处理、商品评价管理等事务。示例性的,在本实施例中,如图1所示,该文本信息识别方法可以包括如下步骤:
步骤11:获取待识别内容,该待识别内容包括:文本信息。
可选的,在本实施例中,当待处理平台上存在需要识别的待识别内容时,服务器可以获取该待处理平台上的待识别内容。值得说明的是,为了体现本实施例的文本信息识别方法准确度高,本实施例中以该待识别内容中包括文本信息进行说明。
示例性的,在电商领域中,服务器可以检测电商网站上是否存在对商品进行评价的事务,若存在,则检测是否有新增的用户评论内容,并在检测到电商网站上新增一条用户评论内容时,服务器便可以获取到该用户评论内容,为后续检测并识别用户评论内容中是否存在关键词奠定了基础。
步骤12:基于待识别内容对应的拼音序列和识别模型,确定针对该待识别内容中文本信息的第一识别结果。
在本实施例中,为了避免用户对待识别内容中的文本信息进行转换处理,影响文本信息识别不准确的问题,本实施例中的识别模型可以是训练过程中基于历史识别内容集合中每条识别内容包括的文本信息对应的拼音序列训练得到的,所以,该识别模型具有识别拼音序列中文本信息的功能,故服务器可以利用该识别模型对待识别内容的拼音序列进行文本信息的识别,进而得到针对该待识别内容中文本信息的第一识别结果。
示例性的,服务器上运行着训练好的识别模型,该识别模型至少具有识别拼音序列中文本信息的功能,因而,当待识别内容中包括文本信息时,该识别模型可以识别出待识别内容中的文本信息。
在实际应用中,当获取到待识别内容时,可以通过将待识别内容对应的拼音序列输入到该识别模型中可以得到第一识别结果,该第一识别结果是针对拼音序列中文本信息的识别结果,也即,当服务器获取到待识别内容对应的拼音序列时,可以利用运行在该服务器上的识别模型来识别该待识别内容中的文本信息,进而得到第一识别结果。
例如,下述以待识别内容为电商网站上的用户评论内容,文本信息为用户评论内容中的关键词进行举例说明。
示例性的,假设电商网络上某一条用户评论内容想要表达的意思为“这个围巾是晓红的同款”,且该“晓红”是关键词,评论者为了避免该关键词“晓红”被检测到,发表的用户评论内容可能为“这个围巾是小红的同款”。由于本申请实施例中的识别模型是基于该用户评论内容对应的拼音序列“zhe ge wei jin shi xiao hong de tong kuan”得到的,所以,该识别模型能够可以识别出“xiao hong”,提高了关键词识别的准确度。
步骤13:基于待识别内容对应的汉字序列和识别模型,确定针对该待识别内容中文本信息的第二识别结果。
可选的,在本实施例中,为了进一步提高文本信息识别的准确度,服务器上运行着的该识别模型还具有识别汉字序列中文本信息的功能,所以,服务器可以利用该识别模型对待识别内容的汉字序列进行文本信息的识别,进而得到针对该待识别内容中文本信息的第二识别结果。
在本实施例中,在训练上述识别模型的过程中,服务器还可以基于历史识别样本集合中的各历史识别内容对应的汉字序列进行训练,以使该识别模型还具有识别汉字序列中文本信息的功能。
在本实施例中,通过对汉字序列进行拼音映射,以及基于汉字序列与拼音序列共同来训练模型,可以使该识别模型的训练更加充分,在很大程度上提升了识别模型的泛化能力,不仅能够识别待识别内容中表现形式为汉字的文本信息,也可以识别出表现形式为拼音的文本信息,提高了该识别模型的可解释性和可信度,进而最终能够精准地定位出待识别内容中的文本信息。
步骤14:基于第一识别结果对应的第一向量和第二识别结果对应的第二向量,得到该待识别内容的文本信息识别结果。
在本实施例中,为了进一步提高文本信息识别的准确性,防止单一的拼音序列识别或单一的汉字序列识别存在的不准确问题,本实施例可以将上述第一识别结果和第二识别结果进行结合,基于第一识别结果对应的第一向量和第二识别结果对应的第二向量的处理结果作为该文本信息的识别结果,其实现了文本信息的互补,提高了待识别内容中文本信息的识别准确度。
关于该步骤的具体实现可以参照下述图3所示实施例中的记载,此处不再赘述。
示例性的,在本实施例中,该识别模型可以包括对称的两个子网络,例如,结构相同的Bi-LSTM网络。其中,一个Bi-LSTM网络用于待识别内容对应的拼音序列中文本信息的识别,另一个Bi-LSTM网络用于待识别内容对应的汉字序列中文本信息的识别。
具体的,将待识别内容输入到该识别模型中,该识别模型可以利用一个Bi-LSTM网络对待识别内容对应的拼音序列中的文本信息进行识别,利用另一个Bi-LSTM网络对待识别内容对应的汉字序列中的文本信息进行识别。
示例性的,在本实施例中,用于识别待识别内容对应的拼音序列中文本信息的Bi-LSTM网络称为第一识别网络,用于识别待识别内容对应的汉字序列中文本信息的Bi-LSTM网络称为第二识别网络。
由于Bi-LSTM网络包含了前向和后向的LSTM,因而,其可以得到完整序列的正序和反序的上下文信息,这两个对称的、网络结构一致的Bi-LSTM网络可以有效的通过网络学习到汉字序列和拼音序列的完整的上下文信息,为后续在空间向量中确定文本信息的位置和信息奠定了基础。
本实施例中,服务器利用具有对拼音序列和汉字序列中文本信息识别的识别模型,可以很好的解决待识别内容中文本信息汉字转拼音导致识别不准确的问题,使得文本信息识别结果更具有可解释性和可信度,进而提升了待识别内容中的文本信息的识别精确度。
本申请实施例提供的文本信息识别方法,通过获取包括文本信息的待识别内容,基于所述待识别内容对应的拼音序列和识别模型,确定针对待识别内容中文本信息的第一识别结果,以及基于待识别内容对应的汉字序列和该识别模型,确定针对待识别内容中文本信息的第二识别结果,最后基于上述第一识别结果对应的第一向量和第二识别结果对应的第二向量,得到待识别内容的文本信息识别结果。也即,该技术方案通过拼音序列和汉字序列的处理,能够提高待识别内容中的文本信息识别效果,提高了文本信息的识别准确度,提升了用户体验。
示例性的,在上述实施例的基础上,图2为本申请实施例提供的文本信息识别方法实施例二的流程示意图。如图2所示,在本实施例中,在上述步骤12之前,该文本信息识别方法还可以包括如下步骤:
步骤21:对待识别内容进行预处理,得到该待识别内容对应的汉字序列。
示例性的,服务器获取到待识别内容后,可以首先对该待识别内容进行预处理,得到符合识别标准的汉字序列。
示例性的,关于对待识别内容的预处理可以包括如下内容:通过解析待识别内容,将文本信息为空的片段或内容进行过滤,将每段文本信息拆分成长度小于预设长度的短文本等等。
步骤22:利用上述识别模型将该汉字序列转换成拼音序列。
在本实施例中,上述识别模型还可以包括具有将汉字序列转换为拼音序列功能的转换网络,在识别模型的训练过程中,该转换网络被训练成为对于获取到的待识别内容具有上下文信息的分析能力以及汉字序列转换成拼音序列的能力,所以,服务器可以利用该识别模型基于待识别内容上下文信息,对得到的汉字序列进行拼音标注,并转换成拼音序列。
示例性的,服务器通过该识别模型中的转换网络可以将汉字序列翻译为拼音序列,以得到准确、完整的拼音序列。示例性的,该转换网络可以通过LSTM网络实现。
可选的,在实际应用中,服务器获取到待识别内容且对该待识别内容进行预处理后,可以通过识别模型将预处理得到的汉字序列转换成对应的拼音序列,提高了转换的准确度。
本申请实施例提供的文本信息识别方法,通过对待识别内容进行预处理,得到该待识别内容对应的汉字序列,以及利用上述识别模型将该汉字序列转换成拼音序列。该技术方案首先对待识别内容进行预处理以及将汉字序列转换成拼音序列,为后续文本信息的识别奠定了实现基础,间接提升了文本信息的识别准确度。
可选的,在上述实施例的基础上,图3为本申请实施例提供的文本信息识别方法实施例三的流程示意图。如图3所示,在本实施例中,上述步骤14可以通过如下步骤实现:
步骤31:基于向量相同位置进行叠加的原理,将该第一识别结果对应的第一向量和所述第二识别结果对应的第二向量进行组合,得到合成向量。
可选的,在本实施例中,由上述分析可知,将上述待识别内容输入到上述识别模型中,会得到拼音序列对应的第一识别结果和汉字序列对应的第二识别结果。在实际应用中,识别模型的第一识别网络以向量的形式输出上述第一识别结果、识别模型的第二识别网络以向量的形式输出上述第二识别结果。
因而,对于第一识别结果和第二识别结果的结合,可以基于向量相同位置进行叠加的原理,将该第一识别结果对应的第一向量和第二识别结果对应的第二向量进行组合得到合成向量,以保证识别模型能够尽可能的保留汉字序列和拼音序列在相同位置的信息,以增强文本信息识别的概率。
步骤32:将该合成向量通过全连接网络处理后输入到判别式模型中,得到待识别内容的文本信息识别结果。
在实际应用中,需要将上述得到的合成向量映射成固定向量才能够得到待识别内容的文本信息识别结果。可选的,识别模型可以将上述合成向量输入到判别式模型中,经过判别式模型的标注处理,从而定位出待识别内容中的文本信息所在的位置和数量。
在本实施例中,该判别式模型可以为CRF模型,即利用CRF模型来实现对文本信息的最终识别。这是因为上述对称的两个子网络(Bi-LSTM网络)可以将待识别内容中的汉字序列和拼音序列映射到指定的样本标记空间中得到合成向量,该合成向量包含了完整序列的上下文信息,将该合成向量输入到CRF中来识别待识别内容中文本信息的位置。
本申请实施例提供的文本信息识别方法,基于向量相同位置进行叠加的原理,将第一识别结果对应的第一向量和第二识别结果对应的第二向量进行组合,得到合成向量,将该合成向量通过全连接网络处理后输入到判别式模型中,得到待识别内容的文本信息识别结果。该技术方案中,第一识别结果和第二识别结果对应的合成向量分别经过合全连接网络和判别式模型,可以确定出文本信息的位置,为后续对文本信息的处理提供了依据。
示例性的,在上述任一实施例的基础上,图4为本申请实施例提供的文本信息识别方法实施例四的流程示意图。如图4所示,在本实施例中,该文本信息识别方法还可以包括如下步骤:
步骤41:获取历史识别样本集合,该历史识别样本集合包括:多条携带文本信息的历史识别内容。
可选的,服务器若想训练得到识别准确度高的识别模型,可以从线上获取历史识别样本集合,并且该历史识别样本集合中携带文本信息的历史识别内容的数量应该足够多,且具有的文本信息可以基于历史识别内容的真实分布情况覆盖多种类别。
步骤42:基于历史识别样本集合中每条历史识别内容对应的拼音序列对预设网络中的第一子网络进行训练,得到识别模型包括的第一识别网络,该第一识别网络具有识别拼音序列中文本信息的功能。
可选的,在本实施例中,假设待训练的识别模型与上述预设网络相对应,且上述预设网络至少包括三个子网络。在实际应用中,假设服务器采用预设网络包括的第一子网络来训练具有识别拼音序列中文本信息的功能的第一识别网络,采用预设网络包括的第二子网络来训练具有识别汉字序列中文本信息的功能的第二识别网络。可选的,该第一子网络和第二子网络可以通过对称分布的Bi-LSTM网络实现。
具体的,在本实施例中,将历史识别样本集合中每条历史识别内容对应的拼音序列和每条历史识别内容对应的第一信息识别结果分别作为第一子网络的输入对该第一子网络进行训练,得到该识别模型包括的第一识别网络,该第一识别网络具有识别拼音序列中文本信息的功能。其中,每条历史识别内容对应的第一信息识别结果是针对拼音序列的已知文本信息识别结果。
步骤43:基于历史识别样本集合中每条历史识别内容对应的汉字序列对所述预设网络中的第二子网络进行训练,得到识别模型包括的第二识别网络,该第二识别网络具有识别汉字序列中文本信息的功能。
具体的,在本实施例中,将历史识别样本集合中每条历史识别内容对应的汉字序列和每条历史识别内容对应的第二信息识别结果分别作为第二子网络的输入对该第二子网络进行训练,得到该识别模型包括的第二识别网络,该第二识别网络具有识别汉字序列中文本信息的功能。其中,每条历史识别内容对应的第二信息识别结果是针对汉字序列的已知文本信息识别结果。
本申请实施例的文本信息识别方法,通过获取历史识别样本集合,该历史识别样本集合包括:多条携带文本信息的历史识别内容,基于历史识别样本集合中每条历史识别内容对应的拼音序列对预设网络中的第一子网络进行训练,得到识别模型包括的第一识别网络,该第一识别网络具有识别拼音序列中文本信息的功能,基于该历史识别样本集合中每条历史识别内容对应的汉字序列对预设网络中的第二子网络进行训练,得到该识别模型包括的第二识别网络,该第二识别网络具有识别汉字序列中文本信息的功能。该技术方案中,训练得到的识别模型包括具有识别拼音序列中文本信息的第一识别网络以及具有识别汉字序列中文本信息的第二识别网络,其为待识别内容的准确识别提供了实现条件。
示例性的,在上述实施例的基础上,图5为本申请实施例提供的文本信息识别方法实施例五的流程示意图。如图5所示,在本实施例中,在上述步骤42之前,该文本信息识别方法还可以包括如下步骤:
步骤51:对该历史识别样本集合中每条历史识别内容进行预处理,得到每条历史识别内容对应的汉字序列。
可选的,为了提高识别模型的训练效率和训练准确度,服务器可以首先对获取到的历史识别样本集合进行一系列的预处理,得到比较干净、且样本类别丰富的历史识别样本集合以及每条历史识别内容对应的汉字序列。
步骤52:获取每条历史识别内容对应汉字序列的拼音标注结果,该拼音标注结果是人工基于每条历史识别内容的上下文信息确定的。
可选的,现有技术中通过一些工具包可以实现汉字到拼音的映射,但是该方式不能够解决同字不同音的问题,例如:“长大”和“长短”,“长”在不同的场景中对应的拼音不一致。例如,基于上下文信息,“长大”的拼音序列应该为“zhang da”,“长短”的拼音序列应该为“chang duan”。
因而,在本实施例中,考虑到历史识别内容对应汉字序列的上下文信息,可以人工基于每条历史识别内容的上下文信息确定得到每条历史识别内容对应汉字序列的拼音标注结果。
步骤53:基于该拼音标注结果,将历史识别样本集合中每条历史识别内容对应的汉字序列转换成拼音序列。
可选的,在本实施例中,服务器基于得到的拼音标注结果,可以直接将每条历史识别内容对应的汉字序列转换成拼音序列,从而得到历史识别样本集合中每条历史识别内容对应的汉字序列和拼音序列。
步骤54:基于历史识别样本集合中每条历史识别内容对应的汉字序列和拼音序列对预设网络中的第三子网络进行训练,得到上述识别模型包括的转换网络,该转换网络具有将汉字序列转换为拼音序列的功能。
在本实施例中,服务器可以采用预设网络包括的第三子网络来训练具有将汉字序列转换为拼音序列的功能的转换网络。可选的,该第三子网络可以通过LSTM网络实现。
示例性的,本实施例中可以通过训练该第三子网络,以使该第三子网络可以自行根据待识别内容的上下文信息将汉字序列准确的转换成拼音序列。
具体的,在本实施例中,将历史识别样本集合中每条历史识别内容对应的汉字序列和拼音序列分别作为第三子网络的输入和输出对该第三子网络进行训练,得到该识别模型包括的转换网络,该转换网络具有将汉字序列转换为拼音序列的功能。
本申请实施例提供的文本信息识别方法,通过对历史识别样本集合中每条历史识别内容进行预处理,得到每条历史识别内容对应的汉字序列,获取每条历史识别内容对应汉字序列的拼音标注结果,该拼音标注结果是人工基于每条历史识别内容的上下文信息确定的,基于该拼音标注结果,将历史识别样本集合中每条历史识别内容对应的汉字序列转换成拼音序列,最后基于该历史识别样本集合中每条历史识别内容对应的汉字序列和拼音序列对预设网络中的第三子网络进行训练,得到该识别模型包括的转换网络,该转换网络具有将汉字序列转换为拼音序列的功能。该技术方案中,通过人工批注方式得到具有将汉字序列转换为拼音序列的转换网络,其为后续文本信息的准确识别奠定了基础。
示例性的,图6为识别模型对应的预设网络的结构示意图。如图6所示,该识别模型可以包括:结构相同、对称分布的第一识别网络和第二识别网络、转换网络、连接网络和判别式模型。可选的,该第一识别网络和第二识别网络通过Bi-LSTM网络实现,该转换网络可以通过LSTM网络实现,该连接网络可以包括:连接向量和全连接层,该判别式模型可以为CRF模型。
示例性的,参照图6所示,本实施例以待识别内容为用户评论内容,需要识别的文本信息为用户评论内容中的关键词,具体的识别方案如下:用户评论内容经过处理后得到汉字序列,一方面,汉字序列输入到具有对汉字序列对应文本信息识别功能的第二识别网络中得到第二识别结果对应的第二向量,另一方面,该汉字序列输入到转换网络中得到拼音序列,该拼音序列输入到具有对拼音序列对应文本信息识别功能的第一识别网络中得到第一识别结果对应的第一向量,第一向量和第二向量经过连接网络和判别式模型的处理后得到关键词识别结果。
下述以历史识别样本集合为电商网站上的历史用户评论内容,待识别的文本信息为历史用户评论内容中的关键词为例进行说明。
具体的,基于图6所示的预设网络对识别模型的训练过程总结为如下步骤:
(1)从线上获取历史用户评论样本集合,并对其进行一系列的预处理,得到比较干净的用户评论序列数据集。
(2)获取上述历史用户评论样本集合中各历史评论样本对应的汉字序列和拼音序列。其中,该拼音序列是基于人工标注的拼音标注结果对汉字序列转换得到的。
(3)利用上述历史用户评论样本集合中各历史评论样本对应的汉字序列和拼音序列作为训练数据集来训练识别模型中的转换网络、第一识别网络和第二识别网络,该第一识别网络和第二识别网络是包括相同结构、对称分布的网络。
具体的,在本实施例中,该转换网络可以为LSTM网络,通过将历史评论样本对应的汉字序列作为转换网络的输入,历史评论样本对应的拼音序列作为转换网络的输出,可以训练得到该转换网络。
该第一识别网络和第二识别网络为结构相同的Bi-LSTM网络。Bi-LSTM包含了前向和后向的LSTM,基于历史评论样本可以得到完整序列的正序和反序的上下文信息。该方案利用历史评论内容对应的拼音序列和历史评论内容对应的第一文本识别结果来训练第一识别网络,利用历史评论内容对应的汉字序列和历史评论内容对应的第二文本识别结果来训练第二识别网络,也即,汉字序列和拼音序列在向量空间中表达了整条文本中不同的信息,通过训练两个对称的第一识别网络和第二识别网络就要从两个角度去挖掘文本序列的信息,从而更加准确的确定历史用户评论中关键词的位置,所以,本实施例中通过网络学习训练得到第一识别网络、第二识别网络和转换网络,可以为后面判别式模型准确识别用户评论内容中的关键词提供了足够的信息和知识。
(4)将第一文本识别结果对应的第一文本向量和第二文本识别结果对应的第二文本向量均输出到连接网络中进行组合,并将组合结果对应的合成向量映射为固定向量。
可选的,连接向量(Concat向量)可以接收两个Bi-LSTM网络得到两个输出向量,并以向量的相同位置进行连接,组合成新的向量,即合成向量,将该合成向量输入到全连接层得到固定向量,其保证了网络尽可能保留中文序列和拼音序列在相同位置的信息。
(5)利用判别式模型对固定向量进行识别得到最终的关键词识别结果。本实施例中,CRF模型可以实现对关键词的识别,即识别出关键词在用户评论内容对应文本中的位置。
综合上述各实施例,该文本信息识别方法实现了对用户评论内容中关键词的识别。示例性的,该关键词可以包括:广告、欺诈、辱骂等违禁词。可选的,在实际应用中,这些违禁词在用户评论样本中的标识可以为B-adv、I-adv、B-lie、I-lie、B-abuse、I-abuse,其中,B表示开始的字节,I表示中间的字节,也即,除开始字节之外的其他字节。
下面以用户评论内容中的关键词为违禁词进行举例说明该方案的合理性:
假设电商网站上新增的用户评论内容中具有广告的违禁词,且该广告是为了宣传网三平台,即违禁词为“网三”。例如,该用户评论内容为:“福利来啦忘三低价免单”,由此可以看出该用户评论内容中包括广告违禁,其中违禁词是”忘三”和(等同于同音不同字的网三)。
在实际应用中,当得到该用户评论内容对应的汉字序列后,可以利用图6所示的转换网络(即LSTM网络)得到该汉字序列对应的拼音序列:”fu li lai la wang san di jiamian dan”。该实施例中的,汉字序列和拼音序列分别输入到对称的第一识别网络和第二识别网络(Bi-LSTM网络)中分别得到两个输出向量,即输出向量A、输出向量B。将输出向量A和输出向量B进行连接操作并得到合成向量C,最后将合成向量C输入到CRF中实现对网三的违禁识别。
示例性的,在上述任一实施例的基础上,图7为本申请实施例提供的文本信息识别方法实施例六的流程示意图。如图7所示,该文本信息识别方法还可以包括如下步骤:
步骤71:检测待识别内容对应的汉字序列和/或拼音序列中是否有存在于文本词库中的文本信息,得到第三识别结果。
其中,该文本词库包括历史识别过程中确定的文本信息对应的汉字序列和拼音序列。
可选的,对于某一确定的应用领域中,可以通过收集历史识别过程中确定的文本信息,利用该文本信息对应的汉字序列和拼音序列建立文本词库,并且在后续使用的过程中若出现目标类型的新的文本信息还可以将新的文本信息对应的拼音序列和汉字序列添加进该文本词库中,实现对该文本词库的更新。
例如,在电商领域中,可以通过收集历史违禁词识别过程中确定的多种违禁词,利用所有的违禁词对应的汉字序列和拼音序列建立违禁词库,并且在后续使用的过程中若出现新的违禁词还可以将新的违禁词添加进该违禁词库中,实现对该违禁词库的更新。
因而,在本实施例中,服务器除了基于识别模型来识别待识别内容中的文本信息之外,还可以检测该待识别内容对应的汉字序列和拼音序列中是否有存在于文本词库中的文本信息,并基于检测结果得到第三识别结果。
步骤72:基于该第三识别结果,对上述文本信息识别结果进行更新,将更新后的文本信息识别结果作为待识别内容的文本信息识别结果。
在本实施例中,服务器可以判断该第三识别结果与通过识别模型得到的文本信息识别结果是否一致,若不一致,则将该第三识别结果合并到上述文本信息的识别结果中,从而对文本信息识别结果进行更新,并且将更新后的文本信息识别结果作为该待识别内容对应的文本信息识别结果。
本申请实施例提供的文本信息识别结果,通过匹配待识别内容和文本词库中文本信息来识别该待识别内容中是否存在文本信息,其可以在一定程度上弥补识别模型的预测结果,且该方法简单易实现,进一步提高了文本信息识别的准确度。
下述为本申请装置实施例,可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。
图8为本申请实施例提供的文本信息识别装置实施例一的结构示意图。该装置可以集成在服务器中,也可以通过服务器实现。如图8所示,该装置可以包括:获取模块81、识别模块82和确定模块83。
其中,该获取模块81,用于获取待识别内容,所述待识别内容包括:文本信息;
该识别模块82,用于基于所述待识别内容对应的拼音序列和识别模型,确定针对所述待识别内容中文本信息的第一识别结果,基于所述待识别内容对应的汉字序列和所述识别模型,确定针对所述待识别内容中文本信息的第二识别结果;
该确定模块83,用于基于所述第一识别结果对应的第一向量和所述第二识别结果对应的第二向量,得到所述待识别内容的文本信息识别结果。
示例性的,在本实施例的一种可能设计中,该确定模块83,具体用于基于向量相同位置进行叠加的原理,将所述第一识别结果对应的第一向量和所述第二识别结果对应的第二向量进行组合,得到合成向量,以及将所述合成向量通过全连接网络处理后输入到判别式模型中,得到所述待识别内容的文本信息识别结果。
示例性的,在上述实施例的基础上,图9为本申请实施例提供的文本信息识别装置实施例二的结构示意图。如图9所示,该装置还包括:处理模块91。
该处理模块91,用于在该识别模块82基于所述待识别内容对应的拼音序列和识别模型,确定针对所述待识别内容中文本信息的第一识别结果之前,对所述待识别内容进行预处理,得到所述待识别内容对应的汉字序列,利用所述识别模型将所述汉字序列转换成所述拼音序列。
示例性的,在本实施例中,该获取模块81,还用于获取历史识别样本集合,所述历史识别样本集合包括:多条携带文本信息的历史识别内容;
在本实施例中,该装置还包括:训练模块92。
该训练模块92,用于基于所述历史识别样本集合中每条历史识别内容对应的拼音序列对预设网络中的第一子网络进行训练,得到所述识别模型包括的第一识别网络,所述第一识别网络具有识别拼音序列中文本信息的功能,以及基于所述历史识别样本集合中每条历史识别内容对应的汉字序列对所述预设网络中的第二子网络进行训练,得到所述识别模型包括的第二识别网络,所述第二识别网络具有识别汉字序列中文本信息的功能。
可选的,在本实施例中,该处理模块91,还用于对所述历史识别样本集合中每条历史识别内容进行预处理,得到每条历史识别内容对应的汉字序列;
该获取模块81,还用于获取每条历史识别内容对应汉字序列的拼音标注结果,所述拼音标注结果是人工基于每条历史识别内容的上下文信息确定的,基于所述拼音标注结果;
该处理模块91,还用于将所述历史识别样本集合中每条历史识别内容对应的汉字序列转换成拼音序列;
该训练模块92,还用于基于所述历史识别样本集合中每条历史识别内容对应的汉字序列和拼音序列对所述预设网络中的第三子网络进行训练,得到所述识别模型包括的转换网络,所述转换网络具有将汉字序列转换为拼音序列的功能。
示例性的,在上述任一实施例的基础上,图10为本申请实施例提供的文本信息识别装置实施例三的结构示意图。如图10所示,该装置还可以包括:检测模块101和更新模块102。
其中,该检测模块101,用于检测所述待识别内容对应的汉字序列和/或拼音序列中是否有存在于文本词库中的文本信息,得到第三识别结果,所述文本词库包括历史识别过程中确定的文本信息对应的汉字序列和拼音序列;
该更新模块102,用于基于所述第三识别结果,对所述文本信息识别结果进行更新,将更新后的文本信息识别结果作为所述待识别内容的文本信息识别结果。
在本实施例的一种可能设计中,上述待识别内容包括:电商网站上的用户评论内容,所述待识别内容中的文本信息包括:用户评论内容中的关键词。
在本实施例的一种可能设计中,上述待识别内容包括:云存储***中的待脱敏内容,所述待识别内容中的文本信息包括:待脱敏内容中的敏感信息。
本申请实施例提供的装置,可用于执行图1至图7所示实施例中的方法,其实现原理和技术效果类似,在此不再赘述。
需要说明的是,应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分模块通过处理元件调用软件的形式实现,部分模块通过硬件的形式实现。例如,确定模块可以为单独设立的处理元件,也可以集成在上述装置的某一个芯片中实现,此外,也可以以程序代码的形式存储于上述装置的存储器中,由上述装置的某一个处理元件调用并执行以上确定模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起,也可以独立实现。这里所述的处理元件可以是一种集成电路,具有信号的处理能力。在实现过程中,上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。
例如,以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(application specific integrated circuit,ASIC),或,一个或多个微处理器(digital signal processor,DSP),或,一个或者多个现场可编程门阵列(field programmable gate array,FPGA)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(centralprocessing unit,CPU)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上***(system-on-a-chip,SOC)的形式实现。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘solid state disk(SSD))等。
图11为本申请实施例提供的文本信息识别装置实施例四的结构示意图。如图11所示,该装置可以包括:处理器111、存储器112、通信接口113和***总线114,所述存储器112和所述通信接口113通过所述***总线114与所述处理器111连接并完成相互间的通信,所述存储器112用于存储计算机执行指令,所述通信接口113用于和其他设备进行通信,所述处理器111执行所述计算机执行指令时实现如上述图1至图7所示实施例的方案。
该图11中提到的***总线可以是外设部件互连标准(peripheral componentinterconnect,PCI)总线或扩展工业标准结构(extended industry standardarchitecture,EISA)总线等。所述***总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。通信接口用于实现数据库访问装置与其他设备(例如客户端、读写库和只读库)之间的通信。存储器可能包含随机存取存储器(random access memory,RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
上述的处理器可以是通用处理器,包括中央处理器CPU、网络处理器(networkprocessor,NP)等;还可以是数字信号处理器DSP、专用集成电路ASIC、现场可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
可选的,本申请实施例还提供一种存储介质,所述存储介质中存储有指令,当其在计算机上运行时,使得计算机执行如上述图1至图7所示实施例的方法。
可选的,本申请实施例还提供一种运行指令的芯片,所述芯片用于执行上述图1至图7所示实施例的方法。
本申请中,“至少一个”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B的情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系;在公式中,字符“/”,表示前后关联对象是一种“相除”的关系。“以下至少一项(个)”或其类似表达,是指的这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b,或c中的至少一项(个),可以表示:a,b,c,a-b,a-c,b-c,或a-b-c,其中,a,b,c可以是单个,也可以是多个。
可以理解的是,在本申请的实施例中涉及的各种数字编号仅为描述方便进行的区分,并不用来限制本申请的实施例的范围。
可以理解的是,在本申请的实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请的实施例的实施过程构成任何限定。
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims (12)

1.一种文本信息识别方法,其特征在于,包括:
获取待识别内容,所述待识别内容包括:文本信息;
基于所述待识别内容对应的拼音序列和识别模型,确定针对所述待识别内容中文本信息的第一识别结果;
基于所述待识别内容对应的汉字序列和所述识别模型,确定针对所述待识别内容中文本信息的第二识别结果;
基于所述第一识别结果对应的第一向量和所述第二识别结果对应的第二向量,得到所述待识别内容的文本信息识别结果。
2.根据权利要求1所述的方法,其特征在于,所述基于所述第一识别结果对应的第一向量和第二识别结果对应的第二向量,得到所述待识别内容的文本信息识别结果,包括:
基于向量相同位置进行叠加的原理,将所述第一识别结果对应的第一向量和所述第二识别结果对应的第二向量进行组合,得到合成向量;
将所述合成向量通过全连接网络处理后输入到判别式模型中,得到所述待识别内容的文本信息识别结果。
3.根据权利要求1或2所述的方法,其特征在于,在所述基于所述待识别内容对应的拼音序列和识别模型,确定针对所述待识别内容中文本信息的第一识别结果之前,所述方法还包括:
对所述待识别内容进行预处理,得到所述待识别内容对应的汉字序列;
利用所述识别模型将所述汉字序列转换成所述拼音序列。
4.根据权利要求1-3任一项所述的方法,其特征在于,在所述基于所述待识别内容对应的拼音序列和识别模型,确定针对所述待识别内容中文本信息的第一识别结果之前,所述方法还包括:
获取历史识别样本集合,所述历史识别样本集合包括:多条携带文本信息的历史识别内容;
基于所述历史识别样本集合中每条历史识别内容对应的拼音序列对预设网络中的第一子网络进行训练,得到所述识别模型包括的第一识别网络,所述第一识别网络具有识别拼音序列中文本信息的功能;
基于所述历史识别样本集合中每条历史识别内容对应的汉字序列对所述预设网络中的第二子网络进行训练,得到所述识别模型包括的第二识别网络,所述第二识别网络具有识别汉字序列中文本信息的功能。
5.根据权利要求4所述的方法,其特征在于,在所述基于所述历史识别样本集合中每条历史识别内容对应的拼音序列对预设网络中的第一子网络进行训练,得到所述识别模型包括的第一识别网络之前,所述方法还包括:
对所述历史识别样本集合中每条历史识别内容进行预处理,得到每条历史识别内容对应的汉字序列;
获取每条历史识别内容对应汉字序列的拼音标注结果,所述拼音标注结果是人工基于每条历史识别内容的上下文信息确定的;
基于所述拼音标注结果,将所述历史识别样本集合中每条历史识别内容对应的汉字序列转换成拼音序列;
基于所述历史识别样本集合中每条历史识别内容对应的汉字序列和拼音序列对所述预设网络中的第三子网络进行训练,得到所述识别模型包括的转换网络,所述转换网络具有将汉字序列转换为拼音序列的功能。
6.根据权利要求1-5任一项所述的方法,其特征在于,所述方法还包括:
检测所述待识别内容对应的汉字序列和/或拼音序列中是否有存在于文本词库中的文本信息,得到第三识别结果,所述文本词库包括历史识别过程中确定的文本信息对应的汉字序列和拼音序列;
基于所述第三识别结果,对所述文本信息识别结果进行更新,将更新后的文本信息识别结果作为所述待识别内容的文本信息识别结果。
7.根据权利要求1-6任一项所述的方法,其特征在于,所述待识别内容包括:电商网站上的用户评论内容,所述待识别内容中的文本信息包括:用户评论内容中的关键词。
8.根据权利要求1-6任一项所述的方法,其特征在于,所述待识别内容包括:云存储***中的待脱敏内容,所述待识别内容中的文本信息包括:待脱敏内容中的敏感信息。
9.一种文本信息识别装置,其特征在于,包括:获取模块、识别模块和确定模块;
所述获取模块,用于获取待识别内容,所述待识别内容包括:文本信息;
所述识别模块,用于基于所述待识别内容对应的拼音序列和识别模型,确定针对所述待识别内容中文本信息的第一识别结果,基于所述待识别内容对应的汉字序列和所述识别模型,确定针对所述待识别内容中文本信息的第二识别结果;
所述确定模块,用于基于所述第一识别结果对应的第一向量和所述第二识别结果对应的第二向量,得到所述待识别内容的文本信息识别结果。
10.根据权利要求9所述的装置,其特征在于,所述确定模块,具体用于基于向量相同位置进行叠加的原理,将所述第一识别结果对应的第一向量和所述第二识别结果对应的第二向量进行组合,得到合成向量,以及将所述合成向量通过全连接网络处理后输入到判别式模型中,得到所述待识别内容的文本信息识别结果。
11.一种文本信息识别装置,包括处理器、存储器及存储在所述存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如上述权利要求1-8任一项所述的方法。
12.一种存储介质,其特征在于,所述存储介质中存储有指令,当其在计算机上运行时,使得计算机执行如权利要求1-8任一项所述的方法。
CN201910300057.6A 2019-04-15 2019-04-15 文本信息识别方法、装置及存储介质 Pending CN111831818A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910300057.6A CN111831818A (zh) 2019-04-15 2019-04-15 文本信息识别方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910300057.6A CN111831818A (zh) 2019-04-15 2019-04-15 文本信息识别方法、装置及存储介质

Publications (1)

Publication Number Publication Date
CN111831818A true CN111831818A (zh) 2020-10-27

Family

ID=72915452

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910300057.6A Pending CN111831818A (zh) 2019-04-15 2019-04-15 文本信息识别方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN111831818A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116521824A (zh) * 2023-04-18 2023-08-01 北京数美时代科技有限公司 一种利用关键词对样本进行增强的方法、***和电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104882139A (zh) * 2015-05-28 2015-09-02 百度在线网络技术(北京)有限公司 语音合成的方法和装置
CN105336322A (zh) * 2015-09-30 2016-02-17 百度在线网络技术(北京)有限公司 多音字模型训练方法、语音合成方法及装置
CN108228704A (zh) * 2017-11-03 2018-06-29 阿里巴巴集团控股有限公司 识别风险内容的方法及装置、设备
CN108417202A (zh) * 2018-01-19 2018-08-17 苏州思必驰信息科技有限公司 语音识别方法及***
CN109165384A (zh) * 2018-08-23 2019-01-08 成都四方伟业软件股份有限公司 一种命名实体识别方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104882139A (zh) * 2015-05-28 2015-09-02 百度在线网络技术(北京)有限公司 语音合成的方法和装置
CN105336322A (zh) * 2015-09-30 2016-02-17 百度在线网络技术(北京)有限公司 多音字模型训练方法、语音合成方法及装置
CN108228704A (zh) * 2017-11-03 2018-06-29 阿里巴巴集团控股有限公司 识别风险内容的方法及装置、设备
CN108417202A (zh) * 2018-01-19 2018-08-17 苏州思必驰信息科技有限公司 语音识别方法及***
CN109165384A (zh) * 2018-08-23 2019-01-08 成都四方伟业软件股份有限公司 一种命名实体识别方法及装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116521824A (zh) * 2023-04-18 2023-08-01 北京数美时代科技有限公司 一种利用关键词对样本进行增强的方法、***和电子设备

Similar Documents

Publication Publication Date Title
CN109145219B (zh) 基于互联网文本挖掘的兴趣点有效性判断方法和装置
US10984340B2 (en) Composite machine-learning system for label prediction and training data collection
US20180173495A1 (en) Duplicate and similar bug report detection and retrieval using neural networks
US10606658B2 (en) Approach to recommending mashups
CN112541122A (zh) 推荐模型的训练方法、装置、电子设备及存储介质
CN111666766B (zh) 数据处理方法、装置和设备
CN112860841A (zh) 一种文本情感分析方法、装置、设备及存储介质
CN110110213B (zh) 挖掘用户职业的方法、装置、计算机可读存储介质和终端设备
US20190080352A1 (en) Segment Extension Based on Lookalike Selection
CN110134965B (zh) 用于信息处理的方法、装置、设备和计算机可读存储介质
CN114428677B (zh) 任务处理方法、处理装置、电子设备及存储介质
CN113688212B (zh) 句子情感分析方法、装置以及设备
CN113722493A (zh) 文本分类的数据处理方法、设备、存储介质及程序产品
CN106537423A (zh) 作为服务的自适应特征化
CN103870528A (zh) 深度问题回答***中的问题分类和特征映射的方法和***
CN113590945B (zh) 一种基于用户借阅行为-兴趣预测的图书推荐方法和装置
CN114692778A (zh) 用于智能巡检的多模态样本集生成方法、训练方法及装置
CN116883181B (zh) 基于用户画像的金融服务推送方法、存储介质及服务器
CN111831818A (zh) 文本信息识别方法、装置及存储介质
CN113496236B (zh) 用户标签信息确定方法、装置、设备和存储介质
CN110427330B (zh) 一种代码分析的方法以及相关装置
CN115470790A (zh) 一种识别文件中的命名实体的方法和装置
CN114398482A (zh) 一种词典构造方法、装置、电子设备及存储介质
CN112417260B (zh) 本地化推荐方法、装置及存储介质
CN113705692A (zh) 基于人工智能的情感分类方法、装置、电子设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination