CN113987180A - 用于输出信息和处理信息的方法和装置 - Google Patents

用于输出信息和处理信息的方法和装置 Download PDF

Info

Publication number
CN113987180A
CN113987180A CN202111255628.2A CN202111255628A CN113987180A CN 113987180 A CN113987180 A CN 113987180A CN 202111255628 A CN202111255628 A CN 202111255628A CN 113987180 A CN113987180 A CN 113987180A
Authority
CN
China
Prior art keywords
word
participle
text message
participles
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111255628.2A
Other languages
English (en)
Inventor
丁建辉
陈珍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202111255628.2A priority Critical patent/CN113987180A/zh
Publication of CN113987180A publication Critical patent/CN113987180A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供了用于输出信息和处理信息的方法和装置,涉及深度学习领域,尤其涉及自然语言处理领域。具体实现方案为:获取文本信息集合,其中,文本信息集合与预设标签相对应;对于文本信息集合中每个文本信息,对该文本信息分词,得到该文本信息的分词集合;对每个文本信息的分词集合中的分词进行扩展,得到该分词的候选词集合;将每个文本信息的分词集合中的各分词的候选词集合进行组合,得到每个文本信息的组合词规则;将各个文本信息的组合词规则聚合起来作为预设标签的组合词规则组并输出。该实施方式能够通过少量标注的文本信息生成准确的组合词规则,从而可以提高打标签的准确率,降低人工成本。

Description

用于输出信息和处理信息的方法和装置
技术领域
本公开涉及深度学习领域,尤其涉及自然语言处理领域。
背景技术
文本分类是文本数据挖掘中的经典任务。在现有方案中,为了提升文本分类的效果,通常采用“人工标注大量数据+基于深度学习算法进行训练”的模式。在这类模式中,人工数据标注环节通常需要耗费大量的人力和时间。通过分析可知,类别本质上是对文本某些特性的抽象,而文本的类别通常是由某几个关键词所决定的,例如情感分类中,如果文本带有“不好”、“糟糕”这样的贬义词,那么它大概率是负面的。因此,可以考虑采用“先人工标注部分数据+组合词规则挖掘”这样的流程去提升数据标注的效率。对于组合词规则挖掘这个环节,本质上是统计不同词、词性的高频组合,若采用纯人工的方式,则会存在枯燥、耗时以及覆盖不高的问题。
发明内容
本公开提供了一种用于输出信息和处理信息的方法、装置、设备、存储介质以及计算机程序产品。
根据本公开的第一方面,提供了一种用于输出信息的方法,包括:获取文本信息集合,其中,文本信息集合与预设标签相对应;对于文本信息集合中每个文本信息,对该文本信息分词,得到该文本信息的分词集合;对每个文本信息的分词集合中的分词进行扩展,得到该分词的候选词集合;将每个文本信息的分词集合中的各分词的候选词集合进行组合,得到每个文本信息的组合词规则;将各个文本信息的组合词规则聚合起来作为预设标签的组合词规则组并输出。
根据本公开的第二方面,提供了一种用于处理信息的方法,包括:将待打标签的文本信息进行分词,得到目标词集合;将目标词集合中的目标词进行扩展,得到各目标词的候选词集合;将各目标词的候选词集合进行组合,得到至少一个待匹配的词组;将每个待匹配的词组与数据库中的每个组合词规则组进行匹配,其中,组合词规则组是根据第一方面的方法得到的,每个组合词规则组与标签对应;将匹配成功的组合词规则组对应的标签作为文本信息的标签。
根据本公开的第三方面,提供了一种用于输出信息的装置,包括:获取单元,被配置成获取文本信息集合,其中,文本信息集合与预设标签相对应;分词单元,被配置成对于文本信息集合中每个文本信息,对该文本信息分词,得到该文本信息的分词集合;扩展单元,被配置成对每个文本信息的分词集合中的分词进行扩展,得到该分词的候选词集合;组合单元,被配置成将每个文本信息的分词集合中的各分词的候选词集合进行组合,得到每个文本信息的组合词规则;聚合单元,被配置成将各个文本信息的组合词规则聚合起来作为预设标签的组合词规则组并输出。
根据本公开的第四方面,提供了一种用于处理信息的装置,包括:分词单元,被配置成将待打标签的文本信息进行分词,得到目标词集合;扩展单元,被配置成将目标词集合中的目标词进行扩展,得到各目标词的候选词集合;组合单元,被配置成将各目标词的候选词集合进行组合,得到至少一个待匹配的词组;匹配单元,被配置成将每个待匹配的词组与数据库中的每个组合词规则组进行匹配,其中,组合词规则组是由第三方面的装置生成的,每个组合词规则组与标签对应;打标单元,被配置成将匹配成功的组合词规则组对应的标签作为文本信息的标签。
根据本公开的第五方面,提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行第一方面和第二方面的方法。
根据本公开的第六方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行第一方面和第二方面的方法。
根据本公开的第七方面,提供了一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现第一方面和第二方面的方法。
本公开的实施例提供的用于输出信息和处理信息的方法和装置,可以少量进行数据标注,通过词扩展来扩充标注的文本信息,从而可在节省人力成本的同时,保证生成的组合词规则准确、全面。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是本公开的一个实施例可以应用于其中的示例性***架构图;
图2是根据本公开的用于输出信息的方法的一个实施例的流程图;
图3是根据本公开的用于输出信息的方法的一个应用场景的示意图;
图4是根据本公开的用于处理信息的方法的一个实施例的流程图;
图5是根据本公开的用于输出信息的装置的一个实施例的结构示意图;
图6是根据本公开的用于处理信息的装置的一个实施例的结构示意图;
图7是适于用来实现本公开的实施例的电子设备的计算机***的结构示意图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
图1示出了可以应用本公开实施例的用于输出信息的方法、用于输出信息的装置、用于处理信息的方法或用于处理信息的装置的示例性***架构100。
如图1所示,***架构100可以包括终端101、102,网络103、数据库服务器104和服务器105。网络103用以在终端101、102,数据库服务器104与服务器105之间提供通信链路的介质。网络103可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户110可以使用终端101、102通过网络103与服务器105进行交互,以接收或发送消息等。终端101、102上可以安装有各种客户端应用,例如文本分类应用、文本打标签类应用、模型训练类应用、购物类应用、支付类应用、网页浏览器和即时通讯工具等。
这里的终端101、102可以是硬件,也可以是软件。当终端101、102为硬件时,可以是具有显示屏的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)、膝上型便携计算机和台式计算机等等。当终端101、102为软件时,可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务),也可以实现成单个软件或软件模块。在此不做具体限定。
数据库服务器104可以是提供各种服务的数据库服务器。例如数据库服务器中可以存储有样本集。样本集中包含有大量的样本。其中,样本可以包括文本信息以及对应的标签。这样,用户110也可以通过终端101、102,从数据库服务器104所存储的样本集中选取样本。
服务器105也可以是提供各种服务的服务器,例如对终端101、102上显示的各种应用提供支持的后台服务器。后台服务器可以利用终端101、102发送的样本集中的样本,生成组合词规则组,并可以将组合词规则组保存到数据库服务器中,用于为未分类的文本信息打标签。这样,用户可以得到自动打标签的海量样本,用于训练文本分类模型。
这里的数据库服务器104和服务器105同样可以是硬件,也可以是软件。当它们为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当它们为软件时,可以实现成多个软件或软件模块(例如用来提供分布式服务),也可以实现成单个软件或软件模块。在此不做具体限定。数据库服务器104和服务器105也可以为分布式***的服务器,或者是结合了区块链的服务器。数据库服务器104和服务器105也可以是云服务器,或者是带人工智能技术的智能云计算服务器或智能云主机。
需要说明的是,本公开实施例所提供的用于输出信息的方法或用于处理信息的方法一般由服务器105执行。相应地,用于输出信息的装置或用于处理信息的装置一般也设置于服务器105中。
需要指出的是,在服务器105可以实现数据库服务器104的相关功能的情况下,***架构100中可以不设置数据库服务器104。
应该理解,图1中的终端、网络、数据库服务器和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端、网络、数据库服务器和服务器。
继续参见图2,其示出了根据本公开的用于输出信息的方法的一个实施例的流程200。该用于输出信息的方法可以包括以下步骤:
步骤201,获取文本信息集合。
在本实施例中,用于输出信息的方法的执行主体(例如图1所示的服务器)可以通过有线连接方式或者无线连接方式从用户利用其进行文本打标的终端接收文本信息集合,其中,文本信息集合与预设标签相对应。如果用户上传的文本信息有多种标签,则按标签分组。每次针对相同标签的文本信息执行步骤201-205,得到该标签的组合词规则组。
步骤202,对于文本信息集合中每个文本信息,对该文本信息分词,得到该文本信息的分词集合。
在本实施例中,可通过现有的分词工具(例如,jieba)对文本信息进行分词处理。将文本信息分割成独立的词。例如,将“松子价格怎么样”切分成“松子”+“价格”+“怎么样”。
可选地,还可针对某种文本主题预先收集一些跟该文本主题比较相关的名词词汇,形成该文本主题相关的词典。然后利用该词典对文本信息进行分词。例如,“巴西松子价格怎么样”直接使用通用的分词工具可能会被分割成“巴西”+“松子”+“价格”+“怎么样”。而使用专门的食品主题词典可将“巴西松子”当作一个整体,不会进行分割,则分割结果为“巴西松子”+“价格”+“怎么样”。
步骤203,对每个文本信息的分词集合中的分词进行扩展,得到该分词的候选词集合。
在本实施例中,可通过同义词典等工具,将每个文本信息的分词集合中的分词进行扩展。每个分词可以得到至少一个扩展后的候选词,例如同义词、上位词或下位词。
步骤204,将每个文本信息的分词集合中的各分词的候选词集合进行组合,得到每个文本信息的组合词规则。
在本实施例中,每个分词都进行了扩展,可将分词和扩展词按文本信息中的顺序排列组合,得到每个文本信息的组合词规则。例如,分词集合为{A、B、C},分词A可扩展出候选词A1、分词B可扩展出候选词B1、B2、分词C可扩展出候选词C1。可进行排列组合,新生成组合词规则{A、B、C1},{A、B1、C},{A、B1、C1},{A、B2、C},{A、B2、C1},{A1、B、C},{A1、B、C1},{A1、B1、C},{A1、B1、C1},{A1、B2、C},{A1、B2、C1}。
步骤205,将各个文本信息的组合词规则聚合起来作为预设标签的组合词规则组并输出。
在本实施例中,将具有相同标签的文本信息的组合词规则聚合起来作为预设标签的组合词规则组。例如,如果具有标签A的句子可以被分别抽象为组合词规则{w1,w2,w3},{w1,w3,w4},{w1,w3,w5}。那么,标签A的初版组合词规则组则为[{w1,w2,w3},{w1,w3,w4},{w1,w3,w5}]。
用户可以少量标注出一些文本信息得到各种标签的组合词规则组,并保存在数据库中。在为文本分类模型准备样本的过程中,可利用组合词规则组为样本文本打上标签。例如,一段文本进行分词后得到词序列{w1,w2,w3,w6,w8},将其与数据库中的组合词规则组进行字符串匹配,可以命中组合词规则{w1,w2,w3},则确定出这段文本的标签为A。
本公开的实施例提供的用于输出信息和处理信息的方法和装置,可以少量进行数据标注,通过词扩展来扩充标注的文本信息,从而可在节省人力成本的同时,保证生成的组合词规则准确、全面。
本公开的上述实施例提供的方法,通过对文本信息分词后进行词扩展、抽象,然后进行关联分析,挖掘出高频的组合词规则。以较小的人力成本建立准确、覆盖率高、泛化能力强的组合词规则。避免挖掘出的组合词规则存在“过拟合”问题,既而导致泛化性能较弱。用本公开挖掘出的组合词规则进行文本打标签,可以提升打标签的准确率,进而提升训练出的文本分类模型的准确率。
在本实施例的一些可选的实现方式中,该方法还包括:确定组合词规则组中的频繁项集;将频繁项集确定为预设标签的组合词规则组并输出。基于Apriori算法寻找每个标签的频繁项集,并将这个集合作为对应标签的组合词规则组。例如对于标签A,{w1,w3}组合词出现频率最高,那么这个组合词可以被当作标签A最终的规则组。相关例子如下所示:
巴西松子价格怎么样=>巴西松子+价格+怎么样=>松子/坚果+价格+怎么样
从上述例子可以看到,抽象后的组合词已经能刻画出句子的部分语义/意图。然而,若直接将这些组合词作为最终的规则,可能会存在准确率低/召回低的问题。例如句子1中的“怎么样”,对句子语义表达的影响其实有限,若将这个词放到组合词规则中,会导致“东北松子价格贵嘛/松子价格好高”这类句子无法被召回。因此,本公开引入数据挖掘领域的经典算法-关联挖掘(Apriori)去寻找较为高频的组合词即频繁项集,从而提升规则的质量。
在本实施例的一些可选的实现方式中,该方法还包括:在对每个文本信息的分词集合中的分词进行扩展之前,从每个文本信息的分词集合过滤掉无用符号。去除跟文本语义不相关的符号,例如标点符号,特殊符号等,从而提升词汇的质量。
在本实施例的一些可选的实现方式中,该方法还包括:在对每个文本信息的分词集合中的分词进行扩展之前,从每个文本信息的分词集合过滤掉停用词。可使用常规的停用词表过滤掉停用词,例如过滤掉“的”、“地”、“得”等。从而提升词汇的质量。
在本实施例的一些可选的实现方式中,从每个文本信息的分词集合过滤掉停用词,包括:将每个文本信息的分词集合输入预先训练的重要度模型,输出每个分词的重要度;过滤掉重要度小于预定重要度阈值的分词。重要度模型是一种二分类器,用于确定词是否重要。训练样本包括词和重要标签(0为不重要,1为重要)。通过有监督地训练得到重要度模型。将分词输入该模型后会得到重要的概率,即为重要度。过滤掉不重要的词(重要度小于预定重要度阈值的分词),可以提升词汇的质量。减少词汇扩展的工作量,从而提升生成的组合词规则的质量。
在本实施例的一些可选的实现方式中,对每个文本信息的分词集合中的分词进行扩展,得到该分词的候选词集合,包括:将每个文本信息的分词集合中的分词转换成语义向量后与预设词库中扩展词的语义向量进行相似度计算;对于每个文本信息的分词集合中的分词,若查找到与该分词的语义向量之间的相似度大于预定相似度阈值的扩展词,则将查找到的扩展词作为该分词的候选词。可基于业界开放的语义向量(word embedding资源)查找预设词库中预存的词汇的语义比较相似的词。这个环节主要用于扩大召回的词的数量,减少人工标注量。
在本实施例的一些可选的实现方式中,对每个文本信息的分词集合中的分词进行扩展,得到该分词的候选词集合,包括:对于每个文本信息的分词集合中的分词,在概念图谱中查找该分词,若查找到该分词,则将该分词的关联词确定为该分词的候选词;对于在概念图谱中查找不到的分词,在概念图谱中查找该分词对应的扩展词,将该扩展词的关联词确定为该分词的候选词。
基于概念图谱对词汇进行抽象。当前业界有不少质量比较高的概念图谱,例如wordnet、百度知识图谱以及微软的conceptNet。这些概念图谱提供了查询特定词汇的关联词,例如,上位词、下位词、同义词等功能。例如,对于巴西松子这个词,可以查到其上位路径为“巴西松子-松子-坚果”,而对于东北松子这个词,可以查到其上位路径为“东北松子-松子-坚果”。通过查询上位路径,可以很直观得看到巴西松子和东北松子都属于松子/坚果类食物,既而可以将“松子/坚果”作为“巴西松子/东北松子”的一种高层次语义抽象。
可选地,语义抽象结果中,还可以只保留高层次的语义信息(松子/坚果/水果),而不保留低层次的原始信息(例如巴西松子、香蕉、苹果等)。这样可以保留最有效的语义信息,提高所形成的组合规则的有效性。还可降低后续的关联分析过程的工作量。后续的关联分析过程,大概率会把由低层次语义信息所形成的组合规则过滤掉。
本公开可先针对文本信息的分词进行抽象处理,如果能够找到上位词、下位词、同义词,则不需要再使用分词的扩展词(数据库中与该分词的语义向量之间的相似度大于预定相似度阈值的扩展词)进行抽象处理。如果无法在概念图谱中查找到原始的分词,或者找不到原始的分词的上位词、下位词、同义词中的任一种,则在概念图谱中查找分词的扩展词,找到该扩展词的上位词、下位词、同义词。
通过概念图谱可解决文本信息本身分词结果的召回率低的问题。
继续参见图3,图3是根据本实施例的用于输出信息的方法的应用场景的一个示意图。在图3的应用场景中,服务器获取具备“咨询食物价格”标签的文本信息:“咨询巴西松子价格”、“了解香蕉价格”、“XX贵吗?”。使用分词工具进行分词后,得到的分词集合为:“咨询+巴西松子+价格”、“了解+香蕉+价格”、“XX+贵+吗+?”。对分词集合进行预处理,过滤掉符号“?”和停用词。其中通过停用词表过滤掉停用词“吗”,通过预设的重要度模型计算出“咨询”、“了解”的重要度低于阈值。最后的预处理结果为:“巴西松子+价格”、“香蕉+价格”、“XX+贵”。然后对预处理结果中的词进行扩展,“巴西松子”扩展出“松子”、“坚果”,“香蕉”扩展出“菠萝”、“水果”,“XX”扩展出“XX的上位词”。再按照原始文本中各词的顺序重新排列组合。得到了组合词规则组为:“巴西松子/松子/坚果/香蕉/菠萝/水果+价格”、“巴西松子/松子/坚果/香蕉/菠萝/水果+贵”,它们对应的标签为“咨询食物价格”。还可查找其中的频繁项集,将出现频率最高的组合确定为最终组合词规则组。图3仅是简单示意,未列出重复出现的组合。
进一步参考图4,其示出了用于处理信息的方法的又一个实施例的流程400。该用于处理信息的方法的流程400,包括以下步骤:
步骤401,将待打标签的文本信息进行分词,得到目标词集合。
在本实施例中,用于处理信息的方法的执行主体(例如图1所示的服务器105)可以通过多种方式来获取待打标签的文本信息。例如,执行主体可以通过有线连接方式或无线连接方式,从数据库服务器(例如图1所示的数据库服务器104)中获取存储于其中的待打标签的文本信息。再例如,执行主体也可以接收终端(例如图1所示的终端101、102)或其他设备采集的待打标签的文本信息。然后利用现有的分词工具进行分词,得到目标词集合。具体过程与步骤202基本相同,因此不再赘述。
可选地,还可从目标词集合过滤掉无用符号和停用词。
步骤402,将目标词集合中的目标词进行扩展,得到各目标词的候选词集合。
在本实施例中,可通过同义词典等工具,将目标词集合中的目标词进行扩展。每个目标词可以得到至少一个扩展后的候选词。
可选地,将目标词集合中的目标词进行扩展的方法还包括:将目标词集合中的目标词转换成语义向量后与预设词库中扩展词的语义向量进行相似度计算;对于目标词集合中的目标词,若查找到与该目标词的语义向量之间的相似度大于预定相似度阈值的扩展词,则将查找到的扩展词作为该目标词的候选词。可基于业界开放的语义向量(wordembedding资源)查找预设词库中预存的词汇的语义比较相似的词。这个环节主要用于扩大召回的词的数量,减少人工标注量。
可选地,将目标词集合中的目标词进行扩展的方法还包括:对于目标词集合中的每个目标词,在概念图谱中查找该目标词,若查找到该目标词,则将该目标词的关联词确定为该目标词的候选词;对于在概念图谱中查找不到的该目标词,在概念图谱中查找该目标词对应的扩展词,将该扩展词的关联词确定为该目标词的候选词。
步骤403,将各目标词的候选词集合进行组合,得到至少一个待匹配的词组。
在本实施例中,每个目标词都进行了扩展,可将目标词和扩展词按文本信息中的顺序排列组合,得到至少一个待匹配的词组。
步骤404,将每个待匹配的词组与数据库中的每个组合词规则组进行匹配。
在本实施例中,组合词规则组是根据流程200所述的方法得到的,每个组合词规则组与标签对应。可进行字符串匹配或计算词组之间的相似度。
步骤405,将匹配成功的组合词规则组对应的标签作为文本信息的标签。
在本实施例中,对于字符串匹配方式,如果一个组合词规则组中的每个词都能在待匹配的词组中找到完全相同的词,则认为该组合词规则组匹配成功。对于相似度匹配方式,如果一个组合词规则组中的每个词都能在待匹配的词组中找到相似度大于预定相似度阈值的词,则认为该组合词规则组匹配成功。匹配成功后,可将组合词规则组对应的标签作为文本信息的标签。
本实施例用于信息处理的方法可以用于测试流程200中各实施例所生成的组合词规则组。进而根据测试结果可以不断地优化组合词规则组。该方法也可以是上述各实施例所生成的组合词规则组的实际应用方法。采用上述各实施例所生成的组合词规则组,来进行打标签,有助于提高打标签的性能。如提高打标签的速度,标签比较准确等。
继续参见图5,作为对上述图2所示方法的实现,本公开提供了一种用于输出信息的装置的一个实施例。该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图5所示,本实施例的用于输出信息的装置500可以包括:获取单元501、分词单元502、扩展单元503、组合单元504和聚合单元505。其中,获取单元501,被配置成获取文本信息集合。其中,文本信息集合与预设标签相对应;分词单元502,被配置成对于文本信息集合中每个文本信息,对该文本信息分词,得到该文本信息的分词集合;扩展单元503,被配置成对每个文本信息的分词集合中的分词进行扩展,得到该分词的候选词集合;组合单元504,被配置成将每个文本信息的分词集合中的各分词的候选词集合进行组合,得到每个文本信息的组合词规则;聚合单元505,被配置成将各个文本信息的组合词规则聚合起来作为预设标签的组合词规则组并输出。
在本实施例的一些可选的实现方式中,聚合单元505进一步被配置成:确定组合词规则组中的频繁项集;将频繁项集确定为预设标签的组合词规则组并输出。
在本实施例的一些可选的实现方式中,装置500还包括过滤单元(附图中未示出),被配置成:在对每个文本信息的分词集合中的分词进行扩展之前,从每个文本信息的分词集合过滤掉无用符号。
在本实施例的一些可选的实现方式中,装置500还包括过滤单元(附图中未示出),被配置成:在对每个文本信息的分词集合中的分词进行扩展之前,从每个文本信息的分词集合过滤掉停用词。
在本实施例的一些可选的实现方式中,扩展单元503进一步被配置成:将每个文本信息的分词集合中的分词转换成语义向量后与预设词库中扩展词的语义向量进行相似度计算;对于每个文本信息的分词集合中的分词,若查找到与该分词的语义向量之间的相似度大于预定相似度阈值的扩展词,则将查找到的扩展词作为该分词的候选词。
在本实施例的一些可选的实现方式中,扩展单元503进一步被配置成:对于每个文本信息的分词集合中的分词,在概念图谱中查找该分词,若查找到该分词,则将该分词的关联词确定为该分词的候选词;对于在概念图谱中查找不到的分词,在概念图谱中查找该分词对应的扩展词,将该扩展词的关联词确定为该分词的候选词。
在本实施例的一些可选的实现方式中,过滤单元进一步被配置成:将每个文本信息的分词集合输入预先训练的重要度模型,输出每个分词的重要度;过滤掉重要度小于预定重要度阈值的分词。
继续参见图6,作为对上述图4所示方法的实现,本公开提供了一种用于处理信息的装置的一个实施例。该装置实施例与图4所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图6所示,本实施例的用于处理信息的装置600可以包括:分词单元601、扩展单元602、组合单元603、匹配单元604和打标单元605。其中,分词单元601,被配置成将待打标签的文本信息进行分词,得到目标词集合;扩展单元602,被配置成将所述目标词集合中的目标词进行扩展,得到各目标词的候选词集合;组合单元603,被配置成将各目标词的候选词集合进行组合,得到至少一个待匹配的词组;匹配单元604,被配置成将每个待匹配的词组与数据库中的每个组合词规则组进行匹配,其中,组合词规则组是由装置500生成的,每个组合词规则组与标签对应;打标单元605,被配置成将匹配成功的组合词规则组对应的标签作为所述文本信息的标签。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行流程200或400所述的方法。
一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行流程200或400所述的方法。
一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现流程200或400所述的方法。
图7示出了可以用来实施本公开的实施例的示例电子设备700的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图7所示,设备700包括计算单元701,其可以根据存储在只读存储器(ROM)702中的计算机程序或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序,来执行各种适当的动作和处理。在RAM 703中,还可存储设备700操作所需的各种程序和数据。计算单元701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
设备700中的多个部件连接至I/O接口705,包括:输入单元706,例如键盘、鼠标等;输出单元707,例如各种类型的显示器、扬声器等;存储单元708,例如磁盘、光盘等;以及通信单元709,例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理,例如用于输出信息的方法。例如,在一些实施例中,用于输出信息的方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元708。在一些实施例中,计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到RAM 703并由计算单元701执行时,可以执行上文描述的用于输出信息的方法的一个或多个步骤。备选地,在其他实施例中,计算单元701可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行用于输出信息的方法。
本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的***和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的***和技术实施在包括后台部件的计算***(例如,作为数据服务器)、或者包括中间件部件的计算***(例如,应用服务器)、或者包括前端部件的计算***(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将***的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式***的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (19)

1.一种用于输出信息的方法,包括:
获取文本信息集合,其中,所述文本信息集合与预设标签相对应;
对于所述文本信息集合中每个文本信息,对该文本信息分词,得到该文本信息的分词集合;
对每个文本信息的分词集合中的分词进行扩展,得到该分词的候选词集合;
将每个文本信息的分词集合中的各分词的候选词集合进行组合,得到每个文本信息的组合词规则;
将各个文本信息的组合词规则聚合起来作为所述预设标签的组合词规则组并输出。
2.根据权利要求1所述的方法,其中,所述方法还包括:
确定所述组合词规则组中的频繁项集;
将所述频繁项集确定为所述预设标签的组合词规则组并输出。
3.根据权利要求1所述的方法,其中,所述方法还包括:
在对每个文本信息的分词集合中的分词进行扩展之前,从每个文本信息的分词集合过滤掉无用符号。
4.根据权利要求1所述的方法,其中,所述方法还包括:
在对每个文本信息的分词集合中的分词进行扩展之前,从每个文本信息的分词集合过滤掉停用词。
5.根据权利要求1所述的方法,其中,所述对每个文本信息的分词集合中的分词进行扩展,得到该分词的候选词集合,包括:
将每个文本信息的分词集合中的分词转换成语义向量后与预设词库中扩展词的语义向量进行相似度计算;
对于每个文本信息的分词集合中的分词,若查找到与该分词的语义向量之间的相似度大于预定相似度阈值的扩展词,则将查找到的扩展词作为该分词的候选词。
6.根据权利要求5所述的方法,其中,所述对每个文本信息的分词集合中的分词进行扩展,得到该分词的候选词集合,包括:
对于每个文本信息的分词集合中的分词,在概念图谱中查找该分词,若查找到该分词,则将该分词的关联词确定为该分词的候选词;
对于在概念图谱中查找不到的分词,在概念图谱中查找该分词对应的扩展词,将该扩展词的关联词确定为该分词的候选词。
7.根据权利要求4所述的方法,其中,所述从每个文本信息的分词集合过滤掉停用词,包括:
将每个文本信息的分词集合输入预先训练的重要度模型,输出每个分词的重要度;
过滤掉重要度小于预定重要度阈值的分词。
8.一种用于处理信息的方法,包括:
将待打标签的文本信息进行分词,得到目标词集合;
将所述目标词集合中的目标词进行扩展,得到各目标词的候选词集合;
将各目标词的候选词集合进行组合,得到至少一个待匹配的词组;
将每个待匹配的词组与数据库中的每个组合词规则组进行匹配,其中,组合词规则组是根据权利要求1-7中任一项所述的方法得到的,每个组合词规则组与标签对应;
将匹配成功的组合词规则组对应的标签作为所述文本信息的标签。
9.一种用于输出信息的装置,包括:
获取单元,被配置成获取文本信息集合,其中,所述文本信息集合与预设标签相对应;
分词单元,被配置成对于所述文本信息集合中每个文本信息,对该文本信息分词,得到该文本信息的分词集合;
扩展单元,被配置成对每个文本信息的分词集合中的分词进行扩展,得到该分词的候选词集合;
组合单元,被配置成将每个文本信息的分词集合中的各分词的候选词集合进行组合,得到每个文本信息的组合词规则;
聚合单元,被配置成将各个文本信息的组合词规则聚合起来作为所述预设标签的组合词规则组并输出。
10.根据权利要求9所述的装置,其中,所述聚合单元进一步被配置成:
确定所述组合词规则组中的频繁项集;
将所述频繁项集确定为所述预设标签的组合词规则组并输出。
11.根据权利要求9所述的装置,其中,所述装置还包括过滤单元,被配置成:
在对每个文本信息的分词集合中的分词进行扩展之前,从每个文本信息的分词集合过滤掉无用符号。
12.根据权利要求9所述的装置,其中,所述装置还包括过滤单元,被配置成:
在对每个文本信息的分词集合中的分词进行扩展之前,从每个文本信息的分词集合过滤掉停用词。
13.根据权利要求9所述的装置,其中,所述扩展单元进一步被配置成:
将每个文本信息的分词集合中的分词转换成语义向量后与预设词库中扩展词的语义向量进行相似度计算;
对于每个文本信息的分词集合中的分词,若查找到与该分词的语义向量之间的相似度大于预定相似度阈值的扩展词,则将查找到的扩展词作为该分词的候选词。
14.根据权利要求13所述的装置,其中,所述扩展单元进一步被配置成:
对于每个文本信息的分词集合中的分词,在概念图谱中查找该分词,若查找到该分词,则将该分词的关联词确定为该分词的候选词;
对于在概念图谱中查找不到的分词,在概念图谱中查找该分词对应的扩展词,将该扩展词的关联词确定为该分词的候选词。
15.根据权利要求12所述的装置,其中,所述过滤单元进一步被配置成:
将每个文本信息的分词集合输入预先训练的重要度模型,输出每个分词的重要度;
过滤掉重要度小于预定重要度阈值的分词。
16.一种用于处理信息的装置,包括:
分词单元,被配置成将待打标签的文本信息进行分词,得到目标词集合;
扩展单元,被配置成将所述目标词集合中的目标词进行扩展,得到各目标词的候选词集合;
组合单元,被配置成将各目标词的候选词集合进行组合,得到至少一个待匹配的词组;
匹配单元,被配置成将每个待匹配的词组与数据库中的每个组合词规则组进行匹配,其中,组合词规则组是由权利要求9-15中任一项所述的装置生成的,每个组合词规则组与标签对应;
打标单元,被配置成将匹配成功的组合词规则组对应的标签作为所述文本信息的标签。
17.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-8中任一项所述的方法。
18.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-8中任一项所述的方法。
19.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-8中任一项所述的方法。
CN202111255628.2A 2021-10-27 2021-10-27 用于输出信息和处理信息的方法和装置 Pending CN113987180A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111255628.2A CN113987180A (zh) 2021-10-27 2021-10-27 用于输出信息和处理信息的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111255628.2A CN113987180A (zh) 2021-10-27 2021-10-27 用于输出信息和处理信息的方法和装置

Publications (1)

Publication Number Publication Date
CN113987180A true CN113987180A (zh) 2022-01-28

Family

ID=79742509

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111255628.2A Pending CN113987180A (zh) 2021-10-27 2021-10-27 用于输出信息和处理信息的方法和装置

Country Status (1)

Country Link
CN (1) CN113987180A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115827875A (zh) * 2023-01-09 2023-03-21 无锡容智技术有限公司 一种文本数据的处理终端查找方法
CN117910467A (zh) * 2024-03-15 2024-04-19 成都启英泰伦科技有限公司 一种离线语音识别过程中的分词处理方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115827875A (zh) * 2023-01-09 2023-03-21 无锡容智技术有限公司 一种文本数据的处理终端查找方法
CN115827875B (zh) * 2023-01-09 2023-04-25 无锡容智技术有限公司 一种文本数据的处理终端查找方法
CN117910467A (zh) * 2024-03-15 2024-04-19 成都启英泰伦科技有限公司 一种离线语音识别过程中的分词处理方法
CN117910467B (zh) * 2024-03-15 2024-05-10 成都启英泰伦科技有限公司 一种离线语音识别过程中的分词处理方法

Similar Documents

Publication Publication Date Title
CN116108857B (zh) 信息抽取方法、装置、电子设备以及存储介质
CN113987180A (zh) 用于输出信息和处理信息的方法和装置
CN113988157A (zh) 语义检索网络训练方法、装置、电子设备及存储介质
CN113010678A (zh) 分类模型的训练方法、文本分类方法及装置
CN112699237B (zh) 标签确定方法、设备和存储介质
CN114970540A (zh) 训练文本审核模型的方法和装置
CN113609847B (zh) 信息抽取方法、装置、电子设备及存储介质
CN114020904A (zh) 试题文件筛选方法、模型训练方法、装置、设备及介质
CN112528146B (zh) 内容资源推荐方法、装置、电子设备及存储介质
CN113408280A (zh) 负例构造方法、装置、设备和存储介质
CN115248890A (zh) 用户兴趣画像的生成方法、装置、电子设备以及存储介质
CN114970553B (zh) 基于大规模无标注语料的情报分析方法、装置及电子设备
CN116383382A (zh) 敏感信息的识别方法、装置、电子设备及存储介质
CN114201607B (zh) 一种信息处理的方法和装置
CN115827867A (zh) 文本类型的检测方法及装置
CN113641724B (zh) 知识标签挖掘方法、装置、电子设备及存储介质
CN115048523A (zh) 文本分类方法、装置、设备以及存储介质
CN114329206A (zh) 标题生成方法和装置、电子设备、计算机可读介质
CN113377904A (zh) 行业动作识别方法、装置、电子设备及存储介质
CN112784600A (zh) 信息排序方法、装置、电子设备和存储介质
CN116069914B (zh) 训练数据的生成方法、模型训练方法以及装置
CN116029277B (zh) 多模态知识解析的方法、装置、存储介质、设备
CN113807099B (zh) 实体信息识别方法、装置、电子设备以及存储介质
CN115129816B (zh) 问答匹配模型的训练方法、装置及电子设备
CN112818167B (zh) 实体检索方法、装置、电子设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination