CN111563382A - 文本信息的获取方法、装置、存储介质及计算机设备 - Google Patents

文本信息的获取方法、装置、存储介质及计算机设备 Download PDF

Info

Publication number
CN111563382A
CN111563382A CN202010190440.3A CN202010190440A CN111563382A CN 111563382 A CN111563382 A CN 111563382A CN 202010190440 A CN202010190440 A CN 202010190440A CN 111563382 A CN111563382 A CN 111563382A
Authority
CN
China
Prior art keywords
text information
classification
service
text
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010190440.3A
Other languages
English (en)
Inventor
赵秋博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dazhu Hangzhou Technology Co ltd
Original Assignee
Dazhu Hangzhou Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dazhu Hangzhou Technology Co ltd filed Critical Dazhu Hangzhou Technology Co ltd
Priority to CN202010190440.3A priority Critical patent/CN111563382A/zh
Publication of CN111563382A publication Critical patent/CN111563382A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种文本信息的获取方法、装置、存储介质及计算机设备,涉及通信技术领域,主要在于能够全面地获取产品业务线所需的文本信息,对文本信息能够进行多维度的利用,提高了后续的业务加工精度。其中方法包括:接收文本信息的获取请求,所述获取请求携带有业务的标识信息;根据所述标识信息,确定所述业务所需的多维度文本标签;根据所述多维度文本分类标签查询预设文本信息库,分别抓取所述业务所需的多维度文本信息。本发明适用于文本信息的获取。

Description

文本信息的获取方法、装置、存储介质及计算机设备
技术领域
本发明涉及通信技术领域,尤其是涉及一种文本信息的获取方法、装置、存储介质及计算机设备。
背景技术
在短信、推送、网络评论,文章摘要等文本信息当中,每个段落里都蕴含了丰富的信息,而针对单一的产品业务线或者业务场景,这些文本信息中只有部分信息才是有效的,所以,针对不同的产品业务线或者业务场景需要在文本信息中进行信息挖掘。
目前,针对不同的产品业务线,通常根据单一维度的文本标签获取相应的文本信息。然而,单一维度的标签设计很难从多个角度考虑业务需求,因此无法对文本信息进行多维度的利用,由此造成产品业务线所需的文本信息缺失,后续针对文本信息的业务加工精度较低。
发明内容
本发明提供了一种文本信息的获取方法、装置、存储介质及计算机设备,主要在于能够全面地获取产品业务线所需的文本信息,对文本信息能够进行多维度的利用,提高了后续的业务加工精度。
根据本发明的第一个方面,提供一种文本信息的获取方法,包括:
接收文本信息的获取请求,所述获取请求携带有业务的标识信息;
根据所述标识信息,确定所述业务所需的多维度文本标签;
根据所述多维度文本分类标签查询预设文本信息库,分别抓取所述业务所需的多维度文本信息。
根据本发明的第二个方面,提供一种文本信息的获取装置,包括:
接收单元,用于接收文本信息的获取请求,所述获取请求携带有业务的标识信息;
确定单元,用于根据所述标识信息,确定所述业务所需的多维度文本标签;
查询单元,用于根据所述多维度文本分类标签查询预设文本信息库,分别抓取所述业务所需的多维度文本信息。
根据本发明的第三个方面,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现以下步骤:
接收文本信息的获取请求,所述获取请求携带有业务的标识信息;
根据所述标识信息,确定所述业务所需的多维度文本标签;
根据所述多维度文本分类标签查询预设文本信息库,分别抓取所述业务所需的多维度文本信息。
根据本发明的第四个方面,提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现以下步骤:
接收文本信息的获取请求,所述获取请求携带有业务的标识信息;
根据所述标识信息,确定所述业务所需的多维度文本标签;
根据所述多维度文本分类标签查询预设文本信息库,分别抓取所述业务所需的多维度文本信息。
本发明提供的一种文本信息的获取方法、装置、存储介质及计算机设备,与目前通过单一维度的文本标签获取相应文本信息的方式相比,本发明能够接收文本信息的获取请求,所述获取请求携带有业务的标识信息;并根据所述标识信息,确定所述业务所需的多维度文本标签;与此同时,根据所述多维度文本分类标签查询预设文本信息库,分别抓取所述业务所需的多维度文本信息,由此能够全面地获取产品业务线所需的文本信息,能够对文本信息进行多维度的利用,避免文本信息的缺失,提高后续业务的加工精度,同时当出现新增业务时,分类体系可扩展性较强。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1示出了本发明实施例提供的一种文本信息的获取方法流程图;
图2示出了本发明实施例提供的另一种文本信息的获取方法流程图;
图3示出了本发明实施例提供的一种文本信息的获取装置的结构示意图;
图4示出了本发明实施例提供的另一种文本信息的获取装置的结构示意图;
图5示出了本发明实施例提供的一种计算机设备的实体结构示意图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
如背景技术,目前,单一维度的标签设计很难从多个角度考虑业务需求,因此无法对文本信息进行多维度的利用,由此造成产品业务线所需的文本信息缺失,后续业务加工精度较低。
为了解决上述问题,本发明实施例提供了一种材料的确定方法,如图1所示,所述方法包括:
101、接收文本信息的获取请求。
其中,所述获取请求携带有所述文本信息所应用业务的标识信息,文本信息具体可以为短信、推送、网络评论和文章摘要等文本数据,业务的标识信息具体可以为业务方所涉及业务场景的名称或者编码,由于单一维度的标签体系很难全面考虑业务场景的文本信息需求,因此很难对文本信息进行多维度的利用,容易造成业务场景所需的文本信息缺失,对于本发明实施例,通过多维度的标签体系能够对文本信息进行多维度的利用,不同的业务场景能够获取多维度标签体系下的文本信息,避免了上游业务场景获取的文本信息缺失,具体地,当业务方的某一业务场景需要获取业务所需要的文本信息进行业务处理时,会向发送文本信息的获取请求,该获取请求携带有文本信息所应用业务的标识信息,根据该业务的标识信息,能够确定该业务所需文本信息所属的各个类别,即该业务所需的多维度文本标签。
102、根据所述标识信息,确定所述业务所需的多维度文本标签。
其中,根据所述文本信息被标注的多维度文本标签将所述文本信息划分至各个类别,例如,文本信息被标注的多维度文本标签具体可以为行为标签1、行为标签2、实体标签2、实体标签4和属性标签3,根据该行为标签1、行为标签2、实体标签2、实体标签4和属性标签3能够确定该文本信息所属的各个类别,由此能够从多维度对该文本信息进行分析,避免单一维度造成的文本信息缺失,对于本发明实施例,预先建立业务方的不同业务场景与其所需的多维度文本标签的映射关系,例如,业务场景A所需的多维度文本标签包括:行为标签1、行为标签2、实体标签2、实体标签4和属性标签3,之后分别抓取标注有上述标签的文本信息,即为业务场景A所需的多维度文本信息。
103、根据所述多维度文本分类标签查询预设文本信息库,分别抓取所述业务所需的多维度文本信息。
对于本发明实施例,为了避免每次获取文本信息时从原始文本数据开始处理造成资源浪费,需要预先对业务方的原始文本数据进行打标分类处理,构建预设文本信息库,具体地,根据业务方所涉及的不同业务场景各自所需的各个分类维度,对原始文本数据进行打标处理,得到所述不同业务所需的多维度文本信息,例如,不同业务场景各自所需的各个分类维度,包括行为领域标签体系、实体领域标签体系和属性领域标签体系等,其中,行为领域标签体系下具体包括行为标签1、行为标签2、行为标签3和行为标签4,实体领域标签体系具体包括实体标签1、实体标签2、实体标签3和实体标签4,属性领域标签体系具体包括属性标签1、属性标签2、属性标签3和属性标签4,由此根据业务方所涉及的业务场景,能够确定业务方的原始文本数据的多维度分类标准。例如,对于餐饮业务所需的多维度文本信息,行为领域标签体系具体包括下单、取餐、退单等用户行为标签,实体领域标签体系具体包括酒店、快餐店、美食广场等实体标签;属性领域标签***具体包括烧烤、海鲜、粤菜等种类属性标签。
进一步地,按照各个分类维度对应的标签体系,确定不同标签体系的具体打标方式,例如,某分类维度对应的标签体系具体为实体领域标签体系,可以利用预设实体识别模型对原始文本数据进行实体识别,得到原始文本数据中存在的实体信息,之后根据实体领域标签体系下的各个实体标签,构建预设实体字典,并利用该预设实体字典对识别出的实体信息进行类别映射,并进行标注,由此按照各个分类维度对应的标签体系及其对应的打标方式对业务方的原始文本数据进行打标分类,得到不同业务所需的多维度文本信息,进一步地,将所述多维度文本信息按照其被标注的多维度文本标签分别存储至预设文本信息库,例如,某多维度文本信息被签注的不同分类维度下的分类标签包括:行为标签1、实体标签2、属性标签3,则将该多维度文本信息分别存储至行为标签1对应的文本信息区域,实体标签2对应的文本信息区域和属性标签3对应的文本信息区域,由此能够从多个角度考虑业务场景对信息的需求,对文本信息进行多维度的分析和利用,确保业务场景能够获取多维度的文本信息,避免单一维度的标签体系造成的文本信息缺失,后续针对新增业务种类分类维度的可扩展性较强,同时由于存在对原始文本数据的预处理过程,避免了对原始文本数据的重复处理,降低了资源的占用,提高了文本信息的获取效率。
进一步地,根据所述多维度文本分类标签查询预设文本信息库,分别抓取所述业务所需的多维度文本信息,具体地,由于多维度文本信息按照其被签注的多维度文本标签分别存储在预设文本信息库中不同的区域,根据业务所需的多维度文本标签分别从预设文本信息库中抓标注有上述多维度文本标签的文本信息,例如,多维度文本标签具体包括:行为标签1、行为标签2、实体标签2、实体标签4和属性标签3,分别从文本信息库中抓取标注有行为标签1的文本信息、标注有行为标签2的文本信息、标注有实体标签4的文本信息和标注有属性标签3的文本信息,并将上述抓取的所有文本信息作为该业务场景所需的多维度文本信息,由此能够获取业务场景所需的多维度文本信息,确保后续的业务加工精度。
本发明实施例提供的一种文本信息的获取方法,与目前通过单一维度的文本标签获取相应文本信息的方式相比,本发明能够接收文本信息的获取请求,所述获取请求携带有业务的标识信息;并根据所述标识信息,确定所述业务所需的多维度文本标签;与此同时,根据所述多维度文本分类标签查询预设文本信息库,分别抓取所述业务所需的多维度文本信息,由此能够全面地获取产品业务线所需的文本信息,能够对文本信息进行多维度的利用,避免文本信息的缺失,提高后续业务的加工精度,同时当出现新增业务时,分类体系可扩展性较强,此外,由于存在对原始文本数据的预处理过程,避免了对原始文本数据的重复处理,降低了资源的占用,提高了文本信息的获取效率。
进一步的,为了更好的说明上述文本信息的获取过程,作为对上述实施例的细化和扩展,本发明实施例提供了另一种文本信息的获取方法,如图2所示,所述方法包括:
201、接收文本信息的获取请求。
其中,所述获取请求携带有所述文本信息所应用业务的标识信息,所述文本信息为业务方的某业务场景所需的文本信息,具体包括:短信、评论、网络评论和文章摘要等,业务的标识信息具体可以为业务场景名称或者业务场景编码,对于本发明实施例,由于获取单一维度的文本信息会造成信息缺失,因此需要从多个角度考虑业务场景的信息需求,获取多维度的文本信息,具体地,当某一业务场景需要获取业务所需的多维度文本信息时,点击文本信息获取按钮,之后会弹出业务场景的选择界面,根据业务场景列表选择需要获取多维度文本信息的业务场景,或者可以直接输入获取多维度文本信息的业务场景名称或编号,业务场景确定之后,会发送文本信息的获取请求,该获取请求包括业务场景的名称或者编号,以便根据该业务场景名称或者编号,确定该业务场景所需文本信息的多维度文本标签,并根据确定的多维度文本标签查找预设文本信息库,获取业务场景所需的多维度文本信息。
对于本发明实施例,为了获取业务场景所需的多维度文本信息,需要预先对业务方的原始文本数据进行分类处理,构建预设文本信息库,以便从预设文本信息库中抓取多维度的文本信息,在所述接收文本信息的获取请求之前,所述方法还包括:获取原始文本数据和不同业务各自所需的多个分类维度;根据所述多个分类维度对所述原始文本数据进行打标处理,得到所述不同业务所需的多维度文本信息;将所述多维度文本信息按照其被标注的多维度文本标签分别存储至预设文本信息库。具体地,搜集业务方的原始文本数据,该原始文本数据可以被不同的业务场景利用,原始文本数据具体可以包括:推送文本、新闻文本和评论文本等,进一步地,根据业务方所涉及的各个业务场景,确定各个业务所需的多个分类维度,例如,业务方具体涉及业务场景A、业务场景B和业务场景C,从多个角度分别考虑业务场景A、业务场景B和业务场景C所需的文本信息,细化不同业务的各个分类维度,例如,某业务的各个分类维度具体包括行为领域的标签体系、实体领域的标签体系和属性领域的标签体系,其中,行为领域标签体系下的分类标签具体包括行为标签1、行为标签2、行为标签3和行为标签4;实体领域标签体系下的实体标签具体包括实体标签1、实体标签2、实体标签3和实体标签4;属性领域标签体系下的属性标签具体包括属性标签1、属性标签2、属性标签3和属性标签4。
进一步地,根据各个分类维度下的分类标签对所述原始文本数据进行打标处理,得到所述不同业务所需的多维度文本信息,具体打标分类时,不同的分类维度对应的打标方式不同,其中,针对所述多个分类维度中的目标分类维度,根据所述目标分类维度对所述原始文本数据进行打标处理,得到所述不同业务所需的目标维度下的文本信息,包括:根据所述目标分类维度构建预设自然语言分类模型,并利用所述预设自然语言分类模型对所述所述原始文本数据进行打标处理,得到所述不同业务所需的目标维度下的文本信息。
具体地,搜集标注有目标分类维度下的分类标签的文本作为训练样本,并根据该训练样本,构建预设自然语言分类模型,例如,目标分类维度下的分类标签具体为行为标签1、行为标签2、行为标签3和行为标签4,搜集标注有上述行为标签的文本作为训练样本,并根据该训练样本构建预设行为分类模型。
与此同时,针对所述多个分类维度中的实体分类维度,根据所述实体分类维度对所述原始文本数据进行打标处理,得到所述不同业务所需的实体维度下的文本信息,包括:根据所述实体分类维度,构建预设实体字典和/或设定预设分类规则;利用预设实体识别模型对所述原始文本数据进行实体识别,得到所述原始文本数据中存在的实体信息;利用所述预设实体字典和/或所述预设分类规则对所述实体信息进行实体打标处理,得到所述不同业务所需的实体维度下的文本信息。
例如,根据文本信息中的机构实体映射出其所属行业,首先通过网上爬取文本信息,构建机构名称对应的预设行业字典,例如,在行业字典中A银行对应金融行业,或者还可以设定预设分类规则,例如,如果机构名称中出现“银行”,便将该机构归类到金融行业,进一步地,搜集标注有机构名称的文本信息作为训练样本,构建预设实体识别模型,并利用构建的预设实体识别模型识别原始文本数据中的各个机构名称,进一步地,利于预设行业字典和/或者预设分类规则标注各个机构名称对应的行业标签,由此能够利用实体领域标签体系对原始文本数据进行实体打标分类,得到不同业务所需的实体维度下的文本信息。
对于本发明实施例,还可以利用预设正则分类模型对原始数据进行分类打标,针对所述多个分类维度中的目标分类维度,根据所述目标分类维度对所述原始文本数据进行打标处理,得到所述不同业务所需的目标维度下的文本信息,包括:根据所述目标分类维度构建预设正则分类模型;根据预设提取规则提取所述原始文本数据中的各个关键词;利用所述预设正则分类模型对所述各个关键词进行打标处理,得到所述不同业务所需的目标维度下的文本信息。具体地,根据相关词汇与分类标签的关联关系,构建预设正则分类模型,例如,当出现关键词“逾期”时,则认为该段文本属于金融行业,进一步地,根据构建的预设关键词词库提取原始文本数据中的各个关键词,并利用预设正则分类模型对识别的各个关键词进行打标分类。
进一步地,将所述多维度文本信息按照其被标注的多维度文本标签分别存储至预设文本信息库,同时可以根据多维度文本标签,构建预设文本信息库的索引。需要说明的是,原始文本数据不一定标注有所有分类维度下的分类标签,可能只标注有其中几个分类维度下的分类标签,针对某一个分类维度不具有任何标签。由此,通过设计多维度的标签体系能够对文本信息进行多维度的分析,能够使上游业务场景获取多维度的文本信息,避免造成信息缺失,同时由于预先对原始文本数据进行分类存储,避免了对原始文本数据的重复处理,节约了资源,提升了文本获取效率。
进一步地,为了避免相同的多维度文本信息多次存储,由此占用大量存储空间,造成资源的浪费,可以汇总多维度文本信息的多维度文本标签,并将多维度文本信息及其对应的多维度文本标签存储至预设文本信息库,当搜索符合业务场景需求的文本信息时,首先根据业务的标识信息,确定业务场景所需文本信息所属的多维度文本标签,根据所述多维度文本标签,依此逐条浏览各个多维度文本信息,并根据多维度文本信息对应的多维度文本标签判断各个多维度文本信息是否符合业务场景所需文本信息的类别,若符合,则抓取该条多维度文本信息;若不符合则继续判断下一条多维度文本信息是否符合业务场景所需文本信息的类别,由此仅将不同业务所需的多维度文本信息进行单次存储,就实现了多维度文本信息的获取,需要说明的是,上述方式原始文本的数据量不宜过大。
202、根据所述标识信息,确定所述业务所需的多维度文本标签。
例如,根据业务场景A,确定其所需要的文本信息的多维度文本标签,具体包括行为标签1、行为标签2、实体标签3和属性标签4,由此根据上述多维度文本标签从预设文本信息库中,分别抓标注有上述多维度文本标签的文本信息。
203、根据所述多维度文本分类标签查询预设文本信息库,分别抓取所述业务所需的多维度文本信息。
例如,需要获取被标注行为标签1、行为标签2和属性标签3的文本信息,则根据标签索引,从行为标签1对应的存储区域中抓取标注有行为标签1的全部文本信息,同理抓取标注有行为标签2的全本文本信息和属性标签3的全部文本信息,并将上述抓取的文本信息作为业务场景所需的多维度文本信息。进一步地,在所述根据所述多维度文本分类标签查询预设文本信息库,分别抓取所述业务所需的多维度文本信息之后,所述方法还包括:根据输出的多维度文本信息,构建所述业务对应的预设业务模型。基于具体的业务场景,抓取包含上述分类标签的文本信息,进入到业务数据模型层,构建相应的业务模型,产出对应的成果。
204、响应于所述业务方新增业务,根据所述新增业务增加的分类维度对所述原始文本数据进行打标处理。
对于本发明实施例,当业务方新增业务种类或者业务场景时,会首先判断现有的多维度标签体系能否支撑该新增业务场景,如果现有的多维度标签体系无法支撑新增业务场景,则根据新增的业务场景扩展多维度标签体系,即根据该新增业务场景增加原始文本数据的分类维度,使扩展后的多维度标签体系能够支撑新增业务场景的文本数据需求,例如,新增业务场景B时,根据业务场景B增加属性领域标签体系,该属性领域标签体系下的各个分类标签具体为属性标签1、属性标签2和属性标签3,进一步地,根据该属性领域标签体系对原始文本数据进行分类打标,并将打标后的原始文本数据按照其标注的各个属性分类标签,分别存储至预设文本信息库中不同的区域,根据属性标签索引能够抓取标注该属性标签的文本信息。
本发明实施例提供的另一种文本信息的获取方法,与目前通过单一维度的文本标签获取相应文本信息的方式相比,本发明能够接收文本信息的获取请求,所述获取请求携带有业务的标识信息;并根据所述标识信息,确定所述业务所需的多维度文本标签;与此同时,根据所述多维度文本分类标签查询预设文本信息库,分别抓取所述业务所需的多维度文本信息,由此能够全面地获取产品业务线所需的文本信息,能够对文本信息进行多维度的利用,避免文本信息的缺失,提高后续业务的加工精度,同时当出现新增业务时,分类体系可扩展性较强,此外,由于存在对原始文本数据的预处理过程,避免了对原始文本数据的重复处理,降低了资源的占用,提高了文本信息的获取效率。
进一步地,作为图1的具体实现,本发明实施例提供了一种文本信息的获取装置,如图3所示,所述装置包括:接收单元31、确定单元32和查询单元33。
所述接收单元31,可以用于接收文本信息的获取请求,所述获取请求携带有业务的标识信息。所述接收单元31是本装置中接收文本信息的获取请求的主要功能模块。
所述确定单元32,可以用于根据所述标识信息,确定所述业务所需的多维度文本标签。所述确定单元32是本装置中根据所述标识信息,确定所述业务所需的多维度文本标签的主要功能模块,也是核心模块。
所述查询单元33,可以用于根据所述多维度文本分类标签查询预设文本信息库,分别抓取所述业务所需的多维度文本信息。所述查询单元33是本装置中根据所述多维度文本分类标签查询预设文本信息库,分别抓取所述业务所需的多维度文本信息的主要功能模块,也是核心模块。
对于本发明实施例,为了构建预设文本信息库,所述装置还包括:获取单元34、打标单元35和存储单元36。
所述获取单元34,,可以用于获取原始文本数据和不同业务各自所需的多个分类维度。
所述打标单元35,可以用于根据所述多个分类维度对所述原始文本数据进行打标处理,得到所述不同业务所需的多维度文本信息。
所述存储单元36,可以用于将所述多维度文本信息按照其被标注的多维度文本标签分别存储至预设文本信息库针对所述多个分类维度中的目标分类维度。
进一步地,为了利用多维度标签体系对原始文本数据进行打标,针对所述多个分类维度中的目标分类维度,所述打标单元35,可以具体用于根据所述目标分类维度构建预设自然语言分类模型,并利用所述预设自然语言分类模型对所述所述原始文本数据进行打标处理,得到所述不同业务所需的目标维度下的文本信息。
进一步地,针对所述多个分类维度中的实体分类维度,所述打标单元35,包括:构建模块351、识别模块352和分类模块353。
所述构建模块351,可以用于构建预设实体字典和/或设定预设分类规则。
所述识别模块352,可以用于利用预设实体识别模型对所述原始文本数据进行实体识别,得到所述原始文本数据中存在的实体信息。
所述分类模块353,可以用于利用所述预设实体字典和/或所述预设分类规则对所述实体信息进行实体打标处理,得到所述不同业务所需的实体维度下的文本信息。
进一步地,针对所述多个分类维度中的目标分类维度,所述打标单元35,还包括:提取模块354,所述构建模块351,还可以用于根据根据所述目标分类维度构建预设正则分类模型。
所述提取模块354,可以用于根据预设提取规则提取所述原始文本数据中的各个关键词。
所述分类模块353,还可以用于利用所述预设正则分类模型对所述各个关键词进行打标处理,得到所述不同业务所需的目标维度下的文本信息。
在具体应用场景中,为了对多维度标签体系进行扩展,所述打标单元32,还可以用于响应于响应于所述业务方新增业务,根据所述新增业务增加的分类维度对所述原始文本数据进行打标处理。
进一步地,所述装置还包括构建单元37,所述构建单元37,可以用于根据输出的多维度文本信息,构建所述业务对应的预设业务模型。
需要说明的是,本发明实施例提供的一种文本信息的获取装置所涉及各功能模块的其他相应描述,可以参考图1所示方法的对应描述,在此不再赘述。
基于上述如图1所示方法,相应的,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现以下步骤:接收文本信息的获取请求,所述获取请求携带有业务的标识信息;根据所述标识信息,确定所述业务所需的多维度文本标签;根据所述多维度文本分类标签查询预设文本信息库,分别抓取所述业务所需的多维度文本信息。
基于上述如图1所示方法和如图3所示装置的实施例,本发明实施例还提供了一种计算机设备的实体结构图,如图5所示,该计算机设备包括:处理器41、存储器42、及存储在存储器42上并可在处理器上运行的计算机程序,其中存储器42和处理器41均设置在总线43上所述处理器41执行所述程序时实现以下步骤:接收文本信息的获取请求,所述获取请求携带有业务的标识信息;根据所述标识信息,确定所述业务所需的多维度文本标签;根据所述多维度文本分类标签查询预设文本信息库,分别抓取所述业务所需的多维度文本信息
通过本发明的技术方案,本发明能够接收文本信息的获取请求,所述获取请求携带有业务的标识信息;并根据所述标识信息,确定所述业务所需的多维度文本标签;与此同时,根据所述多维度文本分类标签查询预设文本信息库,分别抓取所述业务所需的多维度文本信息,由此能够全面地获取产品业务线所需的文本信息,能够对文本信息进行多维度的利用,避免文本信息的缺失,提高后续业务的加工精度,同时当出现新增业务时,分类体系可扩展性较强,此外,由于存在对原始文本数据的预处理过程,避免了对原始文本数据的重复处理,降低了资源的占用,提高了文本信息的获取效率。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。

Claims (10)

1.一种文本信息的获取方法,其特征在于,包括:
接收文本信息的获取请求,所述获取请求携带有业务的标识信息;
根据所述标识信息,确定所述业务所需的多维度文本标签;
根据所述多维度文本分类标签查询预设文本信息库,分别抓取所述业务所需的多维度文本信息。
2.根据权利要求1所述的方法,其特征在于,在所述接收文本信息的获取请求之前,所述方法还包括:
获取原始文本数据和不同业务各自所需的多个分类维度;
根据所述多个分类维度对所述原始文本数据进行打标处理,得到所述不同业务所需的多维度文本信息;
将所述多维度文本信息按照其被标注的多维度文本标签分别存储至预设文本信息库。
3.根据权利要求2所述的方法,其特征在于,针对所述多个分类维度中的目标分类维度,根据所述目标分类维度对所述原始文本数据进行打标处理,得到所述不同业务所需的目标维度下的文本信息,包括:
根据所述目标分类维度构建预设自然语言分类模型,并利用所述预设自然语言分类模型对所述原始文本数据进行打标处理,得到所述不同业务所需的目标维度下的文本信息。
4.根据权利要求2所述的方法,其特征在于,针对所述多个分类维度中的实体分类维度,根据所述实体分类维度对所述原始文本数据进行打标处理,得到所述不同业务所需的实体维度下的文本信息,包括:
根据所述实体分类维度,构建预设实体字典和/或设定预设分类规则;
利用预设实体识别模型对所述原始文本数据进行实体识别,得到所述原始文本数据中存在的实体信息;
利用所述预设实体字典和/或所述预设分类规则对所述实体信息进行实体打标处理,得到所述不同业务所需的实体维度下的文本信息。
5.根据权利要求2所述的方法,其特征在于,针对所述多个分类维度中的目标分类维度,根据所述目标分类维度对所述原始文本数据进行打标处理,得到所述不同业务所需的目标维度下的文本信息,包括:
根据所述目标分类维度构建预设正则分类模型;
根据预设提取规则提取所述原始文本数据中的各个关键词;
利用所述预设正则分类模型对所述各个关键词进行打标处理,得到所述不同业务所需的目标维度下的文本信息。
6.根据权利要求2所述的方法,其特征在于,所述方法还包括:
响应于所述业务方新增业务,根据所述新增业务增加的分类维度对所述原始文本数据进行打标处理。
7.根据权利要求1-6任一项所述的方法,其特征在于,在所述根据所述多维度文本分类标签查询预设文本信息库,分别抓取所述业务所需的多维度文本信息之后,所述方法还包括:
根据输出的多维度文本信息,构建所述业务对应的预设业务模型。
8.一种文本信息的获取装置,其特征在于,包括:
接收单元,用于接收文本信息的获取请求,所述获取请求携带有业务的标识信息;
确定单元,用于根据所述标识信息,确定所述业务所需的多维度文本标签;
查询单元,用于根据所述多维度文本分类标签查询预设文本信息库,分别抓取所述业务所需的多维度文本信息。
9.一种存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如权利要求1-7中任一项所述的文本信息的获取方法对应的操作。
10.一种终端,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1-7中任一项所述的文本信息的获取方法对应的操作。
CN202010190440.3A 2020-03-18 2020-03-18 文本信息的获取方法、装置、存储介质及计算机设备 Pending CN111563382A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010190440.3A CN111563382A (zh) 2020-03-18 2020-03-18 文本信息的获取方法、装置、存储介质及计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010190440.3A CN111563382A (zh) 2020-03-18 2020-03-18 文本信息的获取方法、装置、存储介质及计算机设备

Publications (1)

Publication Number Publication Date
CN111563382A true CN111563382A (zh) 2020-08-21

Family

ID=72074200

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010190440.3A Pending CN111563382A (zh) 2020-03-18 2020-03-18 文本信息的获取方法、装置、存储介质及计算机设备

Country Status (1)

Country Link
CN (1) CN111563382A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112434096A (zh) * 2020-11-30 2021-03-02 上海天旦网络科技发展有限公司 基于智能标签的业务分析***及方法
CN112465461A (zh) * 2020-12-04 2021-03-09 金蝶云科技有限公司 业务对象信息变更方法、***、计算机设备和存储介质
CN112861515A (zh) * 2021-02-08 2021-05-28 上海天壤智能科技有限公司 交互式知识定义与处理方法、***、装置和可读介质
CN113191203A (zh) * 2021-04-07 2021-07-30 北京脑陆科技有限公司 面向脑电波数据的多维度数据存储方法及装置
CN113505265A (zh) * 2021-07-27 2021-10-15 北京达佳互联信息技术有限公司 数据的查询方法、装置及电子设备、存储介质、程序产品

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105847311A (zh) * 2015-01-13 2016-08-10 腾讯科技(北京)有限公司 信息处理方法及信息发布平台
CN106326259A (zh) * 2015-06-26 2017-01-11 苏宁云商集团股份有限公司 搜索引擎中商品标签的构建方法、***及搜索方法和***
CN109359301A (zh) * 2018-10-19 2019-02-19 国家计算机网络与信息安全管理中心 一种网页内容的多维度标注方法及装置
CN109635171A (zh) * 2018-12-13 2019-04-16 成都索贝数码科技股份有限公司 一种新闻节目智能标签的融合推理***和方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105847311A (zh) * 2015-01-13 2016-08-10 腾讯科技(北京)有限公司 信息处理方法及信息发布平台
CN106326259A (zh) * 2015-06-26 2017-01-11 苏宁云商集团股份有限公司 搜索引擎中商品标签的构建方法、***及搜索方法和***
CN109359301A (zh) * 2018-10-19 2019-02-19 国家计算机网络与信息安全管理中心 一种网页内容的多维度标注方法及装置
CN109635171A (zh) * 2018-12-13 2019-04-16 成都索贝数码科技股份有限公司 一种新闻节目智能标签的融合推理***和方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112434096A (zh) * 2020-11-30 2021-03-02 上海天旦网络科技发展有限公司 基于智能标签的业务分析***及方法
CN112434096B (zh) * 2020-11-30 2023-05-23 上海天旦网络科技发展有限公司 基于智能标签的业务分析***及方法
CN112465461A (zh) * 2020-12-04 2021-03-09 金蝶云科技有限公司 业务对象信息变更方法、***、计算机设备和存储介质
CN112861515A (zh) * 2021-02-08 2021-05-28 上海天壤智能科技有限公司 交互式知识定义与处理方法、***、装置和可读介质
CN112861515B (zh) * 2021-02-08 2022-11-11 上海天壤智能科技有限公司 交互式知识定义与处理方法、***、装置和可读介质
CN113191203A (zh) * 2021-04-07 2021-07-30 北京脑陆科技有限公司 面向脑电波数据的多维度数据存储方法及装置
CN113505265A (zh) * 2021-07-27 2021-10-15 北京达佳互联信息技术有限公司 数据的查询方法、装置及电子设备、存储介质、程序产品
CN113505265B (zh) * 2021-07-27 2024-03-01 北京达佳互联信息技术有限公司 数据的查询方法、装置及电子设备、存储介质、程序产品

Similar Documents

Publication Publication Date Title
CN111563382A (zh) 文本信息的获取方法、装置、存储介质及计算机设备
JP6894534B2 (ja) 情報処理方法及び端末、コンピュータ記憶媒体
CN107657048B (zh) 用户识别方法及装置
CN109885773B (zh) 一种文章个性化推荐方法、***、介质及设备
CN103136228A (zh) 一种图片搜索方法以及图片搜索装置
CN111177532A (zh) 一种垂直搜索方法、装置、计算机***及可读存储介质
CN110929125A (zh) 搜索召回方法、装置、设备及其存储介质
US9552415B2 (en) Category classification processing device and method
CN112035599A (zh) 基于垂直搜索的查询方法、装置、计算机设备及存储介质
CN107633022A (zh) 人员画像分析方法、装置及存储介质
KR101638535B1 (ko) 사용자 검색어 연관 이슈패턴 검출 방법, 이를 수행하는 이슈패턴 검출 서버 및 이를 저장하는 기록매체
CN110941702A (zh) 一种法律法规和法条的检索方法及装置、可读存储介质
EP3961426A2 (en) Method and apparatus for recommending document, electronic device and medium
KR101472451B1 (ko) 디지털 콘텐츠 관리 시스템 및 방법
CN114416998A (zh) 文本标签的识别方法、装置、电子设备及存储介质
CN112307318A (zh) 一种内容发布方法、***及装置
CN116032741A (zh) 一种设备识别方法、装置、电子设备和计算机存储介质
CN110489740B (zh) 语义解析方法及相关产品
CN108255888B (zh) 一种数据处理方法及***
CN115640376A (zh) 文本标注方法、装置、电子设备和计算机可读存储介质
CN114817498A (zh) 用户意图识别方法、装置、设备及存储介质
CN114706948A (zh) 新闻处理方法、装置、存储介质以及电子设备
CN113779364A (zh) 一种基于标签提取的搜索方法及其相关设备
CN113486148A (zh) Pdf文件的转换方法、装置、电子设备以及计算机可读介质
CN111666522A (zh) 信息处理方法、装置、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination