CN114201607B - 一种信息处理的方法和装置 - Google Patents
一种信息处理的方法和装置 Download PDFInfo
- Publication number
- CN114201607B CN114201607B CN202111514421.2A CN202111514421A CN114201607B CN 114201607 B CN114201607 B CN 114201607B CN 202111514421 A CN202111514421 A CN 202111514421A CN 114201607 B CN114201607 B CN 114201607B
- Authority
- CN
- China
- Prior art keywords
- classification result
- terms
- paragraph
- paragraph text
- term
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开提供了信息处理的方法和装置,涉及深度学习、知识图谱等人工智能技术领域。具体实现方案为:获取待分类的术语;在语料库中检索所述术语,得到至少一个段落文本;对所述至少一个段落文本分别进行打分;按打分由高到低的顺序选择预定数目个段落文本作为上下文;将所述术语和所述上下文输入第一预训练语言模型,输出所述术语的第一分类结果。该实施方式可以有效地降低术语体系构建成本,提升图谱构建效率。
Description
技术领域
本公开涉及深度学习、知识图谱等人工智能技术领域,具体为一种信息处理的方法和装置。
背景技术
术语体系是知识图谱构建的基础,在术语体系中,不同类型的术语应处于体系的不同子图中。术语类型预测技术,例如,医疗术语类型预测,是一种知识分类任务,主要用于在给定输出的情况下,具有针对性地在有限类型集合中给出其对应的类型子集。
术语类型作为一个术语的特殊属性,与其他的属性抽取任务相比,不同点主要体现在:第一点,术语类型抽取无明确的挖掘来源,需要更多的隐含语义知识;第二点,术语类型是一个有限集合,所以可以将该知识抽取问题转化成一个语义匹配问题。
发明内容
本公开提供了一种信息处理的方法、装置、设备、存储介质以及计算机程序产品。
根据本公开的第一方面,提供了一种信息处理的方法,包括:获取待分类的术语;在语料库中检索所述术语,得到至少一个段落文本;对所述至少一个段落文本分别进行打分;按打分由高到低的顺序选择预定数目个段落文本作为上下文;将所述术语和所述上下文输入第一预训练语言模型,输出所述术语的第一分类结果。
根据本公开的第二方面,提供了一种信息处理的装置,包括:获取单元,被配置成获取待分类的术语;检索单元,被配置成在语料库中检索所述术语,得到至少一个段落文本;打分单元,被配置成对所述至少一个段落文本分别进行打分;选择单元,被配置成按打分由高到低的顺序选择预定数目个段落文本作为上下文;预测单元,被配置成将所述术语和所述上下文输入第一预训练语言模型,输出所述术语的第一分类结果。
根据本公开的第三方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行第一方面所述的方法。
根据本公开的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执第一方面所述的方法。
根据本公开的第五方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现第一方面所述的方法。
本公开的实施例提供的信息处理的方法和装置,从权威的语料库中搜索术语获得段落文本,再对段落文本打分后选择得分较高的段落文本作为术语的上下文。再利用语言模型对术语和其上下文进行分类,得到术语的类别。从而优化术语体系构建效率,在无太多人工介入的前提下,就可以达到较高的准召效果,较大地提升了人工构建效率,降低人工成本。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是本公开的一个实施例可以应用于其中的示例性***架构图;
图2是根据本公开的信息处理的方法的一个实施例的流程图;
图3a-3d是根据本公开的信息处理的方法的一个应用场景的示意图;
图4是根据本公开的信息处理的方法的又一个实施例的流程图;
图5是根据本公开的信息处理的装置的一个实施例的结构示意图;
图6是适于用来实现本公开的实施例的电子设备的计算机***的结构示意图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
图1示出了可以应用本公开的信息处理的方法或信息处理的装置的实施例的示例性***架构100。
如图1所示,***架构100可以包括终端设备101、102、103,网络 104和服务器105。网络104用以在终端设备101、102、103和服务器105 之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如知识图谱、模型训练类应用、语言模型、语料库、网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
终端设备101、102、103可以是硬件,也可以是软件。当终端设备101、 102、103为硬件时,可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)、 MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时,可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务),也可以实现成单个软件或软件模块。在此不做具体限定。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、 103上显示的知识图谱提供支持的后台知识图谱服务器。后台知识图谱服务器可以对接收到的术语分类请求等数据进行分析等处理,并将处理结果 (例如术语的类型)反馈给终端设备。
需要说明的是,服务器可以是硬件,也可以是软件。当服务器为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当服务器为软件时,可以实现成多个软件或软件模块(例如用来提供分布式服务的多个软件或软件模块),也可以实现成单个软件或软件模块。在此不做具体限定。服务器也可以为分布式***的服务器,或者是结合了区块链的服务器。服务器也可以是云服务器,或者是带人工智能技术的智能云计算服务器或智能云主机。
需要说明的是,本公开的实施例所提供的信息处理的方法一般由服务器105执行,相应地,信息处理的装置一般设置于服务器105中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
继续参考图2,示出了根据本公开的信息处理的方法的一个实施例的流程200。该信息处理的方法,包括以下步骤:
步骤201,获取待分类的术语。
在本实施例中,信息处理的方法的执行主体(例如图1所示的服务器) 可以通过有线连接方式或者无线连接方式从用户利用其进行构建知识图谱的终端接收术语分类请求,该请求中包括待分类的术语。该请求中还可包括术语的技术领域,例如,医学、音乐、物理等。不同的领域对应不同的类型集合,例如,医学领解决的是疾病、症状、体征、检查、检验、手术、操作7个类型术语的类型预测问题。
步骤202,在语料库中检索术语,得到至少一个段落文本。
在本实施例中,语料库是某一领域的权威的书籍、资料库,包括了该领域的各种名词解释、理论知识等。可以直接将术语在语料库中搜索,进行字符串匹配,匹配成功时,将匹配到的字符串所在的自然段复制下来作为段落文本。术语可以在语料库中找到多处匹配的字符串,则可获得多个段落文本。
可选地,可将术语切词后得到分词(term),使用分词作为检索词在语料库中检索。语料库中可以预先将不同的词与段落文本(para)进行关联索引,只要搜索该分词,即可得到该分词对应的段落文本。例如,急性胃炎,可分词得到“胃炎”,预先已经将语料库中所有包含“胃炎”的段落文本进行了索引,例如第1页第2段,第2页第3段…。
步骤203,对至少一个段落文本分别进行打分。
在本实施例中,可根据预设的打分规则为每个段落打分,可根据每一项要求打分的加权和作为总的得分。例如,段落文本的长度、段落文本中出现术语的频次等。长度可分为多个等级,长度适中的分数最高,可作为基准长度(例如50-100字),与基准长度之差越大则分数越低,这是因为字数越少提供的有效信息越少,而字数太多反而不容易找到有效信息。段落文本中出现术语的频次越多,则得分越高。
可选地,还可查找段落文本中与术语并列的其它术语(通过顿号、分号等表示并列关系的符号识别出来的)。如果其它术语的类型是确定的,则该段落文本可以加分,如果已知类型的其它术语越多则得分越高。例如,术语为急性胃炎,搜索出的段落文本为“急性胃炎、慢性胃炎、胃溃疡”,如果已知胃溃疡的类型为疾病,则该段落文本可以额外加分,如果已知慢性胃炎的类型也为疾病,则可以加更多的分。
步骤204,按打分由高到低的顺序选择预定数目个段落文本作为上下文。
在本实施例中,由于搜索出的段落文本数量较多,可通过打分进行筛选,去除得分低的段落文本,只保留打分最高的预定数目个段落文本作为上下文。
步骤205,将术语和上下文输入第一预训练语言模型,输出术语的第一分类结果。
在本实施例中,预训练思想的本质是模型参数不再是随机初始化,而是通过一些任务(如语言模型)进行预训练;预训练属于迁移学习的范畴,本文的预训练语言模型主要指无监督预训练任务(有时也称自学习或自监督),迁移的范式主要为特征集成和模型精调(finetune)。预训练语言模型从输入的文本中抽取出特征,然后对特征进行分类。本文可使用BERT (Bidirectional Encoder Representations from Transformers,转换器的双向编码器表示)等自然语言模型。本文中使用了2种预训练语言模型,这两种模型可采用相同的结构,但网络参数有所不同。为了进行区分分别命名为“第一预训练语言模型”和“第二预训练语言模型”。第一预训练语言模型适合于长文本的识别,输入为术语和上下文。而第二预训练语言模型适合短文本的识别,输入仅为术语。
输出的分类结果是术语属于不同类型的概率,可将概率最大的类型确定为术语的类型,得到<术语,类型>对。然后可将术语和对应的类型用于构建知识图像。术语可能属于的7个类型:疾病、症状、体征、检查、检验、手术、操作,术语“急性胃炎”的第一分类结果可以是 0.8,0.01,0.03,0.04…0.05,则可确定出急性胃炎的类型为疾病。
本公开的上述实施例提供的方法,提出了一种基于预训练语言模型的术语类型预测方案,主要面向图谱构建中的术语体系构建,并辅助完成 schema(范式)定义。一个知识图谱的schema就是相当于一个领域内的数据模型,包含了这个领域里面有意义的概念类型以及这些类型的属性。任何一个域的schema主要由类型(type)和属性(property)来表达。优化术语体系构建效率,本方法在无太多人工介入的前提下,就可以达到较高的准召效果,较大地提升了人工构建效率,降低人工成本。
在本实施例的一些可选的实现方式中,该方法还包括:将所述术语与预设的分类规则进行匹配,得到第二分类结果;将所述第一分类结果和所述第二分类结果的加权和作为最终的分类结果。将所述术语与预设的分类规则进行匹配是本文提供的第2种对术语分类的方法,简称为模式(Pattern) 识别。Pattern识别主要的目标是对于一些常见的正确或者错误的模式进行固化,尽可能高准确地覆盖更多的样本。当前主要涉及到的Pattern是基于类型指示词的字符串匹配。Pattern的构建方案主要是根据模型迭代过程中的评估数据人工配置。可预先设置很多种分类规则,逐一进行匹配,将匹配成功的分类规则对应的类型作为术语的类型。第二分类结果为一组向量,向量中每一个元素代表一个类型的标志位,如果一个元素的值为1,则说明该术语属于该类型,如果一个元素的值为0,则说明该术语属于不该类型。一个术语可以属于一种类型或多种类型。例如,术语可能属于的7个类型:疾病、症状、体征、检查、检验、手术、操作,如果第二分类结果为0000011,则表示术语属于手术和操作两种类型。
最终的分类结果为第一分类结果和第二分类结果的加权和。因此可以融合两种方式的预测结果,避免任何一种预测结果不准的情况导致的分类错误。还可以规避不同分类方法的缺陷,从而提高分类准确率。
可根据经验设置不同的权重,例如,如果第二分类结果中只有单一类型,则可将第二分类结果的权重设置的最高。
在本实施例的一些可选的实现方式中,将所述术语与预设的分类规则进行匹配,得到第二分类结果,包括:将所述术语与预设的分类规则进行关键词匹配和/或前后缀匹配,得到第二分类结果。
关键词:关键的指示词,可以定位到对应的类别。比如『活组织检查』为操作。
前后缀:关键前后缀,比如检验结果中的『XXX升高』。
可将关键词匹配和前后缀匹配结合起来,防止漏检。关键词和前后缀的设置可根据大量数据的统计分析得到的。例如,检验结果中频繁出现『XXX升高』,则可将“升高”作为后缀,如果术语的后缀也为“升高”则可将类型“检验结果”对应的标志位置为1。
在本实施例的一些可选的实现方式中,该方法还包括:将所述术语输入第二预训练语言模型,得到第三分类结果;将所述第一分类结果和所述第三分类结果的加权和作为最终的分类结果。通过第二预训练语言模型进行分类是本文提供的第3种对术语分类的方法,称为基于短文本的类型预测。通过第二预训练语言模型对术语的类型进行预测,得到的第三分数结果为术语属于各个类型的概率。为了加快计算速度,可以将概率大于预定阈值的类型设置为有效的,概率不大于预定阈值的概率置为0。最终的分类结果为第一分类结果和第三分类结果的加权和。因此可以融合两种方式的预测结果,避免任何一种预测结果不准的情况导致的分类错误。还可以规避不同分类方法的缺陷,从而提高分类准确率。
在本实施例的一些可选的实现方式中,该方法还包括:将所述术语与预设的分类规则进行匹配,得到第二分类结果;将所述术语输入第二预训练语言模型,得到第三分类结果;将所述第一分类结果、所述第二分类结果和所述第三分类结果的加权和作为最终的分类结果。这是将3种分类方法的结果进行了融合。进一步提升了分类算法的鲁棒性,即使一种分类结果错误也能通过另两种分类结果纠正过来,提高了分类的准确率。
在本实施例的一些可选的实现方式中,该方法还包括:对至少一个段落文本分别进行打分,包括:根据预设的文本过滤条件对至少一个段落文本进行过滤;对于过滤后的每个段落文本,提取该段落文本的至少一个特征,将至少一个特征的得分的加权和作为该段落文本的得分。该文本过滤条件可以是语义无关的初过滤。例如,通过段落文本(para)中是否包含术语的mention(包括术语的名字和别名,分词后的term等)、段落文本的长度、段落文本典型分词过滤。如果搜索出的段落文本中不包括名字和别名,分词后的term等,则可将该段落文本过滤掉。还可过滤掉过长(例如大于500字)或过短(小于10个字)的段落文本。段落文本典型分词过滤指的是针对特定段落文本的过滤,例如,如果该段落文本包括“错误示范”字样,则可将该段落文本过滤掉。过滤后对段落文本进行打分。可根据语义相关的特征进行打分。例如,基于共现信息进行特征计算。其中特征主要包括:段落文本中出现类型文本频次,与术语处于并列结构的其他术语是否具有确定类型等。通过这些特征计算得出的打分做简单加权拟合后,得出段落文本的最终得分,并在排序后取得分最高的预定数目个段落文本作为段落排序模块的最终输出。
继续参见图3a-3d,图3a-3d是根据本实施例的信息处理的方法在医学领域的应用场景的一个示意图。在图3a-3d的应用场景中,将三种分类方法结合在一起。如图3a所示,术语通过并行的三个分支(不分先后顺序)进行预测,然后进行多源融合择优,得到最终的类型。具体过程如下:
1、模式识别
模式(Pattern)识别主要的目标是对于一些常见的正确或者错误的模式进行固化,尽可能高准确地覆盖更多的样本。当前主要涉及到的Pattern 是基于类型指示词的字符串匹配。Pattern的构建方案主要是根据模型迭代过程中的评估数据人工配置。主要包括以下几类:
指示词:关键指示词,可以定位到对应的类别。比如『活组织检查』为操作。
前后缀:关键前后缀,比如检验结果中的『XXX升高』。
2、基于短文本的类型预测
基于短文本的类型预测的主要作用是基于第二预训练语言模型(针对短文本),通过短文本分类的方式,在给定术语的情况下,预测其属于各个类型的概率,输出为概率大于阈值的类型列表。当前的基本模型就是一个基于预训练语言模型的多分类任务。模型结构见图3b。
3、基于上下文的术语类型预测
上述两种构建方式都只利用到了术语名称本身的信息,虽然可以很好地覆盖常见pattern的术语集合,但是当面对较为复杂的术语时,受限于输入语义的完整度,预测结果将有较为明显的降低。为此,设计了基于权威语料增强的带上下文的术语类型判定方法,如图3c所示,主要包括三个步骤:
a)段落获取:基于输入的术语名称,进行输入语料的富集
段落获取是根据输入的术语获取用于预测实体类型的语料文本。由于真实医疗场景中的术语与权威书籍中的术语描述差异较大的情况常有发生,所以对于给定的实体名称,使用切词后的分词作为检索条件完成段落文本的获取。为了保证数据源的可靠性,文本主要来源于权威医学书籍。
b)段落排序:对富集产出的语料数据排序,只计算高权重的段落文本。
直接通过段落获取方法得到的语料文本可能包含比较多的文本段落,直接计算成本极高,增加段落排序模块,用于缩减文本规模。段落排序的作用是对获取到的所有段落文本进行过滤和排序,只保留与给定术语的语义相关的段落文本。可主要包括两个步骤:语义无关初过滤、语义相关排序两个部分。
语义无关初过滤:通过段落文本中是否包含术语的mention(包括S 的名字和别名,分词后的term等)、段落文本的长度、段落文本典型分词过滤。
语义相关排序:在语义相关的排序中,基于共现信息进行特征计算。其中特征主要包括:段落文本中出现类型文本频次,与术语处于并列结构的其他术语是否具有确定类型等。通过这些特征计算得出的打分做简单加权拟合后,得出段落文本的最终得分,并在排序后取最终的前N个段落文本作为段落文本排序的最终输出。
3、基于上下文的类型预测:基于权威语料增强的带上下文的术语类型判定。
基于上下文的类型预测的作用是基于第一预训练语言模型(针对长文本),通过语义匹配的方式,在给定术语以及上下文(过滤、排序后的段落文本)的情况下,预测其属于各个类型的概率。当前模型的基础是基于预训练语言模型的多分类任务。
由于段落文本获取到的最终通常为长文本,远超预训练模型的输入长度限制。所以可将输入按照段落进行切分,将原始段落文本拆分为多个片段(例如,超过500字就分出一个片段),分别与术语名称进行预测。对于多个输出结果,通过最大池化,将输出转化为固定长度。图3d是单次类型预测的结构。
最后将上述三种方式的输出结果进行加权合并,构建一个完整的输出集合,然后在引入上下位信息、后处理规则,对产出的结果进行过滤判定,只有通过该过滤器的知识,才会最终输出。
进一步参考图4,其示出了信息处理的方法的又一个实施例的流程400。该信息处理的方法的流程400,包括以下步骤:
步骤401,获取待分类的术语。
步骤402,在语料库中检索术语,得到至少一个段落文本。
步骤403,对至少一个段落文本分别进行打分。
步骤404,按打分由高到低的顺序选择预定数目个段落文本作为上下文。
步骤405,将术语和上下文输入第一预训练语言模型,输出术语的第一分类结果。
步骤406,将术语与预设的分类规则进行匹配,得到第二分类结果。
步骤407,将术语输入第二预训练语言模型,得到第三分类结果。
步骤408,将第一分类结果、第二分类结果和第三分类结果的加权和作为最终的分类结果。
步骤401-408与步骤201-205基本相同,因此不再赘述。
步骤409,获取分类结果过滤条件,根据分类结果过滤条件对最终的分类结果进行校验。
在本实施例中,分类结果过滤条件可包括知识图谱中术语的上下位信息。如果术语的下位所属的类型、上位所属的类型与分类结果一致,则校验通过。
分类结果过滤条件还可包括后处理规则,例如,术语属于相斥的类型、术语属于任一类型的概率不超过预定阈值等。如果分类结果中术语属于动物的概率为0.5,属于植物的概率为0.5,则校验失败。如果分类结果中没有一个类型的概率大于0.6,则校验失败。将检验失败的分类结果过滤掉。
步骤410,如果校验成功,则输出最终的分类结果。
在本实施例中,校验成功的分类结果才是达到要求的分类结果。如果检验失败,也可以对分类结果进行修正。例如,从历史标注数据中查找相同的术语,将标注的类型作为分类结果。可选地,还可分析三种分类结果的可信度(例如,模式识别时如果命中单一类型,则该方法得到的第二分类结果的可信度最高),在计算加权和时按可信度设置分类结果的权重,可信度越高则权重越大。重新计算融合后的分类结果,再次进行校验。
从图4中可以看出,与图2对应的实施例相比,本实施例中的信息处理的方法的流程400体现了对分类结果进行校验的步骤。由此,本实施例描述的方案可以通过上下位信息等方式进一步验证,提高分类结果的可信度。此外,还能在校验失败时进行修正。
进一步参考图5,作为对上述各图所示方法的实现,本公开提供了一种信息处理的装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图5所示,本实施例的信息处理的装置500包括:获取单元501、检索单元502、打分单元503、选择单元504和预测单元505。其中,获取单元501,被配置成获取待分类的术语;检索单元502,被配置成在语料库中检索所述术语,得到至少一个段落文本;打分单元503,被配置成对所述至少一个段落文本分别进行打分;选择单元504,被配置成按打分由高到低的顺序选择预定数目个段落文本作为上下文;预测单元505,被配置成将所述术语和所述上下文输入第一预训练语言模型,输出所述术语的第一分类结果。
在本实施例中,信息处理的装置500的获取单元501、检索单元502、打分单元503、选择单元504和预测单元505的具体处理可以参考图2对应实施例中的步骤201、步骤202、步骤203、步骤204和步骤205。
在本实施例的一些可选的实现方式中,装置500还包括第一融合单元 (附图中未示出),被配置成:将所述术语与预设的分类规则进行匹配,得到第二分类结果;将所述第一分类结果和所述第二分类结果的加权和作为最终的分类结果。
在本实施例的一些可选的实现方式中,装置500还包括第二融合单元 (附图中未示出),被配置成:将所述术语输入第二预训练语言模型,得到第三分类结果;将所述第一分类结果和所述第三分类结果的加权和作为最终的分类结果。
在本实施例的一些可选的实现方式中,装置500还包括第三融合单元 (附图中未示出),被配置成:将所述术语与预设的分类规则进行匹配,得到第二分类结果;将所述术语输入第二预训练语言模型,得到第三分类结果;将所述第一分类结果、所述第二分类结果和所述第三分类结果的加权和作为最终的分类结果。
在本实施例的一些可选的实现方式中,装置500还包括校验单元(附图中未示出),被配置成:获取分类结果过滤条件,其中,所述分类结果过滤条件包括知识图谱中所述术语的上下位信息;根据所述分类结果过滤条件对所述最终的分类结果进行校验;如果校验成功,则输出所述最终的分类结果。
在本实施例的一些可选的实现方式中,第一融合单元进一步被配置成:将所述术语与预设的分类规则进行关键词匹配和/或前后缀匹配,得到第二分类结果。
在本实施例的一些可选的实现方式中,打分单元503进一步被配置成:根据预设的文本过滤条件对所述至少一个段落文本进行过滤;对于过滤后的每个段落文本,提取该段落文本的至少一个特征,将所述至少一个特征的得分的加权和作为该段落文本的得分。
本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行流程200或400所述的方法。
一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行流程200或400所述的方法。
一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现流程200或400所述的方法。
图6示出了可以用来实施本公开的实施例的示例电子设备600的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图6所示,设备600包括计算单元601,其可以根据存储在只读存储器(ROM)602中的计算机程序或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序,来执行各种适当的动作和处理。在RAM 603中,还可存储设备600操作所需的各种程序和数据。计算单元601、 ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口 605也连接至总线604。
设备600中的多个部件连接至I/O接口605,包括:输入单元606,例如键盘、鼠标等;输出单元607,例如各种类型的显示器、扬声器等;存储单元608,例如磁盘、光盘等;以及通信单元609,例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理,例如信息处理的方法。例如,在一些实施例中,信息处理的方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元608。在一些实施例中,计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到RAM 603并由计算单元601执行时,可以执行上文描述的信息处理的方法的一个或多个步骤。备选地,在其他实施例中,计算单元601可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行信息处理的方法。
本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/ 或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的***和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入) 来接收来自用户的输入。
可以将此处描述的***和技术实施在包括后台部件的计算***(例如,作为数据服务器)、或者包括中间件部件的计算***(例如,应用服务器)、或者包括前端部件的计算***(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将***的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式***的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
Claims (16)
1.一种信息处理的方法,包括:
获取待分类的术语;
在语料库中检索所述术语,得到至少一个段落文本,其中,将所述术语切词后得到分词作为检索词在语料库中检索,语料库中预先将不同的词与段落文本进行关联索引,只要搜索该分词,即可得到该分词对应的段落文本;
对所述至少一个段落文本分别进行打分,其中,打分规则包括:段落文本的长度、段落文本中出现术语的频次,基准长度的段落文本分数最高,段落文本的长度与基准长度之差越大则分数越低,段落文本中出现术语的频次越多,则得分越高;
按打分由高到低的顺序选择预定数目个段落文本作为上下文;
将所述术语和所述上下文输入第一预训练语言模型,输出所述术语的第一分类结果。
2.根据权利要求1所述的方法,其中,所述方法还包括:
将所述术语与预设的分类规则进行匹配,得到第二分类结果;
将所述第一分类结果和所述第二分类结果的加权和作为最终的分类结果。
3.根据权利要求1所述的方法,其中,所述方法还包括:
将所述术语输入第二预训练语言模型,得到第三分类结果;
将所述第一分类结果和所述第三分类结果的加权和作为最终的分类结果。
4.根据权利要求1所述的方法,其中,所述方法还包括:
将所述术语与预设的分类规则进行匹配,得到第二分类结果;
将所述术语输入第二预训练语言模型,得到第三分类结果;
将所述第一分类结果、所述第二分类结果和所述第三分类结果的加权和作为最终的分类结果。
5.根据权利要求2-4中任一项所述的方法,其中,所述方法还包括:
获取分类结果过滤条件,其中,所述分类结果过滤条件包括知识图谱中所述术语的上下位信息;
根据所述分类结果过滤条件对所述最终的分类结果进行校验;
如果校验成功,则输出所述最终的分类结果。
6.根据权利要求2所述的方法,其中,所述将所述术语与预设的分类规则进行匹配,得到第二分类结果,包括:
将所述术语与预设的分类规则进行关键词匹配和/或前后缀匹配,得到第二分类结果。
7.根据权利要求1所述的方法,其中,所述对所述至少一个段落文本分别进行打分,包括:
根据预设的文本过滤条件对所述至少一个段落文本进行过滤;
对于过滤后的每个段落文本,提取该段落文本的至少一个特征,将所述至少一个特征的得分的加权和作为该段落文本的得分。
8.一种信息处理的装置,包括:
获取单元,被配置成获取待分类的术语;
检索单元,被配置成在语料库中检索所述术语,得到至少一个段落文本,其中,将所述术语切词后得到分词作为检索词在语料库中检索,语料库中预先将不同的词与段落文本进行关联索引,只要搜索该分词,即可得到该分词对应的段落文本;
打分单元,被配置成对所述至少一个段落文本分别进行打分,其中,打分规则包括:段落文本的长度、段落文本中出现术语的频次,基准长度的段落文本分数最高,段落文本的长度与基准长度之差越大则分数越低,段落文本中出现术语的频次越多,则得分越高;
选择单元,被配置成按打分由高到低的顺序选择预定数目个段落文本作为上下文;
预测单元,被配置成将所述术语和所述上下文输入第一预训练语言模型,输出所述术语的第一分类结果。
9.根据权利要求8所述的装置,其中,所述装置还包括第一融合单元,被配置成:
将所述术语与预设的分类规则进行匹配,得到第二分类结果;
将所述第一分类结果和所述第二分类结果的加权和作为最终的分类结果。
10.根据权利要求8所述的装置,其中,所述装置还包括第二融合单元,被配置成:
将所述术语输入第二预训练语言模型,得到第三分类结果;
将所述第一分类结果和所述第三分类结果的加权和作为最终的分类结果。
11.根据权利要求8所述的装置,其中,所述装置还包括第三融合单元,被配置成:
将所述术语与预设的分类规则进行匹配,得到第二分类结果;
将所述术语输入第二预训练语言模型,得到第三分类结果;
将所述第一分类结果、所述第二分类结果和所述第三分类结果的加权和作为最终的分类结果。
12.根据权利要求9-11中任一项所述的装置,其中,所述装置还包括校验单元,被配置成:
获取分类结果过滤条件,其中,所述分类结果过滤条件包括知识图谱中所述术语的上下位信息;
根据所述分类结果过滤条件对所述最终的分类结果进行校验;
如果校验成功,则输出所述最终的分类结果。
13.根据权利要求9所述的装置,其中,所述第一融合单元进一步被配置成:
将所述术语与预设的分类规则进行关键词匹配和/或前后缀匹配,得到第二分类结果。
14.根据权利要求8所述的装置,其中,所述打分单元进一步被配置成:
根据预设的文本过滤条件对所述至少一个段落文本进行过滤;
对于过滤后的每个段落文本,提取该段落文本的至少一个特征,将所述至少一个特征的得分的加权和作为该段落文本的得分。
15.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。
16.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111514421.2A CN114201607B (zh) | 2021-12-13 | 2021-12-13 | 一种信息处理的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111514421.2A CN114201607B (zh) | 2021-12-13 | 2021-12-13 | 一种信息处理的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114201607A CN114201607A (zh) | 2022-03-18 |
CN114201607B true CN114201607B (zh) | 2023-01-03 |
Family
ID=80652692
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111514421.2A Active CN114201607B (zh) | 2021-12-13 | 2021-12-13 | 一种信息处理的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114201607B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106919689A (zh) * | 2017-03-03 | 2017-07-04 | 中国科学技术信息研究所 | 基于术语释义知识单元的专业领域知识图谱动态构建方法 |
US20180225278A1 (en) * | 2017-02-06 | 2018-08-09 | International Business Machines Corporation | Disambiguation of the meaning of terms based on context pattern detection |
CN113344121A (zh) * | 2021-06-29 | 2021-09-03 | 北京百度网讯科技有限公司 | 训练招牌分类模型和招牌分类的方法 |
CN113688242A (zh) * | 2021-08-31 | 2021-11-23 | 上海基绪康生物科技有限公司 | 一种通过网络搜索结果的文本分类来分类医学术语的方法 |
-
2021
- 2021-12-13 CN CN202111514421.2A patent/CN114201607B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180225278A1 (en) * | 2017-02-06 | 2018-08-09 | International Business Machines Corporation | Disambiguation of the meaning of terms based on context pattern detection |
CN106919689A (zh) * | 2017-03-03 | 2017-07-04 | 中国科学技术信息研究所 | 基于术语释义知识单元的专业领域知识图谱动态构建方法 |
CN113344121A (zh) * | 2021-06-29 | 2021-09-03 | 北京百度网讯科技有限公司 | 训练招牌分类模型和招牌分类的方法 |
CN113688242A (zh) * | 2021-08-31 | 2021-11-23 | 上海基绪康生物科技有限公司 | 一种通过网络搜索结果的文本分类来分类医学术语的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114201607A (zh) | 2022-03-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220318275A1 (en) | Search method, electronic device and storage medium | |
CN113204621B (zh) | 文档入库、文档检索方法,装置,设备以及存储介质 | |
CN114595686B (zh) | 知识抽取方法、知识抽取模型的训练方法及装置 | |
CN112925883B (zh) | 搜索请求处理方法、装置、电子设备及可读存储介质 | |
CN113806660B (zh) | 数据评估方法、训练方法、装置、电子设备以及存储介质 | |
CN112560461A (zh) | 新闻线索的生成方法、装置、电子设备及存储介质 | |
US20220198358A1 (en) | Method for generating user interest profile, electronic device and storage medium | |
CN113806483B (zh) | 数据处理方法、装置、电子设备及计算机程序产品 | |
CN113139043B (zh) | 问答样本生成方法、装置、电子设备和存储介质 | |
CN114116997A (zh) | 知识问答方法、装置、电子设备及存储介质 | |
CN113408280A (zh) | 负例构造方法、装置、设备和存储介质 | |
US20220129634A1 (en) | Method and apparatus for constructing event library, electronic device and computer readable medium | |
CN114201607B (zh) | 一种信息处理的方法和装置 | |
CN114780821A (zh) | 文本处理方法、装置、设备、存储介质和程序产品 | |
CN114118049A (zh) | 信息获取方法、装置、电子设备及存储介质 | |
CN112784600A (zh) | 信息排序方法、装置、电子设备和存储介质 | |
CN112528644A (zh) | 实体挂载的方法、装置、设备以及存储介质 | |
US20240070188A1 (en) | System and method for searching media or data based on contextual weighted keywords | |
CN113656592B (zh) | 基于知识图谱的数据处理方法、装置、电子设备和介质 | |
CN115129816B (zh) | 问答匹配模型的训练方法、装置及电子设备 | |
CN114238663B (zh) | 一种材料数据用知识图谱分析方法、***、电子设备及介质 | |
CN113971216B (zh) | 数据处理方法、装置、电子设备和存储器 | |
US20240220772A1 (en) | Method of evaluating data, training method, electronic device, and storage medium | |
CN117493704A (zh) | 一种用户可信度的计算方法、装置、电子设备及介质 | |
CN117093601A (zh) | 结构化数据的召回方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |