CN109582968A - 一种语料中的关键信息的提取方法及装置 - Google Patents
一种语料中的关键信息的提取方法及装置 Download PDFInfo
- Publication number
- CN109582968A CN109582968A CN201811470812.7A CN201811470812A CN109582968A CN 109582968 A CN109582968 A CN 109582968A CN 201811470812 A CN201811470812 A CN 201811470812A CN 109582968 A CN109582968 A CN 109582968A
- Authority
- CN
- China
- Prior art keywords
- word
- sentence
- corpus
- word segmentation
- key message
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 230000011218 segmentation Effects 0.000 claims abstract description 52
- 238000000605 extraction Methods 0.000 claims abstract description 23
- 238000012545 processing Methods 0.000 claims abstract description 18
- 230000014509 gene expression Effects 0.000 claims description 13
- 238000012552 review Methods 0.000 claims description 6
- 235000013399 edible fruits Nutrition 0.000 claims description 2
- 241000220324 Pyrus Species 0.000 description 6
- 235000014443 Pyrus communis Nutrition 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000010276 construction Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 230000008878 coupling Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 239000004615 ingredient Substances 0.000 description 2
- 241000272525 Anas platyrhynchos Species 0.000 description 1
- 235000006040 Prunus persica var persica Nutrition 0.000 description 1
- 240000006413 Prunus persica var. persica Species 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000011960 computer-aided design Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 235000021017 pears Nutrition 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了一种语料中关键信息的提取方法及装置。方法,包括:获取历史语料数据,对所述语料中的语句进行分词处理,得到分词结果;对所述分词结果的各词进行词性标注,得到标注结果;确定所述标注后的词间句法依存关系;根据所述词间依存关系和预先生成的句法依存规则提取所述语料中各语句的关键信息。本发明实施例能够准确有效地提取语料中的关键信息。
Description
技术领域
本发明涉及自然语言处理技术领域,具体而言,涉及一种语料中的关 键信息的提取方法及装置。
背景技术
在简单的人机交互过程中,会积累大量语料,此类语料为非结构化数 据,领域性强、口语化明显、语句中干扰因素较多。为提升智能客服的设 计效果,需首先对大量领域相关的语料进行数据清洗和整理,辅助人工提 取大量语料中的关键信息。
发明内容
有鉴于此,本发明的目的在于提供语句中的关键信息的提取方法和装 置,以实现提取语料中的关键信息。
第一方面,本发明实施例提供了一种语料中的关键信息的提取方法, 该方法,包括:
获取语料,对所述语料中的每个语句进行分词处理,得到该语句的分 词结果;
对所述分词结果所包含的各词进行词性标注,得到标注结果;
确定所述标注结果所包含的各词之间的句法依存关系;
根据所述各词之间的句法依存关系和预先生成的句法依存规则提取所 述语句中的关键信息。
结合第一方面,本发明实施例提供了第一方面的第一种可能的实施方 式,其中,所述确定所述标注后的词间句法依存关系,包括:
确定所述标注后的各词之间所满足的句法结构,所述句法结构至少包 括:主谓结构、动宾结构。
结合第一方面或者第一方面的第一种可能的实施方式,本发明实施例 提供了第一方面的第二种可能的实施方式,其中,所述对所述语料中的语 句进行分词处理,得到分词结果之后,所述方法,还包括:
提取所述分词结果中的关键词;
根据所述关键词在关联词组数据库中查找是否存在有与所述关键词相 关联的词组,如果没有执行对所述分词结果中所包含的词进行词性标注的 步骤。
结合第一方面或者第一方面的第一种可能的实施方式,本发明实施例 提供了第一方面的第三种可能的实施方式,其中,在所述根据所述词之间 的句法依存关系和预先生成的句法依存规则提取所述语句中的关键信息之 前,还包括:
通过正则表达式去掉所述语句中的无实质意义的信息。
结合第一方面,本发明实施例提供了第一方面的第四种可能的实施方 式,其中,所述方法,还包括:
输出所述关键信息,以使工作人员进行人工复核。
第二方面,本发明实施例还提供了一种语料中的关键信息的提取装置, 包括:
分词处理模块,用于获取语料,对所述语料中的每个语句进行分词处 理,得到该语句的分词结果;
词性标注模块,用于对所述分词结果中所包含的各词进行词性标注, 得到标注结果;
依存关系确定模块,用于确定所述标注结果所包含的各词之间的句法 依存关系;
关键信息提取模块,用于根据所述各词之间的句法依存关系和预先生 成的句法依存规则提取所述语句中的关键信息。
结合第二方面,本发明实施例提供了第二方面的第一种可能的实施方 式,其中,所述依存关系确定模块,具体用于:
确定所述标注后的词之间所满足的句法结构,所述句法结构至少包括: 主谓结构、动宾结构。
结合第二方面或者第二方面的第一种可能的实施方式,本发明实施例 提供了第二方面的第二种可能的实施方式,其中,所述装置,还包括:
关键词提取模块,用于提取所述分词结果中的关键词;
查找模块,用于根据所述关键词在关联词数据库中查找是否存在有与 所述关键词相关联的词,如果没有执行对所述分词结果中所包含的词进行 词性标注的步骤。
结合第二方面或者第二方面的第一种可能的实施方式,本发明实施例 提供了第二方面的第三种可能的实施方式,其中,所述装置,还包括:
正则表达式模块,用于通过正则表达式去掉所述语句中的无实质意义 的信息。
结合第二方面,本发明实施例提供了第二方面的第四种可能的实施方 式,其中,所述装置,还包括:
输出模块,用于输出所述关键信息,以使工作人员进行人工复核。
本发明实施例提供的一种语料中的关键信息的提取方法及装置,通过 对语料中的语句进行分词处理,得到多个词,对该多个词进行词性标注, 对词性标注后的词确定句法依存关系,最后根据词间句法依存关系和预先 生成的句法依存规则提取该语句中的关键信息。具有简单、高效和准确的 积极效果。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实 施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需 要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些 实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲, 在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本发明实施例所提供的一种语句中的关键信息的提取方法 的流程示意图;
图2示出了本发明实施例所提供的另一种语句中的关键信息的提取方 法的流程示意图;
图3示出了本发明实施例所提供的一种语句中的关键信息的提取装置 的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本 发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述, 显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。 通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配 置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描 述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实 施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前 提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本申请实施例所提供的一种语句中的关键信息的提取方法的流 程示意图。参照图1所示,该方法包括如下步骤:
S100、获取语料,对所述语料中的各语句进行分词处理,得到语句的 分词结果。其中,所述分词结果中包含有多个词。
本实施例中,上述进行分词处理的过程,可以是通过以下任一方法实 现的:
一、基于词典的分词方法。
二、基于模型的分词方法。
在对一个语句进行分词处理以后,会得到多个词。此处中的语句,不 包括一个语句中只包含有一个字或者一个词的情况。
S102、对所述分词结果中所包含的各词进行词性标注,得到标注结果。
对分词结果中的词进行词性标注,具体的,词性有:名词,动词,形 容词,数词,量词,副词,代词,拟音词,介词,连词,助词等。
本实施例中可以是采用以下任一方法,实现对上述的词进行词性标注:
方法一、基于最大熵的词性标注方法。
方法二、基于统计最大概率输出词性的方法。
方法三、基于HMM的词性标注方法。
在对上述的语句经过分词处理后,进一步将得到的词进行词性标注得 到每个词的词性。
S104、确定所述标注结果所包含的各词之间的句法依存关系。
上述步骤S104中,确定所述标注结果所包含的各词之间的句法依存关 系,具体包括:
通过句法分析器确定所述标注后的各词之间所满足的句法结构。
根据上述语句的分词结果及词性标注结果,确定词之间的依存关系, 即确定句法结构,该句法结构可以是主谓结构、动宾结构等。
S106、根据所述各词之间的句法依存关系和预先生成的句法依存规则 提取所述语料中的关键信息。
具体的,本申请实施例中,在所述根据所述词之间的句法依存关系和 预先生成的句法依存规则提取所述语句中的关键信息之前,还包括:
通过正则表达式去掉所述语句中的无实质意义的信息。具体的可以是 在获取预料以后,对语料中包含的语句进行去除掉无实质意义的信息。
本申请实施例中,通过正则表达式去除对话中的问好、客气语等无效 成分(该无效成分是指如果句子中没有这部分词语或短语,意思仍然能够 清晰表达),例如,淘宝客服中常用的“亲”,以及访客常用的“请问一下”、 “麻烦你”等等成分。
本申请一可能的实施例中,在上述步骤S100、获取语料以后,也可以 是通过对获取的语料进行共词分析,得到高频出现的两个或多个词,然后 根据正则表达式对得到的高频出现的两个或多个词进行处理,进而可以直 接提取语料中的关键信息。比如,拿到语料后进行共词分析,发现“苹果” 和“价格”两个词经常一起出现,那么可以直接做出正则表达式:.*苹果.* 价格.*。如此可以提取包含这两个词的所有句子。
本申请另一可能的实施例中,上述步骤S106中,根据所述词的依存关 系和预先生成的句法依存规则提取所述语料中的关键信息,此处的句法规 则中可以是嵌入有正则表达式,即同时通过正则表达式进行提取出语料中 的关键信息。
图2中示出了本发明实施例所提供的进行词性标注的结果示意图。参 照图2所示,假设语句为“鸭梨卖多少”,此时对语句进行分词处理,得到 的分词结果中包含的词有:“鸭梨”,“卖”,“多少”;对分词结果进行词性 标注,得到的标注结果分别为:鸭梨(n),卖(v),多少(r),分别对应 为:名词n、动词v、代词r。在确定词性以后,根据词的词性确定词间的 依存关系,比如,“鸭梨”和“卖”之间是主谓关系(SBV),“卖”和“多 少”之间是动宾关系。
在一可能的实施例中,上述的句法规则包括:词性组合和句法结构组 合;例如,设置使句法规则为:SBV+VOB和n+v+r;此时就可将上述的“鸭 梨卖多少”从包含该关键信息的语句中提取出来,同时,该规则可提取与 “鸭梨卖多少”结构类似的,如“苹果卖多少”、“桃子卖多少”、“手机是 什么”等结构简单、较有价值的语句。进而,通过使用句法规则可以在不 关乎具体内容的情况下,提取词性符合一定依存规则的语句。
通过上述的各词之间的句法依存关系和句法依存规则,可以得到具有 固定句法结构的语句。
本申请实施例中,提取关键信息的目的在于给语料做清洗,以从语料 中获取比较有价值的信息。
本申请另一可能的实施例中,参照图3所示,上述步骤S100之后,还 包括如下步骤202-204:
步骤202、提取所述分词结果中的关键词。
上述的分词结果中包含有多个词,从分词结果中提取关键词的方式可 以是:提取出现频率大于预设值的词作为关键词;或者是将分词结果中的 tf值和idf值较高的词作为关键词,其中tf值为词频,idf值为逆文档频 率。
步骤204、根据所述关键词在关联词数据库中查找是否存在有与所述关 键词相关联的词,如果没有执行对所述分词结果中所包含的词进行词性标 注的步骤。
上述的关联词组数据库中存储着关联词汇,该关联词汇是指共同出现 的频率比较高的词汇。
进而本申请实施例中,也可以是根据提取的关键词和与该关键词相关 联的词汇确定语句中所包含的关键信息。
上述与关键词相关联的词,是指与该关键词共同出现于同一语句中的 频率大于一定值的词。
本申请一可能的实施例中,上述方法还包括如下步骤A20:
步骤A20、输出所述关键信息,以使工作人员进行人工复核。
优选地,在得到关键信息以后,对关键信息进行共词分析或者文本聚 类,将从语料中提取的中含义相同或相近的关键信息进行分配到同一组, 进而辅助设计人员理清语料在讨论什么、哪些有用、哪些无用。
本实施例中,对关联词组数据库进行更新,可以使得关联词数据库中 的数据保持最新的状态,提高了根据关键词进行查找相关联词组的准确率。
图3为本申请实施例所提供的一种语句中的关键信息的提取装置的结
分词处理模块401,用于获取语料,对所述语料中的每个语句进行分词 处理,得到该语句的分词结果;
词性标注模块402,用于对所述分词结果中所包含的各词进行词性标 注,得到标注结果;
依存关系确定模块403,用于确定所述标注结果所包含的各词之间的句 法依存关系;
关键信息提取模块404,用于根据所述各词之间的句法依存关系和预先 生成的句法依存规则提取所述语句中的关键信息。
本申请一可选的实施例中,上述的依存关系确定模块403,具体用于:
确定所述标注后的各词之间所满足的句法结构,所述句法结构至少包 括:主谓结构、动宾结构。
本申请一可选的实施例中,所述装置,还包括:
关键词提取模块,用于提取所述分词结果中的关键词;
查找模块,用于根据所述关键词在关联词组数据库中查找是否存在有 与所述关键词相关联的词,如果没有执行对所述分词结果进行词性标注的 步骤。
本申请一可选的实施例中,所述装置,还包括:
正则表达式模块,用于通过正则表达式去掉所述语句中的无实质意义 的信息。
本申请一可选的实施例中,上述的装置,还包括:
输出模块,用于输出所述关键信息,以使工作人员进行人工复核。
本发明实施例所提供的进行语句中的关键信息的提取的计算机程序产 品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指 令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例, 在此不再赘述。
本发明实施例所提供的语句中的关键信息的提取的装置可以为设备上 的特定硬件或者安装于设备上的软件或固件等。本发明实施例所提供的装 置,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述, 装置实施例部分未提及之处,可参考前述方法实施例中相应内容。所属领 域的技术人员可以清楚地了解到,为描述的方便和简洁,前述描述的***、 装置和单元的具体工作过程,均可以参考上述方法实施例中的对应过程, 在此不再赘述。
在本发明所提供的实施例中,应该理解到,所揭露装置和方法,可以 通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如, 所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划 分方式,又例如,多个单元或组件可以结合或者可以集成到另一个***, 或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦 合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦 合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的, 作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地 方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的 部分或者全部单元来实现本实施例方案的目的。
另外,在本发明提供的实施例中的各功能单元可以集成在一个处理单 元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成 在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使 用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发 明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的 部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储 介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服 务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步 骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘 等各种可以存储程序代码的介质。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一 旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步 定义和解释,此外,术语“第一”、“第二”、“第三”等仅用于区分描述, 而不能理解为指示或暗示相对重要性。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用 以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于 此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术 人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围 内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变 化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。都 应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利 要求的保护范围为准。
Claims (10)
1.一种语料中的关键信息的提取方法,其特征在于,包括:
获取语料,对所述语料中的每个语句进行分词处理,得到各语句的分词结果;
对所述分词结果所包含的各词进行词性标注,得到标注结果;
确定所述标注结果所包含的各词之间的句法依存关系;
根据所述各词之间的句法依存关系和预先生成的句法依存规则提取所述语料中的关键信息。
2.根据权利要求1所述的方法,其特征在于,确定所述标注后的词间句法依存关系,包括:
确定所述标注后的各词之间所满足的句法结构,所述句法结构至少包括:主谓结构、动宾结构。
3.根据权利要求1或2所述的方法,其特征在于,所述获取语料,对所述语料中的每个语句进行分词处理,得到该语句的分词结果之后,所述方法,还包括:
提取所述分词结果中的关键词;
根据所述关键词在关联词组数据库中查找是否存在有与所述关键词相关联的词组,如果没有执行对所述分词结果中所包含的词组进行词性标注的步骤。
4.根据权利要求1或2所述的方法,其特征在于,在所述根据所述词之间的句法依存关系和预先生成的句法依存规则提取所述语句中的关键信息之前,还包括:
通过正则表达式去掉所述语句中的无实质意义的信息。
5.根据权利要求1所述的方法,其特征在于,所述方法,还包括:
输出所述关键信息,以使工作人员进行人工复核。
6.一种语料中的关键信息的提取装置,其特征在于,包括:
分词处理模块,用于获取语料,对所述语料中的每个语句进行分词处理,得到该语句的分词结果;
词性标注模块,用于对所述分词结果中所包含的各词进行词性标注,得到标注结果;
依存关系确定模块,用于确定所述标注结果所包含的各词之间的句法依存关系;
关键信息提取模块,用于根据所述各词之间的句法依存关系和预先生成的句法依存规则提取所述语句中的关键信息。
7.根据权利要求6所述的装置,其特征在于,所述依存关系确定模块,具体用于:
确定所述标注后的各词之间所满足的句法结构,所述句法结构至少包括:主谓结构、动宾结构。
8.根据权利要求6或7所述的装置,其特征在于,所述装置,还包括:
关键词提取模块,用于提取所述分词结果中的关键词;
查找模块,用于根据所述关键词在关联词组数据库中查找是否存在有与所述关键词相关联的词,如果没有执行对所述分词结果进行词性标注的步骤。
9.根据权利要求6或7所述的装置,其特征在于,所述装置,还包括:
正则表达式模块,用于通过正则表达式去掉所述语句中的无实质意义的信息。
10.根据权利要求6所述的装置,其特征在于,还包括:
输出模块,用于输出所述关键信息,以使工作人员进行人工复核。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811470812.7A CN109582968A (zh) | 2018-12-04 | 2018-12-04 | 一种语料中的关键信息的提取方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811470812.7A CN109582968A (zh) | 2018-12-04 | 2018-12-04 | 一种语料中的关键信息的提取方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109582968A true CN109582968A (zh) | 2019-04-05 |
Family
ID=65927058
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811470812.7A Pending CN109582968A (zh) | 2018-12-04 | 2018-12-04 | 一种语料中的关键信息的提取方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109582968A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110765759A (zh) * | 2019-10-21 | 2020-02-07 | 普信恒业科技发展(北京)有限公司 | 意图识别方法及装置 |
CN111522932A (zh) * | 2020-04-23 | 2020-08-11 | 北京百度网讯科技有限公司 | 一种信息抽取的方法、装置、设备和存储介质 |
CN113128202A (zh) * | 2020-01-10 | 2021-07-16 | 中国科学院软件研究所 | 一种面向物联网服务的智能编排方法和装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101510221A (zh) * | 2009-02-17 | 2009-08-19 | 北京大学 | 一种用于信息检索的查询语句分析方法与*** |
CN105893410A (zh) * | 2015-11-18 | 2016-08-24 | 乐视网信息技术(北京)股份有限公司 | 一种关键词提取方法和装置 |
CN106776937A (zh) * | 2016-12-01 | 2017-05-31 | 腾讯科技(深圳)有限公司 | 一种确定内链关键词的方法和装置 |
CN107168948A (zh) * | 2017-04-19 | 2017-09-15 | 广州视源电子科技股份有限公司 | 一种语句识别方法与*** |
CN108334490A (zh) * | 2017-04-07 | 2018-07-27 | 腾讯科技(深圳)有限公司 | 关键词提取方法以及关键词提取装置 |
US20180246872A1 (en) * | 2017-02-28 | 2018-08-30 | Nice Ltd. | System and method for automatic key phrase extraction rule generation |
CN113743090A (zh) * | 2021-09-08 | 2021-12-03 | 度小满科技(北京)有限公司 | 一种关键词提取方法及装置 |
-
2018
- 2018-12-04 CN CN201811470812.7A patent/CN109582968A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101510221A (zh) * | 2009-02-17 | 2009-08-19 | 北京大学 | 一种用于信息检索的查询语句分析方法与*** |
CN105893410A (zh) * | 2015-11-18 | 2016-08-24 | 乐视网信息技术(北京)股份有限公司 | 一种关键词提取方法和装置 |
CN106776937A (zh) * | 2016-12-01 | 2017-05-31 | 腾讯科技(深圳)有限公司 | 一种确定内链关键词的方法和装置 |
US20180246872A1 (en) * | 2017-02-28 | 2018-08-30 | Nice Ltd. | System and method for automatic key phrase extraction rule generation |
CN108334490A (zh) * | 2017-04-07 | 2018-07-27 | 腾讯科技(深圳)有限公司 | 关键词提取方法以及关键词提取装置 |
CN107168948A (zh) * | 2017-04-19 | 2017-09-15 | 广州视源电子科技股份有限公司 | 一种语句识别方法与*** |
CN113743090A (zh) * | 2021-09-08 | 2021-12-03 | 度小满科技(北京)有限公司 | 一种关键词提取方法及装置 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110765759A (zh) * | 2019-10-21 | 2020-02-07 | 普信恒业科技发展(北京)有限公司 | 意图识别方法及装置 |
CN113128202A (zh) * | 2020-01-10 | 2021-07-16 | 中国科学院软件研究所 | 一种面向物联网服务的智能编排方法和装置 |
CN113128202B (zh) * | 2020-01-10 | 2022-05-17 | 中国科学院软件研究所 | 一种面向物联网服务的智能编排方法和装置 |
CN111522932A (zh) * | 2020-04-23 | 2020-08-11 | 北京百度网讯科技有限公司 | 一种信息抽取的方法、装置、设备和存储介质 |
CN111522932B (zh) * | 2020-04-23 | 2023-05-16 | 北京百度网讯科技有限公司 | 一种信息抽取的方法、装置、设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Pranckevičius et al. | Application of logistic regression with part-of-the-speech tagging for multi-class text classification | |
Adler et al. | An unsupervised morpheme-based HMM for Hebrew morphological disambiguation | |
CN105893410A (zh) | 一种关键词提取方法和装置 | |
CN108538286A (zh) | 一种语音识别的方法以及计算机 | |
CN106909663B (zh) | 基于标签用户品牌偏好行为预测方法及其装置 | |
Mori et al. | A machine learning approach to recipe text processing | |
CN105224640A (zh) | 一种提取观点的方法和设备 | |
Pitler et al. | Using web-scale N-grams to improve base NP parsing performance | |
CN109582968A (zh) | 一种语料中的关键信息的提取方法及装置 | |
CN109960756A (zh) | 新闻事件信息归纳方法 | |
CN104281702A (zh) | 基于电力关键词分词的数据检索方法及装置 | |
EP2950223A1 (en) | Method and apparatus for providing search engine tags | |
CN110334268B (zh) | 一种区块链项目热词生成方法以及装置 | |
Al Khatib et al. | Automatic extraction of arabic multi-word terms | |
CN114579104A (zh) | 数据分析场景的生成方法、装置、设备及存储介质 | |
Stewart et al. | Icdm 2019 knowledge graph contest: Team uwa | |
JP2014219872A (ja) | 発話選択装置、方法、及びプログラム、対話装置及び方法 | |
Pham et al. | Information extraction for Vietnamese real estate advertisements | |
JP5291351B2 (ja) | 評価表現抽出方法、評価表現抽出装置、および、評価表現抽出プログラム | |
CN107665222B (zh) | 关键词的拓展方法和装置 | |
Elbarougy et al. | A proposed natural language processing preprocessing procedures for enhancing arabic text summarization | |
CN110705285B (zh) | 一种政务文本主题词库构建方法、装置、服务器及可读存储介质 | |
CN110674283A (zh) | 文本摘要的智能抽取方法、装置、计算机设备及存储介质 | |
KR20200073524A (ko) | 특허 문서의 키프레이즈 추출 장치 및 방법 | |
CN107168950B (zh) | 一种基于双语语义映射的事件短语学习方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190405 |