CN105550291A - 文本分类方法和装置 - Google Patents

文本分类方法和装置 Download PDF

Info

Publication number
CN105550291A
CN105550291A CN201510918981.2A CN201510918981A CN105550291A CN 105550291 A CN105550291 A CN 105550291A CN 201510918981 A CN201510918981 A CN 201510918981A CN 105550291 A CN105550291 A CN 105550291A
Authority
CN
China
Prior art keywords
normalization
text data
model
semantic feature
participle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510918981.2A
Other languages
English (en)
Other versions
CN105550291B (zh
Inventor
赵建明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201510918981.2A priority Critical patent/CN105550291B/zh
Publication of CN105550291A publication Critical patent/CN105550291A/zh
Application granted granted Critical
Publication of CN105550291B publication Critical patent/CN105550291B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种文本分类方法和装置,其中,方法包括以下步骤:接收输入的文本数据,并将文本数据切分为多个分词;对多个分词进行归一化,并生成文本数据对应的归一化结果;以及将归一化结果转换为语义特征,并基于预设分类模型对语义特征进行分类。本发明实施例的文本分类方法和装置,通过接收输入的文本数据,并将文本数据切分为多个分词,对多个分词进行归一化,并生成文本数据对应的归一化结果,以及将归一化结果转换为语义特征,并基于预设分类模型对语义特征进行分类,只需对训练语料进行归一化,无需频繁增加训练语料对模型进行重新训练,降低了工作量,降低人工成本,并提升了模型训练效率,训练的模型稳定性高,鲁棒性好。

Description

文本分类方法和装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种文本分类方法和装置。
背景技术
文本分类是指在预定的分类体系下,对文本进行分类标注的过程,能够为意图识别等提供数据基础。目前,文本分类方法可分为以下几个步骤:1)确定分类体系,主要根据需求确定分类的类别数和类别名称;2)收集训练数据,主要通过人工编辑或者网络爬虫等方法为每个分类类别收集相应的训练数据;3)对训练数据进行分词处理;4)模型训练,对获得的分词进行特征提取,然后进行模型训练;5)对输入的文本进行分类,基于预先训练好的模型对输入的文本进行分类。
但是,上述文本分类方法主要存在以下几个缺陷:当模型中无法对当前文本进行分类时,需要根据当前文本重新训练模型,因此需要大量的高质量的训练语料进行模型训练,工作量大,人工成本高,训练的模型鲁棒性差,稳定性差。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本发明的一个目的在于提出一种文本分类方法,能够降低工作量,降低人工成本,并提升模型训练效率,训练的模型稳定性高,鲁棒性好。
本发明的第二个目的在于提出一种文本分类装置。
为了实现上述目的,本发明第一方面实施例提出了一种文本分类方法,包括:接收输入的文本数据,并将所述文本数据切分为多个分词;对所述多个分词进行归一化,并生成所述文本数据对应的归一化结果;以及将所述归一化结果转换为语义特征,并基于预设分类模型对所述语义特征进行分类。
本发明实施例的文本分类方法,通过接收输入的文本数据,并将文本数据切分为多个分词,对多个分词进行归一化,并生成文本数据对应的归一化结果,以及将归一化结果转换为语义特征,并基于预设分类模型对语义特征进行分类,只需对训练语料进行归一化,无需频繁增加训练语料对模型进行重新训练,降低了工作量,降低人工成本,并提升了模型训练效率,训练的模型稳定性高,鲁棒性好。
本发明第二方面实施例提出了一种文本分类装置,包括:接收模块,用于接收输入的文本数据,并将所述文本数据切分为多个分词;归一化模块,用于对所述多个分词进行归一化,并生成所述文本数据对应的归一化结果;以及分类模块,用于将所述归一化结果转换为语义特征,并基于预设分类模型对所述语义特征进行分类。
本发明实施例的文本分类装置,通过接收输入的文本数据,并将文本数据切分为多个分词,对多个分词进行归一化,并生成文本数据对应的归一化结果,以及将归一化结果转换为语义特征,并基于预设分类模型对语义特征进行分类,只需对训练语料进行归一化,无需频繁增加训练语料对模型进行重新训练,降低了工作量,降低人工成本,并提升了模型训练效率,训练的模型稳定性高,鲁棒性好。
附图说明
图1是根据本发明一个实施例的文本分类方法的流程图;
图2是根据本发明一个实施例的建立预设分类模型的流程图;
图3是根据本发明一个实施例的文本分类装置的结构示意图一;
图4是根据本发明一个实施例的文本分类装置的结构示意图二。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参考附图描述本发明实施例的文本分类方法和装置。
图1是根据本发明一个实施例的文本分类方法的流程图。
如图1所示,文本分类方法可包括:
S1、接收输入的文本数据,并将文本数据切分为多个分词。
具体地,可接收输入的文本数据,然后可基于CRF模型(条件随机场,ConditionalRandomField)对文本数据进行切分,将其切分为多个分词。举例来说,文本数据为“太原飞至青岛的飞机”,可将其切分为“太原”、“飞至”、“青岛”、“的”、“飞机”五个分词。
S2、对多个分词进行归一化,并生成文本数据对应的归一化结果。
下面继续步骤S1中的例子进行描述,在将文本数据“太原飞至青岛的飞机”切分为“太原”、“飞至”、“青岛”、“的”、“飞机”五个分词之后,可对分词进行归一化,“太原”和“青岛”属于City类,“飞至”可归一化为“飞往”,则获得的归一化结果为“city/飞往/city/的/飞机”。
S3、将归一化结果转换为语义特征,并基于预设分类模型对语义特征进行分类。
下面继续步骤S1中的例子进行描述,可将归一化结果转换为语义特征city、city_飞往、飞往、city_飞往_city、飞往_city、飞往_city_的、city_的、city_的_飞机,将上述语义特征与预先建立的分类模型进行匹配,最终可得到匹配结果为Flight类。
下面详细说明一下建立预设分类模型的过程。
具体地,如图2所示,可包括以下步骤:
S11、收集训练语料,并将训练语料切分为多个训练分词。
具体地,可通过人工编辑或者网络爬虫的方式抓取训练语料,然后基于CRF模型将训练语料切分为多个训练分词。
S12、对多个训练分词进行归一化,并生成多个训练分词对应的归一化样本。
其中,归一化可包括基于规则的归一化、基于实体识别的归一化。基于规则的归一化还可包括类别归一化、同义词归一化、正则表达式归一化等。举例来说,“三体”、“诛仙”、“完美世界”、“大主宰”、“斗破苍穹”均为小说名,则可将它们归为Novel类,即小说类。“麻婆豆腐”、“干酪焗蟹”、“龙井虾仁”、“胡萝卜炒蛋”、“红烧鱼”均为菜名,则可将它们归为Recipe类,即食谱类。“北京”、“南京”、“合肥”、“太原”、“青岛”均为城市名称,则可将它们归为City类,即城市类。再例如:“查询”、“查一下”、“查下”、“查询一下”均为查询的意思,属于同义词,则可将它们归为查询类。“飞往”、“飞向”、“飞至”、“飞到”均为飞往的意思,则可将它们归为飞往类。
正则表达式归一化则是对不可枚举的实体进行归一化,例如:正则表达式Radio_Channel:(fm|am|调频|调幅)[0-9一二三四五六七八九十壹贰叁肆伍陆柒捌玖拾点\.]{1,10}。基于该正则表达式,诸如FM98.2、调频38.3、调幅101.2等满足正则的短语均可归为Radio_Channel类别。再例如:正则表达式Video_Unit:(第)[0-9一二三四五六七八九十壹贰叁肆伍陆柒捌玖拾]{1,10}(集|季)。基于该正则表达式,诸如第1集、第23集、第三十五集等满足正则的短语均可归为Video_Unit类别。
基于实体识别的归一化,主要是通过对语句中的实体进行识别,再进行分类的过程。例如:“我想去百度大厦”识别出的实体为“百度大厦”,则可将“百度大厦”归为“POI”类,即地点类。再例如:“邓紫棋的喜欢你”中识别出“邓紫棋”和“喜欢你”两个实体,则可将“邓紫棋”归为“PER”类,即人物类;将“喜欢你”归类为“SONG”类,即歌曲类。
S13、基于汉语语言N-Gram模型将归一化样本转换为N-Gram语义特征。
在本发明的一个实施例中,可采用三元的Tri-Gram模型将归一化样本转换为3-Gram语义特征,例如city、city_飞往、飞往、city_飞往_city、飞往_city、飞往_city_的、city_的、city_的_飞机。
S14、基于最大熵模型对N-Gram语义特征进行训练,以生成预设分类模型。在本发明的一个实施例中,每个训练语料均对应归属一种类别,可被看作为一个事件。大量的训练语料和对应的类别可构成一个事件集。而基于训练语料生成语义特征可作为事件发生的环境。基于上述环境条件去求解最优的概率分布,使得概率分布最大化的满足已知的分类约束条件,从而对这些训练语料进行分类,进而建立分类模型。
应当理解的是,生成预设分类模型不仅限于最大熵模型,也可采用其他模型生成分类模型。
本发明实施例的文本分类方法,通过接收输入的文本数据,并将文本数据切分为多个分词,对多个分词进行归一化,并生成文本数据对应的归一化结果,以及将归一化结果转换为语义特征,并基于预设分类模型对语义特征进行分类,只需对训练语料进行归一化,无需频繁增加训练语料对模型进行重新训练,降低了工作量,降低人工成本,并提升了模型训练效率,训练的模型稳定性高,鲁棒性好。
为实现上述目的,本发明还提出一种文本分类装置。
图3是根据本发明一个实施例的文本分类装置的结构示意图一。
如图3所示,文本分类装置可包括:接收模块110、归一化模块120和分类模块130。
接收模块110用于接收输入的文本数据,并将文本数据切分为多个分词。具体地,接收模块110可接收输入的文本数据,然后可基于CRF模型(条件随机场,ConditionalRandomField)对文本数据进行切分,将其切分为多个分词。举例来说,文本数据为“太原飞至青岛的飞机”,可将其切分为“太原”、“飞至”、“青岛”、“的”、“飞机”五个分词。
归一化模块120用于对多个分词进行归一化,并生成文本数据对应的归一化结果。下面继续步骤S1中的例子进行描述,在将文本数据“太原飞至青岛的飞机”切分为“太原”、“飞至”、“青岛”、“的”、“飞机”五个分词之后,可对分词进行归一化,“太原”和“青岛”属于City类,“飞至”可归一化为“飞往”,则获得的归一化结果为“city/飞往/city/的/飞机”。
分类模块130用于将归一化结果转换为语义特征,并基于预设分类模型对语义特征进行分类。下面继续步骤S1中的例子进行描述,可将归一化结果转换为语义特征city、city_飞往、飞往、city_飞往_city、飞往_city、飞往_city_的、city_的、city_的_飞机,将上述语义特征与预先建立的分类模型进行匹配,最终可得到匹配结果为Flight类。
另外,如图4所示,本发明实施例的文本分类装置还可包括建立模块140。
建立模块140用于在基于预设分类模型对语义特征进行分类之前,建立预设分类模型。其中,建立模块140还可包括切分单元141、归一化单元142、转换单元143和训练单元144。
切分单元141用于收集训练语料,并将训练语料切分为多个训练分词。具体地,可通过人工编辑或者网络爬虫的方式抓取训练语料,然后基于CRF模型将训练语料切分为多个训练分词。
归一化单元142用于对多个训练分词进行归一化,并生成多个训练分词对应的归一化样本。其中,归一化可包括基于规则的归一化、基于实体识别的归一化。基于规则的归一化还可包括类别归一化、同义词归一化、正则表达式归一化等。举例来说,“三体”、“诛仙”、“完美世界”、“大主宰”、“斗破苍穹”均为小说名,则可将它们归为Novel类,即小说类。“麻婆豆腐”、“干酪焗蟹”、“龙井虾仁”、“胡萝卜炒蛋”、“红烧鱼”均为菜名,则可将它们归为Recipe类,即食谱类。“北京”、“南京”、“合肥”、“太原”、“青岛”均为城市名称,则可将它们归为City类,即城市类。再例如:“查询”、“查一下”、“查下”、“查询一下”均为查询的意思,属于同义词,则可将它们归为查询类。“飞往”、“飞向”、“飞至”、“飞到”均为飞往的意思,则可将它们归为飞往类。
正则表达式归一化则是对不可枚举的实体进行归一化,例如:正则表达式Radio_Channel:(fm|am|调频|调幅)[0-9一二三四五六七八九十壹贰叁肆伍陆柒捌玖拾点\.]{1,10}。基于该正则表达式,诸如FM98.2、调频38.3、调幅101.2等满足正则的短语均可归为Radio_Channel类别。再例如:正则表达式Video_Unit:(第)[0-9一二三四五六七八九十壹贰叁肆伍陆柒捌玖拾]{1,10}(集|季)。基于该正则表达式,诸如第1集、第23集、第三十五集等满足正则的短语均可归为Video_Unit类别。
基于实体识别的归一化,主要是通过对语句中的实体进行识别,再进行分类的过程。例如:“我想去百度大厦”识别出的实体为“百度大厦”,则可将“百度大厦”归为“POI”类,即地点类。再例如:“邓紫棋的喜欢你”中识别出“邓紫棋”和“喜欢你”两个实体,则可将“邓紫棋”归为“PER”类,即人物类;将“喜欢你”归类为“SONG”类,即歌曲类。
转换单元143用于基于汉语语言N-Gram模型将归一化样本转换为N-Gram语义特征。在本发明的一个实施例中,可采用三元的Tri-Gram模型将归一化样本转换为3-Gram语义特征,例如city、city_飞往、飞往、city_飞往_city、飞往_city、飞往_city_的、city_的、city_的_飞机。
训练单元144用于基于最大熵模型对N-Gram语义特征进行训练,以生成预设分类模型。在本发明的一个实施例中,每个训练语料均对应归属一种类别,可被看作为一个事件。大量的训练语料和对应的类别可构成一个事件集。而基于训练语料生成语义特征可作为事件发生的环境。基于上述环境条件去求解最优的概率分布,使得概率分布最大化的满足已知的分类约束条件,从而对这些训练语料进行分类,进而建立分类模型。
应当理解的是,生成预设分类模型不仅限于最大熵模型,也可采用其他模型生成分类模型。
本发明实施例的文本分类装置,通过接收输入的文本数据,并将文本数据切分为多个分词,对多个分词进行归一化,并生成文本数据对应的归一化结果,以及将归一化结果转换为语义特征,并基于预设分类模型对语义特征进行分类,只需对训练语料进行归一化,无需频繁增加训练语料对模型进行重新训练,降低了工作量,降低人工成本,并提升了模型训练效率,训练的模型稳定性高,鲁棒性好。
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系,除非另有明确的限定。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
在本发明中,除非另有明确的规定和限定,第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触,或第一和第二特征通过中间媒介间接接触。而且,第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方,或仅仅表示第一特征水平高度小于第二特征。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种文本分类方法,其特征在于,包括以下步骤:
接收输入的文本数据,并将所述文本数据切分为多个分词;
对所述多个分词进行归一化,并生成所述文本数据对应的归一化结果;以及
将所述归一化结果转换为语义特征,并基于预设分类模型对所述语义特征进行分类。
2.如权利要求1所述的方法,其特征在于,在基于预设分类模型对所述语义特征进行分类之前,还包括:
建立所述预设分类模型。
3.如权利要求2所述的方法,其特征在于,所述建立所述预设分类模型,包括:
收集训练语料,并将所述训练语料切分为多个训练分词;
对所述多个训练分词进行归一化,并生成所述多个训练分词对应的归一化样本;
基于汉语语言N-Gram模型将所述归一化样本转换为N-Gram语义特征;
基于最大熵模型对所述N-Gram语义特征进行训练,以生成所述预设分类模型。
4.如权利要求3所述的方法,其特征在于,所述归一化包括基于规则的归一化和/或基于实体识别的归一化。
5.如权利要求4所述的方法,其特征在于,所述基于规则的归一化包括类别归一化、同义词归一化、正则表达式归一化中的一种或多种。
6.一种文本分类装置,其特征在于,包括:
接收模块,用于接收输入的文本数据,并将所述文本数据切分为多个分词;
归一化模块,用于对所述多个分词进行归一化,并生成所述文本数据对应的归一化结果;以及
分类模块,用于将所述归一化结果转换为语义特征,并基于预设分类模型对所述语义特征进行分类。
7.如权利要求6所述的装置,其特征在于,所述装置还包括:
建立模块,用于在基于预设分类模型对所述语义特征进行分类之前,建立所述预设分类模型。
8.如权利要求7所述的装置,其特征在于,所述建立模块,包括:
切分单元,用于收集训练语料,并将所述训练语料切分为多个训练分词;
归一化单元,用于对所述多个训练分词进行归一化,并生成所述多个训练分词对应的归一化样本;
转换单元,用于基于汉语语言N-Gram模型将所述归一化样本转换为N-Gram语义特征;
训练单元,用于基于最大熵模型对所述N-Gram语义特征进行训练,以生成所述预设分类模型。
9.如权利要求8所述的装置,其特征在于,所述归一化包括基于规则的归一化和/或基于实体识别的归一化。
10.如权利要求9所述的方法,其特征在于,所述基于规则的归一化包括类别归一化、同义词归一化、正则表达式归一化中的一种或多种。
CN201510918981.2A 2015-12-10 2015-12-10 文本分类方法和装置 Active CN105550291B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510918981.2A CN105550291B (zh) 2015-12-10 2015-12-10 文本分类方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510918981.2A CN105550291B (zh) 2015-12-10 2015-12-10 文本分类方法和装置

Publications (2)

Publication Number Publication Date
CN105550291A true CN105550291A (zh) 2016-05-04
CN105550291B CN105550291B (zh) 2019-05-31

Family

ID=55829480

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510918981.2A Active CN105550291B (zh) 2015-12-10 2015-12-10 文本分类方法和装置

Country Status (1)

Country Link
CN (1) CN105550291B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106250934A (zh) * 2016-08-12 2016-12-21 南方电网科学研究院有限责任公司 一种缺陷数据的分类方法及装置
CN106528694A (zh) * 2016-10-31 2017-03-22 百度在线网络技术(北京)有限公司 基于人工智能的语义判定处理方法和装置
CN106778862A (zh) * 2016-12-12 2017-05-31 上海智臻智能网络科技股份有限公司 一种信息分类方法及装置
CN106777191A (zh) * 2016-12-23 2017-05-31 北京奇虎科技有限公司 一种基于搜索引擎的检索模式生成方法及装置
CN106844482A (zh) * 2016-12-23 2017-06-13 北京奇虎科技有限公司 一种基于搜索引擎的检索信息匹配方法及装置
CN107065669A (zh) * 2017-04-20 2017-08-18 重庆锐纳达自动化技术有限公司 一种远程控制家用机器人的方法
CN107423280A (zh) * 2017-04-19 2017-12-01 广州视源电子科技股份有限公司 一种语句判别方法与***
CN107665192A (zh) * 2017-11-29 2018-02-06 国网上海市电力公司 一种调度运行告警信息自动分类装置及方法
CN107783958A (zh) * 2016-08-31 2018-03-09 科大讯飞股份有限公司 一种目标语句识别方法及装置
CN109255564A (zh) * 2017-07-13 2019-01-22 菜鸟智能物流控股有限公司 一种取件点地址推荐方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090271496A1 (en) * 2006-02-06 2009-10-29 Sony Corporation Information recommendation system based on biometric information
CN102541958A (zh) * 2010-12-30 2012-07-04 百度在线网络技术(北京)有限公司 一种用于识别短文本类别信息的方法、装置和计算机设备
CN103218444A (zh) * 2013-04-22 2013-07-24 中央民族大学 基于语义的藏文网页文本分类方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090271496A1 (en) * 2006-02-06 2009-10-29 Sony Corporation Information recommendation system based on biometric information
CN102541958A (zh) * 2010-12-30 2012-07-04 百度在线网络技术(北京)有限公司 一种用于识别短文本类别信息的方法、装置和计算机设备
CN103218444A (zh) * 2013-04-22 2013-07-24 中央民族大学 基于语义的藏文网页文本分类方法

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106250934B (zh) * 2016-08-12 2019-11-01 南方电网科学研究院有限责任公司 一种缺陷数据的分类方法及装置
CN106250934A (zh) * 2016-08-12 2016-12-21 南方电网科学研究院有限责任公司 一种缺陷数据的分类方法及装置
CN107783958A (zh) * 2016-08-31 2018-03-09 科大讯飞股份有限公司 一种目标语句识别方法及装置
CN106528694A (zh) * 2016-10-31 2017-03-22 百度在线网络技术(北京)有限公司 基于人工智能的语义判定处理方法和装置
CN106528694B (zh) * 2016-10-31 2019-12-06 百度在线网络技术(北京)有限公司 基于人工智能的语义判定处理方法和装置
CN106778862A (zh) * 2016-12-12 2017-05-31 上海智臻智能网络科技股份有限公司 一种信息分类方法及装置
CN106778862B (zh) * 2016-12-12 2020-04-21 上海智臻智能网络科技股份有限公司 一种信息分类方法及装置
CN106777191A (zh) * 2016-12-23 2017-05-31 北京奇虎科技有限公司 一种基于搜索引擎的检索模式生成方法及装置
CN106844482A (zh) * 2016-12-23 2017-06-13 北京奇虎科技有限公司 一种基于搜索引擎的检索信息匹配方法及装置
CN107423280A (zh) * 2017-04-19 2017-12-01 广州视源电子科技股份有限公司 一种语句判别方法与***
CN107065669A (zh) * 2017-04-20 2017-08-18 重庆锐纳达自动化技术有限公司 一种远程控制家用机器人的方法
CN109255564A (zh) * 2017-07-13 2019-01-22 菜鸟智能物流控股有限公司 一种取件点地址推荐方法及装置
CN107665192A (zh) * 2017-11-29 2018-02-06 国网上海市电力公司 一种调度运行告警信息自动分类装置及方法

Also Published As

Publication number Publication date
CN105550291B (zh) 2019-05-31

Similar Documents

Publication Publication Date Title
CN105550291A (zh) 文本分类方法和装置
CN103970729B (zh) 一种基于语义类的多主题提取方法
CN112699246B (zh) 基于知识图谱的领域知识推送方法
CN101763404B (zh) 基于模糊聚类的网络文本数据检测方法
CN101334773B (zh) 一种过滤搜索引擎查询结果的方法
CN103853738B (zh) 一种网页信息相关地域的识别方法
CN103049548B (zh) 电子渠道应用上的faq识别***及方法
CN103605665A (zh) 一种基于关键词的评审专家智能检索与推荐方法
CN102253996B (zh) 一种多视角阶段式的图像聚类方法
CN107291914A (zh) 一种生成搜索引擎查询扩展词的方法及***
CN109657063A (zh) 一种海量环保人工上报事件数据的处理方法及存储介质
CN102693299A (zh) 一种并行视频拷贝检测***和方法
CN104424308A (zh) 网页分类标准获取方法、装置及网页分类方法、装置
CN101876987A (zh) 一种面向类间交叠的两类文本分类方法
CN106682123A (zh) 一种获取热点事件的方法及装置
CN111950264A (zh) 文本数据增强方法及知识元抽取方法
CN107704500A (zh) 一种基于语义分析与多重余弦定理的新闻分类方法
CN103810162A (zh) 推荐网络信息的方法和***
CN102073631A (zh) 利用关联规则技术的视频新闻单元划分方法
CN103902619A (zh) 一种网络舆情监控方法及***
CN104281694A (zh) 一种文本情感倾向分析***
CN104820724A (zh) 文本类教育资源知识点预测模型获得方法及模型应用方法
CN105516941A (zh) 一种垃圾短信的拦截方法及装置
CN103853746A (zh) 词库生成方法及其***、输入法及输入***
CN103337248A (zh) 一种基于时间序列核聚类的机场噪声事件识别方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant