CN106782516B - 语料分类方法及装置 - Google Patents
语料分类方法及装置 Download PDFInfo
- Publication number
- CN106782516B CN106782516B CN201611027175.7A CN201611027175A CN106782516B CN 106782516 B CN106782516 B CN 106782516B CN 201611027175 A CN201611027175 A CN 201611027175A CN 106782516 B CN106782516 B CN 106782516B
- Authority
- CN
- China
- Prior art keywords
- corpus
- vector data
- data
- vector
- gender
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 59
- 238000013145 classification model Methods 0.000 claims abstract description 50
- 238000012549 training Methods 0.000 claims abstract description 33
- 238000006243 chemical reaction Methods 0.000 claims description 50
- 238000000605 extraction Methods 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 20
- 238000004590 computer program Methods 0.000 description 7
- 230000009466 transformation Effects 0.000 description 7
- 230000006870 function Effects 0.000 description 5
- 238000002372 labelling Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000007635 classification algorithm Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
- G10L19/035—Scalar quantisation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Artificial Intelligence (AREA)
- Signal Processing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明是关于一种语料分类方法及装置,其中,方法包括:从语料数据库中提取出包含性别特证词的第一语料;将所述第一语料进行性别分类;根据接收到的分类标记命令,对所述语料数据库中的第二语料进行性别分类标记,其中,所述第二语料不同于所述第一语料;利用标记后的所述第二语料和libshortext)算法进行训练,得到性别分类模型;使用所述性别分类模型对所述语料数据库中除所述第一语料和所述第二语料之外的第三预料进行性别分类,以得到所述语料数据库对应的性别分类结果。通过该技术方案,可以在在保证语料分类的准确率的基础上,提高语料分类的效率,减少用户操作,从而提升用户的使用体验。
Description
技术领域
本发明涉及语音分类技术领域,尤其涉及一种语料分类方法及装置。
背景技术
目前,如果需要对语料库中的语料进行分类,需要人工进行标注,这样,在语料库中的语料较多时,用户操作时间则会很久,用户体验不佳。
发明内容
本发明实施例提供一种语料分类方法及装置,用以实现在保证语料分类的准确率的基础上,提高语料分类的效率,减少用户操作,从而提升用户的使用体验。
根据本发明实施例的第一方面,提供一种语料分类方法,包括:
从语料数据库中提取出包含性别特证词的第一语料;
将所述第一语料进行性别分类;
根据接收到的分类标记命令,对所述语料数据库中的第二语料进行性别分类标记,其中,所述第二语料不同于所述第一语料;
利用标记后的所述第二语料和libshortext(支持向量机短分类)算法进行训练,得到性别分类模型;
使用所述性别分类模型对所述语料数据库中除所述第一语料和所述第二语料之外的第三预料进行性别分类,以得到所述语料数据库对应的性别分类结果。
在该实施例中,通过上述训练方法得到的性别分类模型,其特征词和分类算法的选择都与性别有关,具有性别的一致性,并且,通过这种方法对语料数据库进行性别分类,在保证语料分类的准确率的基础上,提高语料分类的效率,减少用户操作,从而提升用户的使用体验。
在一个实施例中,所述利用标记后的所述第二语料和libshortext算法进行训练,得到性别分类模型,包括:
根据文本向量化算法将所述第二语料中的每个语料数据进行向量转化,得到第一向量数据;
根据预设性别特征词将所述第二语料中的每个语料数据进行向量转化,得到第二向量数据;
根据PLDA(并行隐含狄利克雷分布)算法将所述第二语料中的每个语料数据进行向量转化,得到第三向量数据;
将所述第一向量数据、所述第二向量数据和所述第三向量数据进行拼接,得到第四向量数据;
将所述第四向量数据作为所述libshortext算法的输入向量,使用所述libshortext算法进行训练,得到所述性别分类模型。
在该实施例中,将第二语料分别采用文本向量化算法、按照预设性别特征词和采用PLDA算法模型进行向量转化,并将三个转化后得到的向量数据进行拼接,将拼接后得到的向量数据作为libshortext算法的输入向量,进而得到性别分类模型,这样,可以使得得到的性别分类模型在进行语料分类时,分类准确性较高。
在一个实施例中,所述将所述第一向量数据、所述第二向量数据和所述第三向量数据进行拼接,得到第四向量数据,包括:
分别将所述第一向量数据、所述第二向量数据和所述第三向量数据中同一语料数据对应的向量数据进行拼接,得到所述第四向量数据。
在该实施例中,每一个语料数据对应一个第一向量数据、一个第二向量数据和一个第三向量数据,将这三个向量数据进行拼接即得到第四向量数据。
在一个实施例中,所述使用所述性别分类模型对所述语料数据库中除所述第一语料和所述第二语料之外的第三预料进行性别分类,以得到所述语料数据库对应的性别分类结果,包括:
根据文本向量化算法将所述第三语料中的每个语料数据进行向量转化,得到第五向量数据;
根据预设性别特征词将所述第三语料中的每个语料数据进行向量转化,得到第六向量数据;
根据PLDA算法模型将所述第三语料中的每个语料数据进行向量转化,得到第七向量数据;
将所述第五向量数据、所述第六向量数据和所述第七向量数据进行拼接,得到第八向量数据;
利用所述性别分类模型对所述第八向量数据进行分类,以得到所述语料数据库对应的性别分类结果。
在该实施例中,在训练得到性别分类模型后,即可通过性别分类模型对语料数据库中未进行分类的剩余语料进行分类。这样,通过性别分类模型对语料进行性别分类,可以在保证语料分类的准确率的基础上,提高语料分类的效率,减少用户操作,从而提升用户的使用体验。
在一个实施例中,所述将所述第五向量数据、所述第六向量数据和所述第七向量数据进行拼接,得到第八向量数据,包括:
分别将所述第五向量数据、所述第六向量数据和所述第七向量数据中同一语料数据对应的向量数据进行拼接,得到所述第八向量数据。
根据本发明实施例的第二方面,提供一种语料分类装置,包括:
提取模块,用于从语料数据库中提取出包含性别特证词的第一语料;
第一分类模块,用于将所述第一语料进行性别分类;
标记模块,用于根据接收到的分类标记命令,对所述语料数据库中的第二语料进行性别分类标记,其中,所述第二语料不同于所述第一语料;
训练模块,用于利用标记后的所述第二语料和libshortext算法进行训练,得到性别分类模型;
第二分类模块,用于使用所述性别分类模型对所述语料数据库中除所述第一语料和所述第二语料之外的第三预料进行性别分类,以得到所述语料数据库对应的性别分类结果。
在一个实施例中,所述训练模块包括:
第一转化子模块,用于根据文本向量化算法将所述第二语料中的每个语料数据进行向量转化,得到第一向量数据;
第二转化子模块,用于根据预设性别特征词将所述第二语料中的每个语料数据进行向量转化,得到第二向量数据;
第三转化子模块,用于根据PLDA算法模型将所述第二语料中的每个语料数据进行向量转化,得到第三向量数据;
第一拼接子模块,用于将所述第一向量数据、所述第二向量数据和所述第三向量数据进行拼接,得到第四向量数据;
第一训练子模块,用于将所述第四向量数据作为所述libshortext算法的输入向量,使用所述libshortext算法进行训练,得到所述性别分类模型。
在一个实施例中,所述第一拼接子模块用于:
分别将所述第一向量数据、所述第二向量数据和所述第三向量数据中同一语料数据对应的向量数据进行拼接,得到所述第四向量数据。
在一个实施例中,所述第二分类模块包括:
第四转化子模块,用于根据文本向量化算法将所述第三语料中的每个语料数据进行向量转化,得到第五向量数据;
第五转化子模块,用于根据预设性别特征词将所述第三语料中的每个语料数据进行向量转化,得到第六向量数据;
第六转化子模块,用于根据PLDA算法模型将所述第三语料中的每个语料数据进行向量转化,得到第七向量数据;
第二拼接子模块,用于将所述第五向量数据、所述第六向量数据和所述第七向量数据进行拼接,得到第八向量数据;
第二分类子模块,用于利用所述性别分类模型对所述第八向量数据进行分类,以得到所述语料数据库对应的性别分类结果。
在一个实施例中,所述第二拼接子模块用于:
分别将所述第五向量数据、所述第六向量数据和所述第七向量数据中同一语料数据对应的向量数据进行拼接,得到所述第八向量数据。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1是根据一示例性实施例示出的一种语料分类方法的流程图。
图2是根据一示例性实施例示出的另一种语料分类方法的流程图。
图3是根据一示例性实施例示出的又一种语料分类方法的流程图。
图4是根据一示例性实施例示出的一种语料分类方法中步骤S105的流程图。
图5是根据一示例性实施例示出的又一种语料分类方法中步骤S105的流程图。
图6是根据一示例性实施例示出的一种语料分类装置的框图。
图7是根据一示例性实施例示出的一种语料分类装置中训练模块的框图。
图8是根据一示例性实施例示出的一种语料分类装置中第二分类模块的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
图1是根据一示例性实施例示出的一种语料分类方法的流程图。该语料分类方法应用于终端设备中,该终端设备可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等任一具有语音识别功能的设备。如图1所示,该方法包括步骤S101-S105:
在步骤S101中,从语料数据库中提取出包含性别特证词的第一语料;
在步骤S102中,将第一语料进行性别分类;
首先,基于特征词抽取,或者说基于规则抽取,如老公、老婆、男朋友等这类词可以明确表示回答者的性别。筛选出包含上述词的语料,并按照性别对语料分类。
在步骤S103中,根据接收到的分类标记命令,对语料数据库中的第二语料进行性别分类标记,其中,第二语料不同于第一语料;
在对第一语料进行分类后,可以人为的对语料数据库中剩余语料中的部分语料,即第二语料进行标记。
在步骤S104中,利用标记后的第二语料和libshortext算法进行训练,得到性别分类模型;
在步骤S105中,使用性别分类模型对语料数据库中除第一语料和第二语料之外的第三预料进行性别分类,以得到语料数据库对应的性别分类结果。
使用训练得到的性别分类模型对语料数据库中的剩余语料进行分类,这样,就可以完成对整个语料数据库中的语料进行分类。
在该实施例中,通过上述训练方法得到的性别分类模型,其特征词和分类算法的选择都与性别有关,具有性别的一致性,并且,通过这种方法对语料数据库进行性别分类,在保证语料分类的准确率的基础上,提高语料分类的效率,减少用户操作,从而提升用户的使用体验。
图2是根据一示例性实施例示出的另一种语料分类方法的流程图。
在一个实施例中,上述步骤S104包括步骤S201-S205:
在步骤S201中,根据文本向量化算法将第二语料中的每个语料数据进行向量转化,得到第一向量数据;
文本向量化算法可以采用二元统计模型算法和词频-逆文档频率算法。
在步骤S202中,根据预设性别特征词将第二语料中的每个语料数据进行向量转化,得到第二向量数据;
在该实施例中,可以建立性别特征词词典,词典里面设置多个预设性别特征词。
在步骤S203中,根据PLDA算法模型将第二语料中的每个语料数据进行向量转化,得到第三向量数据;
通过PLDA算法,将第二语料表示为第三向量数据,并保存该算法的模型。
在步骤S204中,将第一向量数据、第二向量数据和第三向量数据进行拼接,得到第四向量数据;
在步骤S205中,将第四向量数据作为libshortext算法的输入向量,使用libshortext算法进行训练,得到性别分类模型。
在该实施例中,将第二语料分别采用文本向量化算法、按照预设性别特征词和采用PLDA算法模型进行向量转化,并将三个转化后得到的向量数据进行拼接,将拼接后得到的向量数据作为libshortext算法的输入向量,进而得到性别分类模型,这样,可以使得得到的性别分类模型在进行语料分类时,分类准确性较高。
图3是根据一示例性实施例示出的又一种语料分类方法的流程图。
如图3所示,在一个实施例中,上述步骤S204包括步骤S301:
在步骤S301中,分别将第一向量数据、第二向量数据和第三向量数据中同一语料数据对应的向量数据进行拼接,得到第四向量数据。
在该实施例中,每一个语料数据对应一个第一向量数据、一个第二向量数据和一个第三向量数据,将这三个向量数据进行拼接即得到第四向量数据。
图4是根据一示例性实施例示出的一种语料分类方法中步骤S105的流程图。
如图4所示,在一个实施例中,上述步骤S105包括步骤S401-S405:
在步骤S401中,根据文本向量化算法将第三语料中的每个语料数据进行向量转化,得到第五向量数据;
在步骤S402中,根据预设性别特征词将第三语料中的每个语料数据进行向量转化,得到第六向量数据;
在步骤S403中,根据PLDA算法模型将第三语料中的每个语料数据进行向量转化,得到第七向量数据;
在步骤S404中,将第五向量数据、第六向量数据和第七向量数据进行拼接,得到第八向量数据;
在步骤S405中,利用性别分类模型对第八向量数据进行分类,以得到语料数据库对应的性别分类结果。
在该实施例中,在训练得到性别分类模型后,即可通过性别分类模型对语料数据库中未进行分类的剩余语料进行分类。这样,通过性别分类模型对语料进行性别分类,可以在保证语料分类的准确率的基础上,提高语料分类的效率,减少用户操作,从而提升用户的使用体验。
图5是根据一示例性实施例示出的又一种语料分类方法中步骤S105的流程图。
如图5所示,在一个实施例中,上述步骤S404包括步骤S501:
在步骤S501中,分别将第五向量数据、第六向量数据和第七向量数据中同一语料数据对应的向量数据进行拼接,得到第八向量数据。
下述为本发明装置实施例,可以用于执行本发明方法实施例。
图6是根据一示例性实施例示出的一种语料分类装置的框图,该装置可以通过软件、硬件或者两者的结合实现成为终端设备的部分或者全部。如图6所示,该语料分类装置包括:
提取模块61,用于从语料数据库中提取出包含性别特证词的第一语料;
第一分类模块62,用于将所述第一语料进行性别分类;
标记模块63,用于根据接收到的分类标记命令,对所述语料数据库中的第二语料进行性别分类标记,其中,所述第二语料不同于所述第一语料;
训练模块64,用于利用标记后的所述第二语料和libshortext算法进行训练,得到性别分类模型;
第二分类模块65,用于使用所述性别分类模型对所述语料数据库中除所述第一语料和所述第二语料之外的第三预料进行性别分类,以得到所述语料数据库对应的性别分类结果。
使用训练得到的性别分类模型对语料数据库中的剩余语料进行分类,这样,就可以完成对整个语料数据库中的语料进行分类。
在该实施例中,通过上述训练方法得到的性别分类模型,其特征词和分类算法的选择都与性别有关,具有性别的一致性,并且,通过这种方法对语料数据库进行性别分类,在保证语料分类的准确率的基础上,提高语料分类的效率,减少用户操作,从而提升用户的使用体验。
图7是根据一示例性实施例示出的一种语料分类装置中训练模块的框图。
如图7所示,在一个实施例中,上述语料分类装置中训练模块64包括:
第一转化子模块71,用于根据文本向量化算法将所述第二语料中的每个语料数据进行向量转化,得到第一向量数据;
第二转化子模块72,用于根据预设性别特征词将所述第二语料中的每个语料数据进行向量转化,得到第二向量数据;
第三转化子模块73,用于根据PLDA算法模型将所述第二语料中的每个语料数据进行向量转化,得到第三向量数据;
第一拼接子模块74,用于将所述第一向量数据、所述第二向量数据和所述第三向量数据进行拼接,得到第四向量数据;
第一训练子模块75,用于将所述第四向量数据作为所述libshortext算法的输入向量,使用所述libshortext算法进行训练,得到所述性别分类模型。
在该实施例中,将第二语料分别采用文本向量化算法、按照预设性别特征词和采用PLDA算法模型进行向量转化,并将三个转化后得到的向量数据进行拼接,将拼接后得到的向量数据作为libshortext算法的输入向量,进而得到性别分类模型,这样,可以使得得到的性别分类模型在进行语料分类时,分类准确性较高。
在一个实施例中,所述第一拼接子模块74用于:
分别将所述第一向量数据、所述第二向量数据和所述第三向量数据中同一语料数据对应的向量数据进行拼接,得到所述第四向量数据。
在该实施例中,每一个语料数据对应一个第一向量数据、一个第二向量数据和一个第三向量数据,将这三个向量数据进行拼接即得到第四向量数据。
图8是根据一示例性实施例示出的一种语料分类装置中第二分类模块的框图。
如图8所示,在一个实施例中,所述第二分类模块65包括:
第四转化子模块81,用于根据文本向量化算法将所述第三语料中的每个语料数据进行向量转化,得到第五向量数据;
第五转化子模块82,用于根据预设性别特征词将所述第三语料中的每个语料数据进行向量转化,得到第六向量数据;
第六转化子模块83,用于根据PLDA算法模型将所述第三语料中的每个语料数据进行向量转化,得到第七向量数据;
第二拼接子模块84,用于将所述第五向量数据、所述第六向量数据和所述第七向量数据进行拼接,得到第八向量数据;
第二分类子模块85,用于利用所述性别分类模型对所述第八向量数据进行分类,以得到所述语料数据库对应的性别分类结果。
在该实施例中,在训练得到性别分类模型后,即可通过性别分类模型对语料数据库中未进行分类的剩余语料进行分类。这样,通过性别分类模型对语料进行性别分类,可以在保证语料分类的准确率的基础上,提高语料分类的效率,减少用户操作,从而提升用户的使用体验。
在一个实施例中,所述第二拼接子模块84用于:
分别将所述第五向量数据、所述第六向量数据和所述第七向量数据中同一语料数据对应的向量数据进行拼接,得到所述第八向量数据。
本领域内的技术人员应明白,本发明的实施例可提供为方法、***、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (4)
1.一种语料分类方法,其特征在于,包括:
从语料数据库中提取出包含性别特证词的第一语料;
将所述第一语料进行性别分类;
根据接收到的分类标记命令,对所述语料数据库中的第二语料进行性别分类标记,其中,所述第二语料不同于所述第一语料;
利用标记后的所述第二语料和libshortext算法进行训练,得到性别分类模型;
使用所述性别分类模型对所述语料数据库中除所述第一语料和所述第二语料之外的第三语料进行性别分类,以得到所述语料数据库对应的性别分类结果;
所述利用标记后的所述第二语料和libshortext算法进行训练,得到性别分类模型,包括:
根据文本向量化算法将所述第二语料中的每个语料数据进行向量转化,得到第一向量数据;
根据预设性别特征词将所述第二语料中的每个语料数据进行向量转化,得到第二向量数据;
根据PLDA算法模型将所述第二语料中的每个语料数据进行向量转化,得到第三向量数据;
将所述第一向量数据、所述第二向量数据和所述第三向量数据进行拼接,得到第四向量数据;
将所述第四向量数据作为所述libshortext算法的输入向量,使用所述libshortext算法进行训练,得到所述性别分类模型;
所述将所述第一向量数据、所述第二向量数据和所述第三向量数据进行拼接,得到第四向量数据,包括:
分别将所述第一向量数据、所述第二向量数据和所述第三向量数据中同一语料数据对应的向量数据进行拼接,得到所述第四向量数据。
2.根据权利要求1所述的方法,其特征在于,所述使用所述性别分类模型对所述语料数据库中除所述第一语料和所述第二语料之外的第三语料进行性别分类,以得到所述语料数据库对应的性别分类结果,包括:
根据文本向量化算法将所述第三语料中的每个语料数据进行向量转化,得到第五向量数据;
根据预设性别特征词将所述第三语料中的每个语料数据进行向量转化,得到第六向量数据;
根据所述PLDA算法模型将所述第三语料中的每个语料数据进行向量转化,得到第七向量数据;
将所述第五向量数据、所述第六向量数据和所述第七向量数据进行拼接,得到第八向量数据;
利用所述性别分类模型对所述第八向量数据进行分类,以得到所述语料数据库对应的性别分类结果;
所述将所述第五向量数据、所述第六向量数据和所述第七向量数据进行拼接,得到第八向量数据,包括:
分别将所述第五向量数据、所述第六向量数据和所述第七向量数据中同一语料数据对应的向量数据进行拼接,得到所述第八向量数据。
3.一种语料分类装置,其特征在于,包括:
提取模块,用于从语料数据库中提取出包含性别特证词的第一语料;
第一分类模块,用于将所述第一语料进行性别分类;
标记模块,用于根据接收到的分类标记命令,对所述语料数据库中的第二语料进行性别分类标记,其中,所述第二语料不同于所述第一语料;
训练模块,用于利用标记后的所述第二语料和libshortext算法进行训练,得到性别分类模型;
第二分类模块,用于使用所述性别分类模型对所述语料数据库中除所述第一语料和所述第二语料之外的第三语料进行性别分类,以得到所述语料数据库对应的性别分类结果;
所述训练模块包括:
第一转化子模块,用于根据文本向量化算法将所述第二语料中的每个语料数据进行向量转化,得到第一向量数据;
第二转化子模块,用于根据预设性别特征词将所述第二语料中的每个语料数据进行向量转化,得到第二向量数据;
第三转化子模块,用于根据PLDA算法模型将所述第二语料中的每个语料数据进行向量转化,得到第三向量数据;
第一拼接子模块,用于将所述第一向量数据、所述第二向量数据和所述第三向量数据进行拼接,得到第四向量数据;
第一训练子模块,用于将所述第四向量数据作为所述libshortext算法的输入向量,使用所述libshortext算法进行训练,得到所述性别分类模型;
所述第一拼接子模块用于:
分别将所述第一向量数据、所述第二向量数据和所述第三向量数据中同一语料数据对应的向量数据进行拼接,得到所述第四向量数据。
4.根据权利要求3所述的装置,其特征在于,所述第二分类模块包括:
第四转化子模块,用于根据文本向量化算法将所述第三语料中的每个语料数据进行向量转化,得到第五向量数据;
第五转化子模块,用于根据预设性别特征词将所述第三语料中的每个语料数据进行向量转化,得到第六向量数据;
第六转化子模块,用于根据所述PLDA算法模型将所述第三语料中的每个语料数据进行向量转化,得到第七向量数据;
第二拼接子模块,用于将所述第五向量数据、所述第六向量数据和所述第七向量数据进行拼接,得到第八向量数据;
第二分类子模块,用于利用所述性别分类模型对所述第八向量数据进行分类,以得到所述语料数据库对应的性别分类结果;
所述第二拼接子模块用于:
分别将所述第五向量数据、所述第六向量数据和所述第七向量数据中同一语料数据对应的向量数据进行拼接,得到所述第八向量数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611027175.7A CN106782516B (zh) | 2016-11-17 | 2016-11-17 | 语料分类方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611027175.7A CN106782516B (zh) | 2016-11-17 | 2016-11-17 | 语料分类方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106782516A CN106782516A (zh) | 2017-05-31 |
CN106782516B true CN106782516B (zh) | 2020-02-07 |
Family
ID=58970155
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611027175.7A Active CN106782516B (zh) | 2016-11-17 | 2016-11-17 | 语料分类方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106782516B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110019827B (zh) * | 2017-08-24 | 2023-03-14 | 腾讯科技(北京)有限公司 | 一种语料库生成方法、装置、设备和计算机存储介质 |
CN107704869B (zh) * | 2017-09-01 | 2020-09-18 | 厦门快商通科技股份有限公司 | 一种语料数据抽样方法及模型训练方法 |
CN109192200B (zh) * | 2018-05-25 | 2023-06-13 | 华侨大学 | 一种语音识别方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4862408A (en) * | 1987-03-20 | 1989-08-29 | International Business Machines Corporation | Paradigm-based morphological text analysis for natural languages |
CN101287229A (zh) * | 2008-05-26 | 2008-10-15 | 北京捷讯畅达科技发展有限公司 | 应用于手机短信查询的自然语言处理技术及装置 |
CN101621391A (zh) * | 2009-08-07 | 2010-01-06 | 北京百问百答网络技术有限公司 | 基于概率主题进行短文本分类的方法及*** |
CN104217717A (zh) * | 2013-05-29 | 2014-12-17 | 腾讯科技(深圳)有限公司 | 构建语言模型的方法及装置 |
CN104239539A (zh) * | 2013-09-22 | 2014-12-24 | 中科嘉速(北京)并行软件有限公司 | 一种基于多种信息融合的微博信息过滤方法 |
-
2016
- 2016-11-17 CN CN201611027175.7A patent/CN106782516B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4862408A (en) * | 1987-03-20 | 1989-08-29 | International Business Machines Corporation | Paradigm-based morphological text analysis for natural languages |
CN101287229A (zh) * | 2008-05-26 | 2008-10-15 | 北京捷讯畅达科技发展有限公司 | 应用于手机短信查询的自然语言处理技术及装置 |
CN101621391A (zh) * | 2009-08-07 | 2010-01-06 | 北京百问百答网络技术有限公司 | 基于概率主题进行短文本分类的方法及*** |
CN104217717A (zh) * | 2013-05-29 | 2014-12-17 | 腾讯科技(深圳)有限公司 | 构建语言模型的方法及装置 |
CN104239539A (zh) * | 2013-09-22 | 2014-12-24 | 中科嘉速(北京)并行软件有限公司 | 一种基于多种信息融合的微博信息过滤方法 |
Non-Patent Citations (3)
Title |
---|
Gender Classification for Web Forums;张玉蕾等;《IEEE TRANSCATIONS ON SYSTEMS,MAN,AND CYBERNETICS-PART A:SYSTEMS AND HUMANS》;20110731;第41卷(第4期);第668-677页 * |
基于自动编码器的短文本特征提取及聚类研究;刘勘等;《北京大学学报》;20150331;第51卷(第2期);第282-288页 * |
面向移动社会网络的用户年龄与性别特征识别;李源昊等;《计算机应用》;20160210;第36卷(第2期);第364-371页 * |
Also Published As
Publication number | Publication date |
---|---|
CN106782516A (zh) | 2017-05-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210232761A1 (en) | Methods and systems for improving machine learning performance | |
US20210081611A1 (en) | Methods and systems for language-agnostic machine learning in natural language processing using feature extraction | |
CN111898643B (zh) | 一种语义匹配方法及装置 | |
CN112380853B (zh) | 业务场景交互方法、装置、终端设备及存储介质 | |
CN106782516B (zh) | 语料分类方法及装置 | |
CN107437417B (zh) | 基于循环神经网络语音识别中语音数据增强方法及装置 | |
CN112215008A (zh) | 基于语义理解的实体识别方法、装置、计算机设备和介质 | |
CN111274797A (zh) | 用于终端的意图识别方法、装置、设备及存储介质 | |
CN112633003A (zh) | 一种地址识别方法、装置、计算机设备及存储介质 | |
CN110211562B (zh) | 一种语音合成的方法、电子设备及可读存储介质 | |
CN107516534A (zh) | 一种语音信息的比对方法、装置及终端设备 | |
CN113299282B (zh) | 一种语音识别方法、装置、设备及存储介质 | |
CN112214576B (zh) | 舆情分析方法、装置、终端设备及计算机可读存储介质 | |
CN111767394A (zh) | 一种基于人工智能专家***的摘要提取方法及装置 | |
CN108519998A (zh) | 基于知识图谱的问题引导方法及装置 | |
CN112989041A (zh) | 基于bert的文本数据处理方法及装置 | |
CN112101042A (zh) | 文本情绪识别方法、装置、终端设备和存储介质 | |
CN113641794A (zh) | 简历文本的评估方法、装置及服务器 | |
CN110188798B (zh) | 一种对象分类方法及模型训练方法和装置 | |
CN114090792A (zh) | 基于对比学习的文档关系抽取方法及其相关设备 | |
CN108052686B (zh) | 一种摘要提取方法及相关设备 | |
CN113505595A (zh) | 文本短语抽取方法、装置、计算机设备及存储介质 | |
CN113515620A (zh) | 电力设备技术标准文档排序方法、装置、电子设备和介质 | |
CN117556005A (zh) | 质量评估模型的训练方法、多轮对话质量评估方法和装置 | |
CN110413990A (zh) | 词向量的配置方法、装置、存储介质、电子装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP03 | Change of name, title or address | ||
CP03 | Change of name, title or address |
Address after: Room 101, 1st floor, building 1, Xisanqi building materials City, Haidian District, Beijing 100096 Patentee after: Yunzhisheng Intelligent Technology Co.,Ltd. Address before: 100191 Beijing, Huayuan Road, Haidian District No. 2 peony technology building, 5 floor, A503 Patentee before: BEIJING UNISOUND INFORMATION TECHNOLOGY Co.,Ltd. |