CN111492364A - 数据标注方法、装置及存储介质 - Google Patents
数据标注方法、装置及存储介质 Download PDFInfo
- Publication number
- CN111492364A CN111492364A CN201780097681.XA CN201780097681A CN111492364A CN 111492364 A CN111492364 A CN 111492364A CN 201780097681 A CN201780097681 A CN 201780097681A CN 111492364 A CN111492364 A CN 111492364A
- Authority
- CN
- China
- Prior art keywords
- word
- new
- new words
- words
- corpus
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本申请提供了一种数据标注方法、装置及存储介质,涉及中文信息处理领域,所述数据标注方法包括:从样本语料中确定M个第一备选新词;基于每个第一备选新词的统计信息,或者统计信息和内部属性,通过指定新词打分算法对M个第一备选新词进行打分;基于M个第一备选新词的得分,从M个第一备选新词中确定N个第一种子新词;基于N个第一种子新词对样本语料进行词语标注,得到样本语料中每个字的第一样本标签。本申请通过直接从样本语料中准确地识别出新词,然后基于准确识别的新词对样本语料进行标注,可以避免使用分词工具分词带来的错误,提高词语标注的准确性。
Description
PCT国内申请,说明书已公开。
Claims (20)
- PCT国内申请,权利要求书已公开。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/CN2017/116452 WO2019113938A1 (zh) | 2017-12-15 | 2017-12-15 | 数据标注方法、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111492364A true CN111492364A (zh) | 2020-08-04 |
CN111492364B CN111492364B (zh) | 2022-09-23 |
Family
ID=66819787
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201780097681.XA Active CN111492364B (zh) | 2017-12-15 | 2017-12-15 | 数据标注方法、装置及存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN111492364B (zh) |
WO (1) | WO2019113938A1 (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110502750B (zh) * | 2019-08-06 | 2023-08-11 | 山东师范大学 | 中医文本分词过程中的消歧方法、***、设备及介质 |
CN113268978A (zh) * | 2020-02-17 | 2021-08-17 | 北京搜狗科技发展有限公司 | 一种信息生成方法、装置和电子设备 |
CN111914554A (zh) * | 2020-08-19 | 2020-11-10 | 网易(杭州)网络有限公司 | 领域新词识别模型的训练方法、领域新词识别方法及设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090157384A1 (en) * | 2007-12-12 | 2009-06-18 | Microsoft Corporation | Semi-supervised part-of-speech tagging |
CN102681981A (zh) * | 2011-03-11 | 2012-09-19 | 富士通株式会社 | 自然语言词法分析方法、装置及分析器训练方法 |
CN106033462A (zh) * | 2015-03-19 | 2016-10-19 | 科大讯飞股份有限公司 | 一种新词发现方法及*** |
CN106970904A (zh) * | 2016-01-14 | 2017-07-21 | 北京国双科技有限公司 | 新词发现的方法及装置 |
CN107391486A (zh) * | 2017-07-20 | 2017-11-24 | 南京云问网络技术有限公司 | 一种基于统计信息和序列标注的领域新词识别方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102662930B (zh) * | 2012-04-16 | 2015-04-22 | 乐山师范学院 | 一种语料标注方法及装置 |
US20170039183A1 (en) * | 2015-08-07 | 2017-02-09 | Nec Laboratories America, Inc. | Metric Labeling for Natural Language Processing |
-
2017
- 2017-12-15 CN CN201780097681.XA patent/CN111492364B/zh active Active
- 2017-12-15 WO PCT/CN2017/116452 patent/WO2019113938A1/zh active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090157384A1 (en) * | 2007-12-12 | 2009-06-18 | Microsoft Corporation | Semi-supervised part-of-speech tagging |
CN102681981A (zh) * | 2011-03-11 | 2012-09-19 | 富士通株式会社 | 自然语言词法分析方法、装置及分析器训练方法 |
CN106033462A (zh) * | 2015-03-19 | 2016-10-19 | 科大讯飞股份有限公司 | 一种新词发现方法及*** |
CN106970904A (zh) * | 2016-01-14 | 2017-07-21 | 北京国双科技有限公司 | 新词发现的方法及装置 |
CN107391486A (zh) * | 2017-07-20 | 2017-11-24 | 南京云问网络技术有限公司 | 一种基于统计信息和序列标注的领域新词识别方法 |
Non-Patent Citations (1)
Title |
---|
张海军等: "中文新词识别技术综述", 《计算机科学》 * |
Also Published As
Publication number | Publication date |
---|---|
WO2019113938A1 (zh) | 2019-06-20 |
CN111492364B (zh) | 2022-09-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110717039B (zh) | 文本分类方法和装置、电子设备、计算机可读存储介质 | |
US11403680B2 (en) | Method, apparatus for evaluating review, device and storage medium | |
CN107301170B (zh) | 基于人工智能的切分语句的方法和装置 | |
CN108304375A (zh) | 一种信息识别方法及其设备、存储介质、终端 | |
CN108027814B (zh) | 停用词识别方法与装置 | |
CN110555205B (zh) | 否定语义识别方法及装置、电子设备、存储介质 | |
US20220414463A1 (en) | Automated troubleshooter | |
CN107688630B (zh) | 一种基于语义的弱监督微博多情感词典扩充方法 | |
CN111930792A (zh) | 数据资源的标注方法、装置、存储介质及电子设备 | |
CN111492364B (zh) | 数据标注方法、装置及存储介质 | |
CN112926308B (zh) | 匹配正文的方法、装置、设备、存储介质以及程序产品 | |
US11594054B2 (en) | Document lineage management system | |
CN111177375A (zh) | 一种电子文档分类方法及装置 | |
CN112699645A (zh) | 语料标注方法、装置及设备 | |
CN110263345B (zh) | 关键词提取方法、装置及存储介质 | |
CN113836316B (zh) | 三元组数据的处理方法、训练方法、装置、设备及介质 | |
WO2019163642A1 (ja) | 要約評価装置、方法、プログラム、及び記憶媒体 | |
CN115858776B (zh) | 一种变体文本分类识别方法、***、存储介质和电子设备 | |
CN109300550B (zh) | 医学数据关系挖掘方法及装置 | |
CN111199151A (zh) | 数据处理方法、及数据处理装置 | |
CN107656627B (zh) | 信息输入方法和装置 | |
CN112087473A (zh) | 文档下载方法、装置、计算机可读存储介质和计算机设备 | |
CN111708891B (zh) | 一种多源食材数据之间的食材实体链接方法和装置 | |
CN114492419B (zh) | 基于标注中新增关键词语的文本标注方法、***及装置 | |
EP4239516A1 (en) | Systems and methods for multi-utterance generation of data with immutability regulation and punctuation-memory |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |