CN112487798A - 基于知识图谱的文本高效精准噪词处理方法 - Google Patents

基于知识图谱的文本高效精准噪词处理方法 Download PDF

Info

Publication number
CN112487798A
CN112487798A CN202011422655.XA CN202011422655A CN112487798A CN 112487798 A CN112487798 A CN 112487798A CN 202011422655 A CN202011422655 A CN 202011422655A CN 112487798 A CN112487798 A CN 112487798A
Authority
CN
China
Prior art keywords
text
words
word
knowledge
filtering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011422655.XA
Other languages
English (en)
Inventor
李抒雁
沙涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Shixiang Culture Communication Co ltd
Original Assignee
Shanghai Shixiang Culture Communication Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Shixiang Culture Communication Co ltd filed Critical Shanghai Shixiang Culture Communication Co ltd
Priority to CN202011422655.XA priority Critical patent/CN112487798A/zh
Publication of CN112487798A publication Critical patent/CN112487798A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明公开了基于知识图谱的文本高效精准噪词处理方法,包括如下步骤:S1、搭建需过滤词词库、搭建业务知识图谱添加业务相关词的各种同音词;S2、给以上每个词添加权重;S3、通过分词工具对文本进行分词;S4、先通过业务知识图谱将文本同音词矫正为业务词并记录所有文本出现的业务词;S5、矫正后的文本匹配过滤词,但记录的业务词保留不受过滤影响;S6、输出过滤后文本,本发明过滤文本数据,精确稳定可以灵活拓展和实时修改,能克服文本多音同义词的干扰,过滤噪词的同时完好保留句意,在口语转文本的场景提供了高效精准的噪词过滤处理能力。

Description

基于知识图谱的文本高效精准噪词处理方法
技术领域
本发明涉及知识图谱技术领域,具体为基于知识图谱的文本高效精准噪词处理方法。
背景技术
知识图谱(Knowledge Graph),在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系,知识图谱,是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论,知识图谱,它能为学科研究提供切实的、有价值的参考;
但是目前的高效精准噪词处理方法在敏感词过滤通过完整的敏感词词库和文本单词进行匹配,在文本发现敏感词会将该词从文本过滤掉,并且只关注敏感词,口语环境中很多语音助词属于噪词,没有针对口语转文本的噪词过滤能力,同音同义词在过滤时容易处理不当误删除或漏删除,影响句意。
发明内容
本发明提供基于知识图谱的文本高效精准噪词处理方法,可以有效解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:基于知识图谱的文本高效精准噪词处理方法,包括如下步骤:
S1、搭建需过滤词词库、搭建业务知识图谱添加业务相关词的各种同音词;
S2、给以上每个词添加权重;
S3、通过分词工具对文本进行分词;
S4、先通过业务知识图谱将文本同音词矫正为业务词并记录所有文本出现的业务词;
S5、矫正后的文本匹配过滤词,但记录的业务词保留不受过滤影响;
S6、输出过滤后文本。
根据上述技术方案,所述S1中过滤词词库与网络数据相连,并对于词库进行分类,包括政权、色情、暴力、近义和隐晦型词语,并对于其进行交叉语义交织网络的建立。
根据上述技术方案,所述S1中知识图谱记录了各种标签、概念、实体的关系;
所述知识图谱添加业务相关词,与过滤词词库相互引用,并对于重叠性词语进行标记,而且分析词语其后关系,是否产生新的词义,从而避免词语错误。
根据上述技术方案,所述S2中权重通过打分法、统计法、序列综合法、公式法、数理统计法、层次分析法和复杂度分析法中的一种或多种配合使用。
根据上述技术方案,所述S3中分词工具是根据语法统计规则或自定义词典将文本切分成单词片段工具,从而将词语分为1-5字的组合词语。
根据上述技术方案,所述S4中通过知识图谱与文本进行词语对照,并与过滤词相互对比,去除过滤词语,而一些分段型词语,进行分离与备注。
根据上述技术方案,所述S5中记录的业务词依然进行保存,接着引入到过滤词词库中,配合过滤词库进行筛选,同时配合文本匹配过滤词,从而降低错误率。
根据上述技术方案,所述S6中输出过滤后文本后需要人工进行判断的,需要进行批注,并对于词语进行标注、着色,待审阅人员同意后进行确定。
与现有技术相比,本发明的有益效果:本发明过滤文本数据,精确稳定可以灵活拓展和实时修改,能克服文本多音同义词的干扰,过滤噪词的同时完好保留句意,在口语转文本的场景提供了高效精准的噪词过滤处理能力。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。
在附图中:
图1是本发明的结构示意图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
实施例1:
如图1所示,本发明提供技术方案,基于知识图谱的文本高效精准噪词处理方法,包括如下步骤:
S1、搭建需过滤词词库、搭建业务知识图谱添加业务相关词的各种同音词;
S2、给以上每个词添加权重;
S3、通过分词工具对文本进行分词;
S4、先通过业务知识图谱将文本同音词矫正为业务词并记录所有文本出现的业务词;
S5、矫正后的文本匹配过滤词,但记录的业务词保留不受过滤影响;
S6、输出过滤后文本。
根据上述技术方案,S1中过滤词词库与网络数据相连,并对于词库进行分类,包括政权、色情、暴力、近义和隐晦型词语,并对于其进行交叉语义交织网络的建立。
根据上述技术方案,S1中知识图谱记录了各种标签、概念、实体的关系;
知识图谱添加业务相关词,与过滤词词库相互引用,并对于重叠性词语进行标记,而且分析词语其后关系,是否产生新的词义,从而避免词语错误。
根据上述技术方案,S2中权重通过打分法、统计法、序列综合法、公式法、数理统计法、层次分析法和复杂度分析法中的一种或多种配合使用。
根据上述技术方案,S3中分词工具是根据语法统计规则或自定义词典将文本切分成单词片段工具,从而将词语分为1-5字的组合词语。
根据上述技术方案,S4中通过知识图谱与文本进行词语对照,并与过滤词相互对比,去除过滤词语,而一些分段型词语,进行分离与备注。
根据上述技术方案,S5中记录的业务词依然进行保存,接着引入到过滤词词库中,配合过滤词库进行筛选,同时配合文本匹配过滤词,从而降低错误率。
根据上述技术方案,S6中输出过滤后文本后需要人工进行判断的,需要进行批注,并对于词语进行标注、着色,待审阅人员同意后进行确定。
实施例2:
本发明提供技术方案,基于知识图谱的文本高效精准噪词处理方法:
S1、搭建需过滤词词库、搭建业务知识图谱添加业务相关词的各种同音词,过滤词库最好分类可提高复用性;
S2、给以上每个词添加权重;
S3、通过分词工具对文本进行分词,调节切词效果:
词权重:["收集"200,"集中"100]
文本:“喜欢收集中国自主创新的产品”
切词结果:“喜欢--收集--中国--自主--创新--的--产品”;
S4、先通过业务知识图谱将文本同音词矫正为业务词并记录所有文本出现的业务词:
文本:“嗯哈,我喜欢哈尔滨秋天大一的温暖”
结果:“嗯哈,我喜欢哈尔滨秋天大衣的温暖”[哈尔滨][大衣];
S5、矫正后的文本匹配过滤词,但记录的业务词保留不受过滤影响:
输入:“嗯哈,我喜欢哈尔滨秋天大衣的温暖”[哈尔滨][大衣]
噪词过滤:“我喜欢哈尔滨秋天大衣的温暖”;
6.输出过滤后文本。
与现有技术相比,本发明的有益效果:本发明过滤文本数据,精确稳定可以灵活拓展和实时修改,能克服文本多音同义词的干扰,过滤噪词的同时完好保留句意,在口语转文本的场景提供了高效精准的噪词过滤处理能力。
最后应说明的是:以上所述仅为本发明的优选实例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.基于知识图谱的文本高效精准噪词处理方法,其特征在于:包括如下步骤:
S1、搭建需过滤词词库、搭建业务知识图谱添加业务相关词的各种同音词;
S2、给以上每个词添加权重;
S3、通过分词工具对文本进行分词;
S4、先通过业务知识图谱将文本同音词矫正为业务词并记录所有文本出现的业务词;
S5、矫正后的文本匹配过滤词,但记录的业务词保留不受过滤影响;
S6、输出过滤后文本。
2.根据权利要求1所述的基于知识图谱的文本高效精准噪词处理方法,其特征在于,所述S1中过滤词词库与网络数据相连,并对于词库进行分类,包括政权、色情、暴力、近义和隐晦型词语,并对于其进行交叉语义交织网络的建立。
3.根据权利要求1所述的基于知识图谱的文本高效精准噪词处理方法,其特征在于,所述S1中知识图谱记录了各种标签、概念、实体的关系;
所述知识图谱添加业务相关词,与过滤词词库相互引用,并对于重叠性词语进行标记,而且分析词语其后关系,是否产生新的词义,从而避免词语错误。
4.根据权利要求1所述的基于知识图谱的文本高效精准噪词处理方法,其特征在于,所述S2中权重通过打分法、统计法、序列综合法、公式法、数理统计法、层次分析法和复杂度分析法中的一种或多种配合使用。
5.根据权利要求1所述的基于知识图谱的文本高效精准噪词处理方法,其特征在于,所述S3中分词工具是根据语法统计规则或自定义词典将文本切分成单词片段工具,从而将词语分为1-5字的组合词语。
6.根据权利要求1所述的基于知识图谱的文本高效精准噪词处理方法,其特征在于,所述S4中通过知识图谱与文本进行词语对照,并与过滤词相互对比,去除过滤词语,而一些分段型词语,进行分离与备注。
7.根据权利要求1所述的基于知识图谱的文本高效精准噪词处理方法,其特征在于,所述S5中记录的业务词依然进行保存,接着引入到过滤词词库中,配合过滤词库进行筛选,同时配合文本匹配过滤词,从而降低错误率。
8.根据权利要求1所述的基于知识图谱的文本高效精准噪词处理方法,其特征在于,所述S6中输出过滤后文本后需要人工进行判断的,需要进行批注,并对于词语进行标注、着色,待审阅人员同意后进行确定。
CN202011422655.XA 2020-12-08 2020-12-08 基于知识图谱的文本高效精准噪词处理方法 Pending CN112487798A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011422655.XA CN112487798A (zh) 2020-12-08 2020-12-08 基于知识图谱的文本高效精准噪词处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011422655.XA CN112487798A (zh) 2020-12-08 2020-12-08 基于知识图谱的文本高效精准噪词处理方法

Publications (1)

Publication Number Publication Date
CN112487798A true CN112487798A (zh) 2021-03-12

Family

ID=74940713

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011422655.XA Pending CN112487798A (zh) 2020-12-08 2020-12-08 基于知识图谱的文本高效精准噪词处理方法

Country Status (1)

Country Link
CN (1) CN112487798A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050071152A1 (en) * 2003-09-29 2005-03-31 Hitachi, Ltd. Cross lingual text classification apparatus and method
CN106055541A (zh) * 2016-06-29 2016-10-26 清华大学 一种新闻内容敏感词过滤方法及***
CN109146610A (zh) * 2018-07-16 2019-01-04 众安在线财产保险股份有限公司 一种智能保险推荐方法、装置及智能保险机器人设备
CN110176237A (zh) * 2019-07-09 2019-08-27 北京金山数字娱乐科技有限公司 一种语音识别方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050071152A1 (en) * 2003-09-29 2005-03-31 Hitachi, Ltd. Cross lingual text classification apparatus and method
CN106055541A (zh) * 2016-06-29 2016-10-26 清华大学 一种新闻内容敏感词过滤方法及***
CN109146610A (zh) * 2018-07-16 2019-01-04 众安在线财产保险股份有限公司 一种智能保险推荐方法、装置及智能保险机器人设备
CN110176237A (zh) * 2019-07-09 2019-08-27 北京金山数字娱乐科技有限公司 一种语音识别方法及装置

Similar Documents

Publication Publication Date Title
US7636657B2 (en) Method and apparatus for automatic grammar generation from data entries
CN106096664B (zh) 一种基于社交网络数据的情感分析方法
CN105975625A (zh) 一种面向英文搜索引擎的中式英文查询纠错方法和***
CN107463553A (zh) 针对初等数学题目的文本语义抽取、表示与建模方法和***
CN107392143A (zh) 一种基于svm文本分类的简历精确解析方法
CN105988990A (zh) 用于汉语中的零指代消解的装置和方法以及模型训练方法
US11163806B2 (en) Obtaining candidates for a relationship type and its label
CN105893414A (zh) 筛选发音词典有效词条的方法及装置
CN109740159B (zh) 用于命名实体识别的处理方法及装置
CN106294326B (zh) 一种新闻报道情感倾向分析方法
CN106294466A (zh) 分类模型构建方法、分类模型构建设备和分类方法
CN107818082B (zh) 结合短语结构树的语义角色识别方法
CN108681529B (zh) 一种流程模型图的多语言文本及语音生成方法
CN114065738B (zh) 基于多任务学习的中文拼写纠错方法
CN107392433A (zh) 一种提取企业关联关系信息的方法和装置
CN110175585A (zh) 一种简答题自动批改***及方法
JP2014137722A (ja) 規則生成装置及び抽出装置
CN102955775A (zh) 基于上下文语义的外国人名自动识别控制方法
CN107256212A (zh) 中文搜索词智能切分方法
Maier et al. Discontinuity and non-projectivity: Using mildly context-sensitive formalisms for data-driven parsing
CN110175337B (zh) 一种文本展示方法及装置
CN112487798A (zh) 基于知识图谱的文本高效精准噪词处理方法
CN109902299B (zh) 一种文本处理方法及装置
CN115688703B (zh) 一种特定领域文本纠错方法、存储介质和装置
CN110515926A (zh) 基于分词和语义依存分析的异构数据源海量数据梳理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination