CN113948065B - 基于n-gram模型的错误拦截词筛选方法及*** - Google Patents

基于n-gram模型的错误拦截词筛选方法及*** Download PDF

Info

Publication number
CN113948065B
CN113948065B CN202111020788.9A CN202111020788A CN113948065B CN 113948065 B CN113948065 B CN 113948065B CN 202111020788 A CN202111020788 A CN 202111020788A CN 113948065 B CN113948065 B CN 113948065B
Authority
CN
China
Prior art keywords
words
error
text data
interception
gram model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111020788.9A
Other languages
English (en)
Other versions
CN113948065A (zh
Inventor
冉小龙
唐会军
刘拴林
梁堃
陈建
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Nextdata Times Technology Co ltd
Original Assignee
Beijing Nextdata Times Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Nextdata Times Technology Co ltd filed Critical Beijing Nextdata Times Technology Co ltd
Priority to CN202111020788.9A priority Critical patent/CN113948065B/zh
Publication of CN113948065A publication Critical patent/CN113948065A/zh
Application granted granted Critical
Publication of CN113948065B publication Critical patent/CN113948065B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了基于n‑gram模型的错误拦截词筛选方法及***,涉及网络安全技术领域。该方法包括:获取基于特定标签下的拦截词拦截的音频转译文本数据;通过n‑gram模型对文本数据进行处理,从文本数据中筛选出特定标签中没有存储的数据作为回退信息;根据回退信息确定包含错误拦截词的句子。本发明适用于违禁词和敏感词的拦截,尤其是音频转译文本数据的违禁词和敏感词拦截,能够快速找到拦截错误的句子和错误的拦截词,后续可根据得到的错误拦截词对违禁词库进行完善和优化,从而提高对应拦截词的拦截准确率和整体的拦截准确率。

Description

基于n-gram模型的错误拦截词筛选方法及***
技术领域
本发明涉及网络安全技术领域,尤其涉及基于n-gram模型的错误拦截词筛选方法及***。
背景技术
互联网上的内容与日俱增,这些信息常常包含违规非法信息,因此需要对这些内容进行审核和过滤,以保证安全的互联网环境和业务需求。
目前,审核的方式通常是设置违禁词库和用户自定义黑/白词库的方式,对违禁词和敏感词进行拦截。然而,现有的拦截方法仅仅是针对词本身进行拦截,难以挖掘上下文的语义,因此导致拦截的准确率较低,尤其是对于语音转文本的数据拦截,由于存在同音词、发音相近的词和方言等,导致拦截的准确率进一步降低。
发明内容
本发明所要解决的技术问题是针对现有技术的不足,提供基于n-gram模型的错误拦截词筛选***,通过对错误拦截词进行筛选,能够提高对应拦截词的拦截准确率和整体的拦截准确率。
本发明解决上述技术问题的技术方案如下:
一种基于n-gram模型的错误拦截词筛选方法,包括:
获取基于特定标签下的拦截词拦截的音频转译文本数据;
通过n-gram模型对所述文本数据进行处理,从所述文本数据中筛选出所述特定标签中没有存储的数据作为回退信息;
根据所述回退信息确定包含错误拦截词的句子。
本发明解决上述技术问题的另一种技术方案如下:
一种基于n-gram模型的错误拦截词筛选***,包括:
获取单元,用于获取基于特定标签下的拦截词拦截的音频转译文本数据;
处理单元,用于通过n-gram模型对所述文本数据进行处理,从所述文本数据中筛选出所述特定标签中没有存储的数据作为回退信息;
筛选单元,用于根据所述回退信息确定包含错误拦截词的句子。
本发明的有益效果是:本发明提供的错误拦截词筛选方法及***,适用于违禁词和敏感词的拦截,尤其是音频转译文本数据的违禁词和敏感词拦截,通过使用n-gram模型确定回退信息,再根据回退信息确定包含错误拦截词的句子,能够快速找到拦截错误的句子和错误的拦截词,后续可根据得到的错误拦截词对违禁词库进行完善和优化,从而提高对应拦截词的拦截准确率和整体的拦截准确率。
本发明附加的方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明实践了解到。
附图说明
图1为本发明错误拦截词筛选方法的实施例提供的流程示意图;
图2为本发明错误拦截词筛选方法的实施例提供的ppl打分结果示意图;
图3为本发明错误拦截词筛选***的实施例提供的结构框架示意图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实施例只用于解释本发明,并非用于限定本发明的范围。
如图1所示,为本发明错误拦截词筛选方法的实施例提供的流程示意图,该错误拦截词筛选方法基于n-gram模型实现,包括:
S1,获取基于特定标签下的拦截词拦截的音频转译文本数据;
需要说明的是,具体的标签类型可以根据实际的业务需求设置,例如,可以简单的将标签分为3个类别,分别是A领域敏感标签、B领域敏感标签和正常标签,每个类别的标签的拦截词可以根据实际需求设置,例如,A领域敏感标签的拦截词可以为:A1、A2和A3,其中,A1、A2和A3分别为A领域具体的需要拦截的词汇。
而对于音频转译文本数据,可能出现拦截错误,例如,读博与赌博谐音,假设赌博是某特定标签下的拦截词,当音频中出现读博时,如果转换出现错误,将读博转译为赌博,那么就会导致转译得到的文本数据被拦截,从而影响拦截的准确率。
具体地,本领域技术人员可以通过声学模型实现音频转译成文本数据,具体的声学模型可以根据实现需求选择,在此不再赘述。
S2,通过n-gram模型对文本数据进行处理,从文本数据中筛选出特定标签中没有存储的数据作为回退信息;
需要说明的是,n-gram模型是一个预测当前词仅与前n-1个词相关的一个概率模型。它的基本思想是将文本里面的内容按照字节进行大小为n的滑动窗口操作,形成了长度是n的字节片段序列。
每一个字节片段称为gram,对所有gram的出现频度进行统计,并且按照事先设定好的阈值进行过滤,形成关键gram列表,也就是这个文本的向量特征空间,列表中的每一种gram就是一个特征向量维度。
该模型基于这样一种假设,第n个词的出现只与前面n-1个词相关,而与其它任何词都不相关,整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计n个词同时出现的次数得到。
例如,假设对于法律法规方面的标签,可以基于其规定的拦截词对设计法律标签的文本进行拦截,那么可以通过步骤S1基于ASR转译出的拦截文本示例“来了,我知道今天,我就今,罪犯来过一次”,然后将其进行处理后,得到“来 了 我 知道 今天 我 就 今 罪犯来过 一次”,然后使用4-gram语言模型对这条处理后的句子进行ppl打分,得到的结果如图2所示。
图2中,每一行表示计算到该词的概率,例如,以p(我|了…)为例,其计算得到“我”这个词的概率为0.0452354,因为这是一个4gram,只与前3个词相关。
等号后面,第一列[xgram]是表示计算到该词时,使用的是 xgram 的概率,如果这里显示为1gram,就证明该模型的训练语料中没有对应的句子,或者是词组。该词出现就是一个纯概率的比拼,当n-gram语言模型的训练数据含有较多的特定标签的拦截词时,回退到1gram就会造成该特定标签的拦截词的准确率下降;针对这种现象,本发明提出这种筛选数据方案来优化标签的准确率。
S3,根据回退信息确定包含错误拦截词的句子。
例如,可以通过回退信息筛选文本内饰件,得到包含错误拦截词的句子。
本实施例提供的错误拦截词筛选方法及***,适用于违禁词和敏感词的拦截,尤其是音频转译文本数据的违禁词和敏感词拦截,通过使用n-gram模型确定回退信息,再根据回退信息确定包含错误拦截词的句子,能够快速找到拦截错误的句子和错误的拦截词,后续可根据得到的错误拦截词对违禁词库进行完善和优化,从而提高对应拦截词的拦截准确率和整体的拦截准确率。
可选地,在一些可能的实施方式中,通过n-gram模型对文本数据进行处理,从文本数据中筛选出特定标签中没有存储的数据作为回退信息,具体包括:
对文本数据进行预处理;
通过n-gram模型对预处理后的文本数据进行ppl打分;
根据ppl打分结果,将1-gram对应的数据作为回退信息;
其中,预处理的方式与训练n-gram模型时对训练数据的处理方式相同。
应理解,如果现实为1gram,如图2所述,表明罪犯这个词在法律标签的领域没有对应的句子或词组,那么罪犯这个词的出现就是纯概率的问题,因此,可以使用每条句子对应拦截词筛选出拦截词回退到1gram的句子,从而优化法律标签下的拦截准确率。
需要说明的是,为了使n-gram模型能够准确地识别文本数据,通常在输入到n-gram模型之前,需要对输入的数据进行预处理,例如,以“来了,我知道今天,我就今,罪犯来过一次”为例,需要对该句子进行词汇的拆分,得到“来 了 我 知道 今天 我 就 今 罪犯来过 一次”,因此,在对数据进行处理时,需要采用与训练时相同的预处理方式,对输入的文本数据进行处理。
通过对文本数据进行预处理,能够提高n-gram模型的处理效率和准确率。
可选地,在一些可能的实施方式中,根据回退信息确定包含错误拦截词的句子,具体包括:
使用文本数据中每条句子对应的拦截词筛选出拦截词回退到1gram的句子。
可选地,在一些可能的实施方式中,还包括:
对筛选出的包含错误拦截词的句子进行标注,加入声学训练。
通过对筛选出的包含错误拦截词的句子进行标注,进行声学训练,能够使后续模型遇到该类句子能转译更加准确。
可选地,在一些可能的实施方式中,对筛选出的包含错误拦截词的句子进行标注,加入声学训练,具体包括:
对筛选出的包含错误拦截词的句子进行修改,使包含错误拦截词的句子与被转译的音频内容相同;
通过标注后的包含错误拦截词的句子训练声学模型。
可以理解,在一些实施例中,可以包含如上述各实施方式中的部分或全部。
如图3所示,为本发明错误拦截词筛选***的实施例提供的结构框架示意图,该错误拦截词筛选***基于n-gram模型实现,包括:
获取单元10,用于获取基于特定标签下的拦截词拦截的音频转译文本数据;
处理单元20,用于通过n-gram模型对文本数据进行处理,从文本数据中筛选出特定标签中没有存储的数据作为回退信息;
筛选单元30,用于根据回退信息确定包含错误拦截词的句子。
本实施例提供的错误拦截词筛选方法及***,适用于违禁词和敏感词的拦截,尤其是音频转译文本数据的违禁词和敏感词拦截,通过使用n-gram模型确定回退信息,再根据回退信息确定包含错误拦截词的句子,能够快速找到拦截错误的句子和错误的拦截词,后续可根据得到的错误拦截词对违禁词库进行完善和优化,从而提高对应拦截词的拦截准确率和整体的拦截准确率。
可选地,在一些可能的实施方式中,处理单元20具体用于对文本数据进行预处理;
通过n-gram模型对预处理后的文本数据进行ppl打分;
根据ppl打分结果,将1-gram对应的数据作为回退信息;
其中,预处理的方式与训练n-gram模型时对训练数据的处理方式相同。
可选地,在一些可能的实施方式中,筛选单元30具体用于使用文本数据中每条句子对应的拦截词筛选出拦截词回退到1gram的句子。
可选地,在一些可能的实施方式中,还包括:
训练单元,用于对筛选出的包含错误拦截词的句子进行标注,加入声学训练。
可选地,在一些可能的实施方式中,训练单元具体用于对筛选出的包含错误拦截词的句子进行修改,使包含错误拦截词的句子与被转译的音频内容相同;
通过标注后的包含错误拦截词的句子训练声学模型。
可以理解,在一些实施例中,可以包含如上述各实施方式中的部分或全部。
需要说明的是,上述各实施方式是与在先方法实施例对应的产品实施例,对于产品实施方式的说明可以参考上述各方法实施方式中的对应说明,在此不再赘述。
读者应理解,在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的方法实施例仅仅是示意性的,例如,步骤的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个步骤可以结合或者可以集成到另一个步骤,或一些特征可以忽略,或不执行。
上述方法如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (8)

1.一种基于n-gram模型的错误拦截词筛选方法,其特征在于,包括:
获取基于特定标签下的拦截词拦截的音频转译文本数据;
通过n-gram模型对所述文本数据进行处理,从所述文本数据中筛选出所述特定标签中没有存储的数据作为回退信息;
根据所述回退信息确定包含错误拦截词的句子;
通过n-gram模型对所述文本数据进行处理,从所述文本数据中筛选出所述特定标签中没有存储的数据作为回退信息,具体包括:
对所述文本数据进行预处理;
通过n-gram模型对预处理后的所述文本数据进行ppl打分;
根据ppl打分结果,将1-gram对应的数据作为回退信息;
其中,所述预处理的方式与训练所述n-gram模型时对训练数据的处理方式相同。
2.根据权利要求1所述的基于n-gram模型的错误拦截词筛选方法,其特征在于,根据所述回退信息确定包含错误拦截词的句子,具体包括:
使用所述文本数据中每条句子对应的拦截词筛选出拦截词回退到1gram的句子。
3.根据权利要求1或2所述的基于n-gram模型的错误拦截词筛选方法,其特征在于,还包括:
对筛选出的包含错误拦截词的句子进行标注,加入声学训练。
4.根据权利要求3所述的基于n-gram模型的错误拦截词筛选方法,其特征在于,对筛选出的包含错误拦截词的句子进行标注,加入声学训练,具体包括:
对筛选出的包含错误拦截词的句子进行修改,使所述包含错误拦截词的句子与被转译的音频内容相同;
通过标注后的所述包含错误拦截词的句子训练声学模型。
5.一种基于n-gram模型的错误拦截词筛选***,其特征在于,包括:
获取单元,用于获取基于特定标签下的拦截词拦截的音频转译文本数据;
处理单元,用于通过n-gram模型对所述文本数据进行处理,从所述文本数据中筛选出所述特定标签中没有存储的数据作为回退信息;
筛选单元,用于根据所述回退信息确定包含错误拦截词的句子;
所述处理单元具体用于对所述文本数据进行预处理;
通过n-gram模型对预处理后的所述文本数据进行ppl打分;
根据ppl打分结果,将1-gram对应的数据作为回退信息;
其中,所述预处理的方式与训练所述n-gram模型时对训练数据的处理方式相同。
6.根据权利要求5所述的基于n-gram模型的错误拦截词筛选***,其特征在于,所述筛选单元具体用于使用所述文本数据中每条句子对应的拦截词筛选出拦截词回退到1gram的句子。
7.根据权利要求5或6所述的基于n-gram模型的错误拦截词筛选***,其特征在于,还包括:
训练单元,用于对筛选出的包含错误拦截词的句子进行标注,加入声学训练。
8.根据权利要求7所述的基于n-gram模型的错误拦截词筛选***,其特征在于,所述训练单元具体用于对筛选出的包含错误拦截词的句子进行修改,使所述包含错误拦截词的句子与被转译的音频内容相同;
通过标注后的所述包含错误拦截词的句子训练声学模型。
CN202111020788.9A 2021-09-01 2021-09-01 基于n-gram模型的错误拦截词筛选方法及*** Active CN113948065B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111020788.9A CN113948065B (zh) 2021-09-01 2021-09-01 基于n-gram模型的错误拦截词筛选方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111020788.9A CN113948065B (zh) 2021-09-01 2021-09-01 基于n-gram模型的错误拦截词筛选方法及***

Publications (2)

Publication Number Publication Date
CN113948065A CN113948065A (zh) 2022-01-18
CN113948065B true CN113948065B (zh) 2022-07-08

Family

ID=79327642

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111020788.9A Active CN113948065B (zh) 2021-09-01 2021-09-01 基于n-gram模型的错误拦截词筛选方法及***

Country Status (1)

Country Link
CN (1) CN113948065B (zh)

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101655837A (zh) * 2009-09-08 2010-02-24 北京邮电大学 一种对语音识别后文本进行检错并纠错的方法
CN107204184A (zh) * 2017-05-10 2017-09-26 平安科技(深圳)有限公司 语音识别方法及***
CN107705787A (zh) * 2017-09-25 2018-02-16 北京捷通华声科技股份有限公司 一种语音识别方法及装置
CN109151218A (zh) * 2018-08-21 2019-01-04 平安科技(深圳)有限公司 通话语音质检方法、装置、计算机设备及存储介质
CN110134952A (zh) * 2019-04-29 2019-08-16 华南师范大学 一种错误文本拒识方法、装置及存储介质
CN110162767A (zh) * 2018-02-12 2019-08-23 北京京东尚科信息技术有限公司 文本纠错的方法和装置
CN110442870A (zh) * 2019-08-02 2019-11-12 深圳市珍爱捷云信息技术有限公司 文本纠错方法、装置、计算机设备和存储介质
CN110600011A (zh) * 2018-06-12 2019-12-20 ***通信有限公司研究院 一种语音识别方法、装置和计算机可读存储介质
CN111312209A (zh) * 2020-02-21 2020-06-19 北京声智科技有限公司 文本到语音的转换处理方法、装置及电子设备
CN111326144A (zh) * 2020-02-28 2020-06-23 网易(杭州)网络有限公司 语音数据处理方法、装置、介质和计算设备
CN111369996A (zh) * 2020-02-24 2020-07-03 网经科技(苏州)有限公司 一种特定领域的语音识别文本纠错方法
CN112447172A (zh) * 2019-08-12 2021-03-05 云号(北京)科技有限公司 一种语音识别文本的质量提升方法和装置
CN112489655A (zh) * 2020-11-18 2021-03-12 元梦人文智能国际有限公司 一种特定领域的语音识别文本纠错方法、***和存储介质
CN112989806A (zh) * 2021-04-07 2021-06-18 广州伟宏智能科技有限公司 一种智能化文本纠错模型训练方法

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101655837A (zh) * 2009-09-08 2010-02-24 北京邮电大学 一种对语音识别后文本进行检错并纠错的方法
CN107204184A (zh) * 2017-05-10 2017-09-26 平安科技(深圳)有限公司 语音识别方法及***
CN107705787A (zh) * 2017-09-25 2018-02-16 北京捷通华声科技股份有限公司 一种语音识别方法及装置
CN110162767A (zh) * 2018-02-12 2019-08-23 北京京东尚科信息技术有限公司 文本纠错的方法和装置
CN110600011A (zh) * 2018-06-12 2019-12-20 ***通信有限公司研究院 一种语音识别方法、装置和计算机可读存储介质
CN109151218A (zh) * 2018-08-21 2019-01-04 平安科技(深圳)有限公司 通话语音质检方法、装置、计算机设备及存储介质
CN110134952A (zh) * 2019-04-29 2019-08-16 华南师范大学 一种错误文本拒识方法、装置及存储介质
CN110442870A (zh) * 2019-08-02 2019-11-12 深圳市珍爱捷云信息技术有限公司 文本纠错方法、装置、计算机设备和存储介质
CN112447172A (zh) * 2019-08-12 2021-03-05 云号(北京)科技有限公司 一种语音识别文本的质量提升方法和装置
CN111312209A (zh) * 2020-02-21 2020-06-19 北京声智科技有限公司 文本到语音的转换处理方法、装置及电子设备
CN111369996A (zh) * 2020-02-24 2020-07-03 网经科技(苏州)有限公司 一种特定领域的语音识别文本纠错方法
CN111326144A (zh) * 2020-02-28 2020-06-23 网易(杭州)网络有限公司 语音数据处理方法、装置、介质和计算设备
CN112489655A (zh) * 2020-11-18 2021-03-12 元梦人文智能国际有限公司 一种特定领域的语音识别文本纠错方法、***和存储介质
CN112989806A (zh) * 2021-04-07 2021-06-18 广州伟宏智能科技有限公司 一种智能化文本纠错模型训练方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
信息检索中的中文分词问题研究;吴凡;《情报杂志》;20080731;全文 *
面向领域的语音转换后文本纠错研究;张俊祺;《中国优秀硕士学位论文全文数据库 信息科技辑》;20200131;第24-37页 *

Also Published As

Publication number Publication date
CN113948065A (zh) 2022-01-18

Similar Documents

Publication Publication Date Title
CN107247707B (zh) 基于补全策略的企业关联关系信息提取方法和装置
US7574349B2 (en) Statistical language-model based system for detection of missing attachments
US8463598B2 (en) Word detection
US5887120A (en) Method and apparatus for determining theme for discourse
US8538743B2 (en) Disambiguating text that is to be converted to speech using configurable lexeme based rules
US8650187B2 (en) Systems and methods for linked event detection
JP2012529108A (ja) ライティングシステム及び言語の検出
JP2007265458A (ja) 複数の圧縮オプションを生成する方法およびコンピュータ
US8639496B2 (en) System and method for identifying phrases in text
US20110144992A1 (en) Unsupervised learning using global features, including for log-linear model word segmentation
EP1627325B1 (en) Automatic segmentation of texts comprising chunks without separators
US11386269B2 (en) Fault-tolerant information extraction
Ekbal et al. Maximum entropy based Bengali part of speech tagging
US10120843B2 (en) Generation of parsable data for deep parsing
US8880391B2 (en) Natural language processing apparatus, natural language processing method, natural language processing program, and computer-readable recording medium storing natural language processing program
US20100104188A1 (en) Systems And Methods For Defining And Processing Text Segmentation Rules
WO2022256144A1 (en) Application-specific optical character recognition customization
CN111062208A (zh) 一种文件审核的方法、装置、设备及存储介质
CN117744633A (zh) 一种文本纠错方法、装置及电子设备
CN113948065B (zh) 基于n-gram模型的错误拦截词筛选方法及***
CN112699671A (zh) 一种语言标注方法、装置、计算机设备和存储介质
CN112136136A (zh) 输入错误检测装置、输入错误检测方法及输入错误检测程序
WO2008131509A1 (en) Systems and methods for improving translation systems
US12008305B2 (en) Learning device, extraction device, and learning method for tagging description portions in a document
Olinsky et al. Non-standard word and homograph resolution for asian language text analysis.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant