CN108984529A - 实时庭审语音识别自动纠错方法、存储介质及计算装置 - Google Patents

实时庭审语音识别自动纠错方法、存储介质及计算装置 Download PDF

Info

Publication number
CN108984529A
CN108984529A CN201810778161.1A CN201810778161A CN108984529A CN 108984529 A CN108984529 A CN 108984529A CN 201810778161 A CN201810778161 A CN 201810778161A CN 108984529 A CN108984529 A CN 108984529A
Authority
CN
China
Prior art keywords
hot word
speech recognition
court
trial
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810778161.1A
Other languages
English (en)
Other versions
CN108984529B (zh
Inventor
邓承超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING THUNISOFT INFORMATION TECHNOLOGY Co Ltd
Original Assignee
BEIJING THUNISOFT INFORMATION TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING THUNISOFT INFORMATION TECHNOLOGY Co Ltd filed Critical BEIJING THUNISOFT INFORMATION TECHNOLOGY Co Ltd
Priority to CN201810778161.1A priority Critical patent/CN108984529B/zh
Publication of CN108984529A publication Critical patent/CN108984529A/zh
Application granted granted Critical
Publication of CN108984529B publication Critical patent/CN108984529B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

提供了一种计算机执行的实时庭审语音识别自动纠错方法、计算机可读存储介质和计算装置,该方法包括:实时响应于检测到庭审***中用户对语音识别出的文字进行的修改操作,发现热词并添加到热词库中;实时对庭审语音进行识别;以及实时对识别出的文字进行热词匹配操作,以及进行热词替换。根据本发明实施例的庭审语音识别***运行过程中实时地自动地发现热词以及构建并更新热词库,从而实现了庭审***的自学习功能;通过在热词存储和热词替换上使用ts_code技术,通过模糊音配置可针对不同的口音,自动生成不同的设置,从而能够简捷高效地实现多种地方口音导致语音识别错误的纠正问题。

Description

实时庭审语音识别自动纠错方法、存储介质及计算装置
技术领域
本发明总体地涉及法庭上的语音识别技术,特别是涉及计算机执行的实时庭审语音识别自动纠错方法、存储介质和计算装置。
背景技术
随着人工智能的技术性突破,越来越多与人工智能相关的产品被应用在人们的生活当中,庭审语音识别***便是在法律工作者行业中的一项应用,这其中涉及到自然语音处理和语音识别技术的混合应用。
自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语音处理涉及自动分词、词性标注、句法分析、自然语音生成等技术。
语音识别技术,也被称为自动语音识别Automatic Speech Recognition, (ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。通过语音识别引擎,能够将庭审过程中所有相关人员的语音转换为计算机可显示的文本文字。
总的来说,通过语音识别技术,能够极大的解放庭审书记员的工作量,但是对于机器,乃至人来说,一个人、一个机构、一个公司的名字,具体是哪几个汉字,如果没有提前告知,是无法知道的。这导致每次通过语音识别得到文本后,书记员不得不又重新梳理文章,将庭审记录中所有的出现名字的地方重新替换为正确的人名,这无疑增加了书记员的工作量。
目前一些语音识别引擎有相关热词功能,通常是用户事先将可能会识别错误的词发送给语音识别引擎,引擎分析这几个词的发音和音频。最后将这几个词的热词模型更新在语音识别模型中。目前大多数语音识别引擎的热词都是通过这种方法实现。
现有技术具有下面的一个或多个缺点:
(1)需要用户手动设置热词,增加用户工作量;
(2)具有一定的延迟性,热词需要等待一等时间才能生效;
(3)无法解决地方性方言问题,如果用户只是某些词发音不准,那么现有技术方案会完全失效;
(4)热词数量有一定的限制,如果热词设置过量,可能会打破语音识别引擎的原本的模型,因此现有语音识别引擎对热词的设置对热词长度和数量都有一定限制;
(5)无法自动排版,比如在识别到中华人民共和国合同法的时候,无法自动添加标点符号。
法庭庭审***需要能更好地识别热词以及进行语音纠错的技术。
发明内容
鉴于上述情况,提出了本发明。
根据本发明的一个方面,提供了一种计算机执行的实时庭审语音识别自动纠错方法,包括:实时响应于检测到庭审***中用户对语音识别出的文字进行的修改操作,发现热词并添加到热词库中;实时对庭审语音进行识别;以及实时对识别出的文字进行热词匹配操作,以及进行热词替换。
可选地,发现热词并添加到热词库中可以包括:基于语音识别的文本以及基于庭审***中用户对该语音识别结果进行的修改返回的文本,利用自然语言处理技术对语音识别的文本进行分词和词性分析;确定被修改的词汇,以及判断所述词汇的词性是否符合预定标准;在确定被修改的词汇的词性符合预定标准时,将修改后的词汇加入热词列表中。
可选地,所述预定标准为词汇的词性为人名,其中当确定被修改的词汇的词性为人名时,将修改后的词汇加入热词列表中。
可选地,所述将修改后的词汇加入热词列表中包括:得到词汇的 ts_code,以及将词汇的ts_code和词汇相关联地存储。
可选地,实时对识别出的文字进行热词匹配操作,并进行热词替换包括:将实时对庭审语音进行识别获得的文本转换为对应这段文本的ts_code,将这段文本的ts_code与热词列表中的各个热词的ts_code进行对比,判断是否存在确定的热词;在判定存在确定的热词的情况下,基于候选被替换的词汇与热词之间的词性和词意是否一致的分析,决策是否进行热词替换;在决策结果为进行热词替换的情况下,进行热词替换。
可选地,采用hashmap进行热词的存取。
可选地,实时庭审语音识别自动纠错方法还可以包括:基于自然语言处理技术对句子进行的分词和词汇分析,以及基于检测用户对词汇进行的标点符号添加操作,自动对相同的词汇进行标点符号添加。
根据本发明的另一方面,还提供了一种计算机可读的存储介质,其上存储有计算机可读指令,所述指令当被计算机执行时,可操作来执行上述实时庭审语音识别自动纠错方法。
根据本发明的另一方面,还提供了一种计算装置,包括处理器和存储器,存储器上存储有计算机可读指令,所述指令当被处理器执行时,可操作来执行实时庭审语音识别自动纠错方法。
根据本发明的再一方面,还提供了一种计算机执行的实时庭审语音识别自动纠错方法,包括:接收实时庭审语音识别得到的语音识别初始文本;接收用户对实时庭审语音识别结果修改后的语音识别修改文本;基于语音识别初始文本和语音识别修改文本,发现热词,并添加到热词库中;继续接收实时庭审语音识别得到的后续语音识别初始文本;以及对该后续语音识别初始文本进行热词匹配和热词替换。
根据本发明实施例的庭审语音识别***运行过程中实时地自动地发现热词以及构建并更新热词库,从而实现了庭审***的自学习功能;通过在热词存储和热词替换上使用ts_code技术,通过模糊音配置可针对不同的口音,自动生成不同的设置,从而能够简捷高效地实现多种地方口音导致语音识别错误的纠正问题。
附图说明
从下面结合附图对本发明实施例的详细描述中,本发明的这些和/或其它方面和优点将变得更加清楚并更容易理解,其中:
图1示出了根据本发明第一实施例的计算机执行的实时庭审语音识别自动纠错方法100的总体流程图。
图2示出了根据本发明第一实施例的庭审中实时发现热词的过程的示意图。
图3示出了针对ts-code编码的模糊音配置接口示意图。
图4示出了根据本发明实施例的庭审语音***实时对识别出的文字进行热词匹配操作,并进行热词替换的方法130的流程图,该方法可用于实现图 1中的步骤S130。
图5示出了根据本发明实施例的庭审语音识别***对语音识别结果进行热词替换过程的示意图。
图6图示了根据本发明实施例的电子设备的框图。
具体实施方式
为了使本领域技术人员更好地理解本发明,下面结合附图和具体实施方式对本发明作进一步详细说明。
图1示出了根据本发明第一实施例的计算机执行的实时庭审语音识别自动纠错方法100的总体流程图。
如图1所示,在步骤S110中,实时响应于检测到庭审***中用户对语音识别出的文字进行的修改操作,发现热词并添加到热词库中。
步骤S110为热词库实时构建步骤。
图2示出了根据庭审中实时发现热词的过程的示意图。
如图2所示,在用户打开庭审语音识别***(210)之后,庭审语音识别***记录语音识别返回的结果(220)和检测庭审***文本(230)(返回当前庭审***页面),并且将当前庭审***的所有文本和语音识别所有结果发送至自然语音处理NLP(Natural LanguageProcessing)模块,自然语音处理模块240通过将文本的词性、语义分析后,找到用户修改的词和语音识别返回的词,分析并记录这两个词的词性等相关信息,最后发现用户改过的词,产生热词列表240。这里的庭审***文本是经过用户对语音识别结果校对过的文本:具体地,用户在查看语音识别功能返回的结果时,用户发现语音识别到某个关键词错误并修改此关键词,并提交如此校对过的文本,作为庭审***文本。
下面给出一个庭审语音***发现热词并添加到热词库中的操作的具体流程示例:
(1)假设语音识别结果为(即记录的语音识别结果)为“现就被告王强抢劫案提起诉讼”。
(2)假设被书记员第一次修改后的结果(即书记员提交的庭审***文本)为“现就被告王羌抢劫案提起诉讼”。
(3)将“现就被告王强抢劫案提起诉讼”和“现就被告王羌抢劫案提起诉讼”发送给NLP模块。NLP模块将上述句子分为:现/就/被告/王强/抢劫案/提起/诉讼,并通过分析发现,“王强”在词性为人名,被书记员替换为了“王羌”。
(4)NLP模块将“王羌”加入自动纠错的热词列表中。
这样就能够在庭审语音识别***运行过程中实时地自动地发现热词以及构建并更新热词库,从而实现了庭审***的自学习功能。
如此发现的热词在后续会自动用于对庭审语音识别进行热词自动纠错。
在一个示例中,利用ts_code进行热词的匹配,为此将修改后的词汇加入热词列表中包括:得到词汇的ts_code,以及将词汇的ts_code和词汇相关联地存储。即,本示例中热词是与其ts_code关联存储的。
下面介绍一个根据本发明实施例的ts_code编码。ts_code是根据本发明实施例的语音识别纠正***自定义的一种基于汉语拼音的编码,其输入是汉字拼音,输出为一串编码。这种编码将汉语拼音声母、韵母等进行编码,使得所有的汉字转换为同一种编码,通过这种编码,可以消除地方口音的不确定性。
针对ts_code编码,ts_code模块可以提供配置接口,可以提供给用户来配置模糊音,如图3所示。
用户可以选择使用哪些模糊音,当模糊音被选定后,ts_code模块会记录用户选择的模糊音。
根据本发明实施例的ts_code中规定了汉语拼音中所有声母,韵母,复音节,单音节的基本编码。形成一种编码表ts_list,比如:an为30,ang 为31等。其中可由用户指定模糊音编码设置为相同编码:比如用户勾选了Z=Zh,那么如果Z为51则Zh也为51。
根据本发明实施例的ts_code技术,通过ts_list规定编码了所有的汉语拼音得到ts_table,比如hang为66451,tian为66472等。
一个示例性流程如下:
获取汉字->通过能将汉字转换为拼音的方法的工具库例如Java的类库 pinyin4j库将输入的汉字转换为汉语拼音,即可通过ts_table得到对应的编码:比如航->hang->66451。
通过ts_code的模糊音设置,能够解决语音识别中,用户发音不标准导致识别错误的问题:Z读为Zh,in读为ing等,也能解决语音识别中近视音匹配的问题:比如王林(wanglin)和王玲(wangling)通过模糊音能够成功匹配。
更具体地示例如下,例如:
将z和zh的编码设置为相同:Zhe的ts_code和Ze的ts_code相同,则浙江的ts_code和泽江的ts_code为相同。
将hu和f的编码设置为相同:Hua的ts_code和F的ts_code相同,则花和发的ts_code相同。
通过将热词与其ts_code进行关联存储,后续进行热词匹配时,可以考察词汇的ts_code以及词汇的词性来决定是否进行热词替换,后面将对此进行详细说明。
例如,热词“王羌”经过特殊编码后,得到ts_code 921374,将“921374”与“王羌”相关联地存储。
回到图1,在步骤S120中,实时对庭审语音进行识别。
在步骤S130中,实时对识别出的文字进行热词匹配操作,以及进行热词替换。
图4示出了根据本发明实施例的庭审语音***实时对识别出的文字进行热词匹配操作,并进行热词替换的方法130的流程图,该方法可用于实现图 1中的步骤S130。
在步骤S131中,将实时对庭审语音进行识别获得的文本转换为对应这段文本的ts_code。
在步骤S132中,将这段文本的ts_code与热词列表中的各个热词的 ts_code进行对比,判断是否存在确定的热词。
在步骤S133中,在判定存在确定的热词的情况下,基于候选被替换的词汇与热词之间的词性和词意是否一致的分析,决策是否进行热词替换。
比如热词列表中含有热词:张涂
语音识别返回结果为:画一张图
虽然张涂和张图的ts_code相同,但是通过词性分析“画/一张/图”和“画/一/张涂”,发现两者词性和语义完全不一样,此时就不会进行热词替换。
在步骤S134中,在决策结果为进行热词替换的情况下,进行热词替换。
图5示出了庭审语音识别***对语音识别结果进行热词替换过程的示意图。
如图5所示,语音识别结果420输入编码***430,被转换为对应的 ts_code,将转换的语音识别结果的ts_code与热词列表(其中热词是和 ts_code关联存储的)进行匹配,找到相匹配的热词440,将语音识别结果中的词汇与相匹配的热词送至NLP处理进行词性分析450,当词性分析结果为词性一致时,进行热词替换460。
本发明实施例利用ts_code进行热词关联存储和热词识别和替换,此为本发明实施例的语音识别纠正模块的核心技术,通过模糊音配置可针对不同的口音,自动生成不同的设置,提高了热词替换的效率。利用ts_code的热词识别和替换实现了传统语音识别热词的功能,同时大大提高了效率。传统语音识别热词是通过模型加强训练而生成,这样带来的问题有:通过传统模型,只能解决一个地方的口音,因为一个地方的口音对应一个模型,如果需要解决多种地方口音的语音纠正问题,就需要在庭审语音识别***中配置多种模型来对应多种地方口音。本发明实施例使用ts_code,通过模糊音配置即可针对不同的口音,自动生成不同的设置,从而能够简捷高效地实现多种地方口音导致语音识别错误的纠正问题。
为使得本领域技术人员透彻理解ts_code在热词存储和热词替换上的应用,下面给出一个从热词发现到热词替换的总体应用的具体例子。
例如,假设庭审过程中,庭审***的语音识别结果为:福蝶创始人抱着做辛勤侍奉鲜花的福蝶的理念,创建了Butterfly品牌。
书记员修改后得到的庭审***文本为:蝴蝶创始人抱着做辛勤侍奉鲜花的蝴蝶的理念,创建了Butterfly品牌。
庭审***对语音识别结果和庭审***文本进行比较,检测到“福蝶”被修改为“蝴蝶”。分析两个词的发音之间相关性,见下面。
Fu,die->Hu,die
可知庭审参加人的当前发音存在口音。
庭审***通过编码***将F和H的ts_code设为相同的编码假设为 123456,并将“蝴蝶”加为热词。
接下来,庭审语音识别***通过语音识别得到文本“福蝶创始人要求被告停止侵权”,此时将这段文本转换为汉语拼音(如有标点符号和英文,将忽略),转换为ts-code“123456716589925643801345324819901354”,通过与热词列表中的热词对应的ts_code进行比对,找到了热词“蝴蝶”,通过NSP模块分析词性一致,则将“福蝶”修改为“蝴蝶”。
再次以热词“王羌”为例说明热词替换过程,前面已经说明了“王羌”被加入热词列表中,下面说明庭审中对此热词的应用。
(1)将传入的文本转换为汉语拼音,同时忽略标点符号和英文。
具体地,语音识别结果为“现就被告王强抢劫案进行审理”,转换为汉语拼音为“xianjiubeigaowangqiangqiangjieanjinxingshenli”。
此示例中不存在标点符号和英文,如有标点符号和英文,将忽略。
(2)将拼音通过特殊的编码,获取这句话的ts_code
对上述汉语拼音进行特殊编码后,得到“7823809427892137495830984034738904278932849843”
上述ts-code中,对于“王强”的ts_code 921374进行了加深显示。
(3)将ts_code与热词列表中的ts_code进行对比,找到相同的ts_code
将上述ts_code“7823809427892137495830984034738904278932849843”与热词列表中的各个ts_code进行对比,找到了相同的ts_code 921374。
(4)通过ts_code索引算法找到相同ts_code对应的词
找到语音识别结果中与ts_code 921374对应的词“王强”,以及在热词列表供找到与ts_code 921374对应的词“王羌”。
(5)替换这个词,并将替换后的句子传入NLP(Natural Language Processing)服务,通过NLP(Natural Language Processing)的语义和词法分析,对比发现替换后是否有语义转变,若没有语义转变,则返回替换后的结果,若有语义转换,返回替换前的结果。
具体地,用“王羌”替换“王强”,然后分析词性和语法,由下面的分词“现就/被告/王羌/抢劫案/进行/审理”,发现语义并未发生变化,则确定该热词替换,并返回替换后的结果。
如前所述,如果替换后语义发生变化,将不进行替换比如热词列表为有:张涂。假设语音识别返回结果为:画一张图,虽然张涂和张图的 ts_code相同,但是词性和语义分析中比较分词结果“画/一张/图”和“画/一/张涂”,发现词性和语义完全不一样,这样热词就不会被替换。。
在一个示例中,采用hashmap技术进行热词的存取。HashMap是基于哈希表的Map接口的非同步实现。此实现提供所有可选的映射操作,并允许使用null值和null键。通过hashmap来匹配ts_code,时间复杂度为O(1),更新热词速度平均在10ms以内,完全感受不到热词变化的延时,并且因为是通过ts_code匹配热词,没有任何的热词长度和数量限制。
在一个示例中,本发明实施例的庭审语音识别***能够进行主动排版,具体地,基于自然语言处理技术对句子进行的分词和词汇分析,以及基于检测用户对词汇进行的标点符号添加操作,自动对相同的词汇进行标点符号添加。在一个示例中,通过NLP服务返回的词汇的词性,能够标注一个词是否为书籍等名词,又因为ts_code为忽略标点符号的,因此自动纠错***可以自动为书籍等名词自动添加书名号。
下面,参考图6来描述根据本申请实施例的电子设备。
图6图示了根据本申请实施例的电子设备的框图。
如图6所示,电子设备10包括一个或多个处理器11和存储器12。
处理器11可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制计算装置10中的其他组件以执行期望的功能。
存储器12可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器11可以运行所述程序指令,以实现上文所述的本申请的各个实施例的实时庭审语音识别自动纠错方法。在所述计算机可读存储介质中还可以存储诸如热词库、语音识别文本等各种内容。
在一个示例中,电子设备10还可以包括:输入装置13和输出装置14,这些组件通过总线***和/或其他形式的连接机构(未示出)互连。
例如,该输入装置13可以是例如键盘、鼠标等等。
该输出装置14可以向外部输出各种信息,包括庭审***文本等。该输出设备14可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图6中仅示出了该电子设备10中与本申请有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备10还可以包括任何其他适当的组件。
除了上述方法和设备以外,本申请的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述实时庭审语音自动识别自动纠错方法部分中描述的根据本申请各种实施例的实时庭审语音自动识别自动纠错方法中的步骤。例如,所述计算机程序指令可以基于Linux操作***,在PyTorch平台的基础上利用Python编写实现。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本申请的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述实时庭审语音识别自动纠错方法部分中描述的根据本申请各种实施例的实时庭审语音识别自动纠错方法中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上结合具体实施例描述了本申请的基本原理,但是,需要指出的是,在本申请中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本申请为必须采用上述具体的细节来实现。
本申请中涉及的器件、装置、设备、***的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、***。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
还需要指出的是,在本申请的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此,本申请不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (10)

1.一种计算机执行的实时庭审语音识别自动纠错方法,包括:
实时响应于检测到庭审***中用户对语音识别出的文字进行的修改操作,发现热词并添加到热词库中;
实时对庭审语音进行识别;以及
实时对识别出的文字进行热词匹配操作,以及进行热词替换。
2.根据权利要求1的方法,发现热词并添加到热词库中包括:
基于语音识别的文本以及基于庭审***中用户对该语音识别结果进行的修改返回的文本,利用自然语言处理技术对语音识别的文本进行分词和词性分析;
确定被修改的词汇,以及判断所述词汇的词性是否符合预定标准;
在确定被修改的词汇的词性符合预定标准时,将修改后的词汇加入热词列表中。
3.根据权利要求2的方法,所述预定标准为词汇的词性为人名,其中
当确定被修改的词汇的词性为人名时,将修改后的词汇加入热词列表中。
4.根据权利要求3的方法,所述将修改后的词汇加入热词列表中包括:
得到词汇的ts_code,以及
将词汇的ts_code和词汇相关联地存储。
5.根据权利要求1的方法,所述实时对识别出的文字进行热词匹配操作,并进行热词替换包括:
将实时对庭审语音进行识别获得的文本转换为对应这段文本的ts_code,
将这段文本的ts_code与热词列表中的各个热词的ts_code进行对比,判断是否存在确定的热词;
在判定存在确定的热词的情况下,基于候选被替换的词汇与热词之间的词性和词意是否一致的分析,决策是否进行热词替换;
在决策结果为进行热词替换的情况下,进行热词替换。
6.根据权利要求5的方法,采用hashmap进行热词的存取。
7.根据权利要求1到6任一项的方法,还包括:
基于自然语言处理技术对句子进行的分词和词汇分析,以及基于检测用户对词汇进行的标点符号添加操作,自动对相同的词汇进行标点符号添加。
8.一种计算机可读的存储介质,其上存储有计算机可读指令,所述指令当被计算机执行时,可操作来执行权利要求1到7任一项所述的方法。
9.一种计算装置,包括处理器和存储器,存储器上存储有计算机可读指令,所述指令当被处理器执行时,可操作来执行权利要求1到7任一项所述的方法。
10.一种计算机执行的实时庭审语音识别自动纠错方法,包括:
接收实时庭审语音识别得到的语音识别初始文本;
接收用户对实时庭审语音识别结果修改后的语音识别修改文本;
基于语音识别初始文本和语音识别修改文本,发现热词,并添加到热词库中;
继续接收实时庭审语音识别得到的后续语音识别初始文本;以及
对该后续语音识别初始文本进行热词匹配和热词替换。
CN201810778161.1A 2018-07-16 2018-07-16 实时庭审语音识别自动纠错方法、存储介质及计算装置 Active CN108984529B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810778161.1A CN108984529B (zh) 2018-07-16 2018-07-16 实时庭审语音识别自动纠错方法、存储介质及计算装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810778161.1A CN108984529B (zh) 2018-07-16 2018-07-16 实时庭审语音识别自动纠错方法、存储介质及计算装置

Publications (2)

Publication Number Publication Date
CN108984529A true CN108984529A (zh) 2018-12-11
CN108984529B CN108984529B (zh) 2022-06-03

Family

ID=64549146

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810778161.1A Active CN108984529B (zh) 2018-07-16 2018-07-16 实时庭审语音识别自动纠错方法、存储介质及计算装置

Country Status (1)

Country Link
CN (1) CN108984529B (zh)

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110032626A (zh) * 2019-04-19 2019-07-19 百度在线网络技术(北京)有限公司 语音播报方法和装置
CN110246499A (zh) * 2019-08-06 2019-09-17 苏州思必驰信息科技有限公司 家居设备的语音控制方法及装置
CN110415705A (zh) * 2019-08-01 2019-11-05 苏州奇梦者网络科技有限公司 一种热词识别方法、***、装置及存储介质
CN110428839A (zh) * 2019-07-22 2019-11-08 深圳市同洲电子股份有限公司 一种基于语音识别的内容匹配方法
CN111028830A (zh) * 2019-12-26 2020-04-17 大众问问(北京)信息科技有限公司 一种本地热词库更新方法、装置及设备
CN111583909A (zh) * 2020-05-18 2020-08-25 科大讯飞股份有限公司 一种语音识别方法、装置、设备及存储介质
CN111681643A (zh) * 2020-05-29 2020-09-18 标贝(北京)科技有限公司 语音识别后处理方法、装置、***及存储介质
CN111680476A (zh) * 2020-05-26 2020-09-18 广州多益网络股份有限公司 一种用于智能生成类文本的业务热词识别转换的方法
CN112069950A (zh) * 2020-08-25 2020-12-11 北京字节跳动网络技术有限公司 提取热词的方法、***、电子设备及介质
CN112084920A (zh) * 2020-08-31 2020-12-15 北京字节跳动网络技术有限公司 提取热词的方法、装置、电子设备及介质
CN112102833A (zh) * 2020-09-22 2020-12-18 北京百度网讯科技有限公司 语音识别方法、装置、设备及存储介质
CN112669825A (zh) * 2020-12-24 2021-04-16 杭州中科先进技术研究院有限公司 一种通过语音合成方法自动训练的语音识别***及方法
CN112735428A (zh) * 2020-12-27 2021-04-30 科大讯飞(上海)科技有限公司 一种热词获取方法、语音识别方法及相关设备
CN112988955A (zh) * 2019-12-02 2021-06-18 卢文祥 多语语音识别及主题语意分析方法与装置
WO2021129439A1 (zh) * 2019-12-28 2021-07-01 科大讯飞股份有限公司 语音识别方法及相关产品
CN113096653A (zh) * 2021-03-08 2021-07-09 谭维敏 一种基于人工智能的个性化口音语音识别方法及***
CN113178194A (zh) * 2020-01-08 2021-07-27 上海依图信息技术有限公司 一种交互式热词更新的语音识别方法与***
CN113436614A (zh) * 2021-07-02 2021-09-24 科大讯飞股份有限公司 语音识别方法、装置、设备、***及存储介质
CN113628626A (zh) * 2020-05-09 2021-11-09 阿里巴巴集团控股有限公司 语音识别方法、装置和***以及翻译方法和***
CN113761843A (zh) * 2020-06-01 2021-12-07 华为技术有限公司 语音编辑方法、电子设备及计算机可读存储介质
CN114079797A (zh) * 2020-08-14 2022-02-22 阿里巴巴集团控股有限公司 直播字幕生成方法及装置和服务端、直播客户端及直播***
US11354920B2 (en) 2019-10-12 2022-06-07 International Business Machines Corporation Updating and implementing a document from an audio proceeding

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1578976A (zh) * 2001-10-31 2005-02-09 皇家飞利浦电子股份有限公司 用于将口授转录到文本文件中并对该文本进行修订的方法及***
CN1645477A (zh) * 2004-01-20 2005-07-27 微软公司 使用用户纠正的自动语音识别学习
CN104538032A (zh) * 2014-12-19 2015-04-22 中国科学院计算技术研究所 一种融合用户反馈的汉语语音识别方法及***
JP2017167247A (ja) * 2016-03-15 2017-09-21 パナソニックIpマネジメント株式会社 誤認識訂正方法、誤認識訂正装置及び誤認識訂正プログラム
CN107544726A (zh) * 2017-07-04 2018-01-05 百度在线网络技术(北京)有限公司 基于人工智能的语音识别结果纠错方法、装置及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1578976A (zh) * 2001-10-31 2005-02-09 皇家飞利浦电子股份有限公司 用于将口授转录到文本文件中并对该文本进行修订的方法及***
CN1645477A (zh) * 2004-01-20 2005-07-27 微软公司 使用用户纠正的自动语音识别学习
CN104538032A (zh) * 2014-12-19 2015-04-22 中国科学院计算技术研究所 一种融合用户反馈的汉语语音识别方法及***
JP2017167247A (ja) * 2016-03-15 2017-09-21 パナソニックIpマネジメント株式会社 誤認識訂正方法、誤認識訂正装置及び誤認識訂正プログラム
CN107544726A (zh) * 2017-07-04 2018-01-05 百度在线网络技术(北京)有限公司 基于人工智能的语音识别结果纠错方法、装置及存储介质

Cited By (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110032626A (zh) * 2019-04-19 2019-07-19 百度在线网络技术(北京)有限公司 语音播报方法和装置
CN110032626B (zh) * 2019-04-19 2022-04-12 百度在线网络技术(北京)有限公司 语音播报方法和装置
CN110428839A (zh) * 2019-07-22 2019-11-08 深圳市同洲电子股份有限公司 一种基于语音识别的内容匹配方法
CN110428839B (zh) * 2019-07-22 2022-05-31 深圳市同洲电子股份有限公司 一种基于语音识别的内容匹配方法
CN110415705A (zh) * 2019-08-01 2019-11-05 苏州奇梦者网络科技有限公司 一种热词识别方法、***、装置及存储介质
CN110415705B (zh) * 2019-08-01 2022-03-01 苏州奇梦者网络科技有限公司 一种热词识别方法、***、装置及存储介质
CN110246499A (zh) * 2019-08-06 2019-09-17 苏州思必驰信息科技有限公司 家居设备的语音控制方法及装置
CN110246499B (zh) * 2019-08-06 2021-05-25 思必驰科技股份有限公司 家居设备的语音控制方法及装置
US11354920B2 (en) 2019-10-12 2022-06-07 International Business Machines Corporation Updating and implementing a document from an audio proceeding
CN112988955B (zh) * 2019-12-02 2024-03-15 卢文祥 多语语音识别及主题语意分析方法与装置
CN112988955A (zh) * 2019-12-02 2021-06-18 卢文祥 多语语音识别及主题语意分析方法与装置
CN111028830A (zh) * 2019-12-26 2020-04-17 大众问问(北京)信息科技有限公司 一种本地热词库更新方法、装置及设备
CN111028830B (zh) * 2019-12-26 2022-07-15 大众问问(北京)信息科技有限公司 一种本地热词库更新方法、装置及设备
WO2021129439A1 (zh) * 2019-12-28 2021-07-01 科大讯飞股份有限公司 语音识别方法及相关产品
CN113178194B (zh) * 2020-01-08 2024-03-22 上海依图信息技术有限公司 一种交互式热词更新的语音识别方法与***
CN113178194A (zh) * 2020-01-08 2021-07-27 上海依图信息技术有限公司 一种交互式热词更新的语音识别方法与***
CN113628626A (zh) * 2020-05-09 2021-11-09 阿里巴巴集团控股有限公司 语音识别方法、装置和***以及翻译方法和***
CN111583909B (zh) * 2020-05-18 2024-04-12 科大讯飞股份有限公司 一种语音识别方法、装置、设备及存储介质
CN111583909A (zh) * 2020-05-18 2020-08-25 科大讯飞股份有限公司 一种语音识别方法、装置、设备及存储介质
CN111680476B (zh) * 2020-05-26 2024-01-30 广州多益网络股份有限公司 一种用于智能生成类文本的业务热词识别转换的方法
CN111680476A (zh) * 2020-05-26 2020-09-18 广州多益网络股份有限公司 一种用于智能生成类文本的业务热词识别转换的方法
CN111681643A (zh) * 2020-05-29 2020-09-18 标贝(北京)科技有限公司 语音识别后处理方法、装置、***及存储介质
CN113761843A (zh) * 2020-06-01 2021-12-07 华为技术有限公司 语音编辑方法、电子设备及计算机可读存储介质
CN113761843B (zh) * 2020-06-01 2023-11-28 华为技术有限公司 语音编辑方法、电子设备及计算机可读存储介质
CN114079797A (zh) * 2020-08-14 2022-02-22 阿里巴巴集团控股有限公司 直播字幕生成方法及装置和服务端、直播客户端及直播***
CN112069950A (zh) * 2020-08-25 2020-12-11 北京字节跳动网络技术有限公司 提取热词的方法、***、电子设备及介质
CN112084920A (zh) * 2020-08-31 2020-12-15 北京字节跳动网络技术有限公司 提取热词的方法、装置、电子设备及介质
CN112102833B (zh) * 2020-09-22 2023-12-12 阿波罗智联(北京)科技有限公司 语音识别方法、装置、设备及存储介质
CN112102833A (zh) * 2020-09-22 2020-12-18 北京百度网讯科技有限公司 语音识别方法、装置、设备及存储介质
CN112669825A (zh) * 2020-12-24 2021-04-16 杭州中科先进技术研究院有限公司 一种通过语音合成方法自动训练的语音识别***及方法
CN112735428A (zh) * 2020-12-27 2021-04-30 科大讯飞(上海)科技有限公司 一种热词获取方法、语音识别方法及相关设备
CN113096653A (zh) * 2021-03-08 2021-07-09 谭维敏 一种基于人工智能的个性化口音语音识别方法及***
CN113436614A (zh) * 2021-07-02 2021-09-24 科大讯飞股份有限公司 语音识别方法、装置、设备、***及存储介质
CN113436614B (zh) * 2021-07-02 2024-02-13 中国科学技术大学 语音识别方法、装置、设备、***及存储介质

Also Published As

Publication number Publication date
CN108984529B (zh) 2022-06-03

Similar Documents

Publication Publication Date Title
CN108984529A (zh) 实时庭审语音识别自动纠错方法、存储介质及计算装置
CN110263150B (zh) 文本生成方法、装置、计算机设备及存储介质
US8924210B2 (en) Text processing using natural language understanding
CN104050160B (zh) 一种机器与人工翻译相融合的口语翻译方法和装置
US7412387B2 (en) Automatic improvement of spoken language
WO2017127296A1 (en) Analyzing textual data
JP2020505643A (ja) 音声認識方法、電子機器、及びコンピュータ記憶媒体
CN112992125B (zh) 一种语音识别方法、装置、电子设备、可读存储介质
CN112836514A (zh) 嵌套实体识别方法、装置、电子设备和存储介质
CN114999463B (zh) 语音识别方法、装置、设备及介质
CN110852075B (zh) 自动添加标点符号的语音转写方法、装置及可读存储介质
CN112231015A (zh) 一种基于浏览器的操作指导方法、sdk插件及后台管理***
WO2023045186A1 (zh) 意图识别方法、装置、电子设备和存储介质
KR20100068965A (ko) 자동 통역 장치 및 그 방법
JP2004094257A (ja) 音声処理のためのデシジョン・ツリーの質問を生成するための方法および装置
CN109859746B (zh) 一种基于tts的语音识别语料库生成方法及***
CN115019787B (zh) 一种交互式同音异义词消歧方法、***、电子设备和存储介质
CN116978367A (zh) 语音识别方法、装置、电子设备和存储介质
CN114528851A (zh) 回复语句确定方法、装置、电子设备和存储介质
CN114519358A (zh) 翻译质量评估方法、装置、电子设备和存储介质
US11900072B1 (en) Quick lookup for speech translation
JP2013109738A (ja) 意味ラベル付与モデル学習装置、意味ラベル付与装置、意味ラベル付与モデル学習方法、及びプログラム
JP6067616B2 (ja) 発話生成手法学習装置、発話生成手法選択装置、発話生成手法学習方法、発話生成手法選択方法、プログラム
CN113990286A (zh) 语音合成方法、装置、设备及存储介质
JP2003162524A (ja) 言語処理装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant