WO2021031505A1 - 音频标注的检错方法、装置、计算机设备和存储介质 - Google Patents

音频标注的检错方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
WO2021031505A1
WO2021031505A1 PCT/CN2019/130444 CN2019130444W WO2021031505A1 WO 2021031505 A1 WO2021031505 A1 WO 2021031505A1 CN 2019130444 W CN2019130444 W CN 2019130444W WO 2021031505 A1 WO2021031505 A1 WO 2021031505A1
Authority
WO
WIPO (PCT)
Prior art keywords
error detection
word
text
detection information
word sequence
Prior art date
Application number
PCT/CN2019/130444
Other languages
English (en)
French (fr)
Inventor
付嘉懿
石真
Original Assignee
深圳追一科技有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 深圳追一科技有限公司 filed Critical 深圳追一科技有限公司
Publication of WO2021031505A1 publication Critical patent/WO2021031505A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Definitions

  • This application relates to the technical field of text processing, and in particular to an audio tagging error detection method, device, computer equipment and storage medium.
  • ASR Automatic Speech Recognition
  • taggers need to process a large amount of audio data every day, and they are prone to tagging errors in repeated and boring tagging tasks. Even if there are reviewers who review the annotation results, they may get wrong training samples, making the trained deep learning model not accurate enough.
  • an embodiment of the present invention provides an error detection method for audio annotation, the method including:
  • error detection information is generated based on the wrong words; the wrong words are words that are not recorded in the correct vocabulary.
  • the foregoing generation of error detection information based on the error words includes:
  • generating error detection information when it is determined through error detection that at least one of a word in the labeled text is wrong and a sentence in the labeled text is wrong, generating error detection information includes:
  • the first word sequence composed of multiple words included in the labeled text is input into the pre-trained neural network error detection model to obtain the probability information corresponding to the first word sequence output by the neural network error detection model; the probability information is used to indicate the word sequence Right probability
  • error detection information including multiple reference words is generated.
  • the method further includes:
  • the probability information corresponding to the first word sequence is not lower than the preset probability value, stop outputting error detection information, and add the wrong word to the correct word list.
  • the error detection information is generated, including:
  • an embodiment of the present invention provides an audio tagging error detection device, which includes:
  • Annotated text acquisition module which is used to acquire annotated text obtained by annotator after annotating audio data
  • Error detection information output module used to output error detection information.
  • the word segmentation sub-module is used to segment the labeled text to obtain multiple words included in the labeled text;
  • the word search submodule is used to search for each word included in the labeled text in the correct word list established in advance;
  • the above-mentioned first error detection information generating submodule is specifically used to find multiple reference words in the correct vocabulary; the editing distance between the reference word and the wrong word is within a preset editing distance, and the editing distance includes pinyin At least one of edit distance and vocabulary edit distance; generating error detection information containing multiple reference words.
  • the above-mentioned error detection module includes:
  • the probability information output sub-module is used to input the first word sequence composed of multiple words included in the labeled text into the pre-trained neural network error detection model to obtain the probability information corresponding to the first word sequence output by the neural network error detection model ; Probability information is used to indicate the probability that the word sequence is correct;
  • the second error detection information generating sub-module is specifically configured to replace the error words with multiple reference words respectively when the probability information corresponding to the first word sequence is lower than the preset probability value, to obtain multiple The second word sequence; input multiple second word sequences into the neural network error detection model to obtain the probability information corresponding to each second word sequence; according to the correspondence between the reference word and the second word sequence and each second word sequence The corresponding probability information generates error detection information containing multiple reference words.
  • the first stop output module is configured to stop outputting error detection information if the probability information corresponding to the first word sequence is not lower than the preset probability value, and add the wrong word to the correct word list.
  • the third error detection information generation sub-module is configured to generate error detection information if the number of search results is less than the preset number.
  • the second stop output module is used to stop outputting error detection information if the number of search results is not less than the preset number, and add the wrong words to the correct vocabulary.
  • an embodiment of the present invention provides a computer-readable storage medium on which a computer program is stored, and when the computer program is executed by a processor, the steps in the above method are implemented.
  • the above-mentioned audio tagging error detection method, device, computer equipment and storage medium are used to obtain annotated text obtained by annotator after annotating audio data; error detection is performed on the annotated text, and when the error detection determines that the words in the annotated text are wrong and When at least one of the errors in the sentence in the annotation text occurs, error detection information is generated; the error detection information is output.
  • the terminal detects errors in the annotated text during the process of annotating the audio data by the annotator. If an error occurs, it generates error detection information and prompts the annotator so that the annotator can make corrections in time, thereby improving the quality of the annotation , Thereby improving the quality of training samples.
  • FIG. 1 is an application environment diagram of an audio tagging error detection method in an embodiment
  • FIG. 2 is a schematic flowchart of an error detection method for audio annotation in an embodiment
  • FIG. 3 is one of the flowcharts of the step of generating error detection information when it is determined by error detection that there is an error in the labeled text in an embodiment
  • FIG. 4 is a second schematic diagram of the flow of the step of generating error detection information when it is determined by error detection that an error occurs in the labeled text in an embodiment
  • FIG. 6 is a schematic flowchart of an error detection method for audio labeling in another embodiment
  • Figure 7 is a structural block diagram of an audio tagging error detection device in an embodiment
  • Figure 8 is an internal structure diagram of a computer device in an embodiment.
  • an error detection method for audio annotation is provided. Taking the method applied to the terminal in FIG. 1 as an example for description, the method includes the following steps:
  • the annotator when annotating the audio data, the annotator inputs the annotation text corresponding to the audio data into the terminal. Specifically, the terminal detects that the annotator enters the annotation text in the text box, and if the annotation text does not change for more than a preset time period, it is determined that the audio data annotation is completed.
  • an annotator enters "its clothes are missing” in the text box, and if the annotation text does not change for more than 500 milliseconds, the corresponding annotation text "its clothes are missing" is obtained corresponding to the audio data.
  • the embodiment of the present invention does not limit the preset duration in detail, and can be set according to actual conditions.
  • error detection is performed on the annotated text. Specifically, check whether there are errors in words or sentences in the labeled text. If there are errors in the words in the annotated text, or errors in the statements in the annotated text, or errors in the words and statements in the annotated text, error detection information is generated.
  • the error detection information can be a prompt to replace "its" with "his" or "hers”.
  • Step 103 Output the error detection information.
  • the error detection information is output, so as to remind the tagger in real time during the tagging process of the tagger. For example, display "his" and “her” on the terminal to prompt the annotator that "it” has made an error.
  • the embodiment of the present invention does not limit the display mode in detail, and can be set according to actual conditions.
  • the annotation text obtained by the annotator after annotating the audio data is obtained; error detection is performed on the annotation text, and when the error detection determines that the words in the annotation text are incorrect and the sentences in the annotation text are incorrect
  • the error detection information is output.
  • the terminal detects errors in the annotated text during the process of annotating the audio data by the annotator. If an error occurs, it generates error detection information and prompts the annotator so that the annotator can make corrections in time, thereby improving the quality of the annotation , Thereby improving the quality of training samples.
  • this embodiment relates to generating error detection information when it is determined through error detection that at least one of an error in a word in the labeled text and an error in a sentence in the labeled text is generated
  • An optional process may specifically include the following steps:
  • Step 201 Perform word segmentation on the labeled text to obtain multiple words included in the labeled text.
  • Step 202 Search for each word included in the labeled text in the correct vocabulary established in advance.
  • a corpus can be preset in the terminal, and a large number of sentences, words, phrases, etc. are stored in the corpus.
  • the terminal Before error detection, the terminal establishes a correct vocabulary according to the corpus. Then, in the process of error detection, after the terminal finishes segmenting the labeled text, it searches the correct vocabulary for each word included in the labeled text. For example, search for "its", “clothes", “no”, "see”, and "le” from the correct vocabulary.
  • Step 203 When it is determined by searching that there are wrong words among the multiple words included in the labeled text, error detection information is generated based on the wrong words; the wrong words are words that are not recorded in the correct vocabulary.
  • a word is not found in the correct vocabulary, it is determined that the word is an error word; then, error detection information is generated based on the error word. For example, if "its" is not found in the correct vocabulary list, then "its” is an error word, and error detection information is generated based on "its".
  • the step of generating error detection information based on the wrong word may include: looking up multiple reference words in the correct vocabulary; the editing distance between the reference word and the wrong word is within a preset editing distance, and the editing distance includes pinyin editing distance and vocabulary At least one of edit distances; generating error detection information containing multiple reference words.
  • this embodiment relates to generating error detection information when it is determined through error detection that at least one of an error in a word in the labeled text and an error in a sentence in the labeled text is generated
  • An optional process Based on the above embodiment shown in FIG. 3, the following steps may also be included:
  • Step 301 Input a first word sequence composed of multiple words included in the annotated text into a pre-trained neural network error detection model to obtain probability information corresponding to the first word sequence output by the neural network error detection model; the probability information is used for Indicates the probability that the word sequence is correct.
  • the neural network error detection model may be a Bi-RNN model, which is not limited in detail in the embodiment of the present invention, and can be set according to actual conditions.
  • step 302 is executed. If the probability information corresponding to the first word sequence is not lower than the preset probability value, then Go to step 303.
  • Step 302 If the probability information corresponding to the first word sequence is lower than the preset probability value, error detection information is generated.
  • the probability information corresponding to the first word sequence is lower than the preset probability value, it indicates that the probability that the first word sequence is correct is low. For example, the probability information corresponding to the first word sequence "it, clothes, no, see, and now" is 0.93, which is lower than the preset probability value of 0.96, and the probability of determining that the first word sequence is correct is low.
  • the annotator did not modify the annotated text, and there are still errors in multiple words included in the annotated text, and error detection information needs to be generated.
  • the step of generating error detection information may include: when the probability information corresponding to the first word sequence is lower than a preset probability value, replacing the error words with multiple reference words respectively to obtain multiple second word sequences; A plurality of second word sequences are input into the neural network error detection model to obtain the probability information corresponding to each second word sequence; according to the corresponding relationship between the reference word and the second word sequence and the probability information corresponding to each second word sequence, generate Error detection information for multiple reference words.
  • the probability information corresponding to the first word sequence "its, clothes, no, see, and now” is 0.93, which is lower than the preset probability value of 0.96, and the reference words are "his” and "her”, then use "he Replace “It's” to get a second word sequence "his, clothes, no, see, now”, replace “its” with “her” to get another second word sequence "her, clothes, no , See, now”.
  • Step 303 If the probability information corresponding to the first word sequence is not lower than the preset probability value, stop outputting the error detection information, and add the wrong word to the correct word list.
  • the probability information corresponding to the first word sequence is not lower than the preset probability value, it indicates that the probability that the first word sequence is correct is high, that is to say, the operation of the annotator without modifying the annotated text is correct. At this time, stop outputting the error detection information, and add the wrong words to the correct vocabulary.
  • the probability information corresponding to the first word sequence is 0.98, which is not lower than the preset probability value of 0.96, stop outputting the error detection information "his" and “her”, and add the wrong word “its” to the correct word Table, so that the word "its” can be found in the correct vocabulary later.
  • this embodiment relates to generating error detection information when it is determined through error detection that at least one of an error in a word in the labeled text and an error in a sentence in the labeled text is generated
  • An optional process Based on the above embodiment shown in FIG. 3, the following steps may also be included:
  • a search engine is used to search for a first word sequence composed of multiple words included in annotated text to obtain a search result matching the first word sequence.
  • the error detection information including multiple reference words is generated. If the annotator does not modify the annotation text based on the error detection information, the first word sequence can be searched through a search engine, where the first word sequence is composed of multiple words included in the annotation text. The search engine searches out search results that exactly match the first word sequence.
  • the embodiment of the present invention does not limit the search engine in detail, and can be set according to actual conditions.
  • step 402 is executed; if the number of search results is not less than the preset number, step 403 is executed.
  • Step 402 If the number of search results is less than the preset number, generate error detection information.
  • the step of generating error detection information may include: when the number of search results is less than a preset number, deleting the wrong words from the first word sequence to obtain a third word sequence; searching for the third word sequence through a search engine to obtain Multiple co-occurring words that appear simultaneously with the third word sequence; generate error detection information containing multiple co-occurring words.
  • Step 403 If the number of search results is not less than the preset number, stop outputting error detection information, and add the wrong words to the correct vocabulary.
  • the search engine When it is determined that there is an error in the labeled text, the search engine is used to search for the first word sequence composed of multiple words included in the labeled text to obtain search results matching the first word sequence; if the number of search results is less than the preset number, then Generate error detection information; if the number of search results is not less than the preset number, stop outputting error detection information, and add the wrong words to the correct vocabulary.
  • the search engine is used to check the annotated text again, and the two-level error detection can improve the detection. Wrong accuracy rate, so that the labeled text is more accurate.
  • Step 501 Obtain annotated text obtained by an annotator after annotating audio data.
  • Step 502 Perform word segmentation on the labeled text to obtain multiple words included in the labeled text.
  • Step 503 Search for each word included in the labeled text in the pre-established correct vocabulary.
  • Step 504 When it is determined by searching that there are wrong words among the multiple words included in the labeled text, error detection information is generated based on the wrong words; the wrong words are words that are not recorded in the correct vocabulary.
  • Step 505 output the error detection information.
  • Step 506 Input the first word sequence composed of multiple words included in the annotated text into the pre-trained neural network error detection model to obtain probability information corresponding to the first word sequence output by the neural network error detection model; the probability information is used for Indicates the probability that the word sequence is correct.
  • step 507 if the probability information corresponding to the first word sequence is lower than the preset probability value, step 507 is executed; if the probability information corresponding to the first word sequence is not lower than the preset probability value, step 508 is executed.
  • Step 507 If the probability information corresponding to the first word sequence is lower than the preset probability value, error detection information is generated.
  • the probability information corresponding to the first word sequence is lower than the preset probability value
  • multiple reference words are used to replace the wrong words to obtain multiple second word sequences; the multiple second word sequences are input to the nerve
  • the probability information corresponding to each second word sequence is obtained; according to the corresponding relationship between the reference word and the second word sequence and the probability information corresponding to each second word sequence, error detection information containing multiple reference words is generated.
  • Step 508 If the probability information corresponding to the first word sequence is not lower than the preset probability value, stop outputting the error detection information, and add the wrong word to the correct word list.
  • Step 509 Search for a first word sequence composed of multiple words included in the annotation text through a search engine to obtain a search result that matches the first word sequence.
  • Step 510 If the number of search results is less than the preset number, generate error detection information.
  • generating error detection information includes: when the number of search results is less than the preset number, deleting the wrong word from the first word sequence to obtain the third word sequence;
  • the search engine searches the third word sequence to obtain multiple co-occurring words that appear simultaneously with the third word sequence; and generates error detection information containing multiple co-occurring words.
  • Step 511 If the number of search results is not less than the preset number, stop outputting error detection information, and add the wrong words to the correct vocabulary.
  • the tagging text obtained after tagging the audio data by the tagger is obtained; the tagging text is segmented to obtain multiple words included in the tagging text; and the tagging text is respectively searched in the correct vocabulary established in advance Each word included; when it is determined by searching that there is an error word among multiple words included in the labeled text, error detection information is generated based on the error word; the error detection information is output. If the annotator does not modify the annotated text, the first word sequence consisting of multiple words included in the annotated text is input into the pre-trained neural network error detection model, and the first word sequence output by the neural network error detection model is obtained.
  • the search engine is used to search the first word sequence composed of multiple words in the annotated text to obtain search results matching the first word sequence; if the number of search results is less than the preset If the number of search results is not less than the preset number, then stop outputting the error detection information, and add the wrong words to the correct vocabulary.
  • three-level error detection can be used to remind annotators multiple times to improve the accuracy of error detection, thereby making the annotated text more accurate, and thus making the deep learning model more accurate.
  • an audio tagging error detection device including:
  • Annotated text obtaining module 601 configured to obtain annotated text obtained by annotator after annotating audio data
  • the error detection module 602 is configured to perform error detection on the labeled text, and generate error detection information when it is determined through the error detection that at least one of an error in a word in the labeled text and an error in a sentence in the labeled text occurs;
  • the error detection information output module 603 is used to output error detection information.
  • the above-mentioned error detection module 602 includes:
  • the word search submodule is used to search for each word included in the labeled text in the correct word list established in advance;
  • the first error detection information generation sub-module is used to generate error detection information based on the error words when it is determined that there are error words in the multiple words included in the labeled text through searching; the error words are words that are not recorded in the correct vocabulary.
  • the above-mentioned first error detection information generating submodule is specifically used to find multiple reference words in the correct vocabulary; the editing distance between the reference word and the wrong word is within a preset editing distance, and the editing distance includes pinyin At least one of edit distance and vocabulary edit distance; generating error detection information containing multiple reference words.
  • the above-mentioned error detection module 602 includes:
  • the probability information output sub-module is used to input the first word sequence composed of multiple words included in the labeled text into the pre-trained neural network error detection model to obtain the probability information corresponding to the first word sequence output by the neural network error detection model ; Probability information is used to indicate the probability that the word sequence is correct;
  • the second error detection information generating sub-module is configured to generate error detection information if the probability information corresponding to the first word sequence is lower than the preset probability value.
  • the second error detection information generating sub-module is specifically configured to replace the error words with multiple reference words respectively when the probability information corresponding to the first word sequence is lower than the preset probability value, to obtain multiple The second word sequence; input multiple second word sequences into the neural network error detection model to obtain the probability information corresponding to each second word sequence; according to the correspondence between the reference word and the second word sequence and each second word sequence The corresponding probability information generates error detection information containing multiple reference words.
  • the device further includes:
  • the first stop output module is configured to stop outputting error detection information if the probability information corresponding to the first word sequence is not lower than the preset probability value, and add the wrong word to the correct word list.
  • the above-mentioned error detection module 602 includes:
  • the search sub-module is used to search for a first word sequence composed of multiple words included in the marked text through a search engine to obtain search results matching the first word sequence;
  • the third error detection information generation sub-module is configured to generate error detection information if the number of search results is less than the preset number.
  • the third error detection information generating submodule is specifically used to delete the wrong words from the first word sequence when the number of search results is less than the preset number to obtain the third word sequence; through the search engine Search for the third word sequence to obtain multiple co-occurring words that appear simultaneously with the third word sequence; generate error detection information containing multiple co-occurring words.
  • the device further includes:
  • Each module in the above-mentioned audio labeling error detection device can be implemented in whole or in part by software, hardware, and a combination thereof.
  • the foregoing modules may be embedded in the form of hardware or independent of the processor in the computer device, or may be stored in the memory of the computer device in the form of software, so that the processor can call and execute the operations corresponding to the foregoing modules.
  • a computer device is provided.
  • the computer device may be a terminal, and its internal structure diagram may be as shown in FIG. 8.
  • the computer equipment includes a processor, a memory, a network interface, a display screen and an input device connected through a system bus.
  • the processor of the computer device is used to provide calculation and control capabilities.
  • the memory of the computer device includes a non-volatile storage medium and an internal memory.
  • the non-volatile storage medium stores an operating system and a computer program.
  • the internal memory provides an environment for the operation of the operating system and computer programs in the non-volatile storage medium.
  • the network interface of the computer device is used to communicate with an external terminal through a network connection. When the computer program is executed by the processor, an error detection method for audio annotation is realized.
  • error detection information including multiple reference words is generated.
  • the probability information corresponding to the first word sequence is not lower than the preset probability value, stop outputting error detection information, and add the wrong word to the correct word list.
  • the computer program further implements the following steps when being executed by the processor:
  • Volatile memory may include random access memory (RAM) or external cache memory.
  • RAM is available in many forms, such as static RAM (SRAM), dynamic RAM (DRAM), synchronous DRAM (SDRAM), double data rate SDRAM (DDRSDRAM), enhanced SDRAM (ESDRAM), synchronous chain Channel (Synchlink) DRAM (SLDRAM), memory bus (Rambus) direct RAM (RDRAM), direct memory bus dynamic RAM (DRDRAM), and memory bus dynamic RAM (RDRAM), etc.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

一种音频标注的检错方法、装置、计算机设备和存储介质。所述方法包括:获取标注人员对音频数据进行标注后得到的标注文本(101);对所述标注文本进行检错,当通过检错确定所述标注文本中的词语出现错误和所述标注文本中的语句出现错误中的至少一种时,生成检错信息(102);对所述检错信息进行输出(103)。终端在标注人员对音频数据标注的过程中,如果检测到标注文本出现错误则生成检错信息,可以实时提醒标注人员,以便标注人员及时改正,因此提高了标注质量。

Description

音频标注的检错方法、装置、计算机设备和存储介质
相关申请的交叉引用
本申请要求于2019年08月22日提交中国专利局,申请号为2019107773431,申请名称为“音频标注的检错方法、装置、计算机设备和存储介质”的中国专利申请的优先权,其全部内容通过引用结合在本发明中。
技术领域
本申请涉及文本处理技术领域,特别是涉及一种音频标注的检错方法、装置、计算机设备和存储介质。
背景技术
随着科技的发展,自动语音识别(Automatic Speech Recognition,ASR)技术逐渐应用到各个领域中。例如,在机器人客服与用户交互时,机器人客服接收用户输入的语音,采用深度学习模型将音频数据转换为文本数据,然后再对文本数据进行处理。
通常情况下,需要大量的训练样本才能训练出深度学习模型,而训练样本一般是由标注人员对音频数据进行文本标注,建立音频数据和文本数据之间的对应关系得到的。
但是,标注人员每天需要处理大量的音频数据,从事反复枯燥的标注工作容易出现标注错误的情况。即使有审核人员对标注结果进行审核,也有可能得到错误的训练样本,使得训练出的深度学习模型不够准确。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高标注质量的音频标注的检错方法、装置、计算机设备和存储介质。
第一方面,本发明实施例提供了一种音频标注的检错方法,该方法包括:
获取标注人员对音频数据进行标注后得到的标注文本;
对标注文本进行检错,当通过检错确定标注文本中的词语出现错误和标注文本中的语句出现错误中的至少一种时,生成检错信息;
对检错信息进行输出。
在其中一个实施例中,上述当通过检错确定标注文本中的词语出现错误和标注文本中的语句出现错误中的至少一种时,生成检错信息,包括:
对标注文本进行分词,得到标注文本包括的多个词语;
在预先建立的正确词表中分别查找标注文本包括的各个词语;
当通过查找确定标注文本包括的多个词语中存在错误词语时,基于错误词语生成检错 信息;错误词语为未记录于正确词表中的词语。
在其中一个实施例中,上述基于错误词语生成检错信息,包括:
在正确词表中查找多个参考词语;参考词语与错误词语的编辑距离在预设编辑距离内,编辑距离包括拼音编辑距离以及词汇编辑距离中的至少一种;
生成包含多个参考词语的检错信息。
在其中一个实施例中,上述当通过检错确定标注文本中的词语出现错误和标注文本中的语句出现错误中的至少一种时,生成检错信息,包括:
将由标注文本包括的多个词语组成的第一词语序列输入到预先训练的神经网络检错模型中,得到神经网络检错模型输出的第一词语序列对应的概率信息;概率信息用于指示词语序列正确的概率;
若第一词语序列对应的概率信息低于预设概率值,则生成检错信息。
在其中一个实施例中,上述若第一词语序列对应的概率信息低于预设概率值,则生成检错信息,包括:
在第一词语序列对应的概率信息低于预设概率值时,分别采用多个参考词语替换错误词语,得到多个第二词语序列;
分别将多个第二词语序列输入到神经网络检错模型中,得到各第二词语序列对应的概率信息;
根据参考词语与第二词语序列的对应关系和各第二词语序列对应的概率信息,生成包含多个参考词语的检错信息。
在其中一个实施例中,在上述得到神经网络检错模型输出的第一词语序列对应的概率信息之后,该方法还包括:
若第一词语序列对应的概率信息不低于预设概率值,则停止输出检错信息,并将错误词语添加到正确词表中。
在其中一个实施例中,上述当通过检错确定标注文本中的词语出现错误和标注文本中的语句出现错误中的至少一种时,生成检错信息,包括:
通过搜索引擎搜索由标注文本包括的多个词语组成的第一词语序列,得到与第一词语序列匹配的搜索结果;
若搜索结果的数量小于预设数量,则生成检错信息。
在其中一个实施例中,上述若搜索结果的数量小于预设数量,则生成检错信息,包括:
在搜索结果的数量小于预设数量时,从第一词语序列中删除错误词语,得到第三词语序列;
通过搜索引擎搜索第三词语序列,得到多个与第三词语序列同时出现的共现词语;
生成包含多个共现词语的检错信息。
在其中一个实施例中,在上述得到与第一词语序列匹配的搜索结果之后,该方法还包括:
若搜索结果的数量不小于预设数量,则停止输出检错信息,并将错误词语添加到正确词表中。
第二方面,本发明实施例提供了一种音频标注的检错装置,该装置包括:
标注文本获取模块,用于获取标注人员对音频数据进行标注后得到的标注文本;
检错模块,用于对标注文本进行检错,当通过检错确定标注文本中的词语出现错误和标注文本中的语句出现错误中的至少一种时,生成检错信息;
检错信息输出模块,用于对检错信息进行输出。
在其中一个实施例中,上述检错模块包括:
分词子模块,用于对标注文本进行分词,得到标注文本包括的多个词语;
词语查找子模块,用于在预先建立的正确词表中分别查找标注文本包括的各个词语;
第一检错信息生成子模块,用于当通过查找确定标注文本包括的多个词语中存在错误词语时,基于错误词语生成检错信息;错误词语为未记录于正确词表中的词语。
在其中一个实施例中,上述第一检错信息生成子模块,具体用于在正确词表中查找多个参考词语;参考词语与错误词语的编辑距离在预设编辑距离内,编辑距离包括拼音编辑距离以及词汇编辑距离中的至少一种;生成包含多个参考词语的检错信息。
在其中一个实施例中,上述检错模块包括:
概率信息输出子模块,用于将由标注文本包括的多个词语组成的第一词语序列输入到预先训练的神经网络检错模型中,得到神经网络检错模型输出的第一词语序列对应的概率信息;概率信息用于指示词语序列正确的概率;
第二检错信息生成子模块,用于若第一词语序列对应的概率信息低于预设概率值,则生成检错信息。
在其中一个实施例中,上述第二检错信息生成子模块,具体用于在第一词语序列对应的概率信息低于预设概率值时,分别采用多个参考词语替换错误词语,得到多个第二词语序列;分别将多个第二词语序列输入到神经网络检错模型中,得到各第二词语序列对应的概率信息;根据参考词语与第二词语序列的对应关系和各第二词语序列对应的概率信息,生成包含多个参考词语的检错信息。
在其中一个实施例中,该装置还包括:
第一停止输出模块,用于若第一词语序列对应的概率信息不低于预设概率值,则停止输出检错信息,并将错误词语添加到正确词表中。
在其中一个实施例中,上述检错模块包括:
搜索子模块,用于通过搜索引擎搜索由标注文本包括的多个词语组成的第一词语序列,得到与第一词语序列匹配的搜索结果;
第三检错信息生成子模块,用于若搜索结果的数量小于预设数量,则生成检错信息。
在其中一个实施例中,上述第三检错信息生成子模块,具体用于在搜索结果的数量小于预设数量时,从第一词语序列中删除错误词语,得到第三词语序列;通过搜索引擎搜索 第三词语序列,得到多个与第三词语序列同时出现的共现词语;生成包含多个共现词语的检错信息。
在其中一个实施例中,该装置还包括:
第二停止输出模块,用于若搜索结果的数量不小于预设数量,则停止输出检错信息,并将错误词语添加到正确词表中。
第三方面,本发明实施例提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如上述方法中的步骤。
第四方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述方法中的步骤。
上述音频标注的检错方法、装置、计算机设备和存储介质,获取标注人员对音频数据进行标注后得到的标注文本;对标注文本进行检错,当通过检错确定标注文本中的词语出现错误和标注文本中的语句出现错误中的至少一种时,生成检错信息;对检错信息进行输出。通过本发明实施例,终端在标注人员对音频数据标注的过程中,对标注文本进行检错,如果出现错误则生成检错信息并提示标注人员,以便标注人员可以及时改正,从而提高了标注质量,进而提高了训练样本的质量。
附图说明
图1为一个实施例中音频标注的检错方法的应用环境图;
图2为一个实施例中音频标注的检错方法的流程示意图;
图3为一个实施例中当通过检错确定标注文本中出现错误时,生成检错信息步骤的流程示意图之一;
图4为一个实施例中当通过检错确定标注文本中出现错误时,生成检错信息步骤的流程示意图之二;
图5为一个实施例中当通过检错确定标注文本中出现错误时,生成检错信息步骤的流程示意图之三;
图6为另一个实施例中音频标注的检错方法的流程示意图;
图7为一个实施例中音频标注的检错装置的结构框图;
图8为一个实施例中计算机设备的内部结构图。
具体实施例方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅用以解释本申请,并不用于限定本申请。
本申请提供的音频标注的检错方法,可以应用于如图1所示的应用环境中。该应用环境包括终端01,标注人员通过终端01对音频数据进行标注。其中,终端01可以但不限 于是各种个人计算机、笔记本电脑、智能衣服、平板电脑和便携式可穿戴设备。
在一个实施例中,如图2所示,提供了一种音频标注的检错方法,以该方法应用于图1中的终端为例进行说明,包括以下步骤:
步骤101,获取标注人员对音频数据进行标注后得到的标注文本。
本实施例中,标注人员对音频数据进行标注时,向终端中输入与音频数据对应的标注文本。具体地,终端检测到标注人员在文本框中输入标注文本,如果标注文本超过预设时长没有变化,则确定这段音频数据标注完成。
例如,标注人员在文本框中输入“它的衣服不见了”,这段标注文本超出500毫秒未发生变化,则得到与音频数据的对应的标注文本“它的衣服不见了”。本发明实施例对预设时长不作详细限定,可以根据实际情况进行设置。
步骤102,对标注文本进行检错,当通过检错确定标注文本中的词语出现错误和标注文本中的语句出现错误中的至少一种时,生成检错信息。
本实施例中,在获取到标注文本后,对标注文本进行检错。具体地,检查标注文本中是否有词语、语句出现错误。如果标注文本中的词语出现错误,或者标注文本中的语句出现错误,或者标注文本中的词语和语句均出现错误,则生成检错信息。
例如,获取到的标注文本为“它的衣服不见了”,对该标注文本进行检错,发现“它的”这个词语出现错误,则基于“它的”生成检错信息。其中,检错信息可以是提示将“它的”更换为“他的”或者“她的”。
步骤103,对检错信息进行输出。
本实施例中,在生成检错信息后,输出检错信息,以便在标注人员的标注过程中实时提醒标注人员。例如,在终端上显示“他的”和“她的”,以提示标注人员“它的”出现错误。本发明实施例对显示方式不作详细限定,可以根据实际情况进行设置。
上述音频标注的检错方法中,获取标注人员对音频数据进行标注后得到的标注文本;对标注文本进行检错,当通过检错确定标注文本中的词语出现错误和标注文本中的语句出现错误中的至少一种时,生成检错信息;对检错信息进行输出。通过本发明实施例,终端在标注人员对音频数据标注的过程中,对标注文本进行检错,如果出现错误则生成检错信息并提示标注人员,以便标注人员可以及时改正,从而提高了标注质量,进而提高了训练样本的质量。
在另一个实施例中,如图3所示,本实施例涉及的是当通过检错确定标注文本中的词语出现错误和标注文本中的语句出现错误中的至少一种时,生成检错信息的一种可选的过程。在上述图2所示实施例的基础上,上述步骤102具体可以包括以下步骤:
步骤201,对标注文本进行分词,得到标注文本包括的多个词语。
本实施例中,在对标注文本进行检错时,可以先对标注文本进行分词,得到标注文本包括的多个词语。例如,将“它的衣服不见了”分成“它的、衣服、不、见、了”。本发 明实施例对分词方式不作详细限定,可以根据实际情况进行设置。
步骤202,在预先建立的正确词表中分别查找标注文本包括的各个词语。
本实施例中,在终端中可以预先设置语料库,语料库中存储有大量的语句、词语、词组等。在进行检错前,终端根据语料库建立正确词表。然后,在检错过程中,终端在对标注文本进行分词完毕后,从正确词表中查找标注文本包括的各个词语。例如,从正确词表中分别查找“它的”、“衣服”、“不”、“见”、“了”。
步骤203,当通过查找确定标注文本包括的多个词语中存在错误词语时,基于错误词语生成检错信息;错误词语为未记录于正确词表中的词语。
本实施例中,如果在正确词表中未查找到词语,则确定该词语为错误词语;然后,根据错误词语生成检错信息。例如,在正确词表中未查找到“它的”,则“它的”为错误词语,根据“它的”生成检错信息。
可选地,基于错误词语生成检错信息的步骤可以包括:在正确词表中查找多个参考词语;参考词语与错误词语的编辑距离在预设编辑距离内,编辑距离包括拼音编辑距离以及词汇编辑距离中的至少一种;生成包含多个参考词语的检错信息。
具体地,计算正确词表中各个词语与错误词语之间的编辑距离,如果一个词语与错误词语的编辑距离在预设编辑距离内,则将该词语确定为参考词语;如果多个词语与错误词语的编辑距离均在预设编辑距离内,则将多个词语均确定为参考词语。例如,预设编辑距离为3,错误词语为“它的”,正确词表中的“他的”与错误词语“它的”的编辑距离为1,则将“他的”确定为参考词语;正确词表中的“她的”与错误词语“它的”的编辑距离也为1,则将“她的”也确定为参考词语。得到参考词语后,生成包含多个参考词语的检错信息。例如,得到参考词语“他的”“她的”后,生成的检错信息包括“他的”“她的”。
或者,计算正确词表中各个词语与错误词语之间的编辑距离,根据编辑距离的大小对词表中的词语进行排序,选取编辑距离较小的预设个数的词语作为参考词语。例如,错误词语为“它的”,正确词表中“他的”和“她的”与错误词语“它的”之间的编辑距离均为1,正确词表中的“他们的”与错误词语“它的”之间的编辑距离为2;按照编辑距离的大小对“他的”、“她的”和“他们的”进行排序,从“他的”、“她的”和“他们的”中选取2个词语作为参考词语,则将“他的”、“她的”作为参考词语;从“他的”、“她的”和“他们的”中选取3个词语作为参考词语,则将“他的”、“她的”和“他们的”均作为参考词语。在得到参考词语后,生成包含多个参考词语的检错信息。例如,得到“他的”“她的”为参考词语后,生成的检错信息包括“他的”“她的”。
上述当确定标注文本出现错误时,生成检错信息的步骤中,对标注文本进行分词,得到标注文本包括的多个词语;在预先建立的正确词表中分别查找标注文本包括的各个词语;当通过查找确定标注文本包括的多个词语中存在错误词语时,基于错误词语生成检错信息;错误词语为未记录于正确词表中的词语。本发明实施例中,通过预先建立的正确词表确定标注文本中的错误词语,并根据正确词表确定参考词语,然后生成包括参考词语的 检错信息。由于正确词表中包括了大量常用词语,可以使检错比较容易实现,并且还提供了可对错误词语进行替换的参考词语,如果标注人员对标注文本进行改正,也很容易操作。
在另一个实施例中,如图4所示,本实施例涉及的是当通过检错确定标注文本中的词语出现错误和标注文本中的语句出现错误中的至少一种时,生成检错信息的一种可选的过程。在上述图3所示实施例的基础上,还可以包括以下步骤:
步骤301,将由标注文本包括的多个词语组成的第一词语序列输入到预先训练的神经网络检错模型中,得到神经网络检错模型输出的第一词语序列对应的概率信息;概率信息用于指示词语序列正确的概率。
本实施例中,在生成包括多个参考词语的检错信息后,输出检错信息。如果标注人员并没有根据检错信息修改标注文本,则将第一词语序列输入到预先训练的神经网络检错模型,其中第一词语序列由标注文本包括的多个词语组成。之后,神经网络检错模型输出第一词语序列对应的概率信息,即输出第一词语序列正确的概率。
例如,将第一词语序列“它的、衣服、不、见、了”输入到神经网络检错模型中,神经网络检错模型输出第一词语序列对应的概率信息为0.93。其中,神经网络检错模型可以是双向循环神经网络(Bi-RNN)模型,本发明实施例对此不作详细限定,可以根据实际情况进行设置。
在得到第一词语序列的概率信息后,如果第一词语序列对应的概率信息低于预设概率值,则执行步骤302,如果第一词语序列对应的概率信息不低于预设概率值,则执行步骤303。
步骤302,若第一词语序列对应的概率信息低于预设概率值,则生成检错信息。
本实施例中,如果第一词语序列对应的概率信息低于预设概率值,则表明第一词语序列正确的概率较低。例如,第一词语序列“它的、衣服、不、见、了”对应的概率信息为0.93,低于预设概率值0.96,确定第一词语序列正确的概率较低。也即是说,标注人员未对标注文本进行修改,标注文本包括的多个词语中仍然存在错误,需要生成检错信息。
可选地,生成检错信息的步骤可以包括:在第一词语序列对应的概率信息低于预设概率值时,分别采用多个参考词语替换错误词语,得到多个第二词语序列;分别将多个第二词语序列输入到神经网络检错模型中,得到各第二词语序列对应的概率信息;根据参考词语与第二词语序列的对应关系和各第二词语序列对应的概率信息,生成包含多个参考词语的检错信息。
例如,第一词语序列“它的、衣服、不、见、了”对应的概率信息为0.93,低于预设概率值0.96,参考词语为“他的”和“她的”,则用“他的”替换“它的”得到一个第二词语序列“他的、衣服、不、见、了”,用“她的”替换“它的”得到另一个第二词语序列“她的、衣服、不、见、了”。然后,将“他的、衣服、不、见、了”输入到神经网络检错模型中,得到第二词语序列“他的、衣服、不、见、了”对应的概率信息为0.97;将 “她的、衣服、不、见、了”输入到神经网络检错模型中,得到第二词语序列“她的、衣服、不、见、了”对应的概率信息为0.98。根据概率信息的大小对两个第二词语序列进行排序,由于参考词语与第二词语序列具有对应关系,则对两个第二词语序列进行排序后,得到参考词语的顺序为“她的”和“他的”。最后,生成检错信息“她的”和“他的”。
步骤303,若第一词语序列对应的概率信息不低于预设概率值,则停止输出检错信息,并将错误词语添加到正确词表中。
本实施例中,如果第一词语序列对应的概率信息不低于预设概率值,表明第一词语序列正确的概率较高,也就是说标注人员未对标注文本进行修改的操作是正确的。此时,停止输出检错信息,并将错误词语添加到正确词表中。
例如,第一词语序列对应的概率信息为0.98,不低于预设概率值0.96,则停止输出检错信息“他的”和“她的”,并将错误词语“它的”添加到正确词表中,以便后续可以在正确词表中查找到词语“它的”。
上述当确定标注文本出现错误时,生成检错信息的步骤中,将由标注文本包括的多个词语组成的第一词语序列输入到预先训练的神经网络检错模型中,得到神经网络检错模型输出的第一词语序列对应的概率信息;若第一词语序列对应的概率信息低于预设概率值,则生成检错信息;若第一词语序列对应的概率信息不低于预设概率值,则停止输出检错信息,并将错误词语添加到正确词表中。通过本发明实施例,在根据正确词表得到错误词语和参考词语后,如果标注人员未对标注文本进行修改,则采用神经网络检错模型对标注文本再次进行检错,采用两级检错,可以提高检错的准确率,从而使标注文本更加准确。
在另一个实施例中,如图5所示,本实施例涉及的是当通过检错确定标注文本中的词语出现错误和标注文本中的语句出现错误中的至少一种时,生成检错信息的一种可选的过程。在上述图3所示实施例的基础上,还可以包括以下步骤:
步骤401,通过搜索引擎搜索由标注文本包括的多个词语组成的第一词语序列,得到与第一词语序列匹配的搜索结果。
本实施例中,在生成包括多个参考词语的检错信息后,输出检错信息。如果标注人员并没有根据检错信息修改标注文本,可以通过搜索引擎搜索第一词语序列,其中第一词语序列是由标注文本包括的多个词语组成的。搜索引擎搜索出与第一词语序列完全匹配的搜索结果。
例如,通过搜索引擎搜索第一词语序列“它的、衣服、不、见、了”,得到完全匹配的搜索结果。本发明实施例对搜索引擎不作详细限定,可以根据实际情况进行设置。
如果搜索结果的数量小于预设数量,则执行步骤402;如果搜索结果的数量不小于预设数量,则执行步骤403。
步骤402,若搜索结果的数量小于预设数量,则生成检错信息。
本实施例中,如果搜索结果的数量小于预设数量,说明第一词语序列正确的概率较低, 则生成检错信息。
可选地,生成检错信息的步骤可以包括:在搜索结果的数量小于预设数量时,从第一词语序列中删除错误词语,得到第三词语序列;通过搜索引擎搜索第三词语序列,得到多个与第三词语序列同时出现的共现词语;生成包含多个共现词语的检错信息。
例如,搜索结果的数量为30,小于预设数量50,则从第一词语序列中删除“它的”,得到第三词语序列“衣服、不、见、了”;然后通过搜索引擎搜索“衣服、不、见、了”,得到与“衣服、不、见、了”同时出现的共现词语“他的”、“她的”、“他们的”等,则生成包含“他的”、“她的”、“他们的”的检错信息。
步骤403,若搜索结果的数量不小于预设数量,则停止输出检错信息,并将错误词语添加到正确词表中。
本实施例中,如果搜索结果的数量不小于预设数量,表明第一词语序列正确的概率较高,此时停止输出检错信息,并将错误词语添加到正确词表中。例如,停止输出包含“他的”“她的”的检错信息,并将“它的”添加到正确词表中。
上述当确定标注文本出现错误时,通过搜索引擎搜索由标注文本包括的多个词语组成的第一词语序列,得到与第一词语序列匹配的搜索结果;若搜索结果的数量小于预设数量,则生成检错信息;若搜索结果的数量不小于预设数量,则停止输出检错信息,并将错误词语添加到正确词表中。通过本发明实施例,在根据正确词表得到错误词语和参考词语后,如果标注人员未对标注文本进行修改,则采搜索引擎对标注文本再次进行检错,采用两级检错,可以提高检错的准确率,从而使标注文本更加准确。
在另一个实施例中,如图6所示,本实施例涉及的音频标注的检错方法的一种可选的过程。在上述实施例的基础上,具体可以包括以下步骤:
步骤501,获取标注人员对音频数据进行标注后得到的标注文本。
步骤502,对标注文本进行分词,得到标注文本包括的多个词语。
步骤503,在预先建立的正确词表中分别查找标注文本包括的各个词语。
步骤504,当通过查找确定标注文本包括的多个词语中存在错误词语时,基于错误词语生成检错信息;错误词语为未记录于正确词表中的词语。
可选地,在正确词表中查找多个参考词语;参考词语与错误词语的编辑距离在预设编辑距离内,编辑距离包括拼音编辑距离以及词汇编辑距离中的至少一种;生成包含多个参考词语的检错信息。
步骤505,对检错信息进行输出。
步骤506,将由标注文本包括的多个词语组成的第一词语序列输入到预先训练的神经网络检错模型中,得到神经网络检错模型输出的第一词语序列对应的概率信息;概率信息用于指示词语序列正确的概率。
本实施例中,如果第一词语序列对应的概率信息低于预设概率值,则执行步骤507; 如果第一词语序列对应的概率信息不低于预设概率值,则执行步骤508。
步骤507,若第一词语序列对应的概率信息低于预设概率值,则生成检错信息。
可选地,在第一词语序列对应的概率信息低于预设概率值时,分别采用多个参考词语替换错误词语,得到多个第二词语序列;分别将多个第二词语序列输入到神经网络检错模型中,得到各第二词语序列对应的概率信息;根据参考词语与第二词语序列的对应关系和各第二词语序列对应的概率信息,生成包含多个参考词语的检错信息。
步骤508,若第一词语序列对应的概率信息不低于预设概率值,则停止输出检错信息,并将错误词语添加到正确词表中。
步骤509,通过搜索引擎搜索由标注文本包括的多个词语组成的第一词语序列,得到与第一词语序列匹配的搜索结果。
本实施例中,如果搜索结果的数量小于预设数量,则执行步骤510;如果搜索结果的数量不小于预设数量,则执行步骤511。
步骤510,若搜索结果的数量小于预设数量,则生成检错信息。
可选地,若搜索结果的数量小于预设数量,则生成检错信息,包括:在搜索结果的数量小于预设数量时,从第一词语序列中删除错误词语,得到第三词语序列;通过搜索引擎搜索第三词语序列,得到多个与第三词语序列同时出现的共现词语;生成包含多个共现词语的检错信息。
步骤511,若搜索结果的数量不小于预设数量,则停止输出检错信息,并将错误词语添加到正确词表中。
上述音频标注的检错方法中,获取标注人员对音频数据进行标注后得到的标注文本;对标注文本进行分词,得到标注文本包括的多个词语;在预先建立的正确词表中分别查找标注文本包括的各个词语;当通过查找确定标注文本包括的多个词语中存在错误词语时,基于错误词语生成检错信息;对检错信息进行输出。如果标注人员未对标注文本进行修改,则将由标注文本包括的多个词语组成的第一词语序列输入到预先训练的神经网络检错模型中,得到神经网络检错模型输出的第一词语序列对应的概率信息;若第一词语序列对应的概率信息低于预设概率值,则生成检错信息;若第一词语序列对应的概率信息不低于预设概率值,则停止输出检错信息,并将错误词语添加到正确词表中。如果标注人员仍未对标注文本进行修改,则通过搜索引擎搜索由标注文本包括的多个词语组成的第一词语序列,得到与第一词语序列匹配的搜索结果;若搜索结果的数量小于预设数量,则生成检错信息;若搜索结果的数量不小于预设数量,则停止输出检错信息,并将错误词语添加到正确词表中。通过本发明实施例,采用三级检错,可以对标注人员进行多次提醒,提高检错的准确率,从而使标注文本更加准确,进而使深度学习模型更加准确。
应该理解的是,虽然图2-6的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-6中的至少一 部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图7所示,提供了一种音频标注的检错装置,包括:
标注文本获取模块601,用于获取标注人员对音频数据进行标注后得到的标注文本;
检错模块602,用于对标注文本进行检错,当通过检错确定标注文本中的词语出现错误和标注文本中的语句出现错误中的至少一种时,生成检错信息;
检错信息输出模块603,用于对检错信息进行输出。
在其中一个实施例中,上述检错模块602包括:
分词子模块,用于对标注文本进行分词,得到标注文本包括的多个词语;
词语查找子模块,用于在预先建立的正确词表中分别查找标注文本包括的各个词语;
第一检错信息生成子模块,用于当通过查找确定标注文本包括的多个词语中存在错误词语时,基于错误词语生成检错信息;错误词语为未记录于正确词表中的词语。
在其中一个实施例中,上述第一检错信息生成子模块,具体用于在正确词表中查找多个参考词语;参考词语与错误词语的编辑距离在预设编辑距离内,编辑距离包括拼音编辑距离以及词汇编辑距离中的至少一种;生成包含多个参考词语的检错信息。
在其中一个实施例中,上述检错模块602包括:
概率信息输出子模块,用于将由标注文本包括的多个词语组成的第一词语序列输入到预先训练的神经网络检错模型中,得到神经网络检错模型输出的第一词语序列对应的概率信息;概率信息用于指示词语序列正确的概率;
第二检错信息生成子模块,用于若第一词语序列对应的概率信息低于预设概率值,则生成检错信息。
在其中一个实施例中,上述第二检错信息生成子模块,具体用于在第一词语序列对应的概率信息低于预设概率值时,分别采用多个参考词语替换错误词语,得到多个第二词语序列;分别将多个第二词语序列输入到神经网络检错模型中,得到各第二词语序列对应的概率信息;根据参考词语与第二词语序列的对应关系和各第二词语序列对应的概率信息,生成包含多个参考词语的检错信息。
在其中一个实施例中,该装置还包括:
第一停止输出模块,用于若第一词语序列对应的概率信息不低于预设概率值,则停止输出检错信息,并将错误词语添加到正确词表中。
在其中一个实施例中,上述检错模块602包括:
搜索子模块,用于通过搜索引擎搜索由标注文本包括的多个词语组成的第一词语序列,得到与第一词语序列匹配的搜索结果;
第三检错信息生成子模块,用于若搜索结果的数量小于预设数量,则生成检错信息。
在其中一个实施例中,上述第三检错信息生成子模块,具体用于在搜索结果的数量小于预设数量时,从第一词语序列中删除错误词语,得到第三词语序列;通过搜索引擎搜索第三词语序列,得到多个与第三词语序列同时出现的共现词语;生成包含多个共现词语的检错信息。
在其中一个实施例中,该装置还包括:
第二停止输出模块,用于若搜索结果的数量不小于预设数量,则停止输出检错信息,并将错误词语添加到正确词表中。
关于音频标注的检错装置的具体限定可以参见上文中对于音频标注的检错方法的限定,在此不再赘述。上述音频标注的检错装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图8示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***和计算机程序。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种音频标注的检错方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图8示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
获取标注人员对音频数据进行标注后得到的标注文本;
对标注文本进行检错,当通过检错确定标注文本中的词语出现错误和标注文本中的语句出现错误中的至少一种时,生成检错信息;
对检错信息进行输出。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
对标注文本进行分词,得到标注文本包括的多个词语;
在预先建立的正确词表中分别查找标注文本包括的各个词语;
当通过查找确定标注文本包括的多个词语中存在错误词语时,基于错误词语生成检错信息;错误词语为未记录于正确词表中的词语。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
在正确词表中查找多个参考词语;参考词语与错误词语的编辑距离在预设编辑距离内,编辑距离包括拼音编辑距离以及词汇编辑距离中的至少一种;
生成包含多个参考词语的检错信息。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
将由标注文本包括的多个词语组成的第一词语序列输入到预先训练的神经网络检错模型中,得到神经网络检错模型输出的第一词语序列对应的概率信息;概率信息用于指示词语序列正确的概率;
若第一词语序列对应的概率信息低于预设概率值,则生成检错信息。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
在第一词语序列对应的概率信息低于预设概率值时,分别采用多个参考词语替换错误词语,得到多个第二词语序列;
分别将多个第二词语序列输入到神经网络检错模型中,得到各第二词语序列对应的概率信息;
根据参考词语与第二词语序列的对应关系和各第二词语序列对应的概率信息,生成包含多个参考词语的检错信息。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
若第一词语序列对应的概率信息不低于预设概率值,则停止输出检错信息,并将错误词语添加到正确词表中。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
通过搜索引擎搜索由标注文本包括的多个词语组成的第一词语序列,得到与第一词语序列匹配的搜索结果;
若搜索结果的数量小于预设数量,则生成检错信息。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
在搜索结果的数量小于预设数量时,从第一词语序列中删除错误词语,得到第三词语序列;
通过搜索引擎搜索第三词语序列,得到多个与第三词语序列同时出现的共现词语;
生成包含多个共现词语的检错信息。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
若搜索结果的数量不小于预设数量,则停止输出检错信息,并将错误词语添加到正确词表中。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机 程序被处理器执行时实现以下步骤:
获取标注人员对音频数据进行标注后得到的标注文本;
对标注文本进行检错,当通过检错确定标注文本中的词语出现错误和标注文本中的语句出现错误中的至少一种时,生成检错信息;
对检错信息进行输出。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
对标注文本进行分词,得到标注文本包括的多个词语;
在预先建立的正确词表中分别查找标注文本包括的各个词语;
当通过查找确定标注文本包括的多个词语中存在错误词语时,基于错误词语生成检错信息;错误词语为未记录于正确词表中的词语。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
在正确词表中查找多个参考词语;参考词语与错误词语的编辑距离在预设编辑距离内,编辑距离包括拼音编辑距离以及词汇编辑距离中的至少一种;
生成包含多个参考词语的检错信息。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
将由标注文本包括的多个词语组成的第一词语序列输入到预先训练的神经网络检错模型中,得到神经网络检错模型输出的第一词语序列对应的概率信息;概率信息用于指示词语序列正确的概率;
若第一词语序列对应的概率信息低于预设概率值,则生成检错信息。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
在第一词语序列对应的概率信息低于预设概率值时,分别采用多个参考词语替换错误词语,得到多个第二词语序列;
分别将多个第二词语序列输入到神经网络检错模型中,得到各第二词语序列对应的概率信息;
根据参考词语与第二词语序列的对应关系和各第二词语序列对应的概率信息,生成包含多个参考词语的检错信息。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
若第一词语序列对应的概率信息不低于预设概率值,则停止输出检错信息,并将错误词语添加到正确词表中。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
通过搜索引擎搜索由标注文本包括的多个词语组成的第一词语序列,得到与第一词语序列匹配的搜索结果;
若搜索结果的数量小于预设数量,则生成检错信息。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
在搜索结果的数量小于预设数量时,从第一词语序列中删除错误词语,得到第三词语 序列;
通过搜索引擎搜索第三词语序列,得到多个与第三词语序列同时出现的共现词语;
生成包含多个共现词语的检错信息。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
若搜索结果的数量不小于预设数量,则停止输出检错信息,并将错误词语添加到正确词表中。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (12)

  1. 一种音频标注的检错方法,其特征在于,所述方法包括:
    获取标注人员对音频数据进行标注后得到的标注文本;
    对所述标注文本进行检错,当通过检错确定所述标注文本中的词语出现错误和所述标注文本中的语句出现错误中的至少一种时,生成检错信息;
    对所述检错信息进行输出。
  2. 根据权利要求1所述的方法,其特征在于,所述当通过检错确定所述标注文本中的词语出现错误和所述标注文本中的语句出现错误中的至少一种时,生成检错信息,包括:
    对所述标注文本进行分词,得到所述标注文本包括的多个词语;
    在预先建立的正确词表中分别查找所述标注文本包括的各个词语;
    当通过查找确定所述标注文本包括的多个词语中存在错误词语时,基于所述错误词语生成所述检错信息;所述错误词语为未记录于所述正确词表中的词语。
  3. 根据权利要求2所述的方法,其特征在于,所述基于所述错误词语生成所述检错信息,包括:
    在所述正确词表中查找多个参考词语;所述参考词语与所述错误词语的编辑距离在预设编辑距离内,所述编辑距离包括拼音编辑距离以及词汇编辑距离中的至少一种;
    生成包含多个所述参考词语的检错信息。
  4. 根据权利要求3所述的方法,其特征在于,所述当通过检错确定所述标注文本中的词语出现错误和所述标注文本中的语句出现错误中的至少一种时,生成检错信息,包括:
    将由所述标注文本包括的多个词语组成的第一词语序列输入到预先训练的神经网络检错模型中,得到所述神经网络检错模型输出的所述第一词语序列对应的概率信息;所述概率信息用于指示词语序列正确的概率;
    若所述第一词语序列对应的概率信息低于预设概率值,则生成所述检错信息。
  5. 根据权利要求4所述的方法,其特征在于,所述若所述第一词语序列对应的概率信息低于预设概率值,则生成所述检错信息,包括:
    在所述第一词语序列对应的概率信息低于所述预设概率值时,分别采用多个所述参考词语替换所述错误词语,得到多个第二词语序列;
    分别将多个所述第二词语序列输入到所述神经网络检错模型中,得到各所述第二词语序列对应的概率信息;
    根据所述参考词语与所述第二词语序列的对应关系和各所述第二词语序列对应的概率信息,生成包含多个所述参考词语的检错信息。
  6. 根据权利要求4所述的方法,其特征在于,在所述得到所述神经网络检错模型输出的所述第一词语序列对应的概率信息之后,所述方法还包括:
    若所述第一词语序列对应的概率信息不低于所述预设概率值,则停止输出所述检错信息,并将所述错误词语添加到所述正确词表中。
  7. 根据权利要求3或5所述的方法,其特征在于,所述当通过检错确定所述标注文本中的词语出现错误和所述标注文本中的语句出现错误中的至少一种时,生成检错信息,包括:
    通过搜索引擎搜索由所述标注文本包括的多个词语组成的第一词语序列,得到与所述第一词语序列匹配的搜索结果;
    若所述搜索结果的数量小于预设数量,则生成所述检错信息。
  8. 根据权利要求7所述的方法,其特征在于,所述若所述搜索结果的数量小于预设数量,则生成所述检错信息,包括:
    在所述搜索结果的数量小于所述预设数量时,从所述第一词语序列中删除所述错误词语,得到第三词语序列;
    通过所述搜索引擎搜索所述第三词语序列,得到多个与所述第三词语序列同时出现的共现词语;
    生成包含多个所述共现词语的检错信息。
  9. 根据权利要求7所述的方法,其特征在于,在所述得到与所述第一词语序列匹配的搜索结果之后,所述方法还包括:
    若所述搜索结果的数量不小于所述预设数量,则停止输出所述检错信息,并将所述错误词语添加到所述正确词表中。
  10. 一种音频标注的检错装置,其特征在于,所述装置包括:
    标注文本获取模块,用于获取标注人员对音频数据进行标注后得到的标注文本;
    检错模块,用于对所述标注文本进行检错,当通过检错确定所述标注文本中的词语出现错误和所述标注文本中的语句出现错误中的至少一种时,生成检错信息;
    检错信息输出模块,用于对所述检错信息进行输出。
  11. 一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至9中任一项所述方法的步骤。
  12. 一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至9中任一项所述的方法的步骤。
PCT/CN2019/130444 2019-08-22 2019-12-31 音频标注的检错方法、装置、计算机设备和存储介质 WO2021031505A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910777343.1 2019-08-22
CN201910777343.1A CN110532522A (zh) 2019-08-22 2019-08-22 音频标注的检错方法、装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
WO2021031505A1 true WO2021031505A1 (zh) 2021-02-25

Family

ID=68662519

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2019/130444 WO2021031505A1 (zh) 2019-08-22 2019-12-31 音频标注的检错方法、装置、计算机设备和存储介质

Country Status (2)

Country Link
CN (1) CN110532522A (zh)
WO (1) WO2021031505A1 (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110532522A (zh) * 2019-08-22 2019-12-03 深圳追一科技有限公司 音频标注的检错方法、装置、计算机设备和存储介质
CN110968730B (zh) * 2019-12-16 2023-06-09 Oppo(重庆)智能科技有限公司 音频标记处理方法、装置、计算机设备及存储介质
CN112417850B (zh) * 2020-11-12 2024-07-02 北京晴数智慧科技有限公司 音频标注的检错方法和装置
CN112669814B (zh) * 2020-12-17 2024-06-14 北京猎户星空科技有限公司 一种数据处理方法、装置、设备及介质
CN112700763B (zh) * 2020-12-26 2024-04-16 中国科学技术大学 语音标注质量评价方法、装置、设备及存储介质
CN114441029A (zh) * 2022-01-20 2022-05-06 深圳壹账通科技服务有限公司 语音标注***的录音噪音检测方法、装置、设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180351884A1 (en) * 2017-05-30 2018-12-06 Taneshia Pawelczak System and Method for Individualizing Messages
CN109902957A (zh) * 2019-02-28 2019-06-18 腾讯科技(深圳)有限公司 一种数据处理方法和装置
CN109922371A (zh) * 2019-03-11 2019-06-21 青岛海信电器股份有限公司 自然语言处理方法、设备及存储介质
CN110532522A (zh) * 2019-08-22 2019-12-03 深圳追一科技有限公司 音频标注的检错方法、装置、计算机设备和存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101655837B (zh) * 2009-09-08 2010-10-13 北京邮电大学 一种对语音识别后文本进行检错并纠错的方法
CN107977356B (zh) * 2017-11-21 2019-10-25 新疆科大讯飞信息科技有限责任公司 识别文本纠错方法及装置
CN109522558B (zh) * 2018-11-21 2024-01-12 金现代信息产业股份有限公司 一种基于深度学习的中文错字校正方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180351884A1 (en) * 2017-05-30 2018-12-06 Taneshia Pawelczak System and Method for Individualizing Messages
CN109902957A (zh) * 2019-02-28 2019-06-18 腾讯科技(深圳)有限公司 一种数据处理方法和装置
CN109922371A (zh) * 2019-03-11 2019-06-21 青岛海信电器股份有限公司 自然语言处理方法、设备及存储介质
CN110532522A (zh) * 2019-08-22 2019-12-03 深圳追一科技有限公司 音频标注的检错方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
CN110532522A (zh) 2019-12-03

Similar Documents

Publication Publication Date Title
WO2021031505A1 (zh) 音频标注的检错方法、装置、计算机设备和存储介质
CN110765763B (zh) 语音识别文本的纠错方法、装置、计算机设备和存储介质
US11586987B2 (en) Dynamically updated text classifier
CN107908635B (zh) 建立文本分类模型以及文本分类的方法、装置
WO2021000555A1 (zh) 基于知识图谱的问答方法、装置、计算机设备和存储介质
WO2021068321A1 (zh) 基于人机交互的信息推送方法、装置和计算机设备
US20200293616A1 (en) Generating a meeting review document that includes links to the one or more documents reviewed
US11720741B2 (en) Artificial intelligence assisted review of electronic documents
US9934220B2 (en) Content revision using question and answer generation
US9058317B1 (en) System and method for machine learning management
WO2021114810A1 (zh) 基于图结构的公文推荐方法、装置、计算机设备及介质
EP4018353A1 (en) Systems and methods for extracting information from a dialogue
JP2009515253A (ja) 草稿文書における編集パターンの自動検出及び適用
WO2021121158A1 (zh) 公文文件处理方法、装置、计算机设备及存储介质
US20160085741A1 (en) Entity extraction feedback
US20140075299A1 (en) Systems and methods for generating extraction models
CN112632258A (zh) 文本数据处理方法、装置、计算机设备和存储介质
US7962324B2 (en) Method for globalizing support operations
Skidmore Incremental disfluency detection for spoken learner english
US20080091694A1 (en) Transcriptional dictation
CN109670040B (zh) 写作辅助方法、装置及存储介质、计算机设备
CN113705198B (zh) 场景图生成方法、装置、电子设备及存储介质
CN113050933B (zh) 脑图数据处理方法、装置、设备及存储介质
CN114896382A (zh) 人工智能问答模型生成方法、问答方法、装置及存储介质
US11954439B2 (en) Data labeling method and device, and storage medium

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19942371

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19942371

Country of ref document: EP

Kind code of ref document: A1

122 Ep: pct application non-entry in european phase

Ref document number: 19942371

Country of ref document: EP

Kind code of ref document: A1

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205 DATED 21/09/2022)