JP2023162822A - Information processing method, information processing system, and program - Google Patents

Information processing method, information processing system, and program Download PDF

Info

Publication number
JP2023162822A
JP2023162822A JP2022073484A JP2022073484A JP2023162822A JP 2023162822 A JP2023162822 A JP 2023162822A JP 2022073484 A JP2022073484 A JP 2022073484A JP 2022073484 A JP2022073484 A JP 2022073484A JP 2023162822 A JP2023162822 A JP 2023162822A
Authority
JP
Japan
Prior art keywords
search
word
character string
target word
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022073484A
Other languages
Japanese (ja)
Inventor
真二 肥塚
Shinji Hizuka
翔太 森口
Shota MORIGUCHI
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2022073484A priority Critical patent/JP2023162822A/en
Publication of JP2023162822A publication Critical patent/JP2023162822A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

To correct a string of characters estimated by speech recognition to a string of characters in appropriate notation.SOLUTION: An information processing system comprises: a speech recognition unit 71 for obtaining a recognition string Z that is a result of speech recognition for speech data; a request transmission unit 721 for transmitting a search request Q including one or more related words other than a target word that is a proper noun included in the recognition string Z to an information retrieval system; a result receiving unit 722 for receiving a search result R in response to the search request Q from the information retrieval system; and a word replacement unit 723 for replacing the target word in the recognition string Z with an alternative word corresponding to the search result.SELECTED DRAWING: Figure 4

Description

本開示は、音声データに対応する文字列を特定する技術に関する。 The present disclosure relates to a technique for specifying a character string corresponding to audio data.

音声データに対応する文字列を推定する各種の音声認識技術が従来から提案されている。例えば特許文献1には、音声認識の認識結果に関する確信度に応じて、認識結果の各文字の強調度合を相違させる技術が開示されている。 Various speech recognition techniques for estimating character strings corresponding to speech data have been proposed in the past. For example, Patent Document 1 discloses a technique in which the degree of emphasis of each character in the recognition result is varied depending on the confidence level regarding the recognition result of voice recognition.

特開平6-131493号公報Japanese Patent Application Publication No. 6-131493

ところで、例えば人名等の固有名詞については、同音異字の関係にある多数の文字列が存在する。同音異字の関係にある複数の文字列から適切な文字列を音声認識のみで特定することは実際には困難である。なお、以上においては同音異字の文字列を便宜的に例示したが、音声認識により適切な文字列を推定できない状況は、以上の例示に限定されない。以上の事情を考慮して、本開示のひとつの態様は、音声認識により推定された文字列を適切な表記の文字列に補正することを目的とする。 By the way, for example, for proper nouns such as people's names, there are many character strings that are homophones. In reality, it is difficult to identify an appropriate character string from a plurality of character strings that are homophone-related using voice recognition alone. In addition, although the character string of a homophone and allograph was illustrated for convenience above, the situation where an appropriate character string cannot be estimated by voice recognition is not limited to the above example. In consideration of the above circumstances, one aspect of the present disclosure aims to correct a character string estimated by voice recognition to a character string with an appropriate notation.

以上の課題を解決するために、本開示のひとつの態様に係る情報処理方法は、音声データに対する音声認識の結果である認識文字列を取得することと、前記認識文字列に含まれる固有名詞である対象単語以外の1以上の関連単語を含む検索要求を情報検索システムに送信することと、前記検索要求に応じた検索結果を前記情報検索システムから受信することと、前記認識文字列における前記対象単語を前記検索結果に対応する代替単語に置換することとを含む。 In order to solve the above problems, an information processing method according to one aspect of the present disclosure includes obtaining a recognized character string that is a result of speech recognition for audio data, and identifying a proper noun included in the recognized character string. transmitting a search request including one or more related words other than a certain target word to an information retrieval system; receiving search results in response to the search request from the information retrieval system; and determining the target word in the recognized character string. and replacing words with alternative words corresponding to the search results.

本開示のひとつの態様に係る情報処理システムは、音声データに対する音声認識の結果である認識文字列を取得する文字列取得部と、前記認識文字列に含まれる固有名詞である対象単語以外の1以上の関連単語を含む検索要求を情報検索システムに送信する要求送信部と、前記検索要求に応じた検索結果を前記情報検索システムから受信する結果受信部と、前記認識文字列における前記対象単語を前記検索結果に対応する代替単語に置換する単語置換部とを具備する。 An information processing system according to one aspect of the present disclosure includes a character string acquisition unit that acquires a recognized character string that is a result of voice recognition for voice data, and a character string acquisition unit that acquires a recognized character string that is a result of speech recognition on voice data, and a a request transmitting unit that transmits a search request including the above-mentioned related words to an information retrieval system; a result receiving unit that receives a search result corresponding to the search request from the information retrieval system; and a word replacement unit that replaces the search result with an alternative word corresponding to the search result.

本開示のひとつの態様に係るプログラムは、音声データに対する音声認識の結果である認識文字列を取得する文字列取得部、前記認識文字列に含まれる固有名詞である対象単語以外の1以上の関連単語を含む検索要求を情報検索システムに送信する要求送信部、前記検索要求に応じた検索結果を前記情報検索システムから受信する結果受信部、および、前記認識文字列における前記対象単語を前記検索結果に対応する代替単語に置換する単語置換部、としてコンピュータシステムを機能させる。 A program according to one aspect of the present disclosure includes a character string acquisition unit that acquires a recognized character string that is a result of speech recognition for audio data, and one or more associations other than a target word that is a proper noun included in the recognized character string. a request transmitter that transmits a search request including a word to an information retrieval system; a result receiver that receives a search result corresponding to the search request from the information retrieval system; The computer system functions as a word replacement unit that replaces a word with an alternative word corresponding to the word.

第1実施形態における情報システムの構成を例示するブロック図である。FIG. 1 is a block diagram illustrating the configuration of an information system in a first embodiment. 端末装置の構成を例示するブロック図である。FIG. 2 is a block diagram illustrating the configuration of a terminal device. 再生画面の模式図である。FIG. 3 is a schematic diagram of a playback screen. 端末装置の機能的な構成を例示するブロック図である。FIG. 2 is a block diagram illustrating the functional configuration of a terminal device. 認識文字列を補正する動作の説明図である。FIG. 3 is an explanatory diagram of an operation for correcting a recognized character string. 制御処理の詳細な手順を例示するフローチャートである。3 is a flowchart illustrating a detailed procedure of control processing. 第2実施形態において認識文字列を補正する動作の説明図である。FIG. 7 is an explanatory diagram of an operation for correcting a recognized character string in the second embodiment. 第3実施形態における情報システムの構成を例示するブロック図である。FIG. 2 is a block diagram illustrating the configuration of an information system in a third embodiment. 制御システムの構成を例示するブロック図である。FIG. 1 is a block diagram illustrating the configuration of a control system. 第4実施形態における情報システムの構成を例示するブロック図である。FIG. 3 is a block diagram illustrating the configuration of an information system in a fourth embodiment. 第4実施形態における端末装置の機能的な構成を例示するブロック図である。FIG. 3 is a block diagram illustrating the functional configuration of a terminal device in a fourth embodiment.

A:第1実施形態
図1は、第1実施形態における情報システム100のブロック図である。情報システム100は、端末装置30の利用者に各種の情報を提供するためのコンピュータシステムであり、情報検索システム10と配信システム20と端末装置30とを具備する。端末装置30は、例えば携帯電話機、スマートフォン、タブレット端末またはパーソナルコンピュータ等の情報装置である。端末装置30は、例えばインターネット等の通信網200を介して情報検索システム10および配信システム20の各々と通信する。なお、実際には多数の端末装置30が存在するが、以下の説明では1個の端末装置30に便宜的に着目する。
A: First Embodiment FIG. 1 is a block diagram of an information system 100 in a first embodiment. The information system 100 is a computer system for providing various information to users of the terminal devices 30, and includes an information search system 10, a distribution system 20, and the terminal devices 30. The terminal device 30 is, for example, an information device such as a mobile phone, a smartphone, a tablet terminal, or a personal computer. The terminal device 30 communicates with each of the information search system 10 and the distribution system 20 via a communication network 200 such as the Internet, for example. Note that although there are actually a large number of terminal devices 30, the following explanation will focus on one terminal device 30 for convenience.

情報検索システム10は、情報検索サービスを端末装置30に提供するコンピュータシステムである。情報検索サービスは、端末装置30からの要求(以下「検索要求」という)Qに応じた情報を検索する情報サービスである。具体的には、情報検索システム10は、例えば文書またはウェブページ等の各種の情報(以下「検索情報」という)が検索候補として登録された検索データベースを参照することで、検索要求Qにより指定される単語(以下「検索キーワード」という)に対応する複数の検索情報を検索する。例えば、検索キーワードに一致または類似する単語を含む検索情報が検索される。検索要求Qに応じた検索の結果(以下「検索結果」という)Rが情報検索システム10から端末装置30に送信される。 The information search system 10 is a computer system that provides information search services to the terminal device 30. The information search service is an information service that searches for information in response to a request (hereinafter referred to as "search request") Q from the terminal device 30. Specifically, the information retrieval system 10 refers to a search database in which various types of information such as documents or web pages (hereinafter referred to as "search information") are registered as search candidates, so that the information can be specified by the search request Q. A plurality of pieces of search information corresponding to a word (hereinafter referred to as a "search keyword") are searched. For example, search information that includes words that match or are similar to the search keyword is searched. The search result (hereinafter referred to as “search result”) R in response to the search request Q is transmitted from the information search system 10 to the terminal device 30.

配信システム20は、配信コンテンツCを端末装置30に配信するコンピュータシステムである。配信コンテンツCは、多数の利用者による視聴を目的として制作された情報である。具体的には、配信コンテンツCは、動画を表す動画データVと音声の波形を表す音声データAとを含むデジタルコンテンツである。 The distribution system 20 is a computer system that distributes distribution content C to the terminal device 30. Distribution content C is information produced for the purpose of viewing by a large number of users. Specifically, the distributed content C is digital content that includes video data V representing a video and audio data A representing an audio waveform.

端末装置30は、配信コンテンツCを再生する情報処理システムである。図2は、端末装置30の構成を例示するブロック図である。端末装置30は、制御装置31と記憶装置32と通信装置33と表示装置34と放音装置35とを具備する。なお、端末装置30は、単体の装置として実現されるほか、相互に別体で構成された複数の装置でも実現される。 The terminal device 30 is an information processing system that reproduces distribution content C. FIG. 2 is a block diagram illustrating the configuration of the terminal device 30. The terminal device 30 includes a control device 31, a storage device 32, a communication device 33, a display device 34, and a sound emitting device 35. Note that the terminal device 30 is realized not only as a single device but also as a plurality of devices configured separately from each other.

制御装置31は、端末装置30の各要素を制御する単数または複数のプロセッサである。具体的には、例えばCPU(Central Processing Unit)、GPU(Graphics Processing Unit)、SPU(Sound Processing Unit)、DSP(Digital Signal Processor)、FPGA(Field Programmable Gate Array)、またはASIC(Application Specific Integrated Circuit)等の1種類以上のプロセッサにより、制御装置31が構成される。 The control device 31 is one or more processors that control each element of the terminal device 30. Specifically, for example, a CPU (Central Processing Unit), GPU (Graphics Processing Unit), SPU (Sound Processing Unit), DSP (Digital Signal Processor), FPGA (Field Programmable Gate Array), or ASIC (Application Specific Integrated Circuit) The control device 31 is configured by one or more types of processors such as the following.

記憶装置32は、制御装置31が実行するプログラムと、制御装置31が使用する各種のデータとを記憶する単数または複数のメモリである。例えば半導体記録媒体および磁気記録媒体等の公知の記録媒体、または複数種の記録媒体の組合せが、記憶装置32として利用される。なお、例えば、端末装置30に対して着脱される可搬型の記録媒体、または、制御装置31が通信網200を介してアクセス可能な記録媒体(例えばクラウドストレージ)が、記憶装置32として利用されてもよい。 The storage device 32 is one or more memories that store programs executed by the control device 31 and various data used by the control device 31. For example, a known recording medium such as a semiconductor recording medium and a magnetic recording medium, or a combination of multiple types of recording media is used as the storage device 32. Note that, for example, a portable recording medium that can be attached to and detached from the terminal device 30 or a recording medium that can be accessed by the control device 31 via the communication network 200 (for example, cloud storage) is used as the storage device 32. Good too.

通信装置33は、通信網200を介して情報検索システム10および配信システム20の各々と通信する。例えば、通信装置33は、検索要求Qを情報検索システム10に送信し、当該検索要求Qに応じた検索結果Rを情報検索システム10から受信する。また、通信装置33は、配信システム20から配信コンテンツCを受信する。なお、通信装置33と通信網200との間の通信は有線通信および無線通信の何れでもよい。また、端末装置30とは別体の通信装置33が、端末装置30に対して有線または無線により接続されてもよい。 The communication device 33 communicates with each of the information search system 10 and the distribution system 20 via the communication network 200. For example, the communication device 33 transmits a search request Q to the information search system 10, and receives a search result R corresponding to the search request Q from the information search system 10. Furthermore, the communication device 33 receives distribution content C from the distribution system 20. Note that communication between the communication device 33 and the communication network 200 may be either wired communication or wireless communication. Further, a communication device 33 separate from the terminal device 30 may be connected to the terminal device 30 by wire or wirelessly.

表示装置34は、制御装置31による制御のもとで画像を表示する。例えば、液晶表示パネルまたは有機EL(Electroluminescence)パネル等の各種の表示パネルが、表示装置34として利用される。なお、端末装置30とは別体の表示装置34が、端末装置30に対して有線または無線により接続されてもよい。 The display device 34 displays images under the control of the control device 31. For example, various display panels such as a liquid crystal display panel or an organic EL (Electroluminescence) panel are used as the display device 34. Note that a display device 34 separate from the terminal device 30 may be connected to the terminal device 30 by wire or wirelessly.

第1実施形態の表示装置34は、図3の再生画面Gを表示する。再生画面Gは、動画Mと認識文字列Zとを含む。動画Mは、配信コンテンツCの動画データVが表す映像である。認識文字列Zは、配信コンテンツCを構成する音声の発話内容を表す文字列(すなわち字幕)である。したがって、配信コンテンツCの音声の聴取が困難な聴覚障碍者が配信コンテンツCを容易に視聴できる。 The display device 34 of the first embodiment displays the playback screen G of FIG. 3. The playback screen G includes a moving image M and a recognized character string Z. The video M is a video represented by the video data V of the distributed content C. The recognized character string Z is a character string (i.e., subtitles) that represents the content of the audio utterance that constitutes the distribution content C. Therefore, a hearing-impaired person who has difficulty hearing the audio of the distributed content C can easily view the distributed content C.

図2の放音装置35は、制御装置31による制御のもとで音波を放射する。例えば、放音装置35は、配信コンテンツCの音声を再生する。放音装置35は、例えばスピーカまたはヘッドホンである。なお、端末装置30とは別体の放音装置35が、端末装置30に対して有線または無線により接続されてもよい。 The sound emitting device 35 in FIG. 2 emits sound waves under the control of the control device 31. For example, the sound emitting device 35 reproduces the audio of the distributed content C. The sound emitting device 35 is, for example, a speaker or headphones. Note that a sound emitting device 35 separate from the terminal device 30 may be connected to the terminal device 30 by wire or wirelessly.

図4は、端末装置30の機能的な構成を例示するブロック図である。制御装置31は、記憶装置32に記憶されたプログラムを実行することで複数の機能(音声認識部71および補正処理部72)を実現する。図5は、制御装置31の動作に関する説明図である。 FIG. 4 is a block diagram illustrating the functional configuration of the terminal device 30. The control device 31 implements a plurality of functions (speech recognition section 71 and correction processing section 72) by executing programs stored in the storage device 32. FIG. 5 is an explanatory diagram regarding the operation of the control device 31.

図4の音声認識部71は、配信コンテンツCの音声データAに対する音声認識により認識文字列Zを生成する。認識文字列Zは、音声データAに対する音声認識の結果であり、1個以上の単語の配列で表現される。認識文字列Zのうち漢字で表記可能な箇所は漢字で表現される。図5には、「ABC社の守口裕紀さんに字幕システムについて聞きます」という認識文字列Zが例示されている。 The voice recognition unit 71 in FIG. 4 generates a recognized character string Z by voice recognition of the voice data A of the distributed content C. The recognized character string Z is the result of voice recognition for the voice data A, and is expressed as an array of one or more words. Portions of the recognized character string Z that can be written in Kanji are expressed in Kanji. FIG. 5 shows an example of a recognized character string Z that reads, "I would like to ask Mr. Hiroki Moriguchi of ABC about the subtitle system."

音声認識部71による音声認識には公知の技術が任意に採用される。例えば音声認識には、例えばHMM(Hidden Markov Model)等の音響モデルと、言語的な制約を表す言語モデルと、多数の単語が登録された単語辞書とが利用される。音声認識部71は、認識文字列Zに加えて、認識文字列Zを構成する各単語の品詞分類と平仮名表記とを含む。品詞分類は、各単語の品詞を指定する識別情報である。例えば人名または地名等の固有名詞が品詞分類として指定される。また、平仮名表記は、各単語を表現する平仮名の文字列である。以上の説明から理解される通り、音声認識部71は、認識文字列Zを取得する要素(文字列取得部)として機能する。 A known technique is arbitrarily adopted for voice recognition by the voice recognition unit 71. For example, speech recognition uses an acoustic model such as an HMM (Hidden Markov Model), a language model representing linguistic constraints, and a word dictionary in which a large number of words are registered. In addition to the recognized character string Z, the speech recognition unit 71 includes the part-of-speech classification and hiragana notation of each word constituting the recognized character string Z. The part of speech classification is identification information that specifies the part of speech of each word. For example, a proper noun such as a person's name or a place name is designated as a part of speech classification. Furthermore, hiragana notation is a hiragana character string that represents each word. As understood from the above description, the speech recognition unit 71 functions as an element (character string acquisition unit) that acquires the recognized character string Z.

音声認識により固有名詞の漢字表記まで正確に推定することは実際には困難である。すなわち、認識文字列Zの複数の単語のうち品詞分類が固有名詞(特に人名)である単語(以下「対象単語」という)Xについては、適正な文字列に対して同音異字の関係にある文字列が推定される可能性が高い。すなわち、対象単語Xの漢字表記は間違いである可能性がある。以上の事情を考慮して、図4の補正処理部72は、認識文字列Zの対象単語Xを、当該対象単語Xと同音異字の関係にある単語(以下「代替単語」という)Yに置換する。すなわち、認識文字列Zの対象単語Xが、漢字表記が相違する代替単語Yに置換される。以下の説明においては、対象単語Xとして人名を想定する。したがって、代替単語Yは、対象単語Xと同音異字の関係にある人名である。図5においては、「守口裕紀」という人名が対象単語Xとして例示され、当該対象単語Xとは漢字表記が相違する「森口優樹」という人名が代替単語Yとして例示されている。 In reality, it is difficult to accurately estimate the kanji transcription of proper nouns using speech recognition. In other words, for words (hereinafter referred to as "target words") X whose part-of-speech classification is a proper noun (particularly a person's name) among the plural words in the recognized character string Z, characters that have a homophone and allograph relationship with the proper character string column is likely to be estimated. In other words, the kanji notation of the target word X may be incorrect. Considering the above circumstances, the correction processing unit 72 in FIG. 4 replaces the target word X of the recognized character string Z with a word Y that has a homophone and allograph relationship with the target word do. That is, the target word X of the recognized character string Z is replaced with an alternative word Y whose kanji notation is different. In the following description, it is assumed that the target word X is a person's name. Therefore, the alternative word Y is a person's name that has a homophone and allograph relationship with the target word X. In FIG. 5, the person's name "Yuki Moriguchi" is exemplified as the target word X, and the person's name "Yuki Moriguchi", which has a different kanji notation from the target word X, is exemplified as the alternative word Y.

図4に例示される通り、補正処理部72は、要求送信部721と結果受信部722と単語置換部723とを含む。 As illustrated in FIG. 4, the correction processing section 72 includes a request transmission section 721, a result reception section 722, and a word replacement section 723.

要求送信部721は、検索要求Qを通信装置33から情報検索システム10に送信する。検索要求Qは、当該検索要求Qにより指定される検索キーワードを含む検索情報の検索を要求するクエリである。検索要求Qは、認識文字列Zに含まれる対象単語Xと、当該認識文字列Zに含まれる1個以上の関連単語Wとを検索キーワードとして指定する。検索要求Qにおいては、図5に例示される通り、平仮名表記の対象単語Xが指定される。したがって、対象単語Xの漢字表記に依存しない検索結果Rを取得できる。関連単語Wは、認識文字列Zを構成する複数の単語のうち対象単語X以外の単語である。認識文字列Zは、対象単語Xについて記述する文字列である可能性が高いから、関連単語Wは、対象単語Xに関連する単語である。例えば、対象単語Xの記述のために多用される単語が、関連単語Wとして指定される。例えば、対象単語Xが表す人物がいる場所の地名、当該人物に関連する人物または組織の名称、当該人物が関与する事物の名称等の固有名詞が、関連単語Wとして指定される。例えば、図5においては、対象単語Xが表す人物が所属する「ABC社」と、対象単語Xの人物が関与する「字幕システム」とが、関連単語Wとして例示されている。なお、例えば対象単語Xに関する日時または場所が、関連単語Wとして指定されてもよい。例えば、対象単語Xの人物が参加するイベントの日時、または当該イベントが開催される場所が、関連単語Wとして例示される。 The request transmitter 721 transmits the search request Q from the communication device 33 to the information search system 10. The search request Q is a query that requests a search for search information that includes the search keyword specified by the search request Q. The search request Q specifies the target word X included in the recognized character string Z and one or more related words W included in the recognized character string Z as search keywords. In the search request Q, as illustrated in FIG. 5, a target word X written in hiragana is specified. Therefore, it is possible to obtain a search result R that does not depend on the kanji representation of the target word X. The related word W is a word other than the target word X among the plurality of words forming the recognized character string Z. Since the recognized character string Z is likely to be a character string describing the target word X, the related word W is a word related to the target word X. For example, a word frequently used to describe the target word X is designated as a related word W. For example, a proper noun such as the name of a place where a person represented by the target word X is located, the name of a person or organization related to the person, or the name of a thing with which the person is involved is designated as the related word W. For example, in FIG. 5, "ABC company" to which the person represented by the target word X belongs, and "subtitle system" to which the person represented by the target word X is involved are exemplified as related words W. Note that, for example, the date and time or location regarding the target word X may be specified as the related word W. For example, the date and time of an event in which a person corresponding to the target word X participates, or the location where the event is held, is exemplified as the related word W.

情報検索システム10は、端末装置30から受信した検索要求Qに対応する複数の検索情報を検索データベースから検索する。具体的には、検索要求Qにより指定された検索キーワード(対象単語Xおよび関連単語W)を含む複数の検索情報が、検索データベースから検索される。情報検索システム10は、要求元の端末装置30に検索結果Rを送信する。 The information search system 10 searches the search database for a plurality of pieces of search information corresponding to the search request Q received from the terminal device 30. Specifically, a plurality of pieces of search information including the search keyword (target word X and related word W) specified by the search request Q are searched from the search database. The information search system 10 transmits the search result R to the requesting terminal device 30.

検索結果Rは、検索データベースから検索された複数の検索情報を含む。検索結果Rに含まれる複数の検索情報には、検索順位が設定される。例えば、複数の検索情報が検索順位の順番で配列される。検索順位は、検索の結果としての優先度の順番である。例えば、検索キーワードとの関連性、検索情報が閲覧または検索された頻度、または検索情報が更新された日時等の複数の要素に応じて、各検索情報の検索順位が設定される。 The search result R includes a plurality of pieces of search information retrieved from the search database. A search ranking is set for a plurality of pieces of search information included in the search result R. For example, a plurality of pieces of search information are arranged in order of search ranking. The search ranking is the order of priority as a search result. For example, the search ranking of each piece of search information is set according to a plurality of factors, such as its relevance to the search keyword, the frequency with which the search information was viewed or searched, or the date and time when the search information was updated.

図4の結果受信部722は、検索要求Qに応じた検索結果Rを情報検索システム10から受信する。具体的には、結果受信部722は、情報検索システム10が送信した検索結果Rを通信装置33により受信する。 The result receiving unit 722 in FIG. 4 receives the search result R corresponding to the search request Q from the information search system 10. Specifically, the result receiving unit 722 receives the search result R transmitted by the information search system 10 through the communication device 33.

単語置換部723は、認識文字列Zにおける対象単語Xを、検索結果Rに対応する代替単語Yに置換する。具体的には、単語置換部723は、検索結果Rに含まれる複数の検索情報のうち検索順位が最上位である検索情報に含まれる代替単語Yに、認識文字列Zの対象単語Xを置換する。例えば、単語置換部723は、検索順位が最上位である検索情報から対象単語Xに対応する代替単語Yを特定し、対象単語Xを当該代替単語Yに置換する。例えば検索情報に含まれる文字列のうち対象単語Xに類似または一致する単語が、代替単語Yとして特定される。以上の説明から理解される通り、例えば検索キーワードとの関連性、検索情報が閲覧された頻度、または検索情報が更新された日時等の複数の観点から優先すべき代替単語Yにより、対象単語Xが代替される。具体的には、単語置換部723は、表示装置34に表示された再生画面Gにおける認識文字列Zについて、対象単語Xを代替単語Yに置換する。 The word replacement unit 723 replaces the target word X in the recognized character string Z with an alternative word Y corresponding to the search result R. Specifically, the word replacement unit 723 replaces the target word do. For example, the word replacement unit 723 identifies an alternative word Y corresponding to the target word X from the search information with the highest search ranking, and replaces the target word X with the alternative word Y. For example, a word similar to or matching the target word X among the character strings included in the search information is specified as the alternative word Y. As can be understood from the above explanation, the target word will be replaced. Specifically, the word replacement unit 723 replaces the target word X with the alternative word Y for the recognized character string Z on the playback screen G displayed on the display device 34.

図6は、制御装置31が実行する処理(以下「制御処理」という)のフローチャートである。例えば、音声データAに対応する認識文字列Z毎に制御処理が実行される。すなわち、音声データAの発話内容が複数文で構成される場合、認識文字列Z毎(1文毎)に制御処理が反復される。ただし、認識文字列Zの区切は1文に限定されない。例えば認識文字列Zの複数文を単位として制御処理が実行されてもよい。制御処理は、配信システム20による配信コンテンツCの配信に並行して実時間的に実行される。 FIG. 6 is a flowchart of a process (hereinafter referred to as "control process") executed by the control device 31. For example, the control process is executed for each recognized character string Z corresponding to the audio data A. That is, when the utterance content of the audio data A is composed of a plurality of sentences, the control process is repeated for each recognized character string Z (for each sentence). However, the separation of the recognized character string Z is not limited to one sentence. For example, the control process may be executed for multiple sentences of the recognized character string Z as a unit. The control process is executed in real time in parallel with the distribution of the distribution content C by the distribution system 20.

制御処理が開始されると、制御装置31(音声認識部71)は、音声データAに対する音声認識により認識文字列Zを特定する(S1)。制御装置31(音声認識部71)は、認識文字列Zを表示装置34に表示する(S2)。具体的には、制御装置31は、認識文字列Zにおける対象単語Xと対象単語X以外の文字列とを相異なる態様で表示する。図5においては、対象単語Xが下線により強調表示された状態が例示されている。なお、対象単語Xの表示態様は以上の例示に限定されない。例えば、対象単語Xの文字の表示色、種類(フォント)、サイズ、装飾(例えば網掛)等の各種の態様が、対象単語X以外の文字列とは相違する。 When the control process is started, the control device 31 (voice recognition unit 71) specifies the recognized character string Z by voice recognition of the voice data A (S1). The control device 31 (speech recognition unit 71) displays the recognized character string Z on the display device 34 (S2). Specifically, the control device 31 displays the target word X and character strings other than the target word X in the recognized character string Z in different manners. In FIG. 5, a state in which the target word X is highlighted with an underline is illustrated. Note that the display mode of the target word X is not limited to the above example. For example, various aspects such as display color, type (font), size, decoration (for example, shading) of characters of the target word X are different from character strings other than the target word X.

制御装置31(要求送信部721)は、対象単語Xと関連単語Wとを含む検索要求Qを、通信装置33から情報検索システム10に送信する(S3)。そして、制御装置31(結果受信部722)は、情報検索システム10から送信された検索結果Rを通信装置33により受信する(S4)。 The control device 31 (request transmitting unit 721) transmits a search request Q including the target word X and the related word W from the communication device 33 to the information search system 10 (S3). Then, the control device 31 (result receiving unit 722) receives the search result R transmitted from the information search system 10 through the communication device 33 (S4).

制御装置31(単語置換部723)は、認識文字列Zにおける対象単語Xを、検索結果Rに対応する代替単語Yに置換する(S5)。すなわち、認識文字列Zの対象単語Xが、検索順位が最上位である検索情報に含まれる代替単語Yに置換される。具体的には、制御装置31は、図5に例示される通り、表示装置34に表示された対象単語Xを代替単語Yに置換する。なお、代替単語Yが対象単語Xに一致する場合、対象単語Xの置換は実行されない。 The control device 31 (word replacement unit 723) replaces the target word X in the recognized character string Z with the alternative word Y corresponding to the search result R (S5). That is, the target word X of the recognized character string Z is replaced with the alternative word Y included in the search information with the highest search ranking. Specifically, the control device 31 replaces the target word X displayed on the display device 34 with the alternative word Y, as illustrated in FIG. Note that if the alternative word Y matches the target word X, the replacement of the target word X is not performed.

以上に説明した通り、第1実施形態においては、認識文字列Z内の固有名詞である対象単語Xと1以上の関連単語Wとを含む検索要求Qが情報検索システム10に送信され、検索結果Rに対応する代替単語Yに認識文字列Zの対象単語Xが置換される。したがって、音声認識部71による音声認識において誤推定された対象単語Xを適切な代替単語Yに置換することが可能である。すなわち、認識文字列Zを適切な標記の文字列に補正できる。また、検索要求Qには対象単語X以外の関連単語Wが含まれるから、例えば対象単語Xのみを含む検索要求Qが情報検索システム10に送信される形態と比較して、対象単語Xが置換されるべき適切な代替単語Yが検索される可能性が高いという利点もある。 As explained above, in the first embodiment, a search request Q including a target word X, which is a proper noun in a recognized character string Z, and one or more related words W is sent to the information search system 10, and the search result is The target word X of the recognized character string Z is replaced with the alternative word Y corresponding to R. Therefore, it is possible to replace the target word X incorrectly estimated in speech recognition by the speech recognition unit 71 with an appropriate alternative word Y. That is, the recognized character string Z can be corrected to a character string with an appropriate mark. Furthermore, since the search request Q includes a related word W other than the target word X, the target word There is also the advantage that there is a high possibility that an appropriate alternative word Y to be used will be retrieved.

ところで、固有名詞のうち人名は、適正な文字列に対して同音異字の関係にある文字列が音声認識により推定される可能性が特に高い。第1実施形態においては、対象単語Xと同音異字の関係にある人名が代替単語Yとして対象単語Xに置換される。したがって、音声認識において同音異字で誤推定された対象単語Xを適切な代替単語Yに置換することが可能である。 By the way, among proper nouns, there is a particularly high possibility that a character string having a homonym relationship with a proper character string will be estimated by voice recognition for a person's name. In the first embodiment, a person's name that has a homophone and allograph relationship with the target word X is replaced with the target word X as an alternative word Y. Therefore, it is possible to replace a target word X incorrectly estimated as a homophone in speech recognition with an appropriate alternative word Y.

また、第1実施形態においては、対象単語Xを含む認識文字列Zが表示装置34に暫定的に表示され、検索結果Rが取得された段階で、表示装置34に表示された対象単語Xが代替単語Yに置換される。したがって、例えば検索結果Rが取得された段階で、対象単語Xを代替単語Yに置換した認識文字列Zの表示が開始される構成と比較して、利用者が認識文字列Zを迅速に把握できる。なお、対象単語Xを含む認識文字列Zの表示は省略されてよい。すなわち、対象単語Xを代替単語Yに置換した認識文字列Zのみが表示装置34に表示されてもよい。 Further, in the first embodiment, the recognized character string Z including the target word Replaced with alternative word Y. Therefore, compared to a configuration in which, for example, the display of the recognized character string Z in which the target word can. Note that the display of the recognized character string Z including the target word X may be omitted. That is, only the recognized character string Z in which the target word X is replaced with the alternative word Y may be displayed on the display device 34.

第1実施形態においては、検索要求Qに応じて検索された複数の検索情報のうち、検索順位が最上位である検索情報に対応する代替単語Yに、対象単語Xが置換される。したがって、例えば過去の検索の傾向等の多様な観点から優先度が高い単語を、優先的に代替単語Yとして適用できる。 In the first embodiment, the target word X is replaced with an alternative word Y corresponding to the search information with the highest search ranking among the plurality of pieces of search information searched in response to the search request Q. Therefore, a word with a high priority from various viewpoints such as past search trends can be preferentially applied as the alternative word Y.

B:第2実施形態
第2実施形態を説明する。なお、以下に例示する各態様において機能が第1実施形態と同様である要素については、第1実施形態の説明と同様の符号を流用して各々の詳細な説明を適宜に省略する。
B: Second Embodiment The second embodiment will be described. In addition, in each aspect illustrated below, for elements whose functions are similar to those in the first embodiment, the same reference numerals as in the description of the first embodiment are used, and detailed descriptions of each are omitted as appropriate.

図7は、第2実施形態における制御装置31の動作に関する説明図である。第2実施形態の制御装置31は、記憶装置32に記憶されたプログラムを実行することで、第1実施形態と同様の要素(音声認識部71および補正処理部72)を実現する。 FIG. 7 is an explanatory diagram regarding the operation of the control device 31 in the second embodiment. The control device 31 of the second embodiment implements the same elements (speech recognition section 71 and correction processing section 72) as the first embodiment by executing a program stored in the storage device 32.

第1実施形態の要求送信部721が送信する検索要求Qは、対象単語Xと1個以上の関連単語Wとを含む。他方、第2実施形態の要求送信部721が送信する検索要求Qは、第1実施形態と同様の1個以上の関連単語Wを検索キーワードとして指定するが、対象単語Xを含まない。すなわち、要求送信部721は、対象単語Xを含まない検索要求Qを通信装置33から情報検索システム10に送信する。検索要求Qの内容以外の構成および動作は、第1実施形態と同様である。 The search request Q transmitted by the request transmitting unit 721 of the first embodiment includes a target word X and one or more related words W. On the other hand, the search request Q sent by the request sending unit 721 of the second embodiment specifies one or more related words W as a search keyword, as in the first embodiment, but does not include the target word X. That is, the request transmitter 721 transmits a search request Q that does not include the target word X from the communication device 33 to the information search system 10. The configuration and operation other than the content of the search request Q are the same as those in the first embodiment.

情報検索システム10は、端末装置30から受信した検索要求Qに対応する複数の検索情報を検索データベースから検索する。具体的には、検索要求Qにより検索キーワードとして指定された1個以上の関連単語Wを含む複数の検索情報が、検索データベースから検索される。情報検索システム10は、検索結果Rを要求元の端末装置30に送信する。結果受信部722は、第1実施形態と同様に、情報検索システム10が送信した検索結果Rを通信装置33により受信する。 The information search system 10 searches the search database for a plurality of pieces of search information corresponding to the search request Q received from the terminal device 30. Specifically, a plurality of pieces of search information including one or more related words W specified as a search keyword by the search request Q are searched from the search database. The information search system 10 transmits the search result R to the requesting terminal device 30. Similar to the first embodiment, the result receiving unit 722 receives the search results R transmitted by the information search system 10 through the communication device 33.

1個以上の関連単語Wを含む検索情報は、対象単語Xに関連する可能性が高い。検索順位が高い検索情報は特に、対象単語Xを含む可能性が高い。単語置換部723は、検索順位が最上位である検索情報から対象単語Xに対応する代替単語Yを特定し、対象単語Xを当該代替単語Yに置換する。例えば検索情報に含まれる文字列のうち対象単語Xに類似または一致する単語が代替単語Yとして特定される。単語置換部723が対象単語Xを含む認識文字列Zを表示装置34に表示する動作(S2)、および、当該対象単語Xを代替単語Yに置換する動作(S5)は、第1実施形態と同様である。 Search information that includes one or more related words W is highly likely to be related to the target word X. Search information with a high search ranking is particularly likely to include the target word X. The word replacement unit 723 identifies an alternative word Y corresponding to the target word X from the search information with the highest search ranking, and replaces the target word X with the alternative word Y. For example, a word similar to or matching the target word X among the character strings included in the search information is specified as the alternative word Y. The operation in which the word replacement unit 723 displays the recognized character string Z including the target word X on the display device 34 (S2) and the operation in which the target word X is replaced with the alternative word Y (S5) are the same as in the first embodiment The same is true.

第2実施形態においても第1実施形態と同様の効果が実現される。また、第2実施形態においては、対象単語X自体を含まない検索要求Qが情報検索システム10に送信されるから、対象単語X以外の単語が代替単語Yとして検索される可能性が高い。例えば、対象単語Xに対して同音異字の関係にあり、かつ、関連単語Wに付随して使用される場合が多い単語が、代替単語Yとして検索される。すなわち、第2実施形態によれば、対象単語Xが置換されるべき適切な代替単語Yが検索される可能性が高いという利点がある。 The second embodiment also achieves the same effects as the first embodiment. Furthermore, in the second embodiment, since the search request Q that does not include the target word X itself is sent to the information search system 10, there is a high possibility that a word other than the target word X will be searched as the alternative word Y. For example, a word that has a homophone and allograph relationship with the target word X and is often used in conjunction with the related word W is searched as the alternative word Y. That is, according to the second embodiment, there is an advantage that there is a high possibility that an appropriate alternative word Y to be replaced with the target word X is retrieved.

他方、第1実施形態においては、検索要求Qが対象単語Xを含むから、対象単語Xを含む検索情報が検索され易い。すなわち、第1実施形態によれば、対象単語Xとの関連性が低い検索情報が検索される可能性を低減できるという利点がある。 On the other hand, in the first embodiment, since the search request Q includes the target word X, search information including the target word X is easily retrieved. That is, according to the first embodiment, there is an advantage that the possibility that search information having low relevance to the target word X is retrieved can be reduced.

C:第3実施形態
図8は、第3実施形態における情報システム100のブロック図である。図8に例示される通り、第3実施形態の情報システム100は、第1実施形態と同様の要素に加えて制御システム40を具備する。第1実施形態においては、検索要求Qの送信(S3)と検索結果Rの受信(S4)と認識文字列Zの補正(S5)とを端末装置30が実行する形態を例示した。第3実施形態の制御システム40は、以上に説明した処理を実行するコンピュータシステムである。
C: Third Embodiment FIG. 8 is a block diagram of an information system 100 in a third embodiment. As illustrated in FIG. 8, the information system 100 of the third embodiment includes a control system 40 in addition to the same elements as the first embodiment. In the first embodiment, the terminal device 30 transmits the search request Q (S3), receives the search result R (S4), and corrects the recognized character string Z (S5). The control system 40 of the third embodiment is a computer system that executes the processing described above.

図9は、制御システム40の構成を例示するブロック図である。制御システム40は、制御装置41と記憶装置42と通信装置43とを具備する。なお、制御システム40は、単体の装置として実現されるほか、相互に別体で構成された複数の装置でも実現される。 FIG. 9 is a block diagram illustrating the configuration of the control system 40. The control system 40 includes a control device 41, a storage device 42, and a communication device 43. Note that the control system 40 is realized not only as a single device but also as a plurality of devices configured separately from each other.

制御装置41は、制御システム40の各要素を制御する単数または複数のプロセッサである。具体的には、例えばCPU、GPU、SPU、DSP、FPGA、またはASIC等の1種類以上のプロセッサにより、制御装置41が構成される。 The control device 41 is one or more processors that control each element of the control system 40. Specifically, the control device 41 is configured by one or more types of processors such as a CPU, GPU, SPU, DSP, FPGA, or ASIC.

記憶装置42は、制御装置41が実行するプログラムと、制御装置41が使用する各種のデータとを記憶する単数または複数のメモリである。例えば半導体記録媒体および磁気記録媒体等の公知の記録媒体、または複数種の記録媒体の組合せが、記憶装置42として利用される。なお、例えば、制御システム40に対して着脱される可搬型の記録媒体、または、制御装置41が通信網200を介してアクセス可能な記録媒体(例えばクラウドストレージ)が、記憶装置42として利用されてもよい。 The storage device 42 is one or more memories that store programs executed by the control device 41 and various data used by the control device 41. For example, a known recording medium such as a semiconductor recording medium and a magnetic recording medium, or a combination of multiple types of recording media is used as the storage device 42. Note that, for example, a portable recording medium that can be attached to and detached from the control system 40 or a recording medium (for example, cloud storage) that can be accessed by the control device 41 via the communication network 200 is used as the storage device 42. Good too.

通信装置43は、通信網200を介して情報検索システム10および配信システム20の各々と通信する。例えば、通信装置43は、検索要求Qを情報検索システム10に送信し、当該検索要求Qに応じた検索結果Rを情報検索システム10から受信する。また、通信装置43は、配信システム20から配信コンテンツCを受信する。なお、通信装置43と通信網200との間の通信は有線通信および無線通信の何れでもよい。また、制御システム40とは別体の通信装置43が、制御システム40に対して有線または無線により接続されてもよい。 The communication device 43 communicates with each of the information search system 10 and the distribution system 20 via the communication network 200. For example, the communication device 43 transmits a search request Q to the information search system 10, and receives a search result R corresponding to the search request Q from the information search system 10. Furthermore, the communication device 43 receives distribution content C from the distribution system 20. Note that communication between the communication device 43 and the communication network 200 may be either wired communication or wireless communication. Further, a communication device 43 separate from the control system 40 may be connected to the control system 40 by wire or wirelessly.

第3実施形態の制御装置41は、記憶装置42に記憶されたプログラムを実行することで、図4に例示した第1実施形態と同様の機能(音声認識部71および補正処理部72)を実現する。音声認識部71は、第1実施形態と同様に、配信コンテンツCの音声データAに対する音声認識により認識文字列Zを生成する。要求送信部721は、検索要求Qを通信装置43から情報検索システム10に送信し、結果受信部722は、検索結果Rを通信装置43により情報検索システム10から受信する。 The control device 41 of the third embodiment realizes the same functions (speech recognition unit 71 and correction processing unit 72) as the first embodiment illustrated in FIG. 4 by executing the program stored in the storage device 42. do. The voice recognition unit 71 generates a recognized character string Z by voice recognition of the voice data A of the distributed content C, as in the first embodiment. The request transmitter 721 transmits the search request Q from the communication device 43 to the information search system 10, and the result receiver 722 receives the search result R from the information search system 10 via the communication device 43.

単語置換部723は、認識文字列Zにおける対象単語Xを、検索結果Rに対応する代替単語Yに置換する。単語置換部723は、置換後の認識文字列Zと配信コンテンツCとを通信装置43から端末装置30に送信する。端末装置30は、配信コンテンツCと認識文字列Zとを第1実施形態と同様に再生する。例えば、配信コンテンツCの動画Mと、対象単語Xが代替単語Yに置換された認識文字列Zとを含む再生画面Gが、端末装置30の表示装置34に表示される。なお、第1実施形態と同様に、対象単語Xを含む認識文字列Zが表示装置34に暫定的に表示され、検索結果Rの生成後に、表示済の対象単語Xが代替単語Yに置換されてもよい。例えば、単語置換部723は、対象単語Xを含む認識文字列Zを端末装置30に表示させ、検索結果Rの取得後に、対象単語Xを代替単語Yに置換する指示を、通信装置43から端末装置30に送信してもよい。 The word replacement unit 723 replaces the target word X in the recognized character string Z with an alternative word Y corresponding to the search result R. The word replacement unit 723 transmits the replaced recognized character string Z and the distribution content C from the communication device 43 to the terminal device 30. The terminal device 30 reproduces the distributed content C and the recognized character string Z in the same manner as in the first embodiment. For example, a playback screen G including a moving image M of distribution content C and a recognized character string Z in which the target word X is replaced with an alternative word Y is displayed on the display device 34 of the terminal device 30. Note that, similarly to the first embodiment, the recognized character string Z including the target word X is temporarily displayed on the display device 34, and after the search result R is generated, the displayed target word X is replaced with the alternative word Y. It's okay. For example, the word replacement unit 723 causes the terminal device 30 to display a recognized character string Z including the target word X, and after obtaining the search result R, sends an instruction to replace the target word It may also be transmitted to the device 30.

第3実施形態においても第1実施形態と同様の効果が実現される。なお、検索要求Qが対象単語Xを含まない第2実施形態の構成は、第3実施形態にも同様に適用される。第1実施形態の端末装置30と第3実施形態の制御システム40とは、認識文字列Zの対象単語Xを代替単語Yに置換する情報処理システムとして包括的に表現される。なお、検索要求Qにおける対象単語Xの有無は、第3実施形態において不問である。 The third embodiment also achieves the same effects as the first embodiment. Note that the configuration of the second embodiment in which the search request Q does not include the target word X is similarly applied to the third embodiment. The terminal device 30 of the first embodiment and the control system 40 of the third embodiment are comprehensively expressed as an information processing system that replaces the target word X of the recognized character string Z with the alternative word Y. Note that the presence or absence of the target word X in the search request Q does not matter in the third embodiment.

D:第4実施形態
図10は、第4実施形態における情報システム100のブロック図である。第4実施形態の情報システム100は、第1実施形態と同様の要素(情報検索システム10、配信システム20および端末装置30)に加えて音声認識システム50を具備する。音声認識システム50は、第1実施形態の音声認識部71と同様に、配信コンテンツCの音声データAに対する音声認識により認識文字列Zを生成する。
D: Fourth Embodiment FIG. 10 is a block diagram of an information system 100 in a fourth embodiment. The information system 100 of the fourth embodiment includes a voice recognition system 50 in addition to the same elements as the first embodiment (information search system 10, distribution system 20, and terminal device 30). The voice recognition system 50 generates a recognized character string Z by voice recognition of the voice data A of the distributed content C, similar to the voice recognition unit 71 of the first embodiment.

図11は、第4実施形態における端末装置30の機能的な構成を例示するブロック図である。第4実施形態の制御装置31は、第1実施形態の音声認識部71に代えて認識要求部73として機能する。認識要求部73は、配信コンテンツCの音声データAに対する音声認識を音声認識システム50に要求する。具体的には、認識要求部73は、音声データAを含む認識要求を通信装置33から音声認識システム50に送信する。 FIG. 11 is a block diagram illustrating the functional configuration of the terminal device 30 in the fourth embodiment. The control device 31 of the fourth embodiment functions as a recognition requesting section 73 in place of the speech recognition section 71 of the first embodiment. The recognition requesting unit 73 requests the speech recognition system 50 to perform speech recognition on the audio data A of the distributed content C. Specifically, the recognition request unit 73 transmits a recognition request including voice data A from the communication device 33 to the voice recognition system 50.

音声認識システム50は、端末装置30から受信した音声データAに対する音声認識により認識文字列Zを生成する。音声認識の方法は第1実施形態と同様である。音声認識システム50は、音声認識により特定された認識文字列Zを要求元の端末装置30に送信する。認識要求部73は、音声認識システム50から送信された認識文字列Zを通信装置33により受信する。認識文字列Zを利用した制御処理(S2~S5)は、第1実施形態と同様である。 The speech recognition system 50 generates a recognized character string Z by performing speech recognition on the speech data A received from the terminal device 30. The voice recognition method is the same as in the first embodiment. The speech recognition system 50 transmits the recognized character string Z specified by speech recognition to the requesting terminal device 30. The recognition request unit 73 receives the recognized character string Z transmitted from the speech recognition system 50 through the communication device 33 . The control processing (S2 to S5) using the recognized character string Z is the same as in the first embodiment.

第4実施形態においても第1実施形態と同様の効果が実現される。第4実施形態においては、端末装置30が音声認識を実行する必要がないから、制御装置31の処理負荷が軽減されるという利点がある。以上の説明から理解される通り、第1実施形態の音声認識部71と第4実施形態の認識要求部73とは、音声データAに対する音声認識の結果である認識文字列Zを取得する要素(文字列取得部)として包括的に表現される。すなわち、認識文字列Zの取得は、第1実施形態の音声認識部71が音声データAに対する音声認識で認識文字列Zを生成する動作と、第4実施形態の認識要求部73が音声認識システム50から認識文字列Zを受信する動作との双方を包含する。 The fourth embodiment also achieves the same effects as the first embodiment. The fourth embodiment has the advantage that the processing load on the control device 31 is reduced because the terminal device 30 does not need to perform speech recognition. As understood from the above description, the speech recognition unit 71 of the first embodiment and the recognition requesting unit 73 of the fourth embodiment are elements ( It is comprehensively expressed as a character string acquisition part). That is, the acquisition of the recognized character string Z involves the operation of the voice recognition unit 71 of the first embodiment to generate the recognized character string Z by voice recognition of the voice data A, and the operation of the recognition requesting unit 73 of the fourth embodiment using the voice recognition system. 50 and the operation of receiving the recognized character string Z from 50.

なお、検索要求Qが対象単語Xを含まない第2実施形態の構成は、第4実施形態にも同様に適用される。また、検索要求Qの送信(S3)と検索結果Rの受信(S4)と認識文字列Zの補正(S5)とを制御システム40が実行する第3実施形態の構成も、第4実施形態に同様に適用される。すなわち、音声データAに対する音声認識は、制御システム40から音声認識システム50に要求されてもよい。また、端末装置30(音声認識部71)が音声認識により生成した認識文字列Zを、制御システム40の制御装置41(認識要求部73)が通信装置43により当該端末装置30から受信してもよい。端末装置30が音声認識システム50から受信した認識文字列Zを、制御システム40の制御装置41が通信装置43により当該端末装置30から受信してもよい。 Note that the configuration of the second embodiment in which the search request Q does not include the target word X is similarly applied to the fourth embodiment. Further, the configuration of the third embodiment in which the control system 40 executes the transmission of the search request Q (S3), the reception of the search result R (S4), and the correction of the recognized character string Z (S5) is also the same as the fourth embodiment. The same applies. That is, the control system 40 may request the speech recognition system 50 to perform speech recognition on the speech data A. Further, even if the control device 41 (recognition requesting section 73) of the control system 40 receives the recognized character string Z generated by the terminal device 30 (speech recognition section 71) through voice recognition from the terminal device 30 through the communication device 43, good. The recognition character string Z received by the terminal device 30 from the voice recognition system 50 may be received by the control device 41 of the control system 40 from the terminal device 30 through the communication device 43.

E:変形例
以上に例示した各態様に付加される具体的な変形の態様を以下に例示する。前述の実施形態および以下に例示する変形例から任意に選択された複数の態様を、相互に矛盾しない範囲で適宜に併合してもよい。
E: Modification Examples Specific modification modes added to each of the embodiments exemplified above are illustrated below. A plurality of aspects arbitrarily selected from the above-described embodiment and the modified examples illustrated below may be combined as appropriate to the extent that they do not contradict each other.

(1)前述の各形態においては、認識文字列Zの各対象単語Xについて検索要求Qの送信(S3)と検索結果Rの受信(S4)とを含む動作(以下「検索動作」という)を実行したが、配信コンテンツCにおいて対象単語Xが反復的に使用される場合には、全部の対象単語Xについて検索動作を実行する必要はない。 (1) In each of the above embodiments, an operation (hereinafter referred to as "search operation") including sending a search request Q (S3) and receiving a search result R (S4) for each target word X of the recognized character string Z is performed. However, if the target word X is repeatedly used in the distributed content C, it is not necessary to execute the search operation for all target words X.

例えば、特定の対象単語Xについて代替単語Yが特定された場合、制御装置31(単語置換部723)は、当該代替単語Yを記憶装置32に格納し、認識文字列Zに以後に登場する対象単語Xについては、記憶装置32に記憶された代替単語Yに置換してもよい。すなわち、第2回目以降の対象単語Xについては、検索動作が省略されてもよい。 For example, when an alternative word Y is specified for a specific target word The word X may be replaced with an alternative word Y stored in the storage device 32. That is, the search operation may be omitted for the target word X from the second time onward.

代替単語Yを特定すべき頻度は、配信コンテンツCの種類にも依存する。例えば、全編にわたり1個の主題に関連する配信コンテンツCについては、配信コンテンツCの全体にわたり、対象単語Xは共通の代替単語Yに置換されてよい。他方、相異なる主題に関する多数の区間を含む配信コンテンツC(例えばニュース番組)については、配信コンテンツCのなかで代替単語Yを変更すべき場合がある。例えば、同音異字の関係にある複数の単語の各々が順次に使用される状況では、代替単語Yを逐次的に特定する必要がある。 The frequency with which alternative words Y should be specified also depends on the type of distributed content C. For example, for distributed content C that is related to one theme throughout the entire distributed content C, the target word X may be replaced with a common alternative word Y throughout the distributed content C. On the other hand, for distributed content C (for example, a news program) that includes a large number of sections related to different themes, the alternative word Y in the distributed content C may need to be changed. For example, in a situation where each of a plurality of words having homophone and allograph relationships is used sequentially, it is necessary to sequentially identify the alternative word Y.

以上の事情を考慮すると、対象単語Xの発生毎に検索動作(S3,S4)を実行する第1動作モードと、記憶装置32に記憶された検索済の代替単語Yを対象単語Xの置換に使用する第2動作モードと、を含む複数の動作モードの何れかを、制御装置31が選択する形態が例示される。第1動作モードにおいては、同音異字の関係にある複数の単語が交互に使用される状況でも、各対象単語Xを適切な代替単語Yに置換できる。他方、第2動作モードにおいては、第2回目以降の対象単語Xについて検索動作が省略される。したがって、制御装置31(単語置換部723)の処理負荷が軽減される。 Considering the above circumstances, the first operation mode is to perform the search operation (S3, S4) every time the target word X occurs, and to replace the target word X with the searched alternative word Y stored in the storage device 32. An example is illustrated in which the control device 31 selects one of a plurality of operation modes including the second operation mode to be used. In the first operation mode, each target word X can be replaced with an appropriate alternative word Y even in a situation where a plurality of words having a homophone and allograph relationship are used alternately. On the other hand, in the second operation mode, the search operation for the second and subsequent target words X is omitted. Therefore, the processing load on the control device 31 (word replacement section 723) is reduced.

動作モードは、例えば配信コンテンツCの種別に応じて選択される。例えば、配信コンテンツCが、相異なる主題の複数の区間を含む傾向がある第1種別に該当する場合、制御装置31は、第1動作モードを選択する。他方、配信コンテンツCが、主題が変化しない傾向がある第2種別に該当する場合、制御装置31は、第2動作モードを選択する。以上の形態によれば、第1動作モードによる利点と第2動作モードによる利点とを両立できる。 The operation mode is selected depending on the type of distribution content C, for example. For example, if the distributed content C falls under the first type, which tends to include multiple sections with different themes, the control device 31 selects the first operation mode. On the other hand, if the distributed content C falls under the second type in which the subject matter tends not to change, the control device 31 selects the second operation mode. According to the above embodiment, both the advantages of the first operation mode and the advantages of the second operation mode can be achieved.

なお、以上の説明においては端末装置30が検索動作を実行する形態を想定したが、制御システム40が検索動作を実行する第3実施形態にも同様の構成が適用される。 Note that although the above description assumes a form in which the terminal device 30 executes the search operation, a similar configuration is also applied to the third embodiment in which the control system 40 executes the search operation.

(2)前述の各形態においては、検索結果Rが複数の検索情報を含む形態を例示したが、検索結果Rが1個の検索情報を含む形態も想定される。例えば、情報検索システム10は、検索要求Qに応じて検索された複数の検索情報のうち、検索順位が最上位である1個の検索情報を含む検索結果Rを送信する。単語置換部723は、認識文字列Zの対象単語Xを、検索結果Rの検索情報に含まれる代替単語Yに置換する。 (2) In each of the above embodiments, the search result R includes a plurality of pieces of search information, but it is also possible that the search result R includes one piece of search information. For example, the information search system 10 transmits a search result R that includes one piece of search information with the highest search ranking among a plurality of pieces of search information searched in response to the search request Q. The word replacement unit 723 replaces the target word X of the recognized character string Z with the alternative word Y included in the search information of the search result R.

(3)前述の各形態においては人名を対象単語Xとして例示したが、対象単語Xは以上の例示に限定されない。例えば、団体名、地名または国名等の固有名詞が、対象単語Xとして指定されてもよい。 (3) In each of the above embodiments, a person's name is exemplified as the target word X, but the target word X is not limited to the above examples. For example, a proper noun such as an organization name, place name, or country name may be designated as the target word X.

(4)前述の各形態においては、検索結果Rに含まれる複数の検索情報のうち検索順位が最上位である検索情報に含まれる代替単語Yを、対象単語Xの置換に使用したが、代替単語Yの抽出対象となる検索情報を複数の検索情報から選択する方法は、検索順位を利用する以上の例示に限定されない。各検索情報が生成または更新された最新の日時(以下「更新日時」という)が検索結果Rの各検索情報に含まれる形態においては、更新日時が現在時刻に最も近い検索情報から、代替単語Yが抽出されてもよい。また、例えば、複数の検索情報のうち検索回数が多い検索情報から、代替単語Yが抽出されてもよい。検索順位、更新日時および検索回数等の複数の要素を総合的に加味して、検索情報が選択されてもよい。 (4) In each of the above embodiments, the alternative word Y included in the search information with the highest search ranking among the multiple pieces of search information included in the search result R is used to replace the target word The method of selecting search information from which word Y is to be extracted from a plurality of pieces of search information is not limited to the example of using search rankings. In a format where the latest date and time when each search information was generated or updated (hereinafter referred to as "updated date and time") is included in each search information of search result R, alternative words Y may be extracted. Furthermore, for example, the alternative word Y may be extracted from search information that has been searched many times among a plurality of pieces of search information. Search information may be selected by comprehensively considering a plurality of factors such as search ranking, update date and time, and number of searches.

(5)前述の各形態においては、情報検索システム10が情報検索サービスを提供する形態を例示したが、情報検索システム10が提供する情報サービスは、情報検索サービスに限定されない。例えば、利用者が所望の情報を投稿および閲覧するソーシャルメディアサービス(SNS: Social networking service)を管理するコンピュータシステムが、前述の各形態における情報検索サービスとして利用されてもよい。検索要求Qを受信した情報検索システム10は、対象単語Xを含む多数の検索情報のうち、現在時刻までの所定長の期間における投稿数または閲覧数が多い単語(いわゆるトレンドワードまたは急上昇ワード)を含む投稿情報を、検索結果Rとして送信する。 (5) In each of the above embodiments, the information search system 10 provides an information search service, but the information service provided by the information search system 10 is not limited to the information search service. For example, a computer system that manages a social networking service (SNS) in which users post and view desired information may be used as the information search service in each of the above-mentioned forms. The information retrieval system 10 that has received the search request Q selects words (so-called trend words or rapidly increasing words) that have been posted or viewed a large number of times in a predetermined period of time up to the current time, out of a large amount of search information that includes the target word X. The included posted information is sent as search result R.

(6)前述の各形態においては、対象単語Xの置換前および置換後の認識文字列Zが表示装置34に表示される形態を例示したが、認識文字列Zの出力の方法は以上の例示に限定されない。例えば、制御装置31(単語置換部723)は、記憶装置32に記憶された認識文字列Zの対象単語Xを代替単語Yに置換し、置換後の認識文字列Zを通信装置33から他の情報装置に送信してもよい。すなわち、認識文字列Z(置換前または置換後)の表示は省略されてもよい。 (6) In each of the above embodiments, the recognized character string Z before and after replacement of the target word X is displayed on the display device 34. but not limited to. For example, the control device 31 (word replacement unit 723) replaces the target word X of the recognized character string Z stored in the storage device 32 with an alternative word Y, and sends the replaced recognized character string Z from the communication device 33 to another It may also be transmitted to an information device. That is, the display of the recognized character string Z (before or after replacement) may be omitted.

(7)前述の各形態においては、例えば文書またはウェブページ等の情報を検索情報として例示したが、検索情報の内容は以上の例示に限定されない。例えば、各種の情報の所在を表す所在情報を含む検索結果Rを、情報提供システムが送信してもよい。所在情報は、例えばURL(Uniform Resource Locator)である。単語置換部723は、検索情報のURLが表すシステムにアクセスすることで文書等の情報を取得し、対象単語Xに対応する代替単語Yを当該情報から抽出する。 (7) In each of the above embodiments, information such as a document or a web page is exemplified as the search information, but the content of the search information is not limited to the above examples. For example, the information providing system may transmit search results R that include location information indicating the location of various types of information. The location information is, for example, a URL (Uniform Resource Locator). The word replacement unit 723 acquires information such as a document by accessing the system indicated by the URL of the search information, and extracts an alternative word Y corresponding to the target word X from the information.

(8)前述の各形態においては、音声認識の対象となる音声データAが配信システム20から配信される形態を例示したが、音声データAの提供元は配信システム20に限定されない。例えば、周囲の音響の収音により音声データAを生成する収音装置(マイクロホン)から、端末装置30が音声データAを取得してもよい。端末装置30に有線または無線で接続された各種の音響機器から、端末装置40が音声データAを取得してもよい。他の通信装置から送信された音声データAを、端末装置30が通信網200を介して受信してもよい。また、音声データAは、動画データVとともに配信コンテンツCを構成するデータである必要はない。例えば、音声データAが単独で配信されてもよい。 (8) In each of the above embodiments, the audio data A to be subjected to speech recognition is distributed from the distribution system 20, but the source of the audio data A is not limited to the distribution system 20. For example, the terminal device 30 may acquire the audio data A from a sound collection device (microphone) that generates the audio data A by collecting surrounding sounds. The terminal device 40 may acquire the audio data A from various audio devices connected to the terminal device 30 by wire or wirelessly. The terminal device 30 may receive audio data A transmitted from another communication device via the communication network 200. Furthermore, the audio data A does not need to be data that constitutes the distributed content C together with the video data V. For example, audio data A may be distributed alone.

(9)前述の各形態に係る端末装置30の機能は、前述の通り、制御装置31を構成する単数または複数のプロセッサと、記憶装置32に記憶されたプログラムとの協働により実現される。また、第3実施形態に係る制御システム40の機能は、前述の通り、制御装置41を構成する単数または複数のプロセッサと、記憶装置42に記憶されたプログラムとの協働により実現される。 (9) As described above, the functions of the terminal device 30 according to each of the above embodiments are realized by cooperation between one or more processors that constitute the control device 31 and the program stored in the storage device 32. Further, the functions of the control system 40 according to the third embodiment are realized by cooperation between one or more processors forming the control device 41 and the program stored in the storage device 42, as described above.

以上に例示したプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性(non-transitory)の記録媒体であり、CD-ROM等の光学式記録媒体(光ディスク)が好例であるが、半導体記録媒体または磁気記録媒体等の公知の任意の形式の記録媒体も包含される。なお、非一過性の記録媒体とは、一過性の伝搬信号(transitory, propagating signal)を除く任意の記録媒体を含み、揮発性の記録媒体も除外されない。また、配信装置が通信網を介してプログラムを配信する構成では、当該配信装置においてプログラムを記憶する記録媒体が、前述の非一過性の記録媒体に相当する。 The programs exemplified above may be provided in a form stored in a computer-readable recording medium and installed on a computer. The recording medium is, for example, a non-transitory recording medium, and an optical recording medium (optical disk) such as a CD-ROM is a good example, but any known recording medium such as a semiconductor recording medium or a magnetic recording medium is used. Also included are recording media in the form of. Note that the non-transitory recording medium includes any recording medium except for transitory, propagating signals, and does not exclude volatile recording media. Furthermore, in a configuration in which a distribution device distributes a program via a communication network, a recording medium that stores a program in the distribution device corresponds to the above-mentioned non-transitory recording medium.

F:付記
以上に例示した形態から、例えば以下の構成が把握される。
F: Supplementary Note From the forms exemplified above, for example, the following configurations can be understood.

本開示のひとつの態様(態様1)に係る情報処理方法は、音声データに対する音声認識の結果である認識文字列を取得することと、前記認識文字列に含まれる固有名詞である対象単語以外の1以上の関連単語を含む検索要求を情報検索システムに送信することと、前記検索要求に応じた検索結果を前記情報検索システムから受信することと、前記認識文字列における前記対象単語を前記検索結果に対応する代替単語に置換することとを含む。 An information processing method according to one aspect (aspect 1) of the present disclosure includes the steps of: acquiring a recognized character string that is a result of speech recognition on voice data; transmitting a search request including one or more related words to an information retrieval system; receiving a search result corresponding to the search request from the information retrieval system; and converting the target word in the recognized character string into the search result. and replacing it with an alternative word corresponding to the word.

以上の態様によれば、認識文字列内の固有名詞である対象単語以外の1以上の関連単語を含む検索要求が情報検索システムに送信され、当該検索要求に応じた検索結果に対応する代替単語に認識文字列の対象単語が置換される。したがって、音声認識において誤推定された対象単語を適切な代替単語に置換することが可能である。すなわち、認識文字列を適切な表記の文字列に補正できる。また、検索要求には対象単語以外の関連単語が含まれるから、例えば対象単語のみを含む検索要求が情報検索システムに送信される形態と比較して、対象単語が置換されるべき適切な代替単語が検索される可能性が高いという利点もある。 According to the above aspect, a search request including one or more related words other than the target word that is a proper noun in the recognized character string is sent to the information retrieval system, and an alternative word corresponding to the search result according to the search request is sent to the information retrieval system. The target word in the recognized string is replaced. Therefore, it is possible to replace a target word incorrectly estimated in speech recognition with an appropriate alternative word. That is, the recognized character string can be corrected to a character string with an appropriate notation. In addition, since the search request includes related words other than the target word, it is possible to select an appropriate alternative word to replace the target word, compared to, for example, a search request that includes only the target word and is sent to the information retrieval system. It also has the advantage of being more likely to be searched.

音声認識は、情報処理方法を実現する情報処理システム自身、および情報処理システムが通信可能な音声認識システムにより実現され得る。すなわち、「認識文字列を取得すること」は、情報処理システム自身が音声認識により認識文字列を推定する動作と、外部の音声認識システムが推定した認識文字列を情報処理システムが受信する動作と、の双方を包含する。 Speech recognition can be realized by the information processing system itself that implements the information processing method and the speech recognition system with which the information processing system can communicate. In other words, "obtaining a recognized character string" refers to an operation in which the information processing system itself estimates a recognized character string through speech recognition, and an operation in which the information processing system receives a recognized character string estimated by an external voice recognition system. , including both.

「対象単語」は、認識文字列に含まれる固有名詞である。例えば人物または地名等の各種の事物の名称(称呼)が「対象単語」として例示される。対象単語は、1個の単語で構成されてもよいし相互に連結された複数の単語で構成されてもよい。 The "target word" is a proper noun included in the recognized character string. For example, the names (pronunciations) of various things, such as people or place names, are exemplified as "target words." The target word may be composed of one word or a plurality of words connected to each other.

「関連単語」は、認識文字列における対象単語以外の単語である。例えば、対象単語が表す事物に関連する単語が「関連単語」として例示される。例えば、対象単語が表す事物が所在する場所を表す固有名詞(例えば名称)が「関連単語」の一例である。 A "related word" is a word other than the target word in the recognized character string. For example, a word related to the thing represented by the target word is exemplified as a "related word." For example, a proper noun (for example, a name) that represents the location of the thing represented by the target word is an example of a "related word."

認識文字列を構成する各単語は、「対象単語」および「関連単語」に何れにも該当し得る。例えば、認識文字列に第1単語と第2単語とが含まれる場合を想定すると、第1単語を対象単語とした場合には第2単語が関連単語に該当し、第2単語を対象単語とした場合には第1単語が関連単語に該当する。 Each word constituting the recognized character string can correspond to either a "target word" or a "related word." For example, assuming that the recognized character string includes a first word and a second word, if the first word is the target word, the second word is a related word, and the second word is the target word. In this case, the first word corresponds to the related word.

情報検索システムは、情報サービスを提供するコンピュータシステムである。情報サービスは、外部装置からの検索要求に対して情報を検索および提供するサービスである。例えば、検索要求で指定された単語を含むウェブサイトまたはファイル等の各種の情報を検索する情報検索サービス、または各利用者から投稿された情報を多数の利用者に提供するソーシャルメディアサービス(SNS:Social networking service)等の各種の情報サービスを提供するコンピュータシステムが「情報検索システム」として例示される。 An information retrieval system is a computer system that provides information services. The information service is a service that searches and provides information in response to a search request from an external device. For example, an information search service that searches for various types of information such as websites or files that include the words specified in a search request, or a social media service (SNS) that provides information posted by each user to a large number of users. A computer system that provides various information services such as social networking service is exemplified as an "information retrieval system."

「検索結果」は、例えば検索要求で指定された単語を含むウェブサイトのURL、または当該単語を含むテキストデータ等の形態で情報処理システムに提供される。情報検索システムは、例えば多数の利用者が注目している情報を優先的に検索結果として提供する。例えば、情報検索サービスにおける検索回数が多い情報、またはSNSサービスにおける投稿数または閲覧数が多い情報が、優先的に検索結果として提供される。 The “search result” is provided to the information processing system in the form of, for example, a URL of a website that includes the word specified in the search request, or text data that includes the word. For example, the information search system preferentially provides information that is of interest to many users as search results. For example, information that has been searched many times in an information search service, or information that has been posted or viewed many times in an SNS service is preferentially provided as a search result.

「代替単語」は、対象単語が置換されるべき代替的な単語である。例えば、代替単語は、対象単語に対して同音異義の関係にある単語である。検索結果に対応する代替単語は、例えば検索結果から特定可能な単語である。具体的には、検索結果がウェブサイトのURLとして提供される形態では、当該ウェブサイトに含まれる単語が代替単語として例示される。また、例えば検索結果がテキストデータ等のデータとして提供される形態では、当該テキストに含まれる単語が代替単語として例示される。認識文字列における対象単語は代替単語に置換される。ただし、対象単語が代替単語に置換されない場合があってもよい。 A "substitute word" is an alternative word in which the target word should be replaced. For example, the alternative word is a word that is homophoned to the target word. The alternative word corresponding to the search result is, for example, a word that can be specified from the search result. Specifically, in a format in which search results are provided as a URL of a website, words included in the website are exemplified as alternative words. Furthermore, for example, in a format in which search results are provided as data such as text data, words included in the text are exemplified as alternative words. The target word in the recognized character string is replaced with an alternative word. However, there may be cases where the target word is not replaced with the alternative word.

態様1の具体例(態様2)において、前記検索要求は、前記対象単語を含む。以上の態様においては、対象単語と関連単語との双方を含む検索要求が情報検索システムに送信されるから、対象単語が置換されるべき適切な代替単語が情報検索システムにより検索される可能性が向上される。 In a specific example of aspect 1 (aspect 2), the search request includes the target word. In the above aspect, since a search request that includes both the target word and related words is sent to the information retrieval system, there is a possibility that the information retrieval system will search for an appropriate alternative word to replace the target word. Improved.

態様1の具体例(態様3)において、前記検索要求は、前記対象単語を含まない。以上の態様においては、対象単語を含まない検索要求が情報検索システムに送信されるから、対象単語以外の単語が代替単語として検索される可能性が高い。例えば、対象単語に対して同音異字の関係にあり、かつ、関連単語に付随して使用される場合が多い単語が、代替単語として検索される。 In a specific example of aspect 1 (aspect 3), the search request does not include the target word. In the above aspect, since a search request that does not include the target word is sent to the information search system, there is a high possibility that words other than the target word will be searched as alternative words. For example, a word that has a homonym relationship with the target word and is often used in conjunction with a related word is searched as an alternative word.

態様1から態様3の何れかの具体例(態様4)において、前記対象単語は、人名であり、前記代替単語は、前記対象単語と同音異字の関係にある人名である。固有名詞のうち人名は、適正な文字列に対して同音異字の関係にある文字列が音声認識により推定される可能性が特に高い。対象単語と同音異字の関係にある人名が代替単語として対象単語に置換される構成によれば、音声認識において同音異字で誤推定された対象単語を適切な代替単語に置換することが可能である。なお、「同音異字」とは、称呼(呼び名)は共通するけれども表記(特に漢字)が相違する関係を意味する。 In a specific example of any one of aspects 1 to 3 (aspect 4), the target word is a person's name, and the alternative word is a person's name that has a homophone and allograph relationship with the target word. Among proper nouns, personal names are particularly likely to be inferred by voice recognition as character strings that have a homonym relationship with a proper character string. According to the configuration in which a person's name that has a homophone and allograph relationship with the target word is replaced with the target word as an alternative word, it is possible to replace the target word incorrectly estimated as a homophone in speech recognition with an appropriate alternative word. . Note that "homonyms" refers to a relationship where the pronunciation (name) is common but the notation (especially kanji) is different.

態様1から態様4の何れかの具体例(態様5)において、前記認識文字列における前記対象単語と前記対象単語以外の文字列とを相異なる態様で表示装置に表示すること、をさらに含み、前記代替単語に置換することは、前記表示装置に表示された前記対象単語を前記代替単語に置換することを含む。以上の態様においては、対象単語を含む認識文字列が表示装置に暫定的に表示され、検索結果が取得された段階で、表示装置に表示された対象単語が当該検索結果に対応する代替単語に置換される。したがって、例えば検索結果が取得された段階で、対象単語を代替単語に置換した認識文字列の表示が開始される構成と比較して、利用者が認識文字列を迅速に把握できる。 In a specific example of any one of aspects 1 to 4 (aspect 5), the method further includes displaying the target word and character strings other than the target word in the recognized character string on a display device in different manners; Replacing with the alternative word includes replacing the target word displayed on the display device with the alternative word. In the above aspect, the recognized character string including the target word is temporarily displayed on the display device, and when the search result is obtained, the target word displayed on the display device is changed to an alternative word corresponding to the search result. Replaced. Therefore, compared to a configuration in which the display of the recognized character string in which the target word is replaced with an alternative word is started, for example, at the stage when the search result is obtained, the user can quickly grasp the recognized character string.

表示装置に表示される「態様」は、観察者が視覚的に弁別可能な画像の特性を意味する。例えば、文字列または背景の表示色、模様(図柄)、サイズまたは形状が、「態様」の概念には包含される。なお、「表示色」は、色相(色調),彩度または明度(階調)により規定される。 "Aspects" displayed on a display device refer to characteristics of an image that can be visually distinguished by an observer. For example, the concept of "aspect" includes the display color, pattern (design), size, or shape of a character string or background. Note that the "display color" is defined by hue (tone), saturation, or brightness (gradation).

態様1から態様5の何れかの具体例(態様6)において、前記検索結果を取得することは、前記情報検索システムにより検索されて検索順位が設定された複数の検索情報を含む検索結果を取得することであり、前記対象単語を置換することは、前記複数の検索情報のうち検索順位が最上位である検索情報に対応する前記代替単語に、前記対象単語を置換することを含む。以上の態様においては、情報検索システムが検索した複数の検索情報のうち検索順位が最上位である検索情報に対応する代替単語に、対象単語が置換される。したがって、過去の検索の傾向等の多様な観点から優先度が高い単語を、優先的に代替単語として適用できる。 In a specific example of any one of aspects 1 to 5 (aspect 6), acquiring the search results includes acquiring search results that include a plurality of pieces of search information that have been searched by the information search system and have search rankings set. and replacing the target word includes replacing the target word with the alternative word corresponding to the search information with the highest search ranking among the plurality of search information. In the above aspect, the target word is replaced with an alternative word corresponding to the search information with the highest search ranking among the plurality of pieces of search information searched by the information search system. Therefore, words with high priority from various viewpoints such as past search trends can be preferentially applied as substitute words.

「検索順位」は、複数の検索結果について所定の条件のもとで決定された順位である。具体的には、例えば多数の利用者が注目している情報が検索順位の上位に位置付けられる。例えば、情報検索サービスにおける検索回数が多い情報、またはソーシャルメディアサービスにおける投稿数または閲覧数が多い情報が、検索順位の上位に位置する。 "Search rank" is a rank determined for a plurality of search results under predetermined conditions. Specifically, for example, information that a large number of users are paying attention to is positioned at the top of the search ranking. For example, information that has been searched many times in an information search service, or information that has been posted or viewed many times in a social media service is ranked high in the search ranking.

本開示のひとつの態様(態様7)に係る情報処理システムは、音声データに対する音声認識の結果である認識文字列を取得する文字列取得部と、前記認識文字列に含まれる固有名詞である対象単語以外の1以上の関連単語を含む検索要求を情報検索システムに送信する要求送信部と、前記検索要求に応じた検索結果を前記情報検索システムから受信する結果受信部と、前記認識文字列における前記対象単語を前記検索結果に対応する代替単語に置換する単語置換部とを具備する。 An information processing system according to one aspect (aspect 7) of the present disclosure includes a character string acquisition unit that acquires a recognized character string that is a result of speech recognition on voice data, and a target that is a proper noun included in the recognized character string. a request transmitting unit that transmits a search request including one or more related words other than words to an information retrieval system; a result receiving unit that receives a search result in response to the search request from the information retrieval system; and a word replacement unit that replaces the target word with an alternative word corresponding to the search result.

本開示のひとつの態様(態様8)に係るプログラムは、音声データに対する音声認識の結果である認識文字列を取得する文字列取得部、前記認識文字列に含まれる固有名詞である対象単語以外の1以上の関連単語を含む検索要求を情報検索システムに送信する要求送信部、前記検索要求に応じた検索結果を前記情報検索システムから受信する結果受信部、および、前記認識文字列における前記対象単語を前記検索結果に対応する代替単語に置換する単語置換部、としてコンピュータシステムを機能させる。 A program according to one aspect (aspect 8) of the present disclosure includes a character string acquisition unit that acquires a recognized character string that is a result of speech recognition on voice data, a character string acquisition unit that acquires a recognized character string that is a result of speech recognition on voice data, a character string acquisition unit that acquires a recognized character string that is a result of speech recognition for voice data, a request transmitting unit that transmits a search request including one or more related words to an information retrieval system; a result receiving unit that receives a search result corresponding to the search request from the information retrieval system; and the target word in the recognized character string. The computer system functions as a word replacement unit that replaces the search result with an alternative word corresponding to the search result.

100…情報システム、200…通信網、10…情報検索システム、20…配信システム、30…端末装置、31…制御装置、32…記憶装置、33…通信装置、34…表示装置、35…放音装置、40…制御システム、41…制御装置、42…記憶装置、43…通信装置、50…音声認識システム、71…音声認識部、72…補正処理部、721…要求送信部、722…結果受信部、723…単語置換部、73…認識要求部。 100... Information system, 200... Communication network, 10... Information search system, 20... Distribution system, 30... Terminal device, 31... Control device, 32... Storage device, 33... Communication device, 34... Display device, 35... Sound emission Device, 40... Control system, 41... Control device, 42... Storage device, 43... Communication device, 50... Speech recognition system, 71... Speech recognition section, 72... Correction processing section, 721... Request transmission section, 722... Result reception section, 723... word replacement section, 73... recognition request section.

Claims (8)

音声データに対する音声認識の結果である認識文字列を取得することと、
前記認識文字列に含まれる固有名詞である対象単語以外の1以上の関連単語を含む検索要求を情報検索システムに送信することと、
前記検索要求に応じた検索結果を前記情報検索システムから受信することと、
前記認識文字列における前記対象単語を前記検索結果に対応する代替単語に置換することとを含む
コンピュータシステムにより実現される情報処理方法。
Obtaining a recognized character string that is a result of voice recognition for voice data;
Sending a search request including one or more related words other than the target word that is a proper noun included in the recognized character string to an information retrieval system;
receiving search results in response to the search request from the information retrieval system;
and replacing the target word in the recognized character string with an alternative word corresponding to the search result.
前記検索要求は、前記対象単語を含む
請求項1の情報処理方法。
The information processing method according to claim 1, wherein the search request includes the target word.
前記検索要求は、前記対象単語を含まない
請求項1の情報処理方法。
The information processing method according to claim 1, wherein the search request does not include the target word.
前記対象単語は、人名であり、
前記代替単語は、前記対象単語と同音異字の関係にある人名である
請求項1から請求項3の何れかの情報処理方法。
The target word is a person's name,
The information processing method according to any one of claims 1 to 3, wherein the alternative word is a person's name that has a homophone and allograph relationship with the target word.
前記認識文字列における前記対象単語と前記対象単語以外の文字列とを相異なる態様で表示装置に表示すること、をさらに含み、
前記代替単語に置換することは、前記表示装置に表示された前記対象単語を前記代替単語に置換することを含む
請求項1から請求項3の何れかの情報処理方法。
further comprising displaying the target word and character strings other than the target word in the recognized character string in different manners on a display device,
The information processing method according to any one of claims 1 to 3, wherein replacing with the alternative word includes replacing the target word displayed on the display device with the alternative word.
前記検索結果を取得することは、前記情報検索システムにより検索されて検索順位が設定された複数の検索情報を含む検索結果を取得することであり、
前記対象単語を置換することは、前記複数の検索情報のうち検索順位が最上位である検索情報に対応する前記代替単語に、前記対象単語を置換することを含む
請求項1から請求項3の何れかの情報処理方法。
Obtaining the search results means obtaining search results including a plurality of pieces of search information that have been searched by the information search system and have a search ranking set;
According to claims 1 to 3, replacing the target word includes replacing the target word with the alternative word corresponding to the search information having the highest search ranking among the plurality of search information. Any information processing method.
音声データに対する音声認識の結果である認識文字列を取得する文字列取得部と、
前記認識文字列に含まれる固有名詞である対象単語以外の1以上の関連単語を含む検索要求を情報検索システムに送信する要求送信部と、
前記検索要求に応じた検索結果を前記情報検索システムから受信する結果受信部と、
前記認識文字列における前記対象単語を前記検索結果に対応する代替単語に置換する単語置換部と
を具備する情報処理システム。
a character string acquisition unit that acquires a recognized character string that is a result of voice recognition for voice data;
a request transmitting unit that transmits a search request including one or more related words other than the target word that is a proper noun included in the recognized character string to an information retrieval system;
a result receiving unit that receives search results in response to the search request from the information retrieval system;
and a word replacement unit that replaces the target word in the recognized character string with an alternative word corresponding to the search result.
音声データに対する音声認識の結果である認識文字列を取得する文字列取得部、
前記認識文字列に含まれる固有名詞である対象単語以外の1以上の関連単語を含む検索要求を情報検索システムに送信する要求送信部、
前記検索要求に応じた検索結果を前記情報検索システムから受信する結果受信部、および、
前記認識文字列における前記対象単語を前記検索結果に対応する代替単語に置換する単語置換部、
としてコンピュータシステムを機能させるプログラム。
a character string acquisition unit that acquires a recognized character string that is a result of voice recognition for voice data;
a request transmitting unit that transmits a search request including one or more related words other than the target word that is a proper noun included in the recognized character string to the information retrieval system;
a result receiving unit that receives search results in response to the search request from the information retrieval system; and
a word replacement unit that replaces the target word in the recognized character string with an alternative word corresponding to the search result;
A program that makes a computer system function as a computer.
JP2022073484A 2022-04-27 2022-04-27 Information processing method, information processing system, and program Pending JP2023162822A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2022073484A JP2023162822A (en) 2022-04-27 2022-04-27 Information processing method, information processing system, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2022073484A JP2023162822A (en) 2022-04-27 2022-04-27 Information processing method, information processing system, and program

Publications (1)

Publication Number Publication Date
JP2023162822A true JP2023162822A (en) 2023-11-09

Family

ID=88651194

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022073484A Pending JP2023162822A (en) 2022-04-27 2022-04-27 Information processing method, information processing system, and program

Country Status (1)

Country Link
JP (1) JP2023162822A (en)

Similar Documents

Publication Publication Date Title
US11709829B2 (en) Retrieving context from previous sessions
US9043199B1 (en) Manner of pronunciation-influenced search results
JP5449633B1 (en) Advertisement translation device, advertisement display device, and advertisement translation method
US11501764B2 (en) Apparatus for media entity pronunciation using deep learning
JP2008287697A (en) Voice chat system, information processor, and program
JP7171911B2 (en) Generate interactive audio tracks from visual content
CN111919249A (en) Continuous detection of words and related user experience
US20180211287A1 (en) Digital content generation based on user feedback
WO2020081158A1 (en) Dynamically suppressing query answers in search
US20230267152A1 (en) Systems and methods for providing personalized answers with learned user vocabulary for user queries
WO2019031268A1 (en) Information processing device and information processing method
WO2014147674A1 (en) Advertisement translation device, advertisement display device and advertisement translation method
GB2532174A (en) Information processing device, control method therefor, and computer program
CN110929023A (en) Dynamic summary generator
KR102104294B1 (en) Sign language video chatbot application stored on computer-readable storage media
CN110265005B (en) Output content control device, output content control method, and storage medium
JPWO2018043137A1 (en) INFORMATION PROCESSING APPARATUS AND INFORMATION PROCESSING METHOD
JP6433765B2 (en) Spoken dialogue system and spoken dialogue method
US10831791B1 (en) Using location aliases
JP2007199315A (en) Content providing apparatus
JP2023162822A (en) Information processing method, information processing system, and program
KR101709936B1 (en) Apparatus and method for enhancing the capability of conceptulazing a real-life topic and commanding english sentences by reorganizing the key idea of a real-life topic with simple english sentences
JP2010230948A (en) Content distribution system and text display method
CN114503099A (en) Replying to queries with voice recordings
JPWO2019098036A1 (en) Information processing equipment, information processing terminals, and information processing methods