WO2021049445A1 - 言語推定装置、言語推定方法、およびプログラム - Google Patents

言語推定装置、言語推定方法、およびプログラム Download PDF

Info

Publication number
WO2021049445A1
WO2021049445A1 PCT/JP2020/033723 JP2020033723W WO2021049445A1 WO 2021049445 A1 WO2021049445 A1 WO 2021049445A1 JP 2020033723 W JP2020033723 W JP 2020033723W WO 2021049445 A1 WO2021049445 A1 WO 2021049445A1
Authority
WO
WIPO (PCT)
Prior art keywords
language
speaker
estimation
voice
information
Prior art date
Application number
PCT/JP2020/033723
Other languages
English (en)
French (fr)
Inventor
秀治 古明地
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to US17/639,976 priority Critical patent/US20220319512A1/en
Priority to JP2021545514A priority patent/JP7331933B2/ja
Publication of WO2021049445A1 publication Critical patent/WO2021049445A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/263Language identification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition

Definitions

  • the present invention relates to a language estimation device, a language estimation method, and a program.
  • Patent Document 1 describes a voice communication device that inputs and outputs voice as a terminal dedicated to the owner of the ID card when an ID card on which an individual identification number is written is inserted.
  • the ID card stores the owner's voice or a specific vocabulary in the native language.
  • the owner-only terminal can be controlled by collating the voice with the ID card inserted.
  • Patent Document 2 describes a device for creating an export tax-exempt goods purchase record slip at the time of purchasing a product at a duty-free shop.
  • a plurality of language-specific notification information is associated with and stored in the country code, and when the country code is read from the recording medium, the language-specific notification information associated with the country code is acquired and this is used. The information to be notified is printed out using the language-specific notification information.
  • Patent Document 3 describes that by reading the attribute data indicating the nationality of the person to be recognized from the passport and translating the message into the language corresponding to the read nationality, the guidance of the language corresponding to the nationality is obtained. ing.
  • the present invention has been made in view of the above circumstances, and an object of the present invention is to provide a technique for efficiently and accurately performing language estimation.
  • the first aspect relates to a language estimator.
  • the first language estimator according to the first aspect is How to get nationality information and A selection means for selecting a language estimation engine using the acquired nationality information, and It has a specific means for analyzing the voice information of the speaker using the selected language estimation engine to identify the language used by the speaker.
  • the second language estimator according to the first aspect is How to get nationality information and Using the acquired nationality information, a selection means for selecting a language candidate for language estimation, and a selection means. It has a specific means for analyzing the voice information of the speaker using a language estimation engine and identifying the language used by the speaker from the selected candidates.
  • the second aspect relates to a language estimation method performed by at least one computer.
  • the first language estimation method according to the second aspect is The language estimator Get nationality information, Using the acquired nationality information, select a language estimation engine and select The language estimation engine of choice is used to analyze the speaker's voice information to identify the language used by the speaker.
  • the second language estimation method according to the second aspect is The language estimator Get nationality information, Using the acquired nationality information, select a language candidate for language estimation, and select a language candidate.
  • a language estimation engine is used to analyze the speaker's voice information to identify the language used by the speaker from the selected candidates.
  • this invention may be a program that causes at least one computer to execute the method of the second aspect, or a recording medium that can be read by a computer that records such a program. You may.
  • This recording medium includes non-temporary tangible media.
  • This computer program includes computer program code that causes the computer to perform its language estimation method on a language estimation device when executed by the computer.
  • the various components of the present invention do not necessarily have to be independent of each other, and a plurality of components are formed as one member, and one component is formed of a plurality of members. It may be that a certain component is a part of another component, a part of a certain component overlaps with a part of another component, and the like.
  • the order of description does not limit the order in which the plurality of procedures are executed. Therefore, when implementing the method and computer program of the present invention, the order of the plurality of procedures can be changed within a range that does not hinder the contents.
  • the method of the present invention and the plurality of procedures of the computer program are not limited to being executed at different timings. Therefore, another procedure may occur during the execution of a certain procedure, a part or all of the execution timing of the certain procedure and the execution timing of the other procedure may overlap, and the like.
  • acquisition means that the own device retrieves data or information stored in another device or storage medium (active acquisition), and is output to the own device from the other device. Includes at least one of entering data or information (passive acquisition).
  • active acquisition include making a request or inquiry to another device and receiving the reply, and accessing and reading another device or storage medium.
  • passive acquisition may be receiving information to be delivered (or transmitted, push notification, etc.).
  • acquisition may be to select and acquire the received data or information, or to select and receive the delivered data or information.
  • FIG. 1 is a block diagram showing a conceptual configuration example of the multilingual communication system 1 according to the embodiment of the present invention.
  • the multilingual communication system 1 includes a language estimation device 100 and a translation device 10.
  • the language estimation device 100 and the translation device 10 may be integrated with each other, that is, physically the same hardware.
  • the multilingual communication system 1 uses, for example, the first language used by the visitor (first speaker Ua) when carrying out procedures at the counters such as customs, immigration, and quarantine at the international airport. Estimate using the estimation device 100. Then, the translation device 10 performs mutual translation between the first language La of the specified speaker Ua and the second language Lb used by the interlocutor (second speaker Ub) such as the staff at the counter.
  • the translation device 10 inputs the utterance voices of the first speaker Ua and the second speaker Ub via a voice input device such as a microphone 4.
  • a microphone 4 is provided in each of the two, but the present invention is not limited to this. It may be one microphone 4 having directivity in at least two directions.
  • audio output devices such as speakers 6 are also provided in both of them, but at least one may be provided, and two or more speakers 6 may be provided.
  • a mobile terminal may be used to replace the audio input / output device (microphone 4 and speaker 6).
  • the translation device 10 expresses the content indicated by the uttered voice as the voice of the first language La. It is specified by using the recognition process, the content is further translated into the second language Lb of the second speaker Ub, and the voice is output via the speaker 6 (the flow indicated by the dashed arrow in the figure).
  • the translation device 10 recognizes the uttered voice of the second speaker Ub input via the microphone 4 in the second language Lb, translates it into the first language La of the first speaker Ua, and transmits the speaker 6. Audio is output via (the flow indicated by the one-point chain line arrow in the figure).
  • translation between languages is not limited to bidirectional, and may be unidirectional. Further, an interpreter who can speak the estimated language may interpret without using the translation device 10. Further, the language estimation device 100 may estimate not only the language of the speaker but also the dialect and accent of the place of residence of the speaker.
  • FIG. 2 is a functional block diagram that logically shows the configuration of the language estimation device 100 according to the embodiment of the present invention.
  • the language estimation device 100 includes an acquisition unit 102, a selection unit 104, and a specific unit 106.
  • the acquisition unit 102 acquires nationality information.
  • the selection unit 104 selects the language estimation engine 110 using the acquired nationality information.
  • the identification unit 106 uses the selected language estimation engine 110 to analyze the speaker's voice information 30 to specify the language used by the speaker.
  • the acquisition unit 102 acquires nationality information from, for example, the passport 20 possessed by the passenger.
  • the acquisition unit 102 reads the nationality information recorded on the IC (Integrated Circuit) chip embedded in the passport 20 via an IC reader (not shown).
  • the acquisition unit 102 acquires an image including the mark of nationality described in the passport 20, and reads the character by processing this image with OCR (Optical Character Recognition).
  • OCR Optical Character Recognition
  • the nationality information may be obtained by reading the serial number including the nationality information written on the passport.
  • the two-dimensional code on which the nationality information written on the passport 20 is recorded is read by a barcode reader.
  • nationality information is specified by acquiring an image of the design of the cover of the passport 20 (which differs for each country).
  • the language estimation device 100 registers in advance the features of the design of the passport 20 of each country in the storage device 1040 of FIG. 3 (or may refer to an external database), and the acquisition unit 102. Performs feature quantity matching processing on the captured image of the passport 20 by image processing to identify the country and acquire it as nationality information.
  • the language estimation device 100 includes, for example, an airport boarding procedure counter, a baggage storage counter, an information center such as an airport or a railroad, a staff member at various counters, or a crew member in an in-flight, cabin, or passenger car. It can also be applied to infer the language or dialect of the airport, accents, etc.
  • the acquisition unit 102 acquires, for example, an image including the description of the departure airport name, the boarding station name of the ticket for a vehicle such as a railroad, etc., which is described in the airline ticket possessed by the first speaker Ua, and this image is included.
  • the characters may be read by processing the image with OCR. You may search for the country name or prefecture name from the departure airport name or boarding station name to obtain it. In the example of estimating a dialect or an accent, the language estimation engine 110 is prepared specifically for each prefecture name.
  • the language estimation engine 110 estimates what the language of the spoken voice is by using the spoken voice of the speaker.
  • the language estimation engine 110 is prepared for each country and is specially learned for a plurality of languages used for each country.
  • FIG. 3 is a block diagram illustrating a hardware configuration of a computer 1000 that realizes the language estimation device 100 shown in FIG.
  • the computer 1000 has a bus 1010, a processor 1020, a memory 1030, a storage device 1040, an input / output interface 1050, and a network interface 1060.
  • the bus 1010 is a data transmission path for the processor 1020, the memory 1030, the storage device 1040, the input / output interface 1050, and the network interface 1060 to transmit and receive data to and from each other.
  • the method of connecting the processors 1020 and the like to each other is not limited to the bus connection.
  • the processor 1020 is a processor realized by a CPU (Central Processing Unit), a GPU (Graphics Processing Unit), or the like.
  • the memory 1030 is a main storage device realized by a RAM (Random Access Memory) or the like.
  • the storage device 1040 is an auxiliary storage device realized by an HDD (Hard Disk Drive), an SSD (Solid State Drive), a memory card, a ROM (Read Only Memory), or the like.
  • the storage device 1040 stores a program module that realizes each function of the computer 1000. When the processor 1020 reads each of these program modules into the memory 1030 and executes them, each function corresponding to the program module is realized.
  • the storage device 1040 also stores the language estimation engine 110.
  • the program module may be recorded on a recording medium.
  • the recording medium on which the program module is recorded includes a medium that can be used by the non-temporary tangible computer 1000, and the program code that can be read by the computer 1000 (processor 1020) may be embedded in the medium.
  • the input / output interface 1050 is an interface for connecting the computer 1000 and various input / output devices.
  • the network interface 1060 is an interface for connecting the computer 1000 to the communication network.
  • This communication network is, for example, LAN (Local Area Network) or WAN (Wide Area Network).
  • the method of connecting the network interface 1060 to the communication network may be a wireless connection or a wired connection.
  • the computer 1000 is connected to necessary devices (for example, the microphone 4 and the speaker 6) via the input / output interface 1050 or the network interface 1060.
  • the computer 1000 that realizes the language estimation device 100 is, for example, a personal computer, a smartphone, a tablet terminal, or the like.
  • the computer 1000 that realizes the language estimation device 100 may be a dedicated terminal device.
  • the language estimation device 100 may be realized by a computer 1000 that is physically integrated with the translation device 10.
  • the language estimation device 100 is realized by installing and starting an application program for realizing the language estimation device 100 on the computer 1000.
  • the computer 1000 is a web server, and the user activates a browser on a user terminal such as a personal computer, a smartphone, or a tablet terminal to provide the service of the language estimation device 100 via a network such as the Internet. By accessing the page, the function of the language estimation device 100 may be used.
  • the computer 1000 may be a server device of a system such as SaaS (Software as a Service) that provides the service of the language estimation device 100.
  • SaaS Software as a Service
  • the user may access the server device from a user terminal such as a personal computer, a smartphone, or a tablet terminal via a network such as the Internet, and the language estimation device 100 may be realized by a program running on the server device.
  • FIG. 4 is a flowchart showing an example of the operation of the language estimation device 100 of the present embodiment.
  • the acquisition unit 102 acquires nationality information from the passport 20 of the first speaker Ua (step S101).
  • FIG. 5 is a diagram showing an example of the data structure of the country-specific language estimation engine table 112.
  • the country-specific language estimation engine table 112 stores a language estimation engine specialized for each country in association with each other.
  • “America”, “A”, “English” and the like are described so as to be stored in the country-specific language estimation engine table 112 for easy understanding.
  • the country-specific language estimation engine table 112 stores information indicating the country, for example, information identifying the country and information identifying the language estimation engine in association with each other.
  • the language to be estimated by each language estimation engine is not stored in the country-specific language estimation engine table 112.
  • FIG. 5 for the sake of explanation, which language the language estimation engine is specialized for as an estimation target is shown.
  • the United States is associated with a language estimation engine A that specializes in multiple languages such as English and Spanish. Switzerland is associated with a language estimation engine B that specializes in four languages: French, Italian, German, and Romansh.
  • the selection unit 104 refers to the country-specific language estimation engine table 112, reads out the language estimation engine 110 associated with the country indicated by the nationality information acquired in step S101, and the language estimation engine 110 to be used by the specific unit 106. Is selected (step S103).
  • the country indicated by the nationality information acquired in step S101 is the United States
  • the information indicating the country of the United States is selected from a plurality of language estimation engines stored in advance in the country-specific language estimation engine table 112.
  • the associated language estimation engine A is selected.
  • the specific unit 106 acquires the uttered voice of the first speaker Ua from the microphone 4, analyzes the voice information 30 of the uttered voice using the language estimation engine A selected in step S103, and analyzes the first speaker.
  • the first language La used by the speaker Ua is specified from a plurality of languages such as English and Spanish (step S105).
  • the voice information 30 of the utterance voice of the first speaker Ua is analyzed and identified as Spanish. In this way, since the language estimation engine specialized for each country is used, the number of languages to be analyzed in the voice information 30 can be narrowed down.
  • the number of languages to be analyzed is narrowed down and the language is estimated by using the language estimation engine 110 learned for each country using the nationality information acquired from the passport 20 or the like. Therefore, the language estimation process can be performed efficiently and accurately.
  • the language estimation device 100 of the present embodiment is different from the above embodiment in that it has a configuration for estimating a language using a language estimation engine 110 for a plurality of countries.
  • FIG. 6 is a functional block diagram showing a logical configuration example of the language estimation device 100 of the present embodiment.
  • the acquisition unit 102 is the same as the above-described embodiment of FIG.
  • the selection unit 104 selects a language candidate for language estimation using the nationality information acquired by the acquisition unit 102.
  • the identification unit 106 analyzes the voice information of the speaker by using one language estimation engine 110 for a plurality of countries, and identifies the language used by the speaker from the selected candidates.
  • FIG. 7 is a flowchart showing an example of the operation of the language estimation device 100 of the present embodiment.
  • the flowchart of FIG. 7 includes the same step S101 as the flowchart of the above-described embodiment of FIG. 4, and further includes steps S113 and S115.
  • the selection unit 104 selects a language candidate for language estimation using the nationality information acquired in step S101 (step S113).
  • the language estimation engine 110 of the present embodiment constructs a neural network of all languages (for example, 50 languages) corresponding to all target countries (for example, a hundred and several tens of countries) by deep learning.
  • the input of this neural network is audio data and the output is language.
  • the selection unit 104 narrows down the candidates by masking the output language of the neural network of the language estimation engine 110 by country.
  • the output language is associated and stored for each country in advance, and the language candidates are narrowed down by taking the logical product of the output language associated with the country and the output language of the neural network.
  • the specific unit 106 analyzes the voice information of the speaker by using the language estimation engine 110 in which the language candidates are narrowed down in this way, and specifies the language used by the speaker (step S115).
  • FIG. 8 is a functional block diagram showing a logical configuration example of the language estimation device 100 of the present embodiment.
  • the language estimation device 100 of the present embodiment is the same as any of the above embodiments except that the language estimation device 100 of the present embodiment has a configuration in which the estimated language is presented to the user.
  • the language estimation device 100 of FIG. 8 includes the same acquisition unit 102, selection unit 104, specific unit 106, and language estimation engine 110 as the language estimation device 100 of the above embodiment of FIG. 2 or FIG. Further, the output unit 120 is provided.
  • the output unit 120 When the score indicating the reliability of the language estimation result using the speaker's voice information is equal to or less than the first reference value, the output unit 120 outputs the voice or characters using the specified language.
  • the score indicating the reliability of the language estimation result may be, for example, the likelihood included in the result of voice recognition processing of the speaker's voice information. If the score indicating the reliability of the language estimation result is lower than the first reference value, the speaker or the respondent is made to select by outputting the voice or the character using the language in consideration of the possibility that the estimation result is incorrect. be able to.
  • the determination using the score may be performed by the specific unit 106. Further, when the score exceeds the first reference value, the specific unit 106 may determine the language having the highest score.
  • the first reference value is a criterion for determining whether or not the result of language estimation is reliable, and if it is equal to or less than the first reference value, it indicates that the reliability of the result of language estimation is low, and the first reference value is used. If it exceeds the reference value, it indicates that the result of language estimation is reliable.
  • the output unit 120 outputs voice to the speaker 6 or characters to the display device 122. Interrogatives such as "Is the language you speak Hindi?" May be output using the specified language.
  • FIG. 9 is a diagram showing an example of the screen 300 displayed by the output unit 120.
  • the screen 300 displays a plurality of languages specified by the specific unit 106 as operation buttons 302 in the order of scores, and displays a message 304 prompting the user to select a language.
  • the screen 300 may be displayed and a message may be output by voice.
  • the plurality of languages are displayed side by side in descending order of score.
  • the operation button 302 and the message 304 are marked in Japanese for the sake of simplification of the explanation, but in reality, they are marked in the specified language, respectively.
  • the OK button 306 can be pressed to confirm the language selection. Further, each time the language is selected by the operation button 302, the notation may be changed to the language in which the message 304 is selected.
  • an operation button is used as a GUI (Graphical User Interface), but in other examples, it may be a check button, a radio button, a pull-down menu, a drum roll, or the like.
  • the UI that accepts the user's selection operation may not be used, and a plurality of languages and a question message to the user may be simply displayed.
  • the output unit 120 does not output voice or characters using a language whose score is equal to or less than the second reference value.
  • the second reference value is a value even lower than the first reference value, and is a value that defines a range in which reliability is considered to be almost unreliable. As a result, it is possible to present the user with a language in which a certain degree of reliability is ensured.
  • the output unit 120 uses the language of the candidate, in other words, uses the candidates whose linguistic estimation results are in competition with each other.
  • the language may be output. This determination process may also be performed by the specific unit 106. Further, when the difference exceeds the third reference value, the specific unit 106 may determine the language having the highest score.
  • the output unit 120 performs at least one of the determination processes using the first reference value, the second reference value, and the third reference value, or a combination of at least one of the determination results. Based on, it is possible to decide whether or not to output voice or language.
  • FIG. 10 is a flowchart showing an operation example of the language estimation device 100 of the present embodiment.
  • the flow of FIG. 10 starts after step S105 of FIG. 4 or after step S115 of FIG.
  • the output unit 120 determines whether or not the score indicating the reliability of the voice recognition result when analyzing the voice information of the speaker using the plurality of languages selected in step S103 is equal to or less than the first reference value ( Step S201). If the score is not equal to or less than the first reference value (YES in step S201), step S203 is bypassed and this flow ends.
  • the output unit 120 outputs the voice using the language from the speaker 6 or displays the characters using the language on the display device 122. (Step S203).
  • the language estimation device 100 of the present embodiment has the same effect as that of the above embodiment, and further, when the reliability of the estimation result is low, the speaker or the respondent is made to confirm by voice or characters. Can accept the choice of the appropriate language.
  • the selection unit 104 does not select the language estimation engine 110, and the specific unit 106 is associated with the country in advance. Identify the language.
  • the country and language are associated and stored in the country-specific language correspondence table in advance. Then, the selection unit 104 first refers to the country-specific language correspondence table, searches the country indicated by the nationality information acquired by the acquisition unit 102 in the country-specific language correspondence table, and when the country is found, the country is selected. Gets and outputs the associated language.
  • the language estimation process using the language estimation engine 110 can be omitted, so that the load on the computer 1000 can be reduced, the accuracy is further improved, and the efficiency is high.
  • the language estimation device 100 may further include a second selection unit (not shown) in which the specific unit 106 selects a translation engine corresponding to the specified language.
  • the second selection unit notifies the translation device 10 of the multilingual communication system 1 of FIG. 1 of the information of the selected translation engine.
  • the translation device 10 can perform mutual translation between the first language La of the first speaker Ua and the second language Lb of the second speaker Ub by using the notified translation engine.
  • the language estimator described in. 4. When the score indicating the reliability of the language estimation result using the voice information of the speaker is equal to or less than the first reference value, the output means for outputting the voice or characters using the language specified by the specific means is further added. Prepare, prepare 1. 1. From 3. The language estimator according to any one of the above. 5. The output means outputs the voice or the character in the order of the score. 4. The language estimator described in. 6. Further, the output means does not output the voice or the character using the language whose score is equal to or less than the second reference value. 4. Or 5. The language estimator described in. 7. A second selection means for selecting a translation engine corresponding to the language specified by the specific means is further provided. 1. 1. From 6. The language estimator according to any one of the above. 8. When the nationality information acquired by the acquisition means indicates a predetermined country, the selection means does not select a language estimation engine, and the specific means is a language pre-associated with the country. To identify, 1. 1. From 7. The language estimator according to any one of the above.
  • the language estimator Get nationality information Using the acquired nationality information, select a language estimation engine and select A language estimation method that analyzes the voice information of a speaker using the selected language estimation engine to identify the language used by the speaker. 10.
  • the language estimator Get nationality information Using the acquired nationality information, select a language candidate for language estimation, and select a language candidate.
  • a language estimation method that analyzes a speaker's voice information using a language estimation engine and identifies the language used by the speaker from the selected candidates.
  • the language estimation device acquires the nationality information from the passport. 9. Or 10. The language estimation method described in. 12.
  • the language estimator further When the score indicating the reliability of the language estimation result using the voice information of the speaker is equal to or less than the first reference value, the voice or characters using the specified language are output. 9. From 11. The language estimation method described in any one of the above. 13. The language estimator further Output the voice or the character in the order of the score. 12. The language estimation method described in. 14. The language estimator further The voice or the character using the language whose score is equal to or less than the second reference value is not output. 12. Or 13. The language estimation method described in. 15. The language estimator further Select a translation engine for the identified language, 9. From 14. The language estimation method described in any one of the above. 16. The language estimator further If the acquired nationality information indicates a predetermined country, the language estimation engine is not selected and the language associated with the country is specified. 9. To 15. The language estimation method described in any one of the above.
  • Procedure for selecting a language estimation engine using the acquired nationality information A program for executing a procedure of analyzing a speaker's voice information and identifying a language used by the speaker using the selected language estimation engine. 18.
  • Procedure for selecting a candidate language for language estimation using the acquired nationality information A program for executing a procedure of analyzing a speaker's voice information and identifying a language used by the speaker from the selected candidates using a language estimation engine. 19.
  • the computer is further subjected to the procedure of outputting the voice or characters using the specified language. for, 17. From 19.
  • the program described in any one of. 21. To cause the computer to further perform the procedure of outputting the voice or the character in the order of the score. 20.
  • the program described in. 22. To make the computer further perform the procedure of not outputting the voice or the character using the language whose score is equal to or less than the second reference value. 20. Or 21.
  • the program described in. 23 To have the computer perform further steps to select a translation engine for the identified language. 17. From 22.
  • the program described in any one of. 24. If the acquired nationality information indicates a predetermined country, the computer may further perform a procedure for identifying a language pre-associated with the country without selecting a language estimation engine. 17. From 23.
  • Multilingual communication system 4 Microphone 6 Speaker 10 Translation device 20 Passenger ticket 30
  • Voice information 100
  • Language estimation engine 112 Country language estimation engine table 120
  • Output section 122 Display device 300 screen 302 Operation button 304 Message 306 OK button 1000
  • Storage device 1050 Input / output interface 1060 Network interface La First language Lb Second language Ua First speaker Ub Second speaker

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

言語推定装置(100)は、国籍情報を取得する取得部(102)と、取得した国籍情報を用いて、言語推定エンジンを選択する選択部(104)と、選択した言語推定エンジン(110)を用いて、話者の音声情報を解析して話者が用いる言語を特定する特定部(106)と、を備える。

Description

言語推定装置、言語推定方法、およびプログラム
 本発明は、言語推定装置、言語推定方法、およびプログラムに関する。
 近年、外国人移住者や外国人旅行者の増加に伴い、翻訳器や通訳者を介したコミュニケーションの需要が増加している。
 特許文献1には、個別識別番号が書き込まれたIDカードを挿入すると、IDカードの所有者専用端末として音声を出入力する音声通信装置が記載されている。IDカードには所有者の音声または母国語の特定語録を記憶している。所有者専用端末はIDカードが挿入された状態で音声を照合すると制御できる。
 特許文献2には、免税店において、商品購入時に輸出免税物品購入記録票を作成する装置が記載されている。この装置では、国別コードに複数の言語別報知情報が関連付けられて記憶されており、記録媒体から国別コードを読み取ると、国別コードに関連付けられている言語別報知情報を取得し、この言語別報知情報を用いて報知すべき情報を印字出力する。
 特許文献3には、認識対象者の国籍を示す属性データをパスポートから読み出し、読み出した国籍に応じた言語にメッセージを翻訳することで、当該国籍に応じた言語のガイダンスを取得することが記載されている。
特開平3-150927号公報 特開2017-4333号公報 特開2019-40642号公報
 国際化が進む中で、来訪する外国人も多様化している。このため、翻訳が必要な言語の数が増加し、外国人話者が話す言語の特定に時間を要していた。
 本発明は上記事情に鑑みてなされたものであり、その目的とするところは、言語推定を効率よくかつ精度よく行う技術を提供することにある。
 本発明の各側面では、上述した課題を解決するために、それぞれ以下の構成を採用する。
 第一の側面は、言語推定装置に関する。
 第一の側面に係る第1の言語推定装置は、
 国籍情報を取得する取得手段と、
 取得した前記国籍情報を用いて、言語推定エンジンを選択する選択手段と、
 選択した前記言語推定エンジンを用いて、話者の音声情報を解析して前記話者が用いる言語を特定する特定手段と、を有する。
 第一の側面に係る第2の言語推定装置は、
 国籍情報を取得する取得手段と、
 取得した前記国籍情報を用いて、言語推定対象の言語の候補を選択する選択手段と、
 言語推定エンジンを用いて、話者の音声情報を解析して前記話者が用いる言語を選択した前記候補から特定する特定手段と、を有する。
 第二の側面は、少なくとも1つのコンピュータにより実行される言語推定方法に関する。
 第二の側面に係る第1の言語推定方法は、
 言語推定装置が、
 国籍情報を取得し、
 取得した前記国籍情報を用いて、言語推定エンジンを選択し、
 選択した前記言語推定エンジンを用いて、話者の音声情報を解析して前記話者が用いる言語を特定する、ことを含む。
 第二の側面に係る第2の言語推定方法は、
 言語推定装置が、
 国籍情報を取得し、
 取得した前記国籍情報を用いて、言語推定対象の言語の候補を選択し、
 言語推定エンジンを用いて、話者の音声情報を解析して前記話者が用いる言語を選択した前記候補から特定する、ことを含む。
 なお、本発明の他の側面としては、上記第二の側面の方法を少なくとも1つのコンピュータに実行させるプログラムであってもよいし、このようなプログラムを記録したコンピュータが読み取り可能な記録媒体であってもよい。この記録媒体は、非一時的な有形の媒体を含む。
 このコンピュータプログラムは、コンピュータにより実行されたとき、コンピュータに、言語推定装置上で、その言語推定方法を実施させるコンピュータプログラムコードを含む。
 なお、以上の構成要素の任意の組合せ、本発明の表現を方法、装置、システム、記録媒体、コンピュータプログラムなどの間で変換したものもまた、本発明の態様として有効である。
 また、本発明の各種の構成要素は、必ずしも個々に独立した存在である必要はなく、複数の構成要素が一個の部材として形成されていること、一つの構成要素が複数の部材で形成されていること、ある構成要素が他の構成要素の一部であること、ある構成要素の一部と他の構成要素の一部とが重複していること、等でもよい。
 また、本発明の方法およびコンピュータプログラムには複数の手順を順番に記載してあるが、その記載の順番は複数の手順を実行する順番を限定するものではない。このため、本発明の方法およびコンピュータプログラムを実施するときには、その複数の手順の順番は内容的に支障のない範囲で変更することができる。
 さらに、本発明の方法およびコンピュータプログラムの複数の手順は個々に相違するタイミングで実行されることに限定されない。このため、ある手順の実行中に他の手順が発生すること、ある手順の実行タイミングと他の手順の実行タイミングとの一部ないし全部が重複していること、等でもよい。
 上記各側面によれば、言語推定を効率よくかつ精度よく行う技術を提供することができる。
本発明の実施の形態に係る多言語対応コミュニケーションシステムの概念的な構成例を示すブロック図である。 本発明の実施の形態に係る言語推定装置の構成を論理的に示す機能ブロック図である。 本発明の実施の形態に係る言語推定装置を実現するコンピュータのハードウェア構成を例示するブロック図である。 本実施形態の言語推定装置の動作の一例を示すフローチャートである。 国別言語推定エンジンテーブルのデータ構造の一例を示す図である。 本実施形態の言語推定装置の論理的な構成例を示す機能ブロック図である。 本実施形態の言語推定装置の動作の一例を示すフローチャートである。 本実施形態の言語推定装置の論理的な構成例を示す機能ブロック図である。 出力部が表示する画面の一例を示す図である。 本実施形態の言語推定装置の動作例を示すフローチャートである。
 以下、本発明の実施の形態について、図面を用いて説明する。尚、すべての図面において、同様な構成要素には同様の符号を付し、適宜説明を省略する。以下の各図において、本発明の本質に関わらない部分の構成については省略してあり、図示されていない。
 実施形態において「取得」とは、自装置が他の装置や記憶媒体に格納されているデータまたは情報を取りに行くこと(能動的な取得)、および、自装置に他の装置から出力されるデータまたは情報を入力すること(受動的な取得)の少なくとも一方を含む。能動的な取得の例は、他の装置にリクエストまたは問い合わせしてその返信を受信すること、及び、他の装置や記憶媒体にアクセスして読み出すこと等がある。また、受動的な取得の例は、配信(または、送信、プッシュ通知等)される情報を受信すること等がある。さらに、「取得」とは、受信したデータまたは情報の中から選択して取得すること、または、配信されたデータまたは情報を選択して受信することであってもよい。
(第1の実施の形態)
<システム概要>
 図1は、本発明の実施の形態に係る多言語対応コミュニケーションシステム1の概念的な構成例を示すブロック図である。多言語対応コミュニケーションシステム1は、言語推定装置100と、翻訳装置10と、を備える。言語推定装置100と翻訳装置10はと一体、すなわち物理的に同一のハードウェアであってもよい。
 多言語対応コミュニケーションシステム1は、例えば、国際空港の税関、入国審査、検疫などの窓口での手続きを行う際に、来訪者(第1の話者Ua)が用いている第1言語を、言語推定装置100を用いて推定する。そして、翻訳装置10は、特定された話者Uaの第1言語Laと、窓口の係員等の対話者(第2の話者Ub)が用いている第2言語Lbとの相互翻訳を行う。
 翻訳装置10は、第1の話者Uaと第2の話者Ubの発話音声をマイクロフォン4などの音声入力装置を介して入力する。図1では、両者にそれぞれマイクロフォン4を設けた構成としているが、これに限定されない。少なくとも2方向の指向性を有する1つのマイクロフォン4であってもよい。また、図1では、スピーカ6などの音声出力装置も両者にそれぞれ設けた構成としているが、少なくとも1つあればよいし、2つ以上のスピーカ6を有してもよい。さらなる他の例では、携帯端末を用いて、当該音声入出力装置(マイクロフォン4とスピーカ6)の替わりとしてもよい。
 そして、翻訳装置10は、マイクロフォン4を介して入力された第1の話者Uaの発話音声が第1言語Laであることを認識した後、この発話音声が示す内容を第1言語Laの音声認識処理を用いて特定し、さらにその内容を第2の話者Ubの第2言語Lbに翻訳し、スピーカ6を介して音声出力する(図中、破線の矢印で示される流れ)。翻訳装置10は、マイクロフォン4を介して入力された第2の話者Ubの発話音声を第2言語Lbで認識した後、第1の話者Uaの第1言語Laに翻訳し、スピーカ6を介して音声出力する(図中、一点鎖線の矢印で示される流れ)。
 ただし、言語間の翻訳は、双方向に限定されず、一方向であってもよい。また、翻訳装置10を使わず、推定された言語を話せる通訳者が通訳してもよい。
 さらに、言語推定装置100は、話者の言語だけでなく、話者の居住場所の方言や訛りを推定してもよい。
<機能構成例>
 図2は、本発明の実施の形態に係る言語推定装置100の構成を論理的に示す機能ブロック図である。言語推定装置100は、取得部102と、選択部104と、特定部106と、を備える。
 取得部102は、国籍情報を取得する。
 選択部104は、取得した国籍情報を用いて、言語推定エンジン110を選択する。
 特定部106は、選択した言語推定エンジン110を用いて、話者の音声情報30を解析して話者が用いる言語を特定する。
 取得部102は、例えば、旅客が所持している旅券20から国籍情報を取得する。一例として、取得部102は、旅券20に埋め込まれているIC(Integrated Circuit)チップに記録されている国籍情報をICリーダ(不図示)を介して読み取る。他の例では、取得部102は、旅券20に記載されている国籍の標記を含む画像を取得し、この画像をOCR(Optical Character Recognition)で処理することにより文字を読み取る。また、旅券20に国籍の表記を含まない場合であっても、パスポートに記載された国籍情報を含むシリアルナンバーを読み取ることで、国籍情報を取得してもいい。他の例では、旅券20に記載されている国籍情報が記録された2次元コードをバーコードリーダで読み取る。
 さらに、他の例では、旅券20の表紙等のデザイン(各国毎に異なる)を撮影した画像を取得することで、国籍情報を特定する。具体的には、言語推定装置100は、予め各国の旅券20のデザインの特徴量を図3のストレージデバイス1040に登録しておき(あるいは、外部のデータベースを参照してもよい)、取得部102は、旅券20の撮像画像を画像処理により特徴量のマッチング処理を行い国を特定し、国籍情報として取得する。
 さらに、言語推定装置100は、例えば、空港の搭乗手続きカウンタ、手荷物預かりカウンタ、あるいは、空港や鉄道等の案内所、各種窓口の係員、あるいは、機内、客室、客車で乗務員などが、乗客、顧客の言語または方言や訛りなどを推定するのにも適用できる。
 取得部102は、例えば、第1の話者Uaが所持している航空チケットに記載されている出発空港名、鉄道等の乗り物の乗車券の乗車駅名等の記載を含む画像を取得し、この画像をOCRで処理することにより文字を読み取ってもよい。出発空港名や乗車駅名から国名や、都道府県名を検索して取得してもよい。方言や訛りを推定する例では、言語推定エンジン110は、都道府県名毎に特化したものが準備される。
 言語推定エンジン110は、話者の発話音声を用いることで、その発話音声の言語が何であるかを推定する。本実施形態では、言語推定エンジン110は、国別に準備され、国別に使用される複数の言語に特化して学習されている。
<ハードウェア構成例>
 図3は、図2に示す言語推定装置100を実現するコンピュータ1000のハードウェア構成を例示するブロック図である。コンピュータ1000は、バス1010、プロセッサ1020、メモリ1030、ストレージデバイス1040、入出力インタフェース1050、およびネットワークインタフェース1060を有する。
 バス1010は、プロセッサ1020、メモリ1030、ストレージデバイス1040、入出力インタフェース1050、およびネットワークインタフェース1060が、相互にデータを送受信するためのデータ伝送路である。ただし、プロセッサ1020などを互いに接続する方法は、バス接続に限定されない。
 プロセッサ1020は、CPU(Central Processing Unit) やGPU(Graphics Processing Unit)などで実現されるプロセッサである。
 メモリ1030は、RAM(Random Access Memory)などで実現される主記憶装置である。
 ストレージデバイス1040は、HDD(Hard Disk Drive)、SSD(Solid State Drive)、メモリカード、又はROM(Read Only Memory)などで実現される補助記憶装置である。ストレージデバイス1040はコンピュータ1000の各機能を実現するプログラムモジュールを記憶している。プロセッサ1020がこれら各プログラムモジュールをメモリ1030上に読み込んで実行することで、そのプログラムモジュールに対応する各機能が実現される。また、ストレージデバイス1040は言語推定エンジン110も記憶している。
 プログラムモジュールは、記録媒体に記録されてもよい。プログラムモジュールを記録する記録媒体は、非一時的な有形のコンピュータ1000が使用可能な媒体を含み、その媒体に、コンピュータ1000(プロセッサ1020)が読み取り可能なプログラムコードが埋め込まれてよい。
 入出力インタフェース1050は、コンピュータ1000と各種入出力機器とを接続するためのインタフェースである。
 ネットワークインタフェース1060は、コンピュータ1000を通信ネットワークに接続するためのインタフェースである。この通信ネットワークは、例えばLAN(Local Area Network)やWAN(Wide Area Network)である。ネットワークインタフェース1060が通信ネットワークに接続する方法は、無線接続であってもよいし、有線接続であってもよい。
 そして、コンピュータ1000は、入出力インタフェース1050またはネットワークインタフェース1060を介して、必要な機器(例えば、マイクロフォン4、およびスピーカ6)に接続する。
 言語推定装置100を実現するコンピュータ1000は、例えば、パーソナルコンピュータ、スマートフォン、タブレット端末などである。あるいは、言語推定装置100を実現するコンピュータ1000は、専用の端末装置であってもよい。上記したように、言語推定装置100は、翻訳装置10と物理的に一体のコンピュータ1000により実現されてもよい。例えば、言語推定装置100は、コンピュータ1000に、当該言語推定装置100を実現するためのアプリケーションプログラムをインストールして起動することで実現される。
 他の例では、コンピュータ1000は、ウェブサーバであり、ユーザはパーソナルコンピュータ、スマートフォン、タブレット端末などのユーザ端末でブラウザを起動し、インターネットなどのネットワークを介して言語推定装置100のサービスを提供するウェブページにアクセスすることで、言語推定装置100の機能を利用できてもよい。
 さらなる他の例では、コンピュータ1000は、言語推定装置100のサービスを提供するSaaS(Software as a Service)などシステムのサーバ装置であってもよい。ユーザはパーソナルコンピュータ、スマートフォン、タブレット端末などのユーザ端末からインターネットなどのネットワークを介してサーバ装置にアクセスし、サーバ装置上で動作するプログラムにより言語推定装置100が実現されてもよい。
<動作例>
 図4は、本実施形態の言語推定装置100の動作の一例を示すフローチャートである。
 まず、取得部102は、第1の話者Uaの旅券20から国籍情報を取得する(ステップS101)。
 図5は、国別言語推定エンジンテーブル112のデータ構造の一例を示す図である。国別言語推定エンジンテーブル112は、国毎に特化した言語推定エンジンを関連付けて記憶している。なお、図5では理解しやすいように「アメリカ」、「A」、「英語」等が国別言語推定エンジンテーブル112に記憶されているように記載されている。実際には、国別言語推定エンジンテーブル112には、国を示す情報、例えば、国を識別する情報と、言語推定エンジンを識別する情報とが関連付けられて記憶されている。さらに、各言語推定エンジンが推定対象とする言語については、当該国別言語推定エンジンテーブル112に記憶されている訳ではない。図5では、当該言語推定エンジンが、どの言語を推定対象として特化されたものかを説明のために示している。
 例えば、アメリカには英語とスペイン語など複数の言語に特化した言語推定エンジンAが関連付けられている。スイスには、フランス語、イタリア語、ドイツ語、ロマンシュ語の4つの言語に特化した言語推定エンジンBが関連付けられている。
 そして、選択部104は、国別言語推定エンジンテーブル112を参照し、ステップS101で取得した国籍情報が示す国に関連付けられている言語推定エンジン110を読み出し、特定部106が用いるべき言語推定エンジン110を選択する(ステップS103)。一例として、ステップS101で取得した国籍情報が示す国がアメリカである場合には、予め国別言語推定エンジンテーブル112に記憶されている複数の言語推定エンジンの中から、アメリカという国を示す情報に関連付く言語推定エンジンAが選択される。
 そして、特定部106は、第1の話者Uaの発話音声をマイクロフォン4から取得し、当該発話音声の音声情報30を、ステップS103で選択した言語推定エンジンAを用いて解析して第1の話者Uaが用いる第1言語Laを、英語およびスペイン語などの複数の言語の中から特定する(ステップS105)。ここでは、第1の話者Uaの発話音声の音声情報30を解析してスペイン語であることが特定されたものとする。このように、国別に特化された言語推定エンジンを用いるので、音声情報30の解析対象となる言語の数を絞り込むことができる。
 以上説明したように、本実施形態によれば、旅券20などから取得した国籍情報を用いて、国別に学習された言語推定エンジン110を用いて、解析対象となる言語の数を絞り込んで言語推定されるので、言語推定処理を効率よく、かつ、精度よく行うことができる。
(第2の実施の形態)
 本実施形態の言語推定装置100は、複数の国を対象にした言語推定エンジン110を用いて言語を推定する構成を有する点で上記実施形態と相違する。
<機能構成例>
 図6は、本実施形態の言語推定装置100の論理的な構成例を示す機能ブロック図である。取得部102は、図2の上記実施形態と同じである。
 選択部104は、取得部102が取得した国籍情報を用いて、言語推定対象の言語の候補を選択する。特定部106は、複数の国を対象にした1つの言語推定エンジン110を用いて、話者の音声情報を解析して前記話者が用いる言語を選択した候補から特定する。
<動作例>
 図7は、本実施形態の言語推定装置100の動作の一例を示すフローチャートである。
 図7のフローチャートは、図4の上記実施形態のフローチャートと同じステップS101を含むとともに、さらに、ステップS113とステップS115とを含む。
 選択部104は、ステップS101で取得した国籍情報を用いて、言語推定対象の言語の候補を選択する(ステップS113)。
 本実施形態の言語推定エンジン110は、ディープラーニングにより、対象となる全ての国(例えば、百数十カ国)に対応する全ての言語(例えば、50言語)のニューラルネットワークを構築しておく。このニューラルネットワークの入力は音声データであり、出力が言語である。
 言い換えると、選択部104は、この言語推定エンジン110のニューラルネットワークの出力の言語を国によってマスクすることで候補を絞り込む。例えば、予め国別に出力の言語を関連付けて記憶しておき、国に関連付けられた出力の言語とニューラルネットワークの出力の言語との論理積をとることで言語の候補を絞り込む。
 そして、特定部106は、このようにして言語の候補が絞りこまれた言語推定エンジン110を用いて、話者の音声情報を解析して話者が用いる言語を特定する(ステップS115)。
 本実施形態によれば、上記実施形態と同様な効果を奏する。
(第3の実施の形態)
 図8は、本実施形態の言語推定装置100の論理的な構成例を示す機能ブロック図である。本実施形態の言語推定装置100は、上記実施形態とは、推定した言語をユーザに提示する構成を有している点以外は、上記実施形態のいずれかと同じである。
<機能構成例>
 図8の言語推定装置100は、図2または図6の上記実施形態の言語推定装置100と同じ取得部102と、選択部104と、特定部106と、言語推定エンジン110と、を備えるとともに、さらに、出力部120を備える。
 出力部120は、話者の音声情報を用いた言語推定結果の信頼度を示すスコアが第1の基準値以下の場合、特定した前記言語を用いた音声または文字を出力する。ここで、言語推定結果の信頼度を示すスコアは、例えば、話者の音声情報を音声認識処理した結果に含まれる尤度などであってもよい。言語推定結果の信頼度を示すスコアが第1の基準値より低い場合、推定結果が間違いである可能性を考慮して言語を用いた音声または文字を出力し、話者または応対者に選択させることができる。スコアを用いた判定は、特定部106が行ってもよい。また、スコアが第1の基準値を超える場合、特定部106は、最もスコアが高い言語に決定してよい。
 第1の基準値は、言語推定の結果が信頼できるか否かを判定する基準であり、第1の基準値以下の場合は、言語推定の結果の信頼度が低いことを示し、第1の基準値を超える場合は、言語推定の結果が信頼できることを示す。
 出力部120は、スピーカ6に音声、または表示装置122に文字を出力する。「貴方が話す言語はヒンディー語ですか?」などの質問文を特定された言語を用いて出力してもよい。
 出力部120は、スコア順に特定された前記言語を用いた音声または文字を出力する。
 図9は、出力部120が表示する画面300の一例を示す図である。画面300は、特定部106により特定された複数の言語をスコア順に操作ボタン302として表示するとともに、言語の選択をユーザに促すメッセージ304を表示する。画面300を表示するとともに、メッセージを音声で出力してもよい。ここで、複数の言語は、スコアが高い順並べて表示されるのが好ましい。
 なお、図9では、説明の簡略化のために日本語で操作ボタン302とメッセージ304が標記されているが、実際には、特定された言語でそれぞれ標記される。操作ボタン302を押下して言語を選択した後、OKボタン306を押下して言語選択を確定することができる。また、操作ボタン302で言語が選択される度に、メッセージ304が選択された言語に標記が変更されてもよい。
 図9の例では、GUI(Graphical User Interface)として操作ボタンを用いているが、他の例では、チェックボタン、ラジオボタン、プルダウンメニュー、ドラムロールなどであってもよい。あるいは、ユーザの選択操作を受け付けるUIは用いず、単に複数の言語と、ユーザへの質問メッセージを表示するだけでもよい。
 さらに、出力部120は、スコアが第2の基準値以下の言語を用いた音声または文字は出力しない。第2の基準値は第1の基準値よりさらに低い値であり、信頼性がほとんどないと思われる範囲を規定する値である。これにより、ある程度の信頼度が確保されている言語をユーザに提示できる。
 さらに、出力部120は、候補間のスコアの差分が第3の基準値以下の場合、当該候補の言語を用いて、言い換えると、言語推定結果の確度が拮抗している候補を用いて、音声または言語を出力してもよい。この判定処理も特定部106が行ってもよい。また、差分が第3の基準値を超える場合、特定部106は、スコアが最も高い言語に決定してもよい。
 出力部120は、第1の基準値、第2の基準値、および第3の基準値を用いた判定処理の少なくともいずれか一つを、または少なくともいずれか2つを組み合わせて行い、その判定結果に基づいて、音声または言語の出力を行うか否かを決めることができる。
<動作例>
 図10は、本実施形態の言語推定装置100の動作例を示すフローチャートである。図10のフローは、図4のステップS105の後、または図7のステップS115の後に開始する。出力部120は、ステップS103で選択された複数の言語を用いて話者の音声情報を解析する際の音声認識結果の信頼度を示すスコアが第1の基準値以下か否かを判定する(ステップS201)。スコアが第1の基準値以下でない場合(ステップS201のYES)、ステップS203をバイパスして本フローを終了する。
 一方、スコアが第1の基準値以下の場合(ステップS201のNO)、出力部120は、当該言語を用いた音声をスピーカ6から出力、または当該言語を用いた文字を表示装置122に表示する(ステップS203)。
 本実施形態によれば、言語推定エンジン110による話者の音声認識結果の信頼度を記すスコアが第1の基準値より低い場合に、その言語を用いた音声または文字を出力する。これにより、本実施形態の言語推定装置100は、上記実施形態と同様な効果を奏するとともに、さらに、推定結果の信頼度が低い場合に、話者または応対者に、音声または文字で確認させ、適切な言語の選択を受け付けることができる。
 以上、図面を参照して本発明の実施形態について述べたが、これらは本発明の例示であり、上記以外の様々な構成を採用することもできる。
 たとえば、取得部102が取得した国籍情報が予め定められた国を示している場合は、選択部104は、言語推定エンジン110の選択を行わず、特定部106は、国に予め関連付けられている言語を特定する。
 ここで、日本など日本語のみの単一言語の国については、予め国別言語対応テーブルに国と言語を関連付けて記憶しておく。そして、選択部104は、まず、当該国別言語対応テーブルを参照し、取得部102が取得した国籍情報が示す国を、国別言語対応テーブル内で検索し、国が見つかったら、当該国に関連付けられている言語を取得し出力する。
 この構成によれば、単一言語の国については、言語推定エンジン110を用いた言語推定処理を省略できるので、コンピュータ1000の負荷を低減でき、さらに精度が向上し、かつ効率もよい。
 また、言語推定装置100は、さらに、特定部106が特定した言語に対応する翻訳エンジンを選択する第2の選択部(不図示)を備えてもよい。第2の選択部は、選択した翻訳エンジンの情報を図1の多言語対応コミュニケーションシステム1の翻訳装置10に通知する。翻訳装置10は、通知された翻訳エンジンを用いて、第1の話者Uaの第1言語Laと、第2の話者Ubの第2言語Lbとの相互翻訳を行うことができる。
 以上、実施形態および実施例を参照して本願発明を説明したが、本願発明は上記実施形態および実施例に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
 なお、本発明において利用者に関する情報を取得、利用する場合は、これを適法に行うものとする。
 上記の実施形態の一部または全部は、以下の付記のようにも記載されうるが、以下に限られない。
 以下、参考形態の例を付記する。
1. 国籍情報を取得する取得手段と、
 取得した前記国籍情報を用いて、言語推定エンジンを選択する選択手段と、
 選択した前記言語推定エンジンを用いて、話者の音声情報を解析して前記話者が用いる言語を特定する特定手段と、を備える、言語推定装置。
2. 国籍情報を取得する取得手段と、
 取得した前記国籍情報を用いて、言語推定対象の言語の候補を選択する選択手段と、
 言語推定エンジンを用いて、話者の音声情報を解析して前記話者が用いる言語を選択した前記候補から特定する特定手段と、を備える言語推定装置。
3. 前記取得手段は、旅券から前記国籍情報を取得する、
 1.または2.に記載の言語推定装置。
4. 前記話者の前記音声情報を用いた言語推定結果の信頼度を示すスコアが第1の基準値以下の場合、前記特定手段が特定した前記言語を用いた音声または文字を出力する出力手段をさらに備える、
 1.から3.のいずれか一つに記載の言語推定装置。
5. 前記出力手段は、前記スコア順に前記音声または前記文字を出力する、
 4.に記載の言語推定装置。
6. 前記出力手段は、さらに、前記スコアが第2の基準値以下の前記言語を用いた前記音声または前記文字は出力しない、
 4.または5.に記載の言語推定装置。
7. 前記特定手段が特定した前記言語に対応する翻訳エンジンを選択する第2の選択手段をさらに備える、
 1.から6.のいずれか一つに記載の言語推定装置。
8. 前記取得手段が取得した前記国籍情報が予め定められた国を示している場合は、前記選択手段は、言語推定エンジンの選択を行わず、前記特定手段は、前記国に予め関連付けられている言語を特定する、
 1.から7.のいずれか一つに記載の言語推定装置。
9. 言語推定装置が、
 国籍情報を取得し、
 取得した前記国籍情報を用いて、言語推定エンジンを選択し、
 選択した前記言語推定エンジンを用いて、話者の音声情報を解析して前記話者が用いる言語を特定する、言語推定方法。
10. 言語推定装置が、
 国籍情報を取得し、
 取得した前記国籍情報を用いて、言語推定対象の言語の候補を選択し、
 言語推定エンジンを用いて、話者の音声情報を解析して前記話者が用いる言語を選択した前記候補から特定する、言語推定方法。
11. 前記言語推定装置が、旅券から前記国籍情報を取得する、
 9.または10.に記載の言語推定方法。
12. 前記言語推定装置が、さらに、
 前記話者の前記音声情報を用いた言語推定結果の信頼度を示すスコアが第1の基準値以下の場合、特定した前記言語を用いた音声または文字を出力する、
 9.から11.のいずれか一つに記載の言語推定方法。
13. 前記言語推定装置が、さらに、
 前記スコア順に前記音声または前記文字を出力する、
 12.に記載の言語推定方法。
14. 前記言語推定装置が、さらに、
 前記スコアが第2の基準値以下の前記言語を用いた前記音声または前記文字は出力しない、
 12.または13.に記載の言語推定方法。
15. 前記言語推定装置が、さらに、
 特定した前記言語に対応する翻訳エンジンを選択する、
 9.から14.のいずれか一つに記載の言語推定方法。
16. 前記言語推定装置が、さらに、
 取得した前記国籍情報が予め定められた国を示している場合は、言語推定エンジンの選択を行わず、前記国に予め関連付けられている言語を特定する、
 9.から15.のいずれか一つに記載の言語推定方法。
17. コンピュータに、
 国籍情報を取得する手順、
 取得した前記国籍情報を用いて、言語推定エンジンを選択する手順、
 選択した前記言語推定エンジンを用いて、話者の音声情報を解析して前記話者が用いる言語を特定する手順、を実行させるためのプログラム。
18. コンピュータに、
 国籍情報を取得する手順、
 取得した前記国籍情報を用いて、言語推定対象の言語の候補を選択する手順、
 言語推定エンジンを用いて、話者の音声情報を解析して前記話者が用いる言語を選択した前記候補から特定する手順、を実行させるためのプログラム。
19. 旅券から前記国籍情報を取得する手順、をコンピュータにさらに実行させるための、
 17.または18.に記載のプログラム。
20. 前記話者の前記音声情報を用いた言語推定結果の信頼度を示すスコアが第1の基準値以下の場合、特定した前記言語を用いた音声または文字を出力する手順、をコンピュータにさらに実行させるための、
 17.から19.のいずれか一つに記載のプログラム。
21. 前記スコア順に前記音声または前記文字を出力する手順、をコンピュータにさらに実行させるための、
 20.に記載のプログラム。
22. 前記スコアが第2の基準値以下の前記言語を用いた前記音声または前記文字は出力しない手順、をコンピュータにさらに実行させるための、
 20.または21.に記載のプログラム。
23. 特定した前記言語に対応する翻訳エンジンを選択する手順、をコンピュータにさらに実行させるための、
 17.から22.のいずれか一つに記載のプログラム。
24. 取得した前記国籍情報が予め定められた国を示している場合は、言語推定エンジンの選択を行わず、前記国に予め関連付けられている言語を特定する手順、をコンピュータにさらに実行させるための、
 17.から23.のいずれか一つに記載のプログラム。
 この出願は、2019年9月10日に出願された日本出願特願2019-164404号を基礎とする優先権を主張し、その開示の全てをここに取り込む。
1 多言語対応コミュニケーションシステム
4 マイクロフォン
6 スピーカ
10 翻訳装置
20 旅券
30 音声情報
100 言語推定装置
102 取得部
104 選択部
106 特定部
110 言語推定エンジン
112 国別言語推定エンジンテーブル
120 出力部
122 表示装置
300 画面
302 操作ボタン
304 メッセージ
306 OKボタン
1000 コンピュータ
1010 バス
1020 プロセッサ
1030 メモリ
1040 ストレージデバイス
1050 入出力インタフェース
1060 ネットワークインタフェース
La 第1言語
Lb 第2言語
Ua 第1の話者
Ub 第2の話者

Claims (24)

  1.  国籍情報を取得する取得手段と、
     取得した前記国籍情報を用いて、言語推定エンジンを選択する選択手段と、
     選択した前記言語推定エンジンを用いて、話者の音声情報を解析して前記話者が用いる言語を特定する特定手段と、を備える、言語推定装置。
  2.  国籍情報を取得する取得手段と、
     取得した前記国籍情報を用いて、言語推定対象の言語の候補を選択する選択手段と、
     言語推定エンジンを用いて、話者の音声情報を解析して前記話者が用いる言語を選択した前記候補から特定する特定手段と、を備える言語推定装置。
  3.  前記取得手段は、旅券から前記国籍情報を取得する、
     請求項1または2に記載の言語推定装置。
  4.  前記話者の前記音声情報を用いた言語推定結果の信頼度を示すスコアが第1の基準値以下の場合、前記特定手段が特定した前記言語を用いた音声または文字を出力する出力手段をさらに備える、
     請求項1から3のいずれか一項に記載の言語推定装置。
  5.  前記出力手段は、前記スコア順に前記音声または前記文字を出力する、
     請求項4に記載の言語推定装置。
  6.  前記出力手段は、さらに、前記スコアが第2の基準値以下の前記言語を用いた前記音声または前記文字は出力しない、
     請求項4または5に記載の言語推定装置。
  7.  前記特定手段が特定した前記言語に対応する翻訳エンジンを選択する第2の選択手段をさらに備える、
     請求項1から6のいずれか一項に記載の言語推定装置。
  8.  前記取得手段が取得した前記国籍情報が予め定められた国を示している場合は、前記選択手段は、言語推定エンジンの選択を行わず、前記特定手段は、前記国に予め関連付けられている言語を特定する、
     請求項1から7のいずれか一項に記載の言語推定装置。
  9.  言語推定装置が、
     国籍情報を取得し、
     取得した前記国籍情報を用いて、言語推定エンジンを選択し、
     選択した前記言語推定エンジンを用いて、話者の音声情報を解析して前記話者が用いる言語を特定する、言語推定方法。
  10.  言語推定装置が、
     国籍情報を取得し、
     取得した前記国籍情報を用いて、言語推定対象の言語の候補を選択し、
     言語推定エンジンを用いて、話者の音声情報を解析して前記話者が用いる言語を選択した前記候補から特定する、言語推定方法。
  11.  前記言語推定装置が、旅券から前記国籍情報を取得する、
     請求項9または10に記載の言語推定方法。
  12.  前記言語推定装置が、さらに、
     前記話者の前記音声情報を用いた言語推定結果の信頼度を示すスコアが第1の基準値以下の場合、特定した前記言語を用いた音声または文字を出力する、
     請求項9から11のいずれか一項に記載の言語推定方法。
  13.  前記言語推定装置が、さらに、
     前記スコア順に前記音声または前記文字を出力する、
     請求項12に記載の言語推定方法。
  14.  前記言語推定装置が、さらに、
     前記スコアが第2の基準値以下の前記言語を用いた前記音声または前記文字は出力しない、
     請求項12または13に記載の言語推定方法。
  15.  前記言語推定装置が、さらに、
     特定した前記言語に対応する翻訳エンジンを選択する、
     請求項9から14のいずれか一項に記載の言語推定方法。
  16.  前記言語推定装置が、さらに、
     取得した前記国籍情報が予め定められた国を示している場合は、言語推定エンジンの選択を行わず、前記国に予め関連付けられている言語を特定する、
     請求項9から15のいずれか一項に記載の言語推定方法。
  17.  コンピュータに、
     国籍情報を取得する手順、
     取得した前記国籍情報を用いて、言語推定エンジンを選択する手順、
     選択した前記言語推定エンジンを用いて、話者の音声情報を解析して前記話者が用いる言語を特定する手順、を実行させるためのプログラム。
  18.  コンピュータに、
     国籍情報を取得する手順、
     取得した前記国籍情報を用いて、言語推定対象の言語の候補を選択する手順、
     言語推定エンジンを用いて、話者の音声情報を解析して前記話者が用いる言語を選択した前記候補から特定する手順、を実行させるためのプログラム。
  19.  旅券から前記国籍情報を取得する手順、をコンピュータにさらに実行させるための、
     請求項17または18に記載のプログラム。
  20.  前記話者の前記音声情報を用いた言語推定結果の信頼度を示すスコアが第1の基準値以下の場合、特定した前記言語を用いた音声または文字を出力する手順、をコンピュータにさらに実行させるための、
     請求項17から19のいずれか一項に記載のプログラム。
  21.  前記スコア順に前記音声または前記文字を出力する手順、をコンピュータにさらに実行させるための、
     請求項20に記載のプログラム。
  22.  前記スコアが第2の基準値以下の前記言語を用いた前記音声または前記文字は出力しない手順、をコンピュータにさらに実行させるための、
     請求項20または21に記載のプログラム。
  23.  特定した前記言語に対応する翻訳エンジンを選択する手順、をコンピュータにさらに実行させるための、
     請求項17から22のいずれか一項に記載のプログラム。
  24.  取得した前記国籍情報が予め定められた国を示している場合は、言語推定エンジンの選択を行わず、前記国に予め関連付けられている言語を特定する手順、をコンピュータにさらに実行させるための、
     請求項17から23のいずれか一項に記載のプログラム。
PCT/JP2020/033723 2019-09-10 2020-09-07 言語推定装置、言語推定方法、およびプログラム WO2021049445A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US17/639,976 US20220319512A1 (en) 2019-09-10 2020-09-07 Language inference apparatus, language inference method, and program
JP2021545514A JP7331933B2 (ja) 2019-09-10 2020-09-07 言語推定装置、言語推定方法、およびプログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019164404 2019-09-10
JP2019-164404 2019-09-10

Publications (1)

Publication Number Publication Date
WO2021049445A1 true WO2021049445A1 (ja) 2021-03-18

Family

ID=74866600

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/033723 WO2021049445A1 (ja) 2019-09-10 2020-09-07 言語推定装置、言語推定方法、およびプログラム

Country Status (3)

Country Link
US (1) US20220319512A1 (ja)
JP (1) JP7331933B2 (ja)
WO (1) WO2021049445A1 (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0728899A (ja) * 1993-07-09 1995-01-31 Hitachi Ltd 各種証明書自動発行機における外国人インタフェース
JP2002304392A (ja) * 2001-04-04 2002-10-18 Atr Onsei Gengo Tsushin Kenkyusho:Kk 音声翻訳システム
US20130238336A1 (en) * 2012-03-08 2013-09-12 Google Inc. Recognizing speech in multiple languages
JP2014137430A (ja) * 2013-01-16 2014-07-28 Sharp Corp 電子機器及び掃除機
JP2017041120A (ja) * 2015-08-20 2017-02-23 カシオ計算機株式会社 情報処理装置、情報処理システム、情報処理方法およびプログラム
JP2019040642A (ja) * 2015-09-09 2019-03-14 日本電気株式会社 顔認証装置、顔認証方法及びプログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230130773A (ko) * 2016-09-13 2023-09-12 매직 립, 인코포레이티드 감각 안경류
DK201770439A1 (en) * 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
JP2019113520A (ja) * 2017-12-22 2019-07-11 株式会社デンソー 車載情報表示装置及び使用言語推定装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0728899A (ja) * 1993-07-09 1995-01-31 Hitachi Ltd 各種証明書自動発行機における外国人インタフェース
JP2002304392A (ja) * 2001-04-04 2002-10-18 Atr Onsei Gengo Tsushin Kenkyusho:Kk 音声翻訳システム
US20130238336A1 (en) * 2012-03-08 2013-09-12 Google Inc. Recognizing speech in multiple languages
JP2014137430A (ja) * 2013-01-16 2014-07-28 Sharp Corp 電子機器及び掃除機
JP2017041120A (ja) * 2015-08-20 2017-02-23 カシオ計算機株式会社 情報処理装置、情報処理システム、情報処理方法およびプログラム
JP2019040642A (ja) * 2015-09-09 2019-03-14 日本電気株式会社 顔認証装置、顔認証方法及びプログラム

Also Published As

Publication number Publication date
US20220319512A1 (en) 2022-10-06
JPWO2021049445A1 (ja) 2021-03-18
JP7331933B2 (ja) 2023-08-23

Similar Documents

Publication Publication Date Title
US10847147B2 (en) Hyperarticulation detection in repetitive voice queries using pairwise comparison for improved speech recognition
US11049493B2 (en) Spoken dialog device, spoken dialog method, and recording medium
WO2019200923A1 (zh) 基于拼音的语义识别方法、装置以及人机对话***
US11494161B2 (en) Coding system and coding method using voice recognition
KR100586767B1 (ko) 다중모드 입력을 이용한 다중모드 초점 탐지, 기준 모호성해명 및 기분 분류를 위한 시스템 및 방법
JP5796496B2 (ja) 入力支援システム、方法、およびプログラム
JP4559946B2 (ja) 入力装置、入力方法および入力プログラム
WO2018223796A1 (zh) 语音识别方法、存储介质及语音识别设备
US20150179173A1 (en) Communication support apparatus, communication support method, and computer program product
CN110910903B (zh) 语音情绪识别方法、装置、设备及计算机可读存储介质
US11545140B2 (en) System and method for language-based service hailing
CN110459223B (zh) 数据跟踪处理方法、设备、存储介质及装置
US11227116B2 (en) Translation device, translation method, and program
US20150095024A1 (en) Function execution instruction system, function execution instruction method, and function execution instruction program
WO2021237227A1 (en) Method and system for multi-language text recognition model with autonomous language classification
Abhishek et al. Aiding the visually impaired using artificial intelligence and speech recognition technology
WO2021049445A1 (ja) 言語推定装置、言語推定方法、およびプログラム
CN113051384A (zh) 基于对话的用户画像抽取方法及相关装置
JP2016162163A (ja) 情報処理装置及び情報処理プログラム
JP2010054897A (ja) 音声認識装置、音声認識プログラム、受付装置および受付プログラム
US11107469B2 (en) Information processing apparatus and information processing method
CN113312927B (zh) 信息处理装置、信息处理方法以及记录介质
US11847407B2 (en) Apparatus for removing text noise for text analysis and method thereof
CN110459224B (zh) 语音识别结果处理方法、装置、计算机设备及存储介质
JP2010054896A (ja) 音声認識装置および音声認識プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20864162

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021545514

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20864162

Country of ref document: EP

Kind code of ref document: A1