KR101789629B1 - User device for measuring pronounce similarity between texts - Google Patents

User device for measuring pronounce similarity between texts Download PDF

Info

Publication number
KR101789629B1
KR101789629B1 KR1020160110142A KR20160110142A KR101789629B1 KR 101789629 B1 KR101789629 B1 KR 101789629B1 KR 1020160110142 A KR1020160110142 A KR 1020160110142A KR 20160110142 A KR20160110142 A KR 20160110142A KR 101789629 B1 KR101789629 B1 KR 101789629B1
Authority
KR
South Korea
Prior art keywords
pronunciation
similarity
error distance
user terminal
text
Prior art date
Application number
KR1020160110142A
Other languages
Korean (ko)
Inventor
박종세
김대현
류창선
Original Assignee
주식회사 케이티
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 케이티 filed Critical 주식회사 케이티
Priority to KR1020160110142A priority Critical patent/KR101789629B1/en
Application granted granted Critical
Publication of KR101789629B1 publication Critical patent/KR101789629B1/en

Links

Images

Classifications

    • H04M1/274583
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72519

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

A user terminal for measuring pronunciation similarity between texts comprises: a voice input unit configured to receive a voice; a text drawing unit configured to draw texts by recognizing the received voice; a similarity measuring unit configured to compare the texts with a plurality of names stored in an address book of the user terminal to measure pronunciation similarity; and an alignment unit configured to align the plurality of names in accordance with the measured pronunciation similarity.

Description

텍스트 간의 발음 유사도를 측정하는 사용자 단말{USER DEVICE FOR MEASURING PRONOUNCE SIMILARITY BETWEEN TEXTS}USER DEVICE FOR MEASURING PRONOUNCE SIMILARITY BETWEEN TEXTS < RTI ID = 0.0 >

본 발명은 텍스트 간의 발음 유사도를 측정하는 사용자 단말, 방법 및 시스템에 관한 것이다. The present invention relates to a user terminal, method and system for measuring pronunciation similarity between texts.

음성 다이얼링 시스템이란 불특정 다수의 목소리를 인식하여 자동으로 전화를 연결해 주는 음성 인식 교환 시스템을 의미한다. 음성 다이얼링 시스템은 음성 인식, 음성 응답 등의 자연 언어 처리 기술이 진보됨에 따라 발전되었으며, 일반 전화기를 통해 전달된 음성을 교환 접속 장치에서 인식하여 착신자를 호출하도록 구성된다. A voice dialing system refers to a voice recognition exchange system that recognizes an unspecified number of voices and automatically connects the telephone. The voice dialing system has been developed as natural language processing technology such as voice recognition and voice response has advanced, and is configured to recognize a voice transmitted through a general telephone at an exchange access device and call a called party.

이러한 음성 다이얼링 시스템과 관련하여, 선행기술인 한국공개특허 제 2003-0030691호는 음성 다이얼링 기능을 갖는 통신 단말기 및 음성 다이얼링 방법을 개시하고 있다. In connection with such a voice dialing system, Korean Unexamined Patent Publication No. 2003-0030691 discloses a communication terminal having a voice dialing function and a voice dialing method.

그러나 기존의 음성 다이얼링 시스템은 한국어 발성 특성을 고려하지 않아, 입력된 음성을 오인식할 수 있다는 단점을 가지고 있다. 또한, 입력된 음성을 오인식함으로써, 잘못된 음성 인식 결과에 따른 음성 다이얼링 기능을 제공할 수 있다는 단점을 가지고 있다. However, the existing voice dialing system does not take into consideration the Korean utterance characteristic, and has the disadvantage that the inputted voice can be mistakenly recognized. Further, it is disadvantageous in that it is possible to provide a voice dialing function according to an incorrect voice recognition result by misrecognizing the input voice.

사용자가 음성으로 다이얼링을 시도하고자 하는 경우, 음성 인식 결과가 오인식되더라도 사용자가 원하는 이름을 검색하고, 해당 이름으로 발신할 수 있도록 하는 텍스트 간의 발음 유사도를 측정하는 사용자 단말, 방법 및 시스템을 제공하고자 한다. 사용자 단말의 주소록에 비슷한 발음의 이름이 다수 저장된 경우, 사용자가 발신하고자 하는 이름의 후보들을 표시하고, 사용자가 직접 이름을 선택하도록 하는 텍스트 간의 발음 유사도를 측정하는 사용자 단말을 제공하고자 한다. 사용자 단말의 주소록에 저장된 이름이 숫자 및 영어를 포함하는 경우에도, 주소록에서 해당 이름의 검색이 가능하도록 하는 텍스트 간의 발음 유사도를 측정하는 사용자 단말, 방법 및 시스템을 제공하고자 한다. 사용자 단말의 주소록에 저장된 이름이 호칭, 직급 등을 포함하는 경우에도, 주소록에서 해당 이름의 검색이 가능하도록 하는 텍스트 간의 발음 유사도를 측정하는 사용자 단말, 방법 및 시스템을 제공하고자 한다. 다만, 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제들로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다. A user terminal, a method, and a system for measuring pronunciation similarity between texts in which a user desires to dial a voice, searches for a desired name by the user even if the voice recognition result is misidentified, . The present invention provides a user terminal for measuring pronunciation similarity between texts in which candidates of a name to be transmitted by a user are displayed and a user directly selects a name when a plurality of similar pronunciation names are stored in the address book of the user terminal. A method and a system for measuring pronunciation similarity between texts in which a name stored in an address book of a user terminal includes a number and English so that the name can be searched in the address book. A method and a system for measuring pronunciation similarity between texts in which a name stored in an address book of a user terminal includes a name, a position, and the like and which enables searching of the name in the address book. It is to be understood, however, that the technical scope of the present invention is not limited to the above-described technical problems, and other technical problems may exist.

상술한 기술적 과제를 달성하기 위한 수단으로서, 본 발명의 일 실시예는, 음성을 입력받는 음성 입력부, 상기 입력된 음성를 인식하여 텍스트를 도출하는 텍스트 도출부, 상기 텍스트와 상기 사용자 단말의 주소록에 저장된 복수의 이름을 각각 비교하여 발음 유사도를 측정하는 발음 유사도 측정부 및 상기 측정된 발음 유사도에 따라 상기 복수의 이름을 정렬하는 정렬부를 포함하는 사용자 단말을 제공할 수 있다. According to an aspect of the present invention, there is provided an apparatus for extracting text from a text input apparatus, the apparatus comprising: a speech input unit for inputting speech; a text derivation unit for recognizing the input speech to derive text; A pronunciation similarity measuring unit that compares a plurality of names with each other to measure pronunciation similarity, and an aligner that aligns the plurality of names according to the measured pronunciation similarity.

본 발명의 다른 실시예는, 음성을 입력받는 음성 입력부, 상기 입력된 음성를 인식하여 텍스트를 도출하는 텍스트 도출부, 상기 텍스트와 상기 사용자 단말의 주소록에 저장된 복수의 이름을 각각 비교하여 발음 유사도를 측정하는 발음 유사도 측정부, 상기 측정된 발음 유사도에 따라 상기 복수의 이름을 정렬하여 표시하는 표시부 및 상기 복수의 이름 중 하나를 선택받는 경우, 상기 선택받은 이름과 통화 연결을 시도하는 통화 연결부를 포함하는 사용자 단말을 제공할 수 있다. In another embodiment of the present invention, there is provided a speech recognition system including a speech input unit for inputting a speech, a text derivation unit for recognizing the input speech to derive text, a plurality of names stored in the address book of the user terminal, A display unit for displaying the plurality of names sorted according to the measured pronunciation similarity, and a call connection unit for attempting call connection with the selected name when one of the plurality of names is selected A user terminal can be provided.

상술한 과제 해결 수단은 단지 예시적인 것으로서, 본 발명을 제한하려는 의도로 해석되지 않아야 한다. 상술한 예시적인 실시예 외에도, 도면 및 발명의 상세한 설명에 기재된 추가적인 실시예가 존재할 수 있다.The above-described task solution is merely exemplary and should not be construed as limiting the present invention. In addition to the exemplary embodiments described above, there may be additional embodiments described in the drawings and the detailed description of the invention.

전술한 본 발명의 과제 해결 수단 중 어느 하나에 의하면, 사용자가 음성으로 다이얼링을 시도하고자 하는 경우, 음성 인식 결과가 오인식되더라도 사용자가 원하는 이름을 검색하고, 해당 이름으로 발신할 수 있도록 하는 텍스트 간의 발음 유사도를 측정하는 사용자 단말, 방법 및 시스템을 제공할 수 있다. 사용자 단말의 주소록에 비슷한 발음의 이름이 다수 저장된 경우, 사용자가 발신하고자 하는 이름의 후보들을 표시하고, 사용자가 직접 이름을 선택하도록 하는 텍스트 간의 발음 유사도를 측정하는 사용자 단말, 방법 및 시스템을 제공할 수 있다. 사용자 단말의 주소록에 저장된 이름이 숫자 및 영어를 포함하는 경우에도, 주소록에서 해당 이름의 검색이 가능하도록 하는 텍스트 간의 발음 유사도를 측정하는 사용자 단말, 방법 및 시스템을 제공할 수 있다. 사용자 단말의 주소록에 저장된 이름이 호칭, 직급 등을 포함하는 경우에도, 주소록에서 해당 이름의 검색이 가능하도록 하는 텍스트 간의 발음 유사도를 측정하는 사용자 단말을 제공할 수 있다.According to any one of the above-mentioned means for solving the problems of the present invention, when a user attempts to dial by voice, the user can search for a desired name even if the result of speech recognition is mistaken, A user terminal, a method and a system for measuring similarity can be provided. There is provided a user terminal, a method, and a system for measuring pronunciation similarity between texts in which candidates of a name to be transmitted by a user are displayed in a case where a plurality of similar pronunciation names are stored in the address book of the user terminal, . A user terminal, a method, and a system for measuring pronunciation similarity between texts in which a name stored in an address book of a user terminal can be searched for in the address book even when the names include numbers and English. Even when the name stored in the address book of the user terminal includes the title, the rank, and the like, the user terminal can measure the pronunciation similarity between texts that enable searching of the name in the address book.

도 1은 본 발명의 일 실시예에 따른 발음 유사도 측정 시스템의 구성도이다.
도 2는 본 발명의 일 실시예에 따른 사용자 단말의 구성도이다.
도 3은 본 발명의 일 실시예에 따른 에러 거리 테이블을 도시한 예시적인 도면이다.
도 4는 본 발명의 일 실시예에 따른 사용자 단말에서 발음열 비교를 통해 편집 거리를 측정하는 과정을 설명하기 위한 예시적인 도면이다.
도 5는 본 발명의 일 실시예에 따른 사용자 단말에서 격자 다이어그램에 기초하여 발음 유사도를 측정하는 과정을 설명하기 위한 예시적인 도면이다.
도 6은 본 발명의 일 실시예에 따른 사용자 단말에서 총 에러 거리에 기초하여 발음 유사도를 측정하는 방법의 순서도이다.
도 7은 본 발명의 일 실시예에 따른 사용자 단말에서 총 에러 거리를 산정하는 방법의 순서도이다.
도 8은 본 발명의 일 실시예에 따른 사용자 단말에서 대용량 주소록에 대해 음절에 따른 발음 유사도를 측정하는 방법의 순서도이다.
도 9는 본 발명의 일 실시예에 따른 사용자 단말에서 입력된 음성과 주소록에 저장된 이름과의 발음 유사도에 따라 검색된 이름을 디스플레이한 예시적인 도면이다.
도 10은 본 발명의 일 실시예에 따른 사용자 단말에서 텍스트 간의 발음 유사도를 측정하는 방법의 순서도이다.
도 11은 본 발명의 다른 실시예에 따른 사용자 단말에서 텍스트 간의 발음 유사도를 측정하는 방법의 순서도이다.
1 is a configuration diagram of a pronunciation similarity measuring system according to an embodiment of the present invention.
2 is a configuration diagram of a user terminal according to an embodiment of the present invention.
3 is an exemplary diagram illustrating an error distance table according to an embodiment of the present invention.
4 is an exemplary diagram for explaining a process of measuring edited distance through pronunciation column comparison in a user terminal according to an embodiment of the present invention.
5 is an exemplary diagram illustrating a process of measuring pronunciation similarity based on a grid diagram in a user terminal according to an embodiment of the present invention.
6 is a flowchart of a method of measuring pronunciation similarity based on a total error distance in a user terminal according to an exemplary embodiment of the present invention.
7 is a flowchart of a method for estimating a total error distance in a user terminal according to an embodiment of the present invention.
FIG. 8 is a flowchart of a method of measuring pronunciation similarity according to a syllable in a large-capacity address book in a user terminal according to an exemplary embodiment of the present invention.
FIG. 9 is an exemplary diagram illustrating a name displayed according to pronunciation similarity between a voice input from a user terminal and a name stored in an address book according to an exemplary embodiment of the present invention.
10 is a flowchart of a method of measuring pronunciation similarity between texts in a user terminal according to an exemplary embodiment of the present invention.
11 is a flowchart of a method of measuring pronunciation similarity between texts in a user terminal according to another embodiment of the present invention.

아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다. Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings, which will be readily apparent to those skilled in the art. The present invention may, however, be embodied in many different forms and should not be construed as limited to the embodiments set forth herein. In order to clearly illustrate the present invention, parts not related to the description are omitted, and similar parts are denoted by like reference characters throughout the specification.

명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미하며, 하나 또는 그 이상의 다른 특징이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다. Throughout the specification, when a part is referred to as being "connected" to another part, it includes not only "directly connected" but also "electrically connected" with another part in between . Also, when an element is referred to as "including" an element, it is to be understood that the element may include other elements as well as other elements, And does not preclude the presence or addition of one or more other features, integers, steps, operations, components, parts, or combinations thereof.

본 명세서에 있어서 '부(部)'란, 하드웨어에 의해 실현되는 유닛(unit), 소프트웨어에 의해 실현되는 유닛, 양방을 이용하여 실현되는 유닛을 포함한다. 또한, 1 개의 유닛이 2 개 이상의 하드웨어를 이용하여 실현되어도 되고, 2 개 이상의 유닛이 1 개의 하드웨어에 의해 실현되어도 된다.In this specification, the term " part " includes a unit realized by hardware, a unit realized by software, and a unit realized by using both. Further, one unit may be implemented using two or more hardware, or two or more units may be implemented by one hardware.

본 명세서에 있어서 단말 또는 디바이스가 수행하는 것으로 기술된 동작이나 기능 중 일부는 해당 단말 또는 디바이스와 연결된 서버에서 대신 수행될 수도 있다. 이와 마찬가지로, 서버가 수행하는 것으로 기술된 동작이나 기능 중 일부도 해당 서버와 연결된 단말 또는 디바이스에서 수행될 수도 있다.In this specification, some of the operations or functions described as being performed by the terminal or the device may be performed in the server connected to the terminal or the device instead. Similarly, some of the operations or functions described as being performed by the server may also be performed on a terminal or device connected to the server.

이하 첨부된 도면을 참고하여 본 발명의 일 실시예를 상세히 설명하기로 한다. Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings.

도 1은 본 발명의 일 실시예에 따른 발음 유사도 측정 시스템의 구성도이다. 도 1을 참조하면, 발음 유사도 측정 시스템(1)은 발신자 단말에 해당하는 사용자 단말(110), 음성 인식 서버(120) 및 수신자 단말(130)을 포함할 수 있다. 도 1에 도시된 발신자 단말에 해당하는 사용자 단말(110), 음성 인식 서버(120) 및 수신자 단말(130)은 발음 유사도 측정 시스템(1)에 의하여 제어될 수 있는 구성요소들을 예시적으로 도시한 것이다. 1 is a configuration diagram of a pronunciation similarity measuring system according to an embodiment of the present invention. Referring to FIG. 1, the pronunciation similarity measuring system 1 may include a user terminal 110, a voice recognition server 120, and a receiver terminal 130 corresponding to a caller terminal. The user terminal 110, the voice recognition server 120 and the receiver terminal 130 corresponding to the caller terminal shown in FIG. 1 illustrate components that can be controlled by the pronunciation similarity measuring system 1 will be.

도 1의 발음 유사도 측정 시스템(1)의 각 구성요소들은 일반적으로 네트워크(network)를 통해 연결된다. 예를 들어, 도 1에 도시된 바와 같이, 사용자 단말(110)은 음성 인식 서버(120) 또는 수신자 단말(130)과 동시에 또는 시간 간격을 두고 연결될 수 있다. Each component of the pronunciation similarity measurement system 1 of FIG. 1 is generally connected via a network. For example, as shown in FIG. 1, the user terminal 110 may be connected to the voice recognition server 120 or the recipient terminal 130 at the same time or at intervals.

네트워크는 단말들 및 서버들과 같은 각각의 노드 상호간에 정보교환이 가능한 연결구조를 의미하는 것으로, 이러한 네트워크의 일예는, 3G, 4G, 5G, Wi-Fi, 블루투스(Bluetooth), 인터넷(Internet), LAN(Local Area Network), Wireless LAN(Wireless Local Area Network), WAN(Wide Area Network), PAN(Personal Area Network) 등이 포함되나 이에 한정되지는 않는다.The network refers to a connection structure in which information can be exchanged between each node such as terminals and servers. An example of such a network is 3G, 4G, 5G, Wi-Fi, Bluetooth, , A LAN (Local Area Network), a Wireless LAN (Local Area Network), a WAN (Wide Area Network), a PAN (Personal Area Network), and the like.

사용자 단말(110)은 사용자로부터 음성을 입력받으면, 입력된 음성을 인식하여 텍스트를 도출할 수 있다. 예를 들어, 사용자 단말(110)은 입력된 음성을 음성 인식 서버(120)로 전송하고, 음성 인식 서버(120)로부터 음성 인식되어 도출된 텍스트를 수신할 수 있다. When the user terminal 110 receives the voice from the user, the user terminal 110 can recognize the inputted voice and derive the text. For example, the user terminal 110 may transmit the input voice to the voice recognition server 120, and may receive the voice-derived text from the voice recognition server 120.

사용자 단말(110)은 텍스트로부터 추출된 복수의 발음을 포함하는 제 1 발음열을 격자 다이어그램의 제 1 축에 배열하고, 복수의 이름 각각으로부터 추출된 복수의 발음을 포함하는 제 2 발음열을 격자 다이어그램의 제 2 축에 배열할 수 있다. 이 때, 사용자 단말(110)은 제 1 발음열에 포함된 모음과 제 2 발음열에 포함된 모음이 대응하여 매핑되도록 격자 다이어그램에 배열할 수 있다. 사용자 단말(110)은 제 1 축에 배열된 제 1 발음열과 매핑되는 제 2 축에 배열된 제 2 발음열을 비교하여 편집 거리를 측정하고, 편집 거리가 최소화되는 최적 경로를 도출할 수 있다. The user terminal 110 arranges a first pronunciation string including a plurality of pronunciations extracted from the text on a first axis of the grid diagram and a second pronunciation string including a plurality of pronunciations extracted from each of the plurality of names, Can be arranged on the second axis of the diagram. At this time, the user terminal 110 can arrange the vowel included in the first pronunciation row and the vowel included in the second pronunciation row in correspondence with each other in the lattice diagram. The user terminal 110 can compute the edit distance by comparing the first pronunciation string arranged on the first axis with the second pronunciation string arranged on the second axis mapped and derive the optimal path that minimizes the edit distance.

사용자 단말(110)은 제 1 발음열의 발음이 최적 경로를 따라 제 1 발음열의 발음에 대응되는 제 2 발음열의 발음과 동일한지의 여부 및 제 1 발음열에 대응되는 최적 경로의 값에 기초하여 총 에러 거리를 산정할 수 있다. 최적 경로의 값은 제 1 발음열의 발음에 대응되는 제 2 발음열의 발음이 동일한 경우, 기설정된 단위로 증가될 수 있다. The user terminal 110 determines whether or not the pronunciation of the first pronunciation string is the same as the pronunciation of the second pronunciation string corresponding to the pronunciation of the first pronunciation string along the optimal route and the total error distance Can be calculated. The value of the optimal path may be increased by a predetermined unit when the pronunciation of the second pronunciation string corresponding to the pronunciation of the first pronunciation string is the same.

총 에러 거리는 예를 들어, 추가 에러 거리, 삭제 에러 거리, 대체 에러 거리를 포함할 수 있다. The total error distance may include, for example, additional error distances, erasure error distances, alternate error distances.

예를 들어, 사용자 단말(110)은 제 1 발음열의 발음에 대응되는 제 2 발음열의 발음이 다르고 연속되는 두 개의 최적 경로의 값의 차이가 기설정된 단위의 두 배 이상인 경우, 추가 에러 거리를 발생시킬 수 있다. 사용자 단말(110)은 최적 경로의 값과 관련하여 추가된 발음에 따라 설정된 가중치에 기초하여 추가 에러 거리를 발생시킬 수 있다. For example, when the pronunciation of the second pronunciation string corresponding to the pronunciation of the first pronunciation string is different and the difference between the values of two successive optimal paths is more than twice the preset unit, the user terminal 110 generates an additional error distance . The user terminal 110 may generate an additional error distance based on the weights set in accordance with the added pronunciation in relation to the value of the optimal path.

다른 예를 들어, 사용자 단말(110)은 제 1 발음열의 발음에 대응되는 제 2 발음열의 발음이 다르고 연속되는 두 개의 최적 경로의 값이 동일한 경우, 삭제 에러 거리를 발생시킬 수 있다. 사용자 단말(110)은 최적 경로의 값과 관련하여 탈락된 발음에 따라 설정된 가중치에 기초하여 삭제 에러 거리를 발생시킬 수 있다. In another example, the user terminal 110 may generate a deletion error distance when the pronunciation of the second pronunciation string corresponding to the pronunciation of the first pronunciation string is different and the values of the two successive optimal paths are the same. The user terminal 110 may generate the erasure error distance based on the weight set in accordance with the missing pronunciation in relation to the value of the optimal path.

또 다른 예를 들어, 사용자 단말(110)은 제 1 발음열의 발음에 대응되는 제 2 발음열의 발음이 동일하지 않은 경우, 대체 에러 거리를 발생시킬 수 있다. 사용자 단말(110)은 제 1 발음열의 발음에 대응되는 제 2 발음열의 발음의 유사도에 따라 설정된 가중치에 기초하여 대체 에러 거리를 발생시킬 수 있다. As another example, the user terminal 110 may generate a replacement error distance if the pronunciation of the second pronunciation string corresponding to the pronunciation of the first pronunciation string is not the same. The user terminal 110 can generate the replacement error distance based on the weight value set in accordance with the similarity of pronunciation of the second pronunciation string corresponding to the pronunciation of the first pronunciation string.

사용자 단말(110)은 텍스트와 사용자 단말(110)의 주소록에 저장된 복수의 이름을 각각 비교하여 발음 유사도를 측정할 수 있다. 예를 들어, 사용자 단말(110)은 제 1 발음열 및 제 2 발음열의 전체 길이, 격자 다이어그램, 최적 경로, 총 에러 거리에 기초하여 발음 유사도를 측정할 수 있다. 다른 예를 들어, 사용자 단말(110)은 텍스트와 복수의 이름을 음절 단위로 비교하여 복수의 이름 중 텍스트와 적어도 하나의 음절이 동일한 적어도 하나의 이름을 추출하고, 텍스트와 추출된 적어도 하나의 이름을 각각 비교하여 발음 유사도를 측정할 수 있다. 이 때, 사용자 단말(110)은 텍스트에 포함된 적어도 둘 이상의 연속되는 음절이 복수의 이름에 포함되는지의 여부를 판단할 수 있다. 또 다른 예를 들어, 사용자 단말(110)은 텍스트 및 복수의 이름이 직급 호칭 또는 관계 호칭 등을 포함하는 경우, 텍스트 및 복수의 이름으로부터 호칭을 분리하고, 호칭이 분리된 텍스트 및 복수의 이름과 호칭이 분리되지 않은 텍스트 및 복수의 이름을 비교하여 발음 유사도를 측정할 수 있다. The user terminal 110 may compare the text and a plurality of names stored in the address book of the user terminal 110 to measure pronunciation similarity. For example, the user terminal 110 may measure the pronunciation similarity based on the total length of the first pronunciation row and the second pronunciation row, the lattice diagram, the optimal path, and the total error distance. In another example, the user terminal 110 may compare the text and the plurality of names in syllable units to extract at least one name of the plurality of names that is the same as the text and at least one syllable, And the pronunciation similarity can be measured. At this time, the user terminal 110 can determine whether at least two or more consecutive syllables included in the text are included in the plurality of names. In another example, the user terminal 110 may separate the title from the text and the plurality of names, if the text and the plurality of names include a title or relationship name, The pronunciation similarity can be measured by comparing a plurality of names and non-separated texts.

사용자 단말(110)은 측정된 발음 유사도에 따라 복수의 이름을 정렬하여 표시할 수 있다. 이 때, 사용자로부터 복수의 이름 중 하나를 선택받은 경우, 사용자 단말(110)은 선택받은 이름과 통화 연결을 시도할 수 있다. The user terminal 110 can sort and display a plurality of names according to measured pronunciation similarity. At this time, if one of a plurality of names is selected from the user, the user terminal 110 may attempt to establish a call connection with the selected name.

음성 인식 서버(120)는 사용자 단말(110)로부터 입력된 음성을 수신할 수 있다. 음성 인식 서버(120)는 수신한 음성을 인식하여 텍스트로 도출하고, 도출된 텍스트를 사용자 단말(110)로 전송할 수 있다. The voice recognition server 120 may receive the voice input from the user terminal 110. [ The voice recognition server 120 recognizes the received voice and extracts the voice as text and transmits the derived text to the user terminal 110. [

수신자 단말(130)은 발신 단말인 사용자 단말(110)로부터 통화 연결을 수신하면, 통화를 수락 또는 거절함으로써, 통화를 진행할 수 있다. When the recipient terminal 130 receives the call connection from the user terminal 110, which is the calling terminal, the recipient terminal 130 can proceed with the call by accepting or rejecting the call.

도 2는 본 발명의 일 실시예에 따른 사용자 단말의 구성도이다. 도 2를 참조하면, 사용자 단말(110)은 음성 입력부(210), 텍스트 도출부(220), 배열부(230), 최적 경로 도출부(240), 에러 거리 산정부(250), 발음 유사도 측정부(260), 정렬부(270), 표시부(280) 및 통화 연결부(290)를 포함할 수 있다. 2 is a configuration diagram of a user terminal according to an embodiment of the present invention. 2, the user terminal 110 includes a voice input unit 210, a text derivation unit 220, an arrangement unit 230, an optimum path derivation unit 240, an error distance calculation unit 250, A sorting unit 270, a display unit 280, and a call connection unit 290. [0033]

음성 입력부(210)는 사용자로부터 음성을 입력받을 수 있다. The voice input unit 210 can receive voice from the user.

텍스트 도출부(220)는 입력된 음성을 인식하여 텍스트를 도출할 수 있다. 텍스트 도출부(220)는 입력된 음성을 직접 인식하여 텍스트를 도출할 수도 있고, 또는 입력된 음성을 음성 인식 서버(120)로 전송하고, 음성 인식 서버(120)로부터 음성 인식된 텍스트를 수신할 수도 있다. 예를 들어, 텍스트 도출부(220)는 사용자로부터 입력된 음성을 인식하여 "김혜선"과 같은 텍스트를 도출할 수 있다. The text derivation unit 220 can recognize the input speech and derive the text. The text derivation unit 220 may directly recognize the inputted voice to derive the text or transmit the inputted voice to the voice recognition server 120 and receive the voice recognized text from the voice recognition server 120 It is possible. For example, the text derivation unit 220 can recognize a voice input from a user and derive text such as "Kim Hye Sun. &Quot;

배열부(230)는 텍스트로부터 추출된 복수의 발음을 포함하는 제 1 발음열을 격자 다이어그램의 제 1 축에 배열하고, 복수의 이름 각각으로부터 추출된 복수의 발음을 포함하는 제 2 발음열을 격자 다이어그램의 제 2 축에 배열할 수 있다. 배열부(230)는 제 1 발음열에 포함된 모음과 제 2 발음열에 포함된 모음이 대응하여 매핑되도록 격자 다이어그램에 배열할 수 있다. The arrangement unit 230 arranges a first pronunciation string including a plurality of pronunciations extracted from the text on a first axis of the lattice diagram and a second pronunciation string including a plurality of pronunciations extracted from each of the plurality of names, Can be arranged on the second axis of the diagram. The arrangement unit 230 may arrange the vowel included in the first sounding column and the vowel contained in the second sounding column to correspond to each other in the grid diagram.

최적 경로 도출부(240)는 제 1 축에 배열된 제 1 발음열과 매핑되는 제 2 축에 배열된 제 2 발음열을 비교하여 편집 거리를 측정하고, 편집 거리가 최소화되는 최적 경로를 도출할 수 있다. The optimal path derivation unit 240 compares the first sounding sequence arranged on the first axis with the second sounding sequence arranged on the second axis mapped and measures the edit distance and derives the optimal path with the minimum edit distance have.

에러 거리 산정부(250)는 제 1 발음열의 발음이 최적 경로를 따라 제 1 발음열의 발음에 대응되는 제 2 발음열의 발음과 동일한지의 여부 및 제 1 발음열에 대응되는 최적 경로의 값에 기초하여 총 에러 거리를 산정할 수 있다. 최적 경로의 값은 제 1 발음열의 발음에 대응되는 제 2 발음열의 발음이 동일한 경우, 기설정된 단위로 증가되는 것일 수 있다. The error distance calculation unit 250 determines whether or not the pronunciation of the first pronunciation string is the same as the pronunciation of the second pronunciation string corresponding to the pronunciation of the first pronunciation string along the optimal path and the total The error distance can be calculated. The value of the optimal path may be increased in a predetermined unit when the pronunciation of the second pronunciation row corresponding to the pronunciation of the first pronunciation row is the same.

에러 거리 산정부(250)는 추가 에러 거리, 삭제 에러 거리, 대체 에러 거리를 발생시키고, 발생된 추가 에러 거리, 삭제 에러 거리, 대체 에러 거리에 기초하여 총 에러 거리를 산정할 수 있다. 추가 에러 거리, 삭제 에러 거리, 대체 에러 거리에 대해서는 도 3을 통해 상세히 설명하도록 한다. The error-distance calculation unit 250 generates additional error distances, deletion error distances, replacement error distances, and can calculate the total error distances based on the generated additional error distances, deletion error distances, and replacement error distances. The additional error distance, the erasure error distance, and the alternative error distance will be described in detail with reference to FIG.

도 3은 본 발명의 일 실시예에 따른 에러 거리 테이블을 도시한 예시적인 도면이다. 에러 거리 테이블은 예를 들어, 추가 에러 거리 가중치(310, Insertion Error Weight), 삭제 에러 거리 가중치(320, Deletion Error Weight), 대체 에러 거리 가중치(330, Substitution Error Weight)를 포함할 수 있다. 3 is an exemplary diagram illustrating an error distance table according to an embodiment of the present invention. The error distance table may include, for example, an Insertion Error Weight 310, a Deletion Error Weight 320, and a Substitution Error Weight 330.

한국어는 발음의 특성상 발음의 탈락, 추가, 변환이 발생한다. 한국어 발음은 'ㅎ' 발음의 경우, 발음 여부가 불명확하고, 'ㄴ' 발음의 경우, 첨가되는 경우가 많고, 이중모음이나 겹모음의 경우, 제대로 발음하기 어렵고, 'ㄴ'과 'ㅁ'의 경우, 구분하기 어렵다는 특성을 가지고 있다. 예를 들어, '김혜수'라는 이름은 '김혜수/김해수/기매수/기몌수'와 같이 다양한 형태로 발음될 수 있다. 사람의 이름은 문맥으로 파악하기 어렵고, 사람마다 사용하는 이름이 다르고 특이한 이름이 많으므로, 발음 특성에 따라 오인식 결과가 종종 발생된다. 따라서, 본 발명에서는 한국어 발음 특성을 고려한 발음의 에러 거리를 산정하는 방법을 제시하고자 한다. In Korean, due to the nature of pronunciation, pronunciation is lost, added, and converted. In the case of 'ㅎ' pronunciation, it is difficult to pronounce properly in case of double vowel or double vowel. In case of 'ㄴ' and 'ㅁ' , It is difficult to distinguish. For example, the name 'Kim Hess Su' can be pronounced in various forms, such as 'Kim Hess / Kim Hae Soo / Geum Soo / Ki Num'. The name of a person is difficult to grasp in context, and because people use different names and have many unique names, misinterpretation results often occur depending on pronunciation characteristics. Accordingly, the present invention proposes a method of calculating the error distance of pronunciation in consideration of Korean pronunciation characteristics.

에러 거리 산정부(250)는 제 1 발음열의 발음에 대응되는 제 2 발음열의 발음이 다르고 연속되는 두 개의 최적 경로의 값의 차이가 기설정된 단위의 두 배 이상인 경우, 추가 에러 거리를 발생시킬 수 있다. 에러 거리 산정부(250)는 최적 경로 값과 관련하여 추가된 발음에 따라 설정된 추가 에러 가중치(310)에 기초하여 추가 에러 거리를 발생시킬 수 있다. 예를 들어, 에러 거리 산정부(250)는 현재 path 값이 이전 path 값보다 '2' 이상 크면, path의 증가로 인해 그 사이에 다른 path가 새로 생긴 것으로 판단하여 추가 에러 거리를 발생시킬 수 있다.The error distance calculation unit 250 can generate the additional error distance when the difference of the values of the two optimal paths that are different in pronunciation of the second pronunciation column corresponding to the pronunciation of the first pronunciation column is twice or more than the preset unit have. The error-distance calculation unit 250 may generate an additional error distance based on the additional error weight 310 set according to the added pronunciation in relation to the optimal path value. For example, if the current path value is greater than '2' than the previous path value, the error distance calculation unit 250 may determine that another path is newly created due to an increase in the path, thereby generating an additional error distance .

에러 거리 산정부(250)는 제 1 발음열의 발음에 대응되는 제 2 발음열의 발음이 다르고 연속되는 두 개의 최적 경로의 값이 동일한 경우, 삭제 에러 거리를 발생시킬 수 있다. 에러 거리 산정부(250)는 최적 경로의 값과 관련하여 탈락된 발음에 따라 설정된 삭제 에러 가중치(320)에 기초하여 삭제 에러 거리를 발생시킬 수 있다. The error distance calculation unit 250 can generate a deletion error distance when the pronunciation of the second pronunciation string corresponding to the pronunciation of the first pronunciation string is different and the values of two successive optimal paths are the same. The error distance calculation unit 250 can generate the erasure error distance based on the erasure error weight 320 set according to the dropped pronunciation in relation to the value of the optimal path.

예를 들어, 에러 거리 산정부(250)는 기설정된 삭제 에러 가중치(320)에 따라 'ㄴ'첨가 또는 'ㅎ'탈락이 발생한 발음에 가중치를 '5'를 부여하고, 그 외의 발음에 대해서는 가중치를 '10'으로 부여할 수 있다. 즉, 발성이 비슷한 발음 간에는 가중치를 적게 부여하고, 발성이 비슷하지 않은 발음 간에는 가중치를 많이 부여할 수 있다. 이 때, 에러 거리 산정부(250)는 추가 에러 거리와 삭제 에러 거리가 역의 관계이므로, 가중치도 동일하게 부여할 수 있다. For example, the error-distance calculation unit 250 assigns a weight of '5' to a pronunciation in which a 'b' addition or 'heh' deletion occurs according to a preset erasure error weight 320, To " 10 ". That is, it is possible to give less weight to the pronunciation of sounds having similar voices, and to give more weight to sounds having voiced similarities. At this time, since the error distance calculation unit 250 has an inverse relationship between the additional error distance and the erasure error distance, the weighting value can be equally given.

에러 거리 산정부(250)는 제 1 발음열의 발음에 대응되는 제 2 발음열의 발음이 동일하지 않는 경우, 대체 에러 거리를 발생시킬 수 잇다. 에러 거리 산정부(250)는 제 1 발음열의 발음에 대응되는 제 2 발음열의 음의 유사도에 따라 설정된 대체 에러 가중치(330)에 기초하여 대체 에러 거리를 발생시킬 수 있다. The error distance calculation unit 250 can generate a replacement error distance if the pronunciation of the second pronunciation row corresponding to the pronunciation of the first pronunciation row is not the same. The error distance calculation unit 250 can generate the replacement error distance based on the replacement error weight 330 set according to the sound similarity of the second pronunciation sequence corresponding to the pronunciation of the first pronunciation sequence.

예를 들어, 에러 거리 산정부(250)는 기설정된 대체 에러 가중치(330)에 기초하여 제 1 발음열의 모음과 제 2 발음열의 자음, 제 1 발음열의 자음과 제 2 발음열의 모음 간에는 가중치를 '10'으로 부여할 수 있다. 다른 예를 들어, 에러 거리 산정부(250)는 기설정된 대체 에러 가중치(330)에 기초하여 제 1 발음열의 모음과 제 2 발음열의 모음, 제 1 발음열의 자음과 제 2 발음열의 자음 간에는 가중치를 '8'로 부여할 수 있다. 또 다른 예를 들어, 에러 거리 산정부(250)는 기설정된 대체 에러 가중치(330)에 기초하여 이중모음, 겹모음, 쌍자음 등의 발음 간에는 가중치를 '5'로 부여할 수 있다. For example, the error-distance calculation unit 250 calculates a weight value between a collection of the first sounding column and a consonant of the second sounding sequence, a consonant of the first sounding sequence and a second sounding sequence based on the predetermined alternative error weighting 330, 10 ". For example, the error distance calculation unit 250 may calculate a weight value between a first vowel collection and a second vowel collection, a consonant of the first vowel sound and a consonant of the second vowel sound, based on the predetermined alternative weighting weight 330 Quot; 8 ". In another example, the error-distance calculation unit 250 may assign a weight value of '5' between pronunciations such as a double vowel, a double vowel, and a double consonant based on the predetermined replacement weight 330. [

다시 도 2로 돌아와서, 발음 유사도 측정부(260)는 텍스트와 사용자 단말(110)의 주소록에 저장된 복수의 이름을 각각 비교하여 발음 유사도를 측정할 수 있다. Referring back to FIG. 2, the pronunciation similarity measuring unit 260 may compare the text and a plurality of names stored in the address book of the user terminal 110 to measure the pronunciation similarity.

일 실시예에서, 발음 유사도 측정부(260)는 격자 다이어그램, 최적 경로, 총 에러 거리에 기초하여 발음 유사도를 측정할 수 있다. 이 때, 발음 유사도 측정부(260)는 제 1 발음열 및 제 2 발음열의 전체 길이 및 총 에러 거리에 기초하여 발음 유사도를 측정할 수 있다. In one embodiment, pronunciation similarity measure 260 may measure pronunciation similarity based on a grid diagram, an optimal path, and a total error distance. At this time, the pronunciation similarity measuring unit 260 can measure pronunciation similarity based on the total length of the first sounding sequence and the second sounding sequence and the total error distance.

다른 실시예에서, 발음 유사도 측정부(260)는 대용량 주소록으로부터 음성 인식된 이름을 검색하고자 하는 경우, 텍스트와 복수의 이름을 음절 단위로 비교하여 복수의 이름 중 텍스트와 적어도 하나의 음절이 동일한 적어도 하나의 이름을 추출하고, 텍스트와 추출된 적어도 하나의 이름을 각각 비교하여 발음 유사도를 측정할 수 있다. In another embodiment, the pronunciation similarity measuring unit 260 compares a text and a plurality of names in syllable units when searching for a voice-recognized name from a large-capacity address book, so that at least one syllable The pronunciation similarity can be measured by extracting a name and comparing the text with at least one extracted name.

발음 유사도 측정부(260)는 텍스트에 포함된 적어도 둘 이상의 연속되는 음절이 복수의 이름에 포함되는 지의 여부를 판단할 수 있다. 대용량의 주소록에서의 검색은 주소록의 크기가 수천 개를 넘어서면 검색 지연 현상이 발생할 수 있다. 이를 방지하기 위해, 발음 유사도 측정부(260)는 모든 주소록에 대해 발음 유사도를 측정하지 않고, 음절 기반으로 미리 선택한 후, 주소록의 개수가 특정 값보다 크면, 검색 쿼리를 음절 단위로 분리한 후, 한 음절 이상을 포함하는 이름들만 검색하여 1차 검색 주소록 목록을 작성할 수 있다. 발음 유사도 측정부(260)는 1차 검색 결과에 대해서만 발음 유사도를 측정함으로써, 대용량의 주소록에 대해서도 지연 없이 실시간으로 발음 유사도를 측정할 수 있다. The pronunciation similarity measuring unit 260 may determine whether at least two or more consecutive syllables included in the text are included in a plurality of names. Searches in a large address book can cause search delays if the size of the address book exceeds several thousand. In order to prevent this, the pronunciation similarity measuring unit 260 does not measure the pronunciation similarity for all the address books, but preliminarily selects the syllable-based dictionary, and if the number of the address books is larger than a specific value, You can create a primary search address book list by searching only names that contain more than one syllable. The pronunciation similarity measuring unit 260 can measure the pronunciation similarity in real time without delay even with respect to the large address book by measuring the pronunciation similarity only for the primary search results.

또 다른 실시예에서, 발음 유사도 측정부(260)는 텍스트 및 복수의 이름이 직급 호칭 또는 관계 호칭을 포함하는 경우, 텍스트 및 복수의 이름으로부터 호칭을 분리하고, 호칭이 분리된 텍스트 및 복수의 이름과 호칭이 분리되지 않은 텍스트 및 복수의 이름을 비교하여 발음 유사도를 측정할 수 있다. 이는, 사용자가 이름과 호칭을 함께 발성하지 않거나, 호칭을 다르게 발성하면 주소록에서 검색되지 않을 수 있기 때문이다. In another embodiment, the pronunciation similarity measure 260 separates the title from the text and the plurality of names if the text and the plurality of names include a title or relationship name, The pronunciation similarity can be measured by comparing a plurality of names and texts whose names are not separated. This is because if the user does not speak the name and the title together, or if the title is uttered differently, it may not be retrieved from the address book.

예를 들어, 사용자 단말(110)의 주소록에 '강동건차장'이라고 저장되어 있는 경우, 사용자로부터 입력된 음성의 음성 인식 결과가 '장동건과장' 또는 '강동건과장'으로 인식된 경우, 주소록에서 해당 이름 및 호칭이 검색되지 않을 수 있다. 따라서, 발음 유사도 측정부(260)는 호칭과 이름을 분리하고, 원래의 텍스트와 호칭이 분리된 텍스트를 모두 후보로 해서 발음 유사도 측정을 하고, 후보들 중 발음 유사도가 가장 높은 이름을 선택할 수 있다. For example, if 'Gangdong-gun' is stored in the address book of the user terminal 110, if the voice recognition result of the voice inputted by the user is recognized as 'Jang-dong-gang-gang-gang-gang' The corresponding name and title may not be retrieved. Therefore, the pronunciation similarity degree measuring unit 260 can distinguish the name and the name, perform pronunciation similarity measurement with all the texts separated from the original text as candidates, and select the name having the highest pronunciation similarity among the candidates.

정렬부(270)는 측정된 발음 유사도에 따라 복수의 이름을 정렬할 수 있다. The sorting unit 270 may sort a plurality of names according to the measured pronunciation similarity.

표시부(280)는 측정된 발음 유사도에 따라 복수의 이름을 정렬하여 표시할 수 있다. 예를 들어, 표시부(280)는 음성 인식으로 도출된 텍스트를 디스플레이의 제 1 영역에, 측정된 유사도에 따라 복수의 이름을 정렬하여 디스플레이의 제 2 영역에 표시할 수 있다. The display unit 280 displays a plurality of names in accordance with the measured pronunciation similarity. For example, the display unit 280 can display the text derived from the speech recognition in the first area of the display, and align the plurality of names according to the measured similarity in the second area of the display.

통화 연결부(290)는 복수의 이름 중 하나를 선택받는 경우, 선택받은 이름과 통화 연결을 시도할 수 있다. When the call connection unit 290 selects one of the plurality of names, the call connection unit 290 may try to connect the call with the selected name.

도 4는 본 발명의 일 실시예에 따른 사용자 단말에서 발음열 비교를 통해 편집 거리를 측정하는 과정을 설명하기 위한 예시적인 도면이다. 도 4를 참조하면, 사용자 단말(110)은 제 1 발음열의 x축 데이터(410) 및 제 2 발음열의 y축 데이터(420)에 대해 각각 동적 정렬을 수행할 수 있다. 이 때, 사용자 단말(110)은 한 축의 모음 기호를 다른 축의 모음 기호와 매핑되도록 정렬할 수 있다. 동적 정렬은 x축 데이터 및 y축 데이터의 편집 거리(edit distance)가 최소화되는 최적의 경로를 의미할 수 있으며, 사용자 단말(110)은 비터비 알고리즘(Viterbi Algorithm)을 이용하여 최적의 경로를 계산할 수 있다. 4 is an exemplary diagram for explaining a process of measuring edited distance through pronunciation column comparison in a user terminal according to an embodiment of the present invention. Referring to FIG. 4, the user terminal 110 may perform dynamic alignment on the x-axis data 410 of the first sounding sequence and the y-axis data 420 of the second sounding sequence, respectively. At this time, the user terminal 110 may align the vowel symbol of one axis to the vowel symbol of the other axis. The dynamic alignment may refer to an optimal path that minimizes the edit distance of the x-axis data and the y-axis data, and the user terminal 110 may calculate the optimal path using the Viterbi algorithm .

예를 들어, 사용자 단말(110)로부터 음성으로 입력된 이름이 "김혜선"(410)이고, 사용자 단말(110)의 주소록에 저장된 이름이 "김애선"(420)이라고 가정하자.For example, assume that the name input by voice from the user terminal 110 is "Kim Hye-seon" 410 and the name stored in the address book of the user terminal 110 is "Kim Ae-seon" 420.

사용자 단말(110)은 텍스트로부터 추출된 복수의 발음을 제 1 발음열로 변환할 수 있다. 예를 들어, 사용자 단말(110)은 "김혜선"(410)이라는 이름으로부터 'ㄱㅣㅁㅎㅖㅅㅓㄴ'과 같이 발음을 추출하고, 추출된 발음에 기초하여 'g i m h ye s v n'과 같이 제 1 발음열로 변환할 수 있다. The user terminal 110 may convert a plurality of pronunciations extracted from the text into a first pronunciation string. For example, the user terminal 110 extracts a pronunciation from the name " Kim HyeSoon "(410) and extracts a first pronunciation such as 'gimh ye sv n' Can be converted into heat.

사용자 단말(110)은 주소록에 저장된 복수의 이름 각각으로부터 추출된 복수의 발음을 제 2 발음열로 변환할 수 있다. 예를 들어, 사용자 단말(110)은 "김애선"(420)이라는 이름으로부터 'ㄱㅣㅁㅐㅅㅓㄴ'과 같이 발음을 추출하고, 추출된 발음에 기초하여 'g i m e s v n'과 같이 제 2 발음열로 변환할 수 있다. The user terminal 110 may convert a plurality of pronunciations extracted from each of a plurality of names stored in the address book into a second pronunciation string. For example, the user terminal 110 extracts a pronunciation such as 'ㅐ ㅐ ㅓ ㅓ ㅓ ㅓ ㅓ ㅓ ㅓ ㅓ ㅓ ㅓ ㅓ' from the name '선 선 선' 420, Can be converted.

이와 같이, 제 1 발음열 및 제 2 발음열은 한국어의 특성에 따라 자소를 기반으로, 실제 발음을 모델링한 음소 세트일 수 있다. As described above, the first pronunciation string and the second pronunciation string may be phoneme sets that model actual pronunciation based on a suffix according to the characteristics of Korean.

사용자 단말(110)은 제 1 발음열을 x축에 배열하고, 제 2 발음열을 y축에 배열할 수 있다. 예를 들어, 사용자 단말(110)은 제 1 발음열을 x축 데이터로 X={'g', 'i', 'm', 'h', 'ye', 's', 'v', n'}으로 표현할 수 있고, 제 2 발음열을 y축 데이터로 Y={'g', 'i', 'm', 'e', 's', 'v', 'n'}으로 표현할 수 있다.The user terminal 110 can arrange the first pronunciation column on the x axis and the second pronunciation column on the y axis. For example, the user terminal 110 may generate the first pronunciation sequence as x-axis data X = {'g', 'i', 'm', 'h', 'ye', 's' n '}, and the second pronunciation column is expressed as y-axis data Y = {' g ',' i ',' m ',' e ',' s', 'v', 'n'} .

예를 들어, 사용자 단말(110)은 Dist(x(1), y(1))=Dist('g i', 'g i')에 대해 두 발음열이 동일하므로, 편집 거리를 '0'으로 측정할 수 있다. For example, since the user terminal 110 has two pronunciation columns for Dist (x (1), y (1)) = Dist ('g i' .

다른 예를 들어, 사용자 단말(110)은 Dist(x(2), y(1))=Dist('g i m', 'g i')에 대해 편집 거리를 '1'로 측정할 수 있다. 사용자 단말(110)은 x축 데이터(410)의 'g i m'이 y축 데이터(420)의 'g i'보다 'm'을 더 포함하고 있으므로, 추가 에러 거리를 발생시킬 수 있다. For another example, the user terminal 110 may measure the edit distance '1' for Dist (x (2), y (1)) = Dist ('g i m', 'g i'). The user terminal 110 may generate an additional error distance since 'g i m' of the x-axis data 410 further includes 'm' than 'g i' of the y-axis data 420.

또 다른 예를 들어, 사용자 단말(110)은 Dist(x(3), y(3))=Dist('g i m h', 'g i m e')에 대해 편집 거리를 '1'로 측정할 수 있다. 사용자 단말(110)은 x축 데이터(410)의 'g i m'과 y축 데이터(420)의 'g i m'이 동일하고, x축 데이터(410)의 'h'와 y축 데이터(420)의 'e'가 서로 다르므로, 편집 거리를 '1'로 측정하고, 대체 에러 거리를 발생시킬 수 있다. For another example, the user terminal 110 may measure the edit distance to '1' for Dist (x (3), y (3)) = Dist ('gim h', 'gim e' . The user terminal 110 determines that the 'gi m' of the x-axis data 410 and the 'gi m' of the y-axis data 420 are the same, Quot; e " are different from each other, the editing distance can be measured as " 1 ", and a replacement error distance can be generated.

또 다른 예를 들어, 사용자 단말(110)은 Dist(x(4), y(3))=Dist('g i m h ye', 'g i m e')에 대해 편집 거리를 '2'로 측정할 수 있다. 사용자 단말(110)은 x축 데이터(410)의 'g i m'과 y축 데이터(420)의 'g i m'이 동일하고, x축 데이터(410)의 'h ye'와 y축 데이터(420)의 'e'가 서로 다르므로, 편집 거리를 '2'로 측정할 수 있다. 이 때, 사용자 단말(110)은 x축 데이터(410)의 모음인 'ye'와 y축 데이터(420)의 모음인 'e'가 유사 하므로, 대체 에러 거리를 발생시킬 수 있고, x축 데이터(410)의 'h'에 대해 삭제 에러 거리를 발생시킬 수 있다. For another example, the user terminal 110 may measure the edit distance '2' for Dist (x (4), y (3)) = Dist ('gimh ye', 'gim e' . The user terminal 110 determines that the gim of the x-axis data 410 and the gim of the y-axis data 420 are equal to each other, Quot; e " are different from each other, the editing distance can be measured as " 2 ". At this time, the user terminal 110 can generate a replacement error distance because 'a', which is a collection of 'x' axis data 410 and 'e', which is a collection of y axis data 420, The erasure error distance can be generated for 'h'

이러한 과정을 통해, 사용자 단말(110)은 제 1 발음열의 x축 데이터(410)와 제 2 발음열의 y축 데이터(420)를 서로 비교함으로써, 색상이 표시된 부분과 같이 편집 거리가 최소화되는 경로를 도출할 수 있다. Through this process, the user terminal 110 compares the x-axis data 410 of the first sounding sequence and the y-axis data 420 of the second sounding sequence with each other to obtain a path where the editing distance is minimized .

도 5는 본 발명의 일 실시예에 따른 사용자 단말에서 격자 다이어그램에 기초하여 발음 유사도를 측정하는 과정을 설명하기 위한 예시적인 도면이다. 도 3 내지 도 5를 참조하면, 사용자 단말(110)은 텍스트로부터 추출된 복수의 발음을 포함하는 제 1 발음열을 격자 다이어그램의 제 1 축에 배열하고, 복수의 이름 각각으로부터 추출된 복수의 발음을 포함하는 제 2 발음열을 격자 다이어그램의 제 2 축에 배열할 수 있다. 사용자 단말(110)은 격자 다이어그램에 기초하여 편집 거리가 최소화되는 최적 경로를 도출함으로써, 발음 유사도를 측정할 수 있다. 5 is an exemplary diagram illustrating a process of measuring pronunciation similarity based on a grid diagram in a user terminal according to an embodiment of the present invention. 3 to 5, the user terminal 110 may arrange a first pronunciation string including a plurality of pronunciations extracted from the text on the first axis of the lattice diagram, and generate a plurality of pronunciations May be arranged on the second axis of the lattice diagram. The user terminal 110 can measure the pronunciation similarity by deriving an optimal path that minimizes the edit distance based on the grid diagram.

예를 들어, 도 5의 격자 다이어그램의 최적 경로는 path={0, 1, 2, 3, 4, 5, 6}일 수 있다. 이하에서, 최적 경로를 도출하는 과정을 상세히 설명하도록 한다. For example, the optimal path of the grid diagram of FIG. 5 may be path = {0, 1, 2, 3, 4, 5, 6}. Hereinafter, the process of deriving the optimal path will be described in detail.

k=0일 때, path[0]=0으로, (x축= 'g', y축='g')(x axis = 'g', y axis = 'g') with path [0] = 0 when k =

k=1일 때, path[1]=1로, (x축='i', y축='i')(x axis = 'i', y axis = 'i') with path [1] = 1 when k =

k=2일 때, path[2]=2로, (x축='m', y축='m')(x axis = 'm', y axis = 'm') with path [2] = 2 when k =

k=3일 때, path[3]=3으로, (x축='h', y축='e)(x-axis = 'h', y-axis = 'e) with path [3] = 3 when k =

k=4일 때, path[4]=3으로, (x축='ye', y축='e')(x axis = 'ye', y axis = 'e') with path [4] = 3 when k =

k=5일 때, path[5]=4로, (x축='s', y축='s')(x-axis = 's', y-axis = 's') with path [5] = 4 when k =

k=6일 때, path[6]=5로, (x축='v', y축='v')When k = 6, path [6] = 5 (x axis = 'v', y axis = 'v'

k=7일 때, path[7]=6으로, (x축='n', y축='n')(x axis = 'n', y axis = 'n') with path [7] = 6 when k =

k=0~2의 경우, x축 데이터와 매핑된 y축 데이터의 발음열이 동일하며, 현재 path 값이 이전 path 값보다 항상 1이 큰 것을 알 수 있다. 이러한 경우, 어떠한 거리도 발생하지 않을 수 있다. In the case of k = 0 to 2, the pronunciation column of the x-axis data and the y-axis data mapped is the same, and the current path value is always 1 greater than the previous path value. In this case, no distance may occur.

k=3의 경우, x축 데이터와 매핑된 y축 데이터의 발음열이 다르며, 현재 path값과 다음 path값이 동일하므로, path가 사라진 것을 알 수 있다. 이러한 경우, 삭제 에러 거리가 발생되며, 삭제된 발음은 'h'일 수 있다. 이 때, 사용자 단말(110)은 'ㅎ' 발음이 탈락된 것으로 판단하여, 삭제 에러 거리로 가중치 '5'를 부여할 수 있다. In the case of k = 3, the x-axis data and the pronunciation column of the y-axis data mapped are different, and the current path value is equal to the next path value, so that the path disappears. In this case, a deletion error distance is generated, and the deleted pronunciation may be 'h'. At this time, the user terminal 110 determines that the pronunciation of 'H' is omitted, and assigns weight '5' to the deletion error distance.

k=4의 경우, x축 데이터의 'ye'와 매핑된 y축 데이터의 'e'가 발음열이 다르므로, 대체 에러 거리가 발생할 수 있다. 이러한 경우, '예'발음과 '애'발음이 유사하므로, 대체 에러 거리로 가중치 '5'를 부여할 수 있다. In case of k = 4, a replacement error distance may occur because 'ye' of x-axis data and 'e' of y-axis data mapped are different from each other in pronunciation string. In this case, since the pronunciation of 'Yes' and the pronunciation of 'Ke' are similar to each other, weighting value '5' can be given to the alternative error distance.

k=5 이상의 경우, 거리가 발생하지 않았음을 알 수 있다. If k = 5 or more, it can be seen that no distance has occurred.

이와 같이, 사용자 단말(110)은 격자 다이어그램을 통해 x축의 'ㅎ' 발음에 해당하는 'h'를 y축에서 삭제하고, x축의 'ㅖ'발음에 해당하는 'ye'가 y축에서 'ㅐ' 발음에 해당하는 'e'로 대체할 수 있다. In this manner, the user terminal 110 deletes 'h' corresponding to 'x' in the x-axis from the y-axis, deletes 'y' corresponding to 'x' in the x- Can be replaced with 'e' corresponding to 'pronunciation.

사용자 단말(110)은 제 1 발음열, 제 2 발음열 간의 추가 에러 거리, 삭제 에러 거리 및 대체 에러 거리를 각각 계산하고, 계산된 추가 에러 거리, 삭제 에러 거리 및 대체 에러 거리를 모두 합함으로써, 총 에러 거리(530)를 산정할 수 있다. 예를 들어, 총 에러 거리는 추가 에러 거리(0)+삭제 에러 거리(5)+대체 에러 거리(5)로, 총 에러 거리(530)는 '10'일 수 있다. The user terminal 110 calculates the additional error distance, the erasure error distance, and the replacement error distance, respectively, between the first pronunciation column and the second pronunciation column, and adds the calculated additional error distance, deletion error distance, The total error distance 530 can be estimated. For example, the total error distance may be an additional error distance (0) + a deletion error distance (5) + a replacement error distance (5), and a total error distance (530)

사용자 단말(110)은 제 1 발음열 및 제 2 발음열의 전체 길이(540)를 정규화한 뒤, 0~100 사이의 값으로 재정규화작업을 수행하면, 발음 유사도(560)를 측정할 수 있다. 사용자 단말(110)은 발음 유사도(560)의 측정을 위해 수학식 1을 이용할 수 있다. The user terminal 110 can measure the pronunciation similarity degree 560 by normalizing the total length 540 of the first sounding sequence and the second sounding sequence and performing renormalization with a value between 0 and 100. [ The user terminal 110 may use Equation 1 for measurement of pronunciation similarity 560. [

Figure 112016083953278-pat00001
Figure 112016083953278-pat00001

수학식 1을 참조하면, 최대 거리(550)는 제 1 발음열 및 제 2 발음열의 전체 길이(540)에 대한 평균 길이와 가중치와의 곱으로 도출될 수 있다. 예를 들어, 제 1 발음열의 전체 길이가 '8'이고, 제 2 발음열의 전체 길이가 '7'이고, 가중치가 '10'이므로, 최대 거리는 {(8+7)/2}*10=75가 될 수 있다. Referring to Equation (1), the maximum distance 550 can be derived as a product of an average length and a weight for the total length 540 of the first sounding sequence and the second sounding sequence. For example, since the total length of the first sounding sequence is '8', the total length of the second sounding sequence is '7' and the weighting value is '10', the maximum distance is {(8 + 7) / 2} * 10 = 75 .

이와 같이, 사용자 단말(110)은 수학식 1을 이용하여 계산함으로써, 제 1 발음열과 제 2 발음열 간의 발음 유사도(560)를 86%로 도출할 수 있다. As described above, the user terminal 110 can derive the pronunciation similarity 560 between the first pronunciation string and the second pronunciation string by 86% by using Equation (1).

도 6은 본 발명의 일 실시예에 따른 사용자 단말에서 총 에러 거리에 기초하여 발음 유사도를 측정하는 방법의 순서도이다. 도 6을 참조하면, 사용자 단말(110)은 음성을 입력받을 수 있다(S610). 사용자 단말(110)은 입력된 음성을 인식하여 텍스트를 도출할 수 있다(S620). 사용자 단말(110)은 텍스트로부터 추출된 복수의 발음을 포함하는 제 1 발음열을 격자 다이어그램의 제 1 축에 배열하고, 사용자 단말(110)의 주소록에 저장된 복수의 이름 각각으로부터 복수의 발음을 포함하는 제 2 발음열을 격자 다이어그램의 제 2 축에 배열할 수 있다(S630). 사용자 단말(110)은 제 1 축에 배열된 제 1 발음열과 매핑되는 제 2 축에 배열된 제 2 발음열을 비교하여 편집 거리를 측정하고, 편집 거리가 최소화되는 최적 경로를 도출할 수 있다(S640). 사용자 단말(110)은 최적 경로 값과 설정된 가중치에 기초하여 추가 에러 거리, 삭제 에러 거리 및 대체 에러 거리를 발생시킬 수 있다(S650). 사용자 단말(110)은 최적 경로 값, 추가 에러 거리, 삭제 에러 거리 및 대체 에러 거리에 기초하여 총 에러 거리를 산정할 수 있다(S660). 사용자 단말(110)은 총 에러 거리에 기초하여 발음 유사도를 측정할 수 있다(S670). 6 is a flowchart of a method of measuring pronunciation similarity based on a total error distance in a user terminal according to an exemplary embodiment of the present invention. Referring to FIG. 6, the user terminal 110 may receive voice (S610). The user terminal 110 can recognize the input speech and derive the text (S620). The user terminal 110 arranges a first pronunciation string including a plurality of pronunciations extracted from the text on the first axis of the grid diagram and includes a plurality of pronunciations from each of a plurality of names stored in the address book of the user terminal 110 (Step S630). The second pronunciation column may be arranged on the second axis of the lattice diagram. The user terminal 110 compares the first sounding sequence arranged on the first axis with the second sounding sequence arranged on the second axis mapped and measures the editing distance and derives an optimal path that minimizes the editing distance ( S640). The user terminal 110 may generate an additional error distance, a deletion error distance, and a replacement error distance based on the optimal path value and the set weight (S650). The user terminal 110 may estimate the total error distance based on the optimal path value, the additional error distance, the erasure error distance, and the replacement error distance (S660). The user terminal 110 may measure the pronunciation similarity based on the total error distance (S670).

상술한 설명에서, 단계 S610 내지 S670은 본 발명의 구현예에 따라서, 추가적인 단계들로 더 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계 간의 순서가 변경될 수도 있다.In the above description, steps S610 through S670 may be further divided into further steps or combined into fewer steps, according to an embodiment of the present invention. Also, some of the steps may be omitted as necessary, and the order between the steps may be changed.

도 7은 본 발명의 일 실시예에 따른 사용자 단말에서 총 에러 거리를 산정하는 방법의 순서도이다. 도 7을 참조하면, 사용자 단말(110)은 x축의 인덱스인 k를 입력할 수 있다(S710). k는 x축 발음열에서 k번째 해당하는 발음의 인덱스로, 초기 k=0으로 설정될 수 있다 7 is a flowchart of a method for estimating a total error distance in a user terminal according to an embodiment of the present invention. Referring to FIG. 7, the user terminal 110 may input the index k of the x-axis (S710). k is an index of the k-th corresponding pronunciation in the x-axis pronunciation column, and initial k = 0 can be set

사용자 단말(110)은 Path[k]가 path[k-1]+1보다 큰 지를 판단할 수 있다(S720). Path[k]는 y축 발음 기호의 인덱스일 수 있다. 예를 들어, path[k]가 path[k-1]+1보다 큰 경우(S721), 사용자 단말(110)은 추가 에러 거리를 업데이트할 수 있다(S730). 다른 예를 들어, path[k]가 path[k-1]+1보다 작은 경우(S722), 사용자 단말(110)은 path[k]=path[k-1]인 지를 판단할 수 있다(S740). 예를 들어, path[k]가 path[k-1]인 경우(S741), 사용자 단말(110)은 삭제 에러 거리를 업데이트할 수 있다(S750). 다른 예를 들어, path[k]가 path[k-1]이 아닌 경우(S742), 사용자 단말(110)은 대체 에러 거리를 업데이트할 수 있다(S760). 사용자 단말(110)은 k가 x축 전체 길이보다 큰지를 판단할 수 있다(S770). 예를 들어, k가 x축 전체 길이 보다 큰 경우(S771), 사용자 단말(110)은 총 에러 거리를 계산할 수 있다(S780). 다른 예를 들어, k가 x축 전체 길이 보다 작은 경우(S772), 사용자 단말(110)은 k=k+1로 대입하여 계산할 수 있다. The user terminal 110 may determine whether Path [k] is greater than path [k-1] +1 (S720). Path [k] may be an index of the y-axis pronunciation symbol. For example, if path [k] is greater than path [k-1] +1 (S721), the user terminal 110 may update the additional error distance (S730). In another example, if path [k] is less than path [k-1] +1 at step S722, the user terminal 110 may determine whether path [k] = path [k-1] ). For example, if path [k] is path [k-1] (S741), the user terminal 110 may update the deletion error distance (S750). In another example, if path [k] is not path [k-1] (S742), the user terminal 110 may update the replacement error distance (S760). The user terminal 110 may determine whether k is greater than the entire x-axis length (S770). For example, if k is greater than the x-axis total length (S771), the user terminal 110 may calculate the total error distance (S780). For example, if k is smaller than the total length of the x-axis (S772), the user terminal 110 can calculate k = k + 1.

즉, x축 발음과 y축 발음이 동일한 구간은 path[k]=path[k-1]+1로, 정상적으로 path가 한 칸씩 증가될 수 있으며, path가 증가하지 않고 같은 값으로 연속되면 x축 발음이 삭제된 것이고, path가 2칸 이상으로 증가하면 y축에 다른 발음이 새롭게 추가된 것일 수 있다. 또한, x축 발음에 대해 path에서 가리키는 y축 발음이 다른 경우, x축 발음이 y축에서는 다른 발음으로 변환된 것일 수 있다. In other words, if the path is the same, the path can be incremented by one space with path [k] = path [k-1] +1. If the pronunciation has been deleted and the path is increased to more than 2 spaces, it may be that a new pronunciation has been added to the y-axis. Also, if the y-axis pronunciation pointed to by path is different from the x-axis pronunciation, the x-axis pronunciation may be converted to another pronunciation on the y-axis.

상술한 설명에서, 단계 S710 내지 S780은 본 발명의 구현예에 따라서, 추가적인 단계들로 더 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계 간의 순서가 변경될 수도 있다.In the above description, steps S710 to S780 may be further divided into further steps or combined into fewer steps, according to an embodiment of the present invention. Also, some of the steps may be omitted as necessary, and the order between the steps may be changed.

도 8은 본 발명의 일 실시예에 따른 사용자 단말에서 대용량 주소록에 대해 음절에 따른 발음 유사도를 측정하는 방법의 순서도이다. 도 8을 참조하면, 사용자 단말(110)은 음성을 입력받을 수 있다(S810). 사용자 단말(110)은 입력된 음성을 인식하여 텍스트를 도출할 수 있다(S820). 사용자 단말(110)은 주소록에 저장된 복수의 이름이 임계값 이상인지를 판단할 수 있다(S830). 예를 들어, 주소록에 저장된 복수의 이름이 임계값 이상인 경우(S832), 사용자 단말(110)은 텍스트와 복수의 이름을 음절 단위로 비교하고(S840), 복수의 이름 중 텍스트와 적어도 하나의 음절이 동일한 하나의 이름을 추출할 수 있다(S850). 사용자 단말(110)은 텍스트와 추출된 적어도 하나의 이름을 각각 비교하여 발음 유사도를 측정할 수 있다(S860).FIG. 8 is a flowchart of a method of measuring pronunciation similarity according to a syllable in a large-capacity address book in a user terminal according to an exemplary embodiment of the present invention. Referring to FIG. 8, the user terminal 110 may receive voice (S810). The user terminal 110 may recognize the input voice and derive the text (S820). The user terminal 110 may determine whether a plurality of names stored in the address book are equal to or greater than a threshold value (S830). For example, when a plurality of names stored in the address book are equal to or more than the threshold value (S832), the user terminal 110 compares the text with a plurality of names in syllable units (S840) The same single name can be extracted (S850). The user terminal 110 may measure pronunciation similarity by comparing the extracted text with at least one name (S860).

다른 예를 들어, 주소록에 저장된 복수의 이름이 임계값 미만인 경우(S831), 사용자 단말(110)은 텍스트와 복수의 이름을 각각 비교하여 발음 유사도를 측정할 수 있다(S870).In another example, if the plurality of names stored in the address book are less than the threshold value (S831), the user terminal 110 may compare the text with the plurality of names to measure pronunciation similarity (S870).

상술한 설명에서, 단계 S810 내지 S870은 본 발명의 구현예에 따라서, 추가적인 단계들로 더 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계 간의 순서가 변경될 수도 있다.In the above description, steps S810 to S870 may be further divided into further steps or combined into fewer steps, according to an embodiment of the present invention. Also, some of the steps may be omitted as necessary, and the order between the steps may be changed.

도 9는 본 발명의 일 실시예에 따른 사용자 단말에서 입력된 음성과 주소록에 저장된 이름과의 발음 유사도에 따라 검색된 이름을 디스플레이한 예시적인 도면이다. 도 9를 참조하면, 사용자 단말(110)은 사용자로부터 음성을 입력받고, 입력된 음성을 인식하여 텍스트를 도출할 수 있다. 예를 들어, 사용자 단말(110)은 "김주연"이라는 이름을 인식된 음성으로부터 텍스트를 도출할 수 있다. FIG. 9 is an exemplary diagram illustrating a name displayed according to pronunciation similarity between a voice input from a user terminal and a name stored in an address book according to an exemplary embodiment of the present invention. Referring to FIG. 9, the user terminal 110 receives a voice from a user and recognizes the voice input to derive a text. For example, the user terminal 110 may derive text from a recognized voice named "Kim Joo-yeon. &Quot;

사용자 단말(110)은 텍스트와 사용자 단말(110)의 주소록에 저장된 복수의 이름을 각각 비교하여 발음 유사도를 측정할 수 있다. 이 때, 사용자 단말(110)의 주소록에 "김주연"이라는 이름이 저장되어 있지 않은 경우, 사용자 단말(110)은 측정된 발음 유사도에 따라 "김주연"이라는 이름과 발음이 유사한 "김주현"이라는 이름을 디스플레이할 수 있다. The user terminal 110 may compare the text and a plurality of names stored in the address book of the user terminal 110 to measure pronunciation similarity. At this time, if the name "Kim Ju Ju" is not stored in the address book of the user terminal 110, the user terminal 110 obtains the name "Kim Joo-hyun" Can be displayed.

사용자 단말(110)이 사용자로부터 "김주현"이라는 이름을 선택받으면, 사용자 단말(110)은 "김주현"이라는 사람에게 통화 연결을 시도할 수 있다. When the user terminal 110 selects the name "Kim Joo-hyun" from the user, the user terminal 110 can attempt to establish a call connection to the person named "Kim Joo-hyun. &Quot;

도 10은 본 발명의 일 실시예에 따른 사용자 단말에서 텍스트 간의 발음 유사도를 측정하는 방법의 순서도이다. 도 10에 도시된 실시예에 따른 사용자 단말(110)에 의해 수행되는 텍스트 간의 발음 유사도를 측정하는 방법은 도 1 내지 도 9에 도시된 실시예에 따른 발음 유사도 측정 시스템(1)에서 시계열적으로 처리되는 단계들을 포함한다. 따라서, 이하 생략된 내용이라고 하더라도 도 1 내지 도 9에 도시된 실시예에 따른 사용자 단말(110)에 의해 수행되는 텍스트 간의 발음 유사도를 측정하는 방법에도 적용된다.10 is a flowchart of a method of measuring pronunciation similarity between texts in a user terminal according to an exemplary embodiment of the present invention. The method of measuring pronunciation similarity between texts performed by the user terminal 110 according to the embodiment shown in FIG. 10 is performed in a time-series manner in the pronunciation similarity measurement system 1 according to the embodiment shown in FIGS. 1 to 9 Lt; / RTI > Therefore, the following description is also applied to a method of measuring pronunciation similarity between texts performed by the user terminal 110 according to the embodiment shown in FIGS.

단계 S1010에서 사용자 단말(110)은 음성을 입력받을 수 있다. In step S1010, the user terminal 110 can receive a voice.

단계 S1020에서 사용자 단말(110)은 입력된 음성을 인식하여 텍스트를 도출할 수 있다. In step S1020, the user terminal 110 may recognize the input voice and derive the text.

단계 S1030에서 사용자 단말(110)은 텍스트와 사용자 단말(110)의 주소록에 저장된 복수의 이름을 각각 비교하여 발음 유사도를 측정할 수 있다. In step S1030, the user terminal 110 may compare the text and a plurality of names stored in the address book of the user terminal 110 to measure pronunciation similarity.

단계 S1040에서 사용자 단말(110)은 측정된 발음 유사도에 따라 복수의 이름을 정렬할 수 있다. In step S1040, the user terminal 110 may sort a plurality of names according to the measured pronunciation similarity.

도 10에서는 도시되지 않았으나, 사용자 단말(110)은 텍스트로부터 추출된 복수의 발음을 포함하는 제 1 발음열을 격자 다이어그램의 제 1 축에 배열하고, 복수의 이름 각각으로부터 추출된 복수의 발음을 포함하는 제 2 발음열을 격자 다이어그램의 제 2 축에 배열하는 단계 및 격자 다이어그램에 기초하여 발음 유사도를 측정하는 단계를 더 포함할 수 있다. 이 때, 사용자 단말(110)은 제 1 발음열에 포함된 모음과 제 2 발음열에 포함된 모음이 대응하여 매핑되도록 격자 다이어그램에 배열할 수 있다. Although not shown in FIG. 10, the user terminal 110 arranges a first pronunciation string including a plurality of pronunciations extracted from the text on the first axis of the lattice diagram, and includes a plurality of pronunciations extracted from each of the plurality of names Arranging the second pronunciation string on the second axis of the lattice diagram, and measuring the pronunciation similarity based on the lattice diagram. At this time, the user terminal 110 can arrange the vowel included in the first pronunciation row and the vowel included in the second pronunciation row in correspondence with each other in the lattice diagram.

도 10에서는 도시되지 않았으나, 사용자 단말(110)은 제 1 축에 배열된 제 1 발음열과 매핑되는 제 2 축에 배열된 제 2 발음열을 비교하여 편집 거리를 측정하고, 편집 거리가 최소화되는 최적 경로를 도출하는 단계 및 최적 경로를 분석하여 발음 유사도를 측정하는 단계를 더 포함할 수 있다. Although not shown in FIG. 10, the user terminal 110 measures the edit distance by comparing the first sounding sequence arranged on the first axis with the second sounding sequence arranged on the second axis mapped, and determines the optimum Deriving the path and analyzing the optimal path to measure pronunciation similarity.

도 10에서는 도시되지 않았으나, 사용자 단말(110)은 제 1 발음열의 발음이 최적 경로를 따라 제 1 발음열의 발음에 대응되는 제 2 발음열의 발음과 동일한지 여부 및 제 1 발음열에 대응되는 최적 경로의 값에 기초하여 총 에러 거리를 산정하는 단계 및 총 에러 거리에 기초하여 발음 유사도를 측정하는 단계를 더 포함할 수 있다. 최적 경로의 값은 제 1 발음열의 발음에 대응되는 제 2 발음열의 발음이 동일한 경우 기설정된 단위로 증가되는 것일 수 있다. Although not shown in FIG. 10, the user terminal 110 determines whether or not the pronunciation of the first pronunciation string is the same as the pronunciation of the second pronunciation string corresponding to the pronunciation of the first pronunciation string along the optimal route, Calculating a total error distance based on the total error distance, and measuring the pronunciation similarity based on the total error distance. The value of the optimal path may be increased in a predetermined unit when the pronunciation of the second pronunciation row corresponding to the pronunciation of the first pronunciation row is the same.

도 10에서는 도시되지 않았으나, 사용자 단말(110)은 제 1 발음열의 발음에 대응되는 제 2 발음열의 발음이 다르고 연속되는 두 개의 최적 경로의 값의 차이가 기설정된 단위의 두 배 이상인 경우, 추가 에러 거리를 발생시키는 단계를 더 포함할 수 있다. 이 때, 사용자 단말(110)은 최적 경로의 값과 관련하여 추가된 발음에 따라 설정된 가중치에 기초하여 추가 에러 거리를 발생시킬 수 있다. 총 에러 거리는 추가 에러 거리를 포함할 수 있다. Although not shown in FIG. 10, when the pronunciation of the second pronunciation string corresponding to the pronunciation of the first pronunciation string is different and the difference between the values of two successive optimal paths is two or more times the predetermined unit, And generating a distance. At this time, the user terminal 110 may generate an additional error distance based on the weight set according to the added pronunciation in relation to the value of the optimal path. The total error distance may include an additional error distance.

도 10에서는 도시되지 않았으나, 사용자 단말(110)은 제 1 발음열의 발음에 대응되는 제 2 발음열의 발음이 다르고 연속되는 두 개의 최적 경로의 값이 동일한 경우, 삭제 에러 거리를 발생시키는 단계를 더 포함할 수 있다. 이 때, 사용자 단말(110)은 최적 경로의 값과 관련하여 탈락된 발음에 따라 설정된 가중치에 기초하여 삭제 에러 거리를 발생시킬 수 있다. 총 에러 거리는 삭제 에러 거리를 더 포함할 수 있다. Although not shown in FIG. 10, the user terminal 110 further includes a step of generating a deletion error distance when the pronunciation of the second pronunciation string corresponding to the pronunciation of the first pronunciation string is different and the values of two successive optimal paths are the same can do. At this time, the user terminal 110 can generate the erasure error distance based on the weight set according to the missing pronunciation in relation to the value of the optimal path. The total error distance may further include a deletion error distance.

도 10에서는 도시되지 않았으나, 사용자 단말(110)은 제 1 발음열이 발음에 대응되는 제 2 발음열의 발음이 동일하지 않은 경우, 대체 에러 거리를 발생시키는 단계를 더 포함할 수 있다. 이 때, 사용자 단말(110)은 제 1 발음열의 발음에 대응되는 제 2 발음열의 발음의 유사도에 따라 설정된 가중치에 기초하여 대체 에러 거리를 발생시킬 수 있다. 총 에러 거리는 대체 에러 거리를 더 포함할 수 있다. Although not shown in FIG. 10, the user terminal 110 may further include generating a replacement error distance if the pronunciation of the second pronunciation string corresponding to the pronunciation of the first pronunciation string is not the same. At this time, the user terminal 110 can generate the replacement error distance based on the weight value set in accordance with the similarity of pronunciation of the second pronunciation string corresponding to the pronunciation of the first pronunciation string. The total error distance may further include a replacement error distance.

도 10에서는 도시되지 않았으나, 사용자 단말(110)은 제 1 발음열 및 제 2 발음열의 전체 길이 및 총 에러 거리에 기초하여 발음 유사도를 측정하는 단계를 더 포함할 수 있다. Although not shown in FIG. 10, the user terminal 110 may further include measuring pronunciation similarity based on the total length of the first sounding sequence and the second sounding sequence and the total error distance.

상술한 설명에서, 단계 S1010 내지 S1040은 본 발명의 구현예에 따라서, 추가적인 단계들로 더 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계 간의 순서가 변경될 수도 있다.In the above description, steps S1010 to S1040 may be further divided into additional steps or combined into fewer steps, according to an embodiment of the present invention. Also, some of the steps may be omitted as necessary, and the order between the steps may be changed.

도 11은 본 발명의 다른 실시예에 따른 사용자 단말에서 텍스트 간의 발음 유사도를 측정하는 방법의 순서도이다. 도 11에 도시된 실시예에 따른 사용자 단말(110)에 의해 수행되는 텍스트 간의 발음 유사도를 측정하는 방법은 도 1 내지 도 10에 도시된 실시예에 따른 발음 유사도 측정 시스템(1)에서 시계열적으로 처리되는 단계들을 포함한다. 따라서, 이하 생략된 내용이라고 하더라도 도 1 내지 도 10에 도시된 실시예에 따른 사용자 단말(110)에 의해 수행되는 텍스트 간의 발음 유사도를 측정하는 방법에도 적용된다. 11 is a flowchart of a method of measuring pronunciation similarity between texts in a user terminal according to another embodiment of the present invention. The method of measuring pronunciation similarity between texts performed by the user terminal 110 according to the embodiment shown in FIG. 11 is performed in a time-series manner in the pronunciation similarity measurement system 1 according to the embodiment shown in FIGS. Lt; / RTI > Accordingly, the following description is also applied to a method of measuring the pronunciation similarity between texts performed by the user terminal 110 according to the embodiment shown in FIGS. 1 to 10. FIG.

단계 S1110에서 사용자 단말(110)은 음성을 입력받을 수 있다. In step S1110, the user terminal 110 can receive voice.

단계 S1120에서 사용자 단말(110)은 입력된 음성을 인식하여 텍스트를 도출할 수 있다. 예를 들어, 사용자 단말(110)은 입력된 음성을 음성 인식 서버(120)로 전송하고, 음성 인식 서버(120)로부터 전송된 음성이 인식되어 도출된 텍스트를 수신할 수 있다. In step S1120, the user terminal 110 can recognize the inputted voice and derive the text. For example, the user terminal 110 may transmit the input voice to the voice recognition server 120, and may receive the voice derived from the voice transmitted from the voice recognition server 120.

단계 S1130에서 사용자 단말(110)은 텍스트와 사용자 단말(110)의 주소록에 저장된 복수의 이름을 각각 비교하여 발음 유사도를 측정할 수 있다. 예를 들어, 사용자 단말(110)은 텍스트와 복수의 이름을 음절 단위로 비교하여 복수의 이름 중 텍스트와 적어도 하나의 음절이 동일한 적어도 하나의 이름을 추출하고, 텍스트와 추출된 적어도 하나의 이름을 각각 비교하여 발음 유사도를 측정할 수 있다. 이 때, 사용자 단말(110)은 텍스트에 포함된 적어도 둘 이상의 연속되는 음절이 복수의 이름에 포함되는지 여부를 판단할 수도 있다. 다른 예를 들어, 사용자 단말(110)은 텍스트 및 복수의 이름이 직급 호칭 또는 관계 호칭을 포함하는 경우, 텍스트 및 복수의 이름으로부터 호칭을 분리하고, 호칭이 분리된 텍스트 및 복수의 이름과 호칭이 분리되지 않은 텍스트 및 복수의 이름을 비교하여 발음 유사도를 측정할 수 있다. In step S1130, the user terminal 110 may compare the text and a plurality of names stored in the address book of the user terminal 110, respectively, to measure pronunciation similarity. For example, the user terminal 110 compares the text with a plurality of names in syllable units, extracts at least one name of the plurality of names having the same at least one syllable, and extracts at least one extracted name And the pronunciation similarity can be measured by comparing them. At this time, the user terminal 110 may determine whether at least two or more consecutive syllables included in the text are included in a plurality of names. In another example, the user terminal 110 separates the title from the text and multiple names, if the text and plural names include a title or relationship name, and if the title has a separate text and multiple names and titles The pronunciation similarity can be measured by comparing the non-separated text and plural names.

단계 S1140에서 사용자 단말(110)은 측정된 발음 유사도에 따라 복수의 이름을 정렬하여 표시할 수 있다. In step S1140, the user terminal 110 may sort and display a plurality of names according to the measured pronunciation similarity.

단계 S1150에서 사용자 단말(110)은 복수의 이름 중 하나를 선택받는 경우, 선택받은 이름과 통화 연결을 시도할 수 있다. In step S1150, when the user terminal 110 selects one of a plurality of names, the user terminal 110 may try to establish a call connection with the selected name.

상술한 설명에서, 단계 S1110 내지 S1150은 본 발명의 구현예에 따라서, 추가적인 단계들로 더 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계 간의 순서가 변경될 수도 있다.In the above description, steps S1110 through S1150 may be further divided into further steps or combined into fewer steps, according to an embodiment of the present invention. Also, some of the steps may be omitted as necessary, and the order between the steps may be changed.

도 1 내지 도 11을 통해 설명된 사용자 단말에서 텍스트 간의 발음 유사도를 측정하는 방법은 컴퓨터에 의해 실행되는 매체에 저장된 컴퓨터 프로그램 또는 컴퓨터에 의해 실행 가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 또한, 도 1 내지 도 11을 통해 설명된 사용자 단말에서 텍스트 간의 발음 유사도를 측정하는 방법은 컴퓨터에 의해 실행되는 매체에 저장된 컴퓨터 프로그램의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체 및 통신 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다. 통신 매체는 전형적으로 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈, 또는 반송파와 같은 변조된 데이터 신호의 기타 데이터, 또는 기타 전송 메커니즘을 포함하며, 임의의 정보 전달 매체를 포함한다. The method of measuring the pronunciation similarity between texts in the user terminal described with reference to Figs. 1 to 11 can also be embodied in the form of a computer program stored in a medium executed by the computer or a recording medium including instructions executable by the computer have. In addition, the method of measuring pronunciation similarity between texts in the user terminal described with reference to Figs. 1 to 11 can also be implemented in the form of a computer program stored in a medium executed by a computer. Computer readable media can be any available media that can be accessed by a computer and includes both volatile and nonvolatile media, removable and non-removable media. In addition, the computer-readable medium may include both computer storage media and communication media. Computer storage media includes both volatile and nonvolatile, removable and non-removable media implemented in any method or technology for storage of information such as computer readable instructions, data structures, program modules or other data. Communication media typically includes any information delivery media, including computer readable instructions, data structures, program modules, or other data in a modulated data signal such as a carrier wave, or other transport mechanism.

전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다. It will be understood by those skilled in the art that the foregoing description of the present invention is for illustrative purposes only and that those of ordinary skill in the art can readily understand that various changes and modifications may be made without departing from the spirit or essential characteristics of the present invention. will be. It is therefore to be understood that the above-described embodiments are illustrative in all aspects and not restrictive. For example, each component described as a single entity may be distributed and implemented, and components described as being distributed may also be implemented in a combined form.

본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다. The scope of the present invention is defined by the appended claims rather than the detailed description and all changes or modifications derived from the meaning and scope of the claims and their equivalents are to be construed as being included within the scope of the present invention do.

110: 사용자 단말(발신자 단말)
120: 음성 인식 서버
130: 수신자 단말
210: 음성 입력부
220: 텍스트 도출부
230: 배열부
240: 최적 경로 도출부
250: 에러 거리 산정부
260: 발음 유사도 측정부
270: 정렬부
280: 표시부
290: 통화 연결부
110: user terminal (caller terminal)
120: voice recognition server
130:
210:
220:
230:
240: Optimum path derivation unit
250: error distance calculation unit
260: pronunciation similarity measuring unit
270:
280:
290:

Claims (18)

텍스트 간의 발음 유사도를 측정하는 사용자 단말에 있어서,
음성을 입력받는 음성 입력부;
상기 입력된 음성를 인식하여 텍스트를 도출하는 텍스트 도출부;
상기 텍스트와 상기 사용자 단말의 주소록에 저장된 복수의 이름을 각각 비교하여 발음 유사도를 측정하는 발음 유사도 측정부; 및
상기 측정된 발음 유사도에 따라 상기 복수의 이름을 정렬하는 정렬부
를 포함하고,
상기 텍스트가 포함하는 복수의 제 1 발음과 상기 복수의 이름이 각각 포함하는 복수의 제 2 발음 간의 거리에 기초하여 생성된 경로를 따라 상기 제 1 발음과 상기 경로와의 거리 및 상기 제 2 발음과 상기 경로와의 거리에 기초한 에러 거리를 산정하는 에러 거리 산정부를 더 포함하고,
상기 발음 유사도 측정부는 상기 에러 거리에 기초하여 발음 유사도를 측정하는 것인, 사용자 단말.
1. A user terminal for measuring pronunciation similarity between texts,
A voice input unit for inputting voice;
A text derivation unit for recognizing the input speech and deriving a text;
A pronunciation similarity measuring unit that compares the text with a plurality of names stored in an address book of the user terminal to measure pronunciation similarity; And
And arranging the plurality of names according to the measured pronunciation similarity,
Lt; / RTI >
A distance between the first pronunciation and the route and a distance between the first pronunciation and the second pronunciation are calculated along a route generated based on a distance between a plurality of first pronunciations included in the text and a plurality of second pronunciations each included in the plurality of names, And an error distance calculation unit for calculating an error distance based on the distance to the path,
And the pronunciation similarity measuring unit measures pronunciation similarity based on the error distance.
제 1 항에 있어서,
상기 텍스트로부터 추출된 복수의 발음을 포함하는 제 1 발음열을 격자 다이어그램의 제 1 축에 배열하고, 상기 복수의 이름 각각으로부터 추출된 복수의 발음을 포함하는 제 2 발음열을 상기 격자 다이어그램의 제 2 축에 배열하는 배열부
를 더 포함하고,
상기 발음 유사도 측정부는 상기 격자 다이어그램에 기초하여 발음 유사도를 측정하는 것인, 사용자 단말.
The method according to claim 1,
Arranging a first pronunciation string including a plurality of pronunciations extracted from the text on a first axis of a grid diagram and a second pronunciation string including a plurality of pronunciations extracted from each of the plurality of names, The array part arranged on two axes
Further comprising:
Wherein the pronunciation similarity measuring unit measures pronunciation similarity based on the lattice diagram.
제 2 항에 있어서,
상기 배열부는 상기 제 1 발음열에 포함된 모음과 상기 제 2 발음열에 포함된 모음이 대응하여 매핑되도록 상기 격자 다이어그램에 배열하는 것인, 사용자 단말.
3. The method of claim 2,
Wherein the arrangement section arranges the vowel included in the first pronunciation row and the vowel contained in the second pronunciation row correspondingly in the grid diagram.
제 2 항에 있어서,
상기 제 1 축에 배열된 제 1 발음열과 매핑되는 상기 제 2 축에 배열된 제 2 발음열을 비교하여 편집 거리를 측정하고, 상기 편집 거리가 최소화되는 최적 경로를 도출하는 최적 경로 도출부
를 포함하고,
상기 발음 유사도 측정부는 상기 최적 경로를 분석하여 발음 유사도를 측정하는 것인, 사용자 단말.
3. The method of claim 2,
An optimal path derivation unit which compares a first sounding sequence arranged on the first axis with a second sounding sequence arranged on the second axis and maps an edit distance and derives an optimal path that minimizes the edit distance,
Lt; / RTI >
And the pronunciation similarity measuring unit analyzes the optimal path to measure pronunciation similarity.
제 4 항에 있어서,
상기 에러거리 산정부는 상기 제 1 발음열의 발음이 상기 최적 경로를 따라 상기 제 1 발음열의 발음에 대응되는 상기 제 2 발음열의 발음과 동일한지 여부 및 상기 제 1 발음열에 대응되는 상기 최적 경로의 값에 기초하여 총 에러 거리를 산정하고,
상기 발음 유사도 측정부는 상기 총 에러 거리에 기초하여 발음 유사도를 측정하는 것인, 사용자 단말.
5. The method of claim 4,
Wherein the error distance calculation unit determines whether or not the pronunciation of the first pronunciation row is the same as the pronunciation of the second pronunciation row corresponding to the pronunciation of the first pronunciation row along the optimal route and the value of the optimal route corresponding to the first pronunciation row The total error distance is calculated based on the total error distance,
And the pronunciation similarity measuring unit measures pronunciation similarity based on the total error distance.
제 5 항에 있어서,
상기 최적 경로의 값은 상기 제 1 발음열의 발음에 대응되는 상기 제 2 발음열의 발음이 동일한 경우 경우 기설정된 단위로 증가되는 것인, 사용자 단말.
6. The method of claim 5,
Wherein the value of the optimal path is increased in a predetermined unit when the pronunciation of the second pronunciation string corresponding to the pronunciation of the first pronunciation string is the same.
제 6 항에 있어서,
상기 에러 거리 산정부는 상기 제 1 발음열의 발음에 대응되는 상기 제 2 발음열의 발음이 다르고 연속되는 두개의 최적 경로의 값의 차이가 상기 기설정된 단위의 두배 이상인 경우, 추가 에러 거리를 발생시키고,
상기 총 에러 거리는 상기 추가 에러 거리를 포함하는 것인, 사용자 단말.
The method according to claim 6,
Wherein the error distance calculation unit generates an additional error distance when the difference of the values of the two optimal paths that are different in pronunciation of the second pronunciation string corresponding to the pronunciation of the first pronunciation string is twice or more the predetermined unit,
Wherein the total error distance comprises the additional error distance.
제 7 항에 있어서,
상기 에러 거리 산정부는 상기 최적 경로의 값과 관련하여 추가된 발음에 따라 설정된 가중치에 기초하여 상기 추가 에러 거리를 발생시키는 것인, 사용자 단말.
8. The method of claim 7,
Wherein the error distance estimator generates the additional error distance based on the weight set in accordance with the added pronunciation in relation to the value of the optimal path.
제 7 항에 있어서,
상기 에러 거리 산정부는 상기 제 1 발음열의 발음에 대응되는 상기 제 2 발음열의 발음이 다르고 연속되는 두개의 최적 경로의 값이 동일한 경우, 삭제 에러 거리를 발생시키고,
상기 총 에러 거리는 상기 삭제 에러 거리를 더 포함하는 것인, 사용자 단말.
8. The method of claim 7,
Wherein the error distance calculation unit generates a deletion error distance when the pronunciation of the second pronunciation string corresponding to the pronunciation of the first pronunciation string is different and the values of two successive optimal paths are equal,
Wherein the total error distance further comprises the erasure error distance.
제 9 항에 있어서,
상기 에러 거리 산정부는 상기 최적 경로의 값과 관련하여 탈락된 발음에 따라 설정된 가중치에 기초하여 상기 삭제 에러 거리를 발생시키는 것인, 사용자 단말.
10. The method of claim 9,
Wherein the error distance estimator generates the deletion error distance based on a weight that is set in accordance with the dropped pronunciation in relation to the value of the optimal path.
제 9 항에 있어서,
상기 에러 거리 산정부는 상기 제 1 발음열의 발음에 대응되는 상기 제 2 발음열의 발음이 동일하지 않은 경우, 대체 에러 거리를 발생시키고,
상기 총 에러 거리는 상기 대체 에러 거리를 더 포함하는 것인, 사용자 단말.
10. The method of claim 9,
Wherein the error distance calculation unit generates a replacement error distance when the pronunciation of the second pronunciation string corresponding to the pronunciation of the first pronunciation string is not the same,
Wherein the total error distance further comprises the alternate error distance.
제 11 항에 있어서,
상기 에러 거리 산정부는 상기 제 1 발음열의 발음에 대응되는 상기 제 2 발음열의 발음의 유사도에 따라 설정된 가중치에 기초하여 상기 대체 에러 거리를 발생시키는 것인, 사용자 단말.
12. The method of claim 11,
Wherein the error distance calculation unit generates the replacement error distance based on a weight that is set according to the similarity degree of the pronunciation of the second pronunciation string corresponding to the pronunciation of the first pronunciation string.
제 5 항에 있어서,
상기 발음 유사도 측정부는 상기 제 1 발음열 및 상기 제 2 발음열의 전체 길이 및 상기 총 에러 거리에 기초하여 발음 유사도를 측정하는 것인, 사용자 단말.
6. The method of claim 5,
Wherein the pronunciation similarity measuring unit measures pronunciation similarity based on the total length of the first pronunciation string and the second pronunciation string and the total error distance.
텍스트 간의 발음 유사도를 측정하는 사용자 단말에 있어서,
음성을 입력받는 음성 입력부;
상기 입력된 음성을 인식하여 텍스트를 도출하는 텍스트 도출부;
상기 텍스트와 상기 사용자 단말의 주소록에 저장된 복수의 이름을 각각 비교하여 발음 유사도를 측정하는 발음 유사도 측정부;
상기 측정된 발음 유사도에 따라 상기 복수의 이름을 정렬하여 표시하는 표시부; 및
상기 복수의 이름 중 하나를 선택받는 경우, 상기 선택받은 이름과 통화 연결을 시도하는 통화 연결부
를 포함하고,
상기 발음 유사도 측정부는 상기 텍스트 및 상기 복수의 이름이 직급 호칭 또는 관계 호칭을 포함하는 경우, 상기 텍스트 및 상기 복수의 이름으로부터 상기 호칭을 분리하고 상기 호칭이 분리된 텍스트 및 복수의 이름을 비교하여 발음 유사도를 측정하는 것인, 사용자 단말.
1. A user terminal for measuring pronunciation similarity between texts,
A voice input unit for inputting voice;
A text derivation unit for recognizing the input speech to derive text;
A pronunciation similarity measuring unit that compares the text with a plurality of names stored in an address book of the user terminal to measure pronunciation similarity;
A display unit for displaying the plurality of names according to the measured pronunciation similarity; And
When a user selects one of the plurality of names,
Lt; / RTI >
Wherein the pronunciation similarity measuring unit separates the name from the text and the plurality of names when the text and the plurality of names include a title or relationship name, And measures the degree of similarity.
제 14 항에 있어서,
상기 텍스트 도출부는 상기 입력된 음성을 음성 인식 서버로 전송하고,
상기 음성 인식 서버로부터 상기 전송된 음성이 인식되어 도출된 텍스트를 수신하는 것인, 사용자 단말.
15. The method of claim 14,
The text derivation unit transmits the input voice to the voice recognition server,
And receiving the text derived by recognizing the transmitted speech from the speech recognition server.
제 14 항에 있어서,
상기 발음 유사도 측정부는 상기 텍스트와 상기 복수의 이름을 음절 단위로 비교하여 상기 복수의 이름 중 상기 텍스트와 적어도 하나의 음절이 동일한 적어도 하나의 이름을 추출하고,
상기 텍스트와 상기 추출된 적어도 하나의 이름을 각각 비교하여 발음 유사도를 측정하는 것인, 사용자 단말.
15. The method of claim 14,
Wherein the pronunciation similarity measuring unit compares the text and the plurality of names in syllable units to extract at least one name of the plurality of names having the same at least one syllable,
And comparing the text and the extracted at least one name to measure pronunciation similarity.
제 14 항에 있어서,
상기 발음 유사도 측정부는 상기 호칭이 분리되지 않은 텍스트 및 복수의 이름을 더 비교하여 발음 유사도를 측정하는 것인, 사용자 단말.
15. The method of claim 14,
Wherein the pronunciation similarity measuring unit further compares the text and the plurality of names not separated by the title to measure pronunciation similarity.
제 14 항에 있어서,
상기 발음 유사도 측정부는 상기 텍스트에 포함된 적어도 둘 이상의 연속되는 음절이 상기 복수의 이름에 포함되는지 여부를 판단하는 것인, 사용자 단말.
15. The method of claim 14,
Wherein the pronunciation similarity measuring unit determines whether at least two or more consecutive syllables included in the text are included in the plurality of names.
KR1020160110142A 2016-08-29 2016-08-29 User device for measuring pronounce similarity between texts KR101789629B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020160110142A KR101789629B1 (en) 2016-08-29 2016-08-29 User device for measuring pronounce similarity between texts

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020160110142A KR101789629B1 (en) 2016-08-29 2016-08-29 User device for measuring pronounce similarity between texts

Publications (1)

Publication Number Publication Date
KR101789629B1 true KR101789629B1 (en) 2017-11-20

Family

ID=60809333

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160110142A KR101789629B1 (en) 2016-08-29 2016-08-29 User device for measuring pronounce similarity between texts

Country Status (1)

Country Link
KR (1) KR101789629B1 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108833728A (en) * 2018-07-31 2018-11-16 北京小米移动软件有限公司 Adjust the method and device of incoming call prompting volume
US11984122B2 (en) 2020-07-27 2024-05-14 Samsung Electronics Co., Ltd. Electronic apparatus and controlling method thereof

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011128903A (en) * 2009-12-17 2011-06-30 Toyohashi Univ Of Technology Sequence signal retrieval device and sequence signal retrieval method
JP2012022251A (en) 2010-07-16 2012-02-02 Mitsubishi Electric Corp Speech retrieval interface device and speech input retrieval method

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011128903A (en) * 2009-12-17 2011-06-30 Toyohashi Univ Of Technology Sequence signal retrieval device and sequence signal retrieval method
JP2012022251A (en) 2010-07-16 2012-02-02 Mitsubishi Electric Corp Speech retrieval interface device and speech input retrieval method

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108833728A (en) * 2018-07-31 2018-11-16 北京小米移动软件有限公司 Adjust the method and device of incoming call prompting volume
US11984122B2 (en) 2020-07-27 2024-05-14 Samsung Electronics Co., Ltd. Electronic apparatus and controlling method thereof

Similar Documents

Publication Publication Date Title
US20200211529A1 (en) Systems and methods for multi-style speech synthesis
JP4709887B2 (en) Speech recognition result correction apparatus, speech recognition result correction method, and speech recognition result correction system
CN106920547B (en) Voice conversion method and device
JP4195428B2 (en) Speech recognition using multiple speech features
US20060136213A1 (en) Speech synthesis apparatus and speech synthesis method
US20100114571A1 (en) Information retrieval system, information retrieval method, and information retrieval program
JP2015180966A (en) Speech processing system
JPH10508392A (en) Method and system for pattern recognition based on tree composition probability density
CN105609097A (en) Speech synthesis apparatus and control method thereof
JP2009128508A (en) Spoken data retrieval system
US10665227B2 (en) Voice recognition device and voice recognition method
JP2014235345A (en) Voice processing device, method and program
JP2013109061A (en) Voice data retrieval system and program for the same
KR101789629B1 (en) User device for measuring pronounce similarity between texts
JP5606951B2 (en) Speech recognition system and search system using the same
CN108364655A (en) Method of speech processing, medium, device and computing device
KR100930714B1 (en) Voice recognition device and method
Hou et al. Domain adversarial training for improving keyword spotting performance of esl speech
JP6322125B2 (en) Speech recognition apparatus, speech recognition method, and speech recognition program
JP3911178B2 (en) Speech recognition dictionary creation device and speech recognition dictionary creation method, speech recognition device, portable terminal, speech recognition system, speech recognition dictionary creation program, and program recording medium
KR100259777B1 (en) Optimal synthesis unit selection method in text-to-speech system
JP2003099089A (en) Speech recognition/synthesis device and method
KR101890303B1 (en) Method and apparatus for generating singing voice
Suh et al. Acoustic hole filling for sparse enrollment data using a cohort universal corpus for speaker recognition
JP5246512B2 (en) Voice reading system and voice reading terminal

Legal Events

Date Code Title Description
GRNT Written decision to grant