KR20060058006A - 문자들의 조작을 제어하는 방법 및 시스템 - Google Patents

문자들의 조작을 제어하는 방법 및 시스템 Download PDF

Info

Publication number
KR20060058006A
KR20060058006A KR1020050095462A KR20050095462A KR20060058006A KR 20060058006 A KR20060058006 A KR 20060058006A KR 1020050095462 A KR1020050095462 A KR 1020050095462A KR 20050095462 A KR20050095462 A KR 20050095462A KR 20060058006 A KR20060058006 A KR 20060058006A
Authority
KR
South Korea
Prior art keywords
word
character
command
display screen
letter
Prior art date
Application number
KR1020050095462A
Other languages
English (en)
Inventor
데이비드 모와트
펠릭스 지.티.아이. 앤드류
로버트 엘. 챔버스
Original Assignee
마이크로소프트 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 마이크로소프트 코포레이션 filed Critical 마이크로소프트 코포레이션
Publication of KR20060058006A publication Critical patent/KR20060058006A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • User Interface Of Digital Computer (AREA)
  • Document Processing Apparatus (AREA)
  • Controls And Circuits For Display Device (AREA)

Abstract

디스플레이 스크린 상에 디스플레이된 문자들을 조작하기 위한 시스템 및 방법이 개시되며, 이 방법은 선택된 단어를 식별하는 단계를 포함하는데, 이 선택된 단어는 적어도 하나의 수정될 문자를 포함한다. 이 방법은 또한, 적어도 하나의 문자 각각을 유일한 숫자 값에 상호관련시키는 단계, 및 선택 명령 및 수정 명령을 수신하는 단계를 포함하는데, 이 선택 명령은 선택된 문자에 대응하는 유일한 숫자 값이다. 또한, 이 방법은 수정 명령에 대한 응답으로 선택된 문자를 수정하여, 수정된 단어를 생성하는 단계를 포함한다.
음성 인식 소프트웨어 어플리케이션, 문자 조작, 철자 사용자 인터페이스

Description

문자들의 조작을 제어하는 방법 및 시스템{CONTROLLED MANIPULATION OF CHARACTERS}
도 1은 예시적인 실시예에 따라, 철자 사용자 인터페이스(UI)를 갖는 음성 인식 소프트웨어 어플리케이션을 이용하여 디스플레이 스크린 상에 디스플레이된 문자들을 조작하기 위한 방법을 구현하는 시스템을 나타내는 개념적 블럭도.
도 2는 예시적인 실시예에 따라, 철자 사용자 인터페이스(UI)를 갖는 음성 인식 소프트웨어 어플리케이션을 이용하여 디스플레이 스크린 상에 디스플레이된 문자들을 조작하기 위한 방법을 나타내는 블럭도.
도 3은 도 2의 방법을 나타내는 도 1의 시스템의 디스플레이 스크린의 전면도.
도 4는 도 2의 방법을 나타내는 도 1의 시스템의 디스플레이 스크린의 전면도.
도 5는 도 2의 방법을 나타내는 도 1의 시스템의 디스플레이 스크린의 전면도.
도 6은 도 2의 방법을 나타내는 도 1의 시스템의 디스플레이 스크린의 전면도.
도 7은 도 2의 방법을 나타내는 도 1의 시스템의 디스플레이 스크린의 전면 도.
도 8은 도 2의 방법을 나타내는 도 1의 시스템의 디스플레이 스크린의 전면도.
도 9는 도 2의 방법을 나타내는 도 1의 시스템의 디스플레이 스크린의 전면도.
도 10은 도 2의 방법을 나타내는 도 1의 시스템의 디스플레이 스크린의 전면도.
도 11은 도 2의 방법을 나타내는 도 1의 시스템의 디스플레이 스크린의 전면도.
도 12는 도 2의 방법을 나타내는 도 1의 시스템의 디스플레이 스크린의 전면도.
도 13은 도 2의 방법을 나타내는 도 1의 시스템의 디스플레이 스크린의 전면도.
도 14는 도 2의 방법을 나타내는 도 1의 시스템의 디스플레이 스크린의 전면도.
<도면의 주요 부분에 대한 부호의 설명>
147 : 디스플레이 장치
148 : 디스플레이 스크린
302 : 타겟 소프트웨어 어플리케이션 윈도우
본 발명은 일반적으로 음성 인식 소프트웨어 어플리케이션에 관한 것으로서, 특히, 음성 인식 어플리케이션을 통해 단어의 문자들을 조작하기 위한 방법에 관한 것이다.
말하기는 아마도 가장 오래된 형태의 인간의 통신방법이며, 다수의 과학자들은 현재, 발성을 통해 통신하는 능력은 인간의 뇌의 생태에 유전적으로 제공된다고 믿는다. 따라서, 사용자가 말하기와 같은 자연 사용자 인터페이스(NUI; Natural User Interface)를 이용하여 컴퓨터와 통신하게 하는 것은 오랫동안 추구된 목표였다. 사실, 이 목표를 달성하는 최근의 커다란 진보가 있었다. 예를 들어, 현재, 몇몇 컴퓨터는 사용자가 컴퓨터를 동작시키기 위한 명령과 텍스트로 변환될 구술 둘 다를 음성으로 입력하게 하는 음성 인식 어플리케이션을 포함한다. 이러한 어플리케이션은 일반적으로, 마이크로폰을 통해 획득된 사운드 샘플을 주기적으로 녹음하고, 그 샘플을 분석하여 사용자가 말하는 음소를 인식하고, 그 음소로 구성된 단어를 인식함으로써 동작한다.
음성 인식이 점점 흔해지고 있지만, 아직도, 경험있는 사용자를 실망시키고 경험없는 사용자는 멀리하는 경향이 있는 통상적인 음성 인식 어플리케이션을 사용하기에는 몇몇 단점이 존재한다. 그러한 단점은 말하는 사람과 컴퓨터 간의 인터랙션에 관련된다. 예를 들어, 인간의 인터랙션에서, 사람들은 그들이 인지하는 듣는 사람의 반응에 기초하여 자신의 음성을 제어하는 경향이 있다. 그렇듯이, 대화 중에, 듣는 사람은 고개를 끄덕이거나 "예" 또는 "음"과 같은 음성 응답을 함으로써 피드백을 제공하여, 자신이 듣고 있는 것을 이해하고 있음을 나타낼 수 있다. 또한, 듣는 사람은 자신이 듣고 있는 것을 이해하지 못할 경우, 난처한 표정을 짓거나, 몸을 앞으로 기울이거나, 다른 음성적 또는 비음성적 신호를 줄 수 있다. 이 피드백에 응답하여, 말하는 사람은 일반적으로 말하는 방법을 바꾸고, 몇몇 경우에, 말하는 사람은 더 천천히 말하거나, 더 크게 말하거나, 더 자주 끊어서 말하거나, 심지어 문장을 반복할 수 있는데, 이 때, 듣는 사람은 보통 말하는 사람이 자신과 인터랙션하는 방법을 바꾼 것을 인식하지 못한다. 따라서, 대화동안의 피드백은 말하는 사람에게 그들이 이해하고 있는지에 관하여 알려주는 매우 중요한 요소이다. 그러나 불행하게도, 통상적인 음성 인식 어플리케이션은 아직, 인간-기계 인터페이스로 설비된 음성 입력/명령에 대한 이러한 유형의 "자연 사용자 인터페이스(NUI)" 피드백 응답을 제공할 수 없다.
현재, 음성 인식 어플리케이션은 90% 내지 98%의 정확도를 달성하였다. 이것은, 사용자가 일반적인 음성 인식 어플리케이션을 이용하여 문서에 구술할 경우, 그 음성이 음성 인식 어플리케이션에 의해 대략 그 경우의 90% 내지 98%로 정확하게 인식될 것임을 의미한다. 따라서, 음성 인식 어플리케이션에 의해 녹음된 모든 100개의 글자 중에, 대략 2 내지 10개의 글자가 정정되어야 할 것이다. 이 문제를 다루고 잘못 인지된 글자 또는 단어를 정정하는 두가지 흔한 방법은 글자 또는 단어를 반복하거나 다시 말하는 것, 또는 말하기의 대체물을 요구하는 것을 포함한다. 그러나, 이 두가지 접근법은 사용자가 정정을 수행할 때마다 동작하지는 않으 며, 따라서, 이것은 물리적으로 키보드를 사용할 수 없는 사용자들과 같이, 정정을 수행할 때 음성을 사용해야 하는 특정 클래스의 사용자에게 있어서 특히 불편하다.
이 문제를 다루고 디스플레이 스크린 상에 디스플레이되는 잘못 인식된 글자 또는 단어를 정정하는 다른 접근법은, 전체 단어를 삭제하고 처음부터 단어를 다시 철자하는 것을 포함한다. 예를 들어, 단어 "intent"에서 "indent"로 변경하기 위해, 사용자는 "delete intent"라고 말하고, "i", "n", "d", "e", "n", "t"라고 말함으로써 요구된 단어를 다시 철자해야 한다. 이 문제를 다루고 디스플레이 스크린 상에 디스플레이되는 잘못 인식된 단어를 정정하는 또 다른 접근법은, 잘못된 글자를 변경하기 위해 음성으로써 키보드를 제어하는 것을 포함한다. 이 경우에, 사용자는 단어 내에서 변경될 필요가 있는 글자까지의 글자들 모두를 삭제해야 한다. 그리고, 나머지를 다시 철자한다. 예를 들어, 단어 "intent"를 "indent"로 변경하기 위해, 사용자는 "backspace backspace backspace backspace"라고 말하고, "d", "e", "n", "t"라고 말함으로써 요구된 단어를 다시 철자한다.
그러나 불행하게도, 이 접근법은 그와 관련된 몇몇 단점을 갖는다. 우선, 단일 글자를 변경하는 데 다수의 명령이 요구된다. 두번째로, 이 접근법은 다수의 글자들을 다시 철자하는 것에 의존하는데, 음성 인식 분야의 현재 상태로서는, 정확도는 10 중 9개의 글자만이 정확하다. 이것은 다시 철자하기 위해 재정렬함으로써 단 둘 또는 세개의 단어만을 정정해야했던 후에도, 사용자는 통계적으로 에러를 갖기 쉽다는 것을 의미한다. 이것은, 정확할 것을 보장하기 위해 사용자가 각각의 글자 후에 잠시 멈추어야 하거나(시간을 추가함), 사용자가 "backspace backspace.."를 말하고 다시 여러 상황에서 그 단어를 다시 철자해야 할 것이라는 사실을 참아야 함을 의미한다. 세번째로, 음성 인식의 실수는 종종 사용자가 의도한 단어에서 글자 두개 정도만 틀리기 때문에, 사용자가 그 철자를 조작하려고 하는 단어는 종종, 사용자가 의도한 단어와 매우 가깝다. 이러한 단점들은 자주 사용하는 사용자에게 실망을 주는 경향이 있을 뿐만 아니라, 경험없는 사용자도 실망시키는 경향이 있으며, 이것은 결국 사용자가 음성 인식 어플리케이션을 계속해서 사용하기를 거부하게 할 수 있다.
디스플레이 스크린 상에 디스플레이된 문자들을 조작하기 위한 방법이 개시되며, 이 방법은 선택된 단어를 식별하는 단계를 포함하는데, 이 선택된 단어는 적어도 하나의 수정될 문자를 포함한다. 이 방법은 또한, 적어도 하나의 문자 각각을 유일한 숫자 값에 상호관련시키는 단계, 및 선택 명령 및 수정 명령을 수신하는 단계를 포함하는데, 이 선택 명령은 선택된 문자에 대응하는 유일한 숫자 값이다. 또한, 이 방법은 수정 명령에 대한 응답으로 선택된 문자를 수정하여, 수정된 단어를 생성하는 단계를 포함한다.
디스플레이 스크린 상에 디스플레이된 문자들을 조작하기 위한 방법을 구현하는 시스템이 개시되며, 이 시스템은 입력된 명령을 수신하도록 구성된 오디오 모듈을 포함하는 저장 장치를 포함한다. 이 시스템은 또한, 입력된 명령을 수신하기 위한 입력 장치, 및 디스플레이 장치를 포함하는데, 디스플레이 장치는 입력된 명 령을 디스플레이하기 위한 디스플레이 스크린을 포함한다. 또한, 이 시스템은 저장 장치, 입력 장치 및 디스플레이 장치와 통신하는 프로세싱 장치를 포함하는데, 프로세싱 장치는 철자 사용자 인터페이스(spelling user interface(UI))가 디스플레이 스크린 상에 디스플레이되게 하고, 입력된 명령에 응답하여 디스플레이된 데이터를 조작하는 명령어들을 수신한다.
프로세싱 장치가 디스플레이 스크린 상에 디스플레이된 문자들을 조작하기 위한 방법을 구현하게 하는 명령어들을 포함하는 기계-판독가능 컴퓨터 프로그램 코드가 제공된다. 이 방법은 수정될 적어도 하나의 문자를 포함하는 선택된 단어를 식별하는 단계, 및 적어도 하나의 문자 각각을 유일한 숫자 값에 상호관련시키는 단계를 포함한다. 이 방법은 또한, 선택된 문자에 대응하는 유일한 숫자 값인 선택 명령 및 수정 명령을 수신하는 단계, 및 수정 명령에 대한 응답으로 그 선택된 문자를 수정하여 수정된 단어를 생성하는 단계를 포함한다.
프로세싱 장치가 디스플레이 스크린 상에 디스플레이된 문자들을 조작하기 위한 방법을 구현하게 하는 명령어들을 포함하는 기계-판독가능한 컴퓨터 프로그램 코드로 인코딩된 매체가 제공된다. 이 방법은 적어도 하나의 수정될 문자를 포함하는 선택된 단어를 식별하는 단계, 및 적어도 하나의 문자 각각을 유일한 숫자 값에 상호관련시키는 단계를 포함한다. 이 방법은 또한, 선택된 문자에 대응하는 유일한 숫자 값인 선택 명령 및 수정 명령을 수신하는 단계, 및 수정 명령에 대한 응답으로 선택된 문자를 수정하여 수정된 단어를 생성하는 단계를 포함한다.
상술된 것과 그 외의 본 발명의 특징 및 장점은 몇몇 도면에서 유사 구성요 소들이 유사하게 번호매겨진 첨부 도면과 함께 예시적인 실시예에 대한 다음의 상세한 설명으로부터 더 완전히 이해될 것이다.
여기에 개시된 본 발명은 음성 인식 어플리케이션을 사용하여 사용자에 의해 입력된 음성 명령을 수신 및 인식하는 범용 컴퓨터 구현된 시스템과 함께 사용된 독립형 및/또는 통합형 어플리케이션 모듈의 문맥으로 설명되고 있지만, 여기에 개시된 본 발명은 요구된 최종 목적에 적합한 임의의 문맥으로 사용될 수 있음을 이해해야 한다. 예를 들어, 본 발명은, 소프트웨어 사용자 인터페이스(UI) 윈도우를 디스플레이 스크린 상에 위치시키는 방법을 실시하는 음성 인식 모듈을 갖는 마이크로소프트® 워드와 같은 타겟 소프트웨어 어플리케이션 내의 통합형 소프트웨어 루틴 또는 특징, 및/또는 범용 컴퓨터의 오퍼레이팅 시스템 내의 루틴 또는 특징일 수 있다. 객체-지향 어플리케이션으로서, 어플리케이션 모듈은 클라이언트 프로그램이 어플리케이션 모듈과 통신하기 위해 액세스할 수 있는 표준 인터페이스를 노출할 수 있다. 어플리케이션 모듈은 또한, 워드 프로세싱 프로그램, 데스크탑 퍼블리싱 프로그램, 어플리케이션 프로그램 등과 같은 다수의 서로 다른 클라이언트 프로그램이 WAN, LAN 및/또는 인터넷 기반 비클(vehicle)과 같은 네트워크를 통해 및/또는 로컬로 어플리케이션 모듈을 사용하게 할 수 있다. 예를 들어, 어플리케이션 모듈은 로컬로, 또는 인터넷 액세스 포인트를 통해 이메일 어플리케이션 또는 마이크로소프트® 워드와 같은 텍스트 필드를 갖는 임의의 어플리케이션 및/또는 컨트롤을 이용하여 액세스되고 사용될 수 있다. 그러나, 본 발명의 양태를 설명하기 전에, 본 발명으로부터 통합하고 이익을 얻을 수 있는 적합한 컴퓨팅 환경의 일 실시예가 이하에 설명된다.
도 1을 참조하면, 철자 사용자 인터페이스(UI)를 갖는 음성 인식 소프트웨어 어플리케이션을 이용하여 타겟 소프트웨어 어플리케이션에 의해 디스플레이 스크린 상에 디스플레이된 문자들을 조작하기 위한 방법을 구현하는 시스템(100)을 나타내는 블럭도가 도시되고, 이것은 프로세싱 장치(104), 시스템 메모리(106), 및 시스템 메모리(106)를 프로세싱 장치(104)에 연결하는 시스템 버스(108)를 포함하는 일반 컴퓨터 시스템(102)을 포함한다. 시스템 메모리(106)는 판독 전용 메모리(ROM)(110) 및 랜덤 액세스 메모리(RAM)(112)를 포함할 수 있다. 기동 시 등에 일반 컴퓨터 시스템(102) 내의 구성요소들 간의 정보의 전송을 돕는 기본 루틴을 포함하는 기본 입/출력 시스템(114)(BIOS)은 ROM(110)에 저장된다. 일반 컴퓨터 시스템(102)은 또한, 하드 디스크 드라이브(118), 분리형 자기 디스크(122)로부터 판독하고 그곳에 기록하는 자기 디스크 드라이브(120), CD-ROM 디스크(126)를 판독하거나 다른 광 매체로부터 판독하거나 그곳에 기록하는 광 디스크 드라이브(124)와 같은 저장 장치(116)도 포함한다. 저장 장치(116)는 하드 디스크 드라이브 인터페이스(130), 자기 디스크 드라이브 인터페이스(132) 및 광 디스크 드라이브 인터페이스(134)와 같은 저장 장치 인터페이스에 의해 시스템 버스(108)에 접속될 수 있다. 드라이브 및 그에 관련된 컴퓨터-판독가능 매체는 일반 컴퓨터 시스템(102)에 비휘발성 저장장치를 제공한다. 상술된 컴퓨터-판독가능 매체에 대한 설명은 하드 디스크, 분리형 자기 디스크 및 CD-ROM 디스크를 참조하지만, 자기 카세트, 플래시 메모리 카드, 디지털 비디오 디스크, 베르누이 카트리지 등과 같은 컴퓨터 시스템 에 의해 판독가능하고 요구된 최종 목적에 적합한 다른 유형의 매체가 사용될 수 있음을 인지해야 한다.
사용자는 키보드(136), 마우스(138)와 같은 포인팅 장치, 및 마이크로폰(140)을 포함하는 통상적인 입력 장치(135)를 통해 일반 컴퓨터 시스템(102)에 명령 및 정보를 입력할 수 있으며, 이 때, 마이크로폰(140)은 음성과 같은 오디오 입력을 일반 컴퓨터 시스템(102)에 입력하는 데 사용될 수 있다. 또한, 사용자는 스타일러스를 이용하여 라이팅 태블릿(writing tablet)(142) 상에 그래픽 정보를 그림으로써 그림 또는 핸드라이팅과 같은 그래픽 정보를 일반 컴퓨터 시스템(102)에 입력할 수 있다. 일반 컴퓨터 시스템(102)은 또한, 조이스틱, 게임 패드, 위성 접시, 스캐너 등과 같은 요구된 최종 목적에 적합한 추가적인 입력 장치를 포함할 수 있다. 마이크로폰(140)은 시스템 버스(108)에 연결되어 있는 오디오 어댑터(144)를 통해 프로세싱 장치(104)에 연결될 수 있다. 또한, 종종, 다른 입력 장치가 시스템 버스(108)에 연결되어 있는 직렬 포트 인터페이스(146)를 통해 프로세싱 장치(104)에 연결되지만, 게임 포트 또는 USB(universal serial bus)와 같은 다른 인터페이스에 의해 연결될 수도 있다.
디스플레이 스크린(148)을 갖는 모니터, 또는 다른 유형의 디스플레이 장치(147)와 같은 디스플레이 장치(147)도 비디오 어댑터(150)와 같은 인터페이스를 통해 시스템 버스(108)에 연결된다. 디스플레이 스크린(148) 외에, 일반 컴퓨터 시스템(102)은 일반적으로, 스피커 및/또는 프린터와 같은 다른 주변 출력 장치도 포함할 수 있다. 일반 컴퓨터 시스템(102)은 하나 이상의 원격 컴퓨터 시스템(152) 으로의 논리적 접속을 이용하여 네트워크 환경에서 동작할 수 있다. 원격 컴퓨터 시스템(152)은 서버, 라우터, 피어 장치 또는 다른 공통 네트워크 노드일 수 있고, 도 1에서는 원격 메모리 저장 장치(154)만이 도시되었지만, 일반 컴퓨터 시스템(102)에 관하여 설명된 구성요소들 중 임의의 것 또는 전부를 포함할 수 있다. 도 1에 도시된 논리 접속은 근거리 네트워크(LAN)(156) 및 광역 네트워크(WAN)(158)를 포함한다. 그러한 네트워크 환경은 사무실, 기업형 컴퓨터 네트워크, 인트라넷 및 인터넷에서 흔하다.
LAN 네트워크 환경에서 사용될 때, 일반 컴퓨터 시스템(102)은 네트워크 인터페이스(160)를 통해 LAN(156)에 접속된다. WAN 네트워크 환경에서 사용될 때, 일반 컴퓨터 시스템(102)은 일반적으로 모뎀(162), 또는 인터넷과 같은 WAN(158)을 통해 통신을 설립하기 위한 다른 수단을 포함한다. 외장형 또는 내장형일 수 있는 모뎀(162)은 직렬 포트 인터페이스(146)를 통해 시스템 버스(108)에 접속될 수 있다. 네트워크 환경에서, 일반 컴퓨터 시스템(102)에 관하여 묘사된 프로그램 모듈, 또는 그의 일부는 원격 메모리 저장 장치(154)에 저장될 수 있다. 설명된 네트워크 접속은 예시적인 것이며, 컴퓨터 시스템들 간의 통신 링크를 설립하는 다른 수단이 사용될 수 있음을 이해해야 한다. 또한, 어플리케이션 모듈은 일반 컴퓨터 시스템 외에 호스트 또는 서버 컴퓨터 시스템 상에서 동등하게 구현될 수 있고, CD-ROM 외의 다른 수단으로, 예를 들어, 네트워크 접속 인터페이스(160)로 호스트 컴퓨터 시스템에 동등하게 전송될 수 있음을 이해해야 한다.
또한, 다수의 프로그램 모듈은 일반 컴퓨터 시스템(102)의 드라이브 및 RAM(112)에 저장될 수 있다. 프로그램 모듈은 I/O 장치 또는 다른 컴퓨터를 이용하여, 어떻게 일반 컴퓨터 시스템(102)이 기능하고 사용자와 인터랙션하는지를 제어한다. 프로그램 모듈은 루틴, 오퍼레이팅 시스템(164), 타겟 어플리케이션 프로그램 모듈(166), 데이터 구조, 브라우저, 및 다른 소프트웨어 또는 펌웨어 컴포넌트를 포함한다. 본 발명의 방법은 어플리케이션 모듈에 포함될 수 있고, 어플리케이션 모듈은 여기에 개시된 방법에 기초한 음성 엔진 정정 모듈(170)과 같은 하나 이상의 프로그램 모듈로 편리하게 구현될 수 있다. 타겟 어플리케이션 프로그램 모듈(166)은 본 발명과 함께 사용된 다양한 어플리케이션을 포함할 수 있으며, 그 일부는 도 2에 도시되어 있다. 이러한 프로그램 모듈 중 몇몇의 목적 및 그들 간의 인터랙션은 도 2를 설명하는 본문에서 더 완전히 논의된다. 이것은 임의의 어플리케이션 및/또는, 예를 들어, 이메일 어플리케이션, (워싱턴 레드몬드 소재의 마이크로소프트 사의 마이크로소프트® 워드와 같은) 워드 프로세서 프로그램, 핸드라이팅 인식 프로그램 모듈, 음성 엔진 정정 모듈(170) 및 입력 방식 편집기(IME)와 같은 텍스트 필드를 갖는 제어를 포함한다.
첨부 도면에 설명되고 예시된 동작, 단계 및 프로시저는 본 기술분야에 숙련된 기술자가 본 발명의 예시적인 실시예를 실시하는 것을 허용하기에 충분히 개시되어 있다고 고려되기 때문에, 상세한 설명에 설명된 다양한 프로시저를 수행하기 위한 어떤 특정 프로그래밍 언어도 설명되지 않음을 이해해야 한다. 또한, 예시적인 실시예를 실시하는 데 사용될 수 있는 다수의 컴퓨터 및 오퍼레이팅 시스템이 존재하며, 따라서, 이러한 다수의 서로 다른 시스템 전부에 적용가능할 어떤 자세 한 컴퓨터 프로그램도 제공될 수 없다. 특정 컴퓨터의 각각의 사용자는 사용자의 필요 및 목적에 가장 유용한 언어 및 도구를 알 것이다.
도 2를 참조하면, 철자 사용자 인터페이스(UI)를 갖는 음성 인식 소프트웨어 어플리케이션을 이용하여 타겟 소프트웨어 어플리케이션에 의해 디스플레이 스크린(148) 상에 디스플레이된 문자들을 조작하기 위한 방법(200)을 나타내는 블럭도가 도시되고, 사용자가 음성 인식 소프트웨어 어플리케이션을 이용하여 타겟 소프트웨어 어플리케이션에 단어를 입력하는 관점에서 설명된다.
타겟 소프트웨어 어플리케이션에 텍스트를 입력하기 위해, 사용자는 음성 인식 소프트웨어 어플리케이션 및 타겟 소프트웨어 어플리케이션을 동작시킴으로써, 도 3에 도시된 바와 같이, 적어도 하나의 문자가 타겟 소프트웨어 어플리케이션을 통해 디스플레이 스크린(148) 상에 디스플레이되게 하기를 시작할 수 있다. 프로세싱 장치(104)는 마이크로폰 입력 장치(135)를 통해 입력된 사용자 명령에 응답하여 음성 인식 소프트웨어 어플리케이션을 동작시킬 수 있고/있거나, 프로세싱 장치(104)는 "boot up" 명령과 같은 구동 시 오퍼레이팅 시스템(164)에 의해 인식된 명령에 응답하여 음성 인식 소프트웨어 어플리케이션을 구현할 수 있다. 음성 인식 소프트웨어 어플리케이션의 활성 시에, 사용자는 음성으로 마이크로폰 입력 장치(140)를 통해 음성 인식 소프트웨어 어플리케이션에 명령을 전달하여, 타겟 소프트웨어 어플리케이션을 활성시킬 수 있으며, 이 때, 타겟 소프트웨어 어플리케이션은 이메일 어플리케이션 및 마이크로소프트® 워드와 같은 텍스트 필드를 갖는 임의의 어플리케이션 및/또는 제어일 수 있다. 타겟 소프트웨어 어플리케이션이 활성화되 면, 타겟 소프트웨어 어플리케이션 윈도우(302)는 디스플레이 스크린(148) 상에 디스플레이된다. 그러면, 사용자는 마이크로폰 입력 장치(140)를 통해 텍스트를 입력함으로써 음성 인식 소프트웨어 어플리케이션을 동작시켜, 음성 인식 소프트웨어 어플리케이션이 타겟 소프트웨어 어플리케이션 윈도우(302)를 통해 입력된 텍스트(304)를 디스플레이하게 할 수 있다. 이 경우에, 입력된 일련의 텍스트(304)는 시스템(100)에 입력된 것이며, 이 때, 입력된 일련의 텍스트(304)는 "I", "t", "스페이스", "i", "s", "스페이스", "t", "h", "e", "스페이스", "i", "n", "t", "e", "n", "t"로서 입력된 것이다. 그러나, 음성 인식 소프트웨어 어플리케이션은 입력된 일련의 텍스트(304)를 "I", "t", "스페이스", "i", "s", "스페이스", "t", "h", "e", "스페이스", "i", "n", "v", "e", "n", "t"로서 "들었고", 따라서, 마지막 단어 "invent"는 "intent"가 되도록 정정될 필요가 있다. 상술된 텍스트는 전체 단어로서 또는 글자(문자)들로서 구술되었을 수 있고, 구술 능력은 오퍼레이팅 시스템 레벨 컴포넌트일 수 있음을 이해해야 한다.
도 4를 참조하면, 이것을 정정하기 위해, 철자 명령은 철자 UI를 호출하여, 사용자가 음성으로, 수정될 단어, 즉 "spell intent"를 일반 컴퓨터 시스템(102)에 전달하게 할 수 있다. 일반 컴퓨터 시스템(102)이 철자 명령을 수신할 때, 선택된 단어가 식별되고, 그 선택된 단어에 적어도 하나의 스페이스(space)(404)를 부가함으로써 부가된 단어(402)가 생성되는데, 이 때, 부가된 단어(402)는 동작 블럭(202)에 나타나는 바와 같이, 적어도 하나의 수정될 문자(406)를 포함한다. 부가된 단어 내의 문자들(408) 각각은 동작 블럭(204)에 나타나는 바와 같이, 유일한 숫자 값(410)으로 할당되고 그것에 상호관련된다. 부가된 단어(402)는 디스플레이 스크린(148)을 통해 디스플레이되어, 부가된 단어(402) 내의 문자들(408) 각각과 그에 할당된 유일한 숫자 값(410) 사이의 상호관련성을 시각적으로 전달한다. 이 상호관련성은 디스플레이 스크린(148) 상의 부가된 단어(402) 주위에 박스(412)를 그리고, 부가된 단어(402) 내의 그들의 할당된 문자(408)에 인접한 유일한 숫자 값(410) 각각을 디스플레이함으로써 시각적으로 전달될 수 있다. 그러한 것으로서, 문자들(408) 각각은 각각의 문자(408)가 상호관련되는 유일한 숫자 값(410)을 "할당"받는다. 예를 들어, 단어 "invent"(414)를 "intent"로 변경하기를 원하는 사용자는 음성으로, 음성 인식 소프트웨어 어플리케이션에 "spell invent"와 같은 명령을 입력할 것이다. 이것은 철자 UI를 구현하고, 디스플레이 스크린(148) 상에서 단어 "invent"(414) 주위에 박스(412)가 디스플레이되게 할 것이다. 이것은 또한, 단어 "invent"(414) 내의 각각의 글자가 대응 문자(408)에 인접하여 디스플레이되는 유일한 숫자 값(410)을 할당받게 하며, 이 둘은 도 4에 나타나 있다. 이것은 사용자가 단어 "invent" 내의 임의의 글자를 변경 및/또는 정정하게 할 것이다.
이 시점에서, 일반 컴퓨터 시스템(102)에 의해 선택 명령 및 수정 명령이 수신될 수 있고, 이 때, 선택 명령은 동작 블럭(206)에 나타나는 바와 같이, 선택된 문자에 대응하는 유일한 숫자 값(410)이다. 이것은 부가된 단어(402) 내의 어느 문자가 변경되어야 할 지를 일반 컴퓨터 시스템(102)에게 지시한다. 일반 컴퓨터 시스템(102)이 수정 명령을 수신하면, 동작 블럭(208)에 나타나는 바와 같이, 수정 명령에 대한 응답으로 그 선택된 문자를 수정함으로써 수정된 단어가 생성된다. 사용자는 "delete", "insert" 또는 추가될 글자/문자와 같은 복수의 수정 명령을 입력할 수 있음을 이해해야 하며, 이러한 상황들 각각은 이하에서 설명된다.
예를 들어, 도 5를 참조하여, 사용자가 디스플레이 스크린(148) 상에 디스플레이된 부가된 단어 "invent_"(504) 에서 글자 "v"(502)를 삭제하고자 하는 경우를 생각해 보자. 상술된 바와 같이, 사용자는 변경될 문자에 대응하는 유일한 숫자 값을 일반 컴퓨터 시스템(102)에 전달한다. 이 유일한 숫자 값(508)은 숫자 1로 시작하여 1씩 증가하지만, 임의의 유일한 숫자 값(508) 및 증가분이 지정될 수 있음을 이해해야 한다. 보는 바와 같이, 부가된 단어 "invent_"(504) 내의 글자 "v"(502)는 유일한 숫자 값(508) "3"을 할당받는다. 그러한 것으로서, 사용자는 음성으로, 숫자 "3"을 일반 컴퓨터 시스템(102)에 전달할 것이다. 이것은 기호(510)로 표시된 바와 같이, 숫자 "3"에 대응하고 그것에 상호관련된 글자를 "선택"하는데, 이 경우에, 이것은 부가된 단어 "invent"(504) 내의 글자 "v"(502)이다. 그 후, 사용자는 글자 "v"(502)가 그 부가된 단어 "invent"(504)로부터 삭제되어 도 6에 도시된 바와 같이 결과적으로 "inent"(512)가 남게 할 "delete"와 같은 요구된 수정 명령을 입력할 수 있다. 따라서, 수정 명령 "delete"는 부가된 단어로부터 선택된 글자 및 그것의 대응 스페이스를 제거할 것이고, 선택 기호(510)는 다음의 후속하는 문자, 즉, "e"를 선택할 것이다.
한편, 도 7을 참조하여, 사용자가 디스플레이 스크린(148) 상에 디스플레이된 단어 "invent" 내의 글자 "n"(704)과 글자 "v"(706) 사이에 글자 또는 스페이스와 같은 문자를 삽입하기를 원하는 경우를 생각해 보자. 본질적으로, 사용자는 유 일한 숫자 값 "3"에 대응하는 지점에 문자를 삽입하기를 원한다. 상술된 바와 같이, 사용자는 음성으로 명령 "spell invent"를 전달함으로써 철자 UI를 구현할 수 있다. 이것은, 단어 "invent"에 스페이스가 첨가되어 부가된 단어 "invent_"(708)를 생성하게 하고, 그 부가된 단어 "invent_"(708) 주위에 박스(710)가 디스플레이되게 하고, 유일한 숫자 값(712)이 그 부가된 단어 "invent_"(708) 내의 문자들 각각에 인접하게 할당되고 디스플레이되게 한다. 보는 바와 같이, 부가된 단어 "invent_"(708) 내의 글자 "v"(706)는 유일한 숫자 값(712) "3"을 할당받는다. 그러한 것으로서, 사용자는 음성으로, 숫자 "3"을 일반 컴퓨터 시스템(102)에 전달할 것이다. 이것은 일반 컴퓨터 시스템(102)이 기호(714)로 표시되는 바와 같이, 숫자 "3"에 대응하고 그것에 상호관련되는 글자를 "선택"하게 하는데, 이것은 이 경우에, 부가된 단어 "invent_"(708) 내의 글자 "v"(706)이다. 그 후, 사용자는 수정 명령을 입력하여 일반 컴퓨터 시스템(102)이 적절한 방식으로 응답하게 할 수 있다. 예를 들어, 사용자가 수정 명령 "insert"를 전달하고 그 후, 단어 "space"를 전달하면, 글자 "n"(704)과 글자 "v"(706) 사이에 스페이스가 삽입되어, 도 8에 도시되어 있는 바와 같이, 부가된 단어 "invent_"(708)를 "in vent_"(716)로 효과적으로 변경할 것이다. 이 경우에, 기호(714)는 유일한 숫자 값 "3"과 상호관련된 스페이스가 선택되었음을 나타내기 위해 제자리에 남아있는다. 그러나, 사용자가 명령 "insert"를 전달하고 그 후, 글자 "p"를 전달하면, 글자 "p"는 글자 "n"(704)과 글자 "v"(706) 사이에 삽입되어, 도 9에 도시된 바와 같이, 부가된 단어 "invent_"를 "inpvent_"로 효과적으로 변경할 것이고, 선택 기호(714)는 다음의 문 자로 이동하여 다음의 문자(즉, 유일한 숫자 값 "4"에 대응하는 문자)가 선택되었음을 나타낼 것이다.
마찬가지로, 도 10을 참조하여, 사용자가 단순히 디스플레이 스크린(148) 상에 디스플레이된 단어 "invent" 내의 한 글자를 변경하기를 원하는 경우를 생각해 보자. 상술된 바와 같이, 사용자는 명령 "spell invent"를 음성으로 전달함으로써 철자 UI를 구현할 수 있다. 이것은, 단어 "invent"에 스페이스가 부가되어 부가된 단어 "invent_"(902)를 생성하게 하고, 그 부가된 단어 "invent_"(902) 주위에 박스(904)가 디스플레이되게 하고, 유일한 숫자 값(906)이 그 부가된 단어 "invent_"(902) 내의 문자들(908) 각각에 인접하게 할당되고 디스플레이되게 한다. 보는 바와 같이, 부가된 단어 "invent_"(902) 내의 글자 "v"(912)는 유일한 숫자 값(906) "3"을 할당받는다. 그러한 것으로서, 사용자는 음성으로, 숫자 "3"을 컴퓨터 시스템(102)에 전달할 것이다. 이것은 기호(910)로 도시된 바와 같이, 숫자 "3"에 대응하고 그것에 상호관련된 글자가 선택되게 하는데, 이것은 이 경우에, 부가된 단어 "invent_"(902) 내의 글자 "v"(912)이다. 그 후, 사용자는 수정 명령(이 경우에 명령은 단순히 글자임)으로 입력하여, 컴퓨터 시스템이 적절한 방법으로 응답하게 할 수 있다. 예를 들어, 사용자가 숫자 "3" 이후에 수정 명령 "t"를 전달하면, 글자 "v"(912)는 글자 "t"로 대체되어, 도 11에 도시되어 있는 바와 같이, 부가된 단어 "invent_"(902)를 단어 "intent"(914)로 효과적으로 변경할 것이다. 이 시점에서, 선택 기호(910)는 다음의 문자로 이동하여, 다음의 문자(즉, 유일한 숫자 값 "4"에 대응하는 문자)가 선택되었음을 나타낼 것이다.
사용자가 변경될 글자에 대응하는 유일한 숫자 값을 입력하면, 드롭다운 메뉴와 같은 제안된 수정 명령들의 메뉴가 디스플레이될 수 있고, 여기서, 각각의 제안된 액션은 자신의 유일한 숫자 값을 할당받을 것임을 이해해야 한다. 예를 들어, 도 12를 참조하여, 사용자가 디스플레이 스크린(148) 상에 디스플레이된 단어 "invent" 내의 한 글자를 변경하기를 원하는 경우를 생각해 보자. 사용자는 음성으로 명령 "spell invent"를 전달함으로써 철자 UI를 구현할 것이다. 이것은, 선택된 단어 "invent"에 스페이스가 부가되어 부가된 단어 "invent_"(1002)를 생성하게 하고, 그 부가된 단어 "invent_"(1002) 주위에 박스(1004)가 디스플레이되게 하고, 유일한 숫자 값(1006)이 그 부가된 단어 "invent_"(1002) 내의 글자들 각각에 인접하여 디스플레이되게 한다. 보는 바와 같이, 부가된 단어 "invent_"(1002) 내의 글자 "v"(1008)는 유일한 숫자 값(1006) "3"을 할당받는다. 그러한 것으로서, 사용자는 음성으로 숫자 "3"을 일반 컴퓨터 시스템(102)에 전달하여, 기호(1010)로 표시된 바와 같이, 유일한 숫자 값 "3"에 대응하고 그것에 상호관련된 문자를 "선택"할 것이고, 이것은 이 경우에, 부가된 단어 "invent_"(1002) 내의 글자 "v"(1008)이다. 도 13을 참조하면, 각각이 제2의 유일한 숫자 값(1014)을 할당받는 다수의 수정 명령 선택들을 사용자에게 제공하는 메뉴(1012)가 디스플레이 스크린(148) 상에 디스플레이될 수 있다. 사용자는 요구된 수정 명령에 상호관련된 제2의 유일한 숫자 값(1014)인 수정 명령을 입력하여, 음성 인식 소프트웨어 어플리케이션이 적절한 방식으로 응답하게 할 수 있다. 예를 들어, 사용자가 숫자 "3" 이후에 숫자 값 "4"를 전달하면, 글자 "v"(1008)는 글자 "d"(1016)로 대체되어, 도 14에 도시되어 있는 바와 같이, 부가된 단어 "invent_"(1002)를 단어 "indent"(1018)로 효과적으로 변경할 것이다. 상술한 바와 같이, 선택 기호(1010)는 다음 문자로 이동하여, 다음 문자(즉, 유일한 숫자 값 "4"에 대응하는 문자)가 선택되었음을 나타낼 것이다.
제안된 수정 명령들의 메뉴(1012)는, 선택된 글자 또는 단어와 청각적으로 유사한 문자/단어들의 메뉴{예를 들어, "v"가 선택되면 메뉴(1012)는 "d", "t", "e", "g", "3"을 포함할 것임}와 같이, 요구된 최종 목적에 적합한 임의의 수정 명령들을 포함할 수 있음을 이해해야 한다. 또한, 메뉴(1012)는 철자 검사기로부터 자동-완성된 리스트 뿐만 아니라, 문자의 대문자 형태, 예를 들어, "V"도 포함할 수 있다. 그러한 것으로서, 이 예에서, 메뉴(1012)는 단어 "indent", "intent", "amend"를 포함할 수 있다. 또한, 본 발명은, 예를 들어, eagle의 경우에서 3을 "e"로 변경하는 것과 같이 복수의 기능을 동시에 수행하는 음성 명령을 포함할 수 있으며, 다르게는 "t를 g로 변경하는 것"은 선택된 단어 내에 글자 "t"가 하나만 있는 경우에만 글자 "t"를 글자 "g"로 변경할 수 있다는 것을 이해해야 한다. 선택된 단어 내에 글자 "t"가 두개 있으면, 좀 더 정확하기 위해 사용자에게 피드백이 제공될 수 있다. 또한, 이전에 변경된 문자를 이전 상태로 되돌릴 수 있는 "undo"와 같은 다른 명령이 제공될 수도 있다. 예를 들어, 사용자가 (선택된 글자를 대문자화하기 위해) "cap that"이라고 말했지만 입력이 "caret"으로서 인식된 경우, 사용자는 그 글자를 이전 상태로 되돌리기 위해 "undo"라고 말할 수 있다.
예시적인 실시예에 따르면, 도 2의 프로세싱은 기계-판독가능 컴퓨터 프로그 램에 응답하여 동작하는 제어기에 의해 전체 또는 부분적으로 구현될 수 있다. {예를 들어, 실행 제어 알고리즘(들), 여기에서 설명된 제어 프로세스 등} 계산뿐만 아니라 설명된 기능 및 요구된 프로세싱을 수행하기 위해, 제어기는 프로세서(들), 컴퓨터(들), 메모리, 저장장치, 레지스터(들), 타이밍, 인터럽트(들), 통신 인터페이스(들) 및 입/출력 신호 인터페이스(들) 뿐만 아니라 상술된 것들 중 적어도 하나를 포함하는 조합도 포함할 수 있지만, 이것으로 제한되지 않는다.
또한, 본 발명은 컴퓨터 또는 제어기 구현된 프로세스의 형태로 구현될 수 있다. 본 발명은 또한, 플로피 디스켓, CD-ROM, 하드 드라이브 및/또는 임의의 다른 컴퓨터-판독가능 매체와 같은 유형 매체에 포함된 명령어들을 포함하는 컴퓨터 프로그램 코드의 형태로 구현될 수 있으며, 이 때, 컴퓨터 프로그램 코드가 컴퓨터 또는 제어기에 로드되고 그것에 의해 실행될 때, 컴퓨터 또는 제어기는 본 발명을 실시하기 위한 장치가 된다. 본 발명은 또한, 예를 들어, 저장 매체에 저장되든지, 컴퓨터 또는 제어기에 로드되고/로드되거나 그것에 의해 실행되든지, 전자 배선 또는 캐이블, 섬유 광 또는 전자 방사능과 같은 임의의 전송 매체를 통해 전송되든지에 상관없이, 컴퓨터 프로그램 코드의 형태로 구현될 수 있으며, 이 때, 컴퓨터 프로그램 코드가 컴퓨터 또는 제어기에 로드되고 그것에 의해 실행될 때, 컴퓨터 또는 제어기는 본 발명을 실시하기 위한 장치가 된다. 범용 마이크로프로세서 상에서 구현될 때, 컴퓨터 프로그램 코드 세그먼트는 특정 논리 회로를 생성하도록 마이크로프로세서를 구성할 수 있다.
본 발명은 예시적인 실시예를 참조하여 설명되었지만, 본 기술분야에 숙련된 기술자는, 본 발명의 취지 및 범주를 벗어나지 않고서 다양한 변경, 생략 및/또는 추가가 행해질 수 있고, 동등물이 그 구성요소들을 대체할 수 있음을 이해할 것이다. 또한, 본 발명의 취지를 벗어나지 않고서 특정적인 상황 또는 자료를 본 발명의 가르침에 적합시키기 위해 많은 수정이 행해질 수 있다. 따라서, 본 발명은 본 발명을 수행하기 위해 고려된 최상의 모드로서 개시된 특정 실시예로 제한되지 않지만, 본 발명은 첨부된 청구범위의 범주 내에 속하는 모든 실시예를 포함하는 것으로 의도된다. 또한, 특별히 언급되지 않는 한, 제1, 제2 등의 서수의 사용은 임의의 순서 또는 중요도를 나타내지 않으며, 오히려, 제1, 제2 등의 서수는 하나의 구성요소를 다른 구성요소로부터 구별하는 데 사용된다.
본 발명은 음성 인식 어플리케이션을 통해 단어의 문자를 조작하기 위한 방법을 제공한다.

Claims (25)

  1. 디스플레이 스크린 상에 디스플레이된 문자들을 조작하기 위한 방법으로서,
    적어도 하나의 수정될 문자를 포함하는 선택된 단어를 식별하는 단계;
    상기 적어도 하나의 문자 각각을 유일한 숫자 값에 상호관련시키는 단계;
    선택 명령(selection command) 및 수정 명령(modification command)을 수신하는 단계 - 상기 선택 명령은 상기 선택된 단어 내의 선택된 문자에 대응하는 상기 유일한 숫자 값임 - ; 및
    상기 수정 명령에 대한 응답으로 상기 선택된 문자를 수정하여, 수정된 단어를 생성하는 단계
    를 포함하는 방법.
  2. 제1항에 있어서,
    상기 식별하는 단계는, 철자 명령(spelling command)이 철자 사용자 인터페이스(spelling user interface(UI))를 호출할 수 있게 하여 사용자가 상기 선택된 단어를 음성으로 전달할 수 있게 하는 단계를 더 포함하는 방법.
  3. 제1항에 있어서,
    상기 상호관련시키는 단계는, 상기 적어도 하나의 문자 각각과 상기 유일한 숫자 값 각각 사이의 상호관련성을 시각적으로 전달하기 위해 상기 선택된 단어를 상기 디스플레이 스크린 상에 디스플레이하는 단계를 더 포함하는 방법.
  4. 제3항에 있어서,
    상기 디스플레이하는 단계는,
    상기 디스플레이 스크린 상의 상기 선택된 단어 주위에 박스를 그리는 단계; 및
    상기 적어도 하나의 문자 각각에 인접하게 상기 유일한 숫자 값 각각을 디스플레이하는 단계
    를 포함하는 방법.
  5. 제1항에 있어서,
    상기 식별하는 단계는, 선택된 단어를 식별하고 상기 선택된 단어에 적어도 하나의 스페이스를 부가하여 부가된 단어(appended word)를 생성하는 단계를 포함하고,
    상기 부가된 단어는 적어도 하나의 수정될 문자를 포함하는 방법.
  6. 제5항에 있어서,
    상기 상호관련시키는 단계는, 상기 적어도 하나의 문자 각각과 상기 유일한 숫자 값 각각 사이의 상호관련성을 시각적으로 전달하기 위해 상기 부가된 단어를 상기 디스플레이 스크린 상에 디스플레이하는 단계를 더 포함하는 방법.
  7. 제6항에 있어서,
    상기 디스플레이하는 단계는,
    상기 디스플레이 스크린 상의 상기 부가된 단어 주위에 박스를 그리는 단계; 및
    상기 적어도 하나의 문자 각각에 인접하게 상기 유일한 숫자 값 각각을 디스플레이하는 단계
    를 포함하는 방법.
  8. 제5항에 있어서,
    상기 수정 명령이 "Delete"인 경우, 상기 수정하는 단계는 상기 부가된 단어로부터 상기 선택된 문자를 삭제하는 단계를 포함하는 방법.
  9. 제1항에 있어서,
    상기 수신하는 단계는, 상기 선택 명령 및 상기 수정 명령을 오디오 입력 장치를 통해 수신하는 단계를 포함하는 방법.
  10. 제1항에 있어서,
    상기 수정 명령이 대체 문자(replacement character)인 경우, 상기 수정하는 단계는 상기 선택된 문자를 상기 대체 문자로 대체하는 단계를 포함하는 방법.
  11. 제1항에 있어서,
    상기 수정 명령이 "Delete"인 경우, 상기 수정하는 단계는 상기 선택된 단어로부터 상기 선택된 문자를 삭제하는 단계를 포함하는 방법.
  12. 제1항에 있어서,
    상기 수정 명령이 "Insert"인 경우, 상기 수정하는 단계는 상기 선택된 문자와 바로 이전의 문자 사이에 스페이스(space)를 삽입하는 단계를 포함하는 방법.
  13. 제12항에 있어서,
    상기 수정하는 단계는, 상기 스페이스를 선택하고, 상기 스페이스를 상기 디스플레이 스크린 상에 시각적으로 나타내는 단계를 더 포함하는 방법.
  14. 제1항에 있어서,
    상기 수정하는 단계는 후속하는 문자를 선택하는 단계를 더 포함하고,
    상기 후속하는 문자는 상기 선택된 문자 바로 다음에 배치되어 있는 방법.
  15. 제14항에 있어서,
    상기 수정하는 단계는, 상기 후속하는 문자를 상기 디스플레이 스크린 상에 시각적으로 나타내는 단계를 더 포함하는 방법.
  16. 제2항에 있어서,
    사용자가 음성으로, 종료 명령(exit command)을 통해 상기 철자 UI를 종료하게 하는 단계를 더 포함하는 방법.
  17. 제16항에 있어서,
    상기 종료하게 하는 단계는 상기 종료 명령에 대한 응답으로 상기 선택된 단어를 상기 수정된 단어로 대체하는 단계를 더 포함하는 방법.
  18. 제16항에 있어서,
    상기 종료 명령은 "OK"인 방법.
  19. 제1항에 있어서,
    상기 수신하는 단계는 적어도 하나의 허용가능한 문자 수정안의 리스트를 디스플레이하는 단계를 더 포함하고,
    상기 리스트는 상기 적어도 하나의 허용가능한 문자 수정안 각각에 대응하는 제2의 유일한 숫자 값을 포함하는 방법.
  20. 제19항에 있어서,
    상기 수정 명령은 상기 제2의 유일한 숫자 값인 방법.
  21. 제1항에 있어서,
    상기 수정 명령은 단어 "Change"와 "Undo" 중 적어도 하나인 방법.
  22. 제2항에 있어서,
    상기 식별하는 단계는 상기 철자 UI가 오디오 입력 장치를 통해 오디오 신호를 수신하는 단계를 더 포함하는 방법.
  23. 제1항에 있어서,
    상기 방법은 독립형 어플리케이션 모듈과, 타겟 소프트웨어 어플리케이션, 음성 인식 소프트웨어 어플리케이션 및 오퍼레이팅 시스템 중 적어도 하나와 통합된 통합형 어플리케이션 모듈 중 적어도 하나로서 구현될 수 있는 방법.
  24. 제1항에 있어서,
    상기 방법은 타겟 소프트웨어 어플리케이션과 통합된 통합형 어플리케이션 모듈로서 구현될 수 있고,
    상기 타겟 소프트웨어 어플리케이션은 워드 프로세싱 어플리케이션, 스프레드시트 어플리케이션 및 이메일 어플리케이션 중 적어도 하나를 포함하는 방법.
  25. 프로세싱 장치가 디스플레이 스크린 상에 디스플레이된 문자들을 조작하기 위한 방법을 구현하게 하는 명령어들을 포함하는 기계-판독가능한 컴퓨터 프로그램 코드로 인코딩된 컴퓨터-판독가능 매체로서,
    상기 방법은,
    적어도 하나의 수정될 문자를 포함하는 선택된 단어를 식별하는 단계;
    상기 적어도 하나의 문자 각각을 유일한 숫자 값에 상호관련시키는 단계;
    선택 명령 및 수정 명령을 수신하는 단계 - 상기 선택 명령은 선택된 문자에 대응하는 상기 유일한 숫자 값임 - ; 및
    상기 수정 명령에 대한 응답으로 상기 선택된 문자를 수정하여, 수정된 단어를 생성하는 단계
    를 포함하는 컴퓨터-판독가능 매체.
KR1020050095462A 2004-11-24 2005-10-11 문자들의 조작을 제어하는 방법 및 시스템 KR20060058006A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/997,255 US7778821B2 (en) 2004-11-24 2004-11-24 Controlled manipulation of characters
US10/997,255 2004-11-24

Publications (1)

Publication Number Publication Date
KR20060058006A true KR20060058006A (ko) 2006-05-29

Family

ID=35809546

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020050095462A KR20060058006A (ko) 2004-11-24 2005-10-11 문자들의 조작을 제어하는 방법 및 시스템

Country Status (12)

Country Link
US (2) US7778821B2 (ko)
EP (1) EP1662373A3 (ko)
JP (1) JP2006146887A (ko)
KR (1) KR20060058006A (ko)
CN (1) CN1779781A (ko)
AU (1) AU2005229676A1 (ko)
BR (1) BRPI0504862A (ko)
CA (1) CA2523898A1 (ko)
MX (1) MXPA05011453A (ko)
RU (1) RU2005134647A (ko)
TW (1) TW200627377A (ko)
ZA (1) ZA200508562B (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100737343B1 (ko) * 2005-12-08 2007-07-09 한국전자통신연구원 음성 인식 장치 및 방법
KR100988397B1 (ko) * 2008-06-09 2010-10-19 엘지전자 주식회사 이동 단말기 및 그의 텍스트 수정방법
KR20140058945A (ko) * 2012-11-07 2014-05-15 삼성전자주식회사 디스플레이 장치 및 이의 문자 수정 방법

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7778821B2 (en) * 2004-11-24 2010-08-17 Microsoft Corporation Controlled manipulation of characters
US20070106501A1 (en) * 2005-11-07 2007-05-10 General Electric Company System and method for subvocal interactions in radiology dictation and UI commands
US20090300126A1 (en) * 2008-05-30 2009-12-03 International Business Machines Corporation Message Handling
US8548814B2 (en) * 2009-11-05 2013-10-01 Johnson Manuel-Devadoss Method and portable system for phonetic language translation using brain interface
US20120159341A1 (en) 2010-12-21 2012-06-21 Microsoft Corporation Interactions with contextual and task-based computing environments
US20120166522A1 (en) * 2010-12-27 2012-06-28 Microsoft Corporation Supporting intelligent user interface interactions
US20120303368A1 (en) * 2011-05-27 2012-11-29 Ting Ma Number-assistant voice input system, number-assistant voice input method for voice input system and number-assistant voice correcting method for voice input system
US9612670B2 (en) 2011-09-12 2017-04-04 Microsoft Technology Licensing, Llc Explicit touch selection and cursor placement
US9922651B1 (en) * 2014-08-13 2018-03-20 Rockwell Collins, Inc. Avionics text entry, cursor control, and display format selection via voice recognition
US9432611B1 (en) 2011-09-29 2016-08-30 Rockwell Collins, Inc. Voice radio tuning
US9570086B1 (en) * 2011-11-18 2017-02-14 Google Inc. Intelligently canceling user input
KR20130080515A (ko) * 2012-01-05 2013-07-15 삼성전자주식회사 디스플레이 장치 및 그 디스플레이 장치에 표시된 문자 편집 방법.
CN103366741B (zh) * 2012-03-31 2019-05-17 上海果壳电子有限公司 语音输入纠错方法及***
US20140257808A1 (en) * 2013-03-11 2014-09-11 Samsung Electronics Co. Ltd. Apparatus and method for requesting a terminal to perform an action according to an audio command
GB2518002B (en) * 2013-09-10 2017-03-29 Jaguar Land Rover Ltd Vehicle interface system
WO2015093632A1 (ko) * 2013-12-16 2015-06-25 주식회사 큐키 전자 장치, 오타 수정 방법 및 이를 수행하기 위한 프로그램을 포함하는 컴퓨터로 판독 가능한 기록매체
US9383827B1 (en) * 2014-04-07 2016-07-05 Google Inc. Multi-modal command display
US9953646B2 (en) 2014-09-02 2018-04-24 Belleau Technologies Method and system for dynamic speech recognition and tracking of prewritten script
US10275152B2 (en) 2014-10-28 2019-04-30 Idelan, Inc. Advanced methods and systems for text input error correction
US11112965B2 (en) 2014-10-28 2021-09-07 Idelan, Inc. Advanced methods and systems for text input error correction
US10831997B2 (en) * 2018-08-09 2020-11-10 CloudMinds Technology, Inc. Intent classification method and system
CN111415412B (zh) * 2020-03-18 2023-08-04 北京山维科技股份有限公司 一种立体测图采编***和方法
WO2023090960A1 (ko) * 2021-11-22 2023-05-25 주식회사 컬러버스 3차원 캐릭터 치환 시스템 및 방법
WO2023090959A1 (ko) * 2021-11-22 2023-05-25 주식회사 컬러버스 3차원 캐릭터 치환 시스템 및 방법

Family Cites Families (60)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US571831A (en) * 1896-11-24 Paper vessel
US5754847A (en) * 1987-05-26 1998-05-19 Xerox Corporation Word/number and number/word mapping
US5027406A (en) * 1988-12-06 1991-06-25 Dragon Systems, Inc. Method for interactive speech recognition and training
US5007008A (en) 1988-12-15 1991-04-09 Hewlett-Packard Company Method and apparatus for selecting key action
US5046096A (en) * 1990-04-09 1991-09-03 Ncm International, Inc. Windowed rotatable cover which reveals one indicia on one surface and a second indicia on a second surface corresponding to the first that encodes and decodes messages
US5265065A (en) 1991-10-08 1993-11-23 West Publishing Company Method and apparatus for information retrieval from a database by replacing domain specific stemmed phases in a natural language to create a search query
US5987170A (en) * 1992-09-28 1999-11-16 Matsushita Electric Industrial Co., Ltd. Character recognition machine utilizing language processing
DE69326431T2 (de) 1992-12-28 2000-02-03 Toshiba Kawasaki Kk Spracherkennungs-Schnittstellensystem, das als Fenstersystem und Sprach-Postsystem verwendbar ist
US5710831A (en) * 1993-07-30 1998-01-20 Apple Computer, Inc. Method for correcting handwriting on a pen-based computer
US6125347A (en) 1993-09-29 2000-09-26 L&H Applications Usa, Inc. System for controlling multiple user application programs by spoken input
WO1995025326A1 (en) 1994-03-17 1995-09-21 Voice Powered Technology International, Inc. Voice/pointer operated system
US5642502A (en) 1994-12-06 1997-06-24 University Of Central Florida Method and system for searching for relevant documents from a text database collection, using statistical ranking, relevancy feedback and small pieces of text
EP1199707A3 (en) 1995-05-26 2002-05-02 Speechworks International, Inc. Method and apparatus for dynamic adaptation of a large vocabulary speech recognition system and for use of constraints from a database in a large vocabulary speech recognition system
US5682439A (en) * 1995-08-07 1997-10-28 Apple Computer, Inc. Boxed input correction system and method for pen based computer systems
US5852801A (en) 1995-10-04 1998-12-22 Apple Computer, Inc. Method and apparatus for automatically invoking a new word module for unrecognized user input
US5799276A (en) * 1995-11-07 1998-08-25 Accent Incorporated Knowledge-based speech recognition system and methods having frame length computed based upon estimated pitch period of vocalic intervals
US5995921A (en) 1996-04-23 1999-11-30 International Business Machines Corporation Natural language help interface
US6311182B1 (en) 1997-11-17 2001-10-30 Genuity Inc. Voice activated web browser
US6078914A (en) 1996-12-09 2000-06-20 Open Text Corporation Natural language meta-search system and method
ES2182363T3 (es) * 1997-09-25 2003-03-01 Tegic Communications Inc Sistema de resolucion de ambiguedades de teclado reducido.
DE69712485T2 (de) 1997-10-23 2002-12-12 Sony Int Europe Gmbh Sprachschnittstelle für ein Hausnetzwerk
US6085159A (en) 1998-03-26 2000-07-04 International Business Machines Corporation Displaying voice commands with multiple variables
JP3531468B2 (ja) * 1998-03-30 2004-05-31 株式会社日立製作所 文書処理装置及び方法
US6424983B1 (en) * 1998-05-26 2002-07-23 Global Information Research And Technologies, Llc Spelling and grammar checking system
US6260015B1 (en) * 1998-09-03 2001-07-10 International Business Machines Corp. Method and interface for correcting speech recognition errors for character languages
US6646573B1 (en) * 1998-12-04 2003-11-11 America Online, Inc. Reduced keyboard text input system for the Japanese language
US6636162B1 (en) * 1998-12-04 2003-10-21 America Online, Incorporated Reduced keyboard text input system for the Japanese language
US7720682B2 (en) 1998-12-04 2010-05-18 Tegic Communications, Inc. Method and apparatus utilizing voice input to resolve ambiguous manually entered text input
US6192343B1 (en) 1998-12-17 2001-02-20 International Business Machines Corporation Speech command input recognition system for interactive computer display with term weighting means used in interpreting potential commands from relevant speech terms
US7206747B1 (en) 1998-12-16 2007-04-17 International Business Machines Corporation Speech command input recognition system for interactive computer display with means for concurrent and modeless distinguishing between speech commands and speech queries for locating commands
US6363342B2 (en) * 1998-12-18 2002-03-26 Matsushita Electric Industrial Co., Ltd. System for developing word-pronunciation pairs
FI110216B (fi) * 1998-12-29 2002-12-13 Nokia Corp Menetelmä ja laite syötetyn tekstin muokkaamiseksi
US7506252B2 (en) * 1999-01-26 2009-03-17 Blumberg Marvin R Speed typing apparatus for entering letters of alphabet with at least thirteen-letter input elements
US6591236B2 (en) 1999-04-13 2003-07-08 International Business Machines Corporation Method and system for determining available and alternative speech commands
DE69942663D1 (de) 1999-04-13 2010-09-23 Sony Deutschland Gmbh Zusammenfügen von Sprachschnittstellen zur gleichzeitigen Benützung von Vorrichtungen und Anwendungen
US6556841B2 (en) * 1999-05-03 2003-04-29 Openwave Systems Inc. Spelling correction for two-way mobile communication devices
US6173523B1 (en) * 1999-07-15 2001-01-16 Michael E. Johnson Sonic plastic bait
US7069220B2 (en) 1999-08-13 2006-06-27 International Business Machines Corporation Method for determining and maintaining dialog focus in a conversational speech system
EP1158799A1 (en) 2000-05-18 2001-11-28 Deutsche Thomson-Brandt Gmbh Method and receiver for providing subtitle data in several languages on demand
GB0015233D0 (en) 2000-06-21 2000-08-16 Canon Kk Indexing method and apparatus
US7130790B1 (en) 2000-10-24 2006-10-31 Global Translations, Inc. System and method for closed caption data translation
US7085723B2 (en) 2001-01-12 2006-08-01 International Business Machines Corporation System and method for determining utterance context in a multi-context speech application
AUPR270201A0 (en) * 2001-01-25 2001-02-22 Easykeys Limited Character generation system
US7313526B2 (en) * 2001-09-05 2007-12-25 Voice Signal Technologies, Inc. Speech recognition using selectable recognition modes
US7083342B2 (en) * 2001-12-21 2006-08-01 Griffin Jason T Keyboard arrangement
US6847311B2 (en) * 2002-03-28 2005-01-25 Motorola Inc. Method and apparatus for character entry in a wireless communication device
US7174294B2 (en) 2002-06-21 2007-02-06 Microsoft Corporation Speech platform architecture
JP2004093698A (ja) 2002-08-29 2004-03-25 Alpine Electronics Inc 音声入力方法
US7197494B2 (en) 2002-10-15 2007-03-27 Microsoft Corporation Method and architecture for consolidated database search for input recognition systems
JP4107093B2 (ja) 2003-01-30 2008-06-25 株式会社日立製作所 対話型端末装置及び対話アプリケーション提供方法
US7119794B2 (en) * 2003-04-30 2006-10-10 Microsoft Corporation Character and text unit input correction system
US20040243415A1 (en) 2003-06-02 2004-12-02 International Business Machines Corporation Architecture for a speech input method editor for handheld portable devices
US20050027539A1 (en) 2003-07-30 2005-02-03 Weber Dean C. Media center controller system and method
US20050075857A1 (en) 2003-10-02 2005-04-07 Elcock Albert F. Method and system for dynamically translating closed captions
US20050108026A1 (en) 2003-11-14 2005-05-19 Arnaud Brierre Personalized subtitle system
CN1697515A (zh) 2004-05-14 2005-11-16 创新科技有限公司 字幕翻译引擎
US8942985B2 (en) * 2004-11-16 2015-01-27 Microsoft Corporation Centralized method and system for clarifying voice commands
US7778821B2 (en) * 2004-11-24 2010-08-17 Microsoft Corporation Controlled manipulation of characters
US20060136195A1 (en) 2004-12-22 2006-06-22 International Business Machines Corporation Text grouping for disambiguation in a speech application
US20060234818A1 (en) * 2005-04-15 2006-10-19 Wilson Lee H Match-play version basketball process

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100737343B1 (ko) * 2005-12-08 2007-07-09 한국전자통신연구원 음성 인식 장치 및 방법
KR100988397B1 (ko) * 2008-06-09 2010-10-19 엘지전자 주식회사 이동 단말기 및 그의 텍스트 수정방법
US8543394B2 (en) 2008-06-09 2013-09-24 Lg Electronics Inc. Mobile terminal and text correcting method in the same
KR20140058945A (ko) * 2012-11-07 2014-05-15 삼성전자주식회사 디스플레이 장치 및 이의 문자 수정 방법
US10452777B2 (en) 2012-11-07 2019-10-22 Samsung Electronics Co., Ltd. Display apparatus and character correcting method thereof

Also Published As

Publication number Publication date
AU2005229676A1 (en) 2006-06-08
RU2005134647A (ru) 2007-05-20
EP1662373A2 (en) 2006-05-31
ZA200508562B (en) 2008-02-27
US20100265257A1 (en) 2010-10-21
US20060111890A1 (en) 2006-05-25
TW200627377A (en) 2006-08-01
EP1662373A3 (en) 2006-06-07
JP2006146887A (ja) 2006-06-08
CA2523898A1 (en) 2006-05-24
US8082145B2 (en) 2011-12-20
MXPA05011453A (es) 2007-12-11
US7778821B2 (en) 2010-08-17
BRPI0504862A (pt) 2006-07-11
CN1779781A (zh) 2006-05-31

Similar Documents

Publication Publication Date Title
KR20060058006A (ko) 문자들의 조작을 제어하는 방법 및 시스템
US10748530B2 (en) Centralized method and system for determining voice commands
US7263657B2 (en) Correction widget
JP4864712B2 (ja) ユーザインタフェースを有するインテリジェント音声認識
US20040243415A1 (en) Architecture for a speech input method editor for handheld portable devices
DE60033106T2 (de) Korrektur der Betriebsartfehler, Steuerung oder Diktieren, in die Spracherkennung
RU2441287C2 (ru) Универсальные орфографические мнемосхемы
US20030233237A1 (en) Integration of speech and stylus input to provide an efficient natural input experience
EP1650744A1 (en) Invalid command detection in speech recognition
CN101755265A (zh) 交互式消息编辑***和方法
JP7230145B2 (ja) 自動音声認識のためのコンテキスト非正規化
US6260015B1 (en) Method and interface for correcting speech recognition errors for character languages
JP2004334207A (ja) 日本語および中国語音声認識システムのトレーニングのための動的な発音の補助
US20080256071A1 (en) Method And System For Selection Of Text For Editing
US7643999B2 (en) Microphone feedback and control
JP2024027395A (ja) 辞書登録プログラム、辞書登録方法及び情報処理装置

Legal Events

Date Code Title Description
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid