KR20060058006A

KR20060058006A - 문자들의 조작을 제어하는 방법 및 시스템

Info

Publication number: KR20060058006A
Application number: KR1020050095462A
Authority: KR
Inventors: 데이비드 모와트; 펠릭스 지.티.아이. 앤드류; 로버트 엘. 챔버스
Original assignee: 마이크로소프트 코포레이션
Priority date: 2004-11-24
Filing date: 2005-10-11
Publication date: 2006-05-29
Also published as: AU2005229676A1; RU2005134647A; EP1662373A2; ZA200508562B; US20100265257A1; US20060111890A1; TW200627377A; EP1662373A3; JP2006146887A; CA2523898A1; US8082145B2; MXPA05011453A; US7778821B2; BRPI0504862A; CN1779781A

Abstract

디스플레이 스크린 상에 디스플레이된 문자들을 조작하기 위한 시스템 및 방법이 개시되며, 이 방법은 선택된 단어를 식별하는 단계를 포함하는데, 이 선택된 단어는 적어도 하나의 수정될 문자를 포함한다. 이 방법은 또한, 적어도 하나의 문자 각각을 유일한 숫자 값에 상호관련시키는 단계, 및 선택 명령 및 수정 명령을 수신하는 단계를 포함하는데, 이 선택 명령은 선택된 문자에 대응하는 유일한 숫자 값이다. 또한, 이 방법은 수정 명령에 대한 응답으로 선택된 문자를 수정하여, 수정된 단어를 생성하는 단계를 포함한다.

음성 인식 소프트웨어 어플리케이션, 문자 조작, 철자 사용자 인터페이스

Description

문자들의 조작을 제어하는 방법 및 시스템{CONTROLLED MANIPULATION OF CHARACTERS}

도 1은 예시적인 실시예에 따라, 철자 사용자 인터페이스(UI)를 갖는 음성 인식 소프트웨어 어플리케이션을 이용하여 디스플레이 스크린 상에 디스플레이된 문자들을 조작하기 위한 방법을 구현하는 시스템을 나타내는 개념적 블럭도.

도 2는 예시적인 실시예에 따라, 철자 사용자 인터페이스(UI)를 갖는 음성 인식 소프트웨어 어플리케이션을 이용하여 디스플레이 스크린 상에 디스플레이된 문자들을 조작하기 위한 방법을 나타내는 블럭도.

도 3은 도 2의 방법을 나타내는 도 1의 시스템의 디스플레이 스크린의 전면도.

도 4는 도 2의 방법을 나타내는 도 1의 시스템의 디스플레이 스크린의 전면도.

도 5는 도 2의 방법을 나타내는 도 1의 시스템의 디스플레이 스크린의 전면도.

도 6은 도 2의 방법을 나타내는 도 1의 시스템의 디스플레이 스크린의 전면도.

도 7은 도 2의 방법을 나타내는 도 1의 시스템의 디스플레이 스크린의 전면 도.

도 8은 도 2의 방법을 나타내는 도 1의 시스템의 디스플레이 스크린의 전면도.

도 9는 도 2의 방법을 나타내는 도 1의 시스템의 디스플레이 스크린의 전면도.

도 10은 도 2의 방법을 나타내는 도 1의 시스템의 디스플레이 스크린의 전면도.

도 11은 도 2의 방법을 나타내는 도 1의 시스템의 디스플레이 스크린의 전면도.

도 12는 도 2의 방법을 나타내는 도 1의 시스템의 디스플레이 스크린의 전면도.

도 13은 도 2의 방법을 나타내는 도 1의 시스템의 디스플레이 스크린의 전면도.

도 14는 도 2의 방법을 나타내는 도 1의 시스템의 디스플레이 스크린의 전면도.

<도면의 주요 부분에 대한 부호의 설명>

147 : 디스플레이 장치

148 : 디스플레이 스크린

302 : 타겟 소프트웨어 어플리케이션 윈도우

본 발명은 일반적으로 음성 인식 소프트웨어 어플리케이션에 관한 것으로서, 특히, 음성 인식 어플리케이션을 통해 단어의 문자들을 조작하기 위한 방법에 관한 것이다.

말하기는 아마도 가장 오래된 형태의 인간의 통신방법이며, 다수의 과학자들은 현재, 발성을 통해 통신하는 능력은 인간의 뇌의 생태에 유전적으로 제공된다고 믿는다. 따라서, 사용자가 말하기와 같은 자연 사용자 인터페이스(NUI; Natural User Interface)를 이용하여 컴퓨터와 통신하게 하는 것은 오랫동안 추구된 목표였다. 사실, 이 목표를 달성하는 최근의 커다란 진보가 있었다. 예를 들어, 현재, 몇몇 컴퓨터는 사용자가 컴퓨터를 동작시키기 위한 명령과 텍스트로 변환될 구술 둘 다를 음성으로 입력하게 하는 음성 인식 어플리케이션을 포함한다. 이러한 어플리케이션은 일반적으로, 마이크로폰을 통해 획득된 사운드 샘플을 주기적으로 녹음하고, 그 샘플을 분석하여 사용자가 말하는 음소를 인식하고, 그 음소로 구성된 단어를 인식함으로써 동작한다.

음성 인식이 점점 흔해지고 있지만, 아직도, 경험있는 사용자를 실망시키고 경험없는 사용자는 멀리하는 경향이 있는 통상적인 음성 인식 어플리케이션을 사용하기에는 몇몇 단점이 존재한다. 그러한 단점은 말하는 사람과 컴퓨터 간의 인터랙션에 관련된다. 예를 들어, 인간의 인터랙션에서, 사람들은 그들이 인지하는 듣는 사람의 반응에 기초하여 자신의 음성을 제어하는 경향이 있다. 그렇듯이, 대화 중에, 듣는 사람은 고개를 끄덕이거나 "예" 또는 "음"과 같은 음성 응답을 함으로써 피드백을 제공하여, 자신이 듣고 있는 것을 이해하고 있음을 나타낼 수 있다. 또한, 듣는 사람은 자신이 듣고 있는 것을 이해하지 못할 경우, 난처한 표정을 짓거나, 몸을 앞으로 기울이거나, 다른 음성적 또는 비음성적 신호를 줄 수 있다. 이 피드백에 응답하여, 말하는 사람은 일반적으로 말하는 방법을 바꾸고, 몇몇 경우에, 말하는 사람은 더 천천히 말하거나, 더 크게 말하거나, 더 자주 끊어서 말하거나, 심지어 문장을 반복할 수 있는데, 이 때, 듣는 사람은 보통 말하는 사람이 자신과 인터랙션하는 방법을 바꾼 것을 인식하지 못한다. 따라서, 대화동안의 피드백은 말하는 사람에게 그들이 이해하고 있는지에 관하여 알려주는 매우 중요한 요소이다. 그러나 불행하게도, 통상적인 음성 인식 어플리케이션은 아직, 인간-기계 인터페이스로 설비된 음성 입력/명령에 대한 이러한 유형의 "자연 사용자 인터페이스(NUI)" 피드백 응답을 제공할 수 없다.

현재, 음성 인식 어플리케이션은 90% 내지 98%의 정확도를 달성하였다. 이것은, 사용자가 일반적인 음성 인식 어플리케이션을 이용하여 문서에 구술할 경우, 그 음성이 음성 인식 어플리케이션에 의해 대략 그 경우의 90% 내지 98%로 정확하게 인식될 것임을 의미한다. 따라서, 음성 인식 어플리케이션에 의해 녹음된 모든 100개의 글자 중에, 대략 2 내지 10개의 글자가 정정되어야 할 것이다. 이 문제를 다루고 잘못 인지된 글자 또는 단어를 정정하는 두가지 흔한 방법은 글자 또는 단어를 반복하거나 다시 말하는 것, 또는 말하기의 대체물을 요구하는 것을 포함한다. 그러나, 이 두가지 접근법은 사용자가 정정을 수행할 때마다 동작하지는 않으 며, 따라서, 이것은 물리적으로 키보드를 사용할 수 없는 사용자들과 같이, 정정을 수행할 때 음성을 사용해야 하는 특정 클래스의 사용자에게 있어서 특히 불편하다.

이 문제를 다루고 디스플레이 스크린 상에 디스플레이되는 잘못 인식된 글자 또는 단어를 정정하는 다른 접근법은, 전체 단어를 삭제하고 처음부터 단어를 다시 철자하는 것을 포함한다. 예를 들어, 단어 "intent"에서 "indent"로 변경하기 위해, 사용자는 "delete intent"라고 말하고, "i", "n", "d", "e", "n", "t"라고 말함으로써 요구된 단어를 다시 철자해야 한다. 이 문제를 다루고 디스플레이 스크린 상에 디스플레이되는 잘못 인식된 단어를 정정하는 또 다른 접근법은, 잘못된 글자를 변경하기 위해 음성으로써 키보드를 제어하는 것을 포함한다. 이 경우에, 사용자는 단어 내에서 변경될 필요가 있는 글자까지의 글자들 모두를 삭제해야 한다. 그리고, 나머지를 다시 철자한다. 예를 들어, 단어 "intent"를 "indent"로 변경하기 위해, 사용자는 "backspace backspace backspace backspace"라고 말하고, "d", "e", "n", "t"라고 말함으로써 요구된 단어를 다시 철자한다.

그러나 불행하게도, 이 접근법은 그와 관련된 몇몇 단점을 갖는다. 우선, 단일 글자를 변경하는 데 다수의 명령이 요구된다. 두번째로, 이 접근법은 다수의 글자들을 다시 철자하는 것에 의존하는데, 음성 인식 분야의 현재 상태로서는, 정확도는 10 중 9개의 글자만이 정확하다. 이것은 다시 철자하기 위해 재정렬함으로써 단 둘 또는 세개의 단어만을 정정해야했던 후에도, 사용자는 통계적으로 에러를 갖기 쉽다는 것을 의미한다. 이것은, 정확할 것을 보장하기 위해 사용자가 각각의 글자 후에 잠시 멈추어야 하거나(시간을 추가함), 사용자가 "backspace backspace.."를 말하고 다시 여러 상황에서 그 단어를 다시 철자해야 할 것이라는 사실을 참아야 함을 의미한다. 세번째로, 음성 인식의 실수는 종종 사용자가 의도한 단어에서 글자 두개 정도만 틀리기 때문에, 사용자가 그 철자를 조작하려고 하는 단어는 종종, 사용자가 의도한 단어와 매우 가깝다. 이러한 단점들은 자주 사용하는 사용자에게 실망을 주는 경향이 있을 뿐만 아니라, 경험없는 사용자도 실망시키는 경향이 있으며, 이것은 결국 사용자가 음성 인식 어플리케이션을 계속해서 사용하기를 거부하게 할 수 있다.

디스플레이 스크린 상에 디스플레이된 문자들을 조작하기 위한 방법이 개시되며, 이 방법은 선택된 단어를 식별하는 단계를 포함하는데, 이 선택된 단어는 적어도 하나의 수정될 문자를 포함한다. 이 방법은 또한, 적어도 하나의 문자 각각을 유일한 숫자 값에 상호관련시키는 단계, 및 선택 명령 및 수정 명령을 수신하는 단계를 포함하는데, 이 선택 명령은 선택된 문자에 대응하는 유일한 숫자 값이다. 또한, 이 방법은 수정 명령에 대한 응답으로 선택된 문자를 수정하여, 수정된 단어를 생성하는 단계를 포함한다.

디스플레이 스크린 상에 디스플레이된 문자들을 조작하기 위한 방법을 구현하는 시스템이 개시되며, 이 시스템은 입력된 명령을 수신하도록 구성된 오디오 모듈을 포함하는 저장 장치를 포함한다. 이 시스템은 또한, 입력된 명령을 수신하기 위한 입력 장치, 및 디스플레이 장치를 포함하는데, 디스플레이 장치는 입력된 명 령을 디스플레이하기 위한 디스플레이 스크린을 포함한다. 또한, 이 시스템은 저장 장치, 입력 장치 및 디스플레이 장치와 통신하는 프로세싱 장치를 포함하는데, 프로세싱 장치는 철자 사용자 인터페이스(spelling user interface(UI))가 디스플레이 스크린 상에 디스플레이되게 하고, 입력된 명령에 응답하여 디스플레이된 데이터를 조작하는 명령어들을 수신한다.

프로세싱 장치가 디스플레이 스크린 상에 디스플레이된 문자들을 조작하기 위한 방법을 구현하게 하는 명령어들을 포함하는 기계-판독가능 컴퓨터 프로그램 코드가 제공된다. 이 방법은 수정될 적어도 하나의 문자를 포함하는 선택된 단어를 식별하는 단계, 및 적어도 하나의 문자 각각을 유일한 숫자 값에 상호관련시키는 단계를 포함한다. 이 방법은 또한, 선택된 문자에 대응하는 유일한 숫자 값인 선택 명령 및 수정 명령을 수신하는 단계, 및 수정 명령에 대한 응답으로 그 선택된 문자를 수정하여 수정된 단어를 생성하는 단계를 포함한다.

프로세싱 장치가 디스플레이 스크린 상에 디스플레이된 문자들을 조작하기 위한 방법을 구현하게 하는 명령어들을 포함하는 기계-판독가능한 컴퓨터 프로그램 코드로 인코딩된 매체가 제공된다. 이 방법은 적어도 하나의 수정될 문자를 포함하는 선택된 단어를 식별하는 단계, 및 적어도 하나의 문자 각각을 유일한 숫자 값에 상호관련시키는 단계를 포함한다. 이 방법은 또한, 선택된 문자에 대응하는 유일한 숫자 값인 선택 명령 및 수정 명령을 수신하는 단계, 및 수정 명령에 대한 응답으로 선택된 문자를 수정하여 수정된 단어를 생성하는 단계를 포함한다.

상술된 것과 그 외의 본 발명의 특징 및 장점은 몇몇 도면에서 유사 구성요 소들이 유사하게 번호매겨진 첨부 도면과 함께 예시적인 실시예에 대한 다음의 상세한 설명으로부터 더 완전히 이해될 것이다.

여기에 개시된 본 발명은 음성 인식 어플리케이션을 사용하여 사용자에 의해 입력된 음성 명령을 수신 및 인식하는 범용 컴퓨터 구현된 시스템과 함께 사용된 독립형 및/또는 통합형 어플리케이션 모듈의 문맥으로 설명되고 있지만, 여기에 개시된 본 발명은 요구된 최종 목적에 적합한 임의의 문맥으로 사용될 수 있음을 이해해야 한다. 예를 들어, 본 발명은, 소프트웨어 사용자 인터페이스(UI) 윈도우를 디스플레이 스크린 상에 위치시키는 방법을 실시하는 음성 인식 모듈을 갖는 마이크로소프트® 워드와 같은 타겟 소프트웨어 어플리케이션 내의 통합형 소프트웨어 루틴 또는 특징, 및/또는 범용 컴퓨터의 오퍼레이팅 시스템 내의 루틴 또는 특징일 수 있다. 객체-지향 어플리케이션으로서, 어플리케이션 모듈은 클라이언트 프로그램이 어플리케이션 모듈과 통신하기 위해 액세스할 수 있는 표준 인터페이스를 노출할 수 있다. 어플리케이션 모듈은 또한, 워드 프로세싱 프로그램, 데스크탑 퍼블리싱 프로그램, 어플리케이션 프로그램 등과 같은 다수의 서로 다른 클라이언트 프로그램이 WAN, LAN 및/또는 인터넷 기반 비클(vehicle)과 같은 네트워크를 통해 및/또는 로컬로 어플리케이션 모듈을 사용하게 할 수 있다. 예를 들어, 어플리케이션 모듈은 로컬로, 또는 인터넷 액세스 포인트를 통해 이메일 어플리케이션 또는 마이크로소프트® 워드와 같은 텍스트 필드를 갖는 임의의 어플리케이션 및/또는 컨트롤을 이용하여 액세스되고 사용될 수 있다. 그러나, 본 발명의 양태를 설명하기 전에, 본 발명으로부터 통합하고 이익을 얻을 수 있는 적합한 컴퓨팅 환경의 일 실시예가 이하에 설명된다.

도 1을 참조하면, 철자 사용자 인터페이스(UI)를 갖는 음성 인식 소프트웨어 어플리케이션을 이용하여 타겟 소프트웨어 어플리케이션에 의해 디스플레이 스크린 상에 디스플레이된 문자들을 조작하기 위한 방법을 구현하는 시스템(100)을 나타내는 블럭도가 도시되고, 이것은 프로세싱 장치(104), 시스템 메모리(106), 및 시스템 메모리(106)를 프로세싱 장치(104)에 연결하는 시스템 버스(108)를 포함하는 일반 컴퓨터 시스템(102)을 포함한다. 시스템 메모리(106)는 판독 전용 메모리(ROM)(110) 및 랜덤 액세스 메모리(RAM)(112)를 포함할 수 있다. 기동 시 등에 일반 컴퓨터 시스템(102) 내의 구성요소들 간의 정보의 전송을 돕는 기본 루틴을 포함하는 기본 입/출력 시스템(114)(BIOS)은 ROM(110)에 저장된다. 일반 컴퓨터 시스템(102)은 또한, 하드 디스크 드라이브(118), 분리형 자기 디스크(122)로부터 판독하고 그곳에 기록하는 자기 디스크 드라이브(120), CD-ROM 디스크(126)를 판독하거나 다른 광 매체로부터 판독하거나 그곳에 기록하는 광 디스크 드라이브(124)와 같은 저장 장치(116)도 포함한다. 저장 장치(116)는 하드 디스크 드라이브 인터페이스(130), 자기 디스크 드라이브 인터페이스(132) 및 광 디스크 드라이브 인터페이스(134)와 같은 저장 장치 인터페이스에 의해 시스템 버스(108)에 접속될 수 있다. 드라이브 및 그에 관련된 컴퓨터-판독가능 매체는 일반 컴퓨터 시스템(102)에 비휘발성 저장장치를 제공한다. 상술된 컴퓨터-판독가능 매체에 대한 설명은 하드 디스크, 분리형 자기 디스크 및 CD-ROM 디스크를 참조하지만, 자기 카세트, 플래시 메모리 카드, 디지털 비디오 디스크, 베르누이 카트리지 등과 같은 컴퓨터 시스템 에 의해 판독가능하고 요구된 최종 목적에 적합한 다른 유형의 매체가 사용될 수 있음을 인지해야 한다.

사용자는 키보드(136), 마우스(138)와 같은 포인팅 장치, 및 마이크로폰(140)을 포함하는 통상적인 입력 장치(135)를 통해 일반 컴퓨터 시스템(102)에 명령 및 정보를 입력할 수 있으며, 이 때, 마이크로폰(140)은 음성과 같은 오디오 입력을 일반 컴퓨터 시스템(102)에 입력하는 데 사용될 수 있다. 또한, 사용자는 스타일러스를 이용하여 라이팅 태블릿(writing tablet)(142) 상에 그래픽 정보를 그림으로써 그림 또는 핸드라이팅과 같은 그래픽 정보를 일반 컴퓨터 시스템(102)에 입력할 수 있다. 일반 컴퓨터 시스템(102)은 또한, 조이스틱, 게임 패드, 위성 접시, 스캐너 등과 같은 요구된 최종 목적에 적합한 추가적인 입력 장치를 포함할 수 있다. 마이크로폰(140)은 시스템 버스(108)에 연결되어 있는 오디오 어댑터(144)를 통해 프로세싱 장치(104)에 연결될 수 있다. 또한, 종종, 다른 입력 장치가 시스템 버스(108)에 연결되어 있는 직렬 포트 인터페이스(146)를 통해 프로세싱 장치(104)에 연결되지만, 게임 포트 또는 USB(universal serial bus)와 같은 다른 인터페이스에 의해 연결될 수도 있다.

디스플레이 스크린(148)을 갖는 모니터, 또는 다른 유형의 디스플레이 장치(147)와 같은 디스플레이 장치(147)도 비디오 어댑터(150)와 같은 인터페이스를 통해 시스템 버스(108)에 연결된다. 디스플레이 스크린(148) 외에, 일반 컴퓨터 시스템(102)은 일반적으로, 스피커 및/또는 프린터와 같은 다른 주변 출력 장치도 포함할 수 있다. 일반 컴퓨터 시스템(102)은 하나 이상의 원격 컴퓨터 시스템(152) 으로의 논리적 접속을 이용하여 네트워크 환경에서 동작할 수 있다. 원격 컴퓨터 시스템(152)은 서버, 라우터, 피어 장치 또는 다른 공통 네트워크 노드일 수 있고, 도 1에서는 원격 메모리 저장 장치(154)만이 도시되었지만, 일반 컴퓨터 시스템(102)에 관하여 설명된 구성요소들 중 임의의 것 또는 전부를 포함할 수 있다. 도 1에 도시된 논리 접속은 근거리 네트워크(LAN)(156) 및 광역 네트워크(WAN)(158)를 포함한다. 그러한 네트워크 환경은 사무실, 기업형 컴퓨터 네트워크, 인트라넷 및 인터넷에서 흔하다.

LAN 네트워크 환경에서 사용될 때, 일반 컴퓨터 시스템(102)은 네트워크 인터페이스(160)를 통해 LAN(156)에 접속된다. WAN 네트워크 환경에서 사용될 때, 일반 컴퓨터 시스템(102)은 일반적으로 모뎀(162), 또는 인터넷과 같은 WAN(158)을 통해 통신을 설립하기 위한 다른 수단을 포함한다. 외장형 또는 내장형일 수 있는 모뎀(162)은 직렬 포트 인터페이스(146)를 통해 시스템 버스(108)에 접속될 수 있다. 네트워크 환경에서, 일반 컴퓨터 시스템(102)에 관하여 묘사된 프로그램 모듈, 또는 그의 일부는 원격 메모리 저장 장치(154)에 저장될 수 있다. 설명된 네트워크 접속은 예시적인 것이며, 컴퓨터 시스템들 간의 통신 링크를 설립하는 다른 수단이 사용될 수 있음을 이해해야 한다. 또한, 어플리케이션 모듈은 일반 컴퓨터 시스템 외에 호스트 또는 서버 컴퓨터 시스템 상에서 동등하게 구현될 수 있고, CD-ROM 외의 다른 수단으로, 예를 들어, 네트워크 접속 인터페이스(160)로 호스트 컴퓨터 시스템에 동등하게 전송될 수 있음을 이해해야 한다.

또한, 다수의 프로그램 모듈은 일반 컴퓨터 시스템(102)의 드라이브 및 RAM(112)에 저장될 수 있다. 프로그램 모듈은 I/O 장치 또는 다른 컴퓨터를 이용하여, 어떻게 일반 컴퓨터 시스템(102)이 기능하고 사용자와 인터랙션하는지를 제어한다. 프로그램 모듈은 루틴, 오퍼레이팅 시스템(164), 타겟 어플리케이션 프로그램 모듈(166), 데이터 구조, 브라우저, 및 다른 소프트웨어 또는 펌웨어 컴포넌트를 포함한다. 본 발명의 방법은 어플리케이션 모듈에 포함될 수 있고, 어플리케이션 모듈은 여기에 개시된 방법에 기초한 음성 엔진 정정 모듈(170)과 같은 하나 이상의 프로그램 모듈로 편리하게 구현될 수 있다. 타겟 어플리케이션 프로그램 모듈(166)은 본 발명과 함께 사용된 다양한 어플리케이션을 포함할 수 있으며, 그 일부는 도 2에 도시되어 있다. 이러한 프로그램 모듈 중 몇몇의 목적 및 그들 간의 인터랙션은 도 2를 설명하는 본문에서 더 완전히 논의된다. 이것은 임의의 어플리케이션 및/또는, 예를 들어, 이메일 어플리케이션, (워싱턴 레드몬드 소재의 마이크로소프트 사의 마이크로소프트® 워드와 같은) 워드 프로세서 프로그램, 핸드라이팅 인식 프로그램 모듈, 음성 엔진 정정 모듈(170) 및 입력 방식 편집기(IME)와 같은 텍스트 필드를 갖는 제어를 포함한다.

첨부 도면에 설명되고 예시된 동작, 단계 및 프로시저는 본 기술분야에 숙련된 기술자가 본 발명의 예시적인 실시예를 실시하는 것을 허용하기에 충분히 개시되어 있다고 고려되기 때문에, 상세한 설명에 설명된 다양한 프로시저를 수행하기 위한 어떤 특정 프로그래밍 언어도 설명되지 않음을 이해해야 한다. 또한, 예시적인 실시예를 실시하는 데 사용될 수 있는 다수의 컴퓨터 및 오퍼레이팅 시스템이 존재하며, 따라서, 이러한 다수의 서로 다른 시스템 전부에 적용가능할 어떤 자세 한 컴퓨터 프로그램도 제공될 수 없다. 특정 컴퓨터의 각각의 사용자는 사용자의 필요 및 목적에 가장 유용한 언어 및 도구를 알 것이다.

도 2를 참조하면, 철자 사용자 인터페이스(UI)를 갖는 음성 인식 소프트웨어 어플리케이션을 이용하여 타겟 소프트웨어 어플리케이션에 의해 디스플레이 스크린(148) 상에 디스플레이된 문자들을 조작하기 위한 방법(200)을 나타내는 블럭도가 도시되고, 사용자가 음성 인식 소프트웨어 어플리케이션을 이용하여 타겟 소프트웨어 어플리케이션에 단어를 입력하는 관점에서 설명된다.

타겟 소프트웨어 어플리케이션에 텍스트를 입력하기 위해, 사용자는 음성 인식 소프트웨어 어플리케이션 및 타겟 소프트웨어 어플리케이션을 동작시킴으로써, 도 3에 도시된 바와 같이, 적어도 하나의 문자가 타겟 소프트웨어 어플리케이션을 통해 디스플레이 스크린(148) 상에 디스플레이되게 하기를 시작할 수 있다. 프로세싱 장치(104)는 마이크로폰 입력 장치(135)를 통해 입력된 사용자 명령에 응답하여 음성 인식 소프트웨어 어플리케이션을 동작시킬 수 있고/있거나, 프로세싱 장치(104)는 "boot up" 명령과 같은 구동 시 오퍼레이팅 시스템(164)에 의해 인식된 명령에 응답하여 음성 인식 소프트웨어 어플리케이션을 구현할 수 있다. 음성 인식 소프트웨어 어플리케이션의 활성 시에, 사용자는 음성으로 마이크로폰 입력 장치(140)를 통해 음성 인식 소프트웨어 어플리케이션에 명령을 전달하여, 타겟 소프트웨어 어플리케이션을 활성시킬 수 있으며, 이 때, 타겟 소프트웨어 어플리케이션은 이메일 어플리케이션 및 마이크로소프트® 워드와 같은 텍스트 필드를 갖는 임의의 어플리케이션 및/또는 제어일 수 있다. 타겟 소프트웨어 어플리케이션이 활성화되 면, 타겟 소프트웨어 어플리케이션 윈도우(302)는 디스플레이 스크린(148) 상에 디스플레이된다. 그러면, 사용자는 마이크로폰 입력 장치(140)를 통해 텍스트를 입력함으로써 음성 인식 소프트웨어 어플리케이션을 동작시켜, 음성 인식 소프트웨어 어플리케이션이 타겟 소프트웨어 어플리케이션 윈도우(302)를 통해 입력된 텍스트(304)를 디스플레이하게 할 수 있다. 이 경우에, 입력된 일련의 텍스트(304)는 시스템(100)에 입력된 것이며, 이 때, 입력된 일련의 텍스트(304)는 "I", "t", "스페이스", "i", "s", "스페이스", "t", "h", "e", "스페이스", "i", "n", "t", "e", "n", "t"로서 입력된 것이다. 그러나, 음성 인식 소프트웨어 어플리케이션은 입력된 일련의 텍스트(304)를 "I", "t", "스페이스", "i", "s", "스페이스", "t", "h", "e", "스페이스", "i", "n", "v", "e", "n", "t"로서 "들었고", 따라서, 마지막 단어 "invent"는 "intent"가 되도록 정정될 필요가 있다. 상술된 텍스트는 전체 단어로서 또는 글자(문자)들로서 구술되었을 수 있고, 구술 능력은 오퍼레이팅 시스템 레벨 컴포넌트일 수 있음을 이해해야 한다.

도 4를 참조하면, 이것을 정정하기 위해, 철자 명령은 철자 UI를 호출하여, 사용자가 음성으로, 수정될 단어, 즉 "spell intent"를 일반 컴퓨터 시스템(102)에 전달하게 할 수 있다. 일반 컴퓨터 시스템(102)이 철자 명령을 수신할 때, 선택된 단어가 식별되고, 그 선택된 단어에 적어도 하나의 스페이스(space)(404)를 부가함으로써 부가된 단어(402)가 생성되는데, 이 때, 부가된 단어(402)는 동작 블럭(202)에 나타나는 바와 같이, 적어도 하나의 수정될 문자(406)를 포함한다. 부가된 단어 내의 문자들(408) 각각은 동작 블럭(204)에 나타나는 바와 같이, 유일한 숫자 값(410)으로 할당되고 그것에 상호관련된다. 부가된 단어(402)는 디스플레이 스크린(148)을 통해 디스플레이되어, 부가된 단어(402) 내의 문자들(408) 각각과 그에 할당된 유일한 숫자 값(410) 사이의 상호관련성을 시각적으로 전달한다. 이 상호관련성은 디스플레이 스크린(148) 상의 부가된 단어(402) 주위에 박스(412)를 그리고, 부가된 단어(402) 내의 그들의 할당된 문자(408)에 인접한 유일한 숫자 값(410) 각각을 디스플레이함으로써 시각적으로 전달될 수 있다. 그러한 것으로서, 문자들(408) 각각은 각각의 문자(408)가 상호관련되는 유일한 숫자 값(410)을 "할당"받는다. 예를 들어, 단어 "invent"(414)를 "intent"로 변경하기를 원하는 사용자는 음성으로, 음성 인식 소프트웨어 어플리케이션에 "spell invent"와 같은 명령을 입력할 것이다. 이것은 철자 UI를 구현하고, 디스플레이 스크린(148) 상에서 단어 "invent"(414) 주위에 박스(412)가 디스플레이되게 할 것이다. 이것은 또한, 단어 "invent"(414) 내의 각각의 글자가 대응 문자(408)에 인접하여 디스플레이되는 유일한 숫자 값(410)을 할당받게 하며, 이 둘은 도 4에 나타나 있다. 이것은 사용자가 단어 "invent" 내의 임의의 글자를 변경 및/또는 정정하게 할 것이다.

이 시점에서, 일반 컴퓨터 시스템(102)에 의해 선택 명령 및 수정 명령이 수신될 수 있고, 이 때, 선택 명령은 동작 블럭(206)에 나타나는 바와 같이, 선택된 문자에 대응하는 유일한 숫자 값(410)이다. 이것은 부가된 단어(402) 내의 어느 문자가 변경되어야 할 지를 일반 컴퓨터 시스템(102)에게 지시한다. 일반 컴퓨터 시스템(102)이 수정 명령을 수신하면, 동작 블럭(208)에 나타나는 바와 같이, 수정 명령에 대한 응답으로 그 선택된 문자를 수정함으로써 수정된 단어가 생성된다. 사용자는 "delete", "insert" 또는 추가될 글자/문자와 같은 복수의 수정 명령을 입력할 수 있음을 이해해야 하며, 이러한 상황들 각각은 이하에서 설명된다.

예를 들어, 도 5를 참조하여, 사용자가 디스플레이 스크린(148) 상에 디스플레이된 부가된 단어 "invent_"(504) 에서 글자 "v"(502)를 삭제하고자 하는 경우를 생각해 보자. 상술된 바와 같이, 사용자는 변경될 문자에 대응하는 유일한 숫자 값을 일반 컴퓨터 시스템(102)에 전달한다. 이 유일한 숫자 값(508)은 숫자 1로 시작하여 1씩 증가하지만, 임의의 유일한 숫자 값(508) 및 증가분이 지정될 수 있음을 이해해야 한다. 보는 바와 같이, 부가된 단어 "invent_"(504) 내의 글자 "v"(502)는 유일한 숫자 값(508) "3"을 할당받는다. 그러한 것으로서, 사용자는 음성으로, 숫자 "3"을 일반 컴퓨터 시스템(102)에 전달할 것이다. 이것은 기호(510)로 표시된 바와 같이, 숫자 "3"에 대응하고 그것에 상호관련된 글자를 "선택"하는데, 이 경우에, 이것은 부가된 단어 "invent"(504) 내의 글자 "v"(502)이다. 그 후, 사용자는 글자 "v"(502)가 그 부가된 단어 "invent"(504)로부터 삭제되어 도 6에 도시된 바와 같이 결과적으로 "inent"(512)가 남게 할 "delete"와 같은 요구된 수정 명령을 입력할 수 있다. 따라서, 수정 명령 "delete"는 부가된 단어로부터 선택된 글자 및 그것의 대응 스페이스를 제거할 것이고, 선택 기호(510)는 다음의 후속하는 문자, 즉, "e"를 선택할 것이다.

한편, 도 7을 참조하여, 사용자가 디스플레이 스크린(148) 상에 디스플레이된 단어 "invent" 내의 글자 "n"(704)과 글자 "v"(706) 사이에 글자 또는 스페이스와 같은 문자를 삽입하기를 원하는 경우를 생각해 보자. 본질적으로, 사용자는 유 일한 숫자 값 "3"에 대응하는 지점에 문자를 삽입하기를 원한다. 상술된 바와 같이, 사용자는 음성으로 명령 "spell invent"를 전달함으로써 철자 UI를 구현할 수 있다. 이것은, 단어 "invent"에 스페이스가 첨가되어 부가된 단어 "invent_"(708)를 생성하게 하고, 그 부가된 단어 "invent_"(708) 주위에 박스(710)가 디스플레이되게 하고, 유일한 숫자 값(712)이 그 부가된 단어 "invent_"(708) 내의 문자들 각각에 인접하게 할당되고 디스플레이되게 한다. 보는 바와 같이, 부가된 단어 "invent_"(708) 내의 글자 "v"(706)는 유일한 숫자 값(712) "3"을 할당받는다. 그러한 것으로서, 사용자는 음성으로, 숫자 "3"을 일반 컴퓨터 시스템(102)에 전달할 것이다. 이것은 일반 컴퓨터 시스템(102)이 기호(714)로 표시되는 바와 같이, 숫자 "3"에 대응하고 그것에 상호관련되는 글자를 "선택"하게 하는데, 이것은 이 경우에, 부가된 단어 "invent_"(708) 내의 글자 "v"(706)이다. 그 후, 사용자는 수정 명령을 입력하여 일반 컴퓨터 시스템(102)이 적절한 방식으로 응답하게 할 수 있다. 예를 들어, 사용자가 수정 명령 "insert"를 전달하고 그 후, 단어 "space"를 전달하면, 글자 "n"(704)과 글자 "v"(706) 사이에 스페이스가 삽입되어, 도 8에 도시되어 있는 바와 같이, 부가된 단어 "invent_"(708)를 "in vent_"(716)로 효과적으로 변경할 것이다. 이 경우에, 기호(714)는 유일한 숫자 값 "3"과 상호관련된 스페이스가 선택되었음을 나타내기 위해 제자리에 남아있는다. 그러나, 사용자가 명령 "insert"를 전달하고 그 후, 글자 "p"를 전달하면, 글자 "p"는 글자 "n"(704)과 글자 "v"(706) 사이에 삽입되어, 도 9에 도시된 바와 같이, 부가된 단어 "invent_"를 "inpvent_"로 효과적으로 변경할 것이고, 선택 기호(714)는 다음의 문 자로 이동하여 다음의 문자(즉, 유일한 숫자 값 "4"에 대응하는 문자)가 선택되었음을 나타낼 것이다.

마찬가지로, 도 10을 참조하여, 사용자가 단순히 디스플레이 스크린(148) 상에 디스플레이된 단어 "invent" 내의 한 글자를 변경하기를 원하는 경우를 생각해 보자. 상술된 바와 같이, 사용자는 명령 "spell invent"를 음성으로 전달함으로써 철자 UI를 구현할 수 있다. 이것은, 단어 "invent"에 스페이스가 부가되어 부가된 단어 "invent_"(902)를 생성하게 하고, 그 부가된 단어 "invent_"(902) 주위에 박스(904)가 디스플레이되게 하고, 유일한 숫자 값(906)이 그 부가된 단어 "invent_"(902) 내의 문자들(908) 각각에 인접하게 할당되고 디스플레이되게 한다. 보는 바와 같이, 부가된 단어 "invent_"(902) 내의 글자 "v"(912)는 유일한 숫자 값(906) "3"을 할당받는다. 그러한 것으로서, 사용자는 음성으로, 숫자 "3"을 컴퓨터 시스템(102)에 전달할 것이다. 이것은 기호(910)로 도시된 바와 같이, 숫자 "3"에 대응하고 그것에 상호관련된 글자가 선택되게 하는데, 이것은 이 경우에, 부가된 단어 "invent_"(902) 내의 글자 "v"(912)이다. 그 후, 사용자는 수정 명령(이 경우에 명령은 단순히 글자임)으로 입력하여, 컴퓨터 시스템이 적절한 방법으로 응답하게 할 수 있다. 예를 들어, 사용자가 숫자 "3" 이후에 수정 명령 "t"를 전달하면, 글자 "v"(912)는 글자 "t"로 대체되어, 도 11에 도시되어 있는 바와 같이, 부가된 단어 "invent_"(902)를 단어 "intent"(914)로 효과적으로 변경할 것이다. 이 시점에서, 선택 기호(910)는 다음의 문자로 이동하여, 다음의 문자(즉, 유일한 숫자 값 "4"에 대응하는 문자)가 선택되었음을 나타낼 것이다.

사용자가 변경될 글자에 대응하는 유일한 숫자 값을 입력하면, 드롭다운 메뉴와 같은 제안된 수정 명령들의 메뉴가 디스플레이될 수 있고, 여기서, 각각의 제안된 액션은 자신의 유일한 숫자 값을 할당받을 것임을 이해해야 한다. 예를 들어, 도 12를 참조하여, 사용자가 디스플레이 스크린(148) 상에 디스플레이된 단어 "invent" 내의 한 글자를 변경하기를 원하는 경우를 생각해 보자. 사용자는 음성으로 명령 "spell invent"를 전달함으로써 철자 UI를 구현할 것이다. 이것은, 선택된 단어 "invent"에 스페이스가 부가되어 부가된 단어 "invent_"(1002)를 생성하게 하고, 그 부가된 단어 "invent_"(1002) 주위에 박스(1004)가 디스플레이되게 하고, 유일한 숫자 값(1006)이 그 부가된 단어 "invent_"(1002) 내의 글자들 각각에 인접하여 디스플레이되게 한다. 보는 바와 같이, 부가된 단어 "invent_"(1002) 내의 글자 "v"(1008)는 유일한 숫자 값(1006) "3"을 할당받는다. 그러한 것으로서, 사용자는 음성으로 숫자 "3"을 일반 컴퓨터 시스템(102)에 전달하여, 기호(1010)로 표시된 바와 같이, 유일한 숫자 값 "3"에 대응하고 그것에 상호관련된 문자를 "선택"할 것이고, 이것은 이 경우에, 부가된 단어 "invent_"(1002) 내의 글자 "v"(1008)이다. 도 13을 참조하면, 각각이 제2의 유일한 숫자 값(1014)을 할당받는 다수의 수정 명령 선택들을 사용자에게 제공하는 메뉴(1012)가 디스플레이 스크린(148) 상에 디스플레이될 수 있다. 사용자는 요구된 수정 명령에 상호관련된 제2의 유일한 숫자 값(1014)인 수정 명령을 입력하여, 음성 인식 소프트웨어 어플리케이션이 적절한 방식으로 응답하게 할 수 있다. 예를 들어, 사용자가 숫자 "3" 이후에 숫자 값 "4"를 전달하면, 글자 "v"(1008)는 글자 "d"(1016)로 대체되어, 도 14에 도시되어 있는 바와 같이, 부가된 단어 "invent_"(1002)를 단어 "indent"(1018)로 효과적으로 변경할 것이다. 상술한 바와 같이, 선택 기호(1010)는 다음 문자로 이동하여, 다음 문자(즉, 유일한 숫자 값 "4"에 대응하는 문자)가 선택되었음을 나타낼 것이다.

제안된 수정 명령들의 메뉴(1012)는, 선택된 글자 또는 단어와 청각적으로 유사한 문자/단어들의 메뉴{예를 들어, "v"가 선택되면 메뉴(1012)는 "d", "t", "e", "g", "3"을 포함할 것임}와 같이, 요구된 최종 목적에 적합한 임의의 수정 명령들을 포함할 수 있음을 이해해야 한다. 또한, 메뉴(1012)는 철자 검사기로부터 자동-완성된 리스트 뿐만 아니라, 문자의 대문자 형태, 예를 들어, "V"도 포함할 수 있다. 그러한 것으로서, 이 예에서, 메뉴(1012)는 단어 "indent", "intent", "amend"를 포함할 수 있다. 또한, 본 발명은, 예를 들어, eagle의 경우에서 3을 "e"로 변경하는 것과 같이 복수의 기능을 동시에 수행하는 음성 명령을 포함할 수 있으며, 다르게는 "t를 g로 변경하는 것"은 선택된 단어 내에 글자 "t"가 하나만 있는 경우에만 글자 "t"를 글자 "g"로 변경할 수 있다는 것을 이해해야 한다. 선택된 단어 내에 글자 "t"가 두개 있으면, 좀 더 정확하기 위해 사용자에게 피드백이 제공될 수 있다. 또한, 이전에 변경된 문자를 이전 상태로 되돌릴 수 있는 "undo"와 같은 다른 명령이 제공될 수도 있다. 예를 들어, 사용자가 (선택된 글자를 대문자화하기 위해) "cap that"이라고 말했지만 입력이 "caret"으로서 인식된 경우, 사용자는 그 글자를 이전 상태로 되돌리기 위해 "undo"라고 말할 수 있다.

예시적인 실시예에 따르면, 도 2의 프로세싱은 기계-판독가능 컴퓨터 프로그 램에 응답하여 동작하는 제어기에 의해 전체 또는 부분적으로 구현될 수 있다. {예를 들어, 실행 제어 알고리즘(들), 여기에서 설명된 제어 프로세스 등} 계산뿐만 아니라 설명된 기능 및 요구된 프로세싱을 수행하기 위해, 제어기는 프로세서(들), 컴퓨터(들), 메모리, 저장장치, 레지스터(들), 타이밍, 인터럽트(들), 통신 인터페이스(들) 및 입/출력 신호 인터페이스(들) 뿐만 아니라 상술된 것들 중 적어도 하나를 포함하는 조합도 포함할 수 있지만, 이것으로 제한되지 않는다.

또한, 본 발명은 컴퓨터 또는 제어기 구현된 프로세스의 형태로 구현될 수 있다. 본 발명은 또한, 플로피 디스켓, CD-ROM, 하드 드라이브 및/또는 임의의 다른 컴퓨터-판독가능 매체와 같은 유형 매체에 포함된 명령어들을 포함하는 컴퓨터 프로그램 코드의 형태로 구현될 수 있으며, 이 때, 컴퓨터 프로그램 코드가 컴퓨터 또는 제어기에 로드되고 그것에 의해 실행될 때, 컴퓨터 또는 제어기는 본 발명을 실시하기 위한 장치가 된다. 본 발명은 또한, 예를 들어, 저장 매체에 저장되든지, 컴퓨터 또는 제어기에 로드되고/로드되거나 그것에 의해 실행되든지, 전자 배선 또는 캐이블, 섬유 광 또는 전자 방사능과 같은 임의의 전송 매체를 통해 전송되든지에 상관없이, 컴퓨터 프로그램 코드의 형태로 구현될 수 있으며, 이 때, 컴퓨터 프로그램 코드가 컴퓨터 또는 제어기에 로드되고 그것에 의해 실행될 때, 컴퓨터 또는 제어기는 본 발명을 실시하기 위한 장치가 된다. 범용 마이크로프로세서 상에서 구현될 때, 컴퓨터 프로그램 코드 세그먼트는 특정 논리 회로를 생성하도록 마이크로프로세서를 구성할 수 있다.

본 발명은 예시적인 실시예를 참조하여 설명되었지만, 본 기술분야에 숙련된 기술자는, 본 발명의 취지 및 범주를 벗어나지 않고서 다양한 변경, 생략 및/또는 추가가 행해질 수 있고, 동등물이 그 구성요소들을 대체할 수 있음을 이해할 것이다. 또한, 본 발명의 취지를 벗어나지 않고서 특정적인 상황 또는 자료를 본 발명의 가르침에 적합시키기 위해 많은 수정이 행해질 수 있다. 따라서, 본 발명은 본 발명을 수행하기 위해 고려된 최상의 모드로서 개시된 특정 실시예로 제한되지 않지만, 본 발명은 첨부된 청구범위의 범주 내에 속하는 모든 실시예를 포함하는 것으로 의도된다. 또한, 특별히 언급되지 않는 한, 제1, 제2 등의 서수의 사용은 임의의 순서 또는 중요도를 나타내지 않으며, 오히려, 제1, 제2 등의 서수는 하나의 구성요소를 다른 구성요소로부터 구별하는 데 사용된다.

본 발명은 음성 인식 어플리케이션을 통해 단어의 문자를 조작하기 위한 방법을 제공한다.

Claims

디스플레이 스크린 상에 디스플레이된 문자들을 조작하기 위한 방법으로서,

적어도 하나의 수정될 문자를 포함하는 선택된 단어를 식별하는 단계;

상기 적어도 하나의 문자 각각을 유일한 숫자 값에 상호관련시키는 단계;

선택 명령(selection command) 및 수정 명령(modification command)을 수신하는 단계 - 상기 선택 명령은 상기 선택된 단어 내의 선택된 문자에 대응하는 상기 유일한 숫자 값임 - ; 및

상기 수정 명령에 대한 응답으로 상기 선택된 문자를 수정하여, 수정된 단어를 생성하는 단계

를 포함하는 방법.
제1항에 있어서,

상기 식별하는 단계는, 철자 명령(spelling command)이 철자 사용자 인터페이스(spelling user interface(UI))를 호출할 수 있게 하여 사용자가 상기 선택된 단어를 음성으로 전달할 수 있게 하는 단계를 더 포함하는 방법.
제1항에 있어서,

상기 상호관련시키는 단계는, 상기 적어도 하나의 문자 각각과 상기 유일한 숫자 값 각각 사이의 상호관련성을 시각적으로 전달하기 위해 상기 선택된 단어를 상기 디스플레이 스크린 상에 디스플레이하는 단계를 더 포함하는 방법.
제3항에 있어서,

상기 디스플레이하는 단계는,

상기 디스플레이 스크린 상의 상기 선택된 단어 주위에 박스를 그리는 단계; 및

상기 적어도 하나의 문자 각각에 인접하게 상기 유일한 숫자 값 각각을 디스플레이하는 단계

를 포함하는 방법.
제1항에 있어서,

상기 식별하는 단계는, 선택된 단어를 식별하고 상기 선택된 단어에 적어도 하나의 스페이스를 부가하여 부가된 단어(appended word)를 생성하는 단계를 포함하고,

상기 부가된 단어는 적어도 하나의 수정될 문자를 포함하는 방법.
제5항에 있어서,

상기 상호관련시키는 단계는, 상기 적어도 하나의 문자 각각과 상기 유일한 숫자 값 각각 사이의 상호관련성을 시각적으로 전달하기 위해 상기 부가된 단어를 상기 디스플레이 스크린 상에 디스플레이하는 단계를 더 포함하는 방법.
제6항에 있어서,

상기 디스플레이하는 단계는,

상기 디스플레이 스크린 상의 상기 부가된 단어 주위에 박스를 그리는 단계; 및

상기 적어도 하나의 문자 각각에 인접하게 상기 유일한 숫자 값 각각을 디스플레이하는 단계

를 포함하는 방법.
제5항에 있어서,

상기 수정 명령이 "Delete"인 경우, 상기 수정하는 단계는 상기 부가된 단어로부터 상기 선택된 문자를 삭제하는 단계를 포함하는 방법.
제1항에 있어서,

상기 수신하는 단계는, 상기 선택 명령 및 상기 수정 명령을 오디오 입력 장치를 통해 수신하는 단계를 포함하는 방법.
제1항에 있어서,

상기 수정 명령이 대체 문자(replacement character)인 경우, 상기 수정하는 단계는 상기 선택된 문자를 상기 대체 문자로 대체하는 단계를 포함하는 방법.
제1항에 있어서,

상기 수정 명령이 "Delete"인 경우, 상기 수정하는 단계는 상기 선택된 단어로부터 상기 선택된 문자를 삭제하는 단계를 포함하는 방법.
제1항에 있어서,

상기 수정 명령이 "Insert"인 경우, 상기 수정하는 단계는 상기 선택된 문자와 바로 이전의 문자 사이에 스페이스(space)를 삽입하는 단계를 포함하는 방법.
제12항에 있어서,

상기 수정하는 단계는, 상기 스페이스를 선택하고, 상기 스페이스를 상기 디스플레이 스크린 상에 시각적으로 나타내는 단계를 더 포함하는 방법.
제1항에 있어서,

상기 수정하는 단계는 후속하는 문자를 선택하는 단계를 더 포함하고,

상기 후속하는 문자는 상기 선택된 문자 바로 다음에 배치되어 있는 방법.
제14항에 있어서,

상기 수정하는 단계는, 상기 후속하는 문자를 상기 디스플레이 스크린 상에 시각적으로 나타내는 단계를 더 포함하는 방법.
제2항에 있어서,

사용자가 음성으로, 종료 명령(exit command)을 통해 상기 철자 UI를 종료하게 하는 단계를 더 포함하는 방법.
제16항에 있어서,

상기 종료하게 하는 단계는 상기 종료 명령에 대한 응답으로 상기 선택된 단어를 상기 수정된 단어로 대체하는 단계를 더 포함하는 방법.
제16항에 있어서,

상기 종료 명령은 "OK"인 방법.
제1항에 있어서,

상기 수신하는 단계는 적어도 하나의 허용가능한 문자 수정안의 리스트를 디스플레이하는 단계를 더 포함하고,

상기 리스트는 상기 적어도 하나의 허용가능한 문자 수정안 각각에 대응하는 제2의 유일한 숫자 값을 포함하는 방법.
제19항에 있어서,

상기 수정 명령은 상기 제2의 유일한 숫자 값인 방법.
제1항에 있어서,

상기 수정 명령은 단어 "Change"와 "Undo" 중 적어도 하나인 방법.
제2항에 있어서,

상기 식별하는 단계는 상기 철자 UI가 오디오 입력 장치를 통해 오디오 신호를 수신하는 단계를 더 포함하는 방법.
제1항에 있어서,

상기 방법은 독립형 어플리케이션 모듈과, 타겟 소프트웨어 어플리케이션, 음성 인식 소프트웨어 어플리케이션 및 오퍼레이팅 시스템 중 적어도 하나와 통합된 통합형 어플리케이션 모듈 중 적어도 하나로서 구현될 수 있는 방법.
제1항에 있어서,

상기 방법은 타겟 소프트웨어 어플리케이션과 통합된 통합형 어플리케이션 모듈로서 구현될 수 있고,

상기 타겟 소프트웨어 어플리케이션은 워드 프로세싱 어플리케이션, 스프레드시트 어플리케이션 및 이메일 어플리케이션 중 적어도 하나를 포함하는 방법.
프로세싱 장치가 디스플레이 스크린 상에 디스플레이된 문자들을 조작하기 위한 방법을 구현하게 하는 명령어들을 포함하는 기계-판독가능한 컴퓨터 프로그램 코드로 인코딩된 컴퓨터-판독가능 매체로서,

상기 방법은,

적어도 하나의 수정될 문자를 포함하는 선택된 단어를 식별하는 단계;

상기 적어도 하나의 문자 각각을 유일한 숫자 값에 상호관련시키는 단계;

선택 명령 및 수정 명령을 수신하는 단계 - 상기 선택 명령은 선택된 문자에 대응하는 상기 유일한 숫자 값임 - ; 및

상기 수정 명령에 대한 응답으로 상기 선택된 문자를 수정하여, 수정된 단어를 생성하는 단계

를 포함하는 컴퓨터-판독가능 매체.