KR100958934B1 - 웹 페이지의 특성에 기초하여 텍스트를 추출하기 위한방법, 시스템 및 컴퓨터 판독 가능한 기록 매체 - Google Patents

웹 페이지의 특성에 기초하여 텍스트를 추출하기 위한방법, 시스템 및 컴퓨터 판독 가능한 기록 매체 Download PDF

Info

Publication number
KR100958934B1
KR100958934B1 KR1020070119406A KR20070119406A KR100958934B1 KR 100958934 B1 KR100958934 B1 KR 100958934B1 KR 1020070119406 A KR1020070119406 A KR 1020070119406A KR 20070119406 A KR20070119406 A KR 20070119406A KR 100958934 B1 KR100958934 B1 KR 100958934B1
Authority
KR
South Korea
Prior art keywords
text
information
extraction range
web page
text extraction
Prior art date
Application number
KR1020070119406A
Other languages
English (en)
Other versions
KR20090052757A (ko
Inventor
이윤현
김규일
박진수
Original Assignee
엔에이치엔(주)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엔에이치엔(주) filed Critical 엔에이치엔(주)
Priority to KR1020070119406A priority Critical patent/KR100958934B1/ko
Priority to JP2008295183A priority patent/JP4907635B2/ja
Priority to CN2008101770713A priority patent/CN101441648B/zh
Publication of KR20090052757A publication Critical patent/KR20090052757A/ko
Application granted granted Critical
Publication of KR100958934B1 publication Critical patent/KR100958934B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Tourism & Hospitality (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Marketing (AREA)
  • General Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Primary Health Care (AREA)
  • Artificial Intelligence (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Transfer Between Computers (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

본 발명에 따르면, 웹 페이지의 특성에 기초하여 텍스트를 추출하는 방법, 시스템, 및 상기 방법을 실행하기 위한 컴퓨터 프로그램을 기록하는 컴퓨터 판독 가능한 기록 매체가 제공된다. 보다 상세하게는, 본 발명의 일 태양에 따른 텍스트 추출 방법은, 웹 페이지 상의 텍스트 포인터를 인식하는 단계, 상기 웹 페이지의 식별자의 적어도 일부에 대응되어 저장되어 있는 텍스트 추출 범위에 대한 정보를 확인하는 단계, 상기 텍스트 포인터 정보 및 상기 확인된 텍스트 추출 범위에 대한 정보에 기초하여 텍스트 추출 범위를 결정하는 단계, 및 상기 결정된 범위의 텍스트를 추출하는 단계를 포함한다.
웹 페이지, 텍스트 추출, MSAA, IHTML

Description

웹 페이지의 특성에 기초하여 텍스트를 추출하기 위한 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체{METHOD, SYSTEM AND COMPUTER-READABLE RECORDING MEDIUM FOR EXTRACTING TEXT BASED ON CHARACTERISTIC OF WEB PAGE}
본 발명은 웹 페이지의 특성에 따라 텍스트를 추출하는 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체에 관한 것이다. 보다 상세하게는, 본 발명은 웹 페이지 내의 텍스트를 추출한 후 이를 이용하여 음성 변환이나 번역 등의 텍스트 기반 서비스를 제공할 때에, 웹 페이지의 특성에 따라 단어, 문장, 단락 및 전문 등 서로 다른 범위의 텍스트가 추출되도록 하는 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체에 관한 것이다.
근래에 들어, 인터넷 사용이 보편화 되면서 인터넷을 통한 다양한 정보의 획득이 가능해지고 있다. 웹 사이트를 통해 인터넷 서비스를 제공하는 업체는 더욱더 다양해져 가는 사용자들의 욕구를 충족시키기 위해 다양한 종류의 서비스를 제공하고 있으며, 그러한 서비스의 종류 또한 하루가 다르게 증가하고 있는 추세이다.
인터넷 사용자는 이러한 업체들이 제공하는 서비스를 다양한 형태로 접하고 있으며, 특히, 웹 사이트를 통해 뉴스 정보, 사전 정보, 전문 정보, 지역 정보, 쇼핑 정보 등의 다양한 인터넷 컨텐츠를 얻고자 한다.
이러한 사용자들은 자신이 원하는 컨텐츠를 얻기 위해 웹 사이트를 통해 검색을 수행하고, 이를 통해 특정 웹 페이지에서 원하는 컨텐츠를 얻는 경우, 주로 텍스트로 이루어져 있는 해당 컨텐츠를 육안에 의해서 해독하게 되는 것이 일반적이다. 그러나, 사용자의 입장에서는 이렇듯 텍스트 위주로 제공되는 컨텐츠만을 이용하는 것은 멀티미디어 시대인 요즈음에 있어서는 달갑지 않은 일일 수 있고, 현실적으로는 웹 페이지가 담고 있는 정보의 양이 점점 많아짐에 따라 사용자는 텍스트의 형태로 제공 받은 컨텐츠를 해독하기 위하여 육안으로 그 텍스트를 모두 다 읽을 때까지 사용자 컴퓨터의 모니터와 같은 디스플레이 수단에서 시선을 떼지 말아야 하게 되는 문제점도 있다. 또한, 사용자 중에는 컨텐츠를 통하여 원하는 정보를 얻으면서 다른 일도 진행하고자 하는 멀티태스킹 욕구를 가진 자도 있을 수 있는데 이러한 욕구도 충족되기 어려운 측면이 있었다.
한편, 근래에 들어, VoIP(Voice over IP) 기술, 음성 인식 기술, 음성 변환 기술, 음성 합성 기술, 자동 응답 시스템 등의 CTI(Computer Telephony Integration) 기술이 많은 관심을 끌고 있는 것 역시 사실인데, 이러한 기술들에 의하면 인터넷 환경에서도 사용자가 음성으로 지시를 내리고, 음성으로 정보를 제공 받으며, 음성으로 의사소통하는 진일보한 인터넷 서비스를 누릴 수 있게 될 것으로 기대되고 있다.
이에 따라, 텍스트 위주의 컨텐츠 제공에 따른 문제를 해결하는 한편, CTI 기술에 폭넓게 이용하기 위하여 TTS(Text To Speech) 기술이 개발된 바 있다. TTS 기술은 음성 인식 기술보다 널리 쓰일 수 있는 기술로서, 각종 텍스트 정보를 음성으로 변환하여 제공하는 휴먼 인터페이스 기술이다. 웹 페이지에서의 TTS 기술은 주로 웹 페이지의 텍스트를 추출하고 이를 음성으로 변환하여 사용자에게 제공하는 방식으로 실현된다. 예를 들면, 사용자가 웹 페이지의 일정 위치에서 일정한 시간 동안 마우스를 정체시키면 발생하는 마우스오버(mouse-over) 이벤트에 따라 그때의 마우스 포인터 위치에 해당하는 단어를 추출한 후 이를 음성으로 변환하는 경우나 사용자가 웹 페이지 상의 텍스트의 일정 부분을 드래깅(dragging)하여 이를 음성으로 변환하는 경우를 언급할 수 있다.
그러나, 현재 실현되고 있는, 웹 페이지를 통한 TTS 서비스는 완전한 휴먼 인터페이스 기술이라고 할 수 없다. 구체적으로 설명하면, 현재의 TTS 서비스는 사용자의 마우스오버 조작에 의해 인식된 위치의 단어만을 음성으로 변환하거나, 사용자로 하여금 직접 마우스를 드래깅하여 음성 변환을 원하는 만큼의 텍스트를 지정하도록 할 수 밖에 없는 문제가 있었다. 전자의 경우에는, 사용자의 의사와는 달리 일률적으로 마우스오버된 단어만이 음성으로 변환되는 문제가 있었다. 그리고, 후자의 경우에는, 사용자가 원하는 범위의 텍스트를 음성으로 변환시키기 위해서는 사용자가 개략적으로나마 육안으로 텍스트를 해독한 후, 음성 변환의 대상이 되는 텍스트의 범위를 지정하여야 하는 관계로, 사용자가 직접 텍스트를 해독하여야만 하는 경우를 가급적 배제하고자 하는 TTS 기술의 본지를 무색하게 하고, 또한, 위와 같은 지정에 추가적으로 시간이 소요되게끔 하는 문제가 있었다.
따라서, 사용자의 의사에 맞춰, 웹 페이지의 특성에 따라 특정 범위(예를 들면, 단어, 문장, 단락 또는 전문의 범위)의 텍스트를 추출하여 각종 텍스트 기반 서비스를 제공함으로써 사용자의 편의성을 증대시키기 위한 접근이 필요하다.
본 발명은 웹 페이지의 특성에 기초하여 능동적으로 텍스트를 추출하는 것에 그 목적이 있다.
한편, 본 발명은 웹 페이지의 특성에 따라 능동적으로 서로 다른 범위의 텍스트를 추출함으로써, 웹 페이지의 사용자가 해당 텍스트로부터 변환된 데이터를 편리하게 획득할 수 있도록 하는 데에 그 목적이 있다.
또한, 본 발명은 사용자가 웹 페이지 상에서 넓은 범위의 텍스트를 추출하고자 하는 경우, 일일이 마우스를 드래깅하여야 하는 불편함을 덜어내고 웹 페이지의 특성에 따라 자동적으로 필요한 만큼 넓은 범위의 텍스트를 추출해냄으로써 불필요한 사용자 조작이 요구되지 않아도 되도록 하는 데에 그 목적이 있다.
상기 목적을 달성하기 위한 본 발명의 대표적인 구성은 다음과 같다.
본 발명의 일 태양에 따르면, 웹 페이지의 특성에 기초하여 텍스트를 추출하는 방법으로서, 웹 페이지 상의 텍스트 포인터를 인식하는 단계, 상기 웹 페이지의 식별자의 적어도 일부에 대응되어 저장되어 있는 텍스트 추출 범위에 대한 정보를 확인하는 단계, 상기 텍스트 포인터 정보 및 상기 확인된 텍스트 추출 범위에 대한 정보에 기초하여 텍스트 추출 범위를 결정하는 단계, 및 상기 결정된 범위의 텍스트를 추출하는 단계를 포함하는 방법이 제공된다.
본 발명의 다른 태양에 따르면, 웹 페이지의 특성에 기초하여 텍스트를 추출 하는 방법으로서, 웹 페이지 상의 텍스트 포인터를 인식하는 단계, 텍스트 추출 정보 데이터베이스에 상기 웹 페이지의 식별자의 적어도 일부에 대응되는 텍스트 추출 범위에 대한 정보가 저장되어 있는지 여부를 확인하는 단계, 상기 텍스트 추출 정보 데이터베이스에 상기 텍스트 추출 범위에 대한 정보가 저장되어 있지 않은 것으로 확인되면, 상기 텍스트 추출 범위에 대한 정보를 수신하는 단계, 상기 텍스트 포인터 정보 및 상기 수신된 텍스트 추출 범위에 대한 정보에 기초하여 텍스트 추출 범위를 결정하는 단계, 및 상기 결정된 범위의 텍스트를 추출하는 단계를 포함하는 방법이 제공된다.
본 발명의 또다른 태양에 따르면, 텍스트를 음성으로 변환하는 방법으로서, 상기 방법에 따라 추출된 텍스트와 연관된 음성 데이터를 생성하는 단계를 더 포함하는 방법이 제공된다.
본 발명의 또다른 태양에 따르면, 웹 페이지의 특성에 기초하여 텍스트를 추출하는 시스템으로서, 웹 페이지 상의 텍스트 포인터를 인식하는 텍스트 포인터 인식부, 상기 웹 페이지의 식별자의 적어도 일부에 대응되어 저장되어 있는 텍스트 추출 범위에 대한 정보를 확인하는 텍스트 추출 범위 정보 확인부, 상기 텍스트 포인터 정보 및 상기 확인된 텍스트 추출 범위에 대한 정보에 기초하여 텍스트 추출 범위를 결정하는 텍스트 추출 범위 결정부, 및 상기 결정된 범위의 텍스트를 추출하는 텍스트 추출부를 포함하는 시스템이 제공된다.
본 발명의 또다른 태양에 따르면, 웹 페이지의 특성에 기초하여 텍스트를 추출하는 시스템으로서, 텍스트 추출 정보 데이터베이스, 웹 페이지 상의 텍스트 포 인터를 인식하는 텍스트 포인터 인식부, 상기 텍스트 추출 정보 데이터베이스에 상기 웹 페이지의 식별자의 적어도 일부에 대응되는 텍스트 추출 범위에 대한 정보가 저장되어 있는지 여부를 확인하여, 그렇지 않은 경우, 텍스트 추출 범위에 대한 정보를 수신하는 텍스트 추출 범위 정보 수신부, 상기 텍스트 포인터 정보 및 상기 수신된 텍스트 추출 범위에 대한 정보에 기초하여 텍스트 추출 범위를 결정하는 텍스트 추출 범위 결정부, 및 상기 결정된 범위의 텍스트를 추출하는 텍스트 추출부를 포함하는 시스템이 제공된다.
본 발명의 또다른 태양에 따르면, 텍스트를 음성으로 변환하는 시스템으로서, 웹 페이지 상의 텍스트 포인터를 인식하는 텍스트 포인터 인식부, 상기 웹 페이지의 식별자의 적어도 일부에 대응되어 저장되어 있는 텍스트 추출 범위에 대한 정보를 확인하는 텍스트 추출 범위 정보 확인부, 상기 텍스트 포인터 정보 및 상기 확인된 텍스트 추출 범위에 대한 정보에 기초하여 텍스트 추출 범위를 결정하는 텍스트 추출 범위 결정부, 상기 결정된 범위의 텍스트를 추출하는 텍스트 추출부, 및 상기 추출된 텍스트와 연관된 음성 데이터를 생성하는 음성 데이터 생성부를 포함하는 시스템이 제공된다.
본 발명의 또다른 태양에 따르면, 텍스트를 음성으로 변환하는 시스템으로서, 텍스트 추출 정보 데이터베이스, 웹 페이지 상의 텍스트 포인터를 인식하는 텍스트 포인터 인식부, 상기 텍스트 추출 정보 데이터베이스에 상기 웹 페이지의 식별자의 적어도 일부에 대응되는 텍스트 추출 범위에 대한 정보가 저장되어 있는지 여부를 확인하여, 그렇지 않은 경우, 상기 텍스트 추출 범위에 대한 정보를 수신하 는 텍스트 추출 범위 정보 수신부, 상기 텍스트 포인터 정보 및 상기 수신된 텍스트 추출 범위에 대한 정보에 기초하여 텍스트 추출 범위를 결정하는 텍스트 추출 범위 결정부, 상기 결정된 범위의 텍스트를 추출하는 텍스트 추출부, 및 상기 추출된 텍스트와 연관된 음성 데이터를 생성하는 음성 데이터 생성부를 포함하는 시스템이 제공된다.
이 외에도, 본 발명에 따르면, 웹 페이지의 특성에 기초하여 텍스트를 추출하기 위한 다른 방법, 시스템, 및 상기 방법들을 실행하기 위한 컴퓨터 프로그램을 기록하는 컴퓨터 판독 가능한 기록 매체가 더 제공된다.
본 발명에 따르면, 웹 페이지의 특성에 따라 능동적으로 텍스트가 추출되고 이에 기초하여 음성 변환 서비스 또는 번역 서비스와 같은 텍스트 기반 서비스가 제공되므로, 사용자의 많은 조작 없이도 사용자의 의사에 부합하는 텍스트 기반 데이터를 획득하게 될 수 있다.
또한, 본 발명에 따르면, 사용자가 웹 페이지의 특성을 자세히 모르고 웹 페이지를 이용하는 경우에도 그 특성에 맞는 범위의 텍스트가 자동적으로 추출되도록 함으로써, 사용자가 웹 페이지에 표시된 컨텐츠를 효율적으로 파악할 수 있도록 할 수 있다.
한편, 본 발명에 따르면, 사용자가 웹 페이지 상에서 넓은 범위의 텍스트를 추출하고자 하는 경우 사용자가 이를 모두 드래깅해야 하는 불편함을 없앨 수 있고, 마우스 드래깅 시의 오류 발생으로 인한 텍스트 추출 오류도 방지할 수 있다.
이하에서는, 첨부되는 도면을 참조하여 본 발명의 다양한 실시예들을 상세하게 설명하기로 한다.
전체 시스템의 구성
도 1은 본 발명의 일 실시예에 따른 텍스트 추출 시스템의 개략적인 구성을 나타낸 도면이다.
도 1에 도시된 바와 같이, 본 발명의 일 실시예에 따른 텍스트 추출 시스템은 사용자 컴퓨터(100) 및 TTS 서버(300)를 포함할 수 있다. 여기서, 사용자 컴퓨터(100)와 TTS 서버(300)는 전용회선을 이용하는 근거리 통신망(LAN) 또는 원거리 통신망(WAN) 등의 다양한 네트워크 환경을 통해 통신할 수 있다. 이러한 네트워크 환경은 공지의 월드 와이드 웹(World Wide Web; WWW)일 수 있다. 한편, TTS 서버(300)는 공지의 네트워크 환경에서 인터넷 프로토콜을 통해 하나 이상의 사용자 컴퓨터(100)와 쌍방향 통신을 할 수 있다. 또한, 이러한 TTS 서버(300)는 사용자 컴퓨터(100)로부터의 요청에 따라 최신 추출 범위 정보 데이터베이스(500) 및 음성 변환 데이터베이스(700)를 참조하여 처리를 수행할 수 있다.
사용자 컴퓨터의 구성
도 2a는 도 1에 도시된 텍스트 추출 시스템 중 사용자 컴퓨터(100)의 상세 구성을 나타낸 도면이며, 도 2b는 TTS 서버(300)의 상세 구성을 나타낸 도면이다.
도 2a에 도시된 바와 같이, 사용자 컴퓨터(100)는 연산부(110), 텍스트 추출 범위 정보 데이터베이스(130), 프로그램 저장부(150), 사용자 입력부(170), 출력 부(180) 및 통신부(190)를 포함할 수 있다.
연산부(110)는 마우스오버 인식부(111), 추출 범위 정보 확인부(112), 추출 범위 정보 요청부(113), 최신 추출 범위 정보 요청부(115), 추출 방식 결정부(117), 텍스트 추출부(118), 및 음성 데이터 제공부(119)를 포함할 수 있다. 본 발명의 일 실시예에 따르면, 마우스오버 인식부(111), 추출 범위 정보 확인부(112), 추출 범위 정보 요청부(113), 최신 추출 범위 정보 요청부(115), 추출 방식 결정부(117), 텍스트 추출부(118) 및 음성 데이터 제공부(119)는 그 중 적어도 일부가 연산부(110)에 포함되거나 연산부(110)와 통신하는 프로그램 모듈들일 수 있다. 이러한 프로그램 모듈들은 운영 시스템, 응용 프로그램 모듈 및 기타 프로그램 모듈의 형태로 연산부(110)에 포함될 수 있으며, 물리적으로는 여러가지 공지의 기억 장치 상에 저장될 수 있다. 또한, 이러한 프로그램 모듈들은 연산부(110)와 통신 가능한 원격 기억 장치에 저장될 수도 있다. 이러한 프로그램 모듈들은 본 발명에 따라 후술할 특정 업무를 수행하거나 특정 추상 데이터 유형을 실행하는 루틴, 서브루틴, 프로그램, 오브젝트, 컴포넌트, 데이터 구조 등을 포괄하지만, 이에 제한되지는 않는다.
한편, 연산부(110)는 필요에 따라 URL(Uniform Resource Locator)과 같은 웹 페이지의 식별자에 대응되어 저장되어 있는, 웹 페이지 내의 텍스트의 추출 범위에 관한 정보(예를 들면, 웹 페이지의 특성에 따라 단위, 문장, 단락 및 전문 중 어느 범위의 텍스트를 추출할지에 대한 정보)를 저장하고 있는 텍스트 추출 범위 정보 데이터베이스(130)를 참조할 수 있으며, 상기 텍스트 추출 범위 정보 데이터베이 스(130)는 연산부(110) 내에 일 구성요소로서 포함될 수도 있다.
또한, 연산부(110)는 프로그램 구동부(미도시)를 추가로 포함하여 프로그램 저장부(150)에 저장되어 있는 프로그램, 즉, 본 발명에 따라 텍스트를 추출하고/추출하거나 추출된 텍스트를 이용하여 텍스트 기반 서비스를 제공하기 위한 프로그램이 사용자가 웹 브라우저를 실행할 때에 함께 구동되도록 할 수도 있다. 프로그램 저장부(150)는 반드시 사용자 컴퓨터(100)의 일 구성요소로서 포함될 필요는 없으며, 컴퓨터로 판독이 가능한 공지의 기록 매체, 즉, 하드 디스크, 플로피 디스크, 플롭티컬 디스크, 자기 테이프, CD-ROM, DVD 등의 기록 매체로 대체될 수도 있다.
사용자 입력부(170)는 통상의 컴퓨터 입력 수단, 즉, 키보드 또는 마우스 등일 수 있으며, 출력부(180)는 웹 브라우저 표시 및/또는 웹 페이지 표시를 시각적으로 나타내기 위한 컴퓨터 모니터나 텍스트를 음성으로 출력할 수 있는 스피커 등으로 구현될 수 있다.
서버의 구성
한편, 도 2b에 도시되는 TTS 서버(300)는 TTS 서비스, 즉, 웹 페이지 내의 적어도 일부의 텍스트를 음성으로 변환하여 이를 사용자에게 제공해 주는 서비스를 제공하기 위한 서버일 수 있다. 이러한 TTS 서버(300)는 인터넷 포털 사이트의 웹 서버일 수도 있고, TTS 서비스만을 전문적으로 제공하는 업체의 운영 서버일 수도 있다. 또한, 본 발명의 다른 실시예에 따르면, TTS 서버(300)는 TTS 서비스와 직접 관련되어 있지 않은 일반적인 웹 서버로 치환될 수도 있다.
본 발명의 일 실시예에 따른 TTS 서버(300)는 최신 추출 범위 정보 판단 부(310), 최신 추출 범위 정보 획득부(330) 및 TTS 변환부(370)를 포함하여 이루어질 수 있다. 본 발명의 일 실시예에 따르면, 최신 추출 범위 정보 판단부(310), 최신 추출 범위 정보 획득부(330) 및 TTS 변환부(370)는 그 중 적어도 일부가 TTS 서버(300)에 포함되거나 TTS 서버(300)와 통신하는 프로그램 모듈들일 수 있다. 이러한 프로그램 모듈들은 운영 시스템, 응용 프로그램 모듈 및 기타 프로그램 모듈의 형태로 TTS 서버(300)에 포함될 수 있으며, 물리적으로는 여러가지 공지의 기억 장치 상에 저장될 수 있다. 또한, 이러한 프로그램 모듈들은 TTS 서버(300)와 통신 가능한 원격 기억 장치에 저장될 수도 있다. 이러한 프로그램 모듈들은 본 발명에 따라 후술할 특정 업무를 수행하거나 특정 추상 데이터 유형을 실행하는 루틴, 서브루틴, 프로그램, 오브젝트, 컴포넌트, 데이터 구조 등을 포괄하지만, 이에 제한되지는 않는다.
참고로, 도 1 및 도 2에 도시된 각 구성요소는 서로 필요에 따라 신호를 주고 받을 수 있는 것으로 이해되어야 하지만, 본 발명의 구현에 필요한, 상기와 같은 신호 교환을 위한 공지의 통신 수단에 대하여는 구체적으로 설명하지 않기로 한다.
텍스트의 추출 및 음성 변환
도 3은 본 발명의 일 실시예에 따라 텍스트를 추출하고 추출된 텍스트를 음성으로 변환하는 과정을 나타내는 흐름도이다. 이하에서는, 도 2a 및 도 2b와 더불어 도 3을 참조하여, 본 발명의 일 실시예에 따라 웹 페이지 내의 텍스트를 추출하는 과정과 추출된 텍스트를 음성 변환하여 출력하는 과정을 상세하게 살펴보기로 한다.
사용자가 사용자 컴퓨터(100)를 이용하여 웹 브라우저를 실행시키면 본 발명의 일 실시예에 따라 텍스트를 추출하고 추출된 텍스트를 음성으로 변환하여 출력하기 위한 프로그램이 함께 구동된다. 이 프로그램은 전술한 바와 같이 사용자 컴퓨터(100) 내부에 포함되는 프로그램 저장부(150)에 기록되어 있을 수도 있고, 별도의 기록 매체에 기록되어 있을 수도 있다.
이후, 사용자는 인터넷에 접속할 수 있고, 기동된 웹 브라우저를 통해 소정의 URL을 갖는 웹 페이지를 방문할 수 있다. 한편, 수많은 서버들이 웹 브라우저를 통해 열람 가능한 컨텐츠를 제공하게 되는데, 이들의 위치를 표시하기 위하여 통상적으로 URL이 사용된다. 이러한 URL은 인터넷 상의 각 서버들에 있는 파일들의 위치를 명시하기 위한 것이지만, URL은 비교적 자유롭게 정해질 수 있는 속성을 가지므로, 웹 페이지의 특성을 나타내기 위한 다른 정보(예를 들면, 본 발명의 일 실시예에 따른 텍스트 추출 범위에 관한 정보)도 역시 포함할 수 있다. 어느 경우에나, URL 또는 URL의 일부가 본 발명에 따른 텍스트 추출 범위에 관한 정보와 대응될 수 있다.
도 3을 참조하여, 본 발명의 일 실시예에 따라 웹 페이지로부터 텍스트를 추출하고 이를 음성 변환한 데이터를 출력하는 과정에 대하여 살펴보기로 한다.
먼저, 사용자가 사용자 컴퓨터(100)의 웹 브라우저에 의해 디스플레이되는, 웹 페이지에 포함된 텍스트 상에 마우스 포인터를 위치시키면, 단계 S310에서, 연산부(110)의 마우스오버 인식부(111)는 마우스오버 이벤트가 발생하였는지 여부를 파악한다.
단계 S330에서는, 추출 범위 정보 확인부(112)가 현재의 웹 페이지의 URL에 대응되어 저장되어 있는 텍스트 추출 범위에 대한 정보가 텍스트 추출 범위 정보 데이터베이스(130)에 존재하는지 여부를 판단한다. 앞서 간략하게 언급한 바와 같이, 텍스트 추출 범위 정보 데이터베이스(130)에는 웹 페이지의 URL에 대응되어 텍스트 추출 범위에 대한 정보가 저장된다. 이러한 텍스트 추출 범위에 대한 정보는 URL별로 따로 저장될 수도 있으며, 해당 웹 페이지의 몇 가지 유형별로 나뉘어져 집합적으로 저장될 수도 있다. 이에 대해서는 이하에서 더욱 상세히 설명하도록 한다.
단계 S330에서 추출 범위 정보 확인부(112)에 의해 현재의 웹 페이지의 URL에 대응하는 텍스트 추출 범위에 관한 정보가 텍스트 추출 범위 정보 데이터베이스(130)에는 존재하지 않는 것으로 판단되면, 단계 S331에서는, 추출 범위 정보 요청부(113)가 현재의 웹 페이지의 URL에 해당하는 텍스트 추출 범위에 관한 정보를 TTS 서버(300)에 요청한다. 본 발명의 일 실시예에 따르면, TTS 서버(300)가 참조하는 최신 추출 범위 정보 데이터베이스(500)는 TTS 서비스를 제공하기 위해 필요한 여러가지 정보, 즉, URL마다의 텍스트 추출 범위에 대한 정보 및 URL별로 제공되는 웹 페이지의 유형에 대한 정보를 주기적으로 업데이트하여 텍스트 추출 범위에 대한 가장 최신의 정보를 저장하고 있다. 추출 범위 정보 요청부(113)가 현재의 웹 페이지의 URL에 해당하는 텍스트 추출 범위에 대한 정보를 요청하면 TTS 서버(300)의 최신 추출 범위 정보 획득부(330)는 최신 추출 범위 정보 데이터베이 스(500)를 참조하여 가장 최신의 정보를 사용자 컴퓨터(100)의 연산부(110)에 전송한다.
단계 S330에서 추출 범위 정보 확인부(112)에 의해 해당 URL에 대응하는 텍스트 추출 범위에 관한 정보가 텍스트 추출 범위 정보 데이터베이스(130)에 존재하는 것으로 판단되면, 단계 S333에서는, 연산부(110)의 최신 추출 범위 정보 요청부(115)가 텍스트 추출 범위 정보 데이터베이스(130)에 존재하는 정보가 최신의 정보인지 여부를 판단한 후, 최신의 정보가 아닐 경우에는 TTS 서버(300)로부터 최신의 정보를 제공 받기 위한 요청을 전송한다. TTS 서버(300)의 최신 추출 범위 정보 판단부(310)는, 최신 추출 범위 정보 요청부(115)의 요청에 따라 최신 추출 범위 정보 데이터베이스(500)에 저장되어 있는 정보를 참조하여 텍스트 추출 범위 정보 데이터베이스(130)에 존재하는 정보가 최신의 정보인지 여부를 판단하고, 만약 해당 정보가 최신의 정보이면 이에 따른 소정의 신호를 사용자 컴퓨터(100)로 전송한다. 만약 해당 정보가 최신의 정보가 아니라면 최신 추출 범위 정보 획득부(330)가 최신 추출 범위 정보 데이터베이스(500)에 저장되어 있는 최신의 텍스트 추출 범위 정보를 연산부(110)로 전송할 수 있다.
단계 S340에서는, 단계 S331 또는 단계 S333에서 발하여진 요청에 응답하여 TTS 서버(300)가 전송한 텍스트 추출 범위에 관한 정보를 연산부(110)가 수신한다. 즉, 연산부(110)는 현재 웹 브라우저에 디스플레이되고 있는 웹 페이지의 텍스트 중 마우스오버된 위치에 있는 단어만을 추출할지, 문장 또는 단락을 추출할지, 아니면 해당 웹 페이지에 포함되는 텍스트 전문을 추출할지 여부에 관한 정보를 수신 한다. TTS 서버(300)에 의해 참조되는 최신 추출 범위 정보 데이터베이스(500)에는 URL별로 텍스트 추출 범위에 대한 최신의 정보가 업데이트되어 저장되어 있기 때문에 단계 S340에서 TTS 서버(300)로부터 수신된 텍스트 추출 범위에 관한 정보는 항상 최신의 정보일 수 있다.
또한, 연산부(110)는 TTS 서버(300)로부터 수신된 텍스트 추출 범위에 관한 최신 정보를 텍스트 추출 범위 정보 데이터베이스(130)에 저장한다. 현재의 웹 페이지의 텍스트 추출 범위에 관한 정보가 텍스트 추출 범위 정보 데이터베이스(130)에 존재하지만, TTS 서버(300)에 의해 그 정보가 최신의 정보가 아니라고 판단되는 경우에는, 텍스트 추출 범위 정보 데이터베이스(130)에 저장되어 있는 정보가 TTS 서버(300)에 의해 전송된 최신의 정보로 업데이트되고, 그렇지 않은 경우에는 이러한 업데이트는 생략될 수 있다. 한편, 단계 S330에서의 판단 결과가 '아니오'인 경우, 수신된 최신의 텍스트 추출 범위 정보는 텍스트 추출 범위 정보 데이터베이스(130)에 신규로 저장된다.
단계 S350에서는, TTS 서버(300)로부터 수신된 텍스트 추출 범위 정보 또는 텍스트 추출 범위 정보 데이터베이스(130)에 저장되어 있던 최신의 텍스트 추출 범위에 관한 정보에 기초하여 단어, 문장, 단락 또는 전문을 추출함에 있어서, 필요한 추출 방식을 결정할 수 있다. 본 발명에 따른 예시적인 텍스트 추출 방식에는 어떠한 것이 있는지에 관하여는 후술하기로 한다.
단계 S360에서는, 선행 단계에서 결정된 텍스트 추출 범위와 텍스트 추출 방식에 기초하여 텍스트를 추출한다. 이때에, 추출된 범위의 텍스트는 반전되어 표 시되는 등, 이에 의해 추출되지 않은 여타의 텍스트와는 시각적으로 구별될 수 있다. 따라서, 사용자는 웹 페이지 중 어느 부분의 텍스트가 추출되었는지에 대하여 파악할 수 있게 되고, 이에 의해 해당 웹 페이지가 어떠한 특성을 갖고 있는지에 대해서도 간접적으로 확인할 수 있게 된다. 나아가서는, 사용자는 웹 페이지와 이에 대응되는 텍스트 추출의 범위가 적절치 못하다고 생각할 때에는 이를 사용자 피드백으로서 TTS 서버(300)에 제공할 수도 있다.
단계 S370에서는, 단계 S360에서 추출된 텍스트가 TTS 서버(300)로 전송된다. TTS 서버(300)의 TTS 변환부(370)는 텍스트를 음성으로 변환하는 데에 필요한 정보를 저장하고 있는 음성 변환 데이터베이스(700)를 참조하여 전송 받은 텍스트를 음성 데이터로 변환시키고, 이를 다시 사용자 컴퓨터(100)로 전송할 수 있다. 음성 변환 데이터베이스(700)에는 코드화된 각 텍스트별로 음성 데이터가 저장되어 있을 수도 있고, 단어별, 문장별, 또는 단락별로 이에 대응되는 음성 데이터가 저장되어 있을 수도 있다.
단계 S380에서는, TTS 서버(300)로부터 전송되는 음성 데이터가 사용자 컴퓨터(100)로 수신된다.
단계 S390에서는, 수신된 상기 음성 데이터가 연산부(110)의 음성 데이터 제공부(119)에 의해 제공되는데, 해당 음성 데이터는 스피커 등의 출력부(180)에 의해 출력될 수 있다.
본 명세서에서는 본 발명의 일 실시예로서 사용자 컴퓨터(100)에는 TTS 서버(300)와는 별도의 텍스트 추출 범위 정보 데이터베이스(130)가 존재하고 기본적 으로 이에 저장되어 있는 텍스트 추출 범위 정보에 기초하여 텍스트가 추출되는 것으로 상정하고 있지만, 이러한 구성요소를 생략한 채 어떠한 범위의 텍스트를 추출할 것인가를 결정하기 위한 참조 데이터베이스를 최신 추출 범위 정보 데이터베이스(500)로 일원화하는 것도 가능하며, 음성 변환이 상기 예시적으로 설명된 바와 달리, TTS 서버(300)에 의한 음성 변환 데이터베이스(700)의 참조 없이, 사용자 컴퓨터(100)에서 이루어지는 것도 역시 가능하다는 점이 이해되어야 한다. 한편, 본 발명에서 언급하고 있는, 소위 텍스트 추출 역시 상기 실시예에 따른 본 발명을 변경하기에 따라서는 사용자 컴퓨터(100)에서는 물론, 대안적으로는 TTS 서버(300)에서도 이루어질 수 있음이 또한 이해되어야 한다.
텍스트 추출 범위 정보의 활용
본 발명의 일 실시예에 따르면, 웹 페이지의 특성에 따라 서로 다른 범위의 텍스트가 추출되어 이용될 수 있다고 이해된다. 이하에서는, 텍스트 추출의 범위를 차별화하기 위한 기준인 웹 페이지의 특성의 예에는 어떠한 것이 있는지 알아보기로 한다.
사용자가 사용자 컴퓨터(100)를 이용하여 웹 브라우저를 실행시키고 인터넷에 접속하여 방문할 수 있는 웹 페이지들은 각각 고유의 URL을 가지고 있으며, 또한 각각의 웹 페이지는 일정한 특성을 갖고 있다. 이러한 웹 페이지들은 그 컨텐츠의 속성에 따라 뉴스 기사 페이지, 생활 정보 페이지, 쇼핑 정보 페이지, 백과사전 페이지, 어학사전 페이지, 전문 정보 페이지, 블로그 페이지 등으로 다양하게 구분될 수 있다. 만약 어떠한 웹 페이지가 담고 있는 컨텐츠가 뉴스 기사라면 그 웹 페이지를 이용하고 있는 사용자는 특정 단어 또는 문장에 집중하기보다는 뉴스 기사의 전문이나 소정 단락의 내용을 파악하고자 할 것이다. 한편, 사용자가 본 출원인의 저명 지식 서비스인 '지식iN' 코너와 같은 전문 정보를 다루고 있는 페이지를 이용하는 경우에는, 지식 질문과 이에 대한 답변 글의 내용에만 관심을 가질 것이다. 또한, 백과사전 또는 어학사전 페이지를 이용하고 있는 사용자라면, 특정 단어에 대한 정의 및 이를 설명하기 위한 예문에만 관심이 있을 가능성이 높다. 따라서, 웹 페이지가 담고 있는 컨텐츠의 속성이나 유형에 따라 텍스트 기반 서비스를 제공하기 위한 기초가 되는 텍스트의 추출 범위는 달라져야 한다. 즉, 예를 들어, 뉴스 기사를 담고 있는 웹 페이지에 대하여는 해당 페이지 내의 텍스트를 단락 또는 전문 단위로 추출하는 것이 바람직할 것이고, 사전 페이지에 대하여는 단어 및 그와 연관된 설명부에 해당하는 텍스트만을 우선 추출하는 것이 바람직할 것이다.
이를 위해, 본 발명의 일 실시예에 따른 텍스트 추출 범위 정보 데이터베이스(130)에는 각 웹 페이지의 특성에 따라 서로 다른 텍스트 추출 범위에 관한 정보가 저장될 수 있다. 본 발명에 따른 텍스트 추출 범위 정보 데이터베이스(130)에서 웹 페이지의 URL 등이 텍스트 추출 범위에 관한 정보와 대응시켜져 저장되어 있을 수 있다는 점은 상기한 바와 같다.
필요에 따라, 추출 범위 정보 데이터베이스(130)의 정보는 사용자의 온라인/오프라인 요청에 의해 변경 또는 삭제될 수 있다. 다만, TTS 서비스를 주도적으로 제공하는 업체만이 추출 범위 정보 데이터베이스(130)의 정보에 대한 접근 권한을 가지는 것이 바람직하다. 앞서 기술한 바와 같이, 추출 범위 정보 데이터베이스(130) 내의 정보는 TTS 서버(300)와의 통신에 의해 최신의 정보로 업데이트될 수 있다. 이를 위하여 TTS 서버(300)에 포함되거나 이와 통신하는 최신 추출 범위 정보 데이터베이스(500)가 이용될 수 있다.
최신 추출 범위 정보의 획득
본 발명의 일 실시예에 따라 연산부(110)의 추출 범위 정보 확인부(112)에 의해 텍스트 추출 범위 정보가 존재하는지 여부를 확인하고 그 결과에 따라 TTS 서버(300)로부터 최신 추출 범위 정보를 획득하는 과정에 대하여 좀 더 살펴보기로 한다.
전술한 바와 같이, 추출 범위 정보 확인부(112)는 현재의 웹 페이지에 대응하는 텍스트 추출 범위에 대한 정보가 사용자 컴퓨터(100)의 텍스트 추출 범위 정보 데이터베이스(130)에 존재하는지 여부를 확인한다.
만약 텍스트 추출 범위 정보 데이터베이스(130)에 현재의 웹 페이지의 URL에 대응되는 텍스트 추출 범위에 대한 정보가 존재하지 않는 것으로 판단되면 연산부(110)의 추출 범위 정보 요청부(113)는 TTS 서버(300)에 해당 텍스트 추출 범위에 대한 정보를 요청한다.
이에, TTS 서버(300)의 최신 추출 범위 정보 획득부(330)는 최신 추출 범위 정보 데이터베이스(500)를 참조하여 추출 범위 정보 요청부(113)에 의해 요청된 텍스트 추출 범위에 대한 정보를 획득하여 사용자 컴퓨터(100)의 연산부(110)에 전송한다. 연산부(110)는 텍스트 추출 범위에 대한 정보를 수신하고 이를 텍스트 추출 범위 정보 데이터베이스(130)에 저장하며 이에 기초하여 현재 웹 페이지의 텍스트를 추출해낸다.
한편, 본 발명의 일 실시예에 따르면, 추출 범위 정보 확인부(112)에 의해 현재의 웹 페이지에 대응되는 텍스트 추출 범위에 대한 정보가 텍스트 추출 범위 정보 데이터베이스(130)에 이미 존재하는 것으로 판단되면, 연산부(110)의 최신 추출 범위 정보 요청부(115)가 TTS 서버(300)에 상기 정보가 최신의 정보인지 여부를 판단할 것을 요청할 수 있다.
이어서, TTS 서버(300)의 최신 추출 범위 정보 판단부(310)는 최신 추출 범위 정보 데이터베이스(500)를 참조하여 현재 텍스트 추출 범위 정보 데이터베이스(130)에 존재하는 텍스트 추출 범위에 대한 정보가 최신의 정보인지 여부를 판단할 수 있다.
이 판단 결과, 텍스트 추출 범위 정보 데이터베이스(130)에 존재하는 정보와 최신 추출 범위 정보 데이터베이스(500)에 존재하는 정보가 동일하다면, TTS 서버(300)는 사용자 컴퓨터(100)의 연산부(110)에 텍스트 추출 범위 정보 데이터베이스(130)의 정보가 최신의 정보임을 확인하는 소정의 신호를 전송할 수 있다.
한편, 텍스트 추출 범위 정보 데이터베이스(130)에 존재하는 정보와 최신 추출 범위 정보 데이터베이스(500)에 존재하는 정보가 상이한 것으로 판단되면, TTS 서버(300)는 최신 추출 범위 정보 데이터베이스(500)에 존재하는 정보를 사용자 컴퓨터(100)의 연산부(110)로 전송할 수 있다. 이에, 연산부(110)는 텍스트 추출 범위 정보 데이터베이스(130)에 저장되어 있던 정보를 수신된 정보로 대체할 수 있 다.
텍스트의 추출 방식
본 발명의 일 실시예에 따르면, 웹 페이지에 포함되는 텍스트를 단어, 문장, 단락 또는 전문의 단위로 추출함에 있어서, MSAA(MicroSoft Active Accessibility) 방식이나 IHTML(Inner HTML) 방식을 사용하여 추출할 수 있으며, 본 발명의 일 실시예에 따르면, 추출 방식에 대한 결정 역시 필요에 따라서는 웹 페이지의 특성에 기초하여 내려질 수 있다. 여기서, MSAA 방식은 통상 많이 사용되는 Internet ExplorerTM 웹 브라우저와 함께 제공되는 소정의 함수를 이용하여 웹 페이지 내의 소정 범위의 텍스트를 추출하는 방식이며, IHTML 방식은 HTML 형식으로 작성된 웹 페이지로부터 태그 단위로 텍스트를 추출하는 방식(예를 들면, 약속된 소정의 태그 사이의 텍스트를 추출하는 방식)이다. 본 발명에 따른 텍스트 추출 방식의 결정은 도 2a에 도시된 것과 같은 추출 방식 결정부(117)에 의하여 내려질 수 있다.
예를 들어, 사용자가 하기와 같은 HTML 소스로 작성된 웹 페이지를 방문하고 있다고 가정하여 본다.
<div class='knCnt' style='overflow:hidden;word-wrap:break-word;word-break:break-all;'>
<P>수학은&nbsp; 과학에게도 밀접하게 관련이 있으며 많은 학문에서 필요로 하는 중요한 학문인데</P>
<P>왜 노벨상이 없을 까요?</P>
<P>필즈상에 대해서도 자세히 써주세요</P>
<P>수학계의 노벨상이 라길래...</P>
</div>
연산부(110)의 마우스오버 인식부(111)에 의해 마우스오버 이벤트가 '과학에게도 밀접하게'에서 '과'의 위치에 발생했다고 인식되었을 경우, MSAA 방식에 의하면 해당 텍스트 전후의 가장 가까운 태그(즉, 예문에서는 <P>와 </P>) 사이의 텍스트인, '수학은 과학에게도 밀접하게 관련이 있으며 많은 학문에서 필요로 하는 중요한 학문인데'라는 문장이 추출될 수 있다. 한편, IHTML 방식에 의하면 <P>라는 HTML 태그의 단위로 텍스트를 추출하는 것도 가능하지만 HTML 전체 문서를 가져와 <div> 태그를 기준으로 하여 텍스트를 추출하는 것도 가능하다. 이와 같이, <div> 태그를 기준으로 하여 텍스트를 추출하게 되면 위와 같은 경우에는 텍스트 전체가 추출되게 된다.
즉, 텍스트 추출 범위 정보 데이터베이스(130) 또는 최신 추출 범위 정보 데이터베이스(500)의 정보에 기초하여 웹 페이지에서 마우스오버된 위치의 텍스트를 추출해낼 때에, 문장 단위로 텍스트를 추출해내는 것이 바람직한 경우라면 연산부(110)의 추출 방식 결정부(117)는 MSAA 방식을 택하는 것이 유리할 수 있다. 한편, 웹 페이지의 특성상 단락 또는 전문 범위의 텍스트를 추출해내야 하는 경우라면, 소정의 HTML 태그를 기준으로 하여 텍스트를 추출해내기에 용이한 IHTML 방식을 택하는 것이 바람직할 수 있다.
이상 설명된 본 발명에 따른 실시예들은 다양한 컴퓨터 구성요소를 통하여 수행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능한 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media) 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령어를 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령어의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 상기 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상에서 본 발명이 구체적인 구성요소 등과 같은 특정 사항들과 한정된 실시예 및 도면에 의해 설명되었으나, 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명이 상기 실시예들에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형을 꾀할 수 있다.
따라서, 본 발명의 사상은 상기 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등하게 또는 등가적으로 변형된 모든 것들은 본 발명의 사상의 범주에 속한다고 할 것이다.
도 1은 본 발명의 일 실시예에 따른 텍스트 추출 시스템의 개략적인 구성을 나타낸 도면이다.
도 2a는 도 1에 도시된 텍스트 추출 시스템 중 사용자 컴퓨터의 상세 구성을 나타낸 도면이다.
도 2b는 도 1에 도시된 텍스트 추출 시스템 중 TTS 서버의 상세 구성을 나타낸 도면이다.
도 3은 본 발명의 일 실시예에 따라 텍스트를 추출하고 추출된 텍스트를 음성으로 변환하는 과정을 나타내는 흐름도이다.
<도면의 주요부분에 대한 부호의 설명>
100: 사용자 컴퓨터
110: 연산부
130: 텍스트 추출 범위 정보 데이터베이스
150: 프로그램 저장부
170: 사용자 입력부
180: 출력부
300: TTS 서버
500: 최신 추출 범위 정보 데이터베이스
700: 음성 변환 데이터베이스

Claims (24)

  1. 웹 페이지가 담고 있는 컨텐츠의 속성이나 유형에 기초하여 텍스트를 추출하는 방법으로서,
    사용자 컴퓨터가 상기 웹 페이지 상의 텍스트 포인터를 인식하는 단계;
    상기 사용자 컴퓨터가 상기 웹 페이지내 컨텐츠의 속성이나 유형을 구분하는 식별자의 적어도 일부에 대응되어 단어, 문장, 단락 및 전문 중 어느 범위의 텍스트를 추출할지를 나타내는 텍스트 추출 범위에 대한 정보가 텍스트 추출 범위 정보 데이터베이스에 존재하는지 여부를 판단하는 단계;
    상기 판단하는 단계의 판단결과, 상기 텍스트 추출 범위에 대한 정보가 상기 텍스트 추출 범위 정보 데이터베이스에 존재하는 경우 상기 사용자 컴퓨터가 상기 텍스트 포인터 정보 및 상기 텍스트 추출 범위에 대한 정보에 기초하여 텍스트 추출 방식을 결정하는 단계; 및
    상기 사용자 컴퓨터가 상기 결정된 텍스트 추출 방식에 따라 텍스트를 추출하는 단계
    를 포함하는 방법.
  2. 제1항에 있어서,
    상기 판단하는 단계의 판단결과, 상기 텍스트 추출 범위에 대한 정보가 상기 텍스트 추출 범위 정보 데이터베이스에 존재하지 않는 것으로 판단되거나, 또는 상기 텍스트 추출 범위 정보 데이터베이스에 존재하는 상기 텍스트 추출 범위에 대한 정보가 최신의 정보가 아니면, 상기 사용자 컴퓨터가 상기 텍스트 추출 범위에 관한 정보를 네트워크를 통해 요청하는 단계;
    상기 사용자 컴퓨터가 상기 네트워크를 통해 상기 텍스트 추출 범위에 관한 정보에 대한 최신의 정보를 수신하는 단계; 및
    상기 네트워크를 통해 수신된 상기 텍스트 추출 범위에 관한 정보에 대한 최신의 정보를 상기 텍스트 추출 범위 정보 데이터베이스에 저장하는 단계를 더 포함하는 방법.
  3. 제1항에 있어서,
    상기 텍스트 포인터 정보는 마우스오버 이벤트에 의해 생성되는 방법.
  4. 제3항에 있어서,
    상기 마우스오버 이벤트는 마우스 포인터가 상기 웹 페이지의 소정 영역에 일정 시간 이상 멈춰 있는 경우에 발생되는 방법.
  5. 제1항에 있어서,
    상기 식별자는 URL인 방법.
  6. 삭제
  7. 삭제
  8. 제1항에 있어서,
    상기 텍스트 추출 방식을 결정하는 단계는 상기 웹 페이지의 텍스트를 MSAA 방식으로 추출할지 또는 IHTML 방식으로 추출할지 여부를 결정하는 단계를 포함하는 방법
  9. 제1항에 있어서,
    상기 텍스트를 추출하는 단계 이후에,
    상기 추출된 텍스트와 연관된 음성 데이터를 제공하는 단계를 더 포함하는 방법.
  10. 제9항에 있어서,
    상기 음성 데이터는 상기 추출된 텍스트에 대응하는 음성 데이터인 방법.
  11. 제9항에 있어서,
    상기 음성 데이터는 상기 추출된 텍스트를 번역한 텍스트에 대응하는 음성 데이터인 방법.
  12. 웹 페이지가 담고 있는 컨텐츠의 속성이나 유형에 기초하여 텍스트를 추출하는 시스템으로서,
    웹 페이지 상의 텍스트 포인터를 인식하는 인식부,
    상기 웹 페이지내 컨텐츠의 속성이나 유형을 구분하는 식별자의 적어도 일부에 대응되어 단어, 문장, 단락 및 전문 중 어느 범위의 텍스트를 추출할지를 나타내는 텍스트 추출 범위에 대한 정보가 텍스트 추출 범위 정보 데이터베이스에 존재하는지 여부를 판단하는 추출 범위 정보 확인부;
    상기 추출 범위 정보 확인부를 통해 상기 텍스트 추출 범위에 대한 정보가 상기 텍스트 추출 범위 정보 데이터베이스에 존재하는 경우로 판단되면 상기 텍스트 포인터 정보 및 상기 텍스트 추출 범위에 대한 정보에 기초하여 텍스트 추출 방식을 결정하는 추출 방식 결정부; 및
    상기 결정된 텍스트 추출 방식에 따라 텍스트를 추출하는 텍스트 추출부
    를 포함하는 시스템.
  13. 제12항에 있어서,
    상기 추출 범위 정보 확인부를 통해 상기 텍스트 추출 범위에 대한 정보가 상기 텍스트 추출 범위 정보 데이터베이스에 존재하지 않는 것으로 판단되거나, 또는 상기 텍스트 추출 범위 정보 데이터베이스에 존재하는 상기 텍스트 추출 범위에 대한 정보가 최신의 정보가 아니면, 상기 텍스트 추출 범위에 관한 정보를 네트워크를 통해 요청하는 추출 범위 정보 요청부를 더 포함하고,
    상기 텍스트 추출 범위 정보 데이터베이스는 상기 네트워크를 통해 수신된 상기 텍스트 추출 범위에 관한 정보에 대한 최신의 정보를 저장하는 것을 특징으로 하는 시스템.
  14. 제12항에 있어서,
    상기 텍스트 포인터 정보는 마우스오버 이벤트에 의해 생성되는 시스템.
  15. 제14항에 있어서,
    상기 마우스오버 이벤트는 마우스 포인터가 상기 웹 페이지의 소정 영역에 일정 시간 이상 멈춰 있는 경우에 발생되는 시스템.
  16. 제12항에 있어서,
    상기 식별자는 URL인 시스템.
  17. 삭제
  18. 삭제
  19. 제12항에 있어서,
    상기 추출 방식 결정부에서는, 상기 웹 페이지의 텍스트를 MSAA 방식으로 추출할지 또는 IHTML 방식으로 추출할지 여부가 결정되는 시스템.
  20. 제12항에 있어서,
    상기 추출된 텍스트와 연관된 음성 데이터를 제공하는 음성 데이터 제공부를 더 포함하는 시스템.
  21. 삭제
  22. 제20항에 있어서,
    상기 음성 데이터는 상기 추출된 텍스트에 대응하는 시스템.
  23. 제20항에 있어서,
    상기 음성 데이터는 상기 추출된 텍스트를 번역한 텍스트에 대응하는 시스템.
  24. 제1항 또는 제2항에 따른 방법을 실행하기 위한 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체.
KR1020070119406A 2007-11-21 2007-11-21 웹 페이지의 특성에 기초하여 텍스트를 추출하기 위한방법, 시스템 및 컴퓨터 판독 가능한 기록 매체 KR100958934B1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1020070119406A KR100958934B1 (ko) 2007-11-21 2007-11-21 웹 페이지의 특성에 기초하여 텍스트를 추출하기 위한방법, 시스템 및 컴퓨터 판독 가능한 기록 매체
JP2008295183A JP4907635B2 (ja) 2007-11-21 2008-11-19 ウェブページの特性に基づいてテキストを抽出するための方法、システム及びコンピュータ読み取り可能な記録媒体
CN2008101770713A CN101441648B (zh) 2007-11-21 2008-11-19 基于网页特性抽出文本的方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020070119406A KR100958934B1 (ko) 2007-11-21 2007-11-21 웹 페이지의 특성에 기초하여 텍스트를 추출하기 위한방법, 시스템 및 컴퓨터 판독 가능한 기록 매체

Publications (2)

Publication Number Publication Date
KR20090052757A KR20090052757A (ko) 2009-05-26
KR100958934B1 true KR100958934B1 (ko) 2010-05-19

Family

ID=40726086

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020070119406A KR100958934B1 (ko) 2007-11-21 2007-11-21 웹 페이지의 특성에 기초하여 텍스트를 추출하기 위한방법, 시스템 및 컴퓨터 판독 가능한 기록 매체

Country Status (3)

Country Link
JP (1) JP4907635B2 (ko)
KR (1) KR100958934B1 (ko)
CN (1) CN101441648B (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101363155B1 (ko) * 2009-08-04 2014-02-14 배경아 포인팅디바이스로 지시되는 이미지 영역에 포함된 텍스트를 인식하고 검색하는 시스템 및 방법

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010099529A (ko) * 2000-04-27 2001-11-09 이장욱 인터넷 티브이 단말기에서 웹 페이지상의 정보 제공 방법
KR20020007423A (ko) * 1999-05-28 2002-01-26 추후제출 웹 페이지 상에서 선택한 텍스트를 사용한 텔레비전프로그램 데이터베이스 내에서의 검색 방법 및 시스템
KR20030062876A (ko) * 2002-01-21 2003-07-28 엘지전자 주식회사 인터넷 티브이 및 그 텍스트 표시방법

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003248613A (ja) * 2001-11-20 2003-09-05 Sharp Corp 情報配信システムおよびそれに用いられる配信情報生成装置
CN100442283C (zh) * 2005-10-20 2008-12-10 关涛 面向领域基于样本的互联网结构化数据抽取方法及其***
CN100472435C (zh) * 2005-12-31 2009-03-25 腾讯科技(深圳)有限公司 一种基于个人信息管理软件的个人信息管理方法
KR20070095179A (ko) * 2006-03-20 2007-09-28 삼성전자주식회사 영상 패턴을 이용한 포인팅 입력 장치, 방법, 및 시스템

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020007423A (ko) * 1999-05-28 2002-01-26 추후제출 웹 페이지 상에서 선택한 텍스트를 사용한 텔레비전프로그램 데이터베이스 내에서의 검색 방법 및 시스템
KR20010099529A (ko) * 2000-04-27 2001-11-09 이장욱 인터넷 티브이 단말기에서 웹 페이지상의 정보 제공 방법
KR20030062876A (ko) * 2002-01-21 2003-07-28 엘지전자 주식회사 인터넷 티브이 및 그 텍스트 표시방법

Also Published As

Publication number Publication date
JP4907635B2 (ja) 2012-04-04
JP2009129456A (ja) 2009-06-11
CN101441648A (zh) 2009-05-27
CN101441648B (zh) 2011-12-14
KR20090052757A (ko) 2009-05-26

Similar Documents

Publication Publication Date Title
RU2295150C2 (ru) Сегмент данных о переводе
RU2360281C2 (ru) Представление данных на основе введенных пользователем данных
US9530415B2 (en) System and method of providing speech processing in user interface
US9092542B2 (en) Podcasting content associated with a user account
US8694319B2 (en) Dynamic prosody adjustment for voice-rendering synthesized data
US8510277B2 (en) Informing a user of a content management directive associated with a rating
US20070073756A1 (en) System and method configuring contextual based content with published content for display on a user interface
US20070214148A1 (en) Invoking content management directives
US20020143523A1 (en) System and method for providing a file in multiple languages
TW200947234A (en) Techniques for input recognition and completion
US20150161111A1 (en) Interpreted Language Translation System and Method
CN101021862A (zh) 用于集中内容管理的方法和***
US20050010422A1 (en) Speech processing apparatus and method
CN117061495A (zh) 在基于音频的计算环境中执行请求的动作的平台选择
US20120120436A1 (en) Remote printing
US11262978B1 (en) Voice-adapted reformulation of web-based answers
KR100958934B1 (ko) 웹 페이지의 특성에 기초하여 텍스트를 추출하기 위한방법, 시스템 및 컴퓨터 판독 가능한 기록 매체
KR100916814B1 (ko) 태그 정보에 기초하여 텍스트를 추출하기 위한 방법,시스템 및 컴퓨터 판독 가능한 기록 매체
KR102585545B1 (ko) 음성 기반 제품사용설명서 안내 서비스 제공 방법
WO2020189376A1 (ja) 音声出力方法、音声出力システム及びプログラム
US20240095448A1 (en) Automatic guidance to interactive entity matching natural language input
US20120150884A1 (en) Apparatus and method for universal data access by location based systems
JP2009151541A (ja) 検索システムにおける最適情報の提示方法
Lunn et al. A user evaluation of the SADIe transcoder
JP2009217642A (ja) 評判情報抽出装置、辞書構築方法、及びプログラム

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130329

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20160329

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20170328

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20190401

Year of fee payment: 10