KR20120051517A - 음성데이터를 이용한 문서생성 방법 및 시스템과, 이를 구비한 화상형성장치 - Google Patents

음성데이터를 이용한 문서생성 방법 및 시스템과, 이를 구비한 화상형성장치 Download PDF

Info

Publication number
KR20120051517A
KR20120051517A KR1020100113000A KR20100113000A KR20120051517A KR 20120051517 A KR20120051517 A KR 20120051517A KR 1020100113000 A KR1020100113000 A KR 1020100113000A KR 20100113000 A KR20100113000 A KR 20100113000A KR 20120051517 A KR20120051517 A KR 20120051517A
Authority
KR
South Korea
Prior art keywords
document
voice data
setting
unit
voice
Prior art date
Application number
KR1020100113000A
Other languages
English (en)
Other versions
KR101756836B1 (ko
Inventor
길현섭
임목화
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020100113000A priority Critical patent/KR101756836B1/ko
Priority to US13/295,181 priority patent/US8773696B2/en
Publication of KR20120051517A publication Critical patent/KR20120051517A/ko
Application granted granted Critical
Publication of KR101756836B1 publication Critical patent/KR101756836B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • User Interface Of Digital Computer (AREA)
  • Facsimiles In General (AREA)

Abstract

음성데이터를 이용한 문서생성 방법 및 시스템과, 이를 구비한 화상형성장치가 개시된다. 그 문서생성방법은 음성데이터를 문서로 변환할 때 상기 문서의 편집을 위한 문서형식에 관한 정보 및 문장패턴에 관한 정보 중 적어도 하나를 포함하는 문서편집정보를 설정하는 단계; 음성데이터를 텍스트로 변환하는 단계; 및 설정된 정보에 따라 상기 텍스트를 문서로 생성하는 단계를 포함하는 것을 특징으로 한다.
본 발명에 의하면, 화상형성장치에 저장되어 있는 음성 데이터와 수신된 음성신호를 하나의 문서처럼 인쇄할 수 있고, 음성 데이터의 특징과 사용자의 편집 요청 내용에 따라 서식 및 문장 구성을 조정하여 문서를 생성할 수 있다. 이를 통해 Voice To Text 로 단순 변환된 문서에 비해 가독성을 높여 사용성을 높일 수 있다.

Description

음성데이터를 이용한 문서생성 방법 및 시스템과, 이를 구비한 화상형성장치 {Method and system for generating document using speech data, and Image forming apparatus having it}
본 발명은 화상형성장치에서의 음성인식에 관한 것으로서, 특히 화상형성장치 내에서 음성 특성을 이용해 자동으로 편집하는 기능을 제공하여 사용성을 높일 수 있는, 음성데이터를 이용한 문서생성 방법 및 시스템과, 이를 구비한 화상형성장치 장치에 관한 것이다.
일반적으로 화상형성장치는 일반적으로 Copy/Fax/Scan/Print 등의 기능을 실행할 수 있다. 도 1에 도시된 바와 같이 화상형성장치가 음성인식 기술을 포함하고 있을 경우에는, Voice to Text 기능으로 입력된 음성 데이터를 인식하여 텍스트(Text)로 변환한 후 이메일(Email), SMB/FTP, 내부 저장매체, 외부 저장매체 등을 통해 Send 및 인쇄를 수행할 수 있다. 입력으로 사용되는 음성 데이터는 전화나 마이크, 또는 저장된 음성 파일로부터 획득된다. 도 2는 화상형성장치가 입력된 음성 데이터를 최종 출력으로 인쇄를 하는 경우를 보여 준다.
그런데, 음성인식 기술이 발전해 감에 따라 Voice To Text(VTT), Text To Voice(TTV) 등의 기술이 빠르게 발전하고 있다. 저장된 음성파일이나 전화로 수신된 음성 데이터 등을 단순히 인쇄하는 것이 아니라, 사용자가 보기 쉽게 자동 편집하는 방법을 제공하면 유용할 것이다.
음성인식(Voice Recognition, Speech Recognition)은 컴퓨터 혹은 정보화 기기가 음향학적 신호를 텍스트로 매핑(mapping)시키는 과정이다. 정보화 기기는 음성인식 기술을 활용하여 음성 데이터를 텍스트(Text)로 변환 출력할 수 있다.
그런데, 종래 기술은 음성 데이터를 일률적으로 VTT를 거쳐 텍스트(text) 파일로 변환한 후 Send(Fax, Email, SMB/FTP) 또는 인쇄 출력한다. 따라서 최종 변환된 텍스트 파일은 어떠한 문서편집도 거치지 않아 사용성이 떨어진다.
본 발명이 해결하고자 하는 과제는 USB Memory Stick 또는 Network Disk Driver등에 저장된 음성파일 또는 전화로 수신된 음성 데이터를 텍스트(Text)로 화상형성장치에서 변환하는 과정에서, 각 음성 데이터의 특징(화자 구분, 강조 부분 분리) 혹은 특정 패턴의 단어(Chapter 등)를 구분하여 자동 편집하는, 음성데이터를 이용한 문서생성 방법 및 시스템을 제공하는 것이다.
본 발명이 해결하고자 하는 과제는 상기 음성데이터를 이용한 문서생성이 가능한 화상형성장치를 제공하는 것이다.
상기 기술적 과제를 이루기 위한 본 발명에 의한 음성데이터를 이용한 문서생성 방법은, 음성데이터를 문서로 변환할 때 상기 문서의 편집을 위한 문서형식에 관한 정보 및 문장패턴에 관한 정보 중 적어도 하나를 포함하는 문서편집정보를 설정하는 단계; 상기 음성데이터를 텍스트로 변환하는 단계; 및 상기 설정된 정보에 따라 상기 텍스트를 문서로 생성하는 단계를 포함하고, 상기 문서형식에 관한 정보는 상기 문서를 대화 형식으로 표현할지, 문서에 특정화자의 음성데이터 만을 텍스트로 표현할지, 문서에 음성데이터의 생성시간을 표시할지 등의 문서표현 형식에 따른 문서편집 사항을 포함하고, 상기 문장패턴에 관한 정보는 상기 음성데이터에 포함되어 있는 특정단어, 억양, 화자 바뀜 등에 따라 페이지 넘김, 줄 바꿈, 강조 등 문장 패턴에 따른 문서편집 사항을 포함하는 것을 특징으로 한다.
상기 음성데이터를 이용한 문서생성 방법은, 상기 생성된 문서를 미리 보기를 통해 줄바뀜, 페이지 넘김, 폰트 사이즈, 폰트 컬러, 굵은 글씨체 등 세부적으로 편집할 수 있게 하는 단계를 더 포함하는 것이 바람직하다. 상기 음성데이터를 이용한 문서생성 방법은, 상기 생성된 문서 데이터를, 인쇄, 저장매체에 저장, 전송 중 적어도 하나로 출력하도록 출력방법을 설정하는 단계를 더 포함하는 것이 바람직하다.
상기 기술적 과제를 이루기 위한 본 발명에 의한 음성데이터를 이용한 문서생성 시스템은, 음성데이터를 문서로 생성할 때, 상기 문서의 편집을 위한 문서편집정보를 설정하기 위한 문서형식 설정부 및 문장패턴 설정부 중 적어도 하나를 구비하는 문서편집설정부; 및 상기 음성데이터를 텍스트로 변환하고 상기 문서편집 설정부를 통해 설정된 문서편집정보에 따라 상기 텍스트를 편집하여 문서를 생성하는 문서생성부를 포함하고, 상기 문서형식설정부는 상기 문서를 대화 형식으로 표현할지, 문서에 특정화자의 음성데이터 만을 표현할지, 문서에 음성데이터의 생성시간을 표시할지 등의 문서표현 형식에 따른 문서편집 정보를 미리 설정하는 메뉴를 제공하며, 상기 문장패턴 설정부는 상기 음성데이터로부터 특정단어, 억양, 화자바뀜 등에 따라 페이지 넘김, 줄 바꿈, 강조 등 문장 패턴에 따른 문서편집 정보를 미리 설정하는 메뉴를 제공하는 것을 특징으로 한다.
상기 문서편집설정부는 상기 문서 생성부에서 생성된 문서를 미리보기를 통해 줄바뀜, 페이지 넘김, 폰트 사이즈, 폰트 컬러, 굵은 글씨체 등 세부적으로 편집할 수 있게 하는 세부설정부를 더 포함하는 것이 바람직하다. 상기 음성데이터를 이용한 문서생성 시스템은, 상기 음성데이터는 저장매체로부터 독출되는 음성파일, 전화를 통해 수신되는 음성데이터, 마이크를 통해 입력되는 음성데이터 중 어느 하나인 것으로 설정하는 입력설정부를 더 포함하는 것이 바람직하다. 상기 음성데이터를 이용한 문서생성 시스템은, 상기 문서생성부에서 생성된 문서 데이터를, 인쇄, 저장매체에 저장, 전송 중 어느 하나로 출력하도록 출력방법을 설정하는 메뉴를 제공하는 출력설정부를 더 포함하는 것이 바람직하다.
상기 기술적 과제를 이루기 위한 본 발명에 의한 음성데이터를 이용하여 문서를 생성하는 화상형성장치는, 음성데이터를 문서로 생성할 때, 상기 문서를 편집하기 위한 문서편집정보를 설정하는 문서형식 설정메뉴 및 문장패턴 설정메뉴 중 적어도 하나를 제공하는 사용자 인터페이스부; 상기 사용자 인터페이스부를 통해 설정된 문서설정정보에 따라 상기 음성데이터를 문서로 생성하는 제어부를 포함하고, 상기 문서형식설정메뉴는 상기 문서를 대화 형식으로 표현할지, 문서에 특정화자의 음성데이터 만을 표현할지, 문서에 음성데이터의 생성시간을 표시할지 등의 문서표현 형식에 따른 문서편집 정보를 미리 설정할 수 있는 메뉴로 이루어지며, 상기 문장패턴 설정메뉴는 상기 음성데이터로부터 특정단어, 억양, 화자바뀜 등에 따라 페이지 넘김, 줄 바꿈, 강조 등 문장 패턴에 따른 문서편집 정보를 미리 설정하는 메뉴로 이루어지는 것을 특징으로 한다.
상기 사용자 인터페이스부는 상기 제어부에서 생성된 문서를 미리보기를 통해 줄바뀜, 페이지 넘김, 폰트 사이즈, 폰트 컬러, 굵은 글씨체 등 세부적으로 편집할 수 있게 하는 세부설정메뉴를 더 포함하는 것이 바람직하다.
상기 사용자 인터페이스부는 입력되는 음성데이터를 저장매체에 저장된 음성파일, 전화를 통해 수신되는 음성데이터, 마이크를 통해 입력되는 음성데이터 중 어느 하나로 설정하는 입력설정메뉴를 더 포함하고, 상기 음성파일을 저장하고 있는 음성데이터 저장부; 및 상기 전화 또는 마이크를 통해 음성데이터를 수신하는 음성데이터 수신부를 더 포함하고, 상기 제어부는 상기 입력설정메뉴에서 설정된 음성데이터에 따라 음성데이터를 상기 음성데이터 저장부 또는 음성데이터 수신부를 통해 입력되는 음성데이터를 문서로 생성하는 것이 바람직하다.
상기 사용자 인터페이스부는 상기 제어부에서 생성된 문서 데이터를, 인쇄, 저장매체에 저장, 전송 중 적어도 하나로 출력하도록 출력방법을 설정하는 메뉴를 제공하는 출력설정메뉴를 더 포함하는 것이 바람직하다.
그리고 상기 기재된 발명을 프로세서에 의해 실행되는 프로그램을 기록한 프로세서에 의해 읽을 수 있는 기록매체를 제공한다.
본 발명에 따른 음성데이터를 이용한 문서생성 방법 및 시스템과, 이를 구비한 화상형성장치에 의하면, 종래의 단순 음성만을 일률적으로 텍스트(Text)로 구분하는 방식을 떠나 화상형성장치 내에서 음성 특성을 이용해 자동으로 편집하는 기능을 제공함으로써 문서의 사용성을 높일 수 있다.
또한 사용자는 화상형성장치에 저장되어 있는 음성 데이터와 수신된 음성신호를 하나의 문서처럼 인쇄할 수 있다. 뿐만 아니라 음성 데이터의 특징을 분석하여 음성 데이터의 특징에 맞는 글꼴을, 사용자의 편집 요청 내용에 따른 단락 분리 등을 수행하여 서식 및 문장 구성을 조정하여 문서(Document)를 생성한다. 이를 통해 Voice To Text 로 단순 변환된 문서에 비해 가독성을 높여 사용성을 높일 수 있다.
도 1은 음성인식 기술을 포함하고 있는 화상형성장치를 도시한 것이다.
도 2는 화상형성장치가 입력된 음성 데이터를 최종 출력으로 인쇄하는 것을 도시한 것이다.
도 3은 음성인식 시스템의 구성을 블록도로 도시한 것이다.
도 4는 본 발명에 의한 음성데이터를 이용한 문서생성시스템의 일실시예에 대한 구성을 블록도로 도시한 것이다.
도 5는 입력설정부, 문서편집설정부, 출력설정부를 사용자 인터페이스 화면으로 구현한 예를 도시한 것이다.
도 6은 도 5의 문서형식설정 버튼이 선택되어 활성화될 경우 사용자 인터페이스 화면을 도시한 것이다.
도 7은 도 5의 문장패턴설정 버튼이 선택되어 활성화될 경우 사용자 인터페이스 화면을 도시한 것이다.
도 8은 도 5의 세부설정 버튼이 선택되어 활성화될 경우 사용자 인터페이스 화면을 도시한 것이다.
도 9는 본 발명에 의한 문서생성부의 동작에 대한 일 예를 도시한 것이다.
도 10은 본 발명에 의한 음성데이터를 이용한 문서생성방법에 대한 일실시예를 흐름도로 도시한 것이다.
도 11은 본 발명에 의한, 음성데이터를 이용하여 문서를 생성하는 화상형성장치의 일실시예에 대한 구성을 블록도로 도시한 것이다.
도 12는 주요 핵심단어(keyword), 예를 들어 "chapter"를 캡쳐(capture)하여 자동 줄바꿈 또는 자동 페이지 바꿈 인쇄하는 것을 나타내고 있다.
도 13은 사용자의 억양(accent)을 파악하여 강조된 영역에 대해 굵은 글씨(Bold)체로 인쇄하는 것을 나타내고 있다.
도 14는 사용자가 여러 명인 경우 사용자 별 텍스트를 구분하여 대본 형식으로 인쇄하거나 특정 목소리만 추출하여 인쇄하는 것을 나타내고 있다.
이하, 첨부된 도면을 참조로 본 발명의 바람직한 실시예를 상세히 설명하기로 한다. 본 명세서에 기재된 실시예와 도면에 도시된 구성은 본 발명의 바람직한 일 실시예에 불과할 뿐이고, 본 발명의 기술적 사상을 모두 대변하는 것은 아니므로, 본 출원시점에 있어서 이들을 대체할 수 있는 다양한 균등물과 변형예들이 있을 수 있음을 이해하여야 한다.
도 3은 음성인식 시스템의 구성을 블록도로 도시한 것이다. 도 3을 참조하면, 음성입력(speech input)부(310)는 사람의 목소리가 실시간 입력되거나 저장된 음성 데이터를 가지고 있다.
음성검출(Endpoint detection)부(320)는 음성이 존재하는 부분을 찾는다. 즉 입력 소스(source)로부터 음성부분 만을 검출한다.
음성특징추출(Feature Extraction)부(330)는 인간의 발성기관을 모델링하여 특징(필터) 계수를 찾아낸다.
음성인식 알고리즘(Speech Recognition Algorithm, 340)은 추출된 음성 특징 계수를 활용하여 음성을 인식한다. 일반적인 인식 알고리즘으로는 DTW(Dynamic Time Warping), HMM(Hidden Markov Modeling), ANN 등이 있다.
음성인식 결정(Decision)부(350)는 상기 음성인식 알고리즘(340)의 결과에 대해 인식 또는 오인식을 결정한다.
상기 음성인식 알고리즘에서 사용되는 여러 가지 변수로는 발음방식, 화자, 단어 수, 언어모델, 단어복잡도, 신호대잡음비(SNR) 등이 있다. 먼저 발음방식에는 핵심어 인식, 고립단어 인식, 연결단어 인식, 연속음성인식 등이 있다. 상기 핵심어인식(Keyword Spotting)은 일상적인 문장 속에서 핵심단어 만을 인식한다. 상기 고립단어(Isolated Word)인식은 발음된 단어의 시작과 끝을 알 수 있는 인식이다. 상기 연결단어(Connected Word)인식은 연결된 단어를 인식한다. 상기 연속음성(Continuous Speech)인식은 일상적인 대화체 문장을 인식한다.
그리고 화자에는 화자 종속, 화자 독립, 화자 적응 등이 있다. 상기 화자 종속은 특정화자의 음성만을 인식한다. 화자 독립은 불특정화자의 음성을 인식한다. 화자 적응은 화자 독립의 성질을 가지면서도 특정화자의 음향학적 성질에 적응한다. 또한 단어의 수에는 소, 중, 대가 있다. 소는 1 ~ 99 단어이고, 중은 100 ~ 999 단어이고, 대는 1000 단어 이상이다. 또한 언어 모델에는 유한상태 네트워크와 문맥의존 등이 있다. 또한 단어 복잡도는 단어의 애매성과 음향학정 혼동성이 낮음(<10)과 높음(>100)이 있다. 또한 신호대잡음비(SNR)는 주변 소음 정도가 높음(>30dB)과 낮음(<10dB)이 있다.
도 4는 본 발명에 의한 음성데이터를 이용한 문서생성시스템의 일실시예에 대한 구성을 블록도로 도시한 것으로서, 문서편집설정부(400) 및 문서생성부(410)를 포함하여 이루어지며, 입력설정부(420), 음성데이터 저장부(430), 음성데이터 수신부(440)를 더 포함하는 것이 바람직하다. 또한 본 발명에 의한 음성데이터를 이용한 문서생성시스템의 일실시예는 출력설정부(450), 문서데이터 저장부(460) 및 문서데이터 송신부(470)를 더 포함하는 것이 바람직하다.
상기 문서편집설정부(400)는 음성데이터를 문서로 생성할 때, 상기 문서의 편집을 위한 문서편집정보를 설정하기 위한 문서형식 설정부(402) 및 문장패턴 설정부(404) 중 적어도 하나를 구비하며, 세부설정부(406)를 더 포함하는 것이 바람직하다.
상기 문서형식설정부(402)는 상기 문서를 대화 형식으로 표현할지, 문서에 특정화자의 음성데이터 만을 표현할지, 문서에 음성데이터의 생성시간을 표시할지 등의 문서표현 형식에 따른 문서편집 정보를 미리 설정하는 메뉴를 제공한다.
상기 문장패턴 설정부(404)는 상기 음성데이터로부터 특정단어, 억양, 화자바뀜 등에 따라 페이지 넘김, 줄 바꿈, 강조 등 문장 패턴에 따른 문서편집 정보를 미리 설정하는 메뉴를 제공한다.
상기 문서형식설정부(402)에서의 문서표현 형식 또는 문장패턴 설정부(404)에서의 문장패턴은 텍스트 재배열, 서식, 단락분리 등을 포함할 수 있다.
상기 세부설정부(406)는 상기 문서 생성부(410)에서 생성된 문서를 미리보기를 통해 줄바뀜, 페이지 넘김, 폰트 사이즈, 폰트 컬러, 굵은 글씨체 등 세부적으로 편집할 수 있게 한다.
그리고 상기 문서생성부(410)는 상기 음성데이터를 텍스트로 변환하고 상기 문서편집 설정부(400)를 통해 설정된 문서편집정보에 따라 상기 텍스트를 편집하여 문서를 생성한다.
상기 입력설정부(420)는 상기 음성데이터가 저장매체로부터 독출되는 음성파일, 전화를 통해 수신되는 음성데이터, 마이크를 통해 입력되는 음성데이터 중 어느 하나인 것으로 설정한다. 상기 음성파일은 음성메일로부터 수신된 음성데이터를 포함하는 것이 바람직하다.
상기 음성데이터 저장부(430)는 상기 입력설정부에서 음성파일로 설정된 경우, 음성파일을 저장하고 있다. 상기 음성데이터 수신부(440)는 상기 입력설정부(430)에서 전화(442) 또는 마이크(444)를 통해 입력되는 음성데이터로 설정된 경우, 상기 전화 또는 마이크를 통해 음성 데이터를 수신한다. 이 때 상기 문서생성부(410)는 상기 입력설정부(420)에서 설정된 정보에 따라 음성데이터를 상기 음성데이터 저장부(430) 또는 음성데이터 수신부(440)로부터 입력되는 음성데이터를 문서로 생성한다.
상기 출력설정부(450)는 상기 문서생성부에서 생성된 문서 데이터를, 인쇄, 저장매체에 저장, 전송 중 어느 하나로 출력하도록 출력방법을 설정하는 메뉴를 제공한다.
상기 문서데이터 저장부(460)는 출력설정부(450)에서 설정된 출력방법이 저장매체에 저장으로 설정된 경우, 상기 문서 데이터를 저장한다.
상기 문서데이터 송신부(470)는 상기 출력설정부(450)에서 설정된 출력방법 설정이 '전송'으로 설정된 경우, 상기 문서 데이터를 팩스, 이메일, SMB/FTP 서버, 컴퓨터, eBook 장치 전송 중 적어도 하나로 전송한다.
도 5는 상기 입력설정부(420), 문서편집설정부(400), 출력설정부(450)를 사용자 인터페이스 화면으로 구현한 예를 도시한 것이다.
입력설정부(420)는 '입력설정' 박스(510)로 표시되며, 음성파일선택(512), 전화(514), 마이크(516)를 메뉴로 제공하고, 이 중 어느 하나가 선택되면 활성화되어, 상기 설정된 메뉴가 입력설정정보가 된다.
문서편집설정부(400)는 '편집설정' 박스(520)로 표시되며, '문서형식설정'버튼(22), '문장패턴' 버튼(524),'세부설정' 버튼(526)을 제공하며, 상기 버튼들(522, 524, 526) 중 하나가 클릭되면 활성화된다.
문서형식설정부(402)는 상기 '문서형식설정' 버튼(522)이 클릭되면 활성화되고, 문장패턴설정부(404)는 '문장패턴설정' 버튼(524)이 클릭되면 활성화되고, 세부설정부(406)는 '세부설정' 버튼(526)이 클릭되면 활성화된다.
출력설정부(450)는 '출력설정' 박스(530)로 표시되며, 인쇄, 파일저장, 전송 메뉴를 제공하고, 이 중 적어도 하나가 선택되면 활성화된다. 그리고 상기 메뉴 중 적어도 하나가 선택되면. 출력설정정보로 저장되어, 문서생성부(410)에서 생성된 문서가 출력될 때 상기 설정된 출력설정정보에 따라 문서 출력이 수행된다.
상기 입력설정 박스(510), 편집설정 박스(520) 및 출력설정 박스(530)는 버튼 형태로 구현하여 상기 버튼이 클릭되면 활성화되도록 구현할 수도 있다.
도 6은 도 5의 '문서형식설정' 버튼(522)이 선택되어 활성화될 경우 사용자 인터페이스 화면을 도시한 것으로서, '일반나열'(610), Dialog 형식변환' (620), '특정화자 추출'(630), 'Time Stamp 별 나열'(640) 등의 메뉴를 제공한다. 상기 '일반나열'(610)은 음성데이터가 텍스트로 변환될 때 별도의 편집없이 변환된 텍스트를 기본적인 상태로 나열하는 것이다. 상기 'Dialog 형식변환'(620)은 변환된 텍스트를 Dialog형식으로 변환하는 것이며, '특정화자추출'(630)은 특정 화자의 데이터만 문서에 나타내는 것이며, 'Time Stamp 별 나열'(640)은 문서를 편집할 때 음성데이터가 생성된 시간을 문서에 표시한다. 따라서 도 6의 문서형식설정 사용자인터페이스 화면에서 제공하는 메뉴 중 적어도 하나가 선택되면 상기 선택된 메뉴는 문서편집정보로 설정되어 문서생성부(410)에서 문서를 편집할 때 상기 설정된 문서편집정보에 따라 문서가 편집된다.
도 7은 도 5의 '문장패턴설정' 버튼(524)이 선택되어 활성화될 경우 사용자 인터페이스 화면을 도시한 것으로서, 설정가능한 문장패턴의 특정단어, 공백, 억양높은 단어, 화자바뀜 등의 메뉴를 제공한다. 상기 문장패턴 메뉴에 따라 페이지 바뀜, 줄바꿈, 강조, 소음제거 등의 편집사항을 설정할 수 있다.
도 8은 도 5의 '세부설정' 버튼(526)이 선택되어 활성화될 경우 사용자 인터페이스 화면을 도시한 것이다. 문서생성부(410)에서 편집된 문서가 미리보기 화면(810)으로 디스플레이되면, 사용자는 상기 미리보기 화면(810)을 통해 줄바꿈, 페이지넘김, 폰트 사이즈(font size), 폰트 컬러(font color), Bold, 이탤릭체(Italic), 폰트 타입(font type), 밑줄(underline) 등의 메뉴를 제공하여 미리보기 화면을 통해 문서를 세부적으로 편집할 수 있다.
도 9는 본 발명에 의한 문서생성부(410)의 동작에 대한 일 예를 도시한 것으로서, 음성데이터를 텍스트로 변환한 결과물(910)에 문서편집정보를 적용하여 편집된 문서(950, 960)를 도시한 것이다.
도 10은 본 발명에 의한 음성데이터를 이용한 문서생성방법에 대한 일실시예를 흐름도로 도시한 것이다.
도 10을 참조하면, 입력설정부(420)를 통해 입력되는 음성데이터를 설정한다.(S1000단계) 상기 음성 데이터 설정은 저장매체, 예를 들어 음성데이터 저장부(430)로부터 독출되는 음성파일, 전화를 통해 수신되는 음성데이터, 마이크를 통해 입력되는 음성데이터, 음성메일로부터 수신된 음성데이터 중 어느 하나를 설정하는 것이 바람직하다.
그리고 문서편집설정부(400)의 문서형식설정부(402) 및 상기 문장패턴 설정부(404) 중 적어도 하나를 이용하여 상기 문서의 편집을 위한 문서형식에 관한 정보 및/또는 문장패턴에 관한 정보를 포함하는 문서편집정보를 설정한다.(S1010단계) 상기 문서형식에 관한 정보는 도 6에 도시된 바와 같이 상기 문서를 대화 형식으로 표현할지(Dialog 형식변환), 문서에 특정화자의 음성데이터 만을 텍스트로 표현할지(특정화자 추출), 문서에 음성데이터의 생성시간을 표시할지(Time Stamp별 나열) 등의 문서표현 형식에 따른 문서편집 사항을 포함하는 것이 바람직하다. 상기 문장패턴에 관한 정보는 도 7에 도시된 바와 같이, 상기 음성데이터에 포함되어 있는 특정단어, 억양, 화자바뀜 등에 따라 페이지 넘김, 줄 바꿈, 강조 등 문장 패턴에 따른 문서편집 사항을 포함하는 것이 바람직하다.
그리고, 문서생성부(410)에서 편집된 문서 데이터가 생성된 후, 출력을 어떻게 할 것인지를 설정하기위해, 출력설정부(450)를 통해 문서 출력방법을 설정한다.(S1020단계) 상기 출력방법으로는 도 5에 도시된 바와 같이 인쇄(532), 저장매체에 저장하는 파일저장(534), 전송(532) 중 적어도 하나로 출력하도록 출력방법을 설정한다.
이렇게 입력설정부(420), 문서편집설정부(400) 및 출력설정부(450)을 통해 음성데이터 입력과 문서편집과 문서출력에 관한 정보가 설정되면, 상기 문서생성부(410)는 상기 입력설정부(420)에서 설정된 음성데이터를 받아들여 텍스트로 변환한다.(S1030단계)
그리고 상기 문서편집설정부(400)에서 설정된 문서편집정보에 따라 상기 텍스트를 문서로 생성한다.(S1040단계)
한편, 상기 생성된 문서를 미리보기(preview)를 통해(S1050단계), 상기 세부설정부(406)를 이용하여 설정된 세부 편집 사항에 따라 줄 바뀜, 페이지 넘김, 폰트 사이즈, 폰트 컬러, 굵은 글씨체 등 세부적으로 편집할 수도 있다.(S1060단계)
S1060단계에서 세부 편집이 끝나면, 상기 출력설정부(450)에서 설정된 출력정보에 따라 문서를 출력한다.(S1070단계) 상기 출력설정부(450)에서 설정된 출력방법이 "저장매체에 저장"으로 설정된 경우에는 저장되는 파일의 위치와 이름을 지정하여 문서데이터 저장부(460)에 상기 문서데이터를 저장한다. 또한 출력설정부(450)에서 설정된 출력방법 설정이 '전송'으로 설정된 경우에는 문서생성부(410)에서 생성된 문서 데이터를 팩스, 이메일, SMB/FTP 서버, 컴퓨터 중 어느 하나로 전송할 수 있다.
도 11은 본 발명에 의한, 음성데이터를 이용하여 문서를 생성하는 화상형성장치의 일실시예에 대한 구성을 블록도로 도시한 것이다.
본 발명에 의한 화상형성장치는 사용자 인터페이스부(10) 및 제어부(1140)를 포함하여 이루어지고, 음성데이터 저장부(1150), 음성데이터 수신부(1160), 문서데이터 저장부(1170), 문서데이터 송신부(1180) 중 적어도 하나를 더 포함하는 것이 바람직하다.
상기 사용자 인터페이스부(10)는 음성데이터를 문서로 생성할 때, 상기 문서를 편집하기 위한 문서편집메뉴(1100)를 제공한다. 상기 문서편집메뉴(110)는 문서편집정보를 설정하는 문서형식 설정메뉴(1102) 및 문장패턴 설정메뉴(1100) 중 적어도 하나를 구비한다. 상기 문서형식설정메뉴는 상기 문서를 대화 형식으로 표현할지, 문서에 특정화자의 음성데이터 만을 표현할지, 문서에 음성데이터의 생성시간을 표시할지 등의 문서표현 형식에 따른 문서편집 정보를 미리 설정할 수 있는 메뉴로 이루어진다. 상기 문장패턴 설정메뉴는 상기 음성데이터로부터 특정단어, 억양, 화자바뀜 등에 따라 페이지 넘김, 줄 바꿈, 강조 등 문장 패턴에 따른 문서편집 정보를 미리 설정하는 메뉴로 이루어진다.
상기 사용자 인터페이스부(10)는 세부설정메뉴(1106)을 더 포함하는 것이 바람직하며, 상기 세부설정메뉴(1106)는 상기 제어부(1140)에서 생성된 문서를 미리보기를 통해 줄바뀜, 페이지 넘김, 폰트 사이즈, 폰트 컬러, 굵은 글씨체 등 세부적으로 편집할 수 있게 한다.
상기 제어부(1140)는 상기 사용자 인터페이스부(10)를 통해 설정된 문서설정정보에 따라 상기 음성데이터를 문서로 생성한다.
한편, 상기 사용자 인터페이스부(10)는 입력설정메뉴(1120)를 더 구비하는 것이 바람직하다. 상기 입력설정메뉴(1120)는 입력되는 음성데이터를 저장매체에 저장된 음성파일, 전화를 통해 수신되는 음성데이터, 마이크를 통해 입력되는 음성데이터 중 어느 하나로 설정한다. 상기 음성파일은 음성데이터 저장부(1150)에 저장되어 있으며, 상기 전화 또는 마이크를 통해 음성데이터는 음성데이터 수신부(1160)를 통해 수신된다.
이 때 상기 제어부(1140)는 상기 입력설정메뉴(1120)에서 설정된 음성데이터에 따라 음성데이터를 상기 음성데이터 저장부(1150) 또는 음성데이터 수신부(1160)를 통해 음성데이터를 받아들여 문서로 생성한다.
또한 상기 사용자 인터페이스부(10)는 출력설정메뉴(1130)를 더 포함하는 것이 바람직하다. 상기 출력설정메뉴(1130)는 상기 제어부(1140)에서 생성된 문서 데이터를, 인쇄, 저장매체에 저장, 전송 중 어느 하나로 출력하도록 출력방법을 설정하는 메뉴를 제공한다.
상기 출력설정메뉴(1130)에서 설정된 출력방법이 '저장매체에 저장'으로 설정된 경우에는 제어부(1140)에서 생성된 문서 데이터를 저장되는 파일의 위치 또는 파일이름을 지정하여 문서데이터 저장부(1170)에 저장한다. 상기 문서데이터 저장부(1170)는 화상형성장치 내부에 존재하는 저장매체 뿐만 아니라 외부에 존재하는 저장매체도 될 수 있다.
그리고 상기 출력설정메뉴(1130)에서 설정된 출력방법 설정이 '전송'으로 설정된 경우에는 문서데이터 송신부(1180)를 통해 상기 문서 데이터를 팩스, 이메일, SMB/FTP 서버, 컴퓨터 중 어느 하나로 전송한다.
도 5는 사용자 인터페이스부(10)를 구현한 일실시예를 도시한 것이다.
상기 사용자 인터페이스부(10)는 입력설정(510) 메뉴, 편집설정(520) 메뉴, 출력설정(530) 메뉴를 통해 사용자가 음성 데이터를 변환할 수 있게 한다.
상기 입력설정(510)은 처리할 대상 음성데이타를 선택한다. 예를 들어 상기 입력설정(510)를 통해 화상형성 장치 내에 있는 저장매체(HDD, Flash 등)나 화상형성장치 외부의 저장매체(USB Memory Stick, SD Card, 외부 PC 공유 폴더 등)에 저장되어 있는 파일 형태의 음성파일 데이터(512), 전화를 통한 실시간 음성 데이터(514), 외부 음성처리 단자(마이크, 음성입력 등)로 입력되는 음성 데이터 등으로 입력되는 음성데이터(516) 중 하나를 선택할 수 있다.
이 때 상기 입력설정(510)에서 전화 또는 외부 음성처리 단자(마이크, 음성입력 등)를 통한 실시간 음성데이터가 선택된 경우에는 음성데이터 수신부(1160)는 전화 또는 외부음성처리 단자(마이크, 음성입력 등)를 통해 실시간으로 음성 데이터를 수신한다. 그리고 상기 입력설정(510)에서 파일형태의 음성데이터가 선택된 경우에는 제어부(1140)는 화상형성장치 내부 저장매체 또는 화상형성장치 외부 저장매체로부터 음성파일을 독출한다.
도 5의 상기 편집설정(520)는 상기 입력설정(510)에서 선택된 음성 데이터를 사용자가 원하는 문서데이터(Document Data) 형태로 변환하기 위한 문서편집정보를 설정하며, 문서형식 설정(522), 문장패턴 설정(524), 세부설정(526)으로 이루어진다.
문서형식설정(522)은 최종 산출물 문서의 문서형식을 설정하는 부분으로, 도 6에 도시된 바와 같이, Dialog 형식변환(620), 특정화자 추출(630), Time Stamp 별 나열(640) 등으로 문서형식을 설정한다. 이 중 상기 Dialog 형식변환(620)은 출력문서 데이터에 화자별 이름 설정, 시간 표현 등의 다양한 설정을 할 수 있다.
상기 특정화자 추출(630)은 특정화자 만의 문서(Document)를 구분하여 생성하게 한다. 예를 들어 화자별 분리된 출력물을 만들거나 문장을 화자별로 순서대로 만들 때 상기 특정화자 추출(630)을 이용할 수 있다.
그리고 상기 문장패턴 설정(524)는 최종 산출물 문서의 문장패턴을 설정하는 부분으로, 도 7에 도시된 바와 같이, "특정단어", "억양 높은 단어", "화자 바뀜" 등의 방법을 설정한다.
상기 세부설정(526)은 상기 문서형식설정(522) 및 문장패턴설정(526)을 통해 사용자가 설정한 문서형식과 문장패턴이 적용되어 VTT(Voice to Text) 이후 텍스트로 1차 변환된 데이터를 도 8에 도시된 바와 같이 미리보기(Preview, 810)를 통해 사용자가 세부적으로 편집할 수 있는 기능을 제공하는 부분으로, "줄 바뀜", "페이지 넘김", "Font Size", "Font Color", "Bold" 등을 설정할 수 있다.
도 5의 상기 출력설정(530) 메뉴는 최종 서식이 적용된 문서데이터(Document Data)를 어떤 출력 방식을 사용할지 결정한다.
출력설정(530)는 입력설정(510)와 편집설정(520)를 거쳐 생성된 최종 문서데이터(Document Data)를 출력하는 방법을 결정하는 부분으로, 사용자는 인쇄(532), 내부 저장매체 또는 외부 저장매체에 문서파일을 저장하는 파일저장(534), Fax, Email, SMB/FTP 등으로 문서데이터를 전송하는 전송(536)을 선택할 수 있다.
한편, 상기 제어부(1140)는 화상형성장치가 음성 데이터를 문서데이터로 만드는 작업에 있어 핵심적인 역할을 하는 부분으로 음성데이터를 텍스트로 변환하고, 이에 서식을 적용하여 인쇄 가능한 문서데이터를 생성한다.
도 9는 상기 제어부(1140)에서 입력된 음성 데이터를 변환된 문서데이터로 변환하는 일 예를 도시한 것이다. 입력된 음성 데이터로부터 음성의 특징을 파악하여 사용자가 선택한 서식을 적용한다. 이는 서식적용 단계로 음성데이터의 소음을 삭제하고, 화자가 바뀔 때마다 화자를 나누고, 억양이 높아진 강조 부분에 대해 Bold 처리, 짧은 공백에 대한 줄바꿈 처리와 오랜 공백에 대한 자동 페이지 넘김, 대화의 시작시간을 문서의 맨 앞에 표시하는 Time Stamp 가 적용되었다. 제어부(1140)의 최종적인 결과물은 도 9의 가장 오른쪽 부분인 인쇄 가능한 문서 데이터(950, 960)이다.
그리고 상기 제어부(1140)는 화상형성장치가 최종 산출물 문서를 만드는 작업에 있어 문서편집메뉴(1100)와 출력설정메뉴(1130)에서 설정된 문서편집정보와 문서출력정보에 따른 문서편집 및 문서출력 과정을 관리한다. 즉, 제어부(1140)에서 수행되는 상기 문서편집은 사용자 인터페이스부(10)의 입력설정메뉴(1120)를 통해 지정된 음성 데이터를 편집설정메뉴(1104)에서 설정된 문서편집정보에 따라 최종 산출물 문서로 편집한다. 이렇게 편집된 최종 산출물 문서는 출력설정메뉴(1130)에서 설정된 출력정보에 따라 제어부(1140)에서 관리하는 문서데이터저장부(1170)나 문서데이터전송부(1180)로 이동되며 인쇄 출력 되기도 한다.
도 12은 주요 핵심단어(keyword), 예를 들어 "Chapter"를 캡쳐(capture)하여 자동 줄바꿈 또는 자동 페이지 바꿈 인쇄하는 것을 나타내고 있다.
도 13은 사용자의 억양(accent)을 파악하여 강조된 영역에 대해 굵은 글씨(Bold)체로 인쇄하는 것을 나타내고 있다.
도 14는 사용자가 여러 명인 경우 사용자 별 텍스트를 구분하여 대본 형식으로 인쇄하거나 특정 목소리만 추출하여 인쇄하는 것을 나타내고 있다.
한편, 본 발명은 디스플레이 장치를 이용하여 변환된 문서(Document)를 직접 그래픽 사용자 인터페이스(Graphic User Interface)를 통해 바로 편집할 수 있다. 즉, 화상형성 장치에서 제공하는 사용자 인터페이스(User Interface) 에서 사용자가 직접 인쇄영역을 미리보기(Preview) 하면서 수정하여 인쇄할 수도 있다.
본 발명은 컴퓨터로 읽을 수 있는 기록 매체에 컴퓨터(정보 처리 기능을 갖는 장치를 모두 포함한다)가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다. 컴퓨터가 읽을 수 있는 기록 장치의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광데이터 저장장치 등이 있다.
본 발명은 도면에 도시된 실시예를 참고로 설명되었으나 이는 예시적인 것에 불과하며, 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 등록청구범위의 기술적 사상에 의해 정해져야 할 것이다.
400 : 문서편집설정부, 402 : 문서형식설정부, 404 : 문장패턴설정부
406 : 세부설정부, 410 : 문서생성부, 420 : 입력설정부
430 : 음성데이터 저장부, 440 : 음성데이터 수신부, 450 : 출력설정부
460 : 문서데이터 저장부, 470 : 문서데이터 송신부,
510 : 입력설정, 520 : 편집설정, 530 : 출력설정
512 ; 음성파일 선택, 514 : 전화, 516 : 마이크,
522 : 문서형식설정, 524 : 문장패턴설정, 526 : 세부설정
532 : 인쇄, 534 : 파일저장, 536 : 전송
10 : 사용자인터페이스부, 1100 : 문서편집메뉴, 1102 : 문서형식설정메뉴
1104 : 문장패턴설정멘, 1106 : 세부설정메뉴, 1120 : 입력설정메뉴
1130 : 출력설정메뉴, 1140 : 제어부, 1150 : 음성데이터 저장부,
1160 : 음성데이터 수신부, 1170 : 문서데이터 저장부,
1180 : 문서데이터 송신부

Claims (21)

  1. 음성데이터를 문서로 변환할 때 상기 문서의 편집을 위한 문서형식에 관한 정보 및 문장패턴에 관한 정보 중 적어도 하나를 포함하는 문서편집정보를 설정하는 단계;
    상기 음성데이터를 텍스트로 변환하는 단계; 및
    상기 설정된 정보에 따라 상기 텍스트를 문서로 생성하는 단계를 포함하고,
    상기 문서형식에 관한 정보는 상기 문서를 대화 형식으로 표현할지, 문서에 특정화자의 음성데이터 만을 텍스트로 표현할지, 문서에 음성데이터의 생성시간을 표시할지 등의 문서표현 형식에 따른 문서편집 사항을 포함하고,
    상기 문장패턴에 관한 정보는 상기 음성데이터에 포함되어 있는 특정단어, 억양, 화자 바뀜 등에 따라 페이지 넘김, 줄 바꿈, 강조 등 문장 패턴에 따른 문서편집 사항을 포함하는 것을 특징으로 하는 음성데이터를 이용한 문서생성 방법.
  2. 제1항에 있어서,
    상기 생성된 문서를 미리보기를 통해 줄바뀜, 페이지 넘김, 폰트 사이즈, 폰트 컬러, 굵은 글씨체 등 세부적으로 편집할 수 있게 하는 단계를 더 포함하는 것을 특징으로 하는 음성데이터를 이용한 문서생성 방법.
  3. 제1항에 있어서, 상기 음성 데이터는
    저장매체로부터 독출되는 음성파일, 전화를 통해 수신되는 음성데이터, 마이크를 통해 입력되는 음성데이터, 음성메일로부터 수신된 음성데이터 중 어느 하나인 것을 특징으로 하는 음성데이터를 이용한 문서생성 방법.
  4. 제1항에 있어서,
    상기 생성된 문서 데이터를, 인쇄, 저장매체에 저장, 전송 중 적어도 하나로 출력하도록 출력방법을 설정하는 단계를 더 포함하는 것을 특징으로 하는 음성데이터를 이용한 문서생성 방법.
  5. 제4항에 있어서,
    상기 설정된 출력방법이 '저장매체에 저장'으로 설정된 경우, 저장되는 파일의 위치와 이름을 지정하여 저장매체에 저장하는 단계를 더 포함하는 것을 특징으로 하는 음성데이터를 이용한 문서생성 방법.
  6. 제4항에 있어서, 상기 출력설정부에서 설정된 출력방법 설정이 '전송'으로 설정된 경우, 상기 문서 데이터를 팩스, 이메일, SMB/FTP 서버, 컴퓨터 중 어느 하나로 전송하는 단계를 더 포함하는 것을 특징으로 하는 음성데이터를 이용한 문서생성 방법.
  7. 음성데이터를 문서로 생성할 때, 상기 문서의 편집을 위한 문서편집정보를 설정하기 위한 문서형식 설정부 및 문장패턴 설정부 중 적어도 하나를 구비하는 문서편집설정부; 및
    상기 음성데이터를 텍스트로 변환하고 상기 문서편집 설정부를 통해 설정된 문서편집정보에 따라 상기 텍스트를 편집하여 문서를 생성하는 문서생성부를 포함하고,
    상기 문서형식설정부는
    상기 문서를 대화 형식으로 표현할지, 문서에 특정화자의 음성데이터 만을 표현할지, 문서에 음성데이터의 생성시간을 표시할지 등의 문서표현 형식에 따른 문서편집 정보를 미리 설정하는 메뉴를 제공하며,
    상기 문장패턴 설정부는
    상기 음성데이터로부터 특정단어, 억양, 화자바뀜 등에 따라 페이지 넘김, 줄 바꿈, 강조 등 문장 패턴에 따른 문서편집 정보를 미리 설정하는 메뉴를 제공하는 것을 특징으로 하는 음성데이터를 이용한 문서생성 시스템.
  8. 제7항에 있어서, 상기 문서편집설정부는
    상기 문서 생성부에서 생성된 문서를 미리보기를 통해 줄바뀜, 페이지 넘김, 폰트 사이즈, 폰트 컬러, 굵은 글씨체 등 세부적으로 편집할 수 있게 하는 세부설정부를 더 포함하는 것을 특징으로 하는 음성데이터를 이용한 문서생성 시스템.
  9. 제7항에 있어서,
    상기 음성데이터는 저장매체로부터 독출되는 음성파일, 전화를 통해 수신되는 음성데이터, 마이크를 통해 입력되는 음성데이터 중 어느 하나인 것으로 설정하는 입력설정부를 더 포함하는 것을 특징으로 하는 음성데이터를 이용한 문서생성 시스템.
  10. 제9항에 있어서, 상기 음성파일은
    음성메일로부터 수신된 음성데이터를 포함하는 것을 특징으로 하는 음성데이터를 이용한 문서생성 시스템.
  11. 제9항에 있어서,
    상기 입력설정부에서 음성파일로 설정된 경우, 음성파일을 저장하고 있는 음성데이터 저장부; 및
    상기 입력설정부에서 전화 또는 마이크를 통해 입력되는 음성데이터로 설정된 경우, 상기 전화 또는 마이크를 통해 음성 데이터를 수신하는 음성데이터 수신부를 더 포함하고,
    상기 문서생성부는
    상기 입력설정부에서 설정된 정보에 따라 음성데이터를 상기 음성데이터 저장부 또는 수신부로부터 입력되는 음성데이터를 문서로 생성하는 것을 특징으로 하는 음성데이터를 이용한 문서생성 시스템.
  12. 제7항에 있어서,
    상기 문서생성부에서 생성된 문서 데이터를, 인쇄, 저장매체에 저장, 전송 중 적어도 하나로 출력하도록 출력방법을 설정하는 메뉴를 제공하는 출력설정부를 더 포함하는 것을 특징으로 하는 음성데이터를 이용한 문서생성 시스템.
  13. 제12항에 있어서, 상기 출력설정부에서 설정된 출력방법이 '저장매체에 저장'으로 설정된 경우, 상기 문서 데이터를 저장하는 문서데이터 저장부를 더 포함하는 것을 특징으로 하는 음성데이터를 이용한 문서생성 시스템.
  14. 제12항에 있어서, 상기 출력설정부에서 설정된 출력방법 설정이 '전송'으로 설정된 경우, 상기 문서 데이터를 팩스, 이메일, SMB/FTP 서버, 컴퓨터 중 어느 하나로 전송하는 문서데이터 송신부를 더 포함하는 것을 특징으로 하는 음성데이터를 이용한 문서생성 시스템.
  15. 음성데이터를 문서로 생성할 때, 상기 문서를 편집하기 위한 문서편집정보를 설정하는 문서형식 설정메뉴 및 문장패턴 설정메뉴 중 적어도 하나를 제공하는 사용자 인터페이스부;
    상기 사용자 인터페이스부를 통해 설정된 문서설정정보에 따라 상기 음성데이터를 문서로 생성하는 제어부를 포함하고,
    상기 문서형식설정메뉴는
    상기 문서를 대화 형식으로 표현할지, 문서에 특정화자의 음성데이터 만을 표현할지, 문서에 음성데이터의 생성시간을 표시할지 등의 문서표현 형식에 따른 문서편집 정보를 미리 설정할 수 있는 메뉴로 이루어지며,
    상기 문장패턴 설정메뉴는
    상기 음성데이터로부터 특정단어, 억양, 화자바뀜 등에 따라 페이지 넘김, 줄 바꿈, 강조 등 문장 패턴에 따른 문서편집 정보를 미리 설정하는 메뉴로 이루어지는 것을 특징으로 하는 음성데이터를 이용하여 문서를 생성하는 화상형성장치.
  16. 제15항에 있어서, 상기 사용자 인터페이스부는
    상기 제어부에서 생성된 문서를 미리보기를 통해 줄바뀜, 페이지 넘김, 폰트 사이즈, 폰트 컬러, 굵은 글씨체 등 세부적으로 편집할 수 있게 하는 세부설정메뉴를 더 포함하는 것을 특징으로 하는 음성데이터를 이용여 문서를 생성하는 화상형성장치.
  17. 제15항에 있어서, 상기 사용자 인터페이스부는
    입력되는 음성데이터를 저장매체에 저장된 음성파일, 전화를 통해 수신되는 음성데이터, 마이크를 통해 입력되는 음성데이터 중 어느 하나로 설정하는 입력설정메뉴를 더 포함하고,
    상기 음성파일을 저장하고 있는 음성데이터 저장부; 및
    상기 전화 또는 마이크를 통해 음성데이터를 수신하는 음성데이터 수신부를 더 포함하고,
    상기 제어부는
    상기 입력설정메뉴에서 설정된 음성데이터에 따라 음성데이터를 상기 음성데이터 저장부 또는 음성데이터 수신부를 통해 입력되는 음성데이터를 문서로 생성하는 것을 특징으로 하는 음성데이터를 이용하여 문서를 생성하는 화상형성장치.
  18. 제15항에 있어서, 상기 사용자 인터페이스부는
    상기 제어부에서 생성된 문서 데이터를, 인쇄, 저장매체에 저장, 전송 중 적어도 하나로 출력하도록 출력방법을 설정하는 메뉴를 제공하는 출력설정메뉴를 더 포함하는 것을 특징으로 하는 음성데이터를 이용하여 문서를 생성하는 화상형성장치.
  19. 제18항에 있어서, 상기 출력설정메뉴에서 설정된 출력방법이 '저장매체에 저장'으로 설정된 경우, 상기 문서 데이터를 저장하는 문서데이터 저장부를 더 포함하는 것을 특징으로 하는 음성데이터를 이용하여 문서를 생성하는 화상형성장치.
  20. 제18항에 있어서, 상기 출력설정메뉴에서 설정된 출력방법 설정이 '전송'으로 설정된 경우, 상기 문서 데이터를 팩스, 이메일, SMB/FTP 서버, 컴퓨터 중 어느 하나로 전송하는 문서데이터 송신부를 더 포함하는 것을 특징으로 하는 음성데이터를 이용하여 문서를 생성하는 화상형성장치.
  21. 제1항 내지 제6항 중 어느 한 항에 기재된 발명을 프로세서에 의해 실행되는 프로그램으로 기록한 것을 저장하는 기록매체.
KR1020100113000A 2010-11-12 2010-11-12 음성데이터를 이용한 문서생성 방법 및 시스템과, 이를 구비한 화상형성장치 KR101756836B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020100113000A KR101756836B1 (ko) 2010-11-12 2010-11-12 음성데이터를 이용한 문서생성 방법 및 시스템과, 이를 구비한 화상형성장치
US13/295,181 US8773696B2 (en) 2010-11-12 2011-11-14 Method and system for generating document using speech data and image forming apparatus including the system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020100113000A KR101756836B1 (ko) 2010-11-12 2010-11-12 음성데이터를 이용한 문서생성 방법 및 시스템과, 이를 구비한 화상형성장치

Publications (2)

Publication Number Publication Date
KR20120051517A true KR20120051517A (ko) 2012-05-22
KR101756836B1 KR101756836B1 (ko) 2017-07-11

Family

ID=46047510

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020100113000A KR101756836B1 (ko) 2010-11-12 2010-11-12 음성데이터를 이용한 문서생성 방법 및 시스템과, 이를 구비한 화상형성장치

Country Status (2)

Country Link
US (1) US8773696B2 (ko)
KR (1) KR101756836B1 (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200114357A (ko) * 2019-03-28 2020-10-07 주식회사 포시에스 화자 식별을 통한 전자문서 데이터 제공 방법 및 장치
KR20210029177A (ko) * 2018-12-21 2021-03-15 주식회사 뷰노 음성 인식에 기반하여 문서의 편집을 수행하는 방법 및 이를 이용한 장치
KR102626954B1 (ko) * 2023-04-20 2024-01-18 주식회사 덴컴 치과용 음성 인식 장치 및 이를 이용한 방법
KR102636569B1 (ko) * 2023-03-13 2024-02-15 주식회사 퍼즐에이아이 사용자 맞춤형 음성 문서서식 설정시스템

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103177724A (zh) * 2013-03-19 2013-06-26 华为终端有限公司 语音控制文本操作的方法、装置及终端
US20170069309A1 (en) * 2015-09-03 2017-03-09 Google Inc. Enhanced speech endpointing
CN109817210B (zh) * 2019-02-12 2021-08-17 百度在线网络技术(北京)有限公司 语音写作方法、装置、终端和存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH082015A (ja) 1994-06-27 1996-01-09 Nec Corp プリンタ装置
JP2002218092A (ja) * 2001-01-19 2002-08-02 Fujitsu General Ltd 音声入力による携帯電話メール方法と携帯電話メール装置
US20050096910A1 (en) * 2002-12-06 2005-05-05 Watson Kirk L. Formed document templates and related methods and systems for automated sequential insertion of speech recognition results
US7774694B2 (en) * 2002-12-06 2010-08-10 3M Innovation Properties Company Method and system for server-based sequential insertion processing of speech recognition results
US7444285B2 (en) * 2002-12-06 2008-10-28 3M Innovative Properties Company Method and system for sequential insertion of speech recognition results to facilitate deferred transcription services
JP4909576B2 (ja) * 2005-11-29 2012-04-04 株式会社リコー 文書編集装置、画像形成装置およびプログラム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210029177A (ko) * 2018-12-21 2021-03-15 주식회사 뷰노 음성 인식에 기반하여 문서의 편집을 수행하는 방법 및 이를 이용한 장치
KR20200114357A (ko) * 2019-03-28 2020-10-07 주식회사 포시에스 화자 식별을 통한 전자문서 데이터 제공 방법 및 장치
KR102636569B1 (ko) * 2023-03-13 2024-02-15 주식회사 퍼즐에이아이 사용자 맞춤형 음성 문서서식 설정시스템
KR102626954B1 (ko) * 2023-04-20 2024-01-18 주식회사 덴컴 치과용 음성 인식 장치 및 이를 이용한 방법

Also Published As

Publication number Publication date
US8773696B2 (en) 2014-07-08
KR101756836B1 (ko) 2017-07-11
US20120120446A1 (en) 2012-05-17

Similar Documents

Publication Publication Date Title
KR102304052B1 (ko) 디스플레이 장치 및 그의 동작 방법
KR20120051517A (ko) 음성데이터를 이용한 문서생성 방법 및 시스템과, 이를 구비한 화상형성장치
KR102108500B1 (ko) 번역 기반 통신 서비스 지원 방법 및 시스템과, 이를 지원하는 단말기
KR20120086287A (ko) 음성번역 시스템, 제1 단말장치, 음성인식 서버장치, 번역 서버장치, 및 음성합성 서버장치
KR20120107933A (ko) 음성번역 시스템, 제어장치, 및 제어방법
GB2362745A (en) Transcription of text from computer voice mail
US8606560B2 (en) Automatic simultaneous interpertation system
CN101998107A (zh) 信息处理装置、会议***和信息处理方法
JP2012181358A (ja) テキスト表示時間決定装置、テキスト表示システム、方法およびプログラム
JP7200533B2 (ja) 情報処理装置およびプログラム
US12015746B2 (en) Image processing system, setting control method, image processing apparatus, and storage medium
CN111385430B (zh) 图像形成***和图像形成装置
US10216732B2 (en) Information presentation method, non-transitory recording medium storing thereon computer program, and information presentation system
US9666211B2 (en) Information processing apparatus, information processing method, display control apparatus, and display control method
JP6832503B2 (ja) 情報提示方法、情報提示プログラム及び情報提示システム
WO2020070959A1 (ja) 通訳システム、サーバ装置、配信方法、および記録媒体
JP2017102939A (ja) オーサリング装置、オーサリング方法、およびプログラム
JP7286321B2 (ja) 情報処理システム、情報処理装置、制御方法、プログラム
JP2005062420A (ja) コンテンツ生成システム、コンテンツ生成方法およびコンテンツ生成プログラム
JP2020201911A (ja) 情報処理システム、情報処理装置、情報処理方法
JP7327939B2 (ja) 情報処理システム、情報処理装置、制御方法、プログラム
CN114648991A (zh) 信息处理***、其控制方法、存储其控制程序的存储介质、以及图像处理装置
JP7048141B1 (ja) プログラム、ファイル生成方法、情報処理装置、及び情報処理システム
JP7182997B2 (ja) 絵本表示システム
JP2023018516A (ja) 情報処理システム、情報処理システムの制御方法およびプログラム

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant