CN108231061A - 一种基于文本解析和语音合成的网络人机交互方法 - Google Patents
一种基于文本解析和语音合成的网络人机交互方法 Download PDFInfo
- Publication number
- CN108231061A CN108231061A CN201711474011.3A CN201711474011A CN108231061A CN 108231061 A CN108231061 A CN 108231061A CN 201711474011 A CN201711474011 A CN 201711474011A CN 108231061 A CN108231061 A CN 108231061A
- Authority
- CN
- China
- Prior art keywords
- user
- characteristic information
- audio
- information
- method based
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 23
- 230000015572 biosynthetic process Effects 0.000 title claims abstract description 21
- 238000003786 synthesis reaction Methods 0.000 title claims abstract description 21
- 230000003993 interaction Effects 0.000 title claims abstract description 17
- 238000000605 extraction Methods 0.000 claims description 18
- 230000006835 compression Effects 0.000 claims description 6
- 238000007906 compression Methods 0.000 claims description 6
- 238000012015 optical character recognition Methods 0.000 claims description 6
- 230000010365 information processing Effects 0.000 claims description 3
- 238000012559 user support system Methods 0.000 abstract 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
- G10L13/047—Architecture of speech synthesisers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3343—Query execution using phonetics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明公开一种基于文本解析和语音合成的网络人机交互方法,其特征在于,包括如下步骤:步骤SS1:获取用户信息,建立用户特征信息集;步骤SS2:接收用户发出的语音请求进行特征信息匹配;步骤SS3:输出与所述用户的请求分类关系最接近的关联内容。本发明提出一种基于文本解析和语音合成的网络人机交互方法,通过获取用户信息,建立用户特征信息集;接收用户发出的语音请求进行特征信息匹配;输出与所述用户的请求分类关系最接近的关联内容,通过不断完善的用户特征信息集支持用户不断更新的提问请求,实现网络人机交互的深度关联。
Description
技术领域
本发明涉及一种基于文本解析和语音合成的网络人机交互方法,属于人机交互技术领域。
背景技术
随着网络传输和大数据科技的发展以及硬件处理能力的提升,越来越多的人机交互智能设备走进了人们的生活。当前的人机交互方式基本都是人问机器答,尽管回答方式多种多样,但大多是智能设备被动接收用户的提问信息,智能设备和用户之间缺乏深度联系。
发明内容
本发明的目的在于,克服现有技术存在的缺陷,解决上述技术问题,提出一种基于文本解析和语音合成的网络人机交互方法。
本发明采用如下技术方案:一种基于文本解析和语音合成的网络人机交互方法,其特征在于,包括如下步骤:
步骤SS1:获取用户信息,建立用户特征信息集;
步骤SS2:接收用户发出的语音请求进行特征信息匹配;
步骤SS3:输出与所述用户的请求分类关系最接近的关联内容。
作为一种较佳的实施例,所述步骤SS1具体包括:所述用户将需要转化为音频的信息发送给用于提供服务的账号;利用社交平台官方开放接口或者利用社交平台网页版本的接口,将用户所发送的信息经过社交平台的预处理后传递给服务器;服务器对用户发送的信息加工处理,生成对应的音频或者包含音频信息的网页的用户特征信息集。
作为一种较佳的实施例,所述步骤SS2还包括:根据所述语音请求从所述用户特征信息集提取关联内容,预判所述关联内容后应答所述用户的语音请求。
作为一种较佳的实施例,所述步骤SS2还包括:建立所述特征信息集的特征信息分类关系表;从所述语音请求中提取匹配关键词;根据所述匹配关键词从不断完善的所述特征信息集提取分类关系最接近的关联内容,根据所述关联内容从所述用户特征信息集中提出对应的音频或者包含音频信息的网页进行输出。
作为一种较佳的实施例,所述用于提供服务的账号包括以下所列中的一个或若干:微博账号、微信账号、QQ账号、Facebook账号、推特账号。
作为一种较佳的实施例,所述步骤SS1中的所述信息加工处理包括:信息压缩,图像识别,音频提取,网页链接生成;所述信息压缩是将用户输入的信息通过摘要算法缩短文本通过语音合成技术转换成音频文件;所述图像识别采用OCR光学字符识别技术,将图片中的文本提取出来;所述音频提取是将视频文件中的音频提取出来生成独立的音频文件;所述网页链接生成是将合成的音频文件和对应的文本、图片一起,缓存到服务器的数据库中,所述数据库的值包括用户ID、请求ID和呈现顺序,所述数据库的值即为基于用户ID和请求ID生成的新的链接。
本发明所达到的有益效果:本发明提出一种基于文本解析和语音合成的网络人机交互方法,通过获取用户信息,建立用户特征信息集;接收用户发出的语音请求进行特征信息匹配;输出与所述用户的请求分类关系最接近的关联内容,通过不断完善的用户特征信息集支持用户不断更新的提问请求,实现网络人机交互的深度关联。
附图说明
图1是本发明的方法流程图。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
图1是本发明的方法流程图。本发明提出一种基于文本解析和语音合成的网络人机交互方法,其特征在于,包括如下步骤:
步骤SS1:获取用户信息,建立用户特征信息集;
步骤SS2:接收用户发出的语音请求进行特征信息匹配;
步骤SS3:输出与所述用户的请求分类关系最接近的关联内容。
作为一种较佳的实施例,所述步骤SS1具体包括:所述用户将需要转化为音频的信息发送给用于提供服务的账号;利用社交平台官方开放接口或者利用社交平台网页版本的接口,将用户所发送的信息经过社交平台的预处理后传递给服务器;服务器对用户发送的信息加工处理,生成对应的音频或者包含音频信息的网页的用户特征信息集。
作为一种较佳的实施例,所述步骤SS2还包括:根据所述语音请求从所述用户特征信息集提取关联内容,预判所述关联内容后应答所述用户的语音请求。
作为一种较佳的实施例,所述步骤SS2还包括:建立所述特征信息集的特征信息分类关系表;从所述语音请求中提取匹配关键词;根据所述匹配关键词从不断完善的所述特征信息集提取分类关系最接近的关联内容,根据所述关联内容从所述用户特征信息集中提出对应的音频或者包含音频信息的网页进行输出。
作为一种较佳的实施例,所述用于提供服务的账号包括以下所列中的一个或若干:微博账号、微信账号、QQ账号、Facebook账号、推特账号。
作为一种较佳的实施例,所述步骤SS1中的所述信息加工处理包括:信息压缩,图像识别,音频提取,网页链接生成;所述信息压缩是将用户输入的信息通过摘要算法缩短文本通过语音合成技术转换成音频文件;所述图像识别采用OCR光学字符识别技术,将图片中的文本提取出来;所述音频提取是将视频文件中的音频提取出来生成独立的音频文件;所述网页链接生成是将合成的音频文件和对应的文本、图片一起,缓存到服务器的数据库中,所述数据库的值包括用户ID、请求ID和呈现顺序,所述数据库的值即为基于用户ID和请求ID生成的新的链接。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。
Claims (6)
1.一种基于文本解析和语音合成的网络人机交互方法,其特征在于,包括如下步骤:
步骤SS1:获取用户信息,建立用户特征信息集;
步骤SS2:接收用户发出的语音请求进行特征信息匹配;
步骤SS3:输出与所述用户的请求分类关系最接近的关联内容。
2.根据权利要求1所述的一种基于文本解析和语音合成的网络人机交互方法,其特征在于,所述步骤SS1具体包括:所述用户将需要转化为音频的信息发送给用于提供服务的账号;利用社交平台官方开放接口或者利用社交平台网页版本的接口,将用户所发送的信息经过社交平台的预处理后传递给服务器;服务器对用户发送的信息加工处理,生成对应的音频或者包含音频信息的网页的用户特征信息集。
3.根据权利要求2所述的一种基于文本解析和语音合成的网络人机交互方法,其特征在于,所述步骤SS2还包括:根据所述语音请求从所述用户特征信息集提取关联内容,预判所述关联内容后应答所述用户的语音请求。
4.根据权利要求3所述的一种基于文本解析和语音合成的网络人机交互方法,其特征在于,所述步骤SS2还包括:建立所述特征信息集的特征信息分类关系表;从所述语音请求中提取匹配关键词;根据所述匹配关键词从不断完善的所述特征信息集提取分类关系最接近的关联内容,根据所述关联内容从所述用户特征信息集中提出对应的音频或者包含音频信息的网页进行输出。
5.根据权利要求2所述的一种基于文本解析和语音合成的网络人机交互方法,其特征在于,所述用于提供服务的账号包括以下所列中的一个或若干:微博账号、微信账号、QQ账号、Facebook账号、推特账号。
6.根据权利要求2所述的一种基于文本解析和语音合成的网络人机交互方法,其特征在于,所述步骤SS1中的所述信息加工处理包括:信息压缩,图像识别,音频提取,网页链接生成;所述信息压缩是将用户输入的信息通过摘要算法缩短文本通过语音合成技术转换成音频文件;所述图像识别采用OCR光学字符识别技术,将图片中的文本提取出来;所述音频提取是将视频文件中的音频提取出来生成独立的音频文件;所述网页链接生成是将合成的音频文件和对应的文本、图片一起,缓存到服务器的数据库中,所述数据库的值包括用户ID、请求ID和呈现顺序,所述数据库的值即为基于用户ID和请求ID生成的新的链接。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711474011.3A CN108231061A (zh) | 2017-12-29 | 2017-12-29 | 一种基于文本解析和语音合成的网络人机交互方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711474011.3A CN108231061A (zh) | 2017-12-29 | 2017-12-29 | 一种基于文本解析和语音合成的网络人机交互方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108231061A true CN108231061A (zh) | 2018-06-29 |
Family
ID=62646844
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711474011.3A Pending CN108231061A (zh) | 2017-12-29 | 2017-12-29 | 一种基于文本解析和语音合成的网络人机交互方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108231061A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109003605A (zh) * | 2018-07-02 | 2018-12-14 | 北京百度网讯科技有限公司 | 智能语音交互处理方法、装置、设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1349145A2 (en) * | 2002-03-29 | 2003-10-01 | Samsung Electronics Co., Ltd. | System and method for providing information using spoken dialogue interface |
CN106230689A (zh) * | 2016-07-25 | 2016-12-14 | 北京奇虎科技有限公司 | 一种语音信息交互的方法、装置及服务器 |
CN107274884A (zh) * | 2017-02-15 | 2017-10-20 | 赵思聪 | 一种基于文本解析和语音合成的信息获取方法 |
-
2017
- 2017-12-29 CN CN201711474011.3A patent/CN108231061A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1349145A2 (en) * | 2002-03-29 | 2003-10-01 | Samsung Electronics Co., Ltd. | System and method for providing information using spoken dialogue interface |
CN106230689A (zh) * | 2016-07-25 | 2016-12-14 | 北京奇虎科技有限公司 | 一种语音信息交互的方法、装置及服务器 |
CN107274884A (zh) * | 2017-02-15 | 2017-10-20 | 赵思聪 | 一种基于文本解析和语音合成的信息获取方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109003605A (zh) * | 2018-07-02 | 2018-12-14 | 北京百度网讯科技有限公司 | 智能语音交互处理方法、装置、设备及存储介质 |
CN109003605B (zh) * | 2018-07-02 | 2020-04-21 | 北京百度网讯科技有限公司 | 智能语音交互处理方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104700836B (zh) | 一种语音识别方法和*** | |
CN110853646B (zh) | 会议发言角色的区分方法、装置、设备及可读存储介质 | |
WO2016062073A1 (zh) | 即时通讯终端及其信息翻译方法和装置 | |
CN109361825A (zh) | 会议纪要记录方法、终端及计算机存储介质 | |
JP2018524669A5 (zh) | ||
CN105786969A (zh) | 信息展示方法和装置 | |
CN104092653B (zh) | 一种数据处理的方法和*** | |
US11929100B2 (en) | Video generation method, apparatus, electronic device, storage medium and program product | |
CN102855317A (zh) | 一种基于演示视频的多模式索引方法及*** | |
KR102030551B1 (ko) | 인스턴트 메신저 구동 장치 및 그 동작 방법 | |
CN104731874A (zh) | 一种评价信息生成方法和装置 | |
CN114171063A (zh) | 一种实时话务客户情绪分析辅助方法及*** | |
CN110674243A (zh) | 一种基于动态k-均值算法的语料库索引构建方法 | |
CN108231061A (zh) | 一种基于文本解析和语音合成的网络人机交互方法 | |
CN114022923A (zh) | 智能采编*** | |
KR20220130863A (ko) | 음성-텍스트 변환 영상 리소스 매칭 기반 멀티미디어 변환 콘텐츠 제작 서비스 제공 장치 | |
CN105956023A (zh) | 一种生僻字库网络化应用的方法及*** | |
CN110472121B (zh) | 名片信息搜索方法、装置、电子设备以及计算机可读存储介质 | |
US20230048495A1 (en) | Method and platform of generating document, electronic device and storage medium | |
US20140288936A1 (en) | Linguistic model database for linguistic recognition, linguistic recognition device and linguistic recognition method, and linguistic recognition system | |
WO2021062757A1 (zh) | 同声传译方法、装置、服务器和存储介质 | |
WO2016129188A1 (ja) | 音声認識処理装置、音声認識処理方法およびプログラム | |
CN115936002A (zh) | 一种基于算法的会议识别方法、终端及存储介质 | |
CN114528851A (zh) | 回复语句确定方法、装置、电子设备和存储介质 | |
CN107391695A (zh) | 一种基于大数据的信息提取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180629 |
|
RJ01 | Rejection of invention patent application after publication |