语音识别技术

2016-11-7    本站原创


1.   概述

语音识别技术,也被称为自动语音识别Automatic Speech Recognition(ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制码或者字符序列。与说话人识别及说话人确认不同,后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。

语音识别技术的应用包括语音拨号、语音导航、室内设备控制、语音文档检索、简单的听写数据录入等。语音识别技术与其他自然语言处理技术如机器翻译语音合成技术相结合,可以构建出更加复杂的应用,例如语音到语音的翻译。

语音识别技术所涉及的领域包括:信号处理模式识概率论信息论、发声机理和听觉机理、人工智能等等。

2.   基本原理

 

声音实际上是一种波。常见的mp3等格式都是压缩格式,必须转成非压缩的纯波形文件来处理,比如Windows PCM文件,也就是俗称的wav文件。wav文件里存储的除了一个文件头以外,就是声音波形的一个个点了。下图是一个波形的示例。

 

在开始语音识别之前,有时需要把首尾端的静音切除,降低对后续步骤造成的干扰。这个静音切除的操作一般称为VAD,需要用到信号处理的一些技术。

要对声音进行分析,需要对声音分帧,也就是把声音切开成一小段一小段,每小段称为一帧。分帧操作一般不是简单的切开,而是使用移动窗函数来实现。帧与帧之间一般是有交叠的,就像下图这样:

图中,每帧的长度为25毫秒,每两帧之间有25-10=15毫秒的交叠。我们称为以帧长25ms、帧移10ms分帧。分帧后,语音就变成了很多小段。但波形在时域上几乎没有描述能力,因此必须将波形作变换。常见的一种变换方法是提取MFCC特征,根据人耳的生理特性,把每一帧波形变成一个多维向量,可以简单地理解为这个向量包含了这帧语音的内容信息。这个过程叫做声学特征提取。实际应用中,这一步有很多细节,声学特征也不止有MFCC这一种。

至此,声音就成了一个12行(假设声学特征是12维)、N列的一个矩阵,称之为观察序列,这里N为总帧数。观察序列如下图所示,图中,每一帧都用一个12维的向量表示,色块的颜色深浅表示向量值的大小。

 

接下来就要介绍怎样把这个矩阵变成文本了。首先要介绍两个概念:

1.音素:单词的发音由音素构成。对英语,一种常用的音素集是卡内基梅隆大学的一套由39个音素构成的音素集,汉语一般直接用全部声母和韵母作为音素集,另外汉语识别还分有调无调。

2.状态:这里理解成比音素更细致的语音单位就行啦。通常把一个音素划分成3个状态。

语音识别过程

第一步,把帧识别成状态。第二步,把状态组合成音素。第三步,把音素组合成单词。图中,每个小竖条代表一帧,若干帧语音对应一个状态,每三个状态组合成一个音素,若干个音素组合成一个单词。也就是说,只要知道每帧语音对应哪个状态了,语音识别的结果也就出来了。

 

图中,每个小竖条代表一帧,若干帧语音对应一个状态,每三个状态组合成一个音素,若干个音素组合成一个单词。也就是说,只要知道每帧语音对应哪个状态了,语音识别的结果也就出来了。

那每帧音素对应哪个状态呢?有个容易想到的办法,看某帧对应哪个状态的概率最大,那这帧就属于哪个状态。比如下面的示意图,这帧在状态S3上的条件概率最大,因此就猜这帧属于状态S3

那这些用到的概率从哪里读取呢?有个叫声学模型的东西,里面存了一大堆参数,通过这些参数,就可以知道帧和状态对应的概率。获取这一大堆参数的方法叫做训练,需要使用巨大数量的语音数据,训练的方法比较繁琐。

但这样做有一个问题:每一帧都会得到一个状态号,最后整个语音就会得到一堆乱七八糟的状态号,相邻两帧间的状态号基本都不相同。假设语音有1000帧,每帧对应1个状态,每3个状态组合成一个音素,那么大概会组合成300个音素,但这段语音其实根本没有这么多音素。如果真这么做,得到的状态号可能根本无法组合成音素。实际上,相邻帧的状态应该大多数都是相同的才合理,因为每帧很短。

解决这个问题的常用方法就是使用隐马尔可夫模型(Hidden Markov ModelHMM)。这东西听起来好像很高深的样子,实际上用起来很简单:第一步,构建一个状态网络。第二步,从状态网络中寻找与声音最匹配的路径。这样就把结果限制在预先设定的网络中,避免了刚才说到的问题,当然也带来一个局限,比如你设定的网络里只包含了今天晴天今天下雨两个句子的状态路径,那么不管说些什么,识别出的结果必然是这两个句子中的一句。那如果想识别任意文本呢?把这个网络搭得足够大,包含任意文本的路径就可以了。但这个网络越大,想要达到比较好的识别准确率就越难。所以要根据实际任务的需求,合理选择网络大小和结构。搭建状态网络,是由单词级网络展开成音素网络,再展开成状态网络。语音识别过程其实就是在状态网络中搜索一条最佳路径,语音对应这条路径的概率最大,这称之为解码。路径搜索的算法是一种动态规划剪枝的算法,称之为Viterbi算法,用于寻找全局最优路径。

 

观察概率:每帧和每个状态对应的概率转移概率:每个状态转移到自身或转移到下个状态的概率语言概率:根据语言统计规律得到的概率其中,前两种概率从声学模型中获取,最后一种概率从语言模型中获取。语言模型是使用大量的文本训练出来的,可以利用某门语言本身的统计规律来帮助提升识别正确率。语言模型很重要,如果不使用语言模型,当状态网络较大时,识别出的结果基本是一团乱麻。这样基本上语音识别过程就完成

 

3.语音识别系统结构

一个完整的基于统计的语音识别系统可大致分为三部分:语音信号预处理与特征提取;声学模型与模式匹配;语言模型与语言处理、

未知语音经过话筒变换成电信号后加在识别系统的输入端,首先经过预处理,再根据人的语音特点建立语音模型,对输入的语音信号进行分析,并抽取所需的特征,在此基础上建立语音识别所需的模板。而计算机在识别过程中要根据语音识别的模型,将计算机中存放的语音模板与输入的语音信号的特征进行比较,根据一定的搜索和匹配策略,找出一系列最优的与输入语音匹配的模板。然后根据此模板的定义,通过查表就可以给出计算机的识别结果。显然,这种最优的结果与特征的选择、语音模型的好坏、模板是否准确都有直接的关系。

4.基本方法

一般来说,语音识别的方法有三种:基于声道模型和语音知识的方法、模板匹配的方法以及利用人工神经网络的方法。

4.1基于语音学和声学的方法

该方法起步较早,在语音识别技术提出的开始,就有了这方面的研究,但由于其模型及语音知识过于复杂,现阶段没有达到实用的阶段。

通常认为常用语言中有有限个不同的语音基元,而且可以通过其语音信号的频域或时域特性来区分。这样该方法分为两步实现:

第一步,分段和标号;把语音信号按时间分成离散的段,每段对应一个或几个语音基元的声学特性。然后根据相应声学特性对每个分段给出相近的语音标号

第二步,得到词序列;根据第一步所得语音标号序列得到一个语音基元网格,从词典得到有效的词序列,也可结合句子的文法和语义同时进行。

4.2模板匹配的方法

模板匹配的方法发展比较成熟,目前已达到了实用阶段。在模板匹配方法中,要经过四个步骤:特征提取、模板训练、模板分类、判决。常用的技术有三种:动态时间规整(DTW)、隐马尔可夫HMM)理论、矢量量化VQ)技术。

4.3神经网络的方法

利用人工神经网络的方法是80年代末期提出的一种新的语音识别方法。人工神经网络(ANN)本质上是一个自适应非线性动力学系统,模拟了人类神经活动的原理,具有自适应性、并行性、鲁棒性、容错性和学习特性,其强的分类能力和输入-输出映射能力在语音识别中都很有吸引力。但由于存在训练、识别时间太长的缺点,目前仍处于实验探索阶段。

由于ANN不能很好的描述语音信号的时间动态特性,所以常把ANN与传统识别方法结合,分别利用各自优点来进行语音识别。

5.语音识别系统的分类

语音识别系统可以根据对输入语音的限制加以分类。

从说话者与识别系统的相关性考虑,可以将识别系统分为三类:(1)特定人语音识别系统。仅考虑对于专人的话音进行识别。(2)非特定人语音系统。识别的语音与人无关,通常要用大量不同人的语音数据库对识别系统进行学习。(3)多人的识别系统。通常能识别一组人的 语音,或者成为特定组语音识别系统,该系统仅要求对要识别的那组人的语音进行训练。

从说话的方式考虑,也可以将识别系统分为三类: (1)孤立词语音识别系统。孤立词识别系统要求输入每个词后要停顿。(2)连接词语音识别系统。连接词输入系统要求对每个词都清楚发音,一些连音现象开始出现。(3)连续语音识别系统。连续语音输入是自然流利的连续语音输入,大量连音和变音会出现。

从识别系统的词汇量大小考虑,也可以将识别系统分为三类:(1)小词汇量语音识别系统。通常包括几十个词的语音识别系统。(2)中等词汇量的语音识别系统。通常包括几百个词到上千个词的识别系统。(3)大词汇量语音识别系统。通常包括几千到几万个词的语音识别系统。随着计算机与数字信号处理器运算能力以及识别系统精度的提高,识别系统根据词汇量大小进行分类也不断进行变化。目前是中等词汇量的识别系统,将来可能就是小词汇量的语音识别系统。这些不同的限制也确定了语音识别系统的困难度。

6.语音识别功能

6.1语音合成引擎

语音合成,又称文语转换(Text to SpeechTTS)技术,涉及声学、语言学、数字信号处理、计算机科学等多个学科技术,是中文信息处理领域的一项前沿技术,解决的主要问题是如何将文字信息转化为可听的声音信息,也即让机器像人一样开口说话。语音合成又分为离线和在线两种方式。

6.2语音识别引擎

语音识别技术(Auto Speech Recognize,简称ASR)所要解决的问题是让计算机能够听懂人类的语音,将语音中包含的文字信息提取出来。ASR技术在能听会说的智能计算机系统中扮演着重要角色,相当于给计算机系统安装上耳朵,使其具备能听的功能,进而实现信息时代利用语音这一最自然、最便捷的手段进行人机通信和交互。

语音识别应用功能可以分为语音听写、在线命令词识别、离线命令词识别、语音唤醒、语音测评。

6.3 声纹识别引擎

说话人识别(Speaker Recognize)技术即声纹识别(Voiceprint Recognize),是一项根据语音波形中反映说话人生理和行为特征的语音参数,自动识别说话人身份的技术。通过对说话者语音和数据库中登记的声纹作比较,对用户进行身份校验和鉴别,从而确定该说话人是否为本人或是否为集群中的哪个人。声纹识别所提供的安全性可与其他生物识别技术(指纹、掌形和虹膜)相媲美,且只需电话或麦克风即可,无需特殊的设备,数据采集极为方便,造价低廉,是最为经济、可靠、简便和安全的身份识别方式。在任何时候,只需输入说话者的语音,依靠独特的声纹便可被安全地鉴别。在你电话信道中的表现更突出,是唯一可用于远程控制的非接触式生物识别技术。

 

应用的领域:保安门禁系统、金融、智能硬件。

7.麦克风阵列

麦克风阵列就是放置在空间中不同位置的多个麦克风。根据声波传到理论,利用多个麦克风收集到的信号可以将某一方向传来的声音增强或抑制。利用这种方法,麦克风阵列可以将噪声环境中特定声音信号有效的增强。更进一步来说,这种增强效应只依赖与声源所在的位置,对噪声的类型、频谱等没有特殊的要求,因此可以用在非常广的应用领域。由于麦克风阵列技术具有很好的抑制噪声的能力,又不需要麦克风时刻指向声源方向,因此在语音处理领域具有非常好前景。

 

麦克阵列一般具备的功能有远场拾音、声源定位、语音唤醒、回声消除、语音打断等。

l  远场拾音

运用远场识别和降噪技术,使拾音距离达到 5 米。

l  语音唤醒

用户通过说出关键词,可以将模块从休眠状态唤醒

l  声源定位

模块利用多个麦克风阵列,实现语音信号采集,并能通过声源定位来确定目标说话人的方向。

l  回声消除

在播放和录音同时进行的场景, 模块通过回声消除技术, 可以将扬声器的声音屏蔽,只接收用户的声音。

当播放和录音同时进行时,扬声器的声音会被麦克风拾取,就会形成回声,影响录音质量。通过接入参考信号,并对录音信号进行滤波计算,可以消除回声,提高信噪比。

l  语音打断

在设备播音时,仍然可以唤醒,实现打断效果。

 

语音增强

语音增强是指当语音信号被各种各样的噪声(包括语音)干扰甚至淹没后,从含噪声的语音信号中提取出纯净语音的过程。

20世纪60年代开始,Boll等研究者先后提出了针对使用一个麦克风的语音增强技术,称为单通道语音增强。因为它使用的麦克风个数最少,并且充分考虑到了语音谱和噪声谱的特性,使得这些方法在某些场景下也具有较好的噪声抑制效果,并因其方法简单、易于实现的特点广泛应用于现有语音通信系统与消费电子系统中。

 

在复杂的声学环境下,噪声总是来自于四面八方,且其与语音信号在时间和频谱上常常是相互交叠的,再加上回波和混响的影响,利用单麦克风捕捉相对纯净的语音是非常困难的。而麦克风阵列融合了语音信号的空时信息,可以同时提取声源并抑制噪声。

目前科大讯飞已经实现了基于线性阵列、平面阵列以及空间立体阵列的波束形成和降噪技术,效果均达到业界一流水平。

 

声源定位

现实中,声源的位置是不断变化的,这对于麦克风收音来说,是个障碍。麦克风阵列则可以进行声源定位,声源定位技术是指使用麦克风阵列来计算目标说话人的角度和距离,从而实现对目标说话人的跟踪以及后续的语音定向拾取,是人机交互、音视频会议等领域非常重要的前处理技术。所以麦克风阵列技术不限制说话人的运动,不需要移动位置以改变其接收方向,具有灵活的波束控制、较高的空间分辨率、高的信号增益与较强的抗干扰能力等特点,因而成为智能语音处理系统中捕捉说话人语音的重要手段。

 

去混响

一般我们听音乐时,希望有混响的效果,这是听觉上的一种享受。合适的混响会使得声音圆润动听、富有感染力。混响(Reverberation)现象指的是声波在室内传播时,要被墙壁、天花板、地板等障碍物形成反射声,并和直达声形成叠加,这种现象称为混响。

但是,混响现象对于识别就没有什么好处了。由于混响则会使得不同步的语音相互叠加,带来了音素的交叠掩蔽效应(Phoneme Overlap Effect),从而严重影响语音识别效果。

影响语音识别的部分一般是晚期混响部分,所以去混响的主要工作重点是放在如何去除晚期混响上面,多年来,去混响技术抑制是业界研究的热点和难点。利用麦克风阵列去混响的主要方法有以下几种:

1、基于盲语音增强的方法,即将混响信号作为普通的加性噪声信号,在这个上面应用语音增强算法。

2、基于波束形成的方法,通过将多麦克风对收集的信号进行加权相加,在目标信号的方向形成一个拾音波束,同时衰减来自其他方向的反射声。

3、基于逆滤波的方法,通过麦克风阵列估计房间的房间冲击响应(Room Impulse Response, RIR),设计重构滤波器来补偿来消除混响。

声源信号提取(分离)

环境中说话人很多,就需要麦克风阵列可以实现声源信号提取,声源信号的提取就是从多个声音信号中提取出目标信号,声源信号分离技术则是将需要将多个混合声音全部提取出来。

多麦克风阵列,远距离语音识别解决方案,解决在远场识别中遇到的背景噪声、其他人声干扰、回声、混响等核心问题,满足用户在以家庭为单位的活动范围内,通过语音轻松操控家里一切智能硬件设备的需求。

 

麦克风阵列技术虽然已经可以达到相当的技术水平,但是总体上还是存在一些问题的,比如当麦克风和信号源距离太远时(比如10m20m距离),录制信号的信噪比会很低,算法处理难度很大;对于便携设备来说,受设备尺寸以及功耗的限制,麦克风的个数不能太多,阵列尺寸也不能太大。而分布式麦克风阵列技术则是解决当前问题的一个可能途径。所谓分布式阵列就是将子阵元或子阵列布局到更大的范围内,相互之间通过有线或者无线的方式进行数据的交换和共享,并在此基础上进行广义上的声源定位、波束形成等技术实现信号处理。

相对于目前集中式的麦克风阵列,分布式阵列的优势也是非常明显的。首先分布式麦克风阵列(尤其无线传输)的尺寸的限制就不存在了;另外,阵列的节点可以覆盖很大的面积——总会有一个阵列的节点距离声源很近,录音信噪比大幅度提升,算法处理难度也会降低,总体的信号处理的效果也会有非常显著的提升,因此分布式阵列有可能是未来智能家居和会议系统中的主流方案。

 

8.国内外语音识别行业盘点

随着机器学习和人工智能的热闹,国内外语音行业也可谓是百花齐放,尤其是最近几年,不仅涌现了很多国内外的小公司,而且巨头们也开始加速语音识别行业的布局。传统语音识别行业贵族Nuance逐渐没落;苹果收购SiriNovauris TechnologiesVocallQEmotient;谷歌收购SayNowPhonetic ArtsWaviiSR Tech Group及出门问问;亚马逊收购YapEviIvona SoftwareFacebook收购MobileTechnologiesWit.ai微软战略发展SkypeCortana和微软小冰。

国内主流语音识别公司有科大讯飞、百度语音、思必驰、云知声、出门问问等。语音识别发展脉路没有那么清晰,刚开始各个巨头也都是采用专用公司比如科大讯飞、中科信利、云知声等公司的引擎。后来醒悟过来,纷纷谋求自建,但是除了百度不断砸入重金后获得了一定的效果外,其他自建的各大公司没有啥实质性进展。这一点从他们试图低薪聘请语音识别相关人才的策略上,也可知道其战略上没什么可发展的。语音识别行业属于声学和计算机的交叉技术,本来培养的人才就很稀缺,而从上述分析可以看出,国内外的技术源头实际上大概集中,无非就是业界相关的研究机构和拥有研发实力的巨头公司。

 

国内语音识别厂商

 科大讯飞

科大讯飞成立于1999年底,依靠中科大的语音处理技术以及国家的大力扶持,很快就走上了正轨。科大讯飞2008年挂牌上市,目前市值接近500亿,根据2014年语音产业联盟的数据调查显示,科大讯飞占据了超过60%的市场份额,绝对是语音技术的国内龙头企业。

      

 

提到科大讯飞,大家可能想到的都是语音识别,但其实它最大的收益来源是教育,特别是在2013年左右,收购了很多家语音评测公司,包括启明科技等,对教育市场形成了垄断,经过一系列的收购后,目前所有省份的口语评测用的都是科大讯飞的引擎,由于其占据了考试的制高点,所有的学校及家长都愿意为其买单。

核心技术:

语音合成技术、语音识别技术、语音评测技术、自然语言。

 

思必驰

 

思必驰  2007 年在英国剑桥的高新区创立,早期曾提供语音口语教育服务。2014 年年底,它开始转型,将其口语教育业务剥离出去并被网龙全资收购。当前思必驰主要深耕垂直在语音交互的车载、家居、机器人三大领域,给用户提供车载端的人机对话操作系统 AIOS、智能语音芯片模组 AICHIP 和环形 6+1 远扬麦克风阵列。并且在该三大领域中分别与高德、海尔、乐橙等诸多企业有合作。

特点: 支持丰富音频信息分析和挖掘;可定制、低资源语音唤醒;超短时高性能声纹识别、性别识别、情绪识别、年龄识别等。

AIOS思必驰对话操作系统:

弥补传统操作系统在自然语音交互上的缺失,从系统层面提供完整对话交互框架,完美适用各种操作系统。

 

云知声

云知声是最专业的语音交互提供商,公司成立于2012年。总部位于北京,在上海、深圳设有分公司和办事处。目前云知声已推出了一系列语音识别服务中间件和语音识别服务云平台,广泛应用在移动互联网、智能家居、可穿戴设备、车载导航、医疗、教育、呼叫中心等领域,为企业和用户提供专业的语音识别服务。

2014年,云知声提出AI芯、 AIUI(智能交互)AIService(智能云服务)的概念。云、端、芯三者结合,打造成为一个完整的产业闭环。云知声的核心技术主要应用在智能家居、智能车载、智慧医疗和智慧教育领域里。在智能家居领域,云知声是国内六大家电厂商中的语音服务供应商,并且成为了行业内白色家电领域唯一落地出货的芯片供应商;在智能车载领域,云知声通过智能后视镜、车载中控、HUD 等产品拥有 60% 以上的市场份额,占有率第一。在智慧医疗领域中,云知声的智能语音录入系统,已经正式上线国内多家顶级三甲医院。在智慧教育领域中,云知声主推的英语口语测评技术。

 

出门问问

出门问问成立于2012年,其CEO曾经在谷歌工作,在拿到红杉资本和真格基金的天使投资之后,从谷歌辞职创办了上海羽扇智信息科技有限公司,并立志打造下一代移动语音搜索产品——“出门问问

出门问问是一款基于语音识别、语义理解技术,面向移动搜索领域的智能手机应用。用户只需通过语音用口语化的提问方式就可以搜索出有关于吃穿住行的服务。

20141219日,首款中文智能手表操作系统Ticwear发布。  20156月,出门问问推出智能手表Ticwatch。是出门问问人工智能技术成功落地的一款可穿戴设备。Ticwatch有多种交互方式,用户可以通过对手表说出你好问问唤醒语音交互界面。

拥有自主研发的全套语音技术,包括在线语音识别,离线语音识别和离线热词。在移动搜索领域,中文识别率国内领先。

 

产品特色

1. 用户可以通过语音用口语化的方式来进行搜索内容的输入

2. 整合了各垂直搜索引擎的功能,从吃穿住行这些生活领域提供搜索服务

3. 关注生活实用信息搜索的同时还可以通过语音控制手机

 

9.语音识别行业平衡之下的技术发展趋势

语音识别行业现在似乎维持着最大的平衡,因为国内外各家的引擎识别率都基本在同一个水平线上,差不多达到了当前语音识别技术的极限,彼此之间差距不是那么明显。本来苹果发布Siri被寄予厚望,这是将语音技术进行大众推广的绝佳良机,但是Siri的表现却与预期相差甚远。即便国内非常火热的微信,其中又有几人使用,甚至知道其中的语音识别技术呢?倒是同样源自声学技术的微信摇一摇功能非常火热。这个技术相对语音识别来说,简直就是小巫见大巫,但是应用场景契合的很好。因此,传统的语音识别行业公司都在谋求转型发展,比如Nuance、科大讯飞等,转型失败或者技术储备不足的,或许将来就是最早倒下的,而且这几年也有不少家类似公司倒下了。

未来的语音识别市场,预计将会有越来越多的公司参与,以后语音识别的性能可能更多的体现在前端技术和语义理解上。机器要与人自然交流,当然就不能重复手机这套语音对话规则,必然就要考虑到用户说话的环境、周围环境的噪音、用户发音不准或者方言等等诸多因素,这就要求前端技术更加精准的模拟人体结构,仿真出机器人听觉系统,以实现解放双手自由对话的目的。另外,机器能不能与人自由的交流,不仅需要机器能将语音转换成文字,更需要机器从文字中理解说话人的含义,这一方面是基于大样本的机器学习需要更进一步,另外一方面也需要小样本的自主学习,没有举一反三的功能,似乎语义理解也无法自主适应陌生的环境。这两个新兴的技术领域,或许又会孕育出几家独角兽企业,将真正推动语音从识别走向交互的自然体验,从而向着人工智能再次迈进一步。 

 

10.应用领域和案例

语音识别的应用领域非常广泛,常见的应用系统有:

语音输入系统,相对于键盘输入方法,它更符合人的日常习惯,也更自然、更高效;

语音控制系统,即用语音来控制设备的运行,相对于手动控制来说更加快捷、方便,可以用在诸如工业控制、语音拨号系统、智能家电、声控智能玩具等许多领域;

语音评测就是通过智能语音技术自动对发音人水平进行评价、发音错误、缺陷定位和问题分析的软件系统。可以用在教育市场

 

智能对话查询系统,根据客户的语音进行操作,为用户提供自然、友好的数据库检索服务,例如家庭服务、宾馆服务、旅行社服务系统、订票系统、医疗服务、银行服务、股票查询服务等等。

 

智能家居

       馨厨冰箱

海尔发布的超智能馨厨互联网冰箱,以人脸识别、全语音交互技术、食物识别、QQ物联、杀菌可视化5项交互技术,行业唯一实现认人辨物功能。体现了海尔冰箱+生态模式的成功转型引领,率先进入超智能时代。语音功能是思必驰语音识别解决方案。

 

 美的空调智能+”

IQ智能王空调颠覆了传统挂机方形设计,不仅拥有珠玉润的外观,还拥有人体冷热检测、离线语音控制等知冷暖、会听话的人机交互智能系统,利用科大讯飞家用空调软硬一体整体解决方案,美的空调第一次真正把用户从遥控器的操作中解放出来,让用户拥有更优质更人性化的生活体验。

科大讯飞家用空调解决方案集成了科大讯飞的核心技术,其中4麦线型阵列降噪算法,解决了空调风噪、小居室混响等噪声干扰,用户在5米内可以轻松交互;通过集成模型VAD、深度神经网络唤醒引擎、离线语法识别引擎,实现了唤醒词随时说、指令自由说、连续说的功能。讯飞家用空调方案,打破了智能硬件APP的控制,用户可以直接与美的空调对话,享受更加舒适自由的家居生活。

 

叮(DING)咚(DONG)智能音箱

京东智能与科大讯飞联手推出了双方合作的首款产品叮(DING)咚(DONG)智能音箱。这款产品开创了一种崭新的语音交互方式,它通过嵌入科大讯飞一流的语音技术,无需任何手动操作,就可以通过自然语言交互实现音频点播和播放控制,凭借出色的人工智能处理,它可以成为用户的音频助理,完成百科查询、讲故事、聊天等功能。同时,该产品可以让用户通过语音控制接入京东微联的智能产品,成为智能家居的全新交互入口。作为双方联合推出的重点产品,这款智能音箱的诞生充分展示了科大讯飞在语音识别和人工智能上卓越成就,和京东智能在产业链整合和生态体系建设上的实力。

 

机器人

优必选机器人

优必选机器人使用科大讯飞开发平台的语音听写、命令词识别、命令词识别、语音唤醒、语音合成、开放语义和麦克风阵列产品,实现机器人跟人类更流畅的语音对答和情感交流。

车载

车萝卜

车萝卜Carrobot,是一款基于HUD+语音操控人机对话的智能车载机器人,能极大提升人们开车的安全性。

车萝卜通过放置在方向盘正前方仪表台上的HUD透明投影屏展现信息,并通过思必驰提供的智能语音技术语音操控实现语音导航、接打电话、收发微信、听歌点歌等功能。让用户在专心开车同时,安全兼顾导航及通讯、娱乐、社交需求,让驾驶更加安全畅快。

 


  • 上一篇文章:
  • 下一篇文章:
  • 南京点触智能科技有限公司 版权所有 © 2014-