进出小区要刷门禁卡,住宿出行要掏身份证,订立合同要签字盖章,转账消费要输入密码,就连紫薇去认皇阿玛,也得拿着一画一扇当信物……
在与人类社会产生关联的过程中,我们无时无刻不需要证明自己的身份,以获得某种权限,为此我们发明了令牌、印章、证件、密码作为身份符号。但和这些传统方法相比,DNA、指纹、虹膜、人脸、声纹等生物特征才是你唯一的、稳定的、无法盗取也不会丢失的ID。这些生物信息ID和传统身份符号相比,有很多优势:
比如,独一无二,专属
比如,随身携带,方便
比如,难以复制,安全
也正因此,人类社会在从符号ID到生物ID的路上一直在默默前行。DNA检验在医疗、司法领域的应用大家早已熟知;指纹识别在考勤、门锁、手机上也已经普及;人脸识别近几年在支付、安防、金融等领域颇有建树。生物识别方式如此众多,我们为什么需要声纹识别?
加上声纹识别这点料,语音交互才算真智能
3 月 21 日,猎豹发布了小豹智能音箱; 3 月 22 日,阿里云实验室发布了新一代天猫精灵;谷歌还曾在其官方博客表示,上市 3 个月谷歌Home销量突破 673 万台。根据市场分析公司Canalys预测,到 2018 年底智能音箱全球出货量将达到 5630 万台。
毫无疑问,语音交互日趋成为人机交互的重要入口。语言自带指令属性,是人类最自然、最日常的沟通方式。从通过按键、触控与机器交互过渡到语音人机交互,无疑是一大飞跃。但只能识别指令内容是不够的,真正的智能交互产生的基础是机器能识别、区分人的身份,能像朋友一样根据你的身份鉴别权限和提供个性化的服务,否则语音交互就只是高配版遥控器,本质还是单向的命令输出工具——要实现真正智能的交互就需要加上声纹识别这点料。
举个例子,智能音箱爱好者估计都遇到过类似的麻烦:音箱放在客厅,电视响起,偶然播出唤醒词,音箱分辨不出这并非你的指令,于是乖巧地做出反应……类似的,在实际的车载场景中,智能后视镜也很容易被乘客无意的聊天或广播中偶然出现的唤醒词唤醒。只能识别口令,无法区分说话人的身份,不会判断什么人的话该听,什么人的话不该听,让本属于你的东西缺乏权限管控,更不能提供个性化服务,是目前市面上许多智能语音交互产品的通病,而病因则在于,缺了通过声纹识别技术辨别说话人这剂良方。
真正智能的人机交互,应该在你唤醒的同时,就能通过声纹识别技术知道你是你,并针对性地对口令做出反应。比如,智能后视镜能对广播中的唤醒词充耳不闻,只听你的口令;智能音箱除了能只被家里特定成员唤醒外,还能根据不同家庭成员的习惯和喜好进行个性化推荐,早上给爸爸播新闻,晚上给妈妈放爵士,周末给宝宝放儿歌,闲时给爷爷奶奶播戏曲,让所有人只需一句口令,就能听到最合适的推荐,有如量身定制一般。
隐蔽+随机+算法守卫,让声纹比安全更安全
既然是作为像身份证一样,用来证明身份的ID,声纹的安全性就不得不考量。比如,如果声音被不法分子盗录,岂不等于永久性地丢了通往世界的钥匙,还不能换锁?
首先,相对于人脸、步态等时刻暴露在外的生物特征,声纹具有隐蔽性。比如,从公司到家这一路,你不知道会经过多少摄像头,人脸信息被录入了几次,但最起码你还可以选择不说话。
即使不法分子费尽心机盗录了你的声音,那也不怕。就像人脸识别会通过摇头、眨眼等动作证明你是真人而非照片、模具一样,声纹识别可以通过随机改变口令内容来进行检测。想想,数字、长句、英文,所有语言随机组合,验证方式可比简单的摇头、眨眼丰富多了。即使犯罪分子提前盗录了你的声音信息,面对随机的、临时的验证口令,也毫用处。
除此之外,还有算法守卫。
正常的声纹识别流程是:人说话→声纹系统检测到声音并进行识别;
录音攻击的声纹识别流程是:人说话→盗录→播放→声纹系统检测到声音并进行识别。
在这个过程中,录音会把人说话的声音信号转换成电信号保存,这个编码的过程会导致部分声纹特征损失;播放又会将保存的电信号转化为声音信号,这个过程也会导致部分声纹特征的损失,再加上不同播放器材频率响应特征的影响,此时播放出来的声音和你本身说话的声音已经不是同一个声音。两者声纹特征的微妙差异人耳难以听辨,但经过深度学习的机器却能准确识别,让你失声不“失身”。
生来要说话,我们需要更人性的交互
为了与世界交互,我们创造了许多操作,比如设置账号密码和敲击键盘……虽然久经演练的我们早已习惯,但不得不承认这些操作是违反人类习惯的,账号密码容易忘,键盘敲久了手会疼就是明证。对于另外一些群体,比如老年人、身体有残疾的人或缺乏受教育机会的人,这些违反人类习惯、需要后天学习和大量演练的操作,就是他们通往世界的阻碍。
我们天然需要更自然、更简单、更人性的交互方式,而声纹的优势在于,不区分年龄、学历和生活习惯,我们生来要说话——我们需要声纹来解决许多困扰我们已久的事情,照顾更多被忽略已久的群体。
我们可以想象这些场景:
从此无需带钥匙,也不会出现把自己反锁在门外,一句“芝麻开门”就能证明你是这房子的主人;
从此也不用记密码,不论是简单的手绘图案还是字母数字下划线这种反人类的组合,统统变成“过去”的事情;
对于有视力障碍的老人和盲人,不用害怕看不清屏幕或找不到摄像头的位置,对着空气说句话事儿就办成了,和让家人给自己端杯水一样简单;
无需动身,坐在原地对着麦克风说句话就识别身份,让老年人足不出户,在家一个电话就能领取社保,让奔波的年轻人歇歇脚,远程异地办理各种业务,岂不比需要站在特定位置刷证件、按指纹方便得多?
我们生来要说话,如果能让声音成为我们不变的、随身携带的、不会忘记的、难以被窃取的ID,那么在通往世界的路上,所有需要证明你是你的场景,都变成了“一句话的事儿”。
AI的发展得益于算法、算法和大数据的进步。作为全球领先的声纹识别和身份安全解决方案人工智能公司,SpeakIn自信地告诉大家,说话作为人类最高频的交互方式,语音数据沉淀潜力无限;随着算法升级,深入场景,未来声纹识别会让生活更智能、更安全、更人性。
免责声明:本文为厂商推广稿件,企业发布本文的目的在于推广其产品或服务,站长之家发布此文仅为传递信息,不代表站长之家赞同其观点,不对对内容真实性负责,仅供用户参考之用,不构成任何投资、使用等行为的建议。请读者使用之前核实真实性,以及可能存在的风险,任何后果均由读者自行承担。