赛车

苹果Google微软亚马逊哪家的语音助手略

2020-10-16 01:46:21来源:励志吧0次阅读

苹果、Google、微软、亚马逊,哪家的语音助手会的语言最多,以及为什么?

2018 年 9 月,一家叫 Vocalize.ai 的人工智能初创公司做了一项,它比较了 Google、苹果和亚马逊的智能语音助手,发现了一些有意思的事情。

比如,三家语音助手都能很好地识别美式口音和印度式口音的英语,但 Siri 和 Alexa 在识别中式口音时,准确度都大幅下降。

比如,直到今年秋天,三星的 Bixby 才会增加对德语、法语、意大利语和西班牙语的支持,这些语音加起来有超过 6 亿的使用者;微软的 Cortana 用了很多年才支持西班牙语、法语和葡萄牙语。

在人工智能取得重大突破并飞速发展的今天,为什么语音助手的发展如此缓慢?人类要重建巴别塔,该如何努力呢?

为什么语音助手支持一种新语音这么难?

声音识别又分成两个部分,第一步是将语音转成文字的语音识别,第二步是语义理解,涉及的技术主要是自然语言处理。

深度学习的突破是人工智能在最近几年飞跃发展的重要原因。目前,语音研究领域也主要使用深度神经网络—一个像人类神经一样的分层数学函数,可以不断自我学习和进步。

图片来自:electronicsweekly

这已经是一个巨大的进步。过去的自动语音处理技术(ASR)主要依赖手动调整的统计模型来计算短语中词组合的概率,深度神经网络不仅降低了错误率,而且在很大程度上避免了人为的需要。

但基础的语言理解还远远不够,本地化依然是个巨大的。有技术人员透露,目前,根据要涵盖的意图,新语言构建查询理解模块需要 30 到 90 天。如开头所说,即使是识别同一种语言的口音,都是巨大的。

不同语言的差别更大。比如在语法层面,英语中形容词通常出现在名词前,而副词既可以在前,也可以在后。对语音助手来说,这就很容易产生迷惑,比如海星(starfish)这个词,语音转文字的引擎很容易将星星(star)理解为鱼(fish)的形容词。

将语音处理为文字并加以理解后,语音助手还必须以人类的声音来回复。

现在的语音合成技术被称为 TTS(文本转语音)它使用数学模型重新创建声音,组合成单词和句子。 最新的 TTS 同样引入了深度学习,可以在训练的过程中越来越强。

目前,相比语音识别和语义理解,语音合成的技术要成熟很多。中国各大互联网公司也经常在活动中使用语音合成技术。

几大语音助手分别支持哪些语言

Google Assistant

Google 的语音助手支持的语言最多,目前它在 80 个国家支持 30 种语言,包括:

伯语(埃及,沙特伯)

孟加拉语

中文(繁体)

丹麦语

荷兰语

英语(澳大利亚,加拿大,印度,印度尼西亚,爱尔兰,菲律宾,新加坡,泰国,英国,美国)

法语加拿大。

德语(奥地利,德国)

古吉拉特语

印地语

印尼语

卡纳达语

意大利语

日语

韩语

马来语

马拉地语

挪威语

波兰语

葡萄牙语(巴西)

俄语

西班牙语(阿根廷,智利,哥伦比亚,秘鲁)

瑞典语

泰米尔语

泰卢固语

泰语

土耳其语

乌尔都语

苹果的 Siri

2018 年被 Google Assistant 超过后,Siri 目前支持的语言数排第二名。包括 36 个国家的 21 种语言:

伯语

中文(普通话,上海话和广东话)

丹麦语

荷兰语

英语

芬兰语

法语

德语

希伯来语

意大利语

日语

韩语

马来语

挪威语

葡萄牙语

俄语

西班牙语

瑞典语

泰语

微软的 Cornata

简体中文

英语(澳大利亚,加拿大,新西兰,印度,英国,美国)

法语加拿大。

德语

意大利语

日语

葡萄牙语(巴西)

西班牙语墨西哥,西班牙

亚马逊的 Alexa

英语(澳大利亚,加拿大,印度,英国和美国)

法语加拿大。

德语

日语

除少数重要外宾乘坐小轿车外

西班牙语(墨西哥,西班牙)

三星的 Bixby

英语

中文

德语

法语

意大利语

韩语

西班牙语未来会如何发展?

在语音识别、语义理解和语音合成领域,它们取得进步的主要原因是引入深度学习。

未来,更加依赖机器学习可能对语音领域的研究有更大的帮助。

处理多语言支持伴随着不同的语法规则,这也是目前主要的之一,语音处理模型必须考虑并适应这些语法规则,人工智能公司 Clinc 的副 Himi Khan 解释到,大多数自然语言处理模型采集句子,进行词性标注—在某种意义上识别语法,并创建规则来确定如何解释该语法。

传说中的巴别塔,因上帝将人类的语言打乱而中止建设. 图片来自:jonathanpark

这只是一个研究方向。但总体来说,使用海量的真实对话作为语料供机器学习,而不过多依赖人工定义的识别模型,可以有效地帮助语音助手更加聪明。

本文相关词条概念解析:

语音

语音即语言的声音,是语言符号系统的载体。它由人的发音器官发出,负载着一定的语言意义。语言依靠语音实现它的社会功能。语言是音义结合的符号系统,语言的声音和语言的意义是紧密联系着的,因此,语言虽是一种声音,但又与一般的声音有着本质的区别。语音的物理基础主要有音高、音强、音长、音色,是构成语音四要素。

延伸 · 推荐

Google又开黑科技? 这回会说27国语言了

说到语音助手,各位能够想到哪些?苹果的Siri、Google的Assistant还是亚马逊的Alexa?不知道各位用这些语音助手的时候,有没有遇到语言的问题,比如,我们虽然设定了主要使用语言,但当我们...

.special_tag_wrap{clear:both;padding-top:40px;} .special_tag{padding:0 0 23px;border-top:1px solid #ddd;border-bottom:1px solid #ddd;} .special_tag a,.special_tag a:visited{color:#0f6b99;text-decoration:underline;} .special_tag_ttl{position:relative;top:-12px;float:left;padding:0 10px 0 0;background:#fff;font:18px/20px 微软雅黑;} .special_tag_cnt{clear:both;color:#888;font:16px/30px 微软雅黑;} .special_tag_tj .special_tag_ttl{color:#f33;} .special_tag_bk .special_tag_ttl{color:#1d87e4;} .special_tag_bj .special_tag_ttl{color:#96369f;} .special_tag_hg .special_tag_ttl{color:#f68b2d;} .special_tag_gd .special_tag_ttl{color:#09aa46;}
九个月宝宝风热感冒吃什么
宝宝对奶粉过敏有什么症状
丁桂薏芽健脾凝胶能治腹泻吗
心律不齐的症状及危害
分享到:
  • 友情链接
  • 合作伙伴