您好,歡迎訪問深圳市榮泰電子有限公司官網(wǎng)!

 歌爾股份、歌爾微、歌爾光學(xué)核心代理 

0755-235715500755-23204616
深圳市榮泰電子有限公司

行業(yè)新聞

新聞動(dòng)態(tài)

聯(lián)系我們

深圳市榮泰電子有限公司

地址:深圳市寶安區(qū)西鄉(xiāng)金海路華盛輝商業(yè)大廈8樓

電話:0755-23571550、0755-23204616

傳真:0755-23218515

銷售一部總監(jiān):黃生 13590196383

銷售二部總監(jiān):高生 13823610165

網(wǎng)址:http://nfjdszt.cn

十步,智能音箱從入門到放棄

發(fā)布時(shí)間:2021-10-15作者來源:榮泰電子瀏覽:2045

忽如一夜春風(fēng)來, 智能音箱遍地開。國(guó)外有Amazon Echo,Google Home,Microsoft Invoke,Apple HomePod……筆者也與高通保持交流,對(duì)方也在積極推智能音箱設(shè)計(jì)平臺(tái)。國(guó)內(nèi)巨頭有BAT磨拳檫掌,內(nèi)容商有喜馬拉雅發(fā)布了自己的小雅音箱,終端廠商也各自積極尋找合適的方案。應(yīng)運(yùn)而生的,深圳的音箱方案商也不出意外地滿大街啦。

 

那么問題就來了——如何才能做好一個(gè)智能音箱呢?



十步,智能音箱從入門到放棄



對(duì)于如何做好一個(gè)智能音箱,筆者腦海里面先浮現(xiàn)的是讀書那會(huì)兒圖書館、書店里面不斷沖擊眼球的《21天,C++從入門到精通》。當(dāng)然,很多時(shí)候讀完的感覺是,這個(gè)書名應(yīng)該改為《21天,C++從入門到放棄》,原因無他,C++博大精深、功能強(qiáng)大、涉及面極廣。類比智能音箱,筆者也嘗試撰寫一篇短文,不需要21天,只需要10步,智能音箱就可以從入門到放棄了。



1
 

市場(chǎng)定位

 


2017年6月4日,“定位之父”杰克·特勞特先生去世,享年82歲。但是他提出的“定位”(Positioning)理論將繼續(xù)指導(dǎo)大家的經(jīng)濟(jì)活動(dòng)。具體到智能音箱,尤其是在國(guó)內(nèi),如何在這波熱潮里面定位自己,非常重要。一個(gè)簡(jiǎn)單的例子,是打算自己推產(chǎn)品?還是打算國(guó)內(nèi)的通行做法,左手產(chǎn)品、右手方案?如果是后者,那么自己樹標(biāo)桿的產(chǎn)品采用什么方案?提供給客戶的方案又需要如何滿足不同的客戶價(jià)格區(qū)間?


圖片

看著上表,再看看國(guó)內(nèi)對(duì)于TTM(Time To Market) & Cost的割喉競(jìng)爭(zhēng),這一步估計(jì)已經(jīng)有不少公司放棄啦。


2

 

外觀設(shè)計(jì)

 


音箱外觀是[敏感詞]眼印象,重要性不解釋,見下圖:


圖片


這也就不難解釋為何那么多方案商給出的參考設(shè)計(jì)都是圓柱體,外形大體一樣——雖然我不出挑,但我也不挨罵啊。

 

各位看官,設(shè)身處地,如果自己沒有蘋果的江湖地位,面對(duì)吃瓜群眾對(duì)音箱外觀仁者見仁智者見智地點(diǎn)評(píng),是否有強(qiáng)大的心臟可以支持自己繼續(xù)走到第三步?


3

 

聲學(xué)結(jié)構(gòu)

 


其實(shí)外觀設(shè)計(jì)和結(jié)構(gòu)設(shè)計(jì)是密切相關(guān)的,大家都希望設(shè)備輕巧可攜帶,音效又特好,外殼還柔性,但外觀設(shè)計(jì)這一飄逸藝術(shù)家的活,被結(jié)構(gòu)要求的技術(shù)工科男懟了。要想低音好,需要加些料;要想播歌期間識(shí)別好,Mic喇叭[敏感詞]分開擺。這左一條、右一條、上一條、下一條的設(shè)計(jì)原則,讓音箱慢慢變大、變高,也就很難看到類似藍(lán)牙音箱那種捏在手里陪你慢慢跑步的智能運(yùn)動(dòng)音箱了。

 

各位做方案的朋友們,更要對(duì)這個(gè)上心啦,因?yàn)榻Y(jié)構(gòu)設(shè)計(jì)得好,大家一時(shí)感覺不了,結(jié)構(gòu)設(shè)計(jì)得不好,整體效果就大打折扣。當(dāng)然,結(jié)構(gòu)設(shè)計(jì)的好,不妨展示自家的透視圖,妥妥地工程美學(xué)。雖然大家都吐槽蘋果外形,但是[敏感詞]這張還是蠻出挑的。 


圖片


4

 

內(nèi)容整合

 


所謂的智能音箱,首先還是個(gè)音箱,自然要考慮播放歌曲的效果。上面談到的聲學(xué)結(jié)構(gòu),也是首先要確保播放音效。但是歌曲內(nèi)容的覆蓋度,也是[敏感詞]重要的事情。光有好的音效聲學(xué)結(jié)構(gòu),沒有音樂源,那就是修了高速?zèng)]有車跑了。國(guó)內(nèi)在這一塊合縱連橫,但主動(dòng)權(quán)還是掌握在音樂版權(quán)商手里。有決心涉足于此的大廠,這一塊的合作和成本是必須要考慮的事情了。


由于市場(chǎng)已有方案的示范效果,智能音箱除了播放歌曲,各種有聲讀物、唐詩(shī)宋詞、外文翻譯,也是題中應(yīng)有之意。每一塊內(nèi)容的整合,都是需要認(rèn)真規(guī)劃的。喜馬拉雅近日發(fā)布小雅音箱,其中一個(gè)大的出發(fā)點(diǎn)和訴求點(diǎn)就是自身的內(nèi)容優(yōu)勢(shì)。


從積極的角度看,為內(nèi)容,尤其是為高質(zhì)量的內(nèi)容付費(fèi),是我國(guó)知識(shí)產(chǎn)權(quán)走向更為成熟的標(biāo)志之一,也杜絕了部分市場(chǎng)參與者賺快錢、撈一把就走的心態(tài),這樣的氛圍更有利于打造精品,助力消費(fèi)升級(jí)。


5

 

系統(tǒng)優(yōu)化

 


說了這么多,終于開始進(jìn)入到產(chǎn)品本身了,那么如在定位中所提及的,在選定系統(tǒng)平臺(tái)后,各種系統(tǒng)優(yōu)化的工作就要安排了。很多做智能音箱的,把眼睛盯在遠(yuǎn)場(chǎng)喚醒、打斷、識(shí)別上面,其實(shí)系統(tǒng)優(yōu)化的[敏感詞]步,遠(yuǎn)遠(yuǎn)沒有到那一塊。目前的智能音箱均是WiFi音箱,那么開機(jī)速度、聯(lián)網(wǎng)便利性就是用戶除外觀以外的第二第三體驗(yàn)了。開機(jī)速度自然是越快越好,聯(lián)網(wǎng)自然是成功率越高越好,操作越簡(jiǎn)單越好。但是很多音箱,開機(jī)大于1分鐘,聯(lián)網(wǎng)重連概率高,還比較挑路由器和網(wǎng)絡(luò)設(shè)置。這個(gè),怎么說呢,想象一下小輩買了個(gè)音箱回家孝敬老人,心情愉快地上電,默默地等待幾分鐘,后自己也折騰半天還無法聯(lián)上網(wǎng),這個(gè)畫面就比較尷尬了。

 

其次系統(tǒng)功耗也很重要,先不說可攜帶音箱,即使是家中的音箱,雖然一直連著電源,但是播放一段時(shí)間后,播出千分音,但更放出萬分熱,就比較麻煩了。功耗牽涉到CPU的選擇,休眠時(shí)降頻的處理,也牽涉到一直運(yùn)行的計(jì)算,比如語(yǔ)音待喚醒的功耗,都是考驗(yàn)一個(gè)技術(shù)團(tuán)隊(duì)的重要方面。

 

沒有系統(tǒng)的駕馭能力,止步于此是一個(gè)不錯(cuò)的選擇了。


6

 

遠(yuǎn)場(chǎng)Mic陣列

 


好了,支撐整個(gè)智能音箱的AI終于要登場(chǎng)了,這是一個(gè)極為復(fù)雜的系統(tǒng),涉及到感知技術(shù)、認(rèn)知技術(shù)以及交互技術(shù)。下圖給大家一個(gè)整體印象。


圖片


這第六步也就是感知技術(shù)的[敏感詞]環(huán),遠(yuǎn)場(chǎng)Mic陣列。這是智能音箱的基礎(chǔ)技術(shù)之一,有了它,遠(yuǎn)距離、噪聲環(huán)境下的良好交互才成為可能,大家也可避免需要用手去觸摸音箱才能操作,甚至可以在臥室控制客廳的音箱。簡(jiǎn)單地說,Mic陣列是解決“耳朵”的問題。

 

以家居環(huán)境為例,遠(yuǎn)場(chǎng)語(yǔ)音拾取,必然需要考慮去除由于墻壁等反射導(dǎo)致的混響,家居各種設(shè)備產(chǎn)生的背景噪聲,其他用戶的人聲干擾以及電視機(jī)自身產(chǎn)生的回聲。目前市面上Mic陣列主要分為2Mic陣列和多Mic陣列。

 

Google Home采用的就是2Mic陣列,這個(gè)方案[敏感詞]的好處是結(jié)構(gòu)簡(jiǎn)單,實(shí)施落地方便,凸顯了Google做平臺(tái)的特質(zhì)。原因也很簡(jiǎn)單,在音箱上打兩個(gè)孔,無論是確保在一條直線上(這個(gè)其實(shí)是廢話了,兩點(diǎn)確定一條直線),還是一個(gè)平面上(似乎也是句廢話),都非常簡(jiǎn)單。缺點(diǎn)是只能支持180°聲源定位,定位角度的區(qū)分度也弱一些。

 

Amazon采用的是6+1 Mic陣列,支持360°聲源定位,但是聲學(xué)結(jié)構(gòu)設(shè)計(jì),乃至后期維護(hù)的難度有所提高。2Mic的一致性和6個(gè)Mic的一致性,以及更換出問題的概率都有差別。

 

另外,當(dāng)前也有一個(gè)有些走偏的思潮,那就是認(rèn)為Mic越多越好,這個(gè)看法其實(shí)有待商榷的,4個(gè)Mic能解決的問題,為啥一定要8個(gè)?成本更低,結(jié)構(gòu)更簡(jiǎn)單,效果一樣,為啥一定要7、8個(gè)呢?這種思潮,既有點(diǎn)像當(dāng)初大家追求的8核、10核處理器,又有點(diǎn)像鼓吹者只想做個(gè)Demo,根本不考慮量產(chǎn)了。

 

7

 

離線喚醒

 


就像外觀是整個(gè)音箱的[敏感詞]體驗(yàn)一樣,喚醒,是智能音箱的[敏感詞]體驗(yàn)了。說喚醒詞后反應(yīng)遲緩,隔得遠(yuǎn)了喊半天不起來,播放歌曲了需要吼才能起來,甚至放在那,莫名奇妙自己叫起來了,這些產(chǎn)品估計(jì)得擔(dān)心被用戶拍小視頻投訴了。

 

離線喚醒需要關(guān)注以下關(guān)鍵點(diǎn):

 

快: 反應(yīng)速度一定要快,[敏感詞]是用戶話音剛落,設(shè)備就應(yīng)答了,這給用戶的感受,就像是有個(gè)隨叫隨到的助手,很有feel。

 

準(zhǔn): 必須要準(zhǔn)確,說了喚醒詞就得有反應(yīng),否則,喊了半天,尤其是智能音箱經(jīng)常播放音樂,需要能準(zhǔn)確打斷,繼續(xù)下達(dá)命令。

 

穩(wěn): 沒事的時(shí)候靜靜地呆在那,主人看電視、接待小伙伴,音箱都不胡亂自己跳出來,給大家意外。這就要求長(zhǎng)時(shí)間誤喚醒率趨向于0。這一塊其實(shí)是硬功夫,而且需要仔細(xì)考察才能選出合適的方案。否則,喚醒光有快和準(zhǔn),后沒事亂蹦出來,就很煩人啦,沒準(zhǔn)投訴隨之而至。


8

 

語(yǔ)用計(jì)算(Context-aware NLU)

 


一般而言,說起認(rèn)知技術(shù),大家討論的都是自然語(yǔ)言處理(NLU),主要目的是讓音箱能準(zhǔn)確理解用戶的意圖。但是,中文博大精深,不同人說同一句話,以及同一個(gè)人在不同場(chǎng)合說同一句話,意思都不一樣了。例如經(jīng)典笑話:


A:你這是什么意思?

B:沒什么意思,就是意思意思。

A:你這樣就沒有意思啦。

B:哪里哪里,這只是一點(diǎn)小意思。

A:呵呵,你這個(gè)人真有意思。

 

這也就提醒我們,光從文字上,實(shí)際上是很難準(zhǔn)確地理解用戶的意圖的。任何語(yǔ)音的交流,都需要考慮一個(gè)核心因素—— 場(chǎng)景化。

 

所謂的語(yǔ)用計(jì)算,就是基于場(chǎng)景化感知的NLU。通過5W&1H(Who,When,Where,Which,What&How) 原則理解是什么人在什么時(shí)候,什么地方對(duì)著什么設(shè)備說了什么話,然后由語(yǔ)用決定如何去回應(yīng)。

 

圖片

 

具體到智能音箱,尤其是還有打算像Google和Amazon一樣把音箱作為家居中控的朋友們,更需要考慮這個(gè)基于場(chǎng)景的語(yǔ)用計(jì)算。


“你好音箱,幫我把燈關(guān)了”—— 是指這個(gè)智能音箱上連接的客廳的燈,還是臥室的?


“有點(diǎn)冷”,是指這個(gè)笑話說得有點(diǎn)冷,還是音箱上也掛接了空調(diào)了?

 

設(shè)身處地,理解用戶的命令,為用戶提供合適的應(yīng)對(duì),才是真正的NLU,也是語(yǔ)用計(jì)算的真諦所在。

 

9

 

流式交互

 


前面兩條是感知技術(shù)(耳朵)和認(rèn)知技術(shù)(大腦),有了這兩條,智能音箱聽得到,也聽得懂了,那么這款智能音箱可以說做到內(nèi)秀了。但是除了心靈美,也需要良好的溝通才能把音箱豐富的內(nèi)心帶給用戶。這就是要靠交互了,為自然的交互自然是語(yǔ)音交互了。但是目前的音箱,所有的交互都是一喚醒再一問再一答。這種交互[敏感詞]的問題就是——讓人感到生分。每次使用前,需要先喊一聲音箱的名字,然后再下達(dá)指令,比如:

 

先喚醒: “臥龍先生”,然后下達(dá)命令“隨便來首那英的歌”。智能音箱開始播放了,這個(gè)時(shí)候改主意了,想換一首韓紅的歌時(shí),又得喊一聲音箱的名字喚醒……

 

這個(gè)感覺,很像兩個(gè)特別生分的人,無論何時(shí)何地,請(qǐng)對(duì)方幫忙,都要喊一聲全名,“臥龍先生,請(qǐng)你”……“臥龍先生,能否幫我”…… “臥龍先生”……音箱買回家都幾個(gè)月了,大家已經(jīng)很熟啦,為啥一定需要這樣?

 

另外,面對(duì)音箱,用戶的心態(tài)和面對(duì)一個(gè)活生生的人,還是有些差異的。作為一名五好青年,隨意打斷別人說話,總是有些不禮貌的,從而內(nèi)心是抗拒的。但是打斷一個(gè)設(shè)備說話,或者插話,大家一般還是比較隨意的。