高通:語言識別系統(tǒng)新進(jìn)展
發(fā)布時間:2018/5/31 10:14:52 訪問次數(shù):1899
新語音識別系統(tǒng)識別單詞和短語的準(zhǔn)確率達(dá)到了95%,可在智能手機或其他便攜設(shè)備上運行,包含兩個神經(jīng)網(wǎng)絡(luò):循環(huán)神經(jīng)網(wǎng)絡(luò)(rnn)和卷積神經(jīng)網(wǎng)絡(luò)(cnn)。循環(huán)神經(jīng)網(wǎng)絡(luò)利用其內(nèi)存來處理輸入信息,而卷積神經(jīng)網(wǎng)絡(luò)則模仿人類大腦中神經(jīng)元之間的聯(lián)系方式來處理信息。
- 51電子網(wǎng)公益庫存:
- A1104LU-T
- A42MX24-PQG208
- A4982SLPTR-T
- AD10200BZ
- AD10200BZ
- AD1674BD
- AD1674JNZ
- AD1939YSTZ
- AD202KN
- AD204KY
- AD22100ATZ
- AD2S1205WSTZ
- AD2S82ALPZ
- AD420ARZ-32
- AD421BRZ
- AD5060ARJZ-2500RL7
- AD5061BRJZ-2REEL7
- AD5204BRUZ100-R7
現(xiàn)在大多數(shù)語音識別系統(tǒng)在云端進(jìn)行運算過程。手機中的麥克風(fēng)和芯片,智能音箱如谷歌home和亞馬遜echo,以及配置微軟cortana 語音助手的windows電腦,可以讓語音識別系統(tǒng)接傾聽一些熱門詞匯,例如“ok google”或hey cortana,從而接受一系列語音指令。但是,它們不會分析這些指令,而只是將這些指令傳輸?shù)竭\行復(fù)雜機器學(xué)習(xí)算法的強大遠(yuǎn)程服務(wù)器上。
對于某些用戶來說,將其語音數(shù)據(jù)上傳到云端,這樣會讓他們擔(dān)心隱私方面的問題。亞馬遜alexa和谷歌assistant均會錄制語音片段,然后將它們發(fā)送出去進(jìn)行分析。它們會一直保留這些語音片段,直到用戶選擇刪除它們。這兩家公司均表示,它們錄制語音是為了改善其服務(wù),提供更加個性化的語音回答。
在某些情況下,錄制語音無法保護(hù)用戶的隱私。在2016年,亞利桑那州調(diào)查一宗謀殺案的偵探在被告人的同意下訪問了一臺亞馬遜echo智能音箱中的語音數(shù)據(jù)。
高通的這種語音識別系統(tǒng)直接在設(shè)備上處理數(shù)據(jù),這樣做除了可以保護(hù)用戶的隱私之外,還具有多方面的好處。由于它不必將數(shù)據(jù)上傳到云端,它對于指令的反應(yīng)速度更快。由于它不需要連接互聯(lián)網(wǎng),因此它變得更加穩(wěn)定。
我們努力按照某種神經(jīng)網(wǎng)絡(luò)的形式來處理整個端到端系統(tǒng),這樣可以讓用戶與設(shè)備的互動變得更加自然!
在2016年,谷歌開發(fā)了一款離線語音識別系統(tǒng),它的速度是同時期其在線語音識別系統(tǒng)的7倍。這個離線語音識別系統(tǒng)利用語音數(shù)據(jù)進(jìn)行了大約2000個小時的訓(xùn)練,它的大小為20.3兆,在智能手機上運行,準(zhǔn)確率為86.5%。
當(dāng)然,這種設(shè)備端語音識別系統(tǒng)也有自身的局限性。離線工作的算法無法連接互聯(lián)網(wǎng),并搜索問題的答案。而且,它們無法像云端系統(tǒng)那樣隨著數(shù)據(jù)的積累不斷地改進(jìn)。http://sxddz.51dzw.com/
高通的解決方案是面向未來的。“現(xiàn)在很多計算過程發(fā)生在云端,但是我們認(rèn)為這個過程應(yīng)該直接在設(shè)備上進(jìn)行。”
近日,在美國波士頓舉行的re-work深度學(xué)習(xí)峰會上,美國高通公司的人工智能研究人員展示了其團(tuán)隊在語音識別系統(tǒng)方面的新進(jìn)展。文章來源:21ic網(wǎng)
新語音識別系統(tǒng)識別單詞和短語的準(zhǔn)確率達(dá)到了95%,可在智能手機或其他便攜設(shè)備上運行,包含兩個神經(jīng)網(wǎng)絡(luò):循環(huán)神經(jīng)網(wǎng)絡(luò)(rnn)和卷積神經(jīng)網(wǎng)絡(luò)(cnn)。循環(huán)神經(jīng)網(wǎng)絡(luò)利用其內(nèi)存來處理輸入信息,而卷積神經(jīng)網(wǎng)絡(luò)則模仿人類大腦中神經(jīng)元之間的聯(lián)系方式來處理信息。
- 51電子網(wǎng)公益庫存:
- A1104LU-T
- A42MX24-PQG208
- A4982SLPTR-T
- AD10200BZ
- AD10200BZ
- AD1674BD
- AD1674JNZ
- AD1939YSTZ
- AD202KN
- AD204KY
- AD22100ATZ
- AD2S1205WSTZ
- AD2S82ALPZ
- AD420ARZ-32
- AD421BRZ
- AD5060ARJZ-2500RL7
- AD5061BRJZ-2REEL7
- AD5204BRUZ100-R7
現(xiàn)在大多數(shù)語音識別系統(tǒng)在云端進(jìn)行運算過程。手機中的麥克風(fēng)和芯片,智能音箱如谷歌home和亞馬遜echo,以及配置微軟cortana 語音助手的windows電腦,可以讓語音識別系統(tǒng)接傾聽一些熱門詞匯,例如“ok google”或hey cortana,從而接受一系列語音指令。但是,它們不會分析這些指令,而只是將這些指令傳輸?shù)竭\行復(fù)雜機器學(xué)習(xí)算法的強大遠(yuǎn)程服務(wù)器上。
對于某些用戶來說,將其語音數(shù)據(jù)上傳到云端,這樣會讓他們擔(dān)心隱私方面的問題。亞馬遜alexa和谷歌assistant均會錄制語音片段,然后將它們發(fā)送出去進(jìn)行分析。它們會一直保留這些語音片段,直到用戶選擇刪除它們。這兩家公司均表示,它們錄制語音是為了改善其服務(wù),提供更加個性化的語音回答。
在某些情況下,錄制語音無法保護(hù)用戶的隱私。在2016年,亞利桑那州調(diào)查一宗謀殺案的偵探在被告人的同意下訪問了一臺亞馬遜echo智能音箱中的語音數(shù)據(jù)。
高通的這種語音識別系統(tǒng)直接在設(shè)備上處理數(shù)據(jù),這樣做除了可以保護(hù)用戶的隱私之外,還具有多方面的好處。由于它不必將數(shù)據(jù)上傳到云端,它對于指令的反應(yīng)速度更快。由于它不需要連接互聯(lián)網(wǎng),因此它變得更加穩(wěn)定。
我們努力按照某種神經(jīng)網(wǎng)絡(luò)的形式來處理整個端到端系統(tǒng),這樣可以讓用戶與設(shè)備的互動變得更加自然!
在2016年,谷歌開發(fā)了一款離線語音識別系統(tǒng),它的速度是同時期其在線語音識別系統(tǒng)的7倍。這個離線語音識別系統(tǒng)利用語音數(shù)據(jù)進(jìn)行了大約2000個小時的訓(xùn)練,它的大小為20.3兆,在智能手機上運行,準(zhǔn)確率為86.5%。
當(dāng)然,這種設(shè)備端語音識別系統(tǒng)也有自身的局限性。離線工作的算法無法連接互聯(lián)網(wǎng),并搜索問題的答案。而且,它們無法像云端系統(tǒng)那樣隨著數(shù)據(jù)的積累不斷地改進(jìn)。http://sxddz.51dzw.com/
高通的解決方案是面向未來的。“現(xiàn)在很多計算過程發(fā)生在云端,但是我們認(rèn)為這個過程應(yīng)該直接在設(shè)備上進(jìn)行!
近日,在美國波士頓舉行的re-work深度學(xué)習(xí)峰會上,美國高通公司的人工智能研究人員展示了其團(tuán)隊在語音識別系統(tǒng)方面的新進(jìn)展。文章來源:21ic網(wǎng)
上一篇:AMD發(fā)展趨勢
熱門點擊
- 概率星座整型(PCS)的概念
- 微軟第四代Kinect
- ST:新一代STSAFE-J100
- 高通:語言識別系統(tǒng)新進(jìn)展
- 福布斯 2018全球最具價值品牌榜
- NetApp:全新閃存系統(tǒng)
- 新型IoT Wi-Fi器件
- 蘋果WWDC 2018
- 宇宙發(fā)展演化
- 宇宙三級文明
推薦電子資訊
- 微軟新專利:皮膚感應(yīng)邊框
- 該專利名為“基于抓握的裝置適應(yīng)(Grip-Based&... [詳細(xì)]