2018-07-18 09:35:10
6259
語音質(zhì)量是公網(wǎng)對(duì)講產(chǎn)品影響用戶體驗(yàn)最重要的指標(biāo),早期公網(wǎng)對(duì)講產(chǎn)品不成功的主要原因也是實(shí)際用戶體驗(yàn)到的音質(zhì)達(dá)不到可接受的范圍。從模擬對(duì)講發(fā)展到數(shù)字對(duì)講,主要解決三個(gè)問題,提升語音質(zhì)量、增強(qiáng)保密性和提高頻譜利用率,首當(dāng)其沖就是要改善語音通信質(zhì)量,特別是復(fù)雜電磁環(huán)境和遠(yuǎn)距離傳輸時(shí)的語音通信質(zhì)量。公網(wǎng)對(duì)講作為“數(shù)字對(duì)講”技術(shù)之一,其語音質(zhì)量又如何呢?在4G寬帶移動(dòng)網(wǎng)絡(luò)支持下,公網(wǎng)對(duì)講能帶給我們更好的音質(zhì)體驗(yàn)嗎?
衡量語音質(zhì)量的指標(biāo)
衡量通信系統(tǒng)語音質(zhì)量主要有兩個(gè)指標(biāo),一是接收端語音的MOS分;二是端到端語音延時(shí)。
MOS分(Mean Opinion Score,平均主觀意見分)用于衡量經(jīng)過通信系統(tǒng)壓縮編碼傳輸后恢復(fù)語音的“還原度”,包括可懂度、清晰度和自然度,采用5分制打分(5優(yōu),4良,3尚可,2差,1劣)。傳統(tǒng)PSTN有線電話的語音質(zhì)量一般定義為MOS 4.0分,2G無線電話的語音質(zhì)量為MOS 2.5-4分之間,3G移動(dòng)電話系統(tǒng)采用的語音編解碼算法可以達(dá)到4分以上。
端到端語音延時(shí),用于衡量通信系統(tǒng)的實(shí)時(shí)性,延時(shí)過大將極大影響交互溝通的用戶體驗(yàn)。傳統(tǒng)PSTN電話的端到端語音延時(shí)小于16ms;IP電話系統(tǒng)一般要求端到端語音延時(shí)小于300ms;衛(wèi)星電話端到端語音延時(shí)大于500ms。通常我們?cè)诖騃P電話或衛(wèi)星電話時(shí),會(huì)感覺到對(duì)方反應(yīng)“遲鈍”,造成溝通不暢,就是因?yàn)槎说蕉苏Z音延時(shí)過大造成的。基于IP網(wǎng)絡(luò)協(xié)議的公網(wǎng)對(duì)講系統(tǒng),其端到端延時(shí)往往大于幾百毫秒,也是影響用戶體驗(yàn)的重要指標(biāo)。
影響公網(wǎng)對(duì)講語音質(zhì)量的主要因素
影響公網(wǎng)對(duì)講音質(zhì)的主要因素分為兩大部分,一部分是終端硬件因素,包括麥克風(fēng)、喇叭、聲腔結(jié)構(gòu)和音頻電路等;另一部分是平臺(tái)系統(tǒng)設(shè)計(jì)因素,包括語音編解碼算法、音頻增強(qiáng)算法、傳輸策略和服務(wù)器處理機(jī)制等。本文重點(diǎn)介紹公網(wǎng)對(duì)講平臺(tái)對(duì)用戶音質(zhì)體驗(yàn)的幾個(gè)因素。
語音編解碼算法(也稱為聲碼器)
是決定公網(wǎng)對(duì)講平臺(tái)所能提供的語音質(zhì)量的根本因素。換句話說,如果平臺(tái)所采用的語音編解碼算法所能提供的語音質(zhì)量就很差,終端硬件的音頻設(shè)計(jì)再好也無法根本性提高語音質(zhì)量?,F(xiàn)有公網(wǎng)對(duì)講平臺(tái)主要采用三類語音編解碼器,第一類是早期支持2G CDMA網(wǎng)絡(luò)的平臺(tái),采用EVRC變速率聲碼器的半速率(4Kbps)編碼,其音質(zhì)較差,MOS分只有 3.0分左右;第二類以支持3G 移動(dòng)網(wǎng)絡(luò)為出發(fā)點(diǎn),采用3GPP AMR變速率聲碼器(4.75Kbps-12.2Kbps),其全速率編解碼音質(zhì)可達(dá)到MOS 4.0分以上;第三類是脫胎于VoIP系統(tǒng),采用ITU G.72x語音編碼標(biāo)準(zhǔn),可根據(jù)終端能力匹配來選擇編解碼算法。
語音增強(qiáng)
主要包括環(huán)境噪聲抑制、自適應(yīng)聲學(xué)回聲消除、自動(dòng)增益控制、自適應(yīng)均衡等算法。語音增強(qiáng)技術(shù)應(yīng)用的有無或好壞,很大程度上影響了產(chǎn)品的用戶音質(zhì)體驗(yàn)。
傳輸策略
基于無線IP網(wǎng)絡(luò)傳輸?shù)墓W(wǎng)對(duì)講系統(tǒng),必須面對(duì)丟包、抖動(dòng)、亂序等網(wǎng)絡(luò)傳輸因素對(duì)音質(zhì)的影響,因此必須設(shè)計(jì)一套有效的傳輸策略來對(duì)抗這些網(wǎng)絡(luò)特征對(duì)語音質(zhì)量產(chǎn)生的負(fù)面影響。所以說,對(duì)于OTT體制的公網(wǎng)對(duì)講平臺(tái),實(shí)現(xiàn)公網(wǎng)對(duì)講業(yè)務(wù)基本功能并不難,在好的網(wǎng)絡(luò)環(huán)境下“演示”效果也可能會(huì)表現(xiàn)不錯(cuò),但用戶真正使用的時(shí)候就會(huì)出各種各樣的音質(zhì)問題。因此,對(duì)公網(wǎng)對(duì)講平臺(tái)而言,難的是如何在不同的網(wǎng)絡(luò)環(huán)境下提供很好的用戶音質(zhì)體驗(yàn)。
4G公網(wǎng)對(duì)講的語音質(zhì)量能不能大幅提升?
使用2G網(wǎng)絡(luò)的公網(wǎng)對(duì)講用戶已經(jīng)熟知2G公網(wǎng)對(duì)講機(jī)音質(zhì)差、語音延時(shí)大的問題,在2G公網(wǎng)對(duì)講機(jī)向4G公網(wǎng)對(duì)講機(jī)過渡的過程中,用戶必然會(huì)問,4G網(wǎng)絡(luò)帶寬大,傳輸速度快,語音質(zhì)量是不是也能大幅度提高呢?答案是“不一定”,4G公網(wǎng)對(duì)講完全有條件大幅度提升語音質(zhì)量,但并不是采用了4G終端就能提升語音質(zhì)量,而是取決于平臺(tái)的系統(tǒng)設(shè)計(jì)能否有效利用4G網(wǎng)絡(luò)的帶寬優(yōu)勢。
如前所述,公網(wǎng)對(duì)講系統(tǒng)音質(zhì)的好壞的根本因素是采用什么樣的語音編解碼器,如果平臺(tái)只能支持低碼率低質(zhì)量的語音編碼器,也沒有根據(jù)4G網(wǎng)絡(luò)的優(yōu)勢調(diào)整傳輸控制策略,不能充分利用4G網(wǎng)絡(luò)的帶寬優(yōu)勢,4G公網(wǎng)對(duì)講機(jī)也就徒有虛名,并不能給用戶帶來大的音質(zhì)體驗(yàn)提升。
集群通(GQT)系統(tǒng)的語音業(yè)務(wù)設(shè)計(jì)
集群通平臺(tái)的語音業(yè)務(wù)設(shè)計(jì),支持多聲碼器互通,支持用戶可配置語音編解碼算法,具備充分調(diào)優(yōu)的語音增強(qiáng)算法和自適應(yīng)傳輸網(wǎng)絡(luò)環(huán)境的傳輸控制策略。
集群通平臺(tái)主聲碼器采用3GPP AMR多速率聲碼器,編碼速率從4.75Kbps到12.2Kbps可根據(jù)用戶或網(wǎng)絡(luò)條件配置,該聲碼
器的MOS分最高可達(dá)4.2分。同時(shí),由于集群通系統(tǒng)架構(gòu)支持多聲碼器互通,在4G網(wǎng)絡(luò)條件下可以后向兼容引入新的更高質(zhì)量的語音編碼器,如OPUS音頻編碼器,達(dá)到更高的語音通信質(zhì)量。
在網(wǎng)絡(luò)傳輸策略上,集群通系統(tǒng)支持自適應(yīng)的傳輸控制算法,端到端語音延時(shí)(實(shí)際用戶體驗(yàn)到的時(shí)延)可以控制在200ms到500ms,大大優(yōu)于目前大部分2G公網(wǎng)對(duì)講平臺(tái)的1000ms端到端時(shí)延指標(biāo)。
綜上所述,集群通平臺(tái)的語音業(yè)務(wù)設(shè)計(jì)采用的是可擴(kuò)展的系統(tǒng)架構(gòu),隨著網(wǎng)絡(luò)環(huán)境、用戶需求、業(yè)務(wù)應(yīng)用的演進(jìn),音頻業(yè)務(wù)服務(wù)質(zhì)量也可以同步不斷改進(jìn)。