自動語音識別(ASR)在呼叫中心系統(tǒng)中的應(yīng)用
自動語音識別(AutomaticSpeechRecognition簡稱"ASR")技術(shù)的目標(biāo)是讓計算機能夠“聽寫”出不同人所說出的連續(xù)語音,也就是俗稱的“語音聽寫機”,是實現(xiàn)“聲音”到“文字”轉(zhuǎn)換的技術(shù)。 自動語音識別(ASR)在呼叫中心系統(tǒng)中的應(yīng)用,自動語音識別通常有以下幾種分類方法:
(1)按系統(tǒng)的用戶情況分:特定人和非特定人識別系統(tǒng);
(2)按系統(tǒng)詞匯量分:小詞匯量、中詞匯量和大詞匯量系統(tǒng);
(3)按語音的輸入方式分:孤立詞、連接詞、連續(xù)語音系統(tǒng)等;
(4)按輸入語音的發(fā)音方式分:朗讀式、口語(自然發(fā)音)式;
(5)按輸入語音的方言背景情況分:普通話、方言背景普通話、方言語音識別系統(tǒng);
(6)按輸入語音的情感狀態(tài)分;中性語音、情感語音識別系統(tǒng)。語音識別技術(shù)適用于家用電器和電子設(shè)備,比如電視、計算機、汽車、音響、冷氣等的聲控遙控器,電話、手機或PDA上的聲控人名撥號、數(shù)字錄音機的聲控語音檢索標(biāo)簽、兒童玩具的聲控等;也可用于個人、呼叫中心,以及電信級應(yīng)用的信息查詢與服務(wù)等領(lǐng)域。
語音識別系統(tǒng)選擇識別基元的要求是,有準(zhǔn)確的定義,能得到足夠數(shù)據(jù)進行訓(xùn)練,具有一般性。自動語音識別(ASR)在呼叫中心系統(tǒng)中的應(yīng)用,英語通常采用上下文相關(guān)的音素建模,漢語的協(xié)同發(fā)音不如英語嚴(yán)重,可
以采用音節(jié)建模。系統(tǒng)所需的訓(xùn)練數(shù)據(jù)大小與模型復(fù)雜度有關(guān)。模型設(shè)計得過于復(fù)雜以至于超出了所提供的訓(xùn)練數(shù)據(jù)的能力,會使得性能急劇下降。 聽寫機:大詞匯量、非特定人、連續(xù)語音識別系統(tǒng)通常稱為聽寫機。其架構(gòu)就是建立在前述聲學(xué)模型和語言模型基礎(chǔ)上的HMM拓?fù)浣Y(jié)構(gòu)。訓(xùn)練時對每個基元用前向后向算法獲得模型參數(shù),識別時,將基元串接成詞,詞間加上靜音模型并引入語言模型作為詞間轉(zhuǎn)移概率,形成循環(huán)結(jié)構(gòu),用Viterbi算法進行解碼。針對漢語易于分割的特點,先進行分割再對每一段進行解碼,是用以提高效率的一個簡化方法。 自動語音識別(ASR)在呼叫中心系統(tǒng)中的應(yīng)用對話系統(tǒng):用于實現(xiàn)人機口語對話的系統(tǒng)稱為對話系統(tǒng)。受目前技術(shù)所限,對話系統(tǒng)往往是面向一個狹窄領(lǐng)域、詞匯量有限的系統(tǒng),其題材有旅游查詢、訂票、數(shù)據(jù)庫檢索等等。其前端是一個語音識別器,識別產(chǎn)生的N-best候選或詞候選網(wǎng)格,由語法分析器進行分析獲取語義信息,再由對話管理器確定應(yīng)答信息,由語音合成器輸出。由于目前的系統(tǒng)往往詞匯量有限,也可以用提取關(guān)鍵詞的方法來獲取語義信息。