緒論:寫作既是個人情感的抒發,也是對學術真理的探索,歡迎閱讀由發表云整理的11篇語音識別技術范文,希望它們能為您的寫作提供參考和啟發。
該文主要致力于解決通話中的語音識別技術,長期可推廣至QQ語音聊天等即時聊天軟件中,相較于目前大多數語音識別軟件需要手動打開更為主動,讓用戶感覺不到軟件的存在,將該技術深度整合到系統或QQ服務中在通話結束后針對通話中涉及的電話號碼、地點、時間等關鍵信息進行信息的推送,大大提高了效率,并對聽力有障礙的人士有更為重要的意義。
一、語音識別基本原理
語音識別系統本質上是一種模式識別系統,包括特征提取、模式匹配、參考模式庫等三個基本單元,未知語音經過話筒變換成電信號后加在識別系統的輸入端,首先經過預處理,再根據人的語音特點建立語音模型,對輸入的語音信號進行分析,并抽取所需的特征,在此基礎上建立語音識別所需的模板,然后根據此模板的定義,通過查表就可以給出計算機的識別結果。 [1]
二、通話中語音識別技術
2.1技術原理:
1、基本架構:Smartalk通話系統基于“云之訊”開放平臺提供的語音視頻通話服務和“科大訊飛”開放平臺提供的語音識別服務,并加以對手機GPS位置、通訊錄、社交軟件信息的分析,在“云”的輔助下對之進行處理和交換。Smartalk架構分為4個部分:客戶端、語音視頻服務、語音識別服務、云數據處理分析。利用“云之訊”開放平臺提供的語音視頻通話服務和“科大訊飛”開放平臺提供的語音識別服務可將用戶在通話中涉及的地點、人名、電話號碼等關鍵詞提取出來并加以分析對行程和下一步操作提供幫助。
2、基本平臺:本系統基于APIcloud開發,兼容云端和第三方SDK,可跨平臺(Android、IOS、Windows等)使用,采用標準的c++語言實現。
2.2功能實現:
1、基于“云之訊”開放平臺的通話系統:云之訊融合通訊開放平臺為企業及個人開發者提供各種通訊服務,包括在線語音服務、短信服務、視頻服務、會議服務等,開發者通過嵌入云通訊API在應用中輕松實現各種通訊功能。
2、基于“科大訊飛”開放平臺的語音識別系統:。訊飛開放平臺使用戶可通過互聯網、移動互聯網,使用任何設備方便的介入訊飛開放平臺提供的“聽、說、讀、寫”等全方位的人工智能服務。目前開放平臺向開發者提供語音合成、語音識別、語音喚醒、語義理解、移動應用分析等多項服務。
3、語音識別與云端大數據結合分析:。利用基于“云之訊”通話系統和“科大訊飛”語音識別系統實現了實時的語音識別,加以云端大數據的結合,和實時的分析用戶當前的需求和問題,及時的跟用戶產生交流反饋,并根據用戶長期的使用時間分析智能提前推送相關信息。
2.3未來展望:
基于大數據和互聯網+技術的日益發展與完善,并隨著通信傳輸速度的逐漸提高,可在實時的條件下分析與推送更多豐富的內容,加以與即時聊天軟件的結合,將該技術深度整合到系統或QQ服務中在通話結束后針對通話中涉及的電話號碼、地點、時間等關鍵信息進行信息的推送,并對聽力有障礙的人士有更為重要的意義,未來的市場前景廣闊。
三、語音識別技術應用
3.1 語音指令控制在汽車上的應用:
語音控制人員只需要用嘴說出命令控制字,就可以實現對系統的控制。在汽車上,可用于汽車導航、控制車載設備。如車燈、音響、天窗、座椅、雨刮器等。
3.2語音識別技術在醫療系統中的應用:
醫療語音識別技術,已有廠商開發了基于云平臺的語音識別系統,可直接內嵌到醫院電子病歷系統中,讓醫生通過語音輸入病人信息,填寫醫療記錄,下達醫囑信息。
四、相關市場調研
1、國內外市場分析:2015年全球智能語音產業規模達到61.2億美元,較2014年增長34.2%。其中,中國智能語音產業規模達到40.3億元,較2014年增長增長41.0%,遠高于全球語音產業增長速度預計到2016年,中國語音產業規模預計達到59億元。[2]
2、相關應用發展:拉斯維加斯消費電子展(CES)上展示的MindMeld。在通話中,如果參與者點擊應用的一個按鈕,那么MindMeld將利用Nuance的語音識別技術,分析此前15至30秒對話。隨后,MindMeld將確定對話中的關鍵詞,以及其他多個信息來源,查找具有相關性的信息,并在屏幕上向用戶提供圖片和鏈接地址。[3]
參 考 文 獻
中圖分類號:TP391.42 文獻標識碼:A 文章編號:1007-9599 (2012) 19-0000-02
近年來,隨著科學技術的進步,語音識別技術的發展,通過語言操縱機器的夢想正在逐步變為現實。語音識別是語音信號處理的一個重要的研究方向,經過50多年的積累研究,尤其是近20年來,語音識別技術取得了顯著進步,并且廣泛應用于商業,比如蘋果的siri系統。本文從語音識別的發展歷史、發展方向來著重分析未來語音識別技術的發展趨勢。
1 語音識別技術的發展歷史
1.1 語音識別技術在國際的發展
早在三四十年前,美國的一些大學和實驗室就開始了語音識別技術的研究,50年代的AT& T Bell實驗室研發的Audry系統第一個實現了可識別十個英文數字。60和70年代,提出了線性預測分析技術(LP)等相關理論并深入研究,創造出可以實現特定人孤立語音識別系統;80年代和90年代是語音識別技術應用研究方向的,HMM模型和人工神經元網絡(ANN)的成功應用,使得語音識別系統的性能比以往更優異;伴隨著多媒體時代的來臨,微軟,Apple等著名公司都研發出相當成功的商業應用語音識別系統,比如,Apple的Siri系統,微軟的Phone Query (電話語音識別)引擎等。
1.2 語音識別技術在國內的發展
我國的語音識別研究工作雖然起步較晚,但由于國家的重視,研究工作進展順利,相關研究緊跟國際水平。由于中國有不可忽視的龐大市場,國外對中國的語音識別技術也非常重視,漢語語音語義的特殊性也使得中文語音識別技術的研究更具有挑戰。但是,國內研究機構在進行理論研究的同時,應注重語音識別系統在商業中的應用,加快從實驗室演示系統到商品的轉化。
現如今,許多用戶已經能享受到語音識別技術帶來的方便,比如智能手機的語音操作等。但是,這與實現真正的人機交流還有相當遙遠的距離。目前,計算機對用戶語音的識別程度不高,人機交互上還存在一定的問題,語音識別技術還有很長的一段路要走,必須取得突破性的進展,才能做到更好的商業應用,這也是未來語音識別技術的發展方向。
2 語音識別技術的技術實現及困難
語音識別技術的實現方式是聲音通過轉換裝置進入機器,而機器配有“語音辨識”程序,程序將得到的聲音樣本與數據庫存儲的樣本進行比對,輸出最匹配的結果,轉化為機器語言,進而執行命令。真正建立辨識率高的語音辨識程序組,是非常困難而專業的,專家學者們研究出許多破解這個問題的方法,如傅立葉轉換、倒頻譜參數等,使目前的語音辨識系統已達到一個可接受的程度,并具有較高辨識度。
2.1 語音識別的技術實現方式
語音識別技術主要包括特征提取技術、模式匹配準則及模型訓練技術三個方面,其中,最基礎的就是語音識別單元的選取。
(1)語音識別單元的選取。語音識別研究的基礎是選擇語音識別單元。語音識別單元有單詞(句)、音節和音素三種,具體選擇哪一種語音識別單元由具體研究任務的類型決定:
單詞(句)單元在中小詞匯語音識別系統中應用廣泛,但由于模型庫過于龐大,模型匹配算法復雜,實時性不強,所以不適合大詞匯系統;
音節單元主要應用于漢語語音識別,因為漢語是單音節結構的語言,雖然有大約1300個音節,但無調音節共408個,相對較少,所以音節單元在中、大詞匯量的漢語語音識別系統上是可行的。
音素單元之前曾廣泛應用于英語語音識別,也越來越多的應用于中、大詞匯量漢語語音識別系統中。原因在于漢語音節僅由22個聲母和28個韻母構成,把聲母細化,雖然增加了模型數量,但是提高了易混淆音節的區分能力
(2)特征參數提取技術。特征提取就是對語音信號進行分析處理,把豐富的語音信息中的冗余信息去除,獲得對語音識別有用的信息。這是一個對語音信號進行信息壓縮的過程,目前經常采用的特征參數提取技術是線性預測(LP)分析技術。基于LP技術提取的倒譜參數再加上Mel參數和基于感知線性預測(PLP)分析提取的感知線性預測倒譜對人耳處理聲音的模擬,進一步提高了語音識別系統的性能。
(3)模式匹配及模型訓練技術。早期的語音識別應用的模式匹配和模型訓練技術是動態時間歸正技術(DTW),它在孤立詞語音識別中獲得了良好性能,但是由于對大詞匯量以及連續語音識別的不準確,目前已經被隱馬爾可夫模型(HMM)和人工神經元網絡(ANN)所取代。
2.2 語音識別遇到的困難
目前,語音識別研究工作進展緩慢,困難具體表現在:
(一)語音識別系統對環境敏感,采集到的語音訓練系統只能應用于與之對應的環境,而且當用戶輸入錯誤時不能正確響應,應用起來相對困難;(二)必須采取新的新號處理方法來處理人在高噪聲環境下的發音變化的問題;(三)語言模型、語法及詞法模型在中、大詞匯量連續語音識別中無法正確、合理的運用,需要有效地利用語言學、心理學及生理學等方面的研究成果;現階段的科學技術對人類生理學諸如聽覺系統分析理解功能、大腦神經系統的控制功能等還不夠,更無法應用于語音識別;語音識別系統從實驗室演示系統向商品的轉化過程中還有許多具體細節技術問題需要解決。
3 語音識別技術的發展趨勢
3.1 進一步提高可靠性
目前語音識別系統很難做到排除各種聲學環境因素的影響,而人類語言在日常生活中的隨意性和不確定性給語音識別系統造成極大的識別困難。所以,要應用現代技術智能化語音識別系統,以達到更好的識別效果;
3.2 增加詞匯量
目前語音識別系統使用的聲學模型和語音模型過于局限,需要通過改進系統建模方法、提高搜索算法的效率來做到詞匯量無限制和多重語言混合,減少詞匯量對語音識別系統的限制;
3.3 微型化并降低成本
語音識別系統在商業上的用途相當廣泛,利用先進的微電子技術,將具有先進功能和性能的語音識別應用系統固化到更加微小的芯片或模塊上,可以縮減成本,更方便的推廣和使用。語音識別系統和微電子芯片技術的發展將引領信息技術革命到一個新的臺階。語音識別系統使人溝通更加自由,使人可以方便地享受到更多的社會信息資源和現代化服務。這必然會成為語音識別技術研究和應用的重要發展趨勢。
4 結束語
21世紀,信息和網絡飛速發展,信息和網絡的時代已經來臨,人與人之間的距離隨著Internet和移動電話網的連接和普及變得越來越近,信息資源擴散的越來越迅速,人與機器的交互顯得尤為重要。語音識別技術的研究和應用可以讓人無論何時何地都可以通過語音交互的方式實現任何事,可以使人更方便的享受更多的社會信息資源和現代化服務,所以,如何將這一技術可靠的、低成本的應用于商業和日常生活,是語音識別技術的發展方向和趨勢。
參考文獻:
[1]劉鈺.語音識別技術概述[J].計算機光盤軟件與應用,2010:14-17.
[2]盛青.語音自動識別技術及其軟件實時實現[J].西北工業大學,2001:45-47.
[3]廖锎.淺析語音識別技術的發展及趨勢[J].科技傳播,2010:34-36.
談到語音識別,就不得不提到李開復------前微軟研究院院長,他在哥倫比亞大學時主攻的就是語音識別,即通過機器來識別語音。語音識別是現代社會背景下的一門新興學科,它最主要的功能就是可以讓計算機聽懂人說的話,進而為人們提供更高效且方便的服務。它是人類和計算機之間利用語言進行交流 的橋梁,也是一門與多種學科緊密聯系的實用技術。現階段,人們對連續語音識別的研究已經取得了一定的成就。目前,我們研究語音識別的重點正在向特定應用領域口語的識別和理解方面轉變。在這個研究中,有幾種關鍵技術,下面我們就對其中幾種關鍵技術進行簡單的分析。
1、詞語定位技術
詞語定位技術,在語音識別技術中非常重要的技術。主要通過對關鍵詞進行定位,這種技術跟語言的語法特點有很大關系,是將語句中的關鍵詞語提取出來的一種定位技術。比如主語,謂語,賓語就是關鍵語素,先將這些語素定位對于完善整句話有著非常重要的意義,因為這些語素已經勾勒出了語句的骨架。打個比方,蓋個房子要加鋼筋,來增加建筑物的強度和支撐作用,關鍵語素就是語句意群的鋼筋。通常詞語定位是通過設置并及時更新關鍵詞庫來實現的。
2、關聯搜索技術
在確定完基本語素后,就要根據語素之間的關聯性,進行搜索,那些語素是一個意群,同在一個意群中的語素如何排列。利用相關性確定意群非常重要,因為詞語詞之間不是任意搭配的,而是有規律的,這種規律就是語法,包括書面語語法和口語的語法。語法是語音識別的規則,因此是非常重要的。關聯的方式在語法的約束下主要有以下幾種:1.相關詞語出現的概率;2.相關詞語的詞性;3.相關詞語出現的語境的重復率等等。
連接詞識別就是說,系統中存儲的HMM針對的是孤立詞,但識別的語音是由這些詞組成的詞串。由于這一技術是一個連接序列,即根據給定發音序列來找到與其最匹配的參考模塊詞,所以,下面的問題必須得到解決:(1)在序列中,有些時候即使知道詞長度的大概范圍,也不知道詞的具體數量;(2)除整個序列的首末端點之外,序列之中每個詞的邊界位置并不知道。
3、抗阻礙性
在語音識別系統中,阻礙無處不在,具體說來,阻礙包括以下幾個方面:1.方言帶來的語音識別的阻礙;2.口音帶來的語音識別的阻礙;3.外界干擾(噪聲)帶來的語音識別的阻礙;4.系統設備局限性帶來的語音識別的阻礙等等。
一般情況下,在實驗室(環境相對安靜)中訓練合格的語音識別系統用在實際環境(環境與訓練的實驗室環境不相匹配)的時候性能就會明顯下降。所以,運用頑健語音識別技術就是為了研究一些補償技術借以提高系統在不同環境中的性能。
根據語音系統中噪聲的特點,我們研究出了一些抑制噪聲的方法,如根據信號與噪聲在各個尺度上的小波譜表現不一樣的特點,可以運用小波變換的噪聲抑制;根據含噪語音信號能量譜就是噪聲信號和語音信號能量譜之和這一特點,可以運用EVRC編碼噪聲抑制方法,等等。
4、搜索策略技術
在利用計算機來識別語音的時候,未知的模式,即從輸入語音中求出的特征參數,與事前所定的標準模式是否一致,這個問題必須檢查。目前語音識別的實現主要是通過聲音識別芯片分析聲音的波形來實現的,人的說話聲音有音調、音色的不同,因而所形成的生意的波形也不同,芯片通過比對聲音圖譜來確定語音內容,達到聲音識別的目的,這也就是聲音識別的原理。然而,在實際情況中,由于語音具有許多的不確定的因素,想達到完全一致比較困難。搜索策略是連續語音識別研究中的一個是否重要的課題。它的基本思路是,把幀作為搜索單位,在每一時刻對每一條路徑都假定當前幀有可能是這一路徑的后續,借此進行一個完整的搜索。
總體來說,搜索策略技術受到容量的限制。所以,我們必須確定應該保留哪些路徑,這就要求我們確定一定閥值,這個閥值既不能過嚴也不能過寬。對于這個問題,我們一定要采用合適的算法,如傳統的幀同步算法、基于統計知識的幀同步搜索算法原理和受詞法約束的詞搜索樹等算法都是比較適合這一部分的。
結論:
本文總結了連續語音識別中幾種關鍵技術,并對它們進行了簡單的介紹和分析。目前連續語音識別技術的研究并不成熟,它要向正確的方向健康發展就必須把詞語定位技術、關聯搜索技術、抗阻礙性技術、搜索策略技術等技術都正確運用于實際工作中。
參考文獻:
中圖分類號:TP316.9
文獻標識碼:A
DOI:10.3969/j.issn.1003-6970.2015.07.021
0 引言
隨著計算機的發展,智能家居在近幾年也得到了大家的重視,智能家居利用各種通信、網絡技術實現家居設備集成,為用戶提供了更加舒適高效的環境。近幾年人們對智能家居的便利程度提出了更高的要求,同時語音識別技術也進一步的發展,但是語音在智能家居中的應用還是相對較少,一般還要依靠遙控、手機等中控設備。語言是信息交流的重要手段,語音識別可以用聲音來控制設備完成一些特定的命令,減少用戶如手機,遙控等中控設備的依賴,使生活更加方便。
本文通過對語音識別技術與嵌入式控制技術的研究,用語音命令實現直接管控從而可以取代以往利用手機或者遙控方式來控制的方法,方便操作而又能提高效率。本系統基于NL6621板與語音芯片VS1003實現語音采集,并采用當今語音識別領域的主流技術一一隱馬爾科夫模型(Hidden Markov Model,HMM)算法實現對人語音命令的識別主要是進行模型訓練和匹配。實驗證明在多個語音樣本對系統的訓練識別下,系統在非特定人、孤立詞語識別上具有良好的效果。
1 語音識別與智能家居
1.1 語音識別技術
語音識別技術本質上是一種模式匹配識別的過程,是機器通過識別和理解過程把語音信號轉變成相應的文本文件或命令的技術。根據模式匹配過程語音識別系統可以如下圖表示。語音識別系統可以分為:特定人和非特定人的識別、獨立詞和連續詞的識別等,無論哪種識別系統識別過程都主要包括了語音信號預處理、特征提取、訓練等。分別通過對信號的預處理分析和計算建立模板,當對語音進行識別時,需要將輸入的語音與系統中存放的語音進行比較從而得到識別結果。
1.2 語音識別算法
人的言語過程是一個雙重隨機過程。因為語音信號本身是一個可觀察的序列,而它又是由大腦里的不可觀察的、根據言語需要和語法知識狀態選擇所發出的音素(詞、句)的參數流,大量實驗表明,隱馬爾可夫模型(HMM)的確可以非常精確地描述語音信號的產生過程。隱馬爾可夫模型是對語音信號的時間序列結構建立統計模型,將之看作一個數學上的雙重隨機過程,采用HMM進行語音識別,實質上是一種概率運算,根據訓練集數據計算得出模型參數后,測試集數據只需分別計算各模型的條件概率(Viterbi算法),取此概率最大者即為識別結果。一階離散馬爾可夫模型可表示為:有N個狀態,Sl,S2... SN,存在一個離散的時間序列t=0,t=1…在每個時刻t,系統只能處于唯一一個狀態qt,下一個時刻所處的狀態是隨機出現的,當前狀態qt只與前面相鄰的一個狀態qt-l有關, 與其他狀態無關,用表達式
HMM語音識別的一般過程:
1.前向后向算法計算
已知觀測序列 和模型 ,如何有效的計算在給定模型條件下產生觀測序列O的概率
2.Baum-Welch算法求出最優解 :
(1)初始化
(2)迭代計算
(3)最后計算
3.Viterbi算法解出最佳狀態轉移序列:
已知觀測序列 和模型 ,如何選擇在某種意義上最佳的狀態序列。
(1)初始化
(2)迭代計算:
4.根據最佳狀態序列對應的九給出候選音節或聲韻母
5.通過語言模型形成詞和句子
2 基于NL6621嵌入式硬件設計
語音識別的硬件平臺主要包括中央處理器NL6621,可讀寫存儲器,聲卡芯片vs1003以及一些設備,硬件體系結構如圖2所示。
主系統使用新岸線公司的NL6621。MCU采用的最高主頻為160MHz,支持802.llb/g/n/i/e/p和Wi-Fidirect,BSS STA,軟AP,WiFi保護設置以及WMM-PS和WPA/WPA2安全協議。codec芯片是vs1003,它與核心控制器NL6621的數據通信是通過SPI總線方式進行的。它集成了麥克風輸入接口,音頻輸出接口,對話筒輸入或者線路輸入進行IMA ADPCM編碼,能有效的接受和播放音頻信息。
硬件電路實現:VS1003通過xCS、xDCS引腳的置高或低來確認是哪一個接口處于傳送狀態。通過串行命令接口(SCI)和串行數據接口(SDI)來接收NL6621的控制命令和數據,通過SCI HDAT1來獲取語音流;VS1003的功能控制,如初始化、軟復位、暫停、音量控制、播放時間的讀取等,均是通過SCI口寫入特定寄存器實現的。兩條SCI指令之間要通過DREQ引腳信號判斷上一次處理是否完成。
3 基于NL6621嵌入式軟件設計
軟件設計主要包括兩部分實現軟件控制嵌入式系統和基于HMM技術的語音識別算法編寫,基本的軟件架構如圖3所示。
針對嵌入式系統控制部分,包括硬件初始化以及采集音頻信號。主要是使用NL6621提供的軟件開發包,利用SDK編寫應用程序,包括硬件管腳初始化,波特率匹配,錄音文件配置,WiFi配置,錄音,音頻文件格式轉化、程序編寫完成后需要用燒寫工具進行燒寫。系統啟動后,先初始化硬件模塊。然后系統開始工作,通過語音輸入設備MIC采集語音,并通過聲卡VS1003輸入語音。當系統監聽到語音輸入,開始語音識別,判斷識別是否正確,若正確,將命令發送給執行設備,入耳不正確,給出相應
中圖分類號:TN912 文獻標識碼:A 文章編號:1007-9416(2012)02-0082-01
由于生活節奏的加快,汽車已經成為了人們生活中重要的工具,人們在車內的時間也更多。同時也希望能夠在車內接收到外界的信息繼續進行工作,還要求汽車有娛樂功能,因此促進了車載多媒體的發展。而車載多媒體傳統的人機交互方式會增加潛在的駕駛危險,為此將語音識別應用于車載多媒體系統中,將會是車載多媒體發展的重要方向。端點檢測、特征參數提取以及識別是語音識別的主要內容,本文也將從這三個方向對車在多媒體系統的語音識別進行研究。
1、端點檢測
在進行語音識別時,首先需要通過端點檢測來對語音信號中的無聲片段和有聲片段進行分割。目前,語音端點識別已經從開始的單一門限發展到了基于模糊理論的判決。但是對于車載多媒體而言,計算量較大、識別響應時間較長端點檢測的方法顯然不使用,所以主要采用基于短平均過零率和短時間平均幅度的方法來進行語音端點檢測,這種方法利用短時間內幅度的檢測和過零率來作為語音端點的檢測。
首先,利用短時幅度可以有效判斷語音端點,同時語音的濁音部分平均幅度會明顯大于噪聲的平均幅度,然后同時再輔以短時過零率的方法來判斷語音開始的濁音,從而進一步對端點檢測進行校準,兩者的結合能夠更加精確的判斷語音端點,并且兩種算法都較為簡單,能夠滿足車在多媒體的需求。
2、特征參數提取
在完成語音的端點檢測之后,需要提取語音的特征參數,然后進行語音識別。目前用于語音特征參數提取的算法主要有LPCC(線性預測倒譜系數)和MFCC(Mel頻率倒譜),由于MFCC具有更強的抗干擾能力等特點,更適合與噪聲較多、司機不能離輸入設備很近的車載環境。
分析MFCC的語音特征參數提取可以分成預加重、加窗、FFT(快速傅里葉變換)、濾波、自然對數提取、自然對數DCT計算這六個步驟。由于MFCC其計算精度以及計算量都較大,因此,使用MFCC作為車載系統的語音特征參數提取時,需要進行相應的改進:
(1)在MFCC實現的六個步驟中,例如加窗等步驟就可以實現進行計算,然后存儲在數組中,在使用時進行查表提取,從而避免每一次語音識別時重復計算,從而加快了計算速度。
(2)FFT需要花費大量的時間(據統計,FFT需要花費MFCC56.32%的時間[2]),由于FFT算法是對復數進行處理,而語音信號的處理只涉及到實數部分,其虛數部分為零,因此增加了運算時間,因此可以利用文獻3所提出的FFT運算方法,將長度為N的FFT預算降低到長度為N/2的FFT運算,從而提高了語音特征參數提取效率。
3、識別模式
語音識別的原理是模式匹配,通過計算現有語音模式與語音模板庫中的模板的距離,來獲得最佳的匹配模式。匹配的方法主要有DTW(動態時間規整)、HMM(隱馬爾科夫模型)和ANN(人工神經元網絡)。由于ANN計算量較大,因此不適合用于車載多媒體系統中,HMM需要繁雜的程序結構,包含眾多功能模塊,需要大量的計算。因此, DTW模式更適合用于車載多媒體系統中。能夠滿足車載系統孤立詞、小詞匯量的語音識別。
為了更好的在車在多媒體系統中的嵌入式平臺上實現DTW,對DTW進行進一步的改進:
(1)由于在語音識別匯總,對音頭和音尾的判斷存在一定的誤差,因此,使用傳統DTW方法在進行固定端點匹配時會存在一定的誤差,從而降低了語音匹配成功率。為此,可以采用放寬端點限制的方法來使用DTW進行語音識別。其主要的思路是取消傳統DTW中對音頭和音尾嚴格對其的限制。從而,只要兩次語音在開始的W幀內能夠匹配成功,同時在結束的W幀內匹配成功,即認為兩次語音匹配成功。在降低了對端點檢測的精度要求,符合車載系統小詞匯量的特點,不會降低車載系統語音識別效率。
(2)在使用DTW進行語音模板匹配時,需要計算兩個模板各幀的距離來計算模板之間的距離。加入模板庫中的某個模板T有N幀,待識別的語音R有M幀,那么通常需要申請M×N長度的空間,再根據兩個模板所有幀間距離計算整體長度。但是在實際的應用中,只需要M長度的空間來存放模板T第n-1幀與模板R中M幀之間的距離,在計算完第n幀與模板R中M幀之間的距離對M長度空間的數據進行替換,從而進行模板T第n+1幀與模板R中M幀之間的距離,從而節省了(N-1)×M的存儲空間,這對車載系統有限存儲空間的系統中有著非常重要的意義。
4、結語
相比于傳統的按鈕式、觸摸屏式人機交互系統,語音識別對于車載多媒體系統有著非常重要的意義,將是車載多媒體系統重要的發展方向,本文針對車載多媒體系統對低CPU運算時間和地存儲空間的特點,對語音識別中的端點檢測、語音特征參數提取以及識別模式的實現和優化進行了研究。
參考文獻
[1]方敏,浦劍濤,李成榮.嵌入式語音識別系統的研究和實現[J].中國信息學報,2004,(6):73~78.
[2]萬春,黃杰圣,曹煦暉.基于DTW的孤立詞語音識別研究和算法改進[J].計算機與現代化,2005,(13):4~6.
市場調研機構Opus Research的高級分析師兼創始人丹?米勒(Dan Miller)表示,提供語音技術的公司已投入巨資,研發“個人數字助理”概念,比如蘋果的Siri以及出現在許多谷歌手機上的谷歌語音操作(Google Voice Actions),它們懂自然語言命令。他表示,實際上最近在語音識別技術方面的突破大多出現在移動設備端的基于云計算的自然語言搜索領域。
主要進展就是,語音工具現在離用戶更近了――出現在我們日常使用的手機和平板電腦上,許多工具在云端使用,這提供了立即處理功能和不斷擴展的語言數據庫。不像老式的桌面端軟件,這些新工具不需要語音訓練,這歸功于算法方面取得的進步。
當然,今天的語音識別技術并非盡善盡美。即使在移動設備上,語音識別軟件也并不適用于每個人。而有些自然語言句子仍然讓智能化程度最高的語音控制系統都犯難,比如“告訴我的老板我開會要遲到”。Nuance、微軟和蘋果等公司已建立了龐大的語言數據庫,供自己的語音識別產品使用。但即使在今天,這類軟件有時還很難懂得牛肉制品“漢堡包”(hamburger)與德國城市“漢堡”(Hamburg)之間的區別。
米勒說,我們需要在云端運行更高程度的人工智能。他說:“我們離目標越來越近。各個層面都面臨挑戰,但正在取得進展――不過可能永遠不會盡善盡美。”
可是,雖然越來越好的結果正在促使移動設備采用語音識別技術,但這項技術在工作場所還沒有產生太大的影響:步入美國的隨便一個企業園區,很難看到有員工在下達語音命令。我們將探討什么因素在阻礙語音識別技術,并介紹這項技術在辦公桌前和辦公室都有望造福員工的幾個方面。
工作站前的語音
對于視力欠佳的用戶或患有重復性勞損(如腕管綜合癥)的那些人來說,通過語音控制電腦大有意義,可用于瀏覽及操控界面和應用程序、進行搜索以及口述內容很長的電子郵件和工作文檔。其他用戶也能從中受益,尤其是打字很慢的人、移動用戶以及想記錄會議紀要的與會人士。
米勒表示,該技術現在就出現在世人面前。基本的語音控制功能多年前就內置到Mac OS X和Windows中。今年夏天,蘋果將為其OS X美洲獅版本添加語音到文本口述功能。去年,谷歌往臺式機和筆記本電腦上的Chrome瀏覽器引入了最初出現在移動設備上的語音發起的搜索這一功能。
至于更高級的口述和個人電腦控制功能,專用的語音識別軟件(如Nuance公司的Dragon NaturallySpeaking)這些年來逐步改進。在美國某雜志的測評人員拉蒙特?伍德(Lamont Wood)進行的測試中,最新版的NaturallySpeaking Premium從語音到文本的轉換準確率超過99%。
伍德表示,對他來說,通過語音寫東西的速度大約2倍于通過打字寫東西。其他用戶獲得的效果有所不同,這取決于他們的打字速度以及使用語音軟件的熟練程度。他還指出,使用最新的降噪耳機意味著這種軟件不會受到背景聲音的困擾,在過去這常常是個問題。
那么,為什么沒有更多的人通過語音與電腦進行交互呢?米勒說,人們往往很怕難為情。在辦公室環境,不是每個人都習慣于脫口說出自己的想法和言語,要是只有少數人在這么做,更是如此。
不過,他認為移動設備語音搜索有助于讓語音技術總體上更受歡迎。他表示,最近的一項調查顯示,11%的調查對象稱自己習慣于將Siri用于語音搜索。目前這個比例并不高,但是隨著越來越多的人采用,而且越來越習慣,在辦公室使用語音應用軟件對許多人來說似乎更加切實可行。這將遵循總體趨勢:人們先在家里或私下使用技術,然后希望在工作場所也能使用。
此外,研發人員在探究語音的新用途,尤其是在游戲和娛樂領域(比如在Xbox上開始播放電影)。語音命令在各個場合似乎都很自然,這只是個時間問題。米勒說:“人們很快會發現,同樣可以通過語音控制CAD軟件、個人電腦及其他個人設備和辦公工具。”
值得關注的是,語音硬件在辦公室已經很普遍。任何一臺新購的辦公筆記本電腦都已經內置了視頻會議功能,帶網絡攝像頭和高品質麥克風。當你步入許多公司的會議室,會看到帶高級麥克風的免提電話。新機型甚至會對準講話的那個人,降低背景噪聲。
J. Markowitz咨詢公司的著名語音技術專家朱迪思?馬科維茨(Judith Markowitz)也認為,硬件不是阻礙語音技術在辦公室流行起來的因素。他表示,問題在于讓自然語言命令得到更廣泛的應用。而自然語言命令只是另一種交互方式,就像我們敲打的鍵盤或點擊的圖標那樣。
她說:“語音無法查明是否存在過熱問題,也無法提醒你有約會。那是后端系統或應用軟件的任務。Siri的語音識別部分也沒有這種功能。自然語言理解能力、人工智能和應用程序的功能共同造就了Siri這款出色的個人助理。語音技術把語音輸入轉換成Siri的后端及其他iPhone應用軟件能使用的一種形式。”
馬科維茨表示,如果開發人員決定為企業應用軟件添加語音命令和聲音提醒,語音在辦公室就派得上用場。米勒贊同這個觀點,不過他指出,這有點像先有雞還是先有蛋的情況。開發人員將語音功能添加到應用軟件之前,希望知道企業環境的用戶習慣使用的語音(而且不會妨礙同事),但是只有這些功能廣泛出現,用戶才有可能習慣使用它們。
米勒表示,想讓語言更被辦公室環境的用戶所熟悉,一個簡單的方法就是為企業應用軟件添加語音提醒。比如說,應用軟件可能告訴你數據中心存在一個問題,而不是顯示文本提醒信息。用戶可以根據需要,將提醒由語音方式改為文本方式。
當然,兩位專家都一致認為,語言并不是在每種計算環境下都是最合適的輸入方法。它給藝術家、攝影師、視頻編輯和程序員帶來的幫助不像給普通的辦公室員工、管理人員和IT人員帶來的幫助一樣大。Photoshop中精細的像素級編輯可能根本無法得益于語音輸入,不過人工智能可能會發展到這個程度:我們說“修復照片的左下角1/4部分”,Photoshop就會進行相應的操作。
辦公室周圍的語音
Nuance公司總經理彼得?馬奧尼(Peter Mahoney)認為,遍地開花的云計算將有助于推動語音技術,從電腦擴大到工作場所的其他地方。比如設想一下:能夠使用內嵌式麥克風在會議室口述電子郵件,或者坐在大廳等待時查閱日程表,哪怕你把移動設備落在辦公桌上。
他表示,這一幕要成為現實,語音系統就要連接到其他辦公室系統。比如說,語音系統可能連接到公司的聯系人和日歷系統,知道你的會議日程表(及其他與會者的日程表)。它還可能連接到建筑物的安全和網絡管理系統,那樣它能告訴你是否在辦公室、登錄到辦公電腦上。
互連系統可以在白天收集關于你的數據,而且正如人的大腦保留短期記憶那樣,它會確定你的具體背景。這可能意味著,語音系統知道你晨會要遲到,因為你沒有登錄到電腦上;它可以查閱你的會議日程表,找到相應的一個或多個聯系人,告知你會遲到。
馬奧尼表示,如今這些信息往往是孤立的。但他預測,在今后一兩年,語音技術會逐漸變得有更強的互連性。“它可能會先聯系日歷程序,知道你要會見約翰,然后日歷程序會通過語音聯絡聯系人數據庫。”
米勒表示,許多公司已經在現有的系統中擁有關于聯系人和角色的信息,比如活動目錄列表和人力資源數據;許多公司還有內部建筑圖。那么,到底是什么因素在阻礙這一切呢?
馬奧尼表示,自然語言命令正在改進,但系統不是足夠清楚地明白信息的上下文。他說:“需要構建數據模型,找到人們可能會問的前100個問題,然后找到合適的信息源,以明白那些問題,比如地圖應用軟件。”畢竟,這與Siri等虛擬助理在移動設備上進行的操作沒什么太大的不同:查詢不同的信息源(基于云和本地),找到相關信息,發送提醒信息,等等。
馬奧尼設想,隨著互連系統在將來擴大語音技術的應用范圍,它們還有望改進語音軟件的準確性和理解能力。借助無處不在的云連接,語音系統可以根據你所在的位置、所做的事情、身邊的人以及接下來要做的事,明白你想表達的意思。“即使你沒有明說,系統也知道你想表達的意思。”
鏈接:語音應用軟件如何知道你說的是什么?
Opus Research公司的丹?米勒表示,今天的語音識別系統使用統計語言建模,這本質上是一種最佳猜測,結合你整個句子的上下文,猜測想要說的意思。比如說,今天的系統借助前后單詞,知道你想說的是“you’re”(你是),而不是“your”(你的)。
要是說話者口音重,或者采用罕見的方言,這些系統還是經常無能為力。為了明白這些人說的話,語言系統必須建立一個發音庫、去除任何背景噪音,并不斷拿所說的單詞與已正確識別的那些單詞進行比對。
中圖分類號:TN912.34 文獻標識碼:A
1語音識別技術
1.1語音識別技術簡介
語音識別技術主要分為兩類,一是語音意義的識別,一種是目標聲識別。第一個被稱為語音識別,它是根據聲音的成詞特點對聲音進一步分析,主要應用在人工智能,人機對話和快速輸入等領域。通過訪問聲音的特征,從目標語音中進行提取,該項技術可以區分多目標語音的種類,確定目標,主要用于戰場目標識別領域,海上偵察系統,預警系統,軍事聲納識別,車輛聲音識別,火車預警系統,動物個體的語音識別和家庭安全系統等。
科技研究人員通過對語音信號處理技術進行深入的研究,結果發現:人的聽覺系統的聲音配合具有獨特的優勢,它能準確地提取目標的聲音特征,準確地辨別聲音的方向和內容分類,所以基于仿生聽覺系統的目標聲識別技術備受現代前沿科技的關注。針對目標聲音識別系統的研究工作成為了現代語音識別技術研究的一個熱門方向,不少科技研究人員正在積極探索先進可行的仿生學理論,特征提取技術和語音識別技術。
1.2語音識別技術的研究現狀
語音識別技術主要是通過對監測數據的聲音特性分析,得到聲音特性的樣本文件。語音識別技術是一種非接觸技術,用戶可以很自然地接受。但語音識別技術和其他行為識別技術具有共同的缺點,即輸入樣本的變化太大,所以很難完成一些精確的匹配,聲音也會伴隨著速度,音質的變化而影響到信號的采集和結果的比較。
在語音識別中,語音識別是最早也是比較成熟的領域。隨著越來越多的應用需求,識別聲音并不局限于語音識別,人們開始深入研究目標識別技術的非語音識別,該項技術已經參照了成熟的語音識別技術的一部分,但由于各自的應用環境和實際的音頻特征之間的差異,該技術還存在一些差異。
1.3語音識別技術的實際應用
在民用方面,目標聲音識別系統可以應用于門禁系統,網絡安全,認證,智能機器人,動物語音識別,電子商務和智能交通等領域。在智能交通領域,利用來自車輛識別模型的運動音頻信號,可以實現交通信息的智能化管理。在智能機器人領域,機器人目標聲音識別系統可以作為機器人的耳朵,通過環境聲音識別并確定聲音的方位,然后再反應外界的聲音,因此可以將其當作家庭自動化服務系統和安全系統。在動物的語音識別領域,可以根據害蟲聲特征來區分害蟲種類,根據不同的害蟲采取不同的措施。在網絡應用領域,在關于各種在線服務支持的語音識別技術新項目開發中,可以提高網絡的服務質量,給人們的生活帶來方便。現在,美國,德國和日本都開了電話銀行,語音代替原來的密碼和使用印章,簡化了工作服務流程,提高工作效率。
在軍事上,目標聲音識別技術來自于第二次世界大戰,在探測敵人的炮火和潛艇時,起著重要的識別和定位作用。但由于計算機技術,信號處理技術,光電檢測和雷達檢測技術快速的發展,使聲探測技術發展得十分緩慢。直到現代的戰爭,研發了使用于戰爭中的三維信息,全方位定向,反欺詐、欺騙、干擾和反偵察、監視,在隱身與反隱身的現代戰爭中為國家的國防事業做出了不可磨滅的杰出貢獻。通過電,磁,光學和雷達探測技術和主動檢測技術來完成偵察任務已經不能滿足現代戰爭的需求。在武裝直升機技術成熟的當代,隱形轟炸機和其他高科技武器都有了反射功率,抗電磁干擾,反輻射的功能,特別是快速發展的數字技術和計算機技術,迫使各國為了實現對目標的定位跟蹤和噪聲識別而重新開始研究被動聲探測技術,關注聲檢測技術。在未來戰爭中,武器裝備發展的一個重要趨勢是智能化、小型化,一個重要的特點是具備目標識別的能力,并根據不同的對象使用不同的攻擊方法。
2聽覺系統
為了設計一個更精確的目標聲音識別系統,越來越多的學者開始深入研究仿生學領域。通過研究發現,人類的聽覺系統在聲音的物理方面具有獨特的優勢,聲音特征可以準確提取目標識別中聲音的方向,種類和含量,而且還可以提高抗噪聲能力,所以基于人基于語音識別技術的聽覺系統已經成為目前的研究熱點。
人類聽覺仿生學是模仿人耳的聽覺系統和生理功能,并通過建立數學模型,根據數學分析原理得到的聽覺系統。它涉及聲學,生理學,信號處理,模式識別和人工智能等學科,是一個跨學科研究領域的綜合應用。該技術已在軍事,交通,銀行,醫療治療的許多方面取得了重要應用,是人類實現智能生命的重要研究課題之一。
人類聽覺系統的處理能力大大超過目前的聲音信號處理水平。從人類聽覺系統的心理和生理特點視角,許多研究人員對接聽過程中的語音識別進行深入的研究。目前,許多學者提出了不同的聽覺模型,這些模型大多是一些基于語音識別和語音質量評價系統的聽覺模型,模擬人耳聽覺功能的生理結構,這些應用處理方法大大提高了系統的性能。
1 項目建設目標
1.1 項目背景
目前,固網用戶撥打電話,必須先查出被叫的號碼,并按鍵進行撥叫。而隨著通信業的發展,要記的電話號碼越來越多,而目前大部分的固定電話都沒有號碼存儲的功能,所以很多時候使用固話打電話時,要么從手機上查找被叫的電話,或者是從紙制電話簿去查找,既不方便,又浪費時間。
“語音電話本”完全可以幫助用戶解決以上問題,用戶只需撥打一個號碼接入系統平臺,說出聯系人的姓名,系統就可以自動將話路轉到該人的電話上。整個過程通過自然的語音方式交互,即感到親切自然方便快捷,又節省時間,提高工作效率。
從服務管理的角度來看,隨著信息通信客服業務受理的不斷發展,座席客服話務量越來越多,用戶對服務的質量要求也越來越高,傳統客服系統在傳統語音信息處理上的局限性制約了系統服務和管理能力的提升。
服務方面,由于業務的多樣性和復雜性帶來的海量數據信息不能得到快速、有效的關聯處理而產生的問題,影響了客戶服務體驗。
運營管理方面,雇傭人工座席每天接聽大量的信息查詢電話,座席業務人員的更替帶來的培訓,消耗了部分運維成本,影響了服務質量。
1.2 建設目標
本項目通過研究智能語音技術在國網遼寧公司信息通信客服系統中的應用,將語音識別及客服查號業務相結合,使用先進的語音識別技術來代替繁重的人工勞動,提高省公司內部溝通的效率。目前,語音電話本技術實現主要包含:ASR 、TTS 、IVR 三項技術,其中TTS和IVR技術對于語音電話本業務來說已經非常成熟。
ASR語音識別技術近年來發展十分迅速,其應用也逐步得到推廣,佳都新太也一直開發、調試、應用這項重要的語音技術,自2001年以來佳都新太先后在廣西、天津、廣東、河北、湖北、江蘇、遼寧等省的多個項目中使用了ASR 自動語音識別系統,佳都新太通過對ASR測試、改進,自動語音識別率達到95%以上。
語音電話本業務可以說是CTI平臺上的典型應用,佳都新太把ASR語音自動識別技術、TTS語音合成技術與CTI 的IVR技術三者融合為一體,為語音電話本業務的技術實現提供了可靠的保障。
本項目可以達到目標:
1.2.1 對語音信息的自動化處理
通過建立具備智能語音分析能力的語音識別平臺,實現對用戶查號業務的語音實時識別及關聯處理,同時實現對語音文件的統一分析,提供支撐客服業務受理的有效工具。
1.2.2 文件分析處理
通過語音分析引擎對送入的語音進行文字轉寫、維度結合后生成索引文件,這些結構化的索引文件中包含了語音中的所有信息。索引文件存儲到數據倉庫中,通過對有效的海量錄音文件、音頻文件進行分析處理。
1.2.3 實現自助查號功能
通過實現語音中的知識挖掘和語音文件的快速檢索,實現自動語音查號功能。
2 項目技術方案
2.1 項目設計原則
本次項目是對省公司固定電話語音自動查號系統的功能完善,使用先進的語音識別技術來代替繁重的人工勞動,提高省公司內部溝通的效率。
本次項目的關鍵點和技術難點在于語音識別,因此在方案設計過程中我們著重考慮了這個問題,選用了國內領先的智能語音技術來作為語音識別引擎,結合座席客服系統的需求提供定制化專業服務。
2.2 整體架構設計
如圖1,用戶通過撥打查號服務電話,系統為用戶播放自動語音并引導用戶按鍵選擇功能和需要查號的人名,系統根據語音分析出內容,并在數據庫中查詢對應的號碼,系統將查到的號碼以自動語音方式播報給用戶。
系統部署需新增接入網關1臺,用于與電力內部電話程控交換機對接,實現平臺電話呼入呼出。采用電信級語音接入網關Dialogic DMG2030,接入規模1E1(即30路通話),PRI信令,通過電路中繼上聯到遼寧電力內部程控交換機。遼寧電力內部程控交換系統為語音電話本系統分配一個內部接入服務號碼和一個外部接入服務號碼。同時網關接入虛擬資源池虛機網絡。
新增虛擬資源池虛機1臺,用于部署媒體處理軟件、CTI平臺、語音電話本業務應用軟件、科大訊飛ASR軟件和TTS軟件、Oracle數據庫。
新增核心網絡交換機1臺,用于系統組網。
2.3 系統邏輯結構
IVR與TTS、ASR通過語音引擎實現整個語音交互過程的自動識別、自動播放功能。系統采用B/S結構,方便用戶對電話本的修改,也便于各營業網點的開戶、受理以及對用戶的電話本進行維護等。整個系統采用模塊化結構,具有很高的可靠性和可擴充性。
邏輯結構見圖2。
2.4 系統建設方案
新建“語音電話本”業務平臺,其網絡拓撲結構如圖3所示。
設備組成說明:
系統平臺需要以下設備:
(1)IPS數字排隊機;
(2)信令網關節點;
(3)數據庫服務器: 實現用戶數據的存儲和系統認證等功能;
(4)TTS服務器: 通過IPS平臺的MS模塊來實現資源調用;
(5)ASR服務器:通過IPS平臺的MS模塊來實現資源調用;
(6)WEB服務器:實現用戶通過互聯網對電話簿的維護管理功能;
(7)業務處理服務器:用于處理個人語音電話本業務流程;
(8)管理維護節點;
(9)路由器和防火墻等網絡設備;
2.5 配置計算依據
2.5.1 中繼和語音的配置比例
語音電話本業務,用戶報出要找的人的姓名后,ASR進行識別,系統根據ASR識別出的名字,找出對應的電話號碼并進行外呼,被叫接通后,主被叫進行通話的過程中,語音資源即可釋放。整個業務實現和呼叫卡類業務的資源配置非常相似,根據200業務的實際運行經驗數據,建議中繼和語音的比例為4:1。
2.5.2 中繼和ASR的配置比例
在一個呼叫的過程中,用戶說出要找人的姓名,ASR資源進行識別,在識別完成系統呼通被叫后,ASR資源釋放,主被叫雙方進行通話,按平均呼叫時長為150秒,其中ASR識別的時間大概為30秒,而在一次通話中占用一入一出兩個通道,按上面的估算數據,中繼和ASR的配比大約為 2×150/30=10:1。
2.5.3 中繼容量和所能支持的用戶數的比例
假設一些呼叫參數如下:
系統中繼容量A
用戶數 B
每用戶每天使用次數C:8次
每次呼叫時長D:150秒
忙時集中系統E:10%
忙時中繼Erl數F:0.8
根據公式:A=B*C*D*E/F/3600
則 A:B=8×150×10%/0.8/3600=1:24
因為語音電話本業務每次呼叫要占用一入一出兩個端口,所以中繼容量和所支持的用戶數的比例約為1:10。
2.5.4 數據庫處理能力計算
忙時TPMC=(忙時呼叫次數×(平均每次呼叫數據庫訪問次數+其他應用模塊平均每次呼叫事務訪問處理次數))/60
按4.3.3假設的數據,當使用語音電話本的用戶數為10,000用戶時,系統的忙時呼叫次數為 10000×8×10%=8000次/小時
按每次呼叫對數據庫的訪問操作次數為10次來計算,則10,000用戶時,對數據庫的TPMC值的要求為:
TPMC=8000×10/60=1333
2.6 業務系統功能
2.6.1 業務流程(如圖4)
2.6.2 聲控撥號
用戶使用綁定電話撥打接入號碼“***”進入系統后,系統直接會提示用戶報出用戶想找的人的姓名,并進行呼叫。
(1)“聯系人名字” 選中默認呼叫號碼:
(2)用戶撥打“語音電話本”服務號碼;
(3)說出對方姓名,如:張三;
(4)系統識別語音,查詢對應的默認電話號碼;
(5)系統通過語音播報查詢到的電話號碼。
(6)“聯系人名字+電話類型” 精確查詢:
(7)用戶撥打“語音電話本”服務號碼;
(8)說出對方姓名+電話類型,如:張三 手機;
(9)系統識別語音,查詢對應的電話類型的號碼;
系統通過語音播報查詢到的電話號碼。用戶通過綁定電話使用語音電話本業務流程如圖5所示。
用戶使用非綁定電話使用語音電話本業務時,必須先通過輸入帳號和密碼,經過系統鑒權后才能使用。
2.6.3 原始通訊錄的錄入
語音電話業務開展的一個關鍵問題,就是用戶申請該業務后首批通訊錄的錄入問題,首批通訊錄相對來說量比較大,錄入的方式建議采用營業廳前臺填表錄入、通過WEB錄入的方式,也可以采用電話、傳真、信函的方式進行錄入。在首批通訊錄錄入后,用戶在使用過程中做一些號碼本的修改和維護,維護量都比較小,可以通過WEB方式、電話、短消息、傳真等多種方式進行修改。
批量導入電話本:
通過Excel文件導入企業通訊錄,可以參考如表1格式。
可以根據實際需求增加其他列。
2.6.4 電話本維護(Web)
系統提供后臺管理界面,管理員登錄后臺對電話本進行管理,如圖6。
個人電話本資料可通過Web、人工坐席、電話、傳真、短消息等多種方式進行電話本資料的維護管理,包括修改用戶密碼等。
業務流程如圖7所示。
“增加、刪除、修改”用戶記錄:
系統提供對單個記錄的“增加”、“刪除”、“修改”功能,方便對電話本進行靈活管理。
2.6.5 多個號碼優先呼功能
當用戶錄入的某個聯系人有多個通訊號碼時,如有手機、小靈通、固定電話,可以把這些號碼都錄入在系統中,在呼叫時,用戶可以自行設置優先呼叫的號碼,在號碼不通時再按設置的優先策略逐一呼叫被叫其他的聯系方式。
2.6.6 信息查詢(Web)
系統提供電話本查詢界面給座席和管理員使用。
座席和管理員可根據聯系人姓名,查詢聯系人對應的所有電話信息。
該功能主要在座席提供人工服務時使用。
3 技術創新點
本次項目采用國內領先的智能語音識別技術(ASR)結合客服后臺定制化查詢需求,在滿足用戶傳統的查詢基礎上,語音定制化為用戶報出相關信息,由用戶按鍵選擇即可,大大方便了用戶的操作和客服的工作時間。
4 總體性能指標
通過研究智能語音技術在信息通信客服系統中的應用,實現客服查號業務的自能化,實現語音的自動識別及數據分析,減少人工運維成本,提高客服服務質量及服務效率。
5 技術展望
語音識別技術使人與機器的交流成為現實,它開創了口語移動學習的全新教育方式,受到越來越多的關注。借助互聯網,移動學習以其學習時間靈活,學習內容豐富、精煉且片段化等特點,開辟了學習的新理念,讓口語學習真正擺脫了時間和空間的限制,使任何人在任何時間、任何地點根據需要進行自主學習成為可能。目前,已有的基于PC的智能英語學習軟件,能提供基于計算機的輔助技術,讓學習者及時得到發音質量評分的智能化功能,但是基于手機端的口語學習應用不多。
本終端是一款基于Android系統開發的,進行英語口語學習的安卓語音軟件。產品結合Google語音識別技術,使用GPRS或WiFi進行移動終端與Google云服務端之間的數據交流,并通過對語音識別結果的處理,最終設計成一個可以進行英語口語專線訓練和自主訓練的應用Oral Storm。
1 研究基礎
Android平臺自底層向上由四個層次組成:Linux內核層、Android運行時庫與其他庫層、應用框架層、應用程序層。它采用軟件堆層(software stack),又名軟件疊層的構架,主要分為3部分:底層以Linux內核工作為基礎,由C語言開發,只提供基本功能;中間層包括函數庫Library和虛擬機(virtual machine),用C++開發,最上層是各種應用軟件。
2 應用架構及功能說明
專項訓練模塊主要是對英語口語比較重要的四個發音類別進行系統訓練,這4個發音類別分別是清輔音、濁輔音、摩擦音和爆破音。在進入訓練界面之前,有對各類發音方法和技巧的介紹,利于用戶方便快速地學習口語的正確發音。我們將每種發音訓練模式中的單詞都分成10個小組,這些單詞都是由學校專業英語教師挑選的有代表性的詞,適合用于英語口語基礎訓練。用戶在進行完每個小組的單詞訓練后,系統都會對用戶的發音作出評價和打分,對經常出現發音錯誤的單詞,用戶可以選擇保存,用于以后專門的訓練。
自主學習模塊是用戶根據自身實際需求進行訓練的板塊。用戶先輸入想要訓練的單詞或語句,如果不知道如何發音,可以求助于應用中的英文朗讀功能。英文朗讀功能是將文本轉換成語音信號,幫助用戶輕松方便地學習每一個英語發音。用戶還可以選擇性地保存輸入的學習內容,方便以后復習使用。
總之,專項訓練模塊針對學生英語學習中的四大類發音難題設計,通過專題式的學習、測試和智能評分,給用戶提供隨身的英語單詞學習和測試環境;自主訓練模塊則專注于為用戶提供可定制的英語單詞學習專題,通過學習內容的自定義給用戶最大限度的學習自由度。
3 研究技術
應用功能的實現主要使用了兩大技術,獲取語音識別技術和語音合成技術。
3.1 獲取語音識別技術
單詞發音練習需要使用Google語音搜索服務,因此必須判斷當前用戶手機是否支持該服務,所采用的方法是通過queryIntentActivities()方法,查詢Android系統所有具備RecognizerIntent.ACTION_RECOGNIZE_ SPEECH的Intent的應用程序,點擊后能啟動該應用。
在Android語音識別應用研究與開發的同時,Google語音服務需要網絡支持,所以也需要判斷當前用戶的網絡連接狀況,在類中寫一方法check--NetWorkStatus()引用ConnectivityManager cwjManager來判斷網絡是否連接正常。
3.2 語音合成技術
語音合成技術,是一種將文本轉換為語音輸出的技術,其主要工作是將文本按字或詞分解為音素,然后將音素生成的數字音頻用揚聲器播放或者保存為聲音文件,然后通過多媒體軟件播放。
Android手機平臺,綁定了英文語音引擎,對英文語音提供內置的支持。要將文本轉換為語音,首先要檢查TTS數據可用,指令TextToSpeech中的Engine ACTION_CHECK_TTS_DATA就可以完成,返回結果為真,表明TTSEngine可以使用。除此之外,還有語音數據損壞和缺少發音數據等原因導致TTSEngine不能使用,這些因素都要考慮。之后是初始化TTS接口,這部分要設置發音語言引擎setLanguage(Locale.US)、發音音量Len(Volume)等。在這個過程中,還需要檢測設置的發音語言類型是否可用。
4 結束語
我們開發的口語學習軟件Oral Storm,可為訓練單詞發音提供專業、智能及終端化的一體化學習和測試環境,專題分類科學、全面,涵蓋了爆破音、摩擦音等發音難點,可在專題學習后提供智能評分和語音糾正。用戶使用這款應用,可以方便快速地學習英語口語的正確發音。
參考文獻
[1] 邢銘生,朱浩,王宏斌.語音識別技術綜述[J].科協論壇:下半月,2010(3):62-63.
[2] 詹青龍,張靜然,邵銀娟.移動學習的理論研究和實踐探索[J].中國電化教育,2010(3):1-7.
[3] 周麗嫻,梁昌銀,沈澤.Android語音識別應用的研究與開發[J].廣東通信技術,2013,33(4):15-18.
DOIDOI:10.11907/rjdk.162740
中圖分類號:TP319
文獻標識碼:A文章編號文章編號:16727800(2017)005005703
0引言
隨著智能自動化技術的迅速發展[14],智能化研究越來越受到人們關注,在日常生活中的應用需求也日益增多[56]。在書房、辦公室等場所中,書籍一般是由人工查找并取出的,在一定程度上影響了人們查閱書籍的時效性。如果能設計一種識別語音查找并推出書籍的書架,將解決人們在書房中對書籍定位難、查找耗時長等問題。
在圖書查閱過程中,書籍定位是較為常見的問題之一。針對這類問題,張郁松等[7]以物聯網圖書館智能書架的結構化、通用化設計為目標,利用超高頻(UHF)射頻識別(RFID)技術,設計了一種具有實時檢測與定位功能的智能書架,較好地提高了書架工作效率;舒遠仲等[8]基于改進的RFID室內定位技術設計了一款應用于圖書館中的智能書架系統,將書架定位到每一層,精確到書架的最小單元格,并且降低了系統的復雜度和成本,較為有效地提高了讀者借閱效率和館員工作效率。
隨著射頻技術的不斷發展,圖書館等場所中對圖書的定位方式有很大改善,但是由于條件限制,語音識別定位書架在圖書館等禁止喧嘩場所禁止使用。在可喧嘩環境下,如家庭、辦公室等場所中,語音識別可作為簡單易用、無需接觸、無需攜帶外部設備的定位方法,具有較好的應用前景。本系統首先將書籍信息存儲到可擴展標記語言(XML)中,然后通過語音識別將語音信息與文本信息進行匹配,最后將定位結果發送至控制中心,通過電機執行動作完成推出書籍功能。
1硬件平臺架構
本系統采用UPAtom510平臺作為系統的語音識別終端,同時采用STC89C52單片機[9]作為系統的控制中心。由于系統功能需求,開發平臺需要擴展外部設備。因此,除選用UPAtom510平臺和STC89C52單片機外,還需外接話筒、TB6600步進電機驅動模塊與42BYGH47401A步進電機,作為整個系統的硬件平臺架構。
系統采用UPAtom510平臺作為識別終端,該平臺是北京博創科技有限公司針對嵌入式系統和微機原理課程研發的教學與實驗平臺。目前在UPAtom510上已經成功移植了Ubuntu、WinCE和Windows XP等操作系統。根據系統功能需求,在該平臺上搭建了Ubuntu操作系統,并使用QT開發工具完成了人機交互界面的開發。UPAtom510平臺底板如圖1所示。
電機選用42BYGH47401A步進電機[1011],該電機為兩項四線步進電機,電流1.5A,輸出力矩0.55Nm。此模塊有兩種用途:書籍定位以及將書籍從書架中推出,方便用戶取書。
本系統采用TB6600步進電機驅動器,它具有如下特性:輸入電壓為DC9~42V,可以驅動42BYGH47401A步進電機正常轉動;含有撥碼開關,針對不同電流要求,具有不同選擇;模塊上集成大面積散熱片,具有較好的散熱效果,可滿足實際應用需求。
智能書架的硬件連接仿真結果如圖2所示,智能書架的模擬三視效果如圖3所示。
2系統框架設計
本系統的框架設計主要利用話筒采集語音信息,并將語音傳遞給UPAtom510平臺,UPAtom510平臺經過語音識別后,將書籍位置信息發送給STC89C52單片機,單片機根據書籍位置信息給電機驅動器發送控制命令,電機驅動器控制電機轉動,帶動整個智能書架運行。書架在書籍定位后將書籍推出,使得該書架具有智能化、人性化的特點。系統框架如圖4所示。
3語音識別方法設計
目前,常見的電子產品中的語音識別均由單片機(MCU)或數字信號處理(DSP)作為硬件平臺來實現。這一類語音識別[1217]產品主要采用孤立詞識別,一般有如下兩種方案:一種是使用隱馬爾科夫統計模型(HMM)框架設計的非特定人群識別,另一種是基于動態規劃(DP)原理的特定人群識別。這兩種方法在應用上各有優缺點。
語音情感識別是人工智能、心理學和生物學等多學科交叉的新興領域。蘊藏在語音中的情感信息是人們相互交流的重要信息,例如同樣一句話,說話人在不同的情感狀態時所表達的含義會截然不同。當今人們不斷深入對情感信息處理的研究,也越來越重視語音信號中情感信息處理的研究。語音信號具有便攜性好和采集方便等優勢,因此語音識別技術在智能人機交互、人機交互教學、娛樂業、醫學、刑偵與安全領域得到了廣泛的應用。
1997年,美國麻省理工大學的Picard教授首先提出了情感識別的概念,隨后美國麻省理工大學、美國洛杉磯南加州大學、新加坡南陽理工大學等高校科研機構陸續并展了情感識別領域的研究。在國內,東南大學、中科院自動化研究所、清華大學、東南大學、西北工業大學、江蘇大學等高校和科研機構也都開展了情感識別方面的研究。
二、語音情感識別模塊構成
語音情感識別技術是根據人在不同情感下的語音信號非平穩性特征等比較明顯的特點,通過提取語音的音質特征、韻律特征和頻譜特征等聲學特征來判斷情緒的變化,語音情感識別模塊大體包括語音采樣、語音預處理、語音特征提取、語音特征處理、特征識別、情緒判斷幾個部分。
首先可設定采樣的頻率和時間長短,對語音進行采樣并進行去噪、加窗、分幀等預處理,然后根據對不同情緒判斷的需要分別提取語音的音質特征、韻律特征和頻譜特征等聲學特征如基音頻率、共振峰、Mel頻率倒譜系數、能量、樣本熵等,再將提取的多種特征通過各種時頻分析方法進行處理,如短時傅里葉變換(FFT)、希爾伯特變換(Hilbert transform)、經驗模態分解(EMD)等,之后將特征參數送入相應的函數識別器(常用的一般為支持向量機SVM)識別特征參數的歸屬范圍,最后根據多種語音特征融合后的識別結果來綜合判斷采樣語音的情感種類。
三、語音情感識別技術應用的必要性
隨著社會進步和生活水平的改善,客戶對呼叫中心熱線服務質量的要求也在不斷提高,而呼叫中心主要通過電話與客戶交流,依賴語音獲取信息,與客戶的接觸渠道比較單一,這就需要我們結合國內外發展的新形勢來積極尋求提升服務質量及客戶感知的新方法以應對如下問題。
1 海量錄音抽樣質檢的限制性
客服質檢人員每天從幾萬條錄音中只抽取幾百或幾十條錄音進行質檢,錄音抽取范圍一般是客戶做出滿意度參評或客服代表的專席轉接的錄音,無形中限制了錄音質檢的范圍,而實際的問題是錄音可能客戶既沒有參評、客服代表也未進行專席轉接,故此很難發現錄音背后隱藏的客戶實際問題,錄音質檢的目的也會因此而大打折扣。
2 投訴處理缺少統一的標準
面對客戶各種不同情況的投訴錄音,不同的投訴處理人員會有不同的判斷標準,繼而會執行不同的處理流程,帶給客戶與客服代表的感知也會因此而有所差異,對客戶投訴的判責依賴于個人感知的成分較多,缺少說服力和理論依據。
3 客戶情緒感知的滯后性
若客戶帶著情緒或疑問撥入熱線卻在音調上故作平靜,客服代表將很難在第一時間了解客戶的切實想法和真實情感,無法對癥下藥、做出準確的應答,進而會放大客戶的痛苦,激化客戶的不滿情緒,嚴重影響客戶的感知。
4 客服代表的服務熱情降低
客服代表常年工作在一線,每天面對大量不同客戶近乎相同的問題,重復給出近乎相似的答案,容易產生一定的職業疲勞,在與客戶的互動中會出現語音語調平淡的問題,自己本身卻察覺不到,無形中影響了客戶的感知和呼叫中心的服務質量。
四、語音情感識別的具體應用
結合目前國內外語音情感研究新興領域的語音情感識別技術,可構建語音情感分析模塊,針對以上提到的幾點問題,實現在客服代表與客戶人機交互的過程中的四項重要作用。
1 自動將語音篩選分類
語音情感識別模塊可以將海量的錄音根據客戶情感的不同區分成不同的客戶情感錄音庫,質檢人員可以根據質檢的需要和目的將分類后的情感錄音庫做為抽檢錄音的來源,再輔以日常常用的抽檢標準進行質檢,這樣就精簡了錄音的抽檢范圍,提高了錄音質檢的針對性,增強了質檢工作的目的性,更易于發現實際存在的問題。
2 投訴校準
語音情感識別模塊可以通過采樣客戶的投訴錄音,綜合判斷客戶和客服代表情緒的歸屬類別,為投訴的判責提供標準和理論依據,進而規范和統一后續的處理流程,這樣,即使不同的投訴處理人員也會給客戶和客服代表做出相同的處理結果,使投訴處理工作更具有說服力。
3 客戶情緒及時識別
語音情感識別模塊可以通過實時采樣客戶的聲音,在客戶電話接入的前幾秒對客戶的情緒做出判斷,特別是針對客戶帶著情緒或疑問撥入熱線卻在音調上故作平靜、人耳難以識別的情況下,進而通過情感識別系統的反饋信息及時提醒客服代表客戶情緒的異常,客服代表可以靈活轉變問題處理的方式從而縮小客戶的痛苦,提高客戶的滿意度。