首頁 資訊 一種用于失語癥患者康復訓練專用的語音識別方法與流程

一種用于失語癥患者康復訓練專用的語音識別方法與流程

來源:泰然健康網(wǎng) 時間:2024年12月20日 20:54

一種用于失語癥患者康復訓練專用的語音識別方法與流程

本發(fā)明涉及語音識別技術領域,尤其涉及一種用于失語癥患者康復訓練專用的語音識別方法。

背景技術:

失語癥是一種后天獲得性神經(jīng)語言障礙,表現(xiàn)為患者產(chǎn)生或理解語言的能力受到損害,包括聽、說、讀、寫四個方面。研究發(fā)現(xiàn),失語癥患者的生活質(zhì)量非常差,排名倒數(shù)第一,緊隨其后的才是癌癥和老年癡呆癥患者。為了消除或減輕這種影響,失語癥患者和他們的護理人員積極尋求康復治療。失語癥的主要康復手段為言語訓練法,然而,這是一個資源密集型的過程,在評估和治療中,至少需要一位語言病理學家。這一要求很難滿足,因為失語癥群體數(shù)量龐大,而且醫(yī)療資源有限。針對這種情況,計算機輔助治療可以起到很好分擔治療壓力的作用。但是,計算機輔助治療失語癥主要流行于歐美國家,國內(nèi)的相關研究工作比較陳舊且為數(shù)不多。本發(fā)明的目的是訓練一個失語癥患者的自動語音識別模型,以支持患者的康復訓練和輔助交流,本發(fā)明滿足世界衛(wèi)生組織提出的家庭康復和早期支持出院(earlysupporteddischarge,esd)計劃。

針對失語癥患者的計算機輔助治療,如果采用通用的語音識別模型,不能滿足失語癥患者的語音識別要求,因為患者跟健康人的說話特征有所不同,患者會出現(xiàn)發(fā)音費力、音位錯誤等現(xiàn)象。

技術實現(xiàn)要素:

本發(fā)明實施例所要解決的技術問題在于,提供一種用于失語癥患者康復訓練專用的語音識別方法。可用于失語癥患者的康復訓練、言語評估和輔助交流中。

為了解決上述技術問題,本發(fā)明實施例提供了一種用于失語癥患者康復訓練專用的語音識別方法,包括以下步驟:

步驟1:錄制包含失語癥患者和健康被試者的語音材料;

步驟2:將所述語音材料中的語音信號轉(zhuǎn)換成特征矩陣,所述特征矩陣的大小為n*51,其中n為語音信號個數(shù),51為信號特征維度,包括2維時域特征、3維頻域特征、39維倒譜域特征、7維圖像特征;

步驟3:使用特征選擇確認使用所述特征矩陣得到最優(yōu)結果;

步驟4:在將所述特征矩陣輸入機器學習算法支持向量機訓練所述語音識別模型之前,進行z-score數(shù)據(jù)標準化處理;

步驟5:將所述特征矩陣輸入機器學習算法支持向量機中進行學習,構建出用于失語癥患者言語康復的語音識別模型;

步驟6:將待識別語音轉(zhuǎn)換為所述特征矩陣,使用所述語音識別模型預測識別結果。

進一步地,所述步驟2將所述語音信號轉(zhuǎn)換成特征矩陣的步驟包括:

步驟2.1:使用matlab函數(shù)audiodatastore讀取所述語音信號,獲得語音標簽和采樣率,所述語音標簽的形式為n*1向量,n為語音信號個數(shù);

步驟2.2:獲取時域特征,檢測所述語音信號中的時域波形圖,設置幅度閾值lcthreshold為0.05,提取語音信號的過零率;使用matlab函數(shù)f_pitch計算出語音的基音頻率;

步驟2.3:獲取頻域特征,檢測語音信號的頻譜圖及其包絡,提取包絡的前三個峰值;

步驟2.4:獲取倒譜域特征,使用matlab函數(shù)mfcc計算出語音的倒譜域特征,其中梅爾倒譜系數(shù)的第一維使用信號能量的對數(shù)值替代;

步驟2.5:獲取圖像特征,使用短時傅里葉變換將語音信號轉(zhuǎn)換成具有時頻域特征的語譜圖,使用matlab函數(shù)regionprops檢測語音的圖像特征;

步驟2.6:將上述時域特征、頻域特征、倒譜域特征、圖像特征放入n*51的所述特征矩陣中,其中n表示語音信號的個數(shù),51表示語音信號的特征維度。

更進一步地,所述步驟5將所述特征矩陣輸入機器學習算法支持向量機中進行學習的步驟包括:

步驟5.1:使用matlab函數(shù)templatesvm創(chuàng)建一個默認的svm模板t;

步驟5.2:在多分類學習器fitcecoc中輸入步驟2的所述語音標簽和特征矩陣,設置交叉驗證折數(shù)為5折,訓練出所述語音識別模型。

更進一步地,所述步驟3使用特征選擇的步驟包括:

將步驟2中的所述語音標簽和特征矩陣導入matlab的快速分類學習器classificationlearner中,通過手動自由選擇特征組合,最終確認使用步驟2所述特征矩陣得到最優(yōu)結果。

更進一步地,所述步驟4進行z-score數(shù)據(jù)標準化處理的步驟包括:

將所述特征矩陣按列求取均值xj和標準差sj,然后根據(jù)公式zij=(xij-xj)/sj計算得出標準化后的數(shù)值,其中,xij為特征矩陣中的原始值。

更進一步地,所述語音信號內(nèi)容中國康復研究中心標準失語癥檢查表中的關鍵詞匯。

實施本發(fā)明實施例,具有如下有益效果:本發(fā)明采用的語音特征向量以及組合健康人和患者數(shù)據(jù)進行訓練模型的方法,可以有效地提高失語癥患者的語音識別率,構建的模型可以應用于失語癥患者的康復訓練、言語評估和輔助交流中。

附圖說明

圖1是本發(fā)明語音識別框架圖。

具體實施方式

為使本發(fā)明的目的、技術方案和優(yōu)點更加清楚,下面將結合附圖對本發(fā)明作進一步地詳細描述。

本發(fā)明實施例的一種用于失語癥患者康復訓練專用的語音識別方法,通過以下步驟進行。

步驟a,招募符合要求的失語癥患者(共13名)和健康被試(共34名)錄制用于訓練模型的語音材料。語音材料選自中國康復研究中心標準失語癥檢查表(chineserehabilitationresearchcenterstandardaphasiaexamination,crrcae)中的20個關鍵詞匯,包含10個動詞和10個名詞以及中文6個基本元音ā,ō,ē,ī,ū,ǖ,語料均采用普通話錄制。其中,健康被試的語料可以提高模型的識別性能,因為部分失語癥患者的發(fā)音障礙并不嚴重,比較接近正常人;crrcae為失語癥評估臨床量表。

步驟b,將步驟a錄制的語音信號(包括患者和健康被試)轉(zhuǎn)換成特征矩陣。

一,使用matlab函數(shù)“audiodatastore”讀取語音信號,獲得語音標簽和采樣率,語音標簽的形式為n*1向量,n為語音信號個數(shù)。同時設置幀長為256,幀移為196;

二,檢測語音信號的時域波形圖,設置幅度閾值lcthreshold為0.05,提取語音信號與x=lcthreshold的交點數(shù),即過零率。同時使用matlab函數(shù)“f_pitch”計算出語音的基音頻率;

三,檢測語音信號的頻譜圖及其包絡,提取包絡的前三個峰值,即共振峰;

四,使用matlab函數(shù)“mfcc”計算出語音的倒譜域特征,其中梅爾倒譜系數(shù)的第一維使用信號能量的對數(shù)值替代。此特征為r*c矩陣,其中,r代表語音信號的幀數(shù),c代表特征維度。然后,對此特征矩陣取均值,得到1*c的特征向量;

五,基于短時傅里葉變換(short-timefouriertransform,stft),將語音信號轉(zhuǎn)換成具有時頻域特征的語譜圖,使用matlab函數(shù)“regionprops”檢測圖像特征,即語音的時頻域特征;

六,將上述所有特征放入一個n*51的矩陣中,其中n表示語音信號的個數(shù),51表示語音信號的特征維度,即每一行代表一個語音信號,每一列代表一種特征向量。

上述語音特征共51維,其中包括2維時域特征:過零率、基音頻率;3維頻域特征:第一共振峰、第二共振峰、第三共振峰;39維倒譜域特征:13維梅爾倒譜系數(shù)(mel-frequencycepstralcoefficients,mfcc)、13維mfcc一階差分值、13維mfcc二階差分值;7維時頻域特征:頻率峰值檢測區(qū)域的質(zhì)心、主頻率峰值寬度、方向角、檢測區(qū)域中的實際像素數(shù)、能量強度的最大值、能量強度的最小值、能量強度的平均值。時頻域特征是語音通過短時傅里葉變換,在其語譜圖上提取出來的圖像特征,不同的語音在語譜圖上會表現(xiàn)出不同的能量分布,這種分布差異性決定了其具有較好的語音區(qū)分度。

步驟c,將語音特征向量輸入機器學習算法支持向量機(supportvectormachine,svm)中進行學習,構建出用于失語癥患者言語康復的語音識別模型。

學習過程如下:

一,使用matlab函數(shù)“templatesvm”創(chuàng)建一個默認的svm模板t;

二,在多分類學習器“fitcecoc”中輸入步驟b的語音標簽和語音特征矩陣,此兩者具有相同的行數(shù),呈現(xiàn)一一對應的關系。

然后,設置學習器為模板t,設置交叉驗證折數(shù)為5折。按此設置即可訓練出用于失語癥患者的語音識別模型,最后將其保存為matlab腳本代碼。

在得到最終識別效果較好的模型之前,進行了特征選擇,方法如下:將步驟b中的語音標簽和語音特征矩陣導入matlab的快速分類學習器“classificationlearner”中,通過手動自由選擇特征組合,最終確認使用步驟b所述的51維特征可以得到最優(yōu)結果。

在將特征矩陣輸入svm訓練之前,進行了z-score數(shù)據(jù)標準化處理。具體如下:特征矩陣按列求取均值xj和標準差sj,然后根據(jù)公式zij=(xij-xj)/sj計算得出標準化后的數(shù)值,其中,xij為特征矩陣中的原始值。

支持向量機算法可以包括線性支持向量機、二次支持向量機及其變種和組合。

模型訓練完畢后(前述均為模型訓練過程),假設有一待識別語音,將其轉(zhuǎn)換成步驟b所述的51維特征向量序列后,用“predict”函數(shù)即可用此模型來預測識別結果。

以上所揭露的僅為本發(fā)明一種較佳實施例而已,當然不能以此來限定本發(fā)明之權利范圍,因此依本發(fā)明權利要求所作的等同變化,仍屬本發(fā)明所涵蓋的范圍。

相關知識

言語康復訓練對腦卒中失語癥患者的臨床護理應用
言語治療的訓練方法:失語患者如何重新開口交流?學習下
腦卒中后失語患者的語言康復護理
國際言語治療的訓練方法,助失語患者重獲新聲
淺談失語癥兒童的語言康復訓練
運動性失語癥康復訓練方法
如何進行失語語言康復訓練?
語言認知康復訓練方法
言語障礙患者的康復PPT
語言康復訓練方法

網(wǎng)址: 一種用于失語癥患者康復訓練專用的語音識別方法與流程 http://www.gysdgmq.cn/newsview681661.html

推薦資訊