本公開涉及智能車輛,尤其涉及一種語音分離方法、模型訓(xùn)練方法、裝置、設(shè)備、介質(zhì)及車輛。
背景技術(shù):
1、車載場景下,需要滿足車上每位駕乘人員不同的交互需求,因此需要將每個聲源單獨的分離出來,以供后續(xù)的交互服務(wù)使用。
2、現(xiàn)有車載多音區(qū)方案通常是使用麥克風陣列捕捉多路語音信號,然后使用麥克風陣列進行定位和分離,或直接使用盲源分離算法進行聲源分離。
3、但是,現(xiàn)有的車載多音區(qū)聲源分離方案依賴于麥克風陣列,存在音區(qū)定位不準確和信號分離不徹底的問題。由于只利用了麥克風收錄的混合音頻,針對車內(nèi)多說話人場景,現(xiàn)有方法對說話人的鑒別性能有限,語音分離的性能不好。
技術(shù)實現(xiàn)思路
1、為了解決上述技術(shù)問題,本公開提供了一種語音分離方法、模型訓(xùn)練方法、裝置、設(shè)備、介質(zhì)及車輛。
2、第一方面,本公開實施例提供一種語音分離方法,包括:
3、獲取當前幀的多通道語音信號以及車內(nèi)各個人員的聲紋頻域特征向量;
4、對當前幀的多通道語音信號進行頻域變換,得到多通道語音頻域信號;
5、將所述車內(nèi)各個人員的聲紋頻域特征向量與多通道語音頻域信號在時間幀上進行對齊,得到車內(nèi)各個人員的目標聲紋頻域特征向量,所述目標聲紋頻域特征向量表示基于聲紋頻域特征向量進行延伸對齊后的特征向量,所述延伸對齊后的特征向量與多通道語音頻域信號的時間幀長度相同;
6、將所述車內(nèi)各個人員的目標聲紋頻域特征向量、所述多通道語音頻域信號輸入聲紋輔助分離模型,通過所述聲紋輔助分離模型得到車內(nèi)各個人員對應(yīng)的音頻掩碼,所述音頻掩碼用于表征對頻域信號中的各個頻率的增強情況;
7、利用所述車內(nèi)各個人員對應(yīng)的音頻掩碼對所述多通道語音頻域信號進行復(fù)數(shù)掩蔽處理,從當前幀的多通道語音信號中分離出車內(nèi)各個人員分別對應(yīng)的語音信號。
8、在一些實施例中,獲取車內(nèi)各個人員的聲紋頻域特征向量,包括:
9、獲取車內(nèi)各個人員的注冊語音信號;
10、對所述車內(nèi)各個人員的注冊語音信號進行頻域變換,得到車內(nèi)各個人員的注冊語音頻域信號;
11、從所述車內(nèi)各個人員的注冊語音頻域信號中提取車內(nèi)各個人員的聲紋頻域特征向量。
12、在一些實施例中,所述從所述車內(nèi)各個人員的注冊語音頻域信號中提取車內(nèi)各個人員的聲紋頻域特征向量,包括:
13、將所述車內(nèi)各個人員的注冊語音頻域信號輸入至預(yù)設(shè)的聲紋特征提取模型中,由所述預(yù)設(shè)的聲紋特征提取模型提取出車內(nèi)各個人員的聲紋頻域特征向量。
14、在一些實施例中,所述對當前幀的多通道語音信號進行頻域變換,得到多通道語音頻域信號,包括:
15、對當前幀的多通道語音信號進行傅里葉變換,得到多通道語音頻域信號。
16、在一些實施例中,所述將所述車內(nèi)各個人員的目標聲紋頻域特征向量、所述多通道語音頻域信號輸入聲紋輔助分離模型,通過所述聲紋輔助分離模型得到車內(nèi)各個人員對應(yīng)的音頻掩碼,包括:
17、將所述車內(nèi)各個人員的目標聲紋頻域特征向量、所述多通道語音頻域信號在頻率軸上進行拼接,得到拼接后的特征向量;
18、將所述拼接后的特征向量輸入聲紋輔助分離模型,通過所述聲紋輔助分離模型中的提取網(wǎng)絡(luò)提取目標頻率的特征向量,所述目標頻率的特征向量表示所述多通道語音頻域信號中與車內(nèi)各個人員的聲紋頻域特征向量對應(yīng)的特征向量;
19、通過所述聲紋輔助分離模型中的重構(gòu)網(wǎng)絡(luò)對所述目標頻率的特征向量進行音頻掩碼計算,計算出車內(nèi)各個人員對應(yīng)的音頻掩碼。
20、在一些實施例中,所述利用所述車內(nèi)各個人員對應(yīng)的音頻掩碼對所述多通道語音頻域信號進行復(fù)數(shù)掩蔽處理,從當前幀的多通道語音信號中分離出車內(nèi)各個人員分別對應(yīng)的語音信號,包括:
21、對于車內(nèi)的任一人員,將該人員對應(yīng)的音頻掩碼與所述多通道語音頻域信號相乘,得到當前幀中該人員的語音頻域信號;
22、對所述當前幀中該人員的語音頻域信號進行逆傅里葉變換,得到該人員對應(yīng)的語音信號。
23、第二方面,本公開實施例提供一種模型訓(xùn)練方法,包括:
24、構(gòu)建聲紋輔助分離模型;
25、構(gòu)造訓(xùn)練數(shù)據(jù)集,所述訓(xùn)練數(shù)據(jù)集包括多組訓(xùn)練樣本數(shù)據(jù)以及每組訓(xùn)練樣本數(shù)據(jù)對應(yīng)的目標語音信號,所述目標語音信號為該組訓(xùn)練樣本數(shù)據(jù)中各個人員分別對應(yīng)的語音信號;
26、基于訓(xùn)練數(shù)據(jù)集對待訓(xùn)練的聲紋輔助分離模型進行訓(xùn)練,得到每組訓(xùn)練樣本數(shù)據(jù)的預(yù)測語音信號;
27、基于每組訓(xùn)練樣本數(shù)據(jù)對應(yīng)的目標語音信號對所述每組訓(xùn)練樣本數(shù)據(jù)的預(yù)測語音信號進行損失計算,得到所述聲紋輔助分離模型的損失計算結(jié)果;
28、基于所述聲紋輔助分離模型的損失計算結(jié)果,更新所述聲紋輔助分離模型的模型參數(shù)。
29、在一些實施例中,所述基于所述聲紋輔助分離模型的損失計算結(jié)果,更新所述聲紋輔助分離模型的模型參數(shù)之后,所述方法還包括:
30、記錄所述聲紋輔助分離模型的訓(xùn)練循環(huán)次數(shù);
31、判斷所述每組訓(xùn)練樣本數(shù)據(jù)的預(yù)測語音信號是否收斂于所述每組訓(xùn)練樣本數(shù)據(jù)對應(yīng)的目標語音信號;
32、若所述每組訓(xùn)練樣本數(shù)據(jù)的預(yù)測語音信號已收斂于所述每組訓(xùn)練樣本數(shù)據(jù)對應(yīng)的目標語音信號,或所述聲紋輔助分離模型的訓(xùn)練循環(huán)次數(shù)大于預(yù)設(shè)次數(shù)閾值,則確定所述聲紋輔助分離模型訓(xùn)練完成。
33、在一些實施例中,所述構(gòu)造訓(xùn)練數(shù)據(jù)集,包括:
34、錄制多通道單源語音信號和會話人員注冊語音信號;
35、從會話人員注冊語音信號中提取會話人員的聲紋特征向量;
36、將會話人員的聲紋特征向量與多通道單源語音信號在時間幀上進行對齊,構(gòu)建出會話人員的單源語音信號-注冊語音信號數(shù)據(jù)庫;
37、將所述數(shù)據(jù)庫中的不同會話人員的單源語音信號進行多種聲源個數(shù)混合,得到多組多通道混合音頻;
38、對于多組多通道混合音頻中的每組多通道混合音頻,將每組多通道混合音頻與所述每組多通道混合音頻對應(yīng)的會話人員注冊語音信號進行組合,得到每組訓(xùn)練樣本數(shù)據(jù);
39、利用每組訓(xùn)練樣本數(shù)據(jù),構(gòu)造出所述訓(xùn)練數(shù)據(jù)集。
40、第三方面,本公開實施例提供一種語音分離裝置,包括:
41、獲取模塊,用于獲取當前幀的多通道語音信號以及車內(nèi)各個人員的聲紋頻域特征向量;
42、變換模塊,用于對當前幀的多通道語音信號進行頻域變換,得到多通道語音頻域信號;
43、第一得到模塊,用于將所述車內(nèi)各個人員的聲紋頻域特征向量與多通道語音頻域信號在時間幀上進行對齊,得到車內(nèi)各個人員的目標聲紋頻域特征向量,所述目標聲紋頻域特征向量表示基于聲紋頻域特征向量進行延伸對齊后的特征向量,所述延伸對齊后的特征向量與多通道語音頻域信號的時間幀長度相同;
44、第二得到模塊,用于將所述車內(nèi)各個人員的目標聲紋頻域特征向量、所述多通道語音頻域信號輸入聲紋輔助分離模型,通過所述聲紋輔助分離模型得到車內(nèi)各個人員對應(yīng)的音頻掩碼,所述音頻掩碼用于表征對頻域信號中的各個頻率的增強情況;
45、分離模塊,用于利用所述車內(nèi)各個人員對應(yīng)的音頻掩碼對所述多通道語音頻域信號進行復(fù)數(shù)掩蔽處理,從當前幀的多通道語音信號中分離出車內(nèi)各個人員分別對應(yīng)的語音信號。
46、第四方面,本公開實施例提供一種模型訓(xùn)練裝置,包括:
47、構(gòu)建模塊,用于構(gòu)建聲紋輔助分離模型;
48、構(gòu)造模塊,用于構(gòu)造訓(xùn)練數(shù)據(jù)集,所述訓(xùn)練數(shù)據(jù)集包括多組訓(xùn)練樣本數(shù)據(jù)以及每組訓(xùn)練樣本數(shù)據(jù)對應(yīng)的目標語音信號,所述目標語音信號為該組訓(xùn)練樣本數(shù)據(jù)中各個人員分別對應(yīng)的語音信號;
49、得到模塊,用于基于訓(xùn)練數(shù)據(jù)集對待訓(xùn)練的聲紋輔助分離模型進行訓(xùn)練,得到每組訓(xùn)練樣本數(shù)據(jù)的預(yù)測語音信號;
50、損失計算模塊,用于基于每組訓(xùn)練樣本數(shù)據(jù)對應(yīng)的目標語音信號對所述每組訓(xùn)練樣本數(shù)據(jù)的預(yù)測語音信號進行損失計算,得到所述聲紋輔助分離模型的損失計算結(jié)果;
51、更新模塊,用于基于所述聲紋輔助分離模型的損失計算結(jié)果,更新所述聲紋輔助分離模型的模型參數(shù)。
52、第五方面,本公開實施例提供一種電子設(shè)備,包括:
53、存儲器;
54、處理器;以及
55、計算機程序;
56、其中,所述計算機程序存儲在所述存儲器中,并被配置為由所述處理器執(zhí)行以實現(xiàn)如第一方面或第二方面所述的方法。
57、第六方面,本公開實施例提供一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,所述計算機程序被處理器執(zhí)行以實現(xiàn)如第一方面或第二方面所述的方法。
58、第七方面,本公開實施例還提供了一種計算機程序產(chǎn)品,該計算機程序產(chǎn)品包括計算機程序或指令,該計算機程序或指令被處理器執(zhí)行時實現(xiàn)如上所述的語音分離方法。
59、第八方面,本公開實施例還提供了一種車輛,包括:
60、存儲器;
61、處理器;以及
62、計算機程序;
63、其中,所述計算機程序存儲在所述存儲器中,并被配置為由所述處理器執(zhí)行以實現(xiàn)如上所述的語音分離方法。
64、本公開實施例提供的語音分離方法、模型訓(xùn)練方法、裝置、設(shè)備、介質(zhì)及車輛,通過獲取當前幀的多通道語音信號以及車內(nèi)各個人員的聲紋頻域特征向量,對當前幀的多通道語音信號進行頻域變換,得到多通道語音頻域信號,將所述車內(nèi)各個人員的聲紋頻域特征向量與多通道語音頻域信號在時間幀上進行對齊,得到車內(nèi)各個人員的目標聲紋頻域特征向量,將所述車內(nèi)各個人員的目標聲紋頻域特征向量、所述多通道語音頻域信號輸入聲紋輔助分離模型,通過所述聲紋輔助分離模型得到車內(nèi)各個人員對應(yīng)的音頻掩碼,所述音頻掩碼用于表征對頻域信號中的各個頻率的增強情況,利用所述車內(nèi)各個人員對應(yīng)的音頻掩碼對所述多通道語音頻域信號進行復(fù)數(shù)掩蔽處理,從當前幀的多通道語音信號中分離出車內(nèi)各個人員分別對應(yīng)的語音信號。相較于現(xiàn)有技術(shù),本公開將車內(nèi)各個人員的聲紋頻域特征向量與多通道語音頻域信號在時間幀上進行對齊,可以更充分地了解不同說話人的語音特征,通過獲取車內(nèi)各個人員的聲紋頻域特征向量,利用聲紋頻域特征向量對聲紋輔助分離模型進行推理,得到車內(nèi)各個人員對應(yīng)的音頻掩碼,音頻掩碼用于表征對頻域信號中的各個頻率的增強情況,進而利用所述車內(nèi)各個人員對應(yīng)的音頻掩碼對所述多通道語音頻域信號進行復(fù)數(shù)掩蔽處理,從當前幀的多通道語音信號中分離出車內(nèi)各個人員分別對應(yīng)的語音信號,利用車內(nèi)各個人員對應(yīng)的音頻掩碼進行語音分離可以提升分離性能,便于更好地適應(yīng)多用戶的交互需求,支持多人同時與電子設(shè)備進行語音交互,利用多說話人聲紋,可以對說話人進行跟蹤,避免交互中斷的情況。