本發(fā)明涉及深度學(xué)習(xí)領(lǐng)域,具體涉及一種基于輕量級(jí)模型的肺音分類(lèi)方法及系統(tǒng)。
背景技術(shù):
1、隨著世界工業(yè)經(jīng)濟(jì)迅速發(fā)展,空氣環(huán)境受到了很大污染,患上呼吸系統(tǒng)疾病的概率直線(xiàn)上升,這對(duì)人們的身心健康造成了極大地影響?!?024世界衛(wèi)生統(tǒng)計(jì)》報(bào)告顯示:全球人口中有近九成呼吸著渾濁的空氣,死亡病因中排在世界第四位的是慢性阻塞性肺病,世界排名前十的死亡病因有五類(lèi)和呼吸系統(tǒng)疾病相關(guān)。呼吸系統(tǒng)疾病是全球范圍內(nèi)極為普遍的疾病之一,它們不僅影響著個(gè)體的生活質(zhì)量,還對(duì)社會(huì)經(jīng)濟(jì)造成了重大負(fù)擔(dān)。由于呼吸系統(tǒng)疾病種類(lèi)繁多,包括肺炎、支氣管炎、哮喘、慢性阻塞性肺病(copd)以及各種肺部感染等,大多數(shù)患者往往難以準(zhǔn)確識(shí)別這些不同類(lèi)型疾病的癥狀。這種認(rèn)知上的不足,加上早期癥狀可能與普通感冒癥狀相似,使得許多患者在疾病初期未能及時(shí)尋求醫(yī)療幫助,從而導(dǎo)致診斷的延遲。
2、肺音判別,可用于結(jié)合其他肺部相關(guān)診斷數(shù)據(jù)作為依據(jù),對(duì)患者肺部疾病加以輔助判斷。傳統(tǒng)肺音分析方法主要依賴(lài)人工聽(tīng)診,存在主觀性強(qiáng)、效率低下等局限性,其分析結(jié)果易受操作者經(jīng)驗(yàn)影響,且難以滿(mǎn)足大規(guī)模篩查需求。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,基于神經(jīng)網(wǎng)絡(luò)的肺音自動(dòng)分類(lèi)方法逐漸興起,但現(xiàn)有方法仍面臨顯著挑戰(zhàn):一方面,主流深度學(xué)習(xí)模型往往計(jì)算復(fù)雜度高、參數(shù)量大,難以在嵌入式設(shè)備或資源受限環(huán)境中高效部署;另一方面,現(xiàn)有輕量級(jí)模型在壓縮計(jì)算量的同時(shí),通常會(huì)導(dǎo)致分類(lèi)性能下降,對(duì)復(fù)雜肺音特征的識(shí)別能力不足。這種計(jì)算效率與分類(lèi)精度之間的矛盾,嚴(yán)重制約了肺音分析技術(shù)的實(shí)際應(yīng)用。
3、因此,開(kāi)發(fā)一種兼具輕量化特性和高分類(lèi)精度的肺音分析方案,對(duì)于肺音關(guān)聯(lián)疾病的分類(lèi)和推動(dòng)呼吸健康監(jiān)測(cè)技術(shù)的發(fā)展具有重要意義,既能滿(mǎn)足資源受限環(huán)境下的部署需求,又能確保分析結(jié)果的可靠性,為健康評(píng)估提供更有效的技術(shù)支持。
技術(shù)實(shí)現(xiàn)思路
1、針對(duì)上述現(xiàn)有技術(shù)的不足,本發(fā)明提供了一種基于輕量級(jí)模型的肺音分類(lèi)方法,基于eca模塊進(jìn)行改進(jìn)后的通道注意力模塊,并利用跨區(qū)域多頭自注意力模塊,構(gòu)建以mobilevit模型作為基準(zhǔn)模型的肺音分類(lèi)模型,在顯著降低計(jì)算資源消耗的同時(shí),提高了肺音分類(lèi)的準(zhǔn)確率,實(shí)現(xiàn)了在資源受限環(huán)境下高效、精準(zhǔn)的肺音特征識(shí)別。
2、為了解決上述技術(shù)問(wèn)題,本發(fā)明采用了如下技術(shù)方案:
3、第一方面,本發(fā)明提供了一種基于輕量級(jí)模型的肺音分類(lèi)方法,獲取待處理的肺音音頻數(shù)據(jù),將其轉(zhuǎn)換為肺音頻譜圖像,輸入至經(jīng)過(guò)預(yù)先訓(xùn)練的肺音分類(lèi)模型進(jìn)行分類(lèi)識(shí)別,得到待處理的肺音音頻數(shù)據(jù)的分類(lèi)結(jié)果;
4、所述肺音分類(lèi)模型包括特征提取層、注意力特征增強(qiáng)層和分類(lèi)層;所述特征提取層用于對(duì)輸入的肺音頻譜圖像進(jìn)行特征提取,得到肺音頻譜特征圖;所述注意力特征增強(qiáng)層用于對(duì)提取的肺音頻譜特征圖進(jìn)行注意力特征增強(qiáng)處理和時(shí)頻特征提取處理,得到時(shí)頻特征數(shù)據(jù);所述分類(lèi)層用于對(duì)所述時(shí)頻特征數(shù)據(jù)進(jìn)行分類(lèi)預(yù)測(cè)識(shí)別,得到待處理的肺音音頻數(shù)據(jù)的分類(lèi)結(jié)果。
5、作為優(yōu)選方案,所述注意力特征增強(qiáng)層包括依次連接的mv2模塊、3個(gè)mv2-hpeca模塊、2個(gè)由mv2模塊和mvit-crmsa模塊組成的組合模塊、以及1個(gè)由mv2-hpeca模塊和mvit-crmsa模塊組成的組合模塊;
6、輸入至注意力特征增強(qiáng)層的肺音頻譜特征圖先依次通過(guò)1個(gè)mv2模塊和3個(gè)mv2-hpeca模塊,進(jìn)行圖像特征增強(qiáng)處理;經(jīng)過(guò)增強(qiáng)處理的特征圖再通過(guò)兩個(gè)由mv2模塊和mvit-crmsa模塊組成的組合模塊,進(jìn)行跨區(qū)域多頭自注意力機(jī)制處理,提取特征圖中的時(shí)頻信息;最后,獲得的時(shí)頻信息再通過(guò)1個(gè)由mv2-hpeca模塊和mvit-crmsa模塊組成的組合模塊,進(jìn)行進(jìn)一步的時(shí)頻信息表示提升處理,得到作為輸出的時(shí)頻特征數(shù)據(jù)。
7、作為優(yōu)選方案,所述mv2模塊包括依次連接的逐點(diǎn)卷積單元、深度可分離卷積單元、卷積歸一化單元;所述逐點(diǎn)卷積單元包括級(jí)聯(lián)的1×1卷積模塊、bn批量歸一化層和relu6激活函數(shù);所述深度可分離卷積單元包括級(jí)聯(lián)的深度3×3卷積模塊、bn批量歸一化層和relu6激活函數(shù);所述卷積歸一化單元包括級(jí)聯(lián)的1×1卷積模塊和bn批量歸一化層;
8、在所述mv2模塊中,對(duì)輸入特征圖依次通過(guò)逐點(diǎn)卷積單元、深度可分離卷積單元和卷積歸一化單元后的輸出再與輸入特征圖進(jìn)行相加操作,得到輸出特征圖。
9、作為優(yōu)選方案,所述mv2-hpeca模塊包括依次連接的逐點(diǎn)卷積單元、深度可分離卷積單元、通道注意力模塊和卷積歸一化單元;其中,所述逐點(diǎn)卷積單元包括級(jí)聯(lián)的1×1卷積模塊、bn批量歸一化層和relu6激活函數(shù),所述深度可分離卷積單元包括級(jí)聯(lián)的深度3×3卷積模塊、bn批量歸一化層和relu6激活函數(shù),所述卷積歸一化單元包括級(jí)聯(lián)的1×1卷積模塊和bn批量歸一化層;
10、在所述mv2-hpeca模塊中,對(duì)輸入特征圖依次通過(guò)逐點(diǎn)卷積單元、深度可分離卷積單元、通道注意力模塊和卷積歸一化單元后的輸出再與輸入特征圖進(jìn)行相加操作,作為mv2-hpeca模塊的整體輸出。
11、作為優(yōu)選方案,所述通道注意力模塊的處理過(guò)程包括如下步驟:
12、首先,對(duì)輸入特征圖每個(gè)通道進(jìn)行全局最大池化,以獲取每個(gè)通道的最大值,得到形狀為c×1×1的向量f,然后,將向量f通過(guò)自適應(yīng)選擇的一維深度可分離卷積模塊進(jìn)行卷積,接著,將卷積后的結(jié)果經(jīng)過(guò)h_swish函數(shù)生成每個(gè)通道的權(quán)重mc,最后,將生成的各通道權(quán)重與輸入特征圖進(jìn)行逐通道相乘,以融合輸出得到最終特征圖;
13、所述一維深度可分離卷積模塊的卷積核大小k根據(jù)通道數(shù)c自適應(yīng)公式計(jì)算得到,所述自適應(yīng)計(jì)算公式為:
14、
15、作為優(yōu)選方案,所述mvit-crmsa模塊包括依次連接的第一3×3卷積模塊、特征重塑轉(zhuǎn)置單元、多頭自注意力轉(zhuǎn)換模塊、1×1卷積模塊、連接層和第二3×3卷積模塊;其中,所述多頭自注意力轉(zhuǎn)換模塊包括級(jí)聯(lián)的注意力單元和前饋網(wǎng)絡(luò)單元,所述注意力單元包括級(jí)聯(lián)的層歸一化層、跨區(qū)域多頭自注意力模塊和dropout層,所述前饋網(wǎng)絡(luò)單元包括級(jí)聯(lián)的層歸一化層、多層感知機(jī)模塊和dropout層;在所述多頭自注意力轉(zhuǎn)換模塊中,對(duì)輸入的特征圖通過(guò)注意力單元輸出后與輸入特征圖進(jìn)行相加操作后,作為前饋網(wǎng)絡(luò)單元的輸入,前饋網(wǎng)絡(luò)單元的輸出與饋網(wǎng)絡(luò)單元的輸入進(jìn)行相加操作后,作為多頭自注意力轉(zhuǎn)換模塊的輸出;
16、在所述mvit-crmsa模塊中,對(duì)輸入特征圖依次通過(guò)第一3×3卷積模塊、特征重塑轉(zhuǎn)置單元、多頭自注意力轉(zhuǎn)換模塊、1×1卷積模塊后的輸出與輸入特征圖通過(guò)連接層進(jìn)行拼接融合后,作為第二3×3卷積模塊的輸入,第二3×3卷積模塊的輸出作為mvit-crmsa模塊的整體輸出。
17、作為優(yōu)選方案,所述跨區(qū)域多頭自注意力模塊的處理過(guò)程包括如下步驟:首先,將輸入特征圖劃分為若干個(gè)局部區(qū)域,然后,分別對(duì)每個(gè)局部區(qū)域進(jìn)行多頭自注意力特征提取后,進(jìn)行跨區(qū)域聚合處理,得到各局部區(qū)域的全局語(yǔ)義分配特征,最后將各局部區(qū)域的全局語(yǔ)義分配特征按局部區(qū)域的空間順序進(jìn)行合并融合,得到作為輸出的特征圖。
18、作為優(yōu)選方案,所述分類(lèi)層包括依次連接的1×1卷積模塊、全局平均池化模塊和線(xiàn)性模塊;輸入分類(lèi)層的時(shí)頻特征數(shù)據(jù),先通過(guò)1×1卷積模塊進(jìn)行維度調(diào)整,再通過(guò)全局平均池化模塊和線(xiàn)性模塊進(jìn)行分類(lèi)預(yù)測(cè)識(shí)別,得到待處理的肺音音頻數(shù)據(jù)的分類(lèi)結(jié)果。
19、作為優(yōu)選方案,所述對(duì)肺音分類(lèi)模型進(jìn)行訓(xùn)練的過(guò)程包括:利用公開(kāi)數(shù)據(jù)集獲取肺音音頻數(shù)據(jù)集,將所述肺音音頻數(shù)據(jù)集完成分類(lèi)標(biāo)記后進(jìn)行數(shù)據(jù)增強(qiáng)并轉(zhuǎn)化為mfcc圖像數(shù)據(jù)集,基于預(yù)設(shè)的輸入圖像尺寸調(diào)整mfcc圖像數(shù)據(jù)集,將調(diào)整后的mfcc圖像數(shù)據(jù)集作為訓(xùn)練樣本,構(gòu)成訓(xùn)練樣本集,輸入至所述肺音分類(lèi)模型,并以最小化交叉熵?fù)p失函數(shù)為目標(biāo)對(duì)肺音分類(lèi)模型的模型參數(shù)進(jìn)行優(yōu)化更新,進(jìn)而對(duì)肺音分類(lèi)模型進(jìn)行訓(xùn)練,得到訓(xùn)練后的肺音分類(lèi)模型;
20、所述交叉熵?fù)p失函數(shù)為:
21、
22、式中,cf表示交叉熵?fù)p失函數(shù),n表示輸入樣本數(shù),pi表示第i個(gè)樣本屬于真實(shí)標(biāo)簽的概率。
23、第二方面,本發(fā)明還提供了一種基于輕量級(jí)模型的肺音分類(lèi)裝置,包括處理器和存儲(chǔ)介質(zhì);所述存儲(chǔ)介質(zhì)用于存儲(chǔ)計(jì)算機(jī)程序;所述處理器與所述存儲(chǔ)介質(zhì)相連,用于執(zhí)行所述存儲(chǔ)介質(zhì)存儲(chǔ)的計(jì)算機(jī)程序,以使所述基于輕量級(jí)模型的肺音分類(lèi)裝置執(zhí)行前述的基于輕量級(jí)模型的肺音分類(lèi)方法。
24、與現(xiàn)有技術(shù)相比,本發(fā)明具有以下技術(shù)效果:
25、1、本發(fā)明方案中,設(shè)計(jì)了通道注意力模塊(hpeca),其通過(guò)全局最大池化、深度可分離卷積和h_swish激活函數(shù)的協(xié)同優(yōu)化,全局最大池化操作有助于捕捉全局特征,而一維深度可分離卷積則能夠以更少的計(jì)算量實(shí)現(xiàn)通道間的有效交互,能夠有效提取特征圖中的關(guān)鍵特征,有助于提升特征識(shí)別的準(zhǔn)確率,并在肺音分類(lèi)模型構(gòu)建的過(guò)程中,在部分mv2模塊中引入了hpeca模塊,在不額外增加計(jì)算量和參數(shù)量的同時(shí),提升了模型對(duì)關(guān)鍵信息的提取能力。
26、2、本發(fā)明采用的肺音分類(lèi)模型中的mvit-crmsa模塊,采用了跨區(qū)域多頭自注意力機(jī)制,利用跨區(qū)域多頭自注意力模塊捕捉輸入特征圖中不同區(qū)域之間的依賴(lài)關(guān)系,增強(qiáng)特征的表達(dá)能力,使得模型能夠更深入地理解局部和全局特征,從而允許模型綜合考慮局部細(xì)節(jié)和整體,在降低計(jì)算量的同時(shí),提高了模型對(duì)肺音分類(lèi)的準(zhǔn)確率,實(shí)現(xiàn)了在資源受限環(huán)境下高效、精準(zhǔn)的肺音特征識(shí)別。