近日,中國(guó)科學(xué)院合肥物質(zhì)院健康所李海研究員團(tuán)隊(duì)在基于語音信號(hào)的神經(jīng)系統(tǒng)疾病檢測(cè)研究中取得新進(jìn)展。相關(guān)研究成果發(fā)表在計(jì)算機(jī)科學(xué)領(lǐng)域的權(quán)威期刊?Neurocomputing?上。
構(gòu)音障礙是多種神經(jīng)系統(tǒng)疾病,如帕金森病(Parkinson’s disease, PD)、亨廷頓病(Huntington's disease, HD)和肝豆?fàn)詈俗冃圆。?/span>Wilson Disease, WD)等的早期常見癥狀。構(gòu)音障礙會(huì)改變患者的發(fā)音節(jié)律和清晰度,因此,語音信號(hào)有望作為生物標(biāo)記物輔助神經(jīng)性疾病的無創(chuàng)篩查與持續(xù)監(jiān)測(cè),并且基于語音的自動(dòng)化分析方法具備檢測(cè)效率高、使用成本低和非侵入性等優(yōu)勢(shì)。然而,現(xiàn)有的主流方法仍存在過分依賴人工特征設(shè)計(jì)、時(shí)間變量交互建模能力不足以及模型的可解釋性差等問題。
為應(yīng)對(duì)上述挑戰(zhàn),研究團(tuán)隊(duì)提出了一種跨時(shí)間與跨通道的多變量時(shí)間序列處理框架(CTCAIT)。該框架首先利用大型音頻模型提取語音信號(hào)的高維時(shí)序特征,并將其表示為時(shí)間與通道的多維嵌入結(jié)構(gòu)。隨后,借助 InceptionTime 網(wǎng)絡(luò)提取多變量時(shí)間序列中的多尺度、多層次信息,結(jié)合跨時(shí)間與跨通道的多頭注意力機(jī)制,有效捕捉語音在不同維度中所蘊(yùn)含的病理特征。該方法在中文普通話語音數(shù)據(jù)集上達(dá)到了92.06%的檢測(cè)準(zhǔn)確率,在外部英文數(shù)據(jù)集上也取得了87.73%的準(zhǔn)確率,表現(xiàn)出良好的跨語言泛化能力。
此外,研究團(tuán)隊(duì)還對(duì)模型的內(nèi)部決策機(jī)制進(jìn)行了可解釋性分析,并比較了不同言語任務(wù)的檢測(cè)效果,為模型在臨床中的實(shí)際應(yīng)用提供了支持。
該論文的第一作者為中國(guó)科學(xué)技術(shù)大學(xué)博士研究生張政霖,通訊作者為健康所李海研究員和楊立狀副研究員。本研究得到了國(guó)家自然科學(xué)基金、安徽省自然科學(xué)基金和安徽省重點(diǎn)研發(fā)項(xiàng)目的支持。
文章鏈接:https://www.sciencedirect.com/science/article/pii/S0925231225013803

構(gòu)音障礙檢測(cè)中的多變量時(shí)間序列處理框架
