一種動態時間扭曲方法去處理類不平衡醫療具有缺失值的數據集:
蛋白質定位的案例研究的位置預測
神經內科 洪菱謙醫師
類別不平衡的醫學數據集,例如癌症預測,包含不同類型的不平衡數據導致類分佈偏斜的類,這使得分類器很難區分少數(即癌症)和多數(即非癌症)類別。文獻中的相關研究提出類不平衡問題的不同類型的解決方案,包括數據級別、算法級別和成本敏感學習方法。然而,這些潛在的解決方案都沒有考慮到丟失的問題駐留在類不平衡醫療數據集中的屬性值,特別是對於少數類。缺失值插補通常用於構建一些模型,其中統計或機器學習技術用於生成估計以替換缺失值。
然而,現有的插補方法需要一定數量的觀測數據來產生他們的估計,他們面臨的主要挑戰是少數類中觀察到的數據量(沒有缺失值)非常有限,或者某些數據是不完整。在本文中,我們提出了一種新穎的方法,即基於動態時間扭曲的插補(DTWI),用於處理具有缺失值的類不平衡數據集。基於相似度測量技術的DTW,少數類中的所有數據(有或沒有缺失值)都可以用於缺失值歸責。基於 10 個不同類別的不平衡醫學數據集的實驗結果表明,當少數類的缺失率小於 30%,DTWI 的表現與基線 K-NN 相似插補方法,並且優於均值/眾數插補和案例刪除方法。當失踪率大於 30%,DTWI 明顯優於其他技術。
相關訊息已發表於Expert Systems With Applications