近日,根據(jù)一項(xiàng)新的研究,在一個(gè)公共皮膚圖像數(shù)據(jù)集(用于訓(xùn)練算法以檢測皮膚問題)中,沒有包含足夠多膚色的信息。在提供膚色信息的數(shù)據(jù)集中,只有極少數(shù)圖像的膚色較深。因此使用這些數(shù)據(jù)集構(gòu)建的算法,對于非白人來說可能不那么準(zhǔn)確。
研究檢查了21個(gè)可免費(fèi)訪問的皮膚狀況圖像數(shù)據(jù)集。結(jié)合起來,它們包括了超過100000張圖像。這些圖像中只有1400多張附加了有關(guān)患者種族的信息,只有2236張附加了有關(guān)膚色的信息。
利用這些數(shù)據(jù)訓(xùn)練算法很可能存在偏差:在具有膚色信息的圖像中,只有11個(gè)屬于“最暗膚色”類別。沒有來自具有非洲、非洲裔加勒比或南亞背景的患者圖像。
斯坦福大學(xué)皮膚病學(xué)臨床學(xué)者表示,從少數(shù)報(bào)告膚色分布的論文中看到,這些論文確實(shí)顯示出較深膚色的代表性不足。
當(dāng)數(shù)據(jù)集中的圖像公開可用時(shí),研究人員可以查看相關(guān)膚色。但這可能也很困難,因?yàn)檎掌赡芘c現(xiàn)實(shí)生活中的膚色不完全匹配。最理想的情況是在臨床訪問時(shí)注意患者膚色,然后可以在該患者皮膚問題的圖像進(jìn)入數(shù)據(jù)庫之前對其進(jìn)行標(biāo)記。
仔細(xì)檢查這些圖像集很重要,因?yàn)樗鼈兘?jīng)常被用來構(gòu)建算法來幫助醫(yī)生診斷患有皮膚病的患者,其中一些皮膚病(如皮膚癌),如果不及早發(fā)現(xiàn)就會更加危險(xiǎn)。
如果算法只在淺色皮膚上進(jìn)行過訓(xùn)練或測試,那么它們對其他人來說就不會那么準(zhǔn)確。研究也表明,僅對膚色較淺的人拍攝圖像,進(jìn)行訓(xùn)練的程序可能對膚色較深的人來說不那么準(zhǔn)確,反之亦然。
研究人員希望看到更多深色皮膚狀況的例子。提高數(shù)據(jù)集的透明度和清晰度,將幫助研究人員跟蹤更多樣化的圖像集進(jìn)展,有望出現(xiàn)更公平的人工智能工具。
題為Characteristics of publicly available skin cancer image datasets: a systematic review的相關(guān)研究論文發(fā)表在《柳葉刀-數(shù)字醫(yī)療》上。
前瞻經(jīng)濟(jì)學(xué)人APP資訊組
論文原文:
https://www.thelancet.com/journals/landig/article/PIIS2589-7500(21)00252-1/fulltext