教育教材での表現のための肌の色調分析 (STAR) | 株式会社グラビティセパレーターグループ

npj デジタルメディスン第 6 巻、記事番号: 151 (2023) この記事を引用

640 アクセス

26 オルトメトリック

メトリクスの詳細

プライマリケアの医師や皮膚科医に皮膚疾患の認識を教えるために使用される教材では、暗い肌の色調を描いた画像が大幅に過小評価されています。これは、異なる人種グループ間での皮膚疾患の診断の格差に寄与する可能性があります。以前は、分野の専門家が教科書を手動で評価して、肌画像の多様性を推定していました。手動による評価は多くの教材に対応できず、人的ミスが発生します。このプロセスを自動化するために、機械学習を使用して医学教育教材における肌の色合いの表現を評価する、教育教材における肌の色合いの表現 (STAR-ED) フレームワークを紹介します。ドキュメント (たとえば、.pdf の教科書) が与えられると、STAR-ED はコンテンツ解析を適用して、テキスト、画像、表エンティティを構造化フォーマットで抽出します。次に、肌を含む画像を識別し、それらの画像の肌を含む部分をセグメント化し、機械学習を使用して肌の色合いを推定します。 STAR-ED は、Fitzpatrick17k データセットを使用して開発されました。次に、一般的に使用されている 4 つの医学教科書で STAR-ED を外部テストしました。結果は、肌画像の検出 (0.96 ± 0.02 AUROC および 0.90 ± 0.06 F1 スコア) および肌の色調の分類 (0.87 ± 0.01 AUROC および 0.91 ± 0.00 F1 スコア) において優れたパフォーマンスを示しています。 STAR-ED は、4 つの医学教科書における肌の色調の不均衡な表現を定量化しています。茶色と黒の肌の色調 (Fitzpatrick V-VI) 画像は、すべての肌画像の 10.5% にすぎません。私たちは、このテクノロジーを、医学教育者、出版社、医療従事者が教材で肌の色の多様性を評価するためのツールとして活用できると考えています。

主要な医学部のカリキュラムで使用される医学教科書、講義ノート、出版論文には、皮膚疾患の症状を示すために使用される画像の肌の色調が適切に表現されていません 1、2、3。たとえば、一般的に使用されている医学教科書の最近の手作業による評価では、褐色と黒色の肌の色調を表すフィッツパトリック肌色調 (FST) V と VI が大幅に過小評価されていることがわかりました 1,2。新型コロナウイルス感染症のパンデミックは、この不公平性をさらに浮き彫りにしました。新型コロナウイルス感染症の皮膚症状の公開された写真に手動で注釈を付けたところ、褐色肌を描いた画像が過小評価されていることが明らかになりました4。

皮膚疾患は肌の色調によって現れ方が異なるため、十分な訓練を受けた医療従事者には、多様な肌の色調を描いた教材が必要です1、2、3、4、5。ルイとウィルクスは、医療（アクセスしやすさ、提供、質）における人種的不平等は、カリキュラム教材における多様な表現の欠如によって影響を受けていると示唆しています1。例えば、有色人種の患者では皮膚がん（黒色腫、扁平上皮がんなど）の診断が大幅に遅れ、罹患率と死亡率の増加につながります6。

皮膚科学関連の学術資料（雑誌や教科書）のこれまでの分析では、FST V と VI が過小評価されていることが示されています。ただし、画像には手動で注釈が付けられ、分析されました。つまり、分野の専門家が教科書/雑誌内の各画像を特定し、肌の色合いにラベルを付けました。残念ながら、この手動アプローチは、労働集約的な性質、オペレーターの視覚疲労、および肌の色調のラベル付けの観察者間のエラーのため、大規模なコーパスには扱いにくいです。機械学習 (ML) を使用した自動肌の色合いの表現評価は、医学教育教材の偏りを特定するのに大きく役立つことが期待されていますが、教育教材ではこれまで行われていませんでした。

皮膚科における肌の色調分析に対する機械学習ベースのアプローチは、これまで厳選されたデータセット (ISIC 20187 や SD-1988 など) にのみ適用されており、現実世界の学術資料には適用されていませんでした。以前のアプローチの 1 つは、ピクセル強度値から計算される個別タイポロジーアングル (ITA) を使用していました9、10、11。次に、ITA 値が FST12 にマッピングされました。ただし、これまでは、皮膚画像から直接 FST を分類するようにトレーニングされた機械学習モデルのほうが、FST13 に変換した ITA ベースの推定よりも FST の分類において優れたパフォーマンスを発揮していました。 ITA ベースの手法は生のピクセル値に依存するため、照明条件の影響をより受けやすくなります。これらの以前のモデルでは、皮膚科における機械学習モデルの開発に使用される厳選された肌画像データセットでは、暗い肌の色調が大幅に過小評価されていることが特定されました。

0.9 AUROC) is achieved between the classifiers across the four textbooks confirming the robustness of the framework. Specifically, XGB classifier results in an average AUROC of 0.96 ± 0.02 and F1 score of 0.90 ± 0.06 F1 across the textbooks. To summarize, skin image detection could be done satisfactorily using traditional machine learning classifiers (without sophisticated deep networks). XGB was used for the final STAR-ED pipeline due to its slightly better performance, particularly in its AUROC, which, unlike accuracy, is independent of single prediction thresholds./p>