Zum Hauptinhalt springen

Testen der Leistung

Es gibt viele Gründe, warum Sie daran interessiert sein könnten, die Leistung unserer Technologie mit Ihrem eigenen Testdatensatz zu messen. Wir befürworten diese Vorgehensweise. Allerdings müssen Sie sich bei der Durchführung eines solchen Tests darüber im Klaren sein, welches die richtige Art und Weise ist, die Leistung eines Computer-Vision-Modells zu testen, und welches die geeigneten Methoden sind, um die Leistung des Produkts zu testen.

Vorlage für Tests

HerunterladenTitel
VorlageLeistungstests der Top-5- und Top-1-Genauigkeit (klinische Entscheidungshilfe)
VorlageLeistungsprüfung der Priorisierung nach Bösartigkeit

Grundlagen der Gültigkeit

Es gibt ein paar Grundlagen, die Sie beachten müssen:

  1. Die Testbedingungen müssen der realen Umgebung so ähnlich wie möglich sein.
  2. Der Goldstandard, mit dem Sie die Genauigkeit messen, muss mit der Ausgabe des Produkts übereinstimmen
  3. Die Leistungskennzahl muss die Ziele der Implementierung widerspiegeln

1. Der Test muss der realen Umgebung entsprechen

In der realen Welt wird das Produkt von Menschen benutzt, die Bilder machen, z.B. von medizinischen Fachkräften oder von Patienten. Das bedeutet, dass Handykameras benutzen werden, um ein Bild einer Hautläsion aufzunehmen.

Deshalb sollten Sie beim Testen der Leistung des Produkts Bilder verwenden, die den Eigenschaften der Bilder entsprechen, die medizinische Fachkräfte und Patienten aufnehmen werden.

Verwenden Sie...

✅ direkt vom Smartphone aufgenommene Bilder

✅ direkt von der Digitalkamera aufgenommene Bilder

✅ direkt vom Dermatoskop aufgenommene Bilder

Verwenden Sie keine...

❌ Bilder, die komprimiert oder optimiert wurden

❌ Bilder, die aus dem Internet heruntergeladen wurden

❌ Bilder, die über WhatsApp oder WeChat übertragen wurden

So erkennen Sie, ob ein Bild komprimiert wurde

Eine gute Methode, um zu erkennen, ob ein Bild künstlich verzerrt wurde, ist ein Blick auf die Bildabmessungen. Die meisten Bildkomprimierungsverfahren verkleinern auch die Bildabmessungen.

Produkt✅ Normale Bildgröße❌ Komprimierte Bildgröße
iPhone 6 (2014)3456 x 2304 Pixel346 x 204 Pixel
Canon SX610 HS (2015)5184 x 2912 Pixel640 x 360 Pixel
iPhone 13 (2021)4032 x 3024 Pixel403 x 302 Pixel
Xiaomi 12T Pro (2022)16384 x 12288 Pixel819 x 614 Pixel

Wie Sie sehen können, nehmen selbst ältere iPhones aus dem Jahr 2014 Bilder mit einer Größe von etwa 3000 Pixeln auf. Wenn ein Bild deutlich kleiner ist als dieser Wert, kann dies auf eine Komprimierung hindeuten.

Denken Sie daran: normale Bildgrößen verwenden

Vergewissern Sie sich, dass das Bild eine Größe hat, die der normalen Bildgröße entspricht, d.h. mindestens 2000 Pixel in der Breite oder Höhe, da dies die Bildgröße ist, die Benutzer in der realen Welt verwenden.

2. Sicherstellen, dass die Ausgabe übereinstimmen kann

Das Produkt prüft die Bilder und gibt eine Liste von Krankheitsbildern mit einer Wahrscheinlichkeit für deren Vorhandensein aus. Diese Krankheitsbilder haben Namen wie Psoriasis, Basalzellkarzinom oder Rosacea, zusammen mit hunderten weiteren Krankheitsbildern. Außerdem hat jedes Krankheitsbild einen Code nach dem internationalen Standard ICD-11.

So machen Sie es nicht richtig

In der folgenden Tabelle sehen Sie eine Situation, in der die Diagnose des Arztes nicht mit der Ausgabe des Produkts übereinstimmt. Denken Sie daran, dass die ärztliche Diagnose als Goldstandard für diesen Test gilt:

Ärztliche DiagnoseAusgabe des ProduktsStimmen sie überein?
AKAktinische Keratose🤷‍♂️ 🤷‍♂️ 🤷‍♂️ 🤷‍♂️ 🤷‍♂️
EkzemDermatitis🤷‍♂️ 🤷‍♂️ 🤷‍♂️ 🤷‍♂️ 🤷‍♂️
Symptomatischer DermographismusUrtikaria (Nesselsucht)🤷‍♂️ 🤷‍♂️ 🤷‍♂️ 🤷‍♂️ 🤷‍♂️

Aufgrund dieser Diskrepanz ist es sehr schwierig, die Leistung des Produkts korrekt zu bewerten, denn es gibt keine einfache Möglichkeit, festzustellen, ob das Produkt mit den Angaben des Arztes übereinstimmt.

So machen Sie es richtig

Die Mindestvoraussetzung, damit der Test überhaupt gültig ist, besteht darin, dass die Kodierung zwischen dem Goldstandard und der Ausgabe vergleichbar sein muss. Wenn der Arzt und das Produkt unterschiedliche Bezeichnungen für dasselbe Krankheitsbild verwenden, entsteht der Eindruck, als würden sie nicht übereinstimmen, obwohl das nicht der Fall ist.

Ärztliche DiagnoseAusgabe des ProduktsStimmen sie überein?

Deshalb bietet die Vorlage die Diagnoseoptionen aus einer Dropdown-Liste an. Darüber hinaus wird der Name des Krankheitsbildes zusammen mit seiner Identität in einem internationalen Standard für Krankheitsnamen, der Internationalen Klassifikation der Krankheiten (International Classification of Diseases, ICD), aufgeführt.

3. Auswahl von Leistungsmetriken, die dem Ziel entsprechen

Hier ist ein berühmtes Zitat, das für die vorliegende Aufgabe sehr passend ist:

wenn Sie einen Fisch nach seiner Fähigkeit beurteilen, auf einen Baum zu klettern, wird er sein ganzes Leben lang glauben, dass er dumm ist

Das Produkt ist ein Werkzeug, das einem Zweck dient, und es muss an diesem Zweck gemessen werden. Der Anwendungsbereich wird durch den Verwendungszweck des Produkts definiert, hängt aber auch von der Zielsetzung ab, mit der Sie das Produkt verwenden werden.

Fragen Sie sich also: Wie wird das Produkt tatsächlich eingesetzt? Welches Problem soll damit gelöst werden? Wer wird es nutzen? Je nach den Zielsetzungen und der Art der Integration sollten verschiedene Tests durchgeführt werden, bei denen unterschiedliche Metriken gemessen werden.

Top-5 and Top-1 Genauigkeit

Wie Sie in unserem Abschnitt Zielgruppe sehen werden, handelt es sich bei der Zielgruppe des Produkts um eine Fachkraft des Gesundheitswesens, da das Produkt ein Instrument zur Unterstützung klinischer Entscheidungen ist. Aus diesem Grund ist die Top-5-Genauigkeit die gängigste Leistungskennzahl, die zusammen mit der Top-1-Genauigkeit als Maßstab verwendet wird.

Top-5-Genauigkeit ist ein Maß für die Korrektheit der Ausgabe eines maschinellen Lernmodells. Top-5-Genauigkeit wird häufig bei Bilderkennung, Objekterkennung und vielen weiteren Aufgaben verwendet.

Warum ist Top-5 so wichtig?

Eine Diagnose erstellen ist ein kognitiver Prozess, den medizinische Fachkräfte mit den ihnen zur Verfügung stehenden Informationen durchführen. Mit zunehmender Information steigt die Genauigkeit der medizinischen Fachkraft. Und das ist es, was die Forschung zeigt: Die diagnostische Genauigkeit einer medizinischen Fachkraft steigt, wenn sie die Top-5-Ergebnisse des Produkts beachtet.

Um die Top-5- und Top-1-Genauigkeit zu messen, können Sie in der Vorlage, die wir Ihnen zur Verfügung stellen, nicht nur eine, sondern die fünf wahrscheinlichsten Krankheitsbilder notieren, die das Produkt ausgibt.

Schon gewusst?

Manche Krankheitsbilder führen zu weiteren Erkrankungen. Zum Beispiel können aktinische Keratosen zu einem Plattenepithelkarzinom führen. Das heißt, wenn das Produkt eine Hautläsion mit aktinischer Keratose untersucht, ist es äußerst aufschlussreich zu sehen, wie nahe die Diagnose Plattenepithelkarzinom an der ersten Einschätzung liegt. Das ist einer der Gründe, warum die Top-5 eine bessere Messgröße ist als die Top-1: Sie spiegelt die Entwicklung von einem Krankheitsbild zum anderen wider.

Verdacht auf Bösartigkeit

Wenn Sie das Produkt verwenden, um Fälle zu priorisieren, sollte die Messgröße den Index für den Verdacht auf Bösartigkeit testen. Der Verdacht auf Bösartigkeit ist eine Zahl, die von 0 bis 100 reicht und den Grad der Wahrscheinlichkeit widerspiegelt, dass eine Erkrankung bösartig ist.

In der API enthält das Produkt ein Feld namens isMalignantSuspicion, innerhalb der Gruppe preliminaryFindings, wie unten gezeigt:

Preliminary findings
{
// ...
"preliminaryFindings": {
// ...
"isMalignantSuspicion": 62
// ...
}
// ...
}

Dieser Wert kann auch als Indikator für den Verdacht auf eine bösartige Erkrankung angegeben werden.

Um die Leistung des Produkts bei der Priorisierung von Fällen durch den Verdacht auf Bösartigkeit zu messen, kann eine Tabelle wie die folgende nützlich sein:

Der Test besteht darin, zu messen, ob der Verdachtswert auf Bösartigkeit die Prioritätensetzung des Facharztes oder sogar das Ergebnis der Biopsie widerspiegelt, falls solche Daten verfügbar sind.