Tester les performances
Pour de nombreuses raisons, la mesure des performances de notre technologie avec votre propre ensemble de données de test pourrait vous intéresser. Nous encourageons cette pratique, bien que lors de la réalisation d'un tel test, vous devez comprendre quelle est la bonne façon de tester les performances d'un modèle de vision par ordinateur et quelles sont les méthodes appropriées pour tester les performances du dispositif.
Modèle des tests
Télécharger | Titre |
---|---|
Modèle | Test de performance de la précision Top-5 et Top-1 (aide à la décision clinique) |
Modèle | Test de performance de la hiérarchisation par malignité |
Principes de validité
Il y a quelques principes que vous devez suivre :
- Les tests doivent être identiques à l'environnement réel, dans la mesure du possible
- La référence absolue avec laquelle vous mesurez la précision doit correspondre aux résultats générés par le dispositif
- La mesure de performance doit refléter les objectifs de la mise en œuvre
1. Rendre le test identique à l'environnement réel
L'utilisation du dispositif, dans l'environnement réel, consistera en des personnes, telles que des professionnels de la santé ou leurs patients prenant des images. Cela signifie que les gens utiliseront les appareils photos de leur téléphone pour capturer une image d'une lésion cutanée.
C'est pourquoi, lors du test des performances du dispositif, vous devez utiliser des images qui correspondent aux caractéristiques de celles que les professionnels de la santé et les patients prendront.
Vous devez utiliser...
✅ Des images prises directement depuis un smartphone
✅ Des images prises directement depuis un appareil photo numérique
✅ Des images prises directement depuis un dermatoscope
Vous ne devezpas utiliser...
❌ Des images qui ont été compressées ou optimisées
❌ Des images téléchargées depuis Internet
❌ Des images transmises via WhatsApp ou WeChat
Comment savoir si une image a été compressée
Regarder les dimensions de l'image est un bon moyen de comprendre si une image a été déformée artificiellement. La plupart des compressions d'images réduisent également les dimensions des images.
Dispositif | ✅ Taille normale de l'image | ❌ Taille compressée de l'image |
---|---|---|
iPhone 6 (2014) | 3456 x 2304 pixels | 346 x 204 pixels |
Canon SX610 HS (2015) | 5 184 x 2 912 pixels | 640 x 360 pixels |
iPhone 13 (2021) | 4032 x 3024 pixels | 403 x 302 pixels |
Xiaomi 12T Pro (2022) | 16384 x 12288 pixels | 819 x 614 pixels |
Comme vous pouvez le voir, même les iPhones datant de 2014 prennent des images avec des dimensions d'environ 3 000 pixels. Si une image est significativement plus petite que cela, elle peut indiquer une compression.
Vérifiez que l'image a des tailles similaires aux tailles d'image normales, avec au moins 2 000 pixels de largeur ou de hauteur, car c'est la taille d'image que les utilisateurs utiliseront dans l'environnement réel.
S'assurer que les résultats générés peuvent être adaptés
Le dispositif examine les images et génère une liste d'affections avec une probabilité qu'elles existent. Ces affections ont des noms, tels que psoriasis
, carcinome basocellulaire
ou rosacée
, ainsi que quelques centaines d'autres affections. De plus, chaque affection a un code, selon la norme internationale CIM-11.
Dans le tableau suivant, vous verrez une situation dans laquelle le diagnostic du médecin ne correspond pas aux résultats générés par le dispositif. Gardez à l'esprit que le diagnostic du médecin agit comme une référence absolue pour ce test :
Diagnostic du médecin | Résultats générés par le dispositif | Est-il d'accord ? |
---|---|---|
AK | Kératose actinique | 🤷♂️ 🤷♂️ 🤷♂️ 🤷♂️ 🤷♂️ |
Eczéma | Dermatite | 🤷♂️ 🤷♂️ 🤷♂️ 🤷♂️ 🤷♂️ |
Dermographisme symptomatique | Urticaire | 🤷♂️ 🤷♂️ 🤷♂️ 🤷♂️ 🤷♂️ |
En raison de l'inadéquation, il est très difficile d'évaluer correctement les performances du dispositif, car il n'existe aucun moyen simple de savoir si le dispositif correspond à ce que le médecin a dit.
Comment le faire de la bonne façon
Le test minimum requis pour ne serait-ce que commencer à être valide est que la codification entre la référence absolue et les résultats générés doit pouvoir correspondre. Si le médecin et le dispositif utilisent des noms différents pour les mêmes affections, il semblera qu'il n'est pas d'accord, alors que ce n'est pas le cas.
Diagnostic du médecin | Résultats générés par le dispositif | Est-il d'accord ? |
---|---|---|
✅ | ||
❌ | ||
✅ |
C'est pourquoi le modèle propose les options de diagnostic à partir d'une liste déroulante. De plus, le nom des affections est indiqué à côté de son identité dans une norme internationale des noms des affections, la classification internationale des maladies (CIM).
3. Sélectionner les mesures de performance correspondant à l'objectif
Voici une citation célèbre qui est très pertinente pour la tâche à accomplir :
si vous jugez un poisson par sa capacité à grimper à un arbre, il vivra toute sa vie en croyant qu'il est stupide
Le dispositif est un outil qui sert pour un but, et il doit être mesuré en fonction de celui-ci. Le but est défini par l'utilisation prévue du dispositif, mais cela dépend aussi du but pour lequel vous l'utiliserez.
Alors, posez-vous la question suivante : quelle est la mise en œuvre réelle du dispositif ? Quel problème résout-il ? Qui l'utilisera ? Selon l'objectif et le type d'intégration, différents tests doivent être effectués, mesurant différentes métriques.
Précision Top-5
and Top-1
Comme vous le verrez dans notre section intitulée Utilisateur prévu, l'utilisateur prévu du dispositif est un professionnel de la santé, parce que le dispositif est un outil d'aide à la décision clinique. Pour cette raison, la précision Top-5
est la mesure de performance la plus courante, utilisée avec la précision Top-1
en tant qu'ensemble.
La précision Top-5
est une mesure pour indiquer l'exactitude des résultats générés par un modèle d'apprentissage automatique. La précision Top-5
est fréquemment utilisée avec la reconnaissance d'image, la détection d'objets et bien plus encore.
Top-5
est-il si important ?Le diagnostic est un processus cognitif que les professionnels de santé réalisent avec les informations dont ils disposent. Avec plus d'informations, la précision du professionnel de santé augmente. Et c'est ce que montre la recherche : la précision diagnostique du professionnel de santé augmente lorsqu'il voit le Top 5
des résultats du dispositif.
Pour mesurer les précisions du Top-5
et du Top-1
dans le modèle que nous fournissons, vous pourrez noter non pas une, mais les cinq affections les plus probables générées par le dispositif.
Certaines affections se transforment en d'autres affections. Par exemple, les kératoses actiniques
peuvent se transformer en carcinome épidermoïde
. Cela signifie que si le dispositif examine une lésion de kératose actinique, il est très intéressant de voir à quel point le diagnostic de carcinome épidermoïde se rapproche de la 1 e supposition. C'est une voie dans laquelle le Top-5
est une meilleure mesure que le Top-1
: il reflète l'évolution d'une affection vers une autre.
:::
Suspicion de malignité
Si vous utilisez le dispositif pour hiérarchiser les cas, la mesure que vous devez tester est l'indice de suspicion de malignité. La suspicion de malignité est un nombre qui va de 0 à 100, qui reflète la probabilité qu'une affection soit maligne.
Dans l'API, le dispositif contient un champ appelé isMalignantSuspicion
, à l'intérieur du groupe preliminaryFindings
, comme indiqué ci-dessous :
{
// ...
"preliminaryFindings": {
// ...
"isMalignantSuspicion": 62
// ...
}
// ...
}
Cela peut également être montré comme une jauge, reflétant la suspicion de malignité.
Afin de mesurer les performances du dispositif dans la hiérarchisation des cas par suspicion de malignité, un tableau tel que celui qui suit peut être utile :
Le test consiste à mesurer si la valeur de suspicion de malignité reflète ou non l'attribution de priorité des spécialistes, voire le résultat de la biopsie, si de telles données sont disponibles.