Aller au contenu principal

Tester les performances

Pour de nombreuses raisons, la mesure des performances de notre technologie avec votre propre ensemble de données de test pourrait vous intéresser. Nous encourageons cette pratique, bien que lors de la réalisation d'un tel test, vous devez comprendre quelle est la bonne façon de tester les performances d'un modèle de vision par ordinateur et quelles sont les méthodes appropriées pour tester les performances du dispositif.

Modèle des tests

TéléchargerTitre
ModèleTest de performance de la précision Top-5 et Top-1 (aide à la décision clinique)
ModèleTest de performance de la hiérarchisation par malignité

Principes de validité

Il y a quelques principes que vous devez suivre :

  1. Les tests doivent être identiques à l'environnement réel, dans la mesure du possible
  2. La référence absolue avec laquelle vous mesurez la précision doit correspondre aux résultats générés par le dispositif
  3. La mesure de performance doit refléter les objectifs de la mise en œuvre

1. Rendre le test identique à l'environnement réel

L'utilisation du dispositif, dans l'environnement réel, consistera en des personnes, telles que des professionnels de la santé ou leurs patients prenant des images. Cela signifie que les gens utiliseront les appareils photos de leur téléphone pour capturer une image d'une lésion cutanée.

C'est pourquoi, lors du test des performances du dispositif, vous devez utiliser des images qui correspondent aux caractéristiques de celles que les professionnels de la santé et les patients prendront.

Vous devez utiliser...

✅ Des images prises directement depuis un smartphone

✅ Des images prises directement depuis un appareil photo numérique

✅ Des images prises directement depuis un dermatoscope

Vous ne devezpas utiliser...

❌ Des images qui ont été compressées ou optimisées

❌ Des images téléchargées depuis Internet

❌ Des images transmises via WhatsApp ou WeChat

Comment savoir si une image a été compressée

Regarder les dimensions de l'image est un bon moyen de comprendre si une image a été déformée artificiellement. La plupart des compressions d'images réduisent également les dimensions des images.

Dispositif✅ Taille normale de l'image❌ Taille compressée de l'image
iPhone 6 (2014)3456 x 2304 pixels346 x 204 pixels
Canon SX610 HS (2015)5 184 x 2 912 pixels640 x 360 pixels
iPhone 13 (2021)4032 x 3024 pixels403 x 302 pixels
Xiaomi 12T Pro (2022)16384 x 12288 pixels819 x 614 pixels

Comme vous pouvez le voir, même les iPhones datant de 2014 prennent des images avec des dimensions d'environ 3 000 pixels. Si une image est significativement plus petite que cela, elle peut indiquer une compression.

N'oubliez pas d'utiliser des tailles d'image normales

Vérifiez que l'image a des tailles similaires aux tailles d'image normales, avec au moins 2 000 pixels de largeur ou de hauteur, car c'est la taille d'image que les utilisateurs utiliseront dans l'environnement réel.

S'assurer que les résultats générés peuvent être adaptés

Le dispositif examine les images et génère une liste d'affections avec une probabilité qu'elles existent. Ces affections ont des noms, tels que psoriasis, carcinome basocellulaire ou rosacée, ainsi que quelques centaines d'autres affections. De plus, chaque affection a un code, selon la norme internationale CIM-11.

Comment le faire de la mauvaise façon

Dans le tableau suivant, vous verrez une situation dans laquelle le diagnostic du médecin ne correspond pas aux résultats générés par le dispositif. Gardez à l'esprit que le diagnostic du médecin agit comme une référence absolue pour ce test :

Diagnostic du médecinRésultats générés par le dispositifEst-il d'accord ?
AKKératose actinique🤷‍♂️ 🤷‍♂️ 🤷‍♂️ 🤷‍♂️ 🤷‍♂️
EczémaDermatite🤷‍♂️ 🤷‍♂️ 🤷‍♂️ 🤷‍♂️ 🤷‍♂️
Dermographisme symptomatiqueUrticaire🤷‍♂️ 🤷‍♂️ 🤷‍♂️ 🤷‍♂️ 🤷‍♂️

En raison de l'inadéquation, il est très difficile d'évaluer correctement les performances du dispositif, car il n'existe aucun moyen simple de savoir si le dispositif correspond à ce que le médecin a dit.

Comment le faire de la bonne façon

Le test minimum requis pour ne serait-ce que commencer à être valide est que la codification entre la référence absolue et les résultats générés doit pouvoir correspondre. Si le médecin et le dispositif utilisent des noms différents pour les mêmes affections, il semblera qu'il n'est pas d'accord, alors que ce n'est pas le cas.

Diagnostic du médecinRésultats générés par le dispositifEst-il d'accord ?

C'est pourquoi le modèle propose les options de diagnostic à partir d'une liste déroulante. De plus, le nom des affections est indiqué à côté de son identité dans une norme internationale des noms des affections, la classification internationale des maladies (CIM).

3. Sélectionner les mesures de performance correspondant à l'objectif

Voici une citation célèbre qui est très pertinente pour la tâche à accomplir :

si vous jugez un poisson par sa capacité à grimper à un arbre, il vivra toute sa vie en croyant qu'il est stupide

Le dispositif est un outil qui sert pour un but, et il doit être mesuré en fonction de celui-ci. Le but est défini par l'utilisation prévue du dispositif, mais cela dépend aussi du but pour lequel vous l'utiliserez.

Alors, posez-vous la question suivante : quelle est la mise en œuvre réelle du dispositif ? Quel problème résout-il ? Qui l'utilisera ? Selon l'objectif et le type d'intégration, différents tests doivent être effectués, mesurant différentes métriques.

Précision Top-5 and Top-1

Comme vous le verrez dans notre section intitulée Utilisateur prévu, l'utilisateur prévu du dispositif est un professionnel de la santé, parce que le dispositif est un outil d'aide à la décision clinique. Pour cette raison, la précision Top-5 est la mesure de performance la plus courante, utilisée avec la précision Top-1 en tant qu'ensemble.

La précision Top-5 est une mesure pour indiquer l'exactitude des résultats générés par un modèle d'apprentissage automatique. La précision Top-5 est fréquemment utilisée avec la reconnaissance d'image, la détection d'objets et bien plus encore.

Pourquoi le Top-5 est-il si important ?

Le diagnostic est un processus cognitif que les professionnels de santé réalisent avec les informations dont ils disposent. Avec plus d'informations, la précision du professionnel de santé augmente. Et c'est ce que montre la recherche : la précision diagnostique du professionnel de santé augmente lorsqu'il voit le Top 5 des résultats du dispositif.

Pour mesurer les précisions du Top-5 et du Top-1 dans le modèle que nous fournissons, vous pourrez noter non pas une, mais les cinq affections les plus probables générées par le dispositif.

Certaines affections se transforment en d'autres affections. Par exemple, les kératoses actiniques peuvent se transformer en carcinome épidermoïde. Cela signifie que si le dispositif examine une lésion de kératose actinique, il est très intéressant de voir à quel point le diagnostic de carcinome épidermoïde se rapproche de la 1 e supposition. C'est une voie dans laquelle le Top-5 est une meilleure mesure que le Top-1 : il reflète l'évolution d'une affection vers une autre. :::

Suspicion de malignité

Si vous utilisez le dispositif pour hiérarchiser les cas, la mesure que vous devez tester est l'indice de suspicion de malignité. La suspicion de malignité est un nombre qui va de 0 à 100, qui reflète la probabilité qu'une affection soit maligne.

Dans l'API, le dispositif contient un champ appelé isMalignantSuspicion, à l'intérieur du groupe preliminaryFindings, comme indiqué ci-dessous :

Preliminary findings
{
// ...
"preliminaryFindings": {
// ...
"isMalignantSuspicion": 62
// ...
}
// ...
}

Cela peut également être montré comme une jauge, reflétant la suspicion de malignité.

Afin de mesurer les performances du dispositif dans la hiérarchisation des cas par suspicion de malignité, un tableau tel que celui qui suit peut être utile :

Le test consiste à mesurer si la valeur de suspicion de malignité reflète ou non l'attribution de priorité des spécialistes, voire le résultat de la biopsie, si de telles données sont disponibles.