Distance Sampling: VII: Interprétation des résultats d'une analyse

Une 1ère information est à considérer : la couleur de l'onglet « Log » :

si c'est l'orange ou le rouge, c'est que le moteur de calcul a rencontré certains problèmes, qui sont listés dans le panneau du bas :

les "warnings" (avertissements) signalent des problèmes non bloquants, mais qui risquent de compromettre la qualité des résultats (difficultés à faire correspondre modèle de courbe de détection et données, indicateurs statistiques divers dépassant un seuil raisonnable, ...),
les "errors" (erreur) indiquent un dysfonctionnement du moteur de calcul ; s'il y a quand même des résultats d'analyse, il ne faut pas en tenir compte.

sinon, c'est que tout s'est bien passé ; l'onglet « Results » est alors coloré en vert.

Le reste de l'onglet « Log » est plutôt technique, passons au principal : les résultats, via l'onglet « Results ».

Cet onglet se présente sous la forme :

de plusieurs pages, accessibles chacune via la liste déroulante tout en haut, ou l'une après l'autre via les boutons « Next » et « Back »,
d'un panneau de commentaires (tout en bas), dans lequel on peut noter ce qui mérite d'être retenu pour cette analyse (dans le cas où l'on mène plusieurs analyses, cela peut permettre de se rappeler de ce qui la différentie des autres par exemple).

Parcourons ces pages une à une, en ne retenant que le principal :

Estimation options listing : rappel des détails de toutes les options et paramètres que vous avez choisis pour cette analyse
Detection Fct : . Plusieurs pages sur la fonction de détection, groupées par « Data set » ou par « strate » s'il y en a plusieurs (sinon, 1 seul groupe nommé « Global » : c'est notre cas ici) :

Model fitting : détails sur le processus (automatique) de calcul du modèle correspondant le mieux aux données ; en dehors du modèle retenu à la fin (bien sûr), LA donnée importante ici est « l'Akaike Information Criterion » (AIC) associé au modèle, une valeur qui mesure la perte d'information entre les données de terrain (réelles) et le modèle théorique, ainsi que la complexité du modèle ; plus elle est petite, meilleure est l'adéquation : perte d'information plus faible et modèle plus simple (on verra plus tard que c'est un critère important pour comparer plusieurs analyses et choisir le meilleur modèle)
Parameter estimates : détail des valeurs obtenues pour les paramètres du modèle retenu (avec infos de corrélation) ; pas très utile pour nous
Plot: Qq-plot : Diagramme « Quantile - Quantile » représentant la « fitted cumulative distribution function (cdf) » (le modèle obtenu) en fonction de la « empirical distribution function (edf) » (les données de terrain) : pour simplifier, le modèle obtenu est correct si la courbe en rouge reste proche de la droite théorique en bleu ; avec ce diagramme, on voit d'un seul coup d'oeil si le modèle calculé par Distance est à peu près conforme au données de terrain ou non (dans l'exemple ci-dessous, c'est pas génial !)

K-S GOF Test : Résultat des tests statistiques de Kolmogorov-Smirnov et Cramer-von Mises qui mesurent eux aussi (d'une manière différente) l'adéquation du modèle obtenu aux donnée de terrain (la « Goodness Of Fit ») ; plus les valeurs « p » sont grandes (et donc proches de la valeur maximale 1), meilleure est l'adéquation ;
pour aller plus loin, le test de Kolmogorov-Smirnov (basé sur les différences maximales) est sensible aux données aberrantes ou extrêmes, au contraire des tests de Cramer-von Mises (basés sur la somme des différences).
viennent ensuite des « paquets » de 2 ou 3 pages, selon que l'on a procédé sur le terrain via des « line transects » ou des « point transects » ; chacun de ces paquets correspond à un essai automatique (du logiciel) de discrétisation des distances relevées sur le terrain, c'est à dire de regroupement par tranches de distances de même largeur ; l'essai retenu par Distance 6.2 semble être celui qui donne la plus grande valeur pour le test statistique du « Khi²» :
- Plot: Detection probability : Diagramme superposant la fonction de probabilité (cumulée) de détection théorique (« Detection probalibility ») modélisée pour cet essai, en rouge, et l'histogramme cumulé construit à partir des données réelles, en bleu. Par exemple :

N.B. La fonction de probabilité (cumulée) de détection théorique (en rouge) mesure une probabilité, donc elle reste toujours cantonnée à l'intervalle [0, 1]. Mais les histogrammes peuvent dépasser la valeur 1 car ils sont « mis à l'échelle » de manière à être comparables à la fonction théorique. Ceci n'est pas clair pour nous : on pourrait penser que cette mise à l'échelle vise à faire que la somme des surfaces des rectangles de l'histogramme égale la surface sous la courbe théorique, mais cette explication n'est pas suffisante, notamment dans le cas des modèles « Hazard Rate » de fonctions de détection.

N.B. Plus important : souvent, en mode « point transect », la fonction théorique ne correspond pas bien aux données réelles à faible distance ; d'après Buckland & al, Chapitre 5 (1993) , ceci est intrinsèque au « point transect », pour lequel les tranches de distances de largeurs égales impliquent des surfaces couvertes par tranche en croissance forte lorsqu'on s'éloigne de la distance zéro, et en particulier une surface couverte à distance faible très petite : peu de données et petite surface impliquent mathématiquement que le modèle théorique ne soit que peut influencé par les faibles distance (par ailleurs, ce phénomène peut être amplifié par le biais ornithologique fréquent qui fait que de nombreuses espèces se cachent ou se taisent à faible distance de l'observateur, et donc passent inaperçues) ; il est conseillé dans ce cas de plutôt se baser sur la densité de probabilité (voir ci-dessous)

N.B. Important aussi, lorsque la courbe théorique ne correspond pas bien aux données de terrains pour certaines tranches de distance, c'est qu'il y a peut-être un vrai biais à considérer (présence de haies, routes ou lignes électriques, ... qui fait que certaines distances sont privilégiées), à moins que le nombre de données ne permette pas d'atteindre la représentativité statistique ?

Plot: Pdf (uniquement pour les « point transects ») : Diagramme superposant la fonction densité de probabilité de détection théorique (« Probalibility Density Function (PDF) ») modélisée pour cet essai, en rouge, et l'histogramme simple construit à partir des données réelles, en bleu. C'est une représentation alternative à la précédente (proche de sa dérivée 1ère au sens mathématique) qui permet de comparer plus intuitivement et plus directement le modèle théorique et les données de terrain, puisque cette fois il n'y a pas de mise à l'échelle +/- « artificielle » de l'histogramme par rapport à la courbe, et puisque, par définition, la probabilité théorique qu'une observation soit faite dans un intervalle de distance donné est égale à la surface sous la courbe rouge dans cet intervalle.

Par exemple :

Chi-sq GOF test : Cette page assez technique complète les 2 diagrammes précédents par des détails numériques sur les valeurs obtenues pour le test du « Khi²», qui permet lui aussi de mesurer la qualité du modèle théorique et de la discrétisation des distances de l'essai ... par rapport aux données réelles (plus la valeur est grande, meilleur est le modèle).

Cluster size : Un ensemble de pages absent lorsqu'on ne fait pas de « Clustering », ce qui est notre cas ici.
Density estimates : C'est l'aboutissement de l'analyse, puisque pour chaque strate choisie (ou 1 strate fictive nommée « Global » si on ne fait pas de stratification), une page donne la synthèse de l'estimation effectuée à partir du modèle théorique calculé ; pour D, la Densité surfacique, et N, le Nombre total d'individus sur la surface paramétrée lors de l'import des données, le plus important, c'est :

« Point Estimate » : la valeur estimée, bien sûr,
« 95 % Percent Confidence Interval » : l'intervalle de confiance à 95 %, qui est un indicateur presque aussi important que la valeur estimée (à publier avec, donc) de la précision de l'estimation statistique effectuée sur l'échantillon de nos données de terrain (par définition, il y a 95 % de chances d'obtenir une estimation dans cet intervalle si on refaisait l'enquête)

Par exemple :

Estimation summary : En complément de la synthèse, plusieurs pages qui donnent des détails sur les résultats de l'analyse, et des estimations de variances et d'intervalles de confiance ; en dehors de « Density & Abundance » qui donne les mêmes informations que la page « Density estimates », nous ne savons pas comment exploiter les autres pages (« Encounter rates », « Detection probability », et « Expected cluster size », qui n'est présente que si on a fait du « clustering »).
Bootstrap summary : Comme pour « Cluster size », un ensemble de pages absent si on ne fait pas de « variance bootstrapping », ce qui est notre cas ici.

Voila, c'est tout.

Pour revenir au tableau listant toutes les analyses déjà effectuées sur notre jeu de données, il suffit de fermer l'analyse actuelle :

en cliquant sur la petite croix en haut à droite de la fenêtre de Distance (pas la rouge, qui fermerait Distance, mais juste en dessous)
en activant l'action « Close » du menu « Analysis - Log ».

Car une grande question subsiste : parmi les modèles de "Key Functions" disponibles, le ou lesquels choisir ?

Distance Sampling

Nombre total de pages vues

VII: Interprétation des résultats d'une analyse

Quelques pistes ...

... dans le chapitre suivant ...

Aucun commentaire:

Enregistrer un commentaire