Nombre total de pages vues

VIII: Comparaison des analyses et choix des modèles


Pour choisir le modèle qui correspond le mieux aux données de terrain, nous n'avons pas trouvé d'autre méthode que :
  1. d'en tester plusieurs, voir tous (ce qui ne fait finalement que 6 analyses au maximum),
  2. de comparer les résultats obtenus, en examinant certains indicateurs calculés par Distance.

Pour la 1ère étape, vous savez déjà faire : Cf. Analyse des données.

Pour le 2nde étape, c'est bien ici !

Partons du tableau central d'analyse, dans l'onglet "Analyses" (une fois qu'on a fermé la fenêtre affichant les résultats d'une analyse en particulier) :


On suppose ici que toutes les analyses possibles ont été faites, en choisissant à chaque fois une "Key function" et une "Adjustment series" différentes, en témoignent le nom des analyses ci-dessus (6 possibilités au maximum : avec l'expérience de votre domaine d'étude, vous pourrez peut-être réduire un peu ce nombre, au moins lors d'un premier jet d'analyses).

Examinons ce tableau : il nous fournit déjà - d'un seul coup d'oeil - l'essentiel de la réponse à la question du choix du modèle (mais pas tout quand même) !

A gauche de ce tableau, pour mémoire, la petite boule colorée donne une 1ère indication de l'état et de la qualité de chaque analyse (1 par ligne) :
  • gris = calculs pas encore effectués,
  • vert = calculs OK, 
  • orange = attention, qq problèmes lors des calculs,
  • rouge = erreur(s) lors des calculs, résultats à ignorer s'il y en a.
A droite de ce tableau, on trouve une synthèse des résultats de calculs effectués pour chaque analyse ; en voici les informations les plus importantes (enfin ... celle que nous savons interpréter ;-) :
  • AIC : le désormais bien connu « Akaike Information Criteria », l'indicateur global et principal de bonne correspondance entre les données de terrain et le modèle choisi (par l'utilisateur) et adapté automatiquement (par Distance, lors des « calculs ») ; plus il est petit, meilleure est cette correspondance,
  • Delta AIC : c'est la différence d'AIC entre l'analyse qui a le plus faible et l'analyse courante ; autrement dit, de toutes les analyses, celle qui a l'AIC le plus faible a un Delta AIC égal à 0 ; autrement dit encore, si on trie les analyses par Delta AIC croissant, on les trie en fait par « correspondance au données » décroissante,
  • D = « Density » : la densité (surfacique) estimée (nbre d'individus par unité de surface),
  • D LCL / D UCL = « Density Lower Confidence Level » / « Density Upper Confidence Level » : les bornes inférieure et supérieure de l'intervalle de confiance à 95 % pour la valeur estimée de densité D.
Aparte : Si vous voulez en savoir un peu plus :
  • La densité estimée est calculée de la manière suivante (c'est assez intuitif) :
    • cas « line transects » : n / (2*L*ESW)
      avec n = nombre d'individus contactés, L = longueur totale parcourue, ESW = « Effective Strip Width » = largeur « effective » de la bande de terrain parcourue (voir ci-dessous),
    • cas « point transects » : n / (k*Pi*EDR2)
      avec n = nombre d'individus contactés, k = nombre de points prospectés, EDR = « Effective Detection Radius » = rayon « effectif moyen » du cercle couvert sur chaque point inventorié (voir ci-dessous),
  • La valeur ESW / EDR est calculée automatiquement par Distance à partir de la fonction Densité de probabilité de détection du modèle choisi et adapté ; elle est donnée dans la colonne ESW / EDR.
     
    l' EDR est le rayon efficace de détection de formule EDR = W*sqrt (p)
    ou w = distance max, p= proba de détection et sqrt racine carrée

    Une enquête avec détection imparfaite et EDR égale à X couvre effectivement la même zone qu'une étude avec détection parfaite (p=100%) à une distance de X. 
     
    ex pour le pigeon ramier du "plateau de fromages" :
    n= 126 chanteurs
    k = 157x2=314 points
    p=0,26 (obtenu par la modélisation en Half-normal cosine)
    w= 500 m de distance max.

    EDR = 500 * sqrt(0,26)= 255 m soit 0,255 km.

    Avec cet EDR, on peut calculer beaucoup plus rapidement une estimation de densité à partir d'un Indice Ponctuel d'Abondance car c'est en fait un coefficient de conversion.

    Le principe de l'ESW est basé sur le même type de calculs.
  • On peut afficher d'autres colonnes dans le tableau de droite, via le menu « Analyses » / « Arrange Columns ».
Revenons au choix du modèle : la recommandation des auteurs de Distance est tout simplement de retenir le modèle qui donne le plus faible AIC (donc Delta AIC = 0).

En pratique, ce n'est pas si simple :
  • plusieurs analyses peuvent avoir le même AIC, ou des AIC très proches (mais « très proche », ça veut dire quoi ?),
  • une analyse avec un AIC non minimal peut :
    • avoir des petits problèmes de calcul (présence de « warnings »),
    • avoir des valeurs de tests de Kolmogorov-Smirnof, de Cramer von Mises, plus favorables que celle d'AIC minimal,
  • une analyse avec un AIC minimal peut donner des résultats aberrants (effectifs, densités, intervalles de confiance, ...) ou produire des courbes de « densité de probabilité de détection » ou de « probabilité cumulée de détection » aberrantes par rapport aux données de terrain : cela arrive parfois si le nombre de données est insuffisant.
Nous proposons donc la méthode de choix suivante :
- Choix de l'AIC le plus faible parmi les 3 modèles d'analyse et leurs fonctions complémentaires.
En pratique, nous programmons dans l'onglet "modèle definition series" de l'analyse les cinq tests suivants (les ajouter avec "+" dans la boîte de dialogue):
- Half- normal + cosine
- Uniform + cosine
- Uniform + simple polynomial
- Hazar rate + cosine
- Hazar rate + simple polynomial
Les autres combinaisons de fonctions et d'ajustement n'ont JAMAIS donné de résultats probants sur nos centaines d'analyses. Nous ne les employons plus, d'autant plus que 5 modèles au maximum sont programmables "en série" dans le logiciel (mais il est toujours possible de réaliser les tests modèle par modèle).

Une fois le modèle à l'AIC le plus faible détecté, il nous semble que ce modèle ne peut être retenu que si les tests statistiques associés sont le plus proche de la valeur 1:
- test du  Khi2
- tests de Kolmogorov-Smirnof, de Cramer von Mises (une puis deux valeurs qui mettent en évidence les biais importants, notamment pour les courtes distances).
- Coefficient de variation (CV % de la dernière page des analyses) < 30 % grand maximum.

Si toutes ces conditions sont réunies, alors le test est valide !

Un exemple: le troglodyte mignon en hiver dans la Réserve naturelle du Val d'Allier (03)
Cette espèce a été recensée sur 20.7 km de transects pendant l'hiver 2016-2017. Voici les valeurs numériques des différents paramètres, et le graphe du modèle à AIC le plus faible (Hazar rate Cosine) :

N km Modèle Chi2 KS CvM 1 CvM 2 CV % Min Max Estim.
80 20,70 Haz Cos 0,88 0,84 0,9-1 0,8-0,9 16,4 467 899 648




Conclusion: les tests sont tous excellents, le CV pas trop élevé, l'estimation (648 troglodytes - 467 à 899-  sur les 1450 ha de la RNNVA) est donc fiable. Seule remarque, cette espèce mériterait une troncature à droite (à 100 m par exemple) pour éviter l'étirement inconsidéré de l'histogramme.

Second exemple, le Pouillot véloce, recensé par le chant sur 157 POINTS sur un plateau auvergnat en mai-juin 2016:
Troncat. à droite Nb données après Troncat Modèle et fonction d’ajustement retenus Chi2 p= Test KS p = Test CvM Wsq p= Test CvM Csq p= Coeff. Variat.% POP. Nb d’Ind. /8000 ha Fourchette proba 95 % (nb d’ind MIN/MAX sur 8000 ha)
Densité CPLES/km² Densité/km² (min / max 95%)
300 m 78 Hazard rate 0,492 0,999 0,9-1 0,9-1 29 1348 762 à 2386
17 10 à 30


Pour cette espèce, les indicateurs sont excellents SAUF le Khi2, un peu bas, et le CV, un peu élevé.

17 commentaires:

  1. Bonjour,

    Merci pour ces explications en Français, richement illustrées. Je travaille avec la méthode de distance sampling sur des mammifères/reptiles et oiseaux dans l'océan indien et en plus des tutos déjà existants, votre blog est une vraie pépite !

    Alexandre Laubin.

    RépondreSupprimer
  2. Bonjour, j'avais une petite question sur le sujet du Distance Sampling. J'ai essayé cette technique sur des Bruants proyers et des Alouettes des champs avec la méthode des transects par points. J'ai échantillonné ma zone (53%) et les points d'écoute qui en ont suivis sont bien représentatifs de ma zone d'étude entière.

    Les données de cette technique ont également été utilisé pour effectuer des IPA. Or, la différence d'effectif des deux techniques est d'environ 80-100 individus. J'ai donc essayé de comprendre pourquoi un tel écart pouvait exister. Je me suis alors demandé : lors de l'utilisation du distance sampling, le biais des individus non observé est comblé. Or, la distance d’effarouchement n’est pas la même entre ces deux espèces (les bruants proyer étant moins farouche que les alouettes des champs). Je voulais donc savoir comment il était possible d’utiliser la technique du distance sampling sur des espèces ne possédant pas la même distance d’effarouchement et pouvoir par la suite comparer les résultats.

    Je vous remercie

    Damien MARGAS

    RépondreSupprimer
    Réponses
    1. Bonsoir,
      puis je avoir une précision: quand vous écrivez "la différence d'effectif des deux techniques est d'environ 80-100 individus", que signifie le terme "effectifs" ? S'agit-il des effectifs recensés (soit N, nb de données), ou des effectifs estimés (par DS ou une autre technique pour les IPA qui ne donnent que des chiffres relatifs ?)
      Cordialement
      F GUELIN

      Supprimer
  3. Bonjour, la différence d'individus d'environ 80-100 correspond aux effectifs obtenus par DS et IPA. Par exemple, pour les Alouettes des champs, j'obtiens un effectifs obtenu par IPA de 435 individus contre 310 par DS sur ma zone totale. Soit une différence de plus de 100 individus.

    La principale question que j'avais c'étais l'extrapolation que le logiciel Distance effectue. En effet, cette technique peut être utilisée autant sur des Pouillots véloces que des Alouettes des champs alors que le taux de détection est différent selon la discrétion de l'espèce. Or dans le logiciel Distance, les analyses sont les mêmes pour toutes les espèces. La comparaison des effectifs doit donc être remise en cause puisque la discrétion de chaque espèce n'est pas la même pour toutes et donc les résultats ne sont qu’approximatifs.

    Pour éclairer ma pensée, si nous prenons l'exemple du Bruant proyer et de l'Alouette des champs. Etant donné que le Bruant proyer est moins farouche que l'Alouette, nous sommes supposés obtenir plus d'individus recensés pour le Bruant que l'Alouette. Or, les analyses avec le logiciel prendra en compte les individus non vu pour les deux espèces. Il y aura donc des Alouettes non prises en compte puisque le taux de discrétion est différent entre ces deux espèces et qu'il y a moins d'Alouettes recensés sur le terrain car plus discrètes.

    Je vous remercie

    Damien MARGAS

    RépondreSupprimer
  4. bonjour
    Tout d'abord sur cette différence IPA/DS (435/310). Elle n'est pas normale: en effet les deux techniques sont des points d'écoute, donc, si leur durée est la même, si vous notez les mêmes choses (mâles chanteurs) çà devrait être proche. Cependant peut-être calculez vous les IPA avec la règle standard (1 chanteur = 1; 1 couple = 1; 1 autre type de contact = 0.5) ? Est ce que vos points DS font AUSSI 20 mn ?? notez vous les chanteurs uniquement en DS ??
    Concernant le coefficient de détection, il est spécifique, c'est donc tout à fait normal qu'il soit différent: par exemple pour l'alouette il avoisine 0.4 - de mémoire -(donc 40 % des chanteurs sont détectés en 15 mn d'un point DS dans le rayon de détection max de l'alouette) alors que pour une espèce discrète comme l'accenteur mouchet, il peut être de 0.1 ou 0.2 seulement. Donc pas de pb, la différence d'espèce est prise en compte, c'est tout l'intérêt du DS.
    F GUELIN

    RépondreSupprimer
    Réponses
    1. Bonjour, tout d'abord la durée des IPA et du DS est bien la même. J'effectue les IPA avec la règle standard et tous les individus sont notés (chantant et non chantant) pour les deux techniques.
      En ce qui concerné le coefficient de détection, y-a-t-il un endroit dans le logiciel où nous devons indiquer ce coefficient ou bien cela est calculé automatiquement ?

      Je vous remercie

      Damien MARGAS

      Supprimer
    2. Bonjour
      si je vous lis bien, la différence entre les deux techniques ne devrait donc pas exister, sauf GROS pb d'échantillonnage, car entre 453 et 310 individus, pour un même nb de points, de même durée, sur le même secteur, il y a un pb.
      Concernant le coeff de détection, oui, il est indiqué dans les pages de "results" des analyses : à la page "estimation summary - detection probability", c'est le paramètre p.
      Ce paramètre est calculé par le logiciel à partir de l'analyse de vos résultats (histogrammes) et de la courbe modélisée (en rouge). p sert ensuite à calculer l'estimation que vous propose le logiciel en page finale.
      Tout cela est très difficile à expliquer par mail, si vous voulez, je suis dispo aujourd'hui 11 juillet toute la journée, et voici mon téléphone : 06 73 27 12 39, pour un éventuel travail en ligne devant le logiciel ou pour simplement échanger afin d’éclaircir certains points
      Cordialement
      F GUELIN

      Supprimer
  5. Bonjour à Tous. Très enrichissant le blog. S'il vous plaît, il faut environ quel nombre d'observations pour pouvoir analyser dans le logiciel Distance?

    Cordialement.

    RépondreSupprimer
    Réponses
    1. Bonjour,
      L'expérience montre qu'une centaine de mesures de distances pour une espèce donnée permet d'avoir des résultats corrects. Je crois me rappeler que la biblio donne un minimum de 60.
      cordialement

      Supprimer
  6. Bonsoir,
    Avec un même jeu de donnée, est-ce possible d'obtenir des résultats identiques malgré les analyses différentes ?

    RépondreSupprimer
  7. Bonsoir,
    Sur un jeu de données précis, le logiciel vous permet de tester l'adéquation avec un certain nombre de modèles (Half-normal; Hazar rate; etc): ce que vous appelez des "analyses différentes". Et en général ces estimations sont donc différentes (c'est pourquoi il faut un outil de choix : c'est l'AIC). Mais , par hasard, on peut parfois obtenir des estimations très proches avec des modèles différents.

    RépondreSupprimer
  8. Bjr j'aimerais savoir si n>=30 pourrai être analysé avec distance sampling

    RépondreSupprimer
  9. Bonjour Anonyme,
    la question est sibylline, mais je suppose qu'elle a trait au nb de données minimal pour obtenir des estimations correctes ?
    Si c'est le cas, le concepteur de la méthode souligne que de bons résultats apparaissent à partir de 60 données de mesure de distance, et nos propres études montrent qu'une centaine de données de distance donnent un certain confort d’analyse.
    Cordialement
    FG

    RépondreSupprimer
  10. Bonsoir , j'aimerais avoir des pistes pour faire une post-stratification

    RépondreSupprimer
    Réponses
    1. Ah désolé, ça dépasse nos pauvres compétences ...

      Supprimer
  11. Bonsoir, pourriez vous me donner de la documentation sur l'analyse de données avec DISTANCE SAMPLING?

    RépondreSupprimer
    Réponses
    1. Eh bien, rien de plus que ce existe sur ce Blog, merci

      Supprimer

Contactez-nous :