Nombre total de pages vues

VI: Analyse des données


Maintenant que les données collectées sur le terrain ont été importées dans Distance 6.2, nous pouvons effectuer des analyses « Distance Sampling » .

Rappelez-vous, les données importées sont consultables dans l'onglet « Data » :



Et les analyses sont accessibles dans l'onglet ... « Analyses ».







Le logiciel Distance en a créée une par défaut pour nous : « New analysis » ; la petite boule grise à droite indique qu'elle n'a pas encore été lancée : c'est qu'il va falloir la paramétrer d'abord, mais dans notre cas, c'est assez simple, tout ou presque est déjà configuré.

Pour cela, double-cliquez sur la petite boule grise, ou encore cliquez-droit sur la ligne « New Analysis » et choisissez l'action « Analysis Details ... »


La fenêtre principale d'analyse apparaît :





















Notez d'abord les 3 onglets à droite :
  • « Inputs » : ce qui nous intéresse dans l'immédiat, c'est à dire les paramètres d'analyse,
  • « Log » : lorsque l'analyse aura tourné, des informations techniques sur le déroulement de l'analyse,
  • « Results » : vous avez deviné ... mais patience !
Parcourons rapidement le panneau « Inputs », de haut en bas et de gauche à droite:
  • « Name » : pour donner un nom à l'analyse courante, cela sera utile pour se rappeler plus tard de ce qui la différencie des autres analyses que nous ferons sur les mêmes données de terrain,
  • à droite, le bouton « Run » que nous actionnerons pour lancer les calculs quand tous les paramètres seront prêts,
  • « Survey » : inutile dans notre cas « basique », à laisser tel quel,
  • « Data filter » : on peut effectuer une analyse sur une partie seulement des données, par « filtrage » justement ; mais ici, nous utiliserons le filtre par défaut « Default Data Filter », qui ne filtre rien et donc conserve la totalité des données importées pour effectuer l'analyse (exemple d'utilisation : créer un filtre qui exclut les oiseaux non chanteurs du relevé, en supposant qu'il y ait une colonne « Chanteur ou pas » dans les données importées) ; le bouton « Properties » à droite permet de modifier les propriétés d'un filtre, et le bouton « New » permet de créer un nouveau filtre
  • « Model definition » : c'est ici que nous allons choisir et paramétrer le « modèle d'analyse » ; il en existe un par défaut « Default Model Definition », qui nous suffira ici, mais sachez que l'on peut en créer d'autres, pour pouvoir les réutiliser dans d'autres analyses par exemple ; le bouton « New » à droite permet ainsi de créer un nouveau modèle, tandis que le bouton « Properties » permet de choisir et paramétrer du modèle sélectionné.
Paramétrons donc le modèle par défaut « Default Model Definition », via le bouton « Properties », qui permet d'ouvrir le panneau suivant (pas de panique : nous allons pour l'essentiel utiliser les réglages par défaut) :

Pas de panique : nous allons pour l'essentiel utiliser les réglages par défaut !

a) « Analysis Engine » (tout en haut) : c'est le moteur d'analyse par défaut qui nous convient ici : « CDS – Conventional distance sampling »

Pourquoi ? C'est celui qui est utilisé dans la plupart des études ornithologiques : historiquement le 1er décrit par Buckland & al (1992, 2001), il est robuste et éprouvé, couvre les besoins de base du Distance Sampling, et ne nécessite pas de compétences démesurées en statistiques pour son paramétrage et l'interprétation de ses résultats ;-)

Nous n'avons à ce jour pas étudié les autres moteurs, mais ce n'est peut-être que partie remise :
  • le moteur « Multiple Covariate Distance Sampling (MCDS) » permet en théorie d'introduire des variables secondaires (la distance est la principale) pour adapter l'échelle (pas la forme) de la courbe de détection aux données de terrain (chose que le moteur standard CDS ne permet pas, et que pourtant nous avons été tentés de faire pour certaines espèces farouches en Auvergne)
  • le moteur « Density Surface Modelling (DSM) » nous sera peut-être utile (ou pas) pour étudier les variations de densités selon les milieux ?

b) Onglet « Estimate » (voir ci-dessus) : ne rien modifier, nous ne faisons pas ici de stratification (analyses parallèles par milieux naturels, par exemple)

c) Onglet « Detection function » :



C'est ici que se joue l'essentiel lors d'une analyse : le choix du modèle de la fonction « probabilité de détection ».
Ce modèle est caractérisé par 2 éléments (qui sont grossièrement sommés pour obtenir un ajustement aussi proche que possible du modèle aux données de terrain) :
  • la « Key function » : qui donne la forme globale de la fonction de détection ; au choix, « Uniform », « Half-normal » et « Hazard-rate » (l'utilisation de la 4ème, « Negative exponential », n'est pas recommandée par Buckland)
    Key function
    Formule
    Uniform 1 / w
    Half-normal exp( − y2 / 2σ2 )
    Hazard rate 1 − exp ( − y / σ )
    Negative exponential exp ( − ay )
    Avec : y= distance, w = distance tronquée (?), σ, a et b = des paramètres du modèle.
  • la « Series expansion » : qui permet d'ajuster finement la forme de la fonction de détection aux données de terrain en ajoutant des « oscillations » à la « key function » (pour tenir compte des « aléas » du relevé de terrain) ; au choix, « Cosine », « Simple polynomial » and « Hermite polynomial »
    (nous vous épargnerons les formules, ce que vous évoque leur nom vous suffit amplement).

Dans les études ornithologiques, la « Key function » « Half-normal » est celle qui donne la plupart du temps les meilleurs résultats ; parfois, la « Hazard-rate », de forme similaire, mais avec une épaule plus « large » correspond mieux aux données à courte distance. Le choix de la « Series expansion » n'a qu'une importance secondaire : « Cosine » donne généralement de bons résultats, mais on peut essayer les 2 autres si ce n'est pas le cas.

d) Onglet « Clustering » : inutile de modifier quoi que ce soit, nous ne faisons pas ici de « clustering »


e) Onglet « Multipliers » :
  • si l'étude de terrain a impliqué plusieurs passages sur chaque point ou transect, on a demandé la création d'un « Generic multiplier » lors de la création du projet d'analyse (Cf. « V: Import du fichier dans Distance 6.2 », « Step 5 ») ; c'est ici qu'on ajoute ce « multiplier », en spécifiant la colonne contenant sa valeur dans l'onglet « Data » et l'opérateur à utiliser (opérateur « / » = division dans le cas de plusieurs passages, puisqu'il faut diviser les estimations d'effectifs par ce nombre à la fin)
  • sinon, ne rien changer ici




f) Onglet « Variance » : ne rien modifier, nous utiliserons la méthode d'estimation de variance par défaut,

g) Onglet « Misc. » : ne rien modifier, nous utiliserons un intervalle de confiance à 95 % et n'avons pas besoin des fichiers de résultats détaillés de l'analyse.

Pour valider les choix, cliquer sur OK : on revient à la fenêtre principale d'analyse

Reste à donner un nom significatif à notre analyse : par exemple « Demi-normale cosinus », pour signaler le modèle de fonction de détection utilisé (mais c'est à vous de voir, tout dépend de ce que vous voulez analyser, comparer, documenter par la suite). Pour cela, renseignez le champ « Name » tout en haut.

On peut enfin lancer l'analyse, via le bouton « Run » en haut à droite.

Selon la quantité de données à traiter, les calculs peuvent durer quelques secondes, et à la fin,
  • Distance affiche le contenu de l'onglet « Log »,
  • l'onglet « Results » est maintenant accessible.



Allons voir ces résultats ...

... dans le chapitre suivant ...



4 commentaires:

  1. Salut monsieur.
    J’aimerais savoir comment ouvrir un fichier shapefile avec distance sampling ?
    Merci

    RépondreSupprimer
  2. Bonjour Anonyme,
    désolé, cela sort de nos compétences bénévoles.

    RépondreSupprimer
  3. Bonjour,
    Votre site m'est très utile merci !
    Je ne comprend toutefois pas le point e) pour l'onglet « Multipliers ». Lorsque l'on a plusieurs passages sur chaque transect il faut intégrer une colonne à notre tableur txt d'import contenant le nombre de passage effectué pour chaque transect ? Si oui où est-ce que l'on spécifie le nom de la colonne qui contient ces informations ?

    RépondreSupprimer
    Réponses
    1. bonjour, je pense qu'il y a deux manières de spécifier le nb de passages : soit en ajoutant une colonne "Survey effort", qui permet de saisir des valeurs DIFFERENTES de nb de passages pour chaque transect (3 fois, ou 2 fois, etc), ou bien, si tous les transects ont été faits le même nombre de fois, de cocher la case "multipliers" qui ouvre un champ NOUVEAU dans le tableau de données : il faudra compléter ce champ avec le nb de passages (par ex : 2) et spécifier à l'analyse qu'il faut DIVISER par 2 (/)

      Supprimer

Contactez-nous :