Remercions d'abord les deux équipes, 18 personnes au total !
L’équipe "Papyrus" (DS sur plan papier) : Thibaut BRUGEROLLE, Jean François CARRIAS, Anne CITRON, Alex CLAMENS, Jean-Pierre DULPHY, Camille FASOLIN, François GUELIN, Sylvain SAINNIER, Gilles SAULAS.
L’équipe "Smartphone": Cyril BRUNEL, Matthieu CLEMENT, Cyrille JALLAGEAS, Jean-Philippe MEURET, Patrick MOUGEL, Romain RIOLS, Clément ROLLANT, Hugo SAMAIN, Pierre TOURRET.
Rappel: les protocoles 2019 sont disponibles ICI.
-
Sommaire
I. Bilans préliminaires
1. Protocole 1 : DS sur plans papier
2. Protocole 2 : DS sur smartphone
3. Protocole 3 : IPA historiques
II. Tous les détails pour le DS
1. Comparaison des 2 protocoles DS et des durées 5 / 10mn
2. Détail des analyses effectuées
3. Perspectives 2020
-
I. Bilans préliminaires
1. Protocole 1 : Distance Sampling sur plans papier
Le protocole a été réalisé complètement avec 104
points effectués 2 fois = 208 points au total. L'analyse
préliminaire des résultats permet d'obtenir des estimations de densité
pour 28 espèces : tableau ci-dessous. Et les commentaires après ...
Dans ce tableau (téléchargeable ici), la colonne 1 donne l'espèce en code, le nombre de points (périodes A et B cumulées ou seulement B pour les espèces les plus tardives), la durée du point (5 ou 10 mn), le nombre de données N, le modèle retenu, avec test du Chi2 et Coefficient de variation de la densité, et ENFIN l'estimation de densité , suivie des mini-maxi à 95% de signification.
Concernant
la comparaison entre les durées de 5 et 10 mn, nous constatons que pour
24 espèces sur 28, l'estimation avec une durée de 10 mn est supérieure (la moyenne des différences est de 28 %).
La différence est visible même pour les espèces à forte densité (qui sont aussi celles qui apportent le plus de données : entre 200 et 400 données)
A cela, deux explications possibles:
-
soit le nombre de données est encore assez faible, et la méthode du DS
minimise les densités en cas de faible nombre de données. Peut-être,
mais pour certaines espèces bien notées (ex: la Fauvette grisette
SYLCOM, le Merle TURMER ...) cette différence est significative.
-
soit la durée influence le résultat des estimations ! En effet, si nous
prenons pour exemple une population de 100 rossignols, si nous
contactons 25 rossignols sur 5 mn, et 50 sur 10 mn, au final,
l'estimation DS DEVRAIT être la même car la probabilité de détection
devrait passer de 0.25 sur 5 mn à 0.50 sur 10 mn. Mais cette
probabilité p n'évolue pas comme cela dans nos résultats. La possibilité
de doubles comptages existe, mais nous avons donné des consignes de
grande prudence à ce sujet, et elle nous semble mineure.
2. Protocole 2 : Distance Sampling avec Smartphone.
Pour
cette partie, nous nous sommes heurtés à l'impossibilité d'obtenir les
informations numériques concernant l'emplacement des observateurs auprès
de Biolovision ... Nous avons donc travaillé en demandant aux
observateurs de nous fournir eux mêmes le site exact où les points
avaient été effectués.
Nonobstant ces petites contrariétés, les résultats portent sur 94 points (période B) ou 190 points (période A+B). Ces points sont les mêmes que le protocole 1.
Voici le tableau de résultats bruts (téléchargeable ici), les commentaires en dessous :
Comme
pour la partie "Papyrus", on observe des écarts quasi-systématiques
entre la durée de 5 mn et celle de 10 mn (encore plus importants mêmes !!)
... cela pose question.
La comparaison des résultats obtenus par les deux modes de saisie sur le terrain (avec papyrus ou avec smartphone) montre cependant une différence plutôt mineure de moins de 10 % globalement (mais c'est quand même assez différent pour certaines espèces).
3. Protocole 3 : Les points d'écoute de 1991 refaits en 2019
Sur ce secteur (zone rouge), Jean-Pierre Dulphy effectue depuis 1991 des comptages semi-quantitatifs par points, avec une méthodologie qu'il a individualisée. Il a refait ces points avec la même méthode que par le passé, et à partir de ses indices relatifs, et des données de densité estimées par les points DS, nous pouvons remonter le temps pour "retrouver" les densités des années 90, grâce à des coefficients de conversion.
Voici le tableau des résultats de cette partie III, téléchargeable ici :
* les estimations de densités trouvées en 2019 par DS sont dans les colonnes avec en-tête en vert (colonnes 7-8-9),
* lLes valeurs des IPA de JP Dulphy en 1991-1992 sont dans la colonne 2, celle de 2019 sont dans la colonne 3,
* avec un simple coefficient de conversion (voir les 3 dernières colonnes), on peut donc proposer une fourchette de densités pour les années 1991-1992 : c'est dans les colonnes 6-7-8, surlignées en jaune.
II. Tous les détails pour le DS
Si vous voulez aller plus loin, voici des détails sur ce que nous avons fait, où nous en sommes de nos réflexions, et des liens pour télécharger toutes les données si vous voulez y regarder de plus près et expérimenter vous-même.
1. Comparaison des 2 protocoles et des durées 5 / 10mn
Le tableau de synthèse est téléchargeable ici.
2. Méthode utilisée pour les analyses DS
a. Analyses de type Conventional Distance Sampling (CDS) (pas de covariables)
- protocole "Plans papier" via logiciel Distance 7.3 à la main,
- protocole "Naturalist" via MCDS 6.2.0 (le moteur de calcul sous-jacent à Distance 7.3), appelé automatiquement "en masse" via code Python maison (module "autods" en cours de développement, destiné à publication Open Source).
b. échantillons analysés
- données des 2 protocoles Plans Papier et Naturalist séparément
- liste d'espèces considérées : celles pour lesquelles on a contacté au moins 20 mâles en 10mn pour les 2 protocoles, en ajoutant Oriolus oriolus et en éliminant Passer domesticus mal inventoriées de cet manière, soit 28 espèces : Alauda arvensis, Anthus trivialis, Carduelis cannabina, Carduelis chloris, Columba palumbus, Cuculus canorus, Emberiza cirlus, Emberiza citrinella, Erithacus rubecula, Fringilla coelebs, Jynx torquilla, Lanius collurio, Lullula arborea, Luscinia megarhynchos, Emberiza calandra, Oriolus oriolus, Cyanistes caeruleus, Parus major, Phylloscopus collybita, Prunella modularis, Saxicola rubicola, Streptopelia turtur, Sylvia atricapilla, Sylvia communis, Turdus merula, Turdus philomelos, Turdus viscivorus, Upupa epops
- périodes considérées :
. les 2 passages cumulés pour la plupart des espèces,
. sauf pour LanCol, StrTur et OriOri plus tardives : seulement le 2nd passage (après 15 mai),
- uniquement les mâles (chanteurs, ou visuellement identifiés comme tels),
- contacts des 5 premières minutes, et tous les contacts (0-10mn), séparément (pour comparer).
c. cas des données "plans papier" (alias "Papier" ou "Papyrus")
- données de terrain (+ mesures distances sur papier) traitées et formatées pour import dans Distance via code Python maison
- analyses effectuées à la main via Distance 7.3 : pour chaque échantillon indépendamment,
. d'abord, analyses sans troncature avec 5 modèles x séries d'ajustement (Half-Normal Cosine, Unifiform Cosine & Polynomial, Hazard-Rate Cosine & Polynomial)
. améliorations "manuelles" si nécessaire avec troncatures (quelques cas), et plus rarement avec des tranches de distances imposées (une fois).
d. cas des données "Naturalist" (alias "smartphone")
- données des formulaires exportées de faune-auvergne.org traitées et formatées pour analyses DS via code Python maison,
- distances calculées après récupération auprès des observateurs des géoloc réelles (de mémoire) des points effectués sur le terrain à chaque passage (distance = géoloc. observateur - géoloc. oiseau) ; biais probable, notre mémoire n'étant pas toujours précise, mais a priori négligeable (les 32 formulaires où la trace avait été enregistrée montrent quelques erreurs manifestes : décalage de 50m pour 1 seul point, 7 autres entre 10 et 20m, les autres sous 10m),
- analyses DS automatisées via code Python maison : pour chaque échantillon indépendamment,
1. pré-analyses Half-Normal Cosine sans troncature, pour voir la distribution des distances brutes (histogramme) et l'allure des courbes fittées de Probabilité de détection et de Densité de Probabilité de Détection
=> pour vérifier rapidement, à l'oeil et au fitting, que les données sont correctement exploitables en DS,
2. recherche des meilleures troncature gauche et droite, et du meilleurs nbre de tranches de distance de fitting (les 3 "paramètres" recherchés) pour chacune des 6 combinaisons suivantes de modèles (Half-Normal, Uniform, Hazard-Rate) et séries d'ajustement (Cosine, Polynomial), par 2 méthodes :
a. simple combinatoire (division uniforme en 4 tranches des intervalles de troncature gauche et droite, (avec les limites suivantes : à droite = max(méthode de Tuckey, quantile à 95%) ; à gauche, quantile à 2.5%), et nbre de tranches parmi [2/3, 5/6, 1, 5/4, 3/2] * racineCarée(nbDonnées échantillon avant troncature)
=> on retient pour chaque modèle x série les paramètres donnant le meilleur Chi2,
b. via un optimiseur non "dérivatif" (module Python "zoopt") des même paramètres, dans les mêmes limites, sur Chi2 (critère à maximiser) (pas sur l'AIC, puisqu'il dépend un peu du nbre de contacts pris en compte, qui varie avec les troncatures)
NB: peu efficace, car nbres d'itérations énormes, mais résultats probablement meilleurs qu'à la main, sur un nombre bien plus réduit d'essais possible, forcément
=> on retient pour chaque modèle x série les paramètres donnant le meilleur Chi2
3. exécution automatisées des analyses selon 18 (au plus) jeux de paramètres :
- systématiquement les 6 combinaisons de modèles (Half-Normal, Uniform, Hazard-Rate) et séries d'ajustement (Cosine, Polynomial)
- d'abord sans troncature => 6 analyses au plus (certaines n'aboutissent pas pour certains modèles / séries),
- ensuite avec les 3 paramètres trouvés précédemment en 2 (troncatures à gauche, à droite et nb de tranches de distance pour fitting) par test combinatoire => 6 analyses
- ensuite avec les 3 paramètres trouvés précédemment en 2 (troncatures à gauche, à droite et nb de tranches de distance pour fitting) par optimisation => 6 analyses
NB: Nous avons bien conscience que cette automatisation n'est pas du meilleur goût en matière de rigueur d'analyse Distance Sampling, et qu'il vaudrait mieux procéder à la main plus soigneusement (comme pour les données Plans papier), ... mais faute de temps, avec cette masse de donnée et de calculs à faire ... c'est un bon début !
e. critère de sélection des résultats des analyses
. meilleur AIC (le plus faible)
. à AIC équivalents, on garde l'analyse avec le meilleur Khi2, en veillant à ce que CV < 30%
2. Données et paramètres des analyses effectuées
a. Analyses des données "sur plans papier"
Les projets Distance 7.3 et fichiers d'échantillons ayant servi en entrée pour chacun sont téléchargeables ici.
b. Analyses des données Naturalist
- mode d'emploi des rapports ci-dessous,
- rapports de pre-analyse (1 par échantillon),
- rapports d'analyses (la totale : 16-18 analyses par échantillon).
NB: Les fichiers d'échantillons sont dans le sous-dossier associé à chaque analyse (data.txt)
c. Données brutes de terrain
(avec distances observateur - oiseau)
- Papier : ACDC2019-Papyrus-DonneesIndivAvecDist.xlsx
- Naturalist : ACDC2019-Naturalist-ObsBrutesAdAvecMinuteDist.xlsx
3. Perspectives 2020
* nous avions l'intention de faire de nouveaux inventaires sur le même secteur pour continuer les comparaisons et estimations de populations (en particulier en rapprochant le protocole Naturalist des EPOC MNHN) ... certaines circonstances nous en ont empêché... mais ce n'est que partie remise à 2021 : tout est prêt sur cette page.
* nous allons refaire l'intégralité des analyses DS "Plans papier" et "Naturalist" en automatique, en utilisant cette fois :
- les mêmes stratégies de calcul pour les 2 protocoles,
- dont une partie en paramètres DS fixes (modèle, série ajustement, troncatures) afin de pouvoir comparer plus "facilement", avec moins de "biais méthodologiques".