Les modèles en Cartographie des Sols par Modélisation Statistique

Les modèles CSMS

Les modèles en Cartographie des Sols par Modélisation Statistique

Où trouver les modèles ? 

L'essentiel des modèles utilisées en cartographie des sols à base de modélisation statistique peuvent être trouver sur le logiciel R. Grace à la grande communauté présente, les packages qui se composent d'algorithmes, ont l'avantage d'être en accès libre. 

Quel modèle doit-on utiliser ? 

Pour construire les fonctions numériques prédisant les propriétés ou classe de sol, la CSMS utilise une grande variété de modèles, empruntés essentiellement aux disciplines de géostatistiques et d'apprentissage automatique ("Machine learning"). Nous présentons ci-après un exemple de modèle de CSMS appelé "forêt aléatoire" ("Random Forest") qui est actuellement, le modèle CSMS le plus populaire dans la communauté des chercheurs et praticiens en CSMS. Le modèle "forêts aléatoires" a été montré comme l'un des plus efficaces pour construire des fonctions de prédictions précises.  En outre, il peut aussi bien spatialiser des propriétés qualitatives (classification) que quantitatives (régression). Enfin, ce modèle est également capable de fournir une estimation de sa propre erreur ce qui est indispensable pour interpréter les prédictions de sol réalisées.

Le modèle "forêt aléatoire" est constitué par un ensemble de modèles élémentaires appelés arbre de classification ou arbre de régression. Ces arbres divisent l'ensemble de départ par des dichotomies successives dont le but est de créer des sous ensembles les plus "purs" possibles vis à vis de la propriété de sol à prédire. Dans l'exemple ci-dessous, la première dichotomie, définie par un seuil de 50 m sur la covariance "altitude", a été trouvée par l'algorithme comme s'approchant le plus du but final parmi toutes les dichotomies possibles compte tenu des covariables disponibles.

models
© Quentin Styc, INRAE

 

Cette procédure de sélection de covariable et de seuil est ensuite répétée de manière itérative sur les sous ensembles de sites créés, permettant in fine d'associer à une combinaison de critères sur les covariables de sol (les branches de l'arbre) des valeurs de propriété ou de classe des sols calculées sur les noeuds terminaux. Ces fonctions de prédiction ainsi créées peuvent être ensuite appliquées sur un terrain inconnu mais renseigné en covariables.

arbre
© Quentin Styc, INRAE

La procédure de forêts aléatoires consiste à construire n arbres de décisions en faisant varier légèrement l'ensemble des covariables possibles et l'ensemble des sites connus. Ceci permet d'obtenir une prédiction plus robuste en limitant le "sur-apprentissage".

 

 

Vers la spatialisation

Date de modification : 06 décembre 2022 | Date de création : 07 juillet 2022 | Rédaction : webmestre