Offre de thèse « Adaptation de deux algorithmes d’indexation « big data » pour l’amélioration de la méthode local-PLS en chimiométrie »

STAGE Business Development Vigne et Arbres Fruitiers
avril 12, 2018
Offre d’emploi : CHEF DE PRODUIT TELEDETECTION, SIG AGRICULTURE DE PRECISION
avril 13, 2018
Show all

Offre de thèse « Adaptation de deux algorithmes d’indexation « big data » pour l’amélioration de la méthode local-PLS en chimiométrie »

Contexte et problématique :

De nouvelles demandes ont récemment vu le jour en chimiométrie pour réaliser des modèles sur des
bases de données à visée « exhaustive », contenant un grand nombre d’individus et davantage de
variations de grandeurs d’influence (p. ex. le type d’appareillage et de matériel biologique ou la
localisation et l’année de collecte). Ainsi en agronomie, on trouve des bases de données spectrales de sols,
de céréales, de fourrage pouvant contenir plus de 10 000 individus. La PLS usuelle trouve rapidement ses
limites en face de l’hétérogénéité présente dans ces bases, avec des variances et des biais de prédiction
souvent trop élevés.
Une réponse actuellement explorée par les chimiométriciens est la régression PLS « locale » ( Shenk, 1997 ,
Centner, 1998 , Ramirez-Lopez, 2013 , Allegrini, 2016 ) reprenant l’idée de la régression locale ( Cleveland,
1979 ). Pour chaque spectre à traiter, la méthode consiste tout d’abord à trouver des voisins du spectre
(donc à réduire l’hétérogénéité), puis à réaliser les prédictions au moyen d’une PLSR usuelle effectuée sur
le voisinage déterminé. Différentes applications ont montré l’efficacité de la méthode en agronomie, par
exemple dans le cadre d’analyses de sols ( Clairotte, 2016 ), de lait et de fèces d’animaux ( Tran, 2010 ) et de
plantes annuelles vivrières ( Davrieux, 2016 ). La même idée peut être appliquée pour des problèmes de
discrimination, en remplaçant la PLSR par la PLS-DA ( Bevilacqua, 2014 ).
Un point critique des méthodes PLS locales, aussi bien en termes d’efficacité statistique que de temps de
calcul, est la sélection du voisinage. Paradoxalement, très peu de recherches ont été effectuées sur ce sujet
dans le domaine de la chimiométrie.

Objectif de la thèse :

L’objectif de la thèse est de tester et d’adapter des techniques du big data pour rendre compatibles les
algorithmes de PLS locale avec les grandes (typiquement > 20 000 individus) et très grandes (>10 6
individus) bases de données. Deux méthodes d’indexation, étudiées intensivement par l’équipe Zenith du
Lirmm (participant au projet de thèse), seront explorées :
– Le hachage (en particulier, le calcul de sketches)
– L’indexation arborescente des données représentées par iSAX.

Moyens:
Cette thèse sera financée par une demie bourse Irstea et une demie bourse # DigitAg.

Encadrement:
Codirection de thèse : Jean Michel Roger (Irstea – ITAP) / Matthieu Lesnoff (Cirad – SELMET).
Co-Encadrement : Nathalie Gorretta (Irstea – ITAP).

Positionnement institutionnel;
Ce projet de thèse est un projet transdisciplinaire (chimiométrie et big data), bien que orienté globalement
vers les data sciences. Cette transdisciplinarité fait appel à un partenariat entre l’UMR SELMET, l’UMR
ITAP et l’équipe ZENITH (Lirmm). Au niveau d’Irstea, il est porté principalement par l’équipe COMiC de
l’UMR ITAP qui développe des systèmes optiques et des méthodes de traitement de l’information pour la
perception et la caractérisation des milieux. Au niveau du Cirad il est porté par l’UMR SELMET, qui
développe des étalonnages par spectrométrie infrarouge pour les produits agricoles (notamment
fourrages, aliments du bétail, fèces), en collaboration avec des partenaires du nord et du sud. Ce projet
s’inscrit dans le RPO du TR INSPIRE, et plus particulièrement dans l’axe 3 (physique pour la mesure et
traitements associés).

École doctorale de rattachement :
ED GAIA de l’université de Montpellier

Profil du candidat recherché:
Le candidat recherché devra présenter une formation en chimiométrie ou en statistique appliquée (avec
une sensibilité pour l’informatique), ou une formation en informatique avec une forte sensibilité pour les
applications chimiométriques. Une expérience en sciences du vivant, soit au travers de la formation
initiale, soit au travers du stage de fin d’études sera un plus.

Plus d’informations et détails ici: https://pasi.irstea.fr/en/campagne/1/sujet/3995