Séminaire de Statistique

Le séminaire de Statistique se tient le lundi à 14H30 à l’IUT d’Avignon (site Agroparc). Les séances sont prévues en alternance avec le café des sciences organisé par l’équipe BioSp de l’INRA. Les organisateurs actuels sont Florent Bonneu et Céline Lacaux.

PROGRAMMATION 2017

Lundi 20 novembre 2017 à 14H30 (IUT, Salle GB-3) : Julie Fournier (MAP 5, Paris Descartes). Identification et caractérisation de l’isotropie des champs aléatoires déformés via leurs ensembles d’excursion

Une application déterministe θ de R2 dans lui-même déforme le plan de façon bijective et régulière. Avec un champ aléatoire X réel et défini sur R2, régulier, stationnaire et isotrope, elle entre dans la construction d’un champ déformé défini comme la composée de X avec θ. Un champ déformé est en général anisotrope, cependant certaines applications θ, dont on propose une caractérisation explicite, préservent l’isotropie. En supposant en outre que X est gaussien, on définit une forme faible d’isotropie d’un champ déformé par une condition d’invariance de la caractéristique d’Euler moyenne de certains de ses ensembles d’excursion. On prouve que les champs déformés satisfaisant cette définition sont en réalité isotropes en loi. Dans une dernière partie de l’exposé, en supposant connue la caractéristique d’Euler moyenne de certains ensembles d’excursion d’un champ déformé, on prouve qu’il est possible d’identifier la déformation θ associée.

 

Lundi 13 novembre 2017 à 14H30 (IUT, Salle GB-5) : Mathieu Ribatet (IMAG, Montpellier). A journey along the sample path of a max-stable process. 

Max-stable processes play a major role in the areal modeling of spatial extremes, and more precisely pointwise maxima. This talk will cover some probabilistic as well as statistical aspects related to these processes. More precisely, we will review some (more or less) recent results about the hidden structure of max-stable processes through the notion of spectral characterization, extremal and sub-extremal functions as well as the hitting scenario. We will then see how one can achieve conditional simulations from max-stable processes using this hidden structure. Next a novel (spatial) dependence summary measure for spatial extremes, namely the extremal concurrence probability, will be introduced and the strongly connected notion of extremal concurrence cell. Finally, if we have enough time, we will see how full likelihood inference for max-stable processes is actually possible—though highly CPU demanding.

 

Lundi 24 avril 2017 à 14H30 (IUT, Salle GB-5) : Benoît Henry (LORIA, Nancy). Approximation du spectre de fréquence d’un Splitting Tree avec mutations Poissoniennes neutres.

Dans cet exposé, nous introduirons un modèle de dynamique des  populations dans lequel les individus vivent et se reproduisent de manière i.i.d. Leurs durées de vie suivent une loi arbitraire alors que la reproduction se produit de manière Poissonienne. Le processus (Nt, t∈R+) comptant le nombre d’individus vivant à un instant t est alors un processus de branchement, généralement non-Markovien, dit de Crump-Mode-Jagers (binaire et homogène). Nous supposerons de plus que des mutations neutres touchent les individus à taux θ sous l’hypothèse d’infinité d’allèles : chaque nouvelle mutation remplace le type de son porteur par un type totalement nouveau. Ce mécanisme mène à une partition de la population vivante par type. Le spectre de fréquence allélique est la suite d’entiers (A(k,t))k≥1 où l’entier A(k,t) est le nombre de classes (familles) de taille k. L’étude de cet objet est notamment motivée par son utilisation pour la détection de gènes en cours de
sélection dans des populations en croissance. Le but de cet exposé est d’introduire une méthode d’approximation du spectre de fréquence facilitant son étude. L’erreur commise lors de cette approximation est alors étudiée grâce à un TCL dont la preuve est l’un des objectifs principaux de la présentation.

 

Lundi 20 mars 2017 à 14H30 (IUT, Salle GB-5) : Gabriela Ciuperca (Lyon 1). Méthodes LASSO adaptatives, du modèle linéaire au modèle avec change-points

Assez souvent en pratique, nous sommes confrontés au traitement d’un très grand nombre de variables, le nombre d’observations pouvant être grand, mais peut-être aussi plus petit que le nombre de variables à analyser. L’analyse automatique des variables s’impose alors, sachant que dans ce cas, les méthodes dites classiques de statistique ne sont pas adaptées. Deux méthodes LASSO adaptatives seront présentées et étudiées théoriquement et numériquement.

Dans la deuxième partie de l’exposé je présenterai des modèles qui peuvent changer, des modèles étudiés à rétrospectivement ou en temps réel. Un objectif principal pour les modèles avec change-points est l’étude de la conservation de la sélection automatique des variables dans chaque phase. Je présenterai les méthodes statistiques utilisées, les résultats théoriques (lois asymptotiques, vitesse de convergence) et les simulations numériques correspondantes. Si le modèle est testé en temps réel, la technique CUSUM est étudiée. Si le modèle est analysé a posteriori, on propose un critère consistant pour trouver le nombre de change-points, on estime leur localisation et ensuite chaque phase du modèle est estimée. La propriété de sparsité (sélection automatique des variables) n’est pas affectée par la présence du change-point.

 

Lundi 06 mars 2017 à 14H30 (IUT, Salle GB-5) : Clément Dombry (Besançon). Full likelihood inference for multivariate extreme value distributions

Full likelihood inference methods for max-stable distributions suffer from the curse of dimension since the number of terms in the full likelihood in dimension d is equal to the Bell number Bd. For instance, B10 ≈ 1,16 105 and B20 ≈ 5,17 1023. A direct maximisation of the likelihood is hence extremely challenging and one often uses pairwise or composite likelihood instead. The purpose of this talk is to present two on-going projects dealing with an EM approach for maximising the full likelihood and a Bayesian methodology. We introduce an additional random variable, called hitting scenario, defined as a random partition associated with the occurrence times of the maxima. Treating the hitting scenario as a missing observation, the completed likelihood becomes simpler and we can apply a EM strategy to maximise the full likelihood or a Monte-Carlo Markov Chain approach to estimate the posterior distribution. Preliminary numerical studies based on the logistic model will be presented during the talk.

This talk is based on a joint work with M.Genton, R.Huser and M.Ribatet for the EM approach, S.Egenlke and M.Oesting for the Bayesian approach.

 

Lundi 27 février 2017 à 14H30  (IUT, Salle GB-5) : Lucie Montuelle (Agrocampus Ouest, Rennes). Short-term wind power forecasting

Wind power forecasting is a problem in touch with economic, industrial and environmental challenges. In the framework of the ANR project Forewer, real-time wind power forecast on at a wind farm scale has been considered, based on meteorological data. Machine learning technics have been tested and compared to parametric models, close to the physical model. On the studied data set, learning methods, especially well-calibrated Random Forests, have shown the best performances. Moreover, our procedure seems robust to the error on the wind speed measure. This work has been conducted with A. Fischer, M. Mougeot et D. Picard.

 

Lundi 30 janvier 2017 à 14H30 (IUT, Salle GB-3) : Nicolas Champagnat, IECL (Nancy) & INRIA Tosca. Comportement asymptotique du spectre de fréquence dans des processus de branchement généraux avec mutations neutres

Il s’agit de travaux en collaboration avec A. Lambert, M. Richard et B. Henry.

On considère un processus de branchement où les durées de vies ont une loi quelconque et les naissance se produisent selon un processus de Poisson pendant la durée de vie des individus. Il s’agit d’un processus de branchement non-markovien (en général), dont l’arbre généalogique est appelé « splitting tree ». On suppose de plus que des mutations se produisent selon un processus de Poisson indépendant pendant la durée de vie des individus et que chaque nouvelle mutation apporte un type nouveau qui n’a pas d’influence sur la dynamique de population (modèle neutre à une infinité d’allèle). On s’intéresse au spectre de fréquence à une date t, c’est-à-dire au nombre de familles clonales d’effectif k à la date t, pour tout entier k. La distribution de ce spectre de fréquence est bien connue en génétique des populations lorsque la dynamique de population est donnée par le modèle de Moran (formule d’échantillonnage d’Ewens). Dans notre cas, elle est inconnue en général. On s’intéresse à diverses propriétés de cette distribution: son espérance, ses moments, le comportement asymptotique de la taille de la plus grande famille, de l’âge de la plus ancienne famille. L’outil principal de cette étude est le codage de l’arbre généalogique de la population par son processus de contour avec saut, qui se trouve être un processus de Lévy pour les splitting trees.

 

 

PROGRAMMATION 2016

 

Lundi 5 décembre 2016 à 14H30 (IUT, Salle TC-105): Thibault Bourgeron (ENS Lyon). Dynamique adaptative de population sexuée, structurée en âge, induite par un changement d’environnement

On présentera des équations aux dérivées partielles modélisant l’adaptation d’une population sexuée à un (changement d’)environnement par recombinaison et sélection. La reproduction sexuée est modélisée par l’opérateur infinitésimal, qui n’est ni linéaire ni monotone. On montrera l’existence d’éléments propres sans la théorie de Krein-Rutman qui n’est pas applicable à ce problème. Dans un certain rapport des échelles phénotypiques la méthodologie de l’approximation WKB peut être adaptée à cette équation pour obtenir un développement de la densité de population à l’équilibre par rapport à la variance génétique créée à chaque génération. La structure d’âge fait apparaître des effets non linéaires (mur de mortalité). On illustrera ces résultats avec des simulations numériques. »

 

Lundi 28 novembre 2016 (BioSP) : Francisco Javier Rodríguez-Cortés (Université Jaume I, Castellon). Testing for local structure in spatio-temporal point pattern data

 

Vendredi 24 juin 2016 (FRUMAM, Marseille) : Cinquièmes Rencontres de Statistique Avignon-Marseille

Invités et orateurs : Stéphanie Allassonnière (CMAP, Ecole Polytechnique), Romain Azais (INRIA Nancy), Catherine Matias (Université Pierre et Marie Curie, CNRS, Paris), Thomas Opitz (INRA Avignon, BioSp), Quentin Paris (Laboratory of Stochastic Analysis and its Application, Moscow), Frédéric Richard (Institut de Mathématiques de Marseille)

 

Lundi 18 avril 2016 à 14H30 (IUT, Salle GB-5) : Pierre-Olivier Goffard (Université Libre de Bruxelles, Belgique). Approximations polynomiales de densités de probabilité et applications en assurance

L’exposé porte sur les méthodes numériques d’approximation de la densité de probabilité associée à des variables aléatoires admettant des distributions composées. Ces variables aléatoires sont couramment utilisées en actuariat pour modéliser le risque supporté par un portefeuille de contrats. En théorie de la ruine, la probabilité de ruine ultime dans le modèle de Poisson composé est égale à la fonction de survie d’une distribution géométrique composée. La méthode numérique proposée consiste en une projection orthogonale de la densité sur une base de polynômes orthogonaux. Ces polynômes sont orthogonaux par rapport à une mesure de probabilité de référence appartenant aux Familles Exponentielles Naturelles Quadratiques. La méthode d’approximation polynomiale est comparée à d’autres méthodes d’approximation de la densité basées sur les moments et la transformée de Laplace de la distribution. L’extension de la méthode en dimension supérieure à 1 est présentée, ainsi que l’obtention d’un estimateur de la densité à partir de la formule d’approximation.

 

Lundi 14 mars 2016 à 14H30 (BioSP) : Fabrice Gamboa (Université Paul Sabatier, Toulouse)

Double séance, exceptionnellement à l’INRA dans la salle de réunion de BioSP

Exposé 1 : Panorama sur l’estimation des indices de Sobol

Dans cet exposé, nous donnerons un panorama récent des méthodes de statistique asymptotique pour l’estimation des indices de sensibilité du 1er ordre par la méthode dite du Pick and Freeze. Ces indices sont les normes carrées des contributions normalisées dans la décomposition de Hoeffding d’une fonction.

Exposé 2 : Grandes déviations et théorèmes de Szegö

Des arguments de grandes déviations sur des modèles de matrices aléatoires permettent d’obtenir des théorèmes spectraux à la Szegö.

 

Lundi 25 janvier 2016 à 14H30 (IUT, Salle GB-5) : Adeline Leclercq Samson (Université Joseph Fourier, Grenoble). Modèles de diffusion et leur intérêt potentiel en écologie

Je présenterai différentes équations différentielles stochastiques dont les solutions peuvent modéliser des trajectoires (déplacement, mouvement) en écologie (ou autre). Je donnerai pour chaque famille de diffusions un aperçu des méthodes d’estimation paramétriques ou non-paramétriques existantes.

 

PROGRAMMATION 2015

 

Vendredi 26 juin 2015 (Avignon) : Quatrièmes Rencontres de Statistique Avignon-Marseille

Invités et orateurs : Delphine Blanke (LMA, Université d’Avignon), Anne-Laure Fougères (ICJ, Université Lyon1), Xavier Gendre (IMT, Université Toulouse 3), Arnaud Guyader (LSTA, Université Pierre et Marie Curie – Paris 6, Thibaut Le Gouic (IMM, École Centrale de Marseille), Nicolas Verzelen (INRA, Montpellier)

 

Vendredi 17 avril 2015 à 11H30 (IUT, salle GB-5) : Pierre Pudlo (Université Montpellier 2). « Statistique computationnelle sans vraisemblance »

Lorsque les modèles stochastiques se complexifient, il devient souvent difficile voir impossible d’évaluer numériquement la fonction de vraisemblance. C’est le cas lorsque la modélisation inclut un processus latent de grande dimension, ou lorsque la loi est connue à une constante de normalisation (qui dépend de la valeur du paramètre). Nous présenterons quelques méthodes d’inférence essentiellement bayésiennes dans cette situation : méthodes bayésiennes approchées (ou ABC pour Approximate Bayesian Computation), et méthodes par vraisemblance empirique.

 

Vendredi 10 avril 2015 à 11H30 (IUT, salle GB-5) : Carole Siani (Université Lyon 1). « Handling uncertainty around the incremental cost utility ratio accounting for mapping problem »

Objectives: Firstly, we recall how to handle uncertainty in medico-economic evaluations in general, in the aim of providing a reliable decision-making in terms of allocating resources. In particular, the method we developed to build confidence regions around the Incremental Cost-Effectiveness Ratio, solving three problems simultaneously is presented: 1) the mathematical problem of instabilities of some methods when the denominator of the ratio approaches zero statistically, 2) the “mirror decision-making” problem where two opposite ratios provide the same decision, and finally 3) Interpretation in terms of decision-making of confidence regions having non standard form with Fieller’s method.

Actually, the cost-utility analyses (CUA) are internationally recommended by the National Institute for Health and Care Excellence. Utility measure accounts for patient preferences and their quality of life by measuring Quality Adjusted Life Years, which are gained years multiplying by utility or preference scores. This makes more complex the handling of uncertainty.

In addition, in CUA, utility values are rarely available and they are generally predicted using a “mapping” interpolation from a functional status questionnaire. This mapping method is not accounted for in pharmaceutical industry and in literature studies, when building confidence regions around the incremental cost-utility ratio, leading to a wrong confidence region and consequently, to a wrong decision-making. Thus, the purpose of this research is to build a confidence region around the Incremental Cost-Utility Ratio, accounting for the uncertainty coming from the “mapping” interpolation.

Methods: Analytical, parametric and nonparametric Bootstrap methods are developed to handle the fact that utility values are interpolated. Linear, multilinear, and nonlinear mapping are considered and compared to a “naïve” method, used in practice, not accounting for mapping. Monte Carlo experiments are carried out to compare the performance of these various methods, which are then applied on data issued from a clinical trial about hepatitis C treatment, measuring the impact of therapeutic education. Utility values are assessed from a SF-12 questionnaire and some of these values are interpolated from the Nottingham Health Profile functional status questionnaire.

Results: Monte Carlo experiments show that the analytic and bootstrap 95% CI display coverage between 94% and 96% for various sample sizes. If mapping is not accounted for (“naive method”), the coverage is between 61% and 95%. The cross validation shows similar results.

Conclusion: In CUA, decision-making based on utility values interpolated from mapping is not reliable and the uncertainty due to mapping has to be accounted for. Our analytic and bootstrap procedures, integrating the mapping, provide very accurate results.

 

Lundi 30 mars 2015 à 14H30 (IUT, salle GB-1) : Radu Stoica (Université Lille 1). « Modélisation probabiliste et inférence statistique pour l’analyse des données spatialisées »

Cet exposé présente la construction d’une méthodologie, d’une « machinerie algorithmique » pour détecter et caractériser la structure de données spatialisées.
Cette construction procède en trois étapes. D’abord, un modèle de forme ou de structure est proposé à partir des données observées. Puis, une dynamique de simulation est construite en adéquation avec le modèle. Enfin, des procédures statistiques sont mises au point pour inférer les caractéristiques de la structure cachée et les paramètres du modèle.
Chacune de ces étapes est attachée à un domaine particulier des probabilités et des statistiques. La modélisation repose sur des processus ponctuels, notamment marqués. La dynamique de simulation utilise les chaînes de Markov. L’inférence s’appuie sur l’analyse bayésienne, le recuit simulé, le maximum de vraisemblance, les tests.
La synthèse de ces trois étapes se fait au confluent de trois domaines: la géométrie aléatoire, les chaînes de Markov et les statistiques appliquées. Cette synthèse nous a permis d’aborder des applications concrètes en analyse d’image, en science de l’environnement et en astronomie.

 

Vendredi 13 mars 2015 à 11H30 (IUT, salle GB-5) : Clément Marteau (INSA de Toulouse). Classification supervisée en utilisant l’algorithme des plus proches voisins dans des espaces de dimensions finis généraux

Étant donné un n-échantillon $(X_i ; Y_i)$ pour i=1…n de loi jointe inconnue, on s’intéresse au problème de prédire le label Y d’une nouvelle observation de X. Dans ce contexte, la règle des plus proches voisins est très intuitive et souple d’utilisation. Nous allons présenter les propriétés statistiques de cette règle dans plusieurs situations, en particulier lorsque le support de la loi de X ne sera pas compact. Nous identifierons deux conditions nécessaires et suffisantes pour obtenir des taux de consistance uniforme de classification et pour obtenir des estimations pointues dans le cas de la règle du plus proche voisin.

 

Lundi 23 février 2015 à 14H30 (IUT, salle GB-5) : Céline Lacaux (École des mines de Nancy). Modèles autosimilaires, modélisation pour la médecine

La première partie de l’exposé s’intéressera à la notion d’autosimilarité, version aléatoire de l’invariance d’échelle observée dans les fractales. Cette notion a évolué ces dernières années, notamment pour proposer des modèles anisotropes satisfaisant des propriétés d’invariance différentes selon plusieurs directions privilégiées. Nous présenterons des travaux en cours sur ce type de modèle en vue de les utiliser pour modéliser les radiographies du calcanéum et aider au diagnostic précoce de l’ostéoporose. La seconde partie de l’exposé s’intéressera à des collaborations avec le CRAN (Centre de recherche en automatique de Nancy). Elle présentera essentiellement un projet sur la thérapie photodynamique, thérapie utilisée pour traiter des cancers. Selon le temps, nous évoquerons un projet très récent sur  les réseaux de veines, dont le but principal est de trouver une fenêtre thérapeutique.

 

Vendredi 13 février 2015 à 11H30 (IUT, salle GB-5) : Cécile Hardouin (Université Paris 10). « Two-Scale Spatial Models for Binary Data »

A spatial lattice model for binary data is constructed from two spatial scales linked through conditional probabilities. The presentation is made on a regular lattice, although the model is easily generalised to irregular lattices. A coarse grid of lattice locations is specified and all remaining locations (which we call the background) capture fine-scale spatial dependence. The background behaviour is captured through a hidden Gaussian process after a logit transformation on its Bernoulli success probabilities. Binary data on the grid are modelled with an autologistic distribution, conditional on the binary process on the background. The likelihood is then the product of the (conditional) autologistic probability distribution and the hidden Gaussian—Bernoulli process. The parameters of the new model come from both spatial scales. A series of simulations illustrates the spatial-dependence properties of the model and likelihood-based methods are used to estimate its parameters.

 

Lundi 2 février 2015 à 14H00 (IUT, salle GB-3) : Éric Matzner-Lober (Université Rennes 2) « Régression non paramétrique itérée »

Nous présenterons une méthode de régression non paramétrique itérée. L’estimateur de la fonction de régression inconnue (de Rd dans R) est calculé  par une application successive du même lisseur non-paramétrique. Les propriétés nécessaires au lisseur de départ sont envisagées où les candidats naturels sont les noyaux, les splines (plaques minces ou de Duchon), les Kpp voisins. Nous discuterons de ces différents estimateurs initiaux et de leurs limites respectives. Pour terminer nous présenterons des résultats d’application (débruitage d’images, restauration d’images, prévision de séries temporelles) ainsi que le package R nommé ibr.

 

 

PROGRAMMATION 2014

 

Lundi 15 décembre 2014 à 10H00 (Salle des thèses, site Ste Marthe) : Mohammed El Asri (UAPV). Soutenance de thèse : Étude des M-estimateurs et leurs versions pondérées pour des données clusterisées devant le jury composé de :

  • Michel Broniatowski (PR, Paris 6) : rapporteur
  • Anne Ruiz-Gazen (PR, Toulouse School of Economics, Toulouse 1) : rapporteur
  • Didier Josselin (DR, UAPV) : examinateur
  • Denys Pommeret (PR, AMU) : président de jury
  • Delphine Blanke (PR UAPV) : directrice de thèse
  • Edith Gabriel (MCF UAPV) : co-encadrante

 

Vendredi 28 novembre 2014 à 11H00 (salle 2 IUT-GB) : Laurent Delsol (Université d’Orléans). Segmentation d’images hyperspectrales à partir d’estimation à noyau fonctionnel de la densité.

Résumé ici.

 

Lundi 3 novembre 2014 à 14H00 (salle 2 IUT-GB) : Christophe Crambes (Université Montpellier 2). « Prédiction en régression linéaire fonctionnelle avec variable d’intérêt fonctionnelle »

Ce travail concerne l’étude de la prédiction dans le modèle linéaire fonctionnel lorsque la variable d’intérêt est elle aussi fonctionnelle. Nous introduisons un prédicteur basé sur la décomposition de Karhunen-Loève de la courbe X (variable explicative). La variable d’intérêt du modèle est Y. Les résultats obtenus permettent de fournir un développement asymptotique de la moyenne quadratique de l’erreur de prédiction. Nous donnons également un résultat d’optimalité pour ces vitesses dans un sens minimax, ainsi qu’un théorème de la limite centrale du prédicteur. Le comportement du prédicteur est également évalué en pratique sur des données simulées et un jeu de données réelles.

 

Vendredi 20 juin 2014 (FRUMAM, Marseille): Troisièmes Rencontres de Statistique Avignon-Marseille

Invités et orateurs : Christophe Biernacki (Lille 1), Mohamed Boutahar (AMU),  Cécile Durot (Paris 10), Béatrice Laurent-Bonneau (INSA, Toulouse 1), Anne Ruiz-Gazen (Toulouse 2), Rachid Senoussi (INRA, Avignon)

 

Lundi 3 février 2014 (salle 5 IUT-GB) : Julien Jacques (Université Lille 1) « Clustering de données fonctionnelles »

La classification automatique (clustering) de données fonctionnelles (courbes) est en plein essor ces dernières années. Nous présentons plusieurs méthodes récentes basées sur une modélisation probabiliste des courbes observées. Du fait de la nature infinie-dimensionnelle de l’espace dans lequel évoluent ces données,  la modélisation porte généralement sur une expression des courbes en dimension finie, en les approximant par exemple dans une base finie de fonctions. L’utilisation de modèles de mélanges et d’algorithme d’estimation associés permet de définir des algorithmes de clustering efficaces. Des applications sur données réelles montreront l’intérêt de telles approches.

 

Lundi 27 janvier 2014 (salle 5 IUT-GB): Clément Marteau (INSA de Toulouse) « Détection non-asymptotique de mélanges à moyennes inconnues »

Ce travail s’intéresse à la détection de distributions de type ‘mélanges’ dans un cadre uni-dimensionnel. Plus précisément, l’objectif est de déterminer si la distribution d’un échantillon $X_1,\dots, X_n$ suit (à une translation près) une loi de référence $\phi$ ou bien est définie comme un mélange à deux composantes. Nous proposons une procédure de test non-asymptotique et établissons des conditions pour lesquelles la puissance du test est contrôlable. Dans un second temps, nous comparons les performances de notre algorithme aux méthodes existantes dans la littérature dans un cadre asymptotique de référence.

 

 

PROGRAMMATION 2013

 

Lundi 02 décembre 2013 (salle 5 IUT – GB) : Benoîte de Saporta (Université Montesquieu Bordeaux) « Contributions à l’estimation et au contrôle de processus stochastiques »

Après une présentation rapide de mes travaux de recherche sur les méthodes numériques pour les processus markoviens déterministes par morceaux, je développerai plus en détail mon travail sur les processus autorégressifs de bifurcation (BAR) en lien avec les données de division cellulaire. Ces données sont typiquement des mesures faites sur une population de cellules descendant d’une même cellule mère. Comme une cellule donne généralement naissance à deux cellules filles par division, ces données sont structurés comme des arbres binaires. Les processus BAR sont une généralisation des processus autorégressifs pour les rabres binaires. C’est un modèle paramétrique qui prend en compte à la fois les effets héréditaires et environnementaux. Je m’intéresse à l’estimation des paramètres pour ces processus dans un cadre d’observations incomplètes.

 

Lundi 07 octobre 2013 (salle 5 IUT – GB) : Jan Bulla (Université de Caen) « Time series and panel data analysis by Hidden (semi-)Markov models: basics and more  recent advances »

In the past decades hidden (semi-)Markov models (H(S)MMs) have become increasingly popular. They provide flexible, general-purpose models for univariate and multivariate time series. The observed component may include categorical, circular-valued, and many other observation types. Moreover, the extension to a panel data setting is straightforward. Appealing features of H(S)MMs include their versatility and mathematical tractability, which have lead to applications in many fields (e.g. engineering, finance/econometrics, and environmental studies).
The main aim of this talk is to provide an introduction to the basic underlying concepts of these models and their estimation. Moreover, practical examples from different fields (finance, business, medicine, environmetrics) provide a brief into various model structures: from simple cases such as the common univariate Gaussian HMM over more complex multivariate linear-circular conditional distribution to non-homogeneous HSMMs.

 

Vendredi 7 juin 2013 (Site Ste Marthe, Amphi 2E05) : Secondes Rencontres de Statistique Avignon-Marseille

Invités et orateurs: Jean-Marc Bardet (Paris 1- Panthéon-Sorbonne), Florent Bonneu (UAPV), Nicolas Chopin (ENSAE), Marc Lavielle (INRIA), Davy Paindaveine (Université Libre de Bruxelles), Denys Pommeret (AMU).

 

Lundi 18 mars 2013 à 14h (IUT) : Aboubacar Amiri (Université Lille 3). Estimation récursive d’un quantile.

Dans ce séminaire nous présenterons une méthode récursive pour l’estimation d’un quantile. Etant données des observations, tirées suivant une loi de Probabilité inconnue, on cherche à construire un estimateur récursif du quantile de cette loi, pour un niveau de risque fixé. On présentera un algorithme stochastique de type Robins-Monro légèrement modifié pour l’estimation du quantile. Nous étudierons  ses propriétés asymptotiques et présenterons quelques simulations pour illustrer notre méthode

 

Lundi 28 janvier 2013 à 14h (bibliothèque de Mathématiques) : Amine Asselah (Université Paris-Est Créteil). Fluctuations d’un nuage aléatoire de points.

Nous présenterons des estimées sur les fluctuations de la forme asymptotique
d’un nuage aléatoire de points générés par agrégation limitée par diffusion interne sur le réseau cubique et sur d’autres graphes.

 

Lundi 14 janvier 2013 à 14h (IUT) : Jean-François Coeurjolly (Université Pierre Mendès France – Grenoble). Approche variationnelle pour l’estimation de l’intensité d’un processus spatial.

Dans cet exposé, je considèrerai le problème de l’estimation paramétrique de la fonction intensité d’un processus ponctuel spatial dans Rd. En particulier, partant du modèle log-linéaire de la fonction intensité rho(u) = exp (beta+ thetaT z(u)) (beta>0 correspond à un paramètre de nuisance, theta dans Rp au paramètre d’intérêt et z_i pour i=1,…,p à des covariables spatiales), je présenterai une nouvelle méthode basée sur une approche variationnelle alternative à la méthode standard de la maximisation de la « vraisemblance poissonienne ». L’intérêt principal de cette méthode est qu’elle permet d’estimer le paramètre theta sans optimisation. L’estimation est directe et donc extrêmement rapide en temps et coûts de calculs (même en grande dimension de l’espace d’états ou du nombre de covariables). Je montrerai quelques résultats asymptotiques quant à cet estimateur lorsque la fenêtre d’observation croît vers Rd et quelques simulations. En particulier, je montrerai que si les covariables z_i ne sont observées que dans un voisinage des points du processus ponctuel, notre approche est bien meilleure que les approches standard.
Ces développements sont issus d’un travail récent en collaboration avec Jesper Møller (Aalborg University).

 

 

 

PROGRAMMATION 2012

Lundi 03 décembre 2012 à 14h (salle 5, IUT-GB) : Frédéric Lavancier (Université de Nantes). Aspects statistiques des processus ponctuels déterminantaux

 

Les processus ponctuels déterminantaux (DPP) restent largement inexplorés en statistique, bien qu’ils possèdent un certain nombre de propriétés remarquables. Les DPP sont apparus dans les années 70 en physique mathématique et ont été étudiés plus en détail récemment, d’un point de vue probabiliste, dû notamment à leur présence centrale en théorie des matrices aléatoires. Dans cet exposé, nous aborderons leurs aspects statistiques. Les DPP sont définis au travers d’une fonction C (le noyau) ayant un certain nombre de régularité. Dans le cas d’un DPP stationnaire, C peut simplement être une fonction de covariance continue dont la transformée de Fourier est inférieure à 1. Les DPP possèdent les propriétés remarquables suivantes :
(a) Ils constituent des modèles flexibles pour des interactions répulsives dans les processus ponctuels.
(b) Tous les moments d’un DPP sont explicitement connus : ils s’expriment en terme du déterminant d’une certaine matrice dépendant du noyau C.
(c) La densité de probabilité d’un DPP sur tout ensemble compact (par rapport au processus de Poisson) est explicitement connue.
(d) Un DPP se simule facilement sur tout compact.
(e) Toute transformation régulière ou tout éclaircissage (thinning) d’un DPP reste un DPP.
À titre de comparaison, les processus ponctuels de Gibbs, qui constituent la famille usuelle pour construire des processus répulsifs (par exemple le processus de Strauss), n’admettent pas de forme explicite pour leurs moments, leur densité fait intervenir une constante normalisatrice incalculable, et leur simulation repose en général sur des méthodes MCMC couteuses. Dans cet exposé, nous présenterons les propriétés de base des DPP, puis nous expliquerons comment en construire des familles paramétriques, comment mettre en oeuvre leur simulation et nous étudierons différentes techniques inférentielles basées sur les moments ou sur la vraisemblance. Ce travail a été conduit en collaboration avec Jesper Møller et  Ege Rubak, de l’université d’Aalborg (Danemark).

 

Lundi 05 novembre 2012 à 14h (salle 5, IUT-GB) : Didier Josselin et Julio Rojas-Mora (UMR ESPACE, UAPV).  Propositions méthodologiques au sujet de l’incertitude de localisation des centres et de leurs propriétés.

ROLSES (Robust and Optimal Location for Sustainable Environment and Systems) est un projet interdisciplinaire financé par l’ANR. Il réunit des géographes et des mathématiciens pour étudier les propriétés et proposer des centres robustes et durables. Nous introduisons et comparons deux approches pour localiser les centres et extraire des informations utiles pour les décideurs : la modélisation de l’incertude de la demande induisant des « centres flous » (Julio Rojas-Mora) et l’analyse de la sensibilité des centres, permettant de cartographier les « poids » des demandes selon leur influence (Didier Josselin). Cela nous amène à des questionnements sur certaines propriétés des centres classiquement utilisés dans la littérature (1-center, gravity center, 1-median, etc.), propriétés délicates à détecter a priori.

 

Lundi 01 octobre 2012 à 14h (salle 5, IUT-GB): Thomas Romary (chargé de recherche à Mines ParisTech). Multivariate Geostatistical clustering for mine domaining

Domaining is very often a complex and time-consuming process in mining assessment. Apart from the delineation of envelopes, a significant number of parameters (lithology, alteration, grades) are to be combined in order to characterize domains or subdomains within the envelopes. This rapidly leads to a huge combinatorial problem. Hopefully the number of domains should be limited, while ensuring their connexity as well as the stationarity of the variables within each domain. In order to achieve this, different methods for the spatial clustering of multivariate data are explored and compared. A particular emphasis is placed on the ways to modify existing procedures of clustering in non spatial settings to enforce the spatial connexity of the resulting clusters. K-means, spectral clustering, hierarchical methods and model based algorithms are reviewed. The methods are illustrated on a simple example and on mining data.

 

 

 

 

PROGRAMMATION 2011

 

Lundi 5 décembre 2011  :  Gwladys Toulemonde (Université de Montpellier 2). Méthodes de filtrage pour des maxima de type Gumbel :application à la reconstruction de maxima journaliers d’oxyde nitreux.

D’après des résultats fondamentaux en théorie des valeurs extrêmes, les maxima sont généralement ajustés par la distribution des valeurs extrêmes généralisées. Dans cet exposé, nous nous concentrerons sur l’étude de maxima journaliers de séries temporelles en sciences de l’environnement. Dans un tel contexte il conviendra de prendre en compte la dépendance temporelle inhérente à ces séries. Nous nous baserons sur l’article de Toulemonde et al. (2010) dans lequel un modèle autorégressif à la fois linéaire et adapté à la distribution attendue des maxima issus de distributions à queues légères est introduit. L’objectif est alors de proposer un modèle de Markov caché pour ces maxima. Pour ce modèle nous calculerons les poids optimaux dans la mise en oeuvre du filtre auxiliaire et proposerons dans ce contexte une comparaison avec d’autres méthodes de filtrage. Enfin, à titre d’exemple nous utiliserons le modèle proposé et mettrons en œuvre la méthode d’estimation adaptée pour reconstruire une série de maxima journaliers d’oxyde nitreux en France.

 

Lundi 17 octobre 2011 à 13h30 (salle 5GB de l’IUT)  : Jérôme Saracco (Institut Polytechnique de Bordeaux) Sur des méthodes de réduction de la dimension

Dans la première partie de ce séminaire, nous nous intéressons à des données arrivant par « paquets » (data stream). Nous considérons un modèle semiparamétrique de régression sous-jacent à la modélisation de ces données. Nous proposons un estimateur (de la partie paramétrique du modèle) de type SIR (sliced inversion regression) permettant de prendre en compte cette manière d’acquisition des données et de détecter une dérive ou un bloc aberrant dans le flux de données. Après avoir énoncé des résultats de convergence de l’estimateur, nous illustrerons le bon comportement numérique de notre approche en simulant différents scénarios, puis nous l’appliquerons sur des données réelles. Dans une seconde partie (s’il reste du temps…), nous parlerons de classification de variables qui peuvent être aussi bien quantitatives que qualitatives. Nous présenterons la méthode considérée et le package R (appelée « ClustOfVar ») correspondant. Ce dernier sera illustré sur deux jeux de données réelles : un purement quantitatif, un autre constitué de données mixtes (variables quantitatives et variables qualitatives).

 

Lundi 20 juin 2011 à 14h salle 5, hall GB (un fléchage sera mis en place)  : Lionel Cucala (Université Montpellier 2)

Détection d’agrégats pour données ponctuelles

Résumé : voir fichier joint

 

Lundi 11 avril 2011 à 14h: Denys Pommeret (Université Aix-Marseille 2)
Plusieurs tests d’égalité de lois

Nous étudierons le test lisse de Neyman d’égalité de lois dans plusieurs cadres :
1/ dans le cas de deux échantillons appariés
2/ dans le cas de deux échantillons contaminés (avec erreurs de mesures
connues)
3/ dans le cas de plusieurs échantillons
4/ dans le cas de mélange de deux lois
Nous détaillerons surtout le premier cas et nous montrerons comment le test s’adapte aux autres situations.

 

Lundi 7 mars 2011 à 10h30 (horaire exceptionnel) : Youri DAVYDOV (Université Lille 1). Processus de cristallisation

On va présenter le modèle classique de cristallisation. On discutera:
– les liens avec le modèle booléen;
– des propriétés ergodiques;
– des applications statistiques.

 

Lundi 31 janvier 2011 à 14H30 (horaire exceptionnel) :   Pierre Pudlo (Montpellier 2). Apprentissage efficace pour la méthode ABC (Approximation Bayesian Computation)

Les méthodes ABC permettent d’approcher la loi a posteriori quand il est difficile ou impossible de calculer la vraisemblance d’un modèle, en utilisant des simulations de façon massive. Nous verrons comment on peut accélérer cette méthode à l’aide d’un algorithme de Monte-Carlo séquentiel. Nous proposerons aussi une application en génétique des populations.

Il s’agit d’un travail avec Jean-Marie Cornuet (INRA, CBGP), Jean-Michel Marin (Université Montpellier 2), Christian P. Robert (Université Paris-Dauphine) et Mohammed Sedki (Université Montpellier 2).

 

 

 

PROGRAMMATION 2009-2010

Lundi 8 novembre 2010 : Denis Bosq (Université Pierre et Marie Curie – Paris 6). Estimation du support d’une loi de probabilité

Étant données des observations sur R^d, tirées suivant une loi de Probabilité de support S inconnu, on cherche à construire des estimateurs de S. On distinguera le cas régulier où le support est exactement de dimension d du cas singulier où la dimension du support est inférieure à d. L’étude portera sur le comportement asymptotique d’estimateurs non paramétriques basés sur des constructions géométriques ou fonctionnelles.

 

Lundi 29 mars 2010 : Anne-Françoise Yao  (Université Aix-Marseille 2) : Modèles non-paramétriques pour des processus spatiaux.

La statistique spatiale fournit des outils permettant de traiter des données pour lesquelles la localisation dans l’espace joue un rôle important. Les domaines d’applications sont nombreux : science de l’environnement et de la terre (océanographie, météorologie, hydrogéologie,…), économétrie, traitement d’images, géographie, science sociale,… Si la plupart des méthodes de statistique spatiale (existantes) imposent des hypothèses paramétriques souvent restrictives, il existe très peu d’alternatives dans le cas non-paramétrique. Dans ce cadre, je présenterai des estimateurs à noyaux de la densité et de la régression pour des processus spatiaux à valeurs multidimensionnelles ou fonctionnelles. Des résultats de convergence de ces estimateurs seront également présentés. Ils seront illustrés par des simulations et une application sur des données réelles.

 

Lundi 8 mars 2010 à 14H (IUT) : Pierrette Chagneau (UMR518 AgroParisTech/INRA) : Modélisation bayésienne hiérarchique pour la prédiction multivariée de processus spatiaux non gaussiens et processus ponctuels hétérogènes d’intensité liée à une variable prédite. Application en foresterie.

Un des points faibles des modèles de dynamique forestière spatialement explicites est la modélisation de la régénération. Un inventaire détaillé du peuplement et des conditions environnementales a permis de mettre en évidence les eets de ces deux facteurs sur la densité locale de juvéniles. Mais en pratique, la collecte de telles données est coûteuse et ne peut être réalisée à grande échelle : seule une partie des juvéniles est échantillonnée et l’environnement n’est connu que partiellement. L’objectif est ici de proposer une approche pour prédire la répartition spatiale et le génotype des juvéniles sur la base d’un échantillonnage raisonnable des juvéniles, des adultes et de l’environnement. La position des juvéniles est considérée comme la réalisation d’un processus ponctuel marqué, les marques étant constituées par les génotypes. L’intensité du processus traduit les mécanismes de dispersion à l’origine de l’organisation spatiale et de la diversité génétique des juvéniles. L’intensité dépend de la survie des graines, qui dépend elle-même des conditions environnementales. Il est donc nécessaire de prédire l’environnement sur toute la zone d’étude. L’environnement, représenté par un champ aléatoire multivarié, est prédit grâce à un modèle hiérarchique spatial capable de traiter simultanément des variables de nature différente. Contrairement aux modèles existants où les variables environnementales sont considérées comme connues, le modèle de régénération proposé doit prendre en compte les erreurs liées à la prédiction de l’environnement. La méthode est appliquée à la prédiction de la régénération des juvéniles en forêt tropicale (Guyane française).

 

Lundi 22 février 2010 : Mathieu Ribatet (PostDoc, EPFL, Lausanne) :  Processus max-stables : Vers une géostatistique des extrêmes.

Résumé: Voir fichier joint

 

Lundi 8 février 2010 : Thomas Laloë (ISFA, Université Lyon 1). Apprentissage statistique : Classification, Régression et Applications.

L’exposé se décomposera en trois parties. Dans la première partie, nous développons une approche de type plus proches voisins pour la régression fonctionnelle. Dans la deuxième, nous étudions les propriétés de la méthode de quantification dans des espaces de dimension infinie. Nous appliquons ensuite cette méthode pour réaliser une étude comportementale de bancs d’anchois. Enfin, la dernière partie est dédiée au problème de l’estimation des ensembles de niveaux de la fonction de régression dans un cadre multivarié.

 

Lundi 18 janvier 2010 : Philippe Saint-Pierre (Université Paris 6) : Estimation de la fonction de distribution bivariée pour des variables censurées.

Dans cet exposé, nous étudierons le problème de l’estimation de la fonction de survie bivariée. Dans un premier temps, quelques notions de l’analyse de survie univariée seront abordées. Ensuite, certaines méthodes d’estimation de la fonction de répartition bivariée seront présentées. En particulier, les modèles multi-états qui permettent d’analyser des données de survie multivariées seront introduits. Enfin, nous étudierons une méthode d’estimation non-paramétrique permettant d’estimer la fonction de répartition bivariée dans le cas où une variable est censurée à gauche et l’autre censurée à droite. Cette question ne semble pas être étudiée dans la littérature alors que plusieurs travaux traitent du cas où les deux variables sont censurées à droite. La méthode permet d’exprimer la fonction de répartition comme un produit intégral de la fonction de hasard cumulée. Un estimateur est obtenu en utilisant notamment les équations intégrales de Doléans et de Volterra.

 

Lundi 14 décembre 2009 : Nicolas Verzelen (INRA, Montpellier) : Modèles graphiques et estimation de graphes.

Les récents progrès en acquisition de données génomiques permettent désormais d’étudier l’ensemble des gènes en tant que système complexe. On s’intéressera ici à l’inférence statistique des interactions entre gènes à partir de données d’expression de gènes. Une approche classique consiste à modéliser ces données comme des réalisations d’un modèle graphique gaussien et à estimer le graphe correspondant. J’introduirai dans un premier temps les modèles graphiques, puis je décrirai une nouvelle méthode d’estimation du graphe: GGMselect.
Il s’agit d’un travail commun avec Christophe Giraud et Sylvie Huet.

 

Lundi 23 novembre 2009 : Élodie Brunel (Université Montpellier 2) : Estimation non-paramétrique adaptative de la moyenne de vie résiduelle conditionnelle

Dans les essais cliniques, les durées de vie sont souvent observées à partir du début du traitement et jusqu’à la survenue du décès ou de la censure. Mais l’étude des fonctions de survie ou de risque instantané ne permet pas de savoir si le traitement améliore l’espérance de vie d’un patient au cours de l’essai. Pour répondre à cette question l’espérance de vie doit être considérée comme une fonction dépendant du temps et c’est ainsi que l’on introduit la fonction moyenne de vie résiduelle, c’est-à-dire la durée de vie moyenne restante sachant que l’individu a déjà survécu au delà d’une durée t. Nous proposons un nouvel estimateur purement non-paramétrique de la moyenne de vie résiduelle en présence d’une covariable. Une collection d’estimateurs est obtenue grâce à la minimisation d’un contraste sur une famille de sous-espaces linéaires de fonctions de dimension finie. Puis, une procédure de sélection de modèles par pénalisation du contraste nous permet de choisir un estimateur de la collection. Nous obtenons une inégalité d’oracle non-asymptotique pour le risque L2 de cet estimateur et nous pouvons en déduire des vitesses de convergence. Nous illustrons la mise en œuvre pratique de notre estimateur pénalisé sur des données réelles.

 

Lundi 12 octobre 2009 : Florent Bonneu (Université Paul Sabatier) : Processus ponctuels spatiaux pour l’analyse du positionnement optimal.

 

Les processus ponctuels spatiaux forment une branche de la statistique spatiale utilisée dans des domaines d’application variés (foresterie, géo-marketing, sismologie, épidémiologie,. . . ) et développée par de récents travaux théoriques. Nous nous intéressons à l’apport de la théorie des processus ponctuels spatiaux pour des problèmes de positionnement optimal.

Le problème de positionnement optimal s’écrit souvent comme un problème d’optimisation prenant en compte des données geo-référencées auxquelles peuvent être associées des caractéristiques. Pour prendre en compte l’aléa, nous considérons ces données issues d’un processus ponctuel spatial pour résoudre un problème de positionnement stochastique plus réaliste qu’un modèle déterministe. A travers l’étude du positionnement optimal d’une nouvelle caserne de pompiers dans la région toulousaine, nous développons une méthode de résolution stochastique permettant de juger de la variabilité de la solution optimale et de traiter des bases de données volumineuses. L’approche implémentée est validée par des premiers résultats théoriques sur le comportement asymptotique des solutions optimales empiriques. La convergence presque sure des solutions optimales empiriques de l’étude de cas précédente est obtenue dans un cadre i.i.d. en utilisant la théorie de Vapnik-Cervonenkis. Nous obtenons aussi la convergence presque sure des solutions optimales empiriques pour un problème de positionnement dérivé du problème de transport de Monge-Kantorovich.