Séminaire de Statistique

Le séminaire de Statistique se tient le lundi à 14H30 au Laboratoire de Mathématiques d’Avignon (LMA). Les séances sont prévues en alternance avec le café des sciences organisé par Thomas Opitz et Raphaël Forien de l’équipe BioSp de l’INRAE. Les organisateurs du séminaire de Statistique pour le LMA sont Antoine Usseglio-Carleve et Anna Melnykova.

Les membres du laboratoire de mathématiques ont leur bureau dans le bâtiment « LMA » situé à côté du CERI sur la zone Agroparc (accès).

PROGRAMMATION 2024

Lundi 3 juin 2024 à 14h30: Nicolas Schreuder (CNRS à Laboratoire d’Informatique Gaspard-Monge)

Fairness in machine learning: a study of the Demographic Parity constraint

Abstract: In various domains, statistical algorithms trained on personal data take pivotal decisions which influence our lives on a daily basis. Recent studies show that a naive use of these algorithms in sensitive domains may lead to unfair and discriminating decisions, often inheriting or even amplifying biases present in data. In the first part of the talk, I will introduce and discuss the question of fairness in machine learning through concrete examples of biases coming from the data and/or from the algorithms. In a second part, I will demonstrate how statistical learning theory can help us better understand and overcome some of those biases. In particular, I will present a selection of recent results from two of my papers on the Demographic Parity constraint, a popular fairness constraint. In particular I will describe an interesting link between this constraint and optimal transport theory.

References:
– A minimax framework for quantifying risk-fairness trade-off in regression (with E. Chzhen), Ann. Statist. 50(4): 2416-2442 (Aug. 2022). DOI: 10.1214/22-AOS2198;
– Fair learning with Wasserstein barycenters for non-decomposable performance measures (with S. Gaucher and E. Chzhen), AISTATS 2023.

Lundi 8 avril 2024 à 14h30: Angélina Roche (CEREMADE, Université Paris Dauphine).

Analyse en Composantes Principales : des données fonctionnelles aux processus ponctuels

L’ACP fonctionnelle, en tant que méthode de visualisation, consiste à représenter des données fonctionnelles, c’est-à-dire des données qui se présentent sous forme de courbes, dans un espace de faible dimension. Cet espace de faible dimension est obtenu en diagonalisant l’opérateur de covariance associé aux données.

L’objectif de cet exposé est de présenter un travail en cours de finalisation, en collaboration avec Victor Panaretos (EPFL), Franck Picard (ENS de Lyon) et Vincent Rivoirard (Univ. Paris-Dauphine) dont l’objectif est d’étendre la notion d’ACP aux processus ponctuels. Nous nous appuierons sur des résultats récents en probabilité (Carrizo-Vergara, 2022), qui nous permettent de définir proprement une notion de mesure de covariance et donnent un sens à la notion d’ACP pour des mesures générales dans R^d. Dans le cas des processus ponctuels, nous obtenons une décomposition de type Karhunen-Loève (pour le processus) et Mercer (pour la mesure de covariance) que nous pouvons expliciter plus précisément dans le cas des processus de Poisson et des processus de Hawkes stationnaires. Une application à la visualisation de données de tremblements de terre, de données de réplications génomiques et de données de spikes neuronaux sera également présentée.

Lundi 11 mars 2024 à 14h30 : Gilles Stupfler (Université d’Angers). Some new perspectives on extremal regression.

The objective of extremal regression is to estimate and infer quantities describing the tail of a conditional distribution. Examples of such quantities include quantiles and expectiles, and the regression version of the Expected Shortfall. Traditional regression estimators at the tails typically suffer from instability and inconsistency due to data sparseness, especially when the underlying conditional distributions are heavy-tailed. Existing approaches to extremal regression in the heavy-tailed case fall into two main categories: linear quantile regression approaches and, at the opposite, nonparametric approaches. They are also typically restricted to i.i.d. data-generating processes. I will here give an overview of a recent series of papers that discuss extremal regression methods in location-scale regression models (containing linear regression quantile models) and nonparametric regression models. Some key novel results include a general toolbox for extreme value estimation in the presence of random errors and joint asymptotic normality results for nonparametric extreme conditional quantile estimators constructed upon strongly mixing data.

Joint work with A. Daouia, S. Girard, M. Oesting and A. Usseglio-Carleve.

Lundi 15 janvier 2024 à 14h30 : Claire Boyer (Sorbonne Université). Some statistical insights on PINNs.

Physics-informed neural networks (PINNs) combine the expressiveness of neural networks with the interpretability of physical modeling. Their good practical performance has been demonstrated both in the context of solving partial differential equations and more generally in the context of hybrid modeling, which consists of combining an imperfect physical model with noisy observations. However, most of their theoretical properties remain to be established. We offer some food for thought and statistical insight into the proper use of PINNs.

PROGRAMMATION 2023

Lundi 2 octobre 2023 à 14h30 : Didier Rullière (Mines Saint-Etienne). On Multi-output Kriging and Constrained Classification.

Interpolating or predicting data is of utmost importance in machine learning, and Gaussian Process Regression is one of the numerous techniques that is often used in practice. This paper considers the case of multi-input and multi-output data. It proposes a simple Joint Kriging model where common combination weights are applied to all output variables at the same time. This dramatically reduces the number of hyperparameters to be optimized, while keeping nice interpolating properties. An original constraint on predicted value is also introduced, useful for considering external information or adverse scenarios. Finally, it is shown that applied to membership degrees, the model is especially helpful for fuzzy classification problems. In particular, the model allows for prescribed average percentages of each class in predictions. Numerical illustrations are provided for both simulated and real data, and show the importance of the constraint on predicted values. The method also competes with state-of-the-art techniques on an open real world dataset.

Joint work with Marc Grossouvre

Lundi 18 septembre 2023 à 14h30 : Irène Tubikanec (University of Klagenfurt). Network inference in a stochastic multi-population neural mass model via approximate Bayesian computation.

The aim of this talk is to infer the connectivity structures of brain regions before and during epileptic seizure. Our contributions are fourfold. First, we propose a 6N-dimensional stochastic differential equation for modelling the activity of N coupled populations of neurons in the brain. This model further develops the (single population) stochastic Jansen and Rit neural mass model, which describes human electroencephalography (EEG) rhythms, in particular signals with epileptic activity. Second, we construct a reliable and efficient numerical scheme for the model simulation, extending a splitting procedure proposed for one neural population. Third, we propose an adapted Sequential Monte Carlo Approximate Bayesian Computation algorithm for simulation-based inference of both the relevant real-valued model parameters as well as the {0,1}-valued network parameters, the latter describing the coupling directions among the N modelled neural populations. Fourth, after illustrating and validating the proposed statistical approach on different types of simulated data, we apply it to a set of multi-channel EEG data recorded before and during an epileptic seizure. The real data experiments suggest, for example, a larger activation in each neural population and a stronger connectivity on the left brain hemisphere during seizure.

Lundi 17 avril 2023 à 14h30 (salle séminaire UFR Sciences/LMA) : Ulysse Herbach (Inria Nancy). Expression des gènes et réseaux de régulation : dépasser le clivage entre modèles mécanistes et statistiques.

L’inférence de graphes d’interactions entre les gènes est devenue un cas d’école pour la statistique en grande dimension, tandis que les modèles décrivant l’expression des gènes au niveau moléculaire ont pris tout leur sens avec l’arrivée des données de cellules uniques. Relier ces deux approches semble aujourd’hui crucial, mais le dialogue est loin d’être évident : les modèles statistiques sont souvent jugés trop simplistes voire irréalistes, et les modèles mécanistes sont réputés difficiles à calibrer à partir de données réelles.
Dans cet exposé, je montrerai qu’il est possible d’obtenir un cadre statistique à la fois bien posé mathématiquement et réaliste du point de vue des connaissances biologiques actuelles, à partir d’un modèle biochimique markovien décrivant l’expression au cours du temps d’un nombre arbitraire de gènes en interaction. Plus précisément, il s’agit d’interpréter la loi de probabilité invariante du processus markovien comme une vraisemblance statistique : cette loi admet une expression analytique simple pour toute une classe de paramètres et s’interprète alors comme un champ de Markov caché aux propriétés intéressantes.

Lundi 06 mars 2023 à 14h30 (salle séminaire UFR Sciences/LMA) : Emmanuelle Claeys (Université Paul Sabatier, Toulouse). Dynamic allocation optimization in A/B tests using classification-based preprocessing.

An A/B test evaluates the impact of new technology by implementing it in a real production environment and testing its performance on a set of users. Recent developments in A/B testing have focused on dynamic allocation using bandit models. These methods minimize the cost of the test while evaluating variations (A or B). However, dynamic allocation using bandit methods relies on some assumptions that may not always be true in reality, particularly in non-homogeneous user populations. This presentation introduces a new reinforcement learning methodology for dynamic allocation in A/B testing and discusses how to integrate evolutionary covariates for dynamic contextual allocation.

Lundi 13 février 2023 à 14h30 (salle séminaire UFR Sciences/LMA) : Antoine Marchina (Université Paris Cité). Concentration inequalities for suprema of unbounded empirical processes.

In this talk, we will provide new concentration inequalities for suprema of (possibly) non-centered and unbounded empirical processes associated with independent and identically distributed random variables. In particular, we establish Fuk-Nagaev type inequalities with the optimal constant in the moderate deviation bandwidth. We will also explain the use of these results in statistical applications (ongoing research).

Lundi 16 janvier 2023 à 14h30 (salle séminaire UFR Sciences/LMA) : Paul Bastide (CNRS, Université de Montpellier). A Cauchy Process to Model Trait Evolution on a Phylogeny.

Phylogenetic comparative methods correct for the shared evolutionary history among a set of non-independent organisms by modeling the sampled continuous trait as arising from a diffusion
process along the branches of a phylogenetic tree. Beyond the Brownian motion, several processes have been proposed in the literature, either Gaussian, in which case efficient algorithms relying on the Kalman filter are available, or based on more general Lévy processes, that can model a realistic evolution with jumps, but that are computationally intensive. Here, we propose to use a Cauchy process, for which we derive a recursive algorithm to compute the likelihood in a polynomial time.
The Cauchy process is a pure jump process, that can be used to model viral geographical diffusion as well as ecological trait evolution on various time scales.

PROGRAMMATION 2022

Lundi 12 décembre 2022 à 14h30 (salle séminaire UFR Sciences/LMA) : Félix Cheysson (CNRS, Université Gustave Eiffel). Spectral estimation of Hawkes processes from count data.

Hawkes processes are a family of stochastic processes for which the occurrence of any event increases the probability of further events occurring. When count data are only observed in discrete time, we propose a spectral approach for the estimation of Hawkes processes, by means of Whittle’s estimation method. To get asymptotic properties for the estimator, we prove alpha-mixing properties for the series of counts, using the Galton-Watson properties of the cluster representation of Hawkes processes. Simulated datasets and an application to the incidence of measles in Tokyo illustrate the performances of the estimation, notably of the Hawkes reproduction function, even when the time between observations is large. Some perspectives for non-linear Hawkes models and missing data are also explored.

Lundi 16 mai 2022 à 14h30 (salle séminaire UFR Sciences/LMA) : Elena Di Bernardino (Laboratoire J.A. Dieudonné, Université Côte d’Azur, Nice). Champs aléatoires gaussiens et mélanges gaussiens : géométrie stochastique, statistique inférentielle et extrêmes spatiaux.

De nombreux résultats concernant les propriétés géométriques des champs aléatoires ont été établis dans le cas des champs gaussiens ; citons par exemple la longueur des lignes nodales ou la caractéristique d’Euler qui décrivent la structure topologique des excursions. Par ailleurs, les modèles les plus utilisés dans le cadre de l’analyse statistique des valeurs extrêmes de processus spatiaux sont les processus de mélange gaussien, en échelle ou en position. Dans cet exposé, on commencera par présenter quelques résultats concernant la géométrie des excursions gaussiennes et on montrera comment les utiliser en statistique inférentielle pour exhiber des propriétés du champ considéré. Ensuite, on étendra ces résultats à certains modèles de mélange ainsi qu’à des processus limites connus sous le nom de processus de Pareto généralisés.

Travail en collaboration avec Anne Estrade (MAP5, Paris) et Thomas Opitz (BioSP, INRAE Avignon).

Lundi 9 mai 2022 à 14h30 (salle séminaire UFR Sciences/LMA) : Stéphane Chrétien (Laboratoire ERIC, Université Lyon 2). Méthode de Neuberger pour l’analyse du phénomène de l’interpolation dans le contexte de la régression en haute dimension.

Les réseaux de neurones profonds sont au coeur de la révolution du deep learning et ont suscité beaucoup d’investigations récentes. Plusieurs raisons sont à l’origine du succès de ces nouvelles techniques. L’une d’entre elles, peut-être la plus fascinante, est la capacité des réseaux de neurones à forger des features qui peuvent ensuite permettre de classifier ou régresser sur les bons attributs. Le prix à payer pour la réalisation de cette prouesse est de passer en très grande dimension paramétrique, jusqu’à dépasser de plusieurs ordres de grandeur le nombre de données d’entrainement. La surparamétrisation rend alors possible l’overfitting d’où l’on peut craindre l’impossibilité de généraliser sur de nouvelles données. Or, ce n’est pas ce qui est constaté en pratique et de nombreux chercheurs se sont posés la question de comprendre comment un estimateur interpolant, i.e. d’erreur d’entrainement nulle, peut malgé tout généraliser correctement. Les premiers travaux sur le phénomène de Benign Overfitting ont surtout été consacrés aux modèles de régression lineaire et à noyaux. L’objet de notre travail est de proposer une méthode permettant d’élucider ce mystère par une approche différente de celle mise en oeuvre dans la litérature actuelle, mettant en oeuvre un théorème publicisé par Neuberger, proche de la méthode de Newton, et de montrer son application à des modèles de régression non-linéaires.  Si le temps le permet, nous montrerons aussi comment l’approche permet d’étudier des réseaux de neurones profonds.

Lundi 4 avril 2022 à 14h30 (salle séminaire UFR Sciences/LMA) : Vincent Brault (Inria Grenoble Rhône-Alpes). Mélange de segmentations.

Lorsque les observations d’un phénomène semblent provenir de plusieurs lois différentes, il existe deux approches dans la littérature~: soit l’ordre des observation a un sens (comme dans le cas de série temporelle) et nous chercherons dans ce cas les moments de ruptures séparant les lois (Carlstein et al., 1994), soit il n’en a pas et nous utiliserons les modèles de mélange (McLachlan, 1982). Dans chacun des cas, les procédures sont alors assez différentes. Dans le cas de tableaux, il est possible de chercher des comportements différents à la fois sur les lignes et les colonnes et, là encore, il existe deux techniques suivant si l’ordre des lignes et des colonnes a un sens (Brault et al., 2017, 2018) ou pas (Govaert et Nadif, 2003).
Toutefois, et à notre connaissance, il n’existe pas encore de procédure lorsque l’ordre sur les colonnes a un sens mais pas celui sur les lignes (ou inversement). Pour l’instant, les modèles utilisés considèrent les colonnes sans ordre en espérant que les groupes formés à la fin soient connexe et/ou cohérents (voir par exemple Bouveyron et al., 2017).
Dans ce travail, nous tentons de concilier les outils des deux communautés pour étudier l’apport de bien considérer l’ordre ou non. Nous présenterons différentes procédures issues du croisement de ces communautés et comparerons les résultats avec les procédures faisant le choix de ne pas prendre en compte l’ordre.

Lundi 31 janvier 2022 à 14h30 (salle séminaire UFR Sciences/LMA) : Stéphane Girard (Inria Grenoble Rhône-Alpes). Estimation of the tail-index and extreme quantiles from a mixture of heavy-tailed distributions

The estimation of extreme quantiles requires adapted methods to extrapolate beyond the largest observation of the sample. Extreme-value theory provides a mathematical framework to tackle this problem together with statistical procedures based on the estimation of the so-called tail-index describing the distribution tail. We focus on heavy-tailed distributions and consider the case where the shape of the distribution tail depends on unknown auxiliary variables. As a consequence, one has to deal with observations from a mixture of heavy-tailed distributions, and it is shown that, in such a situation, usual extreme-value estimators suffer from a strong bias. We propose several methods to mitigate this bias. Their asymptotic properties are established and their finite sample performance is illustrated both on simulated and real financial data. This is joint work with Emmanuel Gobet.

PROGRAMMATION 2021

Lundi 13 décembre 2021 à 14h30 (salle séminaire UFR Sciences/LMA) : Nicolas Meyer (Institut Montpelliérain Alexander Grothendieck, Université de Montpellier). Multivariate sparse clustering for extremes.

Studying the tail dependence of multivariate extremes is a major challenge in extreme value analysis. Under a regular variation assumption, the dependence structure of the positive extremes is characterized by a measure, the spectral measure, defined on the positive orthant of the unit sphere. This measure gathers information on the localization of large events and has often a sparse support since such events do not simultaneously occur in all directions. However, it is defined via weak convergence which does not provide a natural way to capture this sparsity structure. In this talk, we introduce the notion of sparse regular variation which allows to better learn the tail structure of a random vector X. We use this concept in a statistical framework and provide a procedure which captures clusters of extremal coordinates of X. This approach also includes the identification of a threshold above which the values taken by X are considered as extreme. It leads to an efficient algorithm which we apply on several examples.

Lundi 29 novembre 2021 à 14h30 (salle séminaire UFR Sciences/LMA) : Christophe Biernacki (Laboratoire Paul Painlevé, Lille). Frugal Gaussian clustering of huge imbalanced datasets through a bin-marginal approach.

Clustering conceptually reveals all its interest when the dataset size considerably increases since there is the opportunity to discover tiny but possibly high value clusters which were out of reach with more modest sample sizes. However, clustering is practically faced to computer limits with such high data volume, since possibly requiring extremely high memory and computation resources. In addition, the classical subsampling strategy, often adopted to overcome these limitations, is expected to heavily failed for discovering clusters in the highly imbalanced cluster case. Our proposal first consists in drastically compressing the data volume by just preserving its bin-marginal values, thus discarding the bin-cross ones. Despite this extreme information loss, we then prove identifiability property for the diagonal mixture model and also introduce a specific EM-like algorithm associated to a composite likelihood approach. This latter is extremely more frugal than a regular but unfeasible EM algorithm expected to be used on our bin-marginal data, while preserving all consistency
properties. Finally, numerical experiments highlight that this proposed method outperforms subsampling both in controlled simulations and in various real applications where imbalanced clusters may typically appear, such as image segmentation, hazardous asteroids recognition and fraud detection.

Lundi 11 octobre 2021 à 14h30 (salle séminaire UFR Sciences/LMA) : Antoine Usseglio-Carleve (Laboratoire de Mathématiques d’Avignon). Quelques modèles de régression extrême.

Si estimer la médiane (quantile de niveau 0.5) ou le quartile (quantile de niveau 0.25 ou 0.75) d’une variable aléatoire Y paraît évident lorsqu’on dispose d’un échantillon de taille n, qu’en est-il si le niveau de quantile que l’on cherche à estimer dépasse 1-1/n ? Dans ce cas, l’usage de la classique statistique d’ordre renvoie systématiquement le maximum de l’échantillon, et mène alors à une estimation non-consistante du quantile désiré. Grâce à la théorie des valeurs extrêmes, on trouve dans la littérature des méthodes d’extrapolation pour estimer de tels quantiles. La particularité de ce travail est que la variable d’intérêt Y est impactée par un vecteur de covariables X. L’enjeu est alors d’estimer des quantiles extrêmes de la loi conditionnelle de Y sachant X=x. Pou cela, on propose d’abord une approche de régression purement non-paramétrique, en proposant des estimateurs de quantile et d’expectile (une alternative au quantile que l’on introduira) extrêmes, et en étudiant leurs propriétés asymptotiques. La vitesse de convergence de ces estimateurs se dégradant assez fortement lorsque la taille de la covariable X augmente, on proposera alors quelques modèles sur X et Y permettant de contourner le fléau de la dimension. Quelques applications en assurance ou catastrophe naturelle seront proposées.

Lundi 4 octobre 2021 à 14h30 (salle séminaire UFR Sciences/LMA) :  Anna Melnykova (Laboratoire de Mathématiques d’Avignon).  Non-asymptotic statistical test of the covariance matrix rank of a 2-dimensional SDE.

The aim of this work is to develop a testing procedure which determines the rank of the noise in a two-dimensional stochastic process from discrete observations of this process on a fixed time interval $[0,T]$ sampled with a fixed time step $\Delta$. First, we construct the main statistics of the test, given by a random matrix determinant, as proposed in Jacod \& Podolskij (2013). We show that the performance of the test based on this statistics is limited in a non-asymptotic setting, when $\Delta$ is fixed. Then, we show how the performance of the test can be improved by centering the increments of the process around their expected value, given by the drift term. Finally, we derive the distribution of the centered statistics and show under which conditions the Type I and Type II errors of the test can be controlled.

PROGRAMMATION 2020

Lundi 12 octobre 2020 à 14h30 (salle séminaire UFR Sciences/LMA) : Emmanuel Caron (Laboratoire de Mathématiques d’Avignon). The regression models with dependent errors.

We consider the usual linear regression model in the case where the error process is assumed strictly stationary. We use a result from Hannan (1973), who proved a Central Limit Theorem for the usual least squares estimator under general conditions on the design and on the error process. Whatever the design satisfying Hannan’s conditions, we define an estimator of the covariance matrix and we prove its consistency under very mild conditions. As an application, we show how to modify the usual tests on the linear model in this dependent context, in such a way that the type-I error rate remains asymptotically correct. Then, we present some results on the non-parametric regression model in the case where the error process is a Gaussian stationary sequence.

Vendredi 17 janvier 2020 à 13h15 (salle séminaire UFR Sciences/LMA) : Christophe Biscio (Department of Mathematical Sciences, Aalborg University, Denmark). Théorème central limite et méthode de sous-échantillonnage pour processus ponctuels alpha-mélangeants.

Central limit theorems for multivariate summary statistics of alpha-mixing spatial point processes have usually been established using either the so-called Bernstein’s blocking technique or an approach based on Bolthausen’s results. It is characteristic that essentially the same theorems have been (re)-invented again and again for different specific settings and statistic considered. Moreover, although there exists estimates in some particular cases, the asymptotic variance is usually unknown or difficult to compute. We present a unified framework based on Bolthausen’s work to state, once and for all, a general central limit theorem for alpha-mixing multivariate point process that applies in a general non-stationary setting and is also applicable to non-parametric kernel estimators depending on a bandwidth converging to zero. In particular, we argue why this approach is more suitable than the one using Bernstein’s blocking technique. We believe this can save a lot of work and tedious repetitions in future applications of alpha-mixing point processes. Finally, we will present an on-going work where we establish the rate of convergence of the central limit theorem for summary statistics of point processes.

PROGRAMMATION 2019

Lundi 29 avril 2019 à 14H30 (salle de séminaire UFR Sciences au CERI) : Alexandre Brouste (Laboratoire Manceau de Mathématiques, Université du Maine). Parametric estimation in self-similar processes at high-frequency.

Asymptotic efficiency of the sequences of maximum likelihood estimators (MLE) and one-step MLE are considered in statistical experiments implying the fractional Gaussian noise or symmetric stable random variables observed at high-frequency. Likelihood ratio hypothesis tests are also studied with an application to oil price modeling.

Vendredi 5 avril 2019 à 10H00 (salle de séminaire UFR Sciences au CERI) : Mathieu Ribatet (IMAG, Université Montpellier 2). Jouons avec les partitions aléatoires.

Cette présentation tournera autour de la notion de partitions aléatoires et nous verrons comment nous pouvons faire de l’inférence à partir de ces dernières. Nous commencerons par présenter un travail (en cours) sur le co-clustering où il s’agira de tenter d’obtenir simultanément des partitions sur les lignes et les colonnes d’un tableau de données afin d’en dégager une structure. Nous changerons ensuite de domaine en nous intéressant aux processus max-stables. Nous verrons que ces processus, très populaires pour la géostatistique des valeurs extrêmes, admettent une structure cachée. Après un bref « mini cours » sur cette famille de processus, nous verrons deux résultats ; l’un portant sur la simulation conditionnelle, l’autre sur une nouvelle mesure de dépendance spatiale.

Lundi 1 avril 2019 à 14H30 (salle de séminaire UFR Sciences au CERI) : Aboubacar Amiri (LEM, Université Lille 3). Estimation non paramétrique pour des flux de données.

Dans cet exposé, nous nous intéresserons  à l’estimation fonctionnelle dans un cadre non-paramétrique pour des  flux de données. La première partie  porte sur une  définition et une  modélisation statistique de ce type de données. Dans la deuxième partie,  nous présenterons brièvement quelques  questions relatives à  l’estimation non paramétrique d’une distribution, lorsque l’échantillon d’apprentissage  est de nature temporelle, spatiale, ou spatiotemporelle  et se présente sous forme de flux de données. Nous  considérerons le cas d’un modèle statistique dans lequel la variable aléatoire générique est multivariée ou circulaire. Nous évoquerons aussi les modèles de régression  non paramétriques par polynômes locaux. Ces modèles seront revisités dans un contexte de flux de données multivariées.  Dans la troisième partie, nous présenterons les modèles de régression non paramétriques d’une variable réelle sur une covariable de nature fonctionnelle.  Nous estimerons l’opérateur de régression lorsque le processus générateur des données est localement stationnaire.

Lundi 11 mars 2019 à 14H30 (salle de séminaire UFR Sciences au CERI) : Philippe Naveau (Laboratoire des Sciences du Climat et de l’Environnement / LSCE-IPSCL-CNRS). Analysis of extreme climate events by combining multivariate extreme values theory and causality theory.

Multiple changes in Earth’s climate system have been observed over the past decades. Determining how likely each of these changes are to have been caused by human influence, is important for decision making on mitigation and adaptation policy. This is particularly true for extreme events, e.g. the 2003 European heatwave. To quantity these issues, we combine causal counterfactual theory (Pearl 2000) with multivariate extreme value theory. In particular, we take advantage of recent advances in the modeling of the multivariate generalized Pareto distributions to propose a conceptual framework to deal with climate-related events attribution.

(Joint work with Anna Kiriliouk, Alexis Hannart, Julien Worms and Soulivanh Thao)

Lundi 25 février 2019 à 14H30 (salle de séminaire UFR Sciences au CERI) : Rachid Senoussi (BioSP – Biostatistique et processus spatiaux, département MIA, INRA Avignon). Processus auto-régressifs en temps continu et en temps discret : Quels liens possibles?

Une question classique pour un processus autorégressif  à temps discret (DAR) est de savoir s’il peut être « plongé » dans un processus AR en temps continu (CAR). Selon la définition que l’on entend donner au mot « plongement »,  les réponses seront plus ou moins nombreuses et plus ou moins sophistiquées. Pour notre part, nous développerons deux étapes/approches complémentaires à la résolution de cette question. Tout d’abord, on montre qu’il peut s’avérer quelquefois indispensable que certaines dynamiques auto-régressives à valeurs réelles s’étendent aux  valeurs complexes. Nous proposons ensuite une extension naturelle de la définition des processus autorégressifs linéaires en temps continu (à coefficients éventuellement aléatoires et dépendants du temps) en prenant des innovations de type semi-martingales et en particulier à sauts, autorisant de ce fait  même le « plongement » des AR à temps discret.  Quelques exemples seront donnés pour illustrer la richesse offerte par ces extensions.

PROGRAMMATION 2018

Lundi 17 décembre 2018 à 14H30 (salle de séminaire UFR Sciences au CERI) : Thomas Laloë (Laboratoire J.-A. Dieudonné, Université de Nice – Sophia Antipolis). Estimation adaptative d’une fonction de régression multivariée et application à la théorie du risque

Dans cet exposé, je présenterai un estimateur adaptatif non-paramétrique d’une fonction de régression multivariée. L’ idée est de s’affranchir d’une hypothèse classique en estimation de la régression : la compacité du support du design.  Un estimateur à noyau déformé adaptatif est tout d’abord défini dans le cas où la loi du design est connue. Dans un second temps, nous proposons d’estimer également celle-ci: les marginales sont estimées via les fonctions de répartition empiriques et structure de dépendance via une estimation de la densité de copule. Le plug-in de ces estimateurs dans celui de la fonction de régression permet ensuite d’obtenir un estimateur dans le cas général. Enfin j’introduirai une mesure de risque : la CCTE qui est la valeur moyenne d’une fonction de coût sachant que l’on se trouve dans les queues de la distribution du design.

Lundi 10 décembre 2018 à 14H30 (salle de séminaire UFR Sciences au CERI) : Clémentine Prieur (Laboratoire Jean Kuntzmann, Université Grenoble Alpes). Résolution d’EDP en grande dimension par processus stochastiques

Les méthodes numériques standards (telles que les éléments finis) sont efficaces pour résoudre les EDPs en faible dimension, mais sont difficiles à mettre en oeuvre dans les problèmes de plus grande dimension. Pour aborder la résolution des EDPs en grande dimension, nous proposons une méthode d’approximation sparse adaptative qui repose notamment sur une interprétation probabiliste des EDPs (utilisant la représentation de Feynman-Kac). Une méthode type Monte-Carlo est utilisée pour obtenir des évaluations ponctuelles bruitées de la solution de l’EDP à partir desquelles une interpolation approchée de la solution globale de l’EDP est calculée. Plus précisément, les évaluations ponctuelles sont obtenues dans ce travail en appliquant un algorithme séquentiel de variables de contrôle, proposé par Gobet & Maire (2004), dans lequel les variables de contrôle sont construites à partir d’approximations successives de la solution de l’EDP. Deux algorithmes sont ensuite proposés, combinant l’approximation sparse adaptative avec l’algorithme séquentiel de variables de contrôle de deux manières différentes.
Nous montrerons différents exemples numériques pour illustrer le comportement de ces algorithmes.

Lundi 5 novembre 2018 à 14H30 (IUT, Salle GB-5) : Eric Marcon (EcoFoG, AgroParisTech). Mesure de la biodiversité et de la structuration spatiale de l’activité économique par l’entropie.

Les mesures de la concentration spatiale et de la spécialisation en économie sont très similaires à celles de la biodiversité et de la valence des espèces en écologie. L’entropie est la notion fondamentale, issue de la physique statistique et la théorie de l’information, utilisée pour mesurer la concentration et la spécialisation. La notion de nombre effectif, qui est un nombre de catégories dans une distribution idéale simplifiée, est introduite de même que la décomposition de la diversité totale d’une distribution bidimensionnelle en concentration ou spécialisation absolue et relative et en réplication. L’ensemble fournit un cadre théorique complet et robuste pour mesurer la structuration spatiale en espace discret.

Lundi 4 juin 2018 à 14H30 : Thomas Opitz (BioSp INRA). Processus spatiaux basés sur la convolution avec des noyaux indicateurs: propriétés et inférence.

Process convolutions yield flexible stochastic processes beyond the realm of Gaussianity, but statistical inference is often hampered by the lack of closed-form marginal distributions. We here remedy such issues through a class of process convolutions based on smoothing a (d+1)-dimensional Lévy basis with an indicator function kernel to construct a d-dimensional convolution process. Such indicator kernels ensure univariate distributions in the Lévy basis family (such as Poisson, negative binomial, gamma, Gumbel, inverse gaussian, stable, student, and many others), which provides a sound basis for interpretation, parametric modeling and statistical estimation. We propose a class of stationary convolution processes constructed through so-called hypograph indicator sets defined as the space between the curve (s,H(s)) of an elliptical probability density function H and the plane (s,0). Dependence properties of such processes will be explored. For statistical inference of parametric models, we develop pairwise likelihood techniques. This modeling framework is illustrated on real data examples, and we point out extensions towards a number of interesting hierarchical models.

Lundi 19 mars 2018 à 14H30 : Rachid Senoussi (BioSp INRA). Modèles de covariances non isotropes sur la sphère S^d par difféomorphismes : de l’intérêt d’y aller et du comment en revenir.

On montre dans un premier temps comment on peut  enrichir énormément la classe des structures de covariances non isotropes C(x,y) sur une sphère S^d à partir d’une covariance isotrope R (<x,y>) , ces dernières ayant été précédemment entièrement caractérisées, et de la donnée d’un difféomorphisme de la sphère Phi (x). Des familles
pertinentes de difféomorphismes seront proposées en exemples. Par ailleurs et de façon inattendue, la preuve de conditions
suffisantes à l’existence de ce type de covariances non isotropes permet aussi d’identifier dans le cas régulier la covariance
isotrope d’origine et à transformation orthogonale près, le difféomorphisme responsable.

PROGRAMMATION 2017

Lundi 20 novembre 2017 à 14H30 (IUT, Salle GB-3) : Julie Fournier (MAP 5, Paris Descartes). Identification et caractérisation de l’isotropie des champs aléatoires déformés via leurs ensembles d’excursion

Une application déterministe θ de R2 dans lui-même déforme le plan de façon bijective et régulière. Avec un champ aléatoire X réel et défini sur R2, régulier, stationnaire et isotrope, elle entre dans la construction d’un champ déformé défini comme la composée de X avec θ. Un champ déformé est en général anisotrope, cependant certaines applications θ, dont on propose une caractérisation explicite, préservent l’isotropie. En supposant en outre que X est gaussien, on définit une forme faible d’isotropie d’un champ déformé par une condition d’invariance de la caractéristique d’Euler moyenne de certains de ses ensembles d’excursion. On prouve que les champs déformés satisfaisant cette définition sont en réalité isotropes en loi. Dans une dernière partie de l’exposé, en supposant connue la caractéristique d’Euler moyenne de certains ensembles d’excursion d’un champ déformé, on prouve qu’il est possible d’identifier la déformation θ associée.

Lundi 13 novembre 2017 à 14H30 (IUT, Salle GB-5) : Mathieu Ribatet (IMAG, Montpellier). A journey along the sample path of a max-stable process. 

Max-stable processes play a major role in the areal modeling of spatial extremes, and more precisely pointwise maxima. This talk will cover some probabilistic as well as statistical aspects related to these processes. More precisely, we will review some (more or less) recent results about the hidden structure of max-stable processes through the notion of spectral characterization, extremal and sub-extremal functions as well as the hitting scenario. We will then see how one can achieve conditional simulations from max-stable processes using this hidden structure. Next a novel (spatial) dependence summary measure for spatial extremes, namely the extremal concurrence probability, will be introduced and the strongly connected notion of extremal concurrence cell. Finally, if we have enough time, we will see how full likelihood inference for max-stable processes is actually possible—though highly CPU demanding.

Lundi 24 avril 2017 à 14H30 (IUT, Salle GB-5) : Benoît Henry (LORIA, Nancy). Approximation du spectre de fréquence d’un Splitting Tree avec mutations Poissoniennes neutres.

Dans cet exposé, nous introduirons un modèle de dynamique des  populations dans lequel les individus vivent et se reproduisent de manière i.i.d. Leurs durées de vie suivent une loi arbitraire alors que la reproduction se produit de manière Poissonienne. Le processus (Nt, t∈R+) comptant le nombre d’individus vivant à un instant t est alors un processus de branchement, généralement non-Markovien, dit de Crump-Mode-Jagers (binaire et homogène). Nous supposerons de plus que des mutations neutres touchent les individus à taux θ sous l’hypothèse d’infinité d’allèles : chaque nouvelle mutation remplace le type de son porteur par un type totalement nouveau. Ce mécanisme mène à une partition de la population vivante par type. Le spectre de fréquence allélique est la suite d’entiers (A(k,t))k≥1 où l’entier A(k,t) est le nombre de classes (familles) de taille k. L’étude de cet objet est notamment motivée par son utilisation pour la détection de gènes en cours de
sélection dans des populations en croissance. Le but de cet exposé est d’introduire une méthode d’approximation du spectre de fréquence facilitant son étude. L’erreur commise lors de cette approximation est alors étudiée grâce à un TCL dont la preuve est l’un des objectifs principaux de la présentation.

Lundi 20 mars 2017 à 14H30 (IUT, Salle GB-5) : Gabriela Ciuperca (Lyon 1). Méthodes LASSO adaptatives, du modèle linéaire au modèle avec change-points

Assez souvent en pratique, nous sommes confrontés au traitement d’un très grand nombre de variables, le nombre d’observations pouvant être grand, mais peut-être aussi plus petit que le nombre de variables à analyser. L’analyse automatique des variables s’impose alors, sachant que dans ce cas, les méthodes dites classiques de statistique ne sont pas adaptées. Deux méthodes LASSO adaptatives seront présentées et étudiées théoriquement et numériquement.

Dans la deuxième partie de l’exposé je présenterai des modèles qui peuvent changer, des modèles étudiés à rétrospectivement ou en temps réel. Un objectif principal pour les modèles avec change-points est l’étude de la conservation de la sélection automatique des variables dans chaque phase. Je présenterai les méthodes statistiques utilisées, les résultats théoriques (lois asymptotiques, vitesse de convergence) et les simulations numériques correspondantes. Si le modèle est testé en temps réel, la technique CUSUM est étudiée. Si le modèle est analysé a posteriori, on propose un critère consistant pour trouver le nombre de change-points, on estime leur localisation et ensuite chaque phase du modèle est estimée. La propriété de sparsité (sélection automatique des variables) n’est pas affectée par la présence du change-point.

Lundi 06 mars 2017 à 14H30 (IUT, Salle GB-5) : Clément Dombry (Besançon). Full likelihood inference for multivariate extreme value distributions

Full likelihood inference methods for max-stable distributions suffer from the curse of dimension since the number of terms in the full likelihood in dimension d is equal to the Bell number Bd. For instance, B10 ≈ 1,16 105 and B20 ≈ 5,17 1023. A direct maximisation of the likelihood is hence extremely challenging and one often uses pairwise or composite likelihood instead. The purpose of this talk is to present two on-going projects dealing with an EM approach for maximising the full likelihood and a Bayesian methodology. We introduce an additional random variable, called hitting scenario, defined as a random partition associated with the occurrence times of the maxima. Treating the hitting scenario as a missing observation, the completed likelihood becomes simpler and we can apply a EM strategy to maximise the full likelihood or a Monte-Carlo Markov Chain approach to estimate the posterior distribution. Preliminary numerical studies based on the logistic model will be presented during the talk.

This talk is based on a joint work with M.Genton, R.Huser and M.Ribatet for the EM approach, S.Egenlke and M.Oesting for the Bayesian approach.

Lundi 27 février 2017 à 14H30  (IUT, Salle GB-5) : Lucie Montuelle (Agrocampus Ouest, Rennes). Short-term wind power forecasting

Wind power forecasting is a problem in touch with economic, industrial and environmental challenges. In the framework of the ANR project Forewer, real-time wind power forecast on at a wind farm scale has been considered, based on meteorological data. Machine learning technics have been tested and compared to parametric models, close to the physical model. On the studied data set, learning methods, especially well-calibrated Random Forests, have shown the best performances. Moreover, our procedure seems robust to the error on the wind speed measure. This work has been conducted with A. Fischer, M. Mougeot et D. Picard.

Lundi 30 janvier 2017 à 14H30 (IUT, Salle GB-3) : Nicolas Champagnat, IECL (Nancy) & INRIA Tosca. Comportement asymptotique du spectre de fréquence dans des processus de branchement généraux avec mutations neutres

Il s’agit de travaux en collaboration avec A. Lambert, M. Richard et B. Henry.

On considère un processus de branchement où les durées de vies ont une loi quelconque et les naissance se produisent selon un processus de Poisson pendant la durée de vie des individus. Il s’agit d’un processus de branchement non-markovien (en général), dont l’arbre généalogique est appelé « splitting tree ». On suppose de plus que des mutations se produisent selon un processus de Poisson indépendant pendant la durée de vie des individus et que chaque nouvelle mutation apporte un type nouveau qui n’a pas d’influence sur la dynamique de population (modèle neutre à une infinité d’allèle). On s’intéresse au spectre de fréquence à une date t, c’est-à-dire au nombre de familles clonales d’effectif k à la date t, pour tout entier k. La distribution de ce spectre de fréquence est bien connue en génétique des populations lorsque la dynamique de population est donnée par le modèle de Moran (formule d’échantillonnage d’Ewens). Dans notre cas, elle est inconnue en général. On s’intéresse à diverses propriétés de cette distribution: son espérance, ses moments, le comportement asymptotique de la taille de la plus grande famille, de l’âge de la plus ancienne famille. L’outil principal de cette étude est le codage de l’arbre généalogique de la population par son processus de contour avec saut, qui se trouve être un processus de Lévy pour les splitting trees.

PROGRAMMATION 2016

Lundi 5 décembre 2016 à 14H30 (IUT, Salle TC-105): Thibault Bourgeron (ENS Lyon). Dynamique adaptative de population sexuée, structurée en âge, induite par un changement d’environnement

On présentera des équations aux dérivées partielles modélisant l’adaptation d’une population sexuée à un (changement d’)environnement par recombinaison et sélection. La reproduction sexuée est modélisée par l’opérateur infinitésimal, qui n’est ni linéaire ni monotone. On montrera l’existence d’éléments propres sans la théorie de Krein-Rutman qui n’est pas applicable à ce problème. Dans un certain rapport des échelles phénotypiques la méthodologie de l’approximation WKB peut être adaptée à cette équation pour obtenir un développement de la densité de population à l’équilibre par rapport à la variance génétique créée à chaque génération. La structure d’âge fait apparaître des effets non linéaires (mur de mortalité). On illustrera ces résultats avec des simulations numériques. »

Lundi 28 novembre 2016 (BioSP) : Francisco Javier Rodríguez-Cortés (Université Jaume I, Castellon). Testing for local structure in spatio-temporal point pattern data

Vendredi 24 juin 2016 (FRUMAM, Marseille) : Cinquièmes Rencontres de Statistique Avignon-Marseille

Invités et orateurs : Stéphanie Allassonnière (CMAP, Ecole Polytechnique), Romain Azais (INRIA Nancy), Catherine Matias (Université Pierre et Marie Curie, CNRS, Paris), Thomas Opitz (INRA Avignon, BioSp), Quentin Paris (Laboratory of Stochastic Analysis and its Application, Moscow), Frédéric Richard (Institut de Mathématiques de Marseille)

Lundi 18 avril 2016 à 14H30 (IUT, Salle GB-5) : Pierre-Olivier Goffard (Université Libre de Bruxelles, Belgique). Approximations polynomiales de densités de probabilité et applications en assurance

L’exposé porte sur les méthodes numériques d’approximation de la densité de probabilité associée à des variables aléatoires admettant des distributions composées. Ces variables aléatoires sont couramment utilisées en actuariat pour modéliser le risque supporté par un portefeuille de contrats. En théorie de la ruine, la probabilité de ruine ultime dans le modèle de Poisson composé est égale à la fonction de survie d’une distribution géométrique composée. La méthode numérique proposée consiste en une projection orthogonale de la densité sur une base de polynômes orthogonaux. Ces polynômes sont orthogonaux par rapport à une mesure de probabilité de référence appartenant aux Familles Exponentielles Naturelles Quadratiques. La méthode d’approximation polynomiale est comparée à d’autres méthodes d’approximation de la densité basées sur les moments et la transformée de Laplace de la distribution. L’extension de la méthode en dimension supérieure à 1 est présentée, ainsi que l’obtention d’un estimateur de la densité à partir de la formule d’approximation.

Lundi 14 mars 2016 à 14H30 (BioSP) : Fabrice Gamboa (Université Paul Sabatier, Toulouse)

Double séance, exceptionnellement à l’INRA dans la salle de réunion de BioSP

Exposé 1 : Panorama sur l’estimation des indices de Sobol

Dans cet exposé, nous donnerons un panorama récent des méthodes de statistique asymptotique pour l’estimation des indices de sensibilité du 1er ordre par la méthode dite du Pick and Freeze. Ces indices sont les normes carrées des contributions normalisées dans la décomposition de Hoeffding d’une fonction.

Exposé 2 : Grandes déviations et théorèmes de Szegö

Des arguments de grandes déviations sur des modèles de matrices aléatoires permettent d’obtenir des théorèmes spectraux à la Szegö.

Lundi 25 janvier 2016 à 14H30 (IUT, Salle GB-5) : Adeline Leclercq Samson (Université Joseph Fourier, Grenoble). Modèles de diffusion et leur intérêt potentiel en écologie

Je présenterai différentes équations différentielles stochastiques dont les solutions peuvent modéliser des trajectoires (déplacement, mouvement) en écologie (ou autre). Je donnerai pour chaque famille de diffusions un aperçu des méthodes d’estimation paramétriques ou non-paramétriques existantes.

PROGRAMMATION 2015

Vendredi 26 juin 2015 (Avignon) : Quatrièmes Rencontres de Statistique Avignon-Marseille

Invités et orateurs : Delphine Blanke (LMA, Université d’Avignon), Anne-Laure Fougères (ICJ, Université Lyon1), Xavier Gendre (IMT, Université Toulouse 3), Arnaud Guyader (LSTA, Université Pierre et Marie Curie – Paris 6, Thibaut Le Gouic (IMM, École Centrale de Marseille), Nicolas Verzelen (INRA, Montpellier)

Vendredi 17 avril 2015 à 11H30 (IUT, salle GB-5) : Pierre Pudlo (Université Montpellier 2). « Statistique computationnelle sans vraisemblance »

Lorsque les modèles stochastiques se complexifient, il devient souvent difficile voir impossible d’évaluer numériquement la fonction de vraisemblance. C’est le cas lorsque la modélisation inclut un processus latent de grande dimension, ou lorsque la loi est connue à une constante de normalisation (qui dépend de la valeur du paramètre). Nous présenterons quelques méthodes d’inférence essentiellement bayésiennes dans cette situation : méthodes bayésiennes approchées (ou ABC pour Approximate Bayesian Computation), et méthodes par vraisemblance empirique.

Vendredi 10 avril 2015 à 11H30 (IUT, salle GB-5) : Carole Siani (Université Lyon 1). « Handling uncertainty around the incremental cost utility ratio accounting for mapping problem »

Objectives: Firstly, we recall how to handle uncertainty in medico-economic evaluations in general, in the aim of providing a reliable decision-making in terms of allocating resources. In particular, the method we developed to build confidence regions around the Incremental Cost-Effectiveness Ratio, solving three problems simultaneously is presented: 1) the mathematical problem of instabilities of some methods when the denominator of the ratio approaches zero statistically, 2) the “mirror decision-making” problem where two opposite ratios provide the same decision, and finally 3) Interpretation in terms of decision-making of confidence regions having non standard form with Fieller’s method.

Actually, the cost-utility analyses (CUA) are internationally recommended by the National Institute for Health and Care Excellence. Utility measure accounts for patient preferences and their quality of life by measuring Quality Adjusted Life Years, which are gained years multiplying by utility or preference scores. This makes more complex the handling of uncertainty.

In addition, in CUA, utility values are rarely available and they are generally predicted using a “mapping” interpolation from a functional status questionnaire. This mapping method is not accounted for in pharmaceutical industry and in literature studies, when building confidence regions around the incremental cost-utility ratio, leading to a wrong confidence region and consequently, to a wrong decision-making. Thus, the purpose of this research is to build a confidence region around the Incremental Cost-Utility Ratio, accounting for the uncertainty coming from the “mapping” interpolation.

Methods: Analytical, parametric and nonparametric Bootstrap methods are developed to handle the fact that utility values are interpolated. Linear, multilinear, and nonlinear mapping are considered and compared to a “naïve” method, used in practice, not accounting for mapping. Monte Carlo experiments are carried out to compare the performance of these various methods, which are then applied on data issued from a clinical trial about hepatitis C treatment, measuring the impact of therapeutic education. Utility values are assessed from a SF-12 questionnaire and some of these values are interpolated from the Nottingham Health Profile functional status questionnaire.

Results: Monte Carlo experiments show that the analytic and bootstrap 95% CI display coverage between 94% and 96% for various sample sizes. If mapping is not accounted for (“naive method”), the coverage is between 61% and 95%. The cross validation shows similar results.

Conclusion: In CUA, decision-making based on utility values interpolated from mapping is not reliable and the uncertainty due to mapping has to be accounted for. Our analytic and bootstrap procedures, integrating the mapping, provide very accurate results.

Lundi 30 mars 2015 à 14H30 (IUT, salle GB-1) : Radu Stoica (Université Lille 1). « Modélisation probabiliste et inférence statistique pour l’analyse des données spatialisées »

Cet exposé présente la construction d’une méthodologie, d’une « machinerie algorithmique » pour détecter et caractériser la structure de données spatialisées.
Cette construction procède en trois étapes. D’abord, un modèle de forme ou de structure est proposé à partir des données observées. Puis, une dynamique de simulation est construite en adéquation avec le modèle. Enfin, des procédures statistiques sont mises au point pour inférer les caractéristiques de la structure cachée et les paramètres du modèle.
Chacune de ces étapes est attachée à un domaine particulier des probabilités et des statistiques. La modélisation repose sur des processus ponctuels, notamment marqués. La dynamique de simulation utilise les chaînes de Markov. L’inférence s’appuie sur l’analyse bayésienne, le recuit simulé, le maximum de vraisemblance, les tests.
La synthèse de ces trois étapes se fait au confluent de trois domaines: la géométrie aléatoire, les chaînes de Markov et les statistiques appliquées. Cette synthèse nous a permis d’aborder des applications concrètes en analyse d’image, en science de l’environnement et en astronomie.

Vendredi 13 mars 2015 à 11H30 (IUT, salle GB-5) : Clément Marteau (INSA de Toulouse). Classification supervisée en utilisant l’algorithme des plus proches voisins dans des espaces de dimensions finis généraux

Étant donné un n-échantillon $(X_i ; Y_i)$ pour i=1…n de loi jointe inconnue, on s’intéresse au problème de prédire le label Y d’une nouvelle observation de X. Dans ce contexte, la règle des plus proches voisins est très intuitive et souple d’utilisation. Nous allons présenter les propriétés statistiques de cette règle dans plusieurs situations, en particulier lorsque le support de la loi de X ne sera pas compact. Nous identifierons deux conditions nécessaires et suffisantes pour obtenir des taux de consistance uniforme de classification et pour obtenir des estimations pointues dans le cas de la règle du plus proche voisin.

Lundi 23 février 2015 à 14H30 (IUT, salle GB-5) : Céline Lacaux (École des mines de Nancy). Modèles autosimilaires, modélisation pour la médecine

La première partie de l’exposé s’intéressera à la notion d’autosimilarité, version aléatoire de l’invariance d’échelle observée dans les fractales. Cette notion a évolué ces dernières années, notamment pour proposer des modèles anisotropes satisfaisant des propriétés d’invariance différentes selon plusieurs directions privilégiées. Nous présenterons des travaux en cours sur ce type de modèle en vue de les utiliser pour modéliser les radiographies du calcanéum et aider au diagnostic précoce de l’ostéoporose. La seconde partie de l’exposé s’intéressera à des collaborations avec le CRAN (Centre de recherche en automatique de Nancy). Elle présentera essentiellement un projet sur la thérapie photodynamique, thérapie utilisée pour traiter des cancers. Selon le temps, nous évoquerons un projet très récent sur  les réseaux de veines, dont le but principal est de trouver une fenêtre thérapeutique.

Vendredi 13 février 2015 à 11H30 (IUT, salle GB-5) : Cécile Hardouin (Université Paris 10). « Two-Scale Spatial Models for Binary Data »

A spatial lattice model for binary data is constructed from two spatial scales linked through conditional probabilities. The presentation is made on a regular lattice, although the model is easily generalised to irregular lattices. A coarse grid of lattice locations is specified and all remaining locations (which we call the background) capture fine-scale spatial dependence. The background behaviour is captured through a hidden Gaussian process after a logit transformation on its Bernoulli success probabilities. Binary data on the grid are modelled with an autologistic distribution, conditional on the binary process on the background. The likelihood is then the product of the (conditional) autologistic probability distribution and the hidden Gaussian—Bernoulli process. The parameters of the new model come from both spatial scales. A series of simulations illustrates the spatial-dependence properties of the model and likelihood-based methods are used to estimate its parameters.

Lundi 2 février 2015 à 14H00 (IUT, salle GB-3) : Éric Matzner-Lober (Université Rennes 2) « Régression non paramétrique itérée »

Nous présenterons une méthode de régression non paramétrique itérée. L’estimateur de la fonction de régression inconnue (de Rd dans R) est calculé  par une application successive du même lisseur non-paramétrique. Les propriétés nécessaires au lisseur de départ sont envisagées où les candidats naturels sont les noyaux, les splines (plaques minces ou de Duchon), les Kpp voisins. Nous discuterons de ces différents estimateurs initiaux et de leurs limites respectives. Pour terminer nous présenterons des résultats d’application (débruitage d’images, restauration d’images, prévision de séries temporelles) ainsi que le package R nommé ibr.

PROGRAMMATION 2014

Lundi 15 décembre 2014 à 10H00 (Salle des thèses, site Ste Marthe) : Mohammed El Asri (UAPV). Soutenance de thèse : Étude des M-estimateurs et leurs versions pondérées pour des données clusterisées devant le jury composé de :

  • Michel Broniatowski (PR, Paris 6) : rapporteur
  • Anne Ruiz-Gazen (PR, Toulouse School of Economics, Toulouse 1) : rapporteur
  • Didier Josselin (DR, UAPV) : examinateur
  • Denys Pommeret (PR, AMU) : président de jury
  • Delphine Blanke (PR UAPV) : directrice de thèse
  • Edith Gabriel (MCF UAPV) : co-encadrante

Vendredi 28 novembre 2014 à 11H00 (salle 2 IUT-GB) : Laurent Delsol (Université d’Orléans). Segmentation d’images hyperspectrales à partir d’estimation à noyau fonctionnel de la densité.

Résumé ici.

Lundi 3 novembre 2014 à 14H00 (salle 2 IUT-GB) : Christophe Crambes (Université Montpellier 2). « Prédiction en régression linéaire fonctionnelle avec variable d’intérêt fonctionnelle »

Ce travail concerne l’étude de la prédiction dans le modèle linéaire fonctionnel lorsque la variable d’intérêt est elle aussi fonctionnelle. Nous introduisons un prédicteur basé sur la décomposition de Karhunen-Loève de la courbe X (variable explicative). La variable d’intérêt du modèle est Y. Les résultats obtenus permettent de fournir un développement asymptotique de la moyenne quadratique de l’erreur de prédiction. Nous donnons également un résultat d’optimalité pour ces vitesses dans un sens minimax, ainsi qu’un théorème de la limite centrale du prédicteur. Le comportement du prédicteur est également évalué en pratique sur des données simulées et un jeu de données réelles.

Vendredi 20 juin 2014 (FRUMAM, Marseille): Troisièmes Rencontres de Statistique Avignon-Marseille

Invités et orateurs : Christophe Biernacki (Lille 1), Mohamed Boutahar (AMU),  Cécile Durot (Paris 10), Béatrice Laurent-Bonneau (INSA, Toulouse 1), Anne Ruiz-Gazen (Toulouse 2), Rachid Senoussi (INRA, Avignon)

Lundi 3 février 2014 (salle 5 IUT-GB) : Julien Jacques (Université Lille 1) « Clustering de données fonctionnelles »

La classification automatique (clustering) de données fonctionnelles (courbes) est en plein essor ces dernières années. Nous présentons plusieurs méthodes récentes basées sur une modélisation probabiliste des courbes observées. Du fait de la nature infinie-dimensionnelle de l’espace dans lequel évoluent ces données,  la modélisation porte généralement sur une expression des courbes en dimension finie, en les approximant par exemple dans une base finie de fonctions. L’utilisation de modèles de mélanges et d’algorithme d’estimation associés permet de définir des algorithmes de clustering efficaces. Des applications sur données réelles montreront l’intérêt de telles approches.

Lundi 27 janvier 2014 (salle 5 IUT-GB): Clément Marteau (INSA de Toulouse) « Détection non-asymptotique de mélanges à moyennes inconnues »

Ce travail s’intéresse à la détection de distributions de type ‘mélanges’ dans un cadre uni-dimensionnel. Plus précisément, l’objectif est de déterminer si la distribution d’un échantillon $X_1,\dots, X_n$ suit (à une translation près) une loi de référence $\phi$ ou bien est définie comme un mélange à deux composantes. Nous proposons une procédure de test non-asymptotique et établissons des conditions pour lesquelles la puissance du test est contrôlable. Dans un second temps, nous comparons les performances de notre algorithme aux méthodes existantes dans la littérature dans un cadre asymptotique de référence.

PROGRAMMATION 2013

Lundi 02 décembre 2013 (salle 5 IUT – GB) : Benoîte de Saporta (Université Montesquieu Bordeaux) « Contributions à l’estimation et au contrôle de processus stochastiques »

Après une présentation rapide de mes travaux de recherche sur les méthodes numériques pour les processus markoviens déterministes par morceaux, je développerai plus en détail mon travail sur les processus autorégressifs de bifurcation (BAR) en lien avec les données de division cellulaire. Ces données sont typiquement des mesures faites sur une population de cellules descendant d’une même cellule mère. Comme une cellule donne généralement naissance à deux cellules filles par division, ces données sont structurés comme des arbres binaires. Les processus BAR sont une généralisation des processus autorégressifs pour les rabres binaires. C’est un modèle paramétrique qui prend en compte à la fois les effets héréditaires et environnementaux. Je m’intéresse à l’estimation des paramètres pour ces processus dans un cadre d’observations incomplètes.

Lundi 07 octobre 2013 (salle 5 IUT – GB) : Jan Bulla (Université de Caen) « Time series and panel data analysis by Hidden (semi-)Markov models: basics and more  recent advances »

In the past decades hidden (semi-)Markov models (H(S)MMs) have become increasingly popular. They provide flexible, general-purpose models for univariate and multivariate time series. The observed component may include categorical, circular-valued, and many other observation types. Moreover, the extension to a panel data setting is straightforward. Appealing features of H(S)MMs include their versatility and mathematical tractability, which have lead to applications in many fields (e.g. engineering, finance/econometrics, and environmental studies).
The main aim of this talk is to provide an introduction to the basic underlying concepts of these models and their estimation. Moreover, practical examples from different fields (finance, business, medicine, environmetrics) provide a brief into various model structures: from simple cases such as the common univariate Gaussian HMM over more complex multivariate linear-circular conditional distribution to non-homogeneous HSMMs.

Vendredi 7 juin 2013 (Site Ste Marthe, Amphi 2E05) : Secondes Rencontres de Statistique Avignon-Marseille

Invités et orateurs: Jean-Marc Bardet (Paris 1- Panthéon-Sorbonne), Florent Bonneu (UAPV), Nicolas Chopin (ENSAE), Marc Lavielle (INRIA), Davy Paindaveine (Université Libre de Bruxelles), Denys Pommeret (AMU).

Lundi 18 mars 2013 à 14h (IUT) : Aboubacar Amiri (Université Lille 3). Estimation récursive d’un quantile.

Dans ce séminaire nous présenterons une méthode récursive pour l’estimation d’un quantile. Etant données des observations, tirées suivant une loi de Probabilité inconnue, on cherche à construire un estimateur récursif du quantile de cette loi, pour un niveau de risque fixé. On présentera un algorithme stochastique de type Robins-Monro légèrement modifié pour l’estimation du quantile. Nous étudierons  ses propriétés asymptotiques et présenterons quelques simulations pour illustrer notre méthode

Lundi 28 janvier 2013 à 14h (bibliothèque de Mathématiques) : Amine Asselah (Université Paris-Est Créteil). Fluctuations d’un nuage aléatoire de points.

Nous présenterons des estimées sur les fluctuations de la forme asymptotique
d’un nuage aléatoire de points générés par agrégation limitée par diffusion interne sur le réseau cubique et sur d’autres graphes.

Lundi 14 janvier 2013 à 14h (IUT) : Jean-François Coeurjolly (Université Pierre Mendès France – Grenoble). Approche variationnelle pour l’estimation de l’intensité d’un processus spatial.

Dans cet exposé, je considèrerai le problème de l’estimation paramétrique de la fonction intensité d’un processus ponctuel spatial dans Rd. En particulier, partant du modèle log-linéaire de la fonction intensité rho(u) = exp (beta+ thetaT z(u)) (beta>0 correspond à un paramètre de nuisance, theta dans Rp au paramètre d’intérêt et z_i pour i=1,…,p à des covariables spatiales), je présenterai une nouvelle méthode basée sur une approche variationnelle alternative à la méthode standard de la maximisation de la « vraisemblance poissonienne ». L’intérêt principal de cette méthode est qu’elle permet d’estimer le paramètre theta sans optimisation. L’estimation est directe et donc extrêmement rapide en temps et coûts de calculs (même en grande dimension de l’espace d’états ou du nombre de covariables). Je montrerai quelques résultats asymptotiques quant à cet estimateur lorsque la fenêtre d’observation croît vers Rd et quelques simulations. En particulier, je montrerai que si les covariables z_i ne sont observées que dans un voisinage des points du processus ponctuel, notre approche est bien meilleure que les approches standard.
Ces développements sont issus d’un travail récent en collaboration avec Jesper Møller (Aalborg University).

PROGRAMMATION 2012

Lundi 03 décembre 2012 à 14h (salle 5, IUT-GB) : Frédéric Lavancier (Université de Nantes). Aspects statistiques des processus ponctuels déterminantaux

Les processus ponctuels déterminantaux (DPP) restent largement inexplorés en statistique, bien qu’ils possèdent un certain nombre de propriétés remarquables. Les DPP sont apparus dans les années 70 en physique mathématique et ont été étudiés plus en détail récemment, d’un point de vue probabiliste, dû notamment à leur présence centrale en théorie des matrices aléatoires. Dans cet exposé, nous aborderons leurs aspects statistiques. Les DPP sont définis au travers d’une fonction C (le noyau) ayant un certain nombre de régularité. Dans le cas d’un DPP stationnaire, C peut simplement être une fonction de covariance continue dont la transformée de Fourier est inférieure à 1. Les DPP possèdent les propriétés remarquables suivantes :
(a) Ils constituent des modèles flexibles pour des interactions répulsives dans les processus ponctuels.
(b) Tous les moments d’un DPP sont explicitement connus : ils s’expriment en terme du déterminant d’une certaine matrice dépendant du noyau C.
(c) La densité de probabilité d’un DPP sur tout ensemble compact (par rapport au processus de Poisson) est explicitement connue.
(d) Un DPP se simule facilement sur tout compact.
(e) Toute transformation régulière ou tout éclaircissage (thinning) d’un DPP reste un DPP.
À titre de comparaison, les processus ponctuels de Gibbs, qui constituent la famille usuelle pour construire des processus répulsifs (par exemple le processus de Strauss), n’admettent pas de forme explicite pour leurs moments, leur densité fait intervenir une constante normalisatrice incalculable, et leur simulation repose en général sur des méthodes MCMC couteuses. Dans cet exposé, nous présenterons les propriétés de base des DPP, puis nous expliquerons comment en construire des familles paramétriques, comment mettre en oeuvre leur simulation et nous étudierons différentes techniques inférentielles basées sur les moments ou sur la vraisemblance. Ce travail a été conduit en collaboration avec Jesper Møller et  Ege Rubak, de l’université d’Aalborg (Danemark).

Lundi 05 novembre 2012 à 14h (salle 5, IUT-GB) : Didier Josselin et Julio Rojas-Mora (UMR ESPACE, UAPV).  Propositions méthodologiques au sujet de l’incertitude de localisation des centres et de leurs propriétés.

ROLSES (Robust and Optimal Location for Sustainable Environment and Systems) est un projet interdisciplinaire financé par l’ANR. Il réunit des géographes et des mathématiciens pour étudier les propriétés et proposer des centres robustes et durables. Nous introduisons et comparons deux approches pour localiser les centres et extraire des informations utiles pour les décideurs : la modélisation de l’incertude de la demande induisant des « centres flous » (Julio Rojas-Mora) et l’analyse de la sensibilité des centres, permettant de cartographier les « poids » des demandes selon leur influence (Didier Josselin). Cela nous amène à des questionnements sur certaines propriétés des centres classiquement utilisés dans la littérature (1-center, gravity center, 1-median, etc.), propriétés délicates à détecter a priori.

Lundi 01 octobre 2012 à 14h (salle 5, IUT-GB): Thomas Romary (chargé de recherche à Mines ParisTech). Multivariate Geostatistical clustering for mine domaining

Domaining is very often a complex and time-consuming process in mining assessment. Apart from the delineation of envelopes, a significant number of parameters (lithology, alteration, grades) are to be combined in order to characterize domains or subdomains within the envelopes. This rapidly leads to a huge combinatorial problem. Hopefully the number of domains should be limited, while ensuring their connexity as well as the stationarity of the variables within each domain. In order to achieve this, different methods for the spatial clustering of multivariate data are explored and compared. A particular emphasis is placed on the ways to modify existing procedures of clustering in non spatial settings to enforce the spatial connexity of the resulting clusters. K-means, spectral clustering, hierarchical methods and model based algorithms are reviewed. The methods are illustrated on a simple example and on mining data.

PROGRAMMATION 2011

Lundi 5 décembre 2011  :  Gwladys Toulemonde (Université de Montpellier 2). Méthodes de filtrage pour des maxima de type Gumbel :application à la reconstruction de maxima journaliers d’oxyde nitreux.

D’après des résultats fondamentaux en théorie des valeurs extrêmes, les maxima sont généralement ajustés par la distribution des valeurs extrêmes généralisées. Dans cet exposé, nous nous concentrerons sur l’étude de maxima journaliers de séries temporelles en sciences de l’environnement. Dans un tel contexte il conviendra de prendre en compte la dépendance temporelle inhérente à ces séries. Nous nous baserons sur l’article de Toulemonde et al. (2010) dans lequel un modèle autorégressif à la fois linéaire et adapté à la distribution attendue des maxima issus de distributions à queues légères est introduit. L’objectif est alors de proposer un modèle de Markov caché pour ces maxima. Pour ce modèle nous calculerons les poids optimaux dans la mise en oeuvre du filtre auxiliaire et proposerons dans ce contexte une comparaison avec d’autres méthodes de filtrage. Enfin, à titre d’exemple nous utiliserons le modèle proposé et mettrons en œuvre la méthode d’estimation adaptée pour reconstruire une série de maxima journaliers d’oxyde nitreux en France.

Lundi 17 octobre 2011 à 13h30 (salle 5GB de l’IUT)  : Jérôme Saracco (Institut Polytechnique de Bordeaux) Sur des méthodes de réduction de la dimension

Dans la première partie de ce séminaire, nous nous intéressons à des données arrivant par « paquets » (data stream). Nous considérons un modèle semiparamétrique de régression sous-jacent à la modélisation de ces données. Nous proposons un estimateur (de la partie paramétrique du modèle) de type SIR (sliced inversion regression) permettant de prendre en compte cette manière d’acquisition des données et de détecter une dérive ou un bloc aberrant dans le flux de données. Après avoir énoncé des résultats de convergence de l’estimateur, nous illustrerons le bon comportement numérique de notre approche en simulant différents scénarios, puis nous l’appliquerons sur des données réelles. Dans une seconde partie (s’il reste du temps…), nous parlerons de classification de variables qui peuvent être aussi bien quantitatives que qualitatives. Nous présenterons la méthode considérée et le package R (appelée « ClustOfVar ») correspondant. Ce dernier sera illustré sur deux jeux de données réelles : un purement quantitatif, un autre constitué de données mixtes (variables quantitatives et variables qualitatives).

Lundi 20 juin 2011 à 14h salle 5, hall GB (un fléchage sera mis en place)  : Lionel Cucala (Université Montpellier 2)

Détection d’agrégats pour données ponctuelles

Résumé : voir fichier joint

Lundi 11 avril 2011 à 14h: Denys Pommeret (Université Aix-Marseille 2)
Plusieurs tests d’égalité de lois

Nous étudierons le test lisse de Neyman d’égalité de lois dans plusieurs cadres :
1/ dans le cas de deux échantillons appariés
2/ dans le cas de deux échantillons contaminés (avec erreurs de mesures
connues)
3/ dans le cas de plusieurs échantillons
4/ dans le cas de mélange de deux lois
Nous détaillerons surtout le premier cas et nous montrerons comment le test s’adapte aux autres situations.

Lundi 7 mars 2011 à 10h30 (horaire exceptionnel) : Youri DAVYDOV (Université Lille 1). Processus de cristallisation

On va présenter le modèle classique de cristallisation. On discutera:
– les liens avec le modèle booléen;
– des propriétés ergodiques;
– des applications statistiques.

Lundi 31 janvier 2011 à 14H30 (horaire exceptionnel) :   Pierre Pudlo (Montpellier 2). Apprentissage efficace pour la méthode ABC (Approximation Bayesian Computation)

Les méthodes ABC permettent d’approcher la loi a posteriori quand il est difficile ou impossible de calculer la vraisemblance d’un modèle, en utilisant des simulations de façon massive. Nous verrons comment on peut accélérer cette méthode à l’aide d’un algorithme de Monte-Carlo séquentiel. Nous proposerons aussi une application en génétique des populations.

Il s’agit d’un travail avec Jean-Marie Cornuet (INRA, CBGP), Jean-Michel Marin (Université Montpellier 2), Christian P. Robert (Université Paris-Dauphine) et Mohammed Sedki (Université Montpellier 2).

PROGRAMMATION 2009-2010

Lundi 8 novembre 2010 : Denis Bosq (Université Pierre et Marie Curie – Paris 6). Estimation du support d’une loi de probabilité

Étant données des observations sur R^d, tirées suivant une loi de Probabilité de support S inconnu, on cherche à construire des estimateurs de S. On distinguera le cas régulier où le support est exactement de dimension d du cas singulier où la dimension du support est inférieure à d. L’étude portera sur le comportement asymptotique d’estimateurs non paramétriques basés sur des constructions géométriques ou fonctionnelles.

Lundi 29 mars 2010 : Anne-Françoise Yao  (Université Aix-Marseille 2) : Modèles non-paramétriques pour des processus spatiaux.

La statistique spatiale fournit des outils permettant de traiter des données pour lesquelles la localisation dans l’espace joue un rôle important. Les domaines d’applications sont nombreux : science de l’environnement et de la terre (océanographie, météorologie, hydrogéologie,…), économétrie, traitement d’images, géographie, science sociale,… Si la plupart des méthodes de statistique spatiale (existantes) imposent des hypothèses paramétriques souvent restrictives, il existe très peu d’alternatives dans le cas non-paramétrique. Dans ce cadre, je présenterai des estimateurs à noyaux de la densité et de la régression pour des processus spatiaux à valeurs multidimensionnelles ou fonctionnelles. Des résultats de convergence de ces estimateurs seront également présentés. Ils seront illustrés par des simulations et une application sur des données réelles.

Lundi 8 mars 2010 à 14H (IUT) : Pierrette Chagneau (UMR518 AgroParisTech/INRA) : Modélisation bayésienne hiérarchique pour la prédiction multivariée de processus spatiaux non gaussiens et processus ponctuels hétérogènes d’intensité liée à une variable prédite. Application en foresterie.

Un des points faibles des modèles de dynamique forestière spatialement explicites est la modélisation de la régénération. Un inventaire détaillé du peuplement et des conditions environnementales a permis de mettre en évidence les eets de ces deux facteurs sur la densité locale de juvéniles. Mais en pratique, la collecte de telles données est coûteuse et ne peut être réalisée à grande échelle : seule une partie des juvéniles est échantillonnée et l’environnement n’est connu que partiellement. L’objectif est ici de proposer une approche pour prédire la répartition spatiale et le génotype des juvéniles sur la base d’un échantillonnage raisonnable des juvéniles, des adultes et de l’environnement. La position des juvéniles est considérée comme la réalisation d’un processus ponctuel marqué, les marques étant constituées par les génotypes. L’intensité du processus traduit les mécanismes de dispersion à l’origine de l’organisation spatiale et de la diversité génétique des juvéniles. L’intensité dépend de la survie des graines, qui dépend elle-même des conditions environnementales. Il est donc nécessaire de prédire l’environnement sur toute la zone d’étude. L’environnement, représenté par un champ aléatoire multivarié, est prédit grâce à un modèle hiérarchique spatial capable de traiter simultanément des variables de nature différente. Contrairement aux modèles existants où les variables environnementales sont considérées comme connues, le modèle de régénération proposé doit prendre en compte les erreurs liées à la prédiction de l’environnement. La méthode est appliquée à la prédiction de la régénération des juvéniles en forêt tropicale (Guyane française).

Lundi 22 février 2010 : Mathieu Ribatet (PostDoc, EPFL, Lausanne) :  Processus max-stables : Vers une géostatistique des extrêmes.

Résumé: Voir fichier joint

Lundi 8 février 2010 : Thomas Laloë (ISFA, Université Lyon 1). Apprentissage statistique : Classification, Régression et Applications.

L’exposé se décomposera en trois parties. Dans la première partie, nous développons une approche de type plus proches voisins pour la régression fonctionnelle. Dans la deuxième, nous étudions les propriétés de la méthode de quantification dans des espaces de dimension infinie. Nous appliquons ensuite cette méthode pour réaliser une étude comportementale de bancs d’anchois. Enfin, la dernière partie est dédiée au problème de l’estimation des ensembles de niveaux de la fonction de régression dans un cadre multivarié.

Lundi 18 janvier 2010 : Philippe Saint-Pierre (Université Paris 6) : Estimation de la fonction de distribution bivariée pour des variables censurées.

Dans cet exposé, nous étudierons le problème de l’estimation de la fonction de survie bivariée. Dans un premier temps, quelques notions de l’analyse de survie univariée seront abordées. Ensuite, certaines méthodes d’estimation de la fonction de répartition bivariée seront présentées. En particulier, les modèles multi-états qui permettent d’analyser des données de survie multivariées seront introduits. Enfin, nous étudierons une méthode d’estimation non-paramétrique permettant d’estimer la fonction de répartition bivariée dans le cas où une variable est censurée à gauche et l’autre censurée à droite. Cette question ne semble pas être étudiée dans la littérature alors que plusieurs travaux traitent du cas où les deux variables sont censurées à droite. La méthode permet d’exprimer la fonction de répartition comme un produit intégral de la fonction de hasard cumulée. Un estimateur est obtenu en utilisant notamment les équations intégrales de Doléans et de Volterra.

Lundi 14 décembre 2009 : Nicolas Verzelen (INRA, Montpellier) : Modèles graphiques et estimation de graphes.

Les récents progrès en acquisition de données génomiques permettent désormais d’étudier l’ensemble des gènes en tant que système complexe. On s’intéressera ici à l’inférence statistique des interactions entre gènes à partir de données d’expression de gènes. Une approche classique consiste à modéliser ces données comme des réalisations d’un modèle graphique gaussien et à estimer le graphe correspondant. J’introduirai dans un premier temps les modèles graphiques, puis je décrirai une nouvelle méthode d’estimation du graphe: GGMselect.
Il s’agit d’un travail commun avec Christophe Giraud et Sylvie Huet.

Lundi 23 novembre 2009 : Élodie Brunel (Université Montpellier 2) : Estimation non-paramétrique adaptative de la moyenne de vie résiduelle conditionnelle

Dans les essais cliniques, les durées de vie sont souvent observées à partir du début du traitement et jusqu’à la survenue du décès ou de la censure. Mais l’étude des fonctions de survie ou de risque instantané ne permet pas de savoir si le traitement améliore l’espérance de vie d’un patient au cours de l’essai. Pour répondre à cette question l’espérance de vie doit être considérée comme une fonction dépendant du temps et c’est ainsi que l’on introduit la fonction moyenne de vie résiduelle, c’est-à-dire la durée de vie moyenne restante sachant que l’individu a déjà survécu au delà d’une durée t. Nous proposons un nouvel estimateur purement non-paramétrique de la moyenne de vie résiduelle en présence d’une covariable. Une collection d’estimateurs est obtenue grâce à la minimisation d’un contraste sur une famille de sous-espaces linéaires de fonctions de dimension finie. Puis, une procédure de sélection de modèles par pénalisation du contraste nous permet de choisir un estimateur de la collection. Nous obtenons une inégalité d’oracle non-asymptotique pour le risque L2 de cet estimateur et nous pouvons en déduire des vitesses de convergence. Nous illustrons la mise en œuvre pratique de notre estimateur pénalisé sur des données réelles.

Lundi 12 octobre 2009 : Florent Bonneu (Université Paul Sabatier) : Processus ponctuels spatiaux pour l’analyse du positionnement optimal.

Les processus ponctuels spatiaux forment une branche de la statistique spatiale utilisée dans des domaines d’application variés (foresterie, géo-marketing, sismologie, épidémiologie,. . . ) et développée par de récents travaux théoriques. Nous nous intéressons à l’apport de la théorie des processus ponctuels spatiaux pour des problèmes de positionnement optimal.

Le problème de positionnement optimal s’écrit souvent comme un problème d’optimisation prenant en compte des données geo-référencées auxquelles peuvent être associées des caractéristiques. Pour prendre en compte l’aléa, nous considérons ces données issues d’un processus ponctuel spatial pour résoudre un problème de positionnement stochastique plus réaliste qu’un modèle déterministe. A travers l’étude du positionnement optimal d’une nouvelle caserne de pompiers dans la région toulousaine, nous développons une méthode de résolution stochastique permettant de juger de la variabilité de la solution optimale et de traiter des bases de données volumineuses. L’approche implémentée est validée par des premiers résultats théoriques sur le comportement asymptotique des solutions optimales empiriques. La convergence presque sure des solutions optimales empiriques de l’étude de cas précédente est obtenue dans un cadre i.i.d. en utilisant la théorie de Vapnik-Cervonenkis. Nous obtenons aussi la convergence presque sure des solutions optimales empiriques pour un problème de positionnement dérivé du problème de transport de Monge-Kantorovich.