9h00-9h30 | Accueil des participants et café | |||||
9h30-10h00 | Ouverture des journées : Adeline SAMSON et Delphine BLANKE | |||||
10h00-11h00 | Conférence Lucien Le Cam Jon WELLNER Le Cam Conference The mean, the median, and the mode are often included in discussions of appropriate measures of the ``location'' of a unimodal density. While inference procedures for the mean and median are well-known, and often included in elementary courses, inference for the mode is usually ignored. Dalenius (1965) called the mode ``a neglected statistical parameter, but pointed out a number of important uses of the mode in a variety of practical settings. In this talk I will discuss the likelihood ratio test for the location of the mode of a log-concave density. The new test is based on the ratio $\lambda_n$ of the log-likelihoods corresponding to the unconstrained maximum likelihood estimator of a log-concave density and the constrained maximum likelihood estimator where the constraint is that the mode of the density is fixed, say at $m$. It turns out that under the null hypothesis (and strict curvature of $-\log f$ at the mode), the (log-)likelihood ratio statistic $2 \log \lambda_n$ is asymptotically pivotal\: that is, it converges in distribution to a limiting distribution which is free of nuisance parameters, thus playing the role of the $\chi_1^2$ distribution in classical parametric statistical problems. By inverting this family of tests we obtain new confidence intervals for the mode of a log-concave density $f$. These new intervals do not depend on any smoothing parameters. I will illustrate the new confidence intervals via Monte Carlo studies and illustrate them with several real data sets. The new confidence intervals have several advantages over existing procedures. This talk is based on joint work with Charles R. Doss. Modérateur: Pascal MASSART, Amphi: AT02 | |||||
11h10-12h50 |
Bioinformatique 1
Bioinformatique 1 Emily WALKER, Julien PAPAIX, Pierre FRANCK, Etienne KLEIN
Ce travail consiste à étudier la structure génétique d'une métapopulation et la dispersion d'individus entre les sous-populations en estimant l'hétérogénéité des fréquences alléliques au sein de la métapopulation à partir des génotypes collectés dans plusieurs sous-populations. Un modèle bayésien "multinomial-Dirichlet" a été construit et implémenté sur JAGS. Ainsi, le nombre de copies d'allèles calculé à partir des génotypes suit une loi multinomiale dont le vecteur de probabilités est les fréquences alléliques des sous-populations. Ces fréquences alléliques sont tirées dans une loi de Dirichlet dont les paramètres sont le produit des fréquences alléliques d'une population consensus (de la métapopulation) et d'un paramètre lié à un indice de différenciation génétique de la sous-population (F-model, Gaggiotti and Foll 2010). Ce modèle a été appliqué à des données de marqueurs microsatellites d'un insecte ravageur des pommiers (Cydia pomonella) échantillonnées dans plusieurs vergers de Basse Vallée de la Durance. Estimation bayésienne de fréquences alléliques dans un modèle de métapopulation
Vivian VIALLON, Cédric GARCIA
Nous nous intéressons à l'estimation paramétrique dans le modèle de régression logistique polytomique, ou multinomiale. Ce modèle est classique lorsque la variable réponse est catégorielle, en l'absence de relation d'ordre naturelle entre les $K+1$ catégories, $K\geq 2$. Etant donnés $p$ régresseurs, ce modèle requiert l'estimation de $K$ vecteurs de paramètres $\beta_k \in\\mathbb{R}^p$, $1\leq k\leq K$. Nous proposons deux approches d'estimation, minimisant chacune un critère pénalisé par la norme $\ell_1$ des paramètres, et visant à tirer profit de la parcimonie éventuelle au sein de chacun des $\beta_k$ d'une part, et de l'homogénéité éventuelle entre les différents $\beta_k$ d'autre part. Nos deux approches sont directement implémentables à l'aide de packages disponibles sous \texttt{R}. Nous les comparons empiriquement sur des jeux de données simulées. Nous proposons également une illustration pour étudier les facteurs de risque de différents sous-types de cancer du sein. Estimation structurée par pénalisation $L_1$ dans le modèle de régression logistique polytomique.
Félix BALAZARD, Sophie LE FUR, Alain-Jacques VALLERON, Pierre BOUGNERES
Contexte : L'identification de facteurs environnementaux des maladies complexes à l'aide d'études cas-témoins est sujette à des biais. En particulier, la sélection des contrôles est une source potentielle de confusion. Lorsque la maladie a une forte composante génétique, une estimation du risque génétique peut quantifier la prédisposition d'un individu. Le biais de collision apparaît entre deux causes quand on conditionne par une conséquence partagée.
Méthodes : Nous proposons Disease As Collider (DAC), une nouvelle méthodologie pour valider les facteurs environnementaux en utilisant le risque génétique chez les patients. La maladie est un collisionneur entre les facteurs génétiques et environnementaux et, sous des hypothèses raisonnables, une association chez les cas entre risque génétique et environnement est la signature d'un véritable facteur de risque environnemental. Une telle association permettrait de valider les résultats des études cas-témoins. Nous appliquons DAC chez 831 patients ayant le diabète de type 1 (DT1) de la cohorte Isis-Diab en évaluant l'association entre le risque génétique et 7 facteurs environnementaux venant des résultats de l'étude cas-témoins. Nous effectuons des simulations pour estimer la puissance de notre méthodologie dans notre cas ainsi que dans des scénarios alternatifs.
Résultats : L'hygiène bucco-dentaire était associée au risque génétique. Cependant, les simulations montrent que le pouvoir était faible dans notre cadre. DAC a une puissance raisonnable dans les scénarios d'incidence plus élevée, avec une plus grande taille d'échantillon et une meilleure estimation du risque génétique.
Conclusions : Bien que DAC ait une faible puissance dans notre cadre, cette nouvelle méthodologie peut apporter de l'information pour identifier les facteurs environnementaux des maladies complexes. Nous exposons les circonstances nécessaires pour que DAC puisse participer à la triangulation des causes environnementales de maladie. Validation de facteurs environnementaux grâce à l'estimation du risque génétique chez les patients de maladie complexe
Jingxiong XU, Wei XU, Rayjean HUNG, Laurent BRIOLLAIS
The discovery of rare genetic variants through Next Generation Sequencing (NGS) is becoming a very challenging issue in the human genetic field. We propose here a novel region-based statistical test based on a Bayes Factor (BF) approach to assess evidence of association between a set of rare variants located on this region and a disease outcome. Marginal likelihood is computed under the null and alternative hypotheses assuming a binomial distribution for the rare variants count in the region. A Beta distribution or a mixture of Dirac and Beta distribution is specified for the prior distribution. The hyper-parameters are determined to ensure the null distribution of BF does not vary across genes with different sizes. A permutation test or False Discovery Rate (FDR) statistic are used for inference. Our simulations studies showed that the new BF statistic outperforms standard methods under most situations considered. Our real data application to a lung cancer study found enrichment for rare variants in novel genes. A novel region-based Bayesian approach for genetic association with next generation sequencing (NGS) data
|
Inégalités de concentration et applications
Inégalités de concentration et applications Adrien SAUMARD, Fabien NAVARRO
Le fait qu'une légère sur-pénalisation engendre une stabilisation des procédures de sélection de modèles est un phénomène bien connu des spécialistes. En effet, il a été remarqué depuis la fin des années 70 que l'ajout d'une petite quantité positive à des critères pénalisés classiques tels que AIC améliore dans les bons cas les résultats en prédiction, particulièrement pour les échantillons de taille petite ou modérée. La raison principale est que la sur-pénalisation tend à se prémunir contre le sur-apprentissage. Nous proposons la première stratégie générale et théoriquement fondée de sur-pénalisation et nous l'appliquons au critère AIC. De très bons résultats sont observés par simulation. Une sur-pénalisation théoriquement fondée du critère AIC
Nora SERDYUKOVA
On obtient une inégalité de concentration pour un type spécifique de l'intégrale de It\^{o} indexée par matrices. Ce type de processus stochastiques
apparaît dans le cadre de l'estimation d'une fonction multivariée non paramétrique. Une inégalité de concentration pour un processus gaussien indexé par des matrices
Charles TILLIER
Dans le cadre de l'évaluation des risques à horizon de temps fini, le problème peut souvent se ramener à l'etude d'un vecteur C(N) = (C1,...,CN), de taille aléatoire N, dont les composantes sont des variables aléatoires issues du produit d'une matrice A(N), de dimension aléatoire N *N par un vecteur X(N) de taille aléatoire N. Dans ce contexte, l'objectif est alors de définir la propriété de variation régulière du vecteur C(N), d'étudier son comportement
extrémal, notamment par l'intermédiaire de sa queue de distribution et dans le même temps, de développer des indicateurs de risque. Dans de nombreuses applications telles que l'assurance,
la finance ou encore en hydrologie, les indicateurs de risque peuvent être analysés à partir du comportement extrémal de ||C(N)||, pour une norme ||.||convenablement choisie. On propose
dans ce travail de généraliser le lemme de Breiman, qui permet d'obtenir un équivalent de la queue de distribution de ||C(N)||, qui, selon la norme et la matrice considérées, donne lieu à
une estimation asymptotique d'indicateurs de risque tels que la probabilité de ruine à horizon fini ou le temps passé au dessus d'un seuil pour de tels processus. Afin de mettre en avant notre
méthode, on applique notre résultat principal à un processus "Shot Noise". Extremal behavior and risk indicators for a class of stochastic processes
François BACHOC, David PREINERSTORFER, Lukas STEINBERGER
Nous proposons des méthodes générales permettant de contruire des intervalles de confiance post-sélection de modèle qui sont asymptotiquement valides. Les constructions sont basées sur des principes proposés récemment par Berk et al. (2013). En particulier, les modèles candidats utilisés peuvent être mal spécifiés, la quantité d'intérêt est spécifique au modèle sélectionné, et la couverture est garantie pour toute procédure de sélection de modèle. Dans un premier temps, nous développons une théorie générale. Dans un second temps, nous appliquons cette théorie générale aux situations pratiques importantes où les modèles considérés sont des modèles linéaires, homoscédastiques ou hétéroscédastiques, ou des modèles de régression binaire avec des fonctions de lien générales. Intervalles de confiance uniformément valides en présence de sélection de modèle
|
Modèle de mélange
Modèle de mélange Matthieu MARBAC, Mohammed SEDKI
Nous présentons deux méthodes de sélection de variables, pour un clustering fait par le modèle des classes latentes.
La première approche s'effectue par le critère BIC, maximisé par une version modifiée de l'algorithme EM.
Ainsi, la sélection de modèle et l'estimation des paramètres sont faites simultanément.
Afin de palier aux problèmes de BIC (propriété de convergence asymptotique et non prise en compte de l'objectif de clustering), le critère MICL peut être utilisé.
Ce critère, basé sur la forme explicite de la vraisemblance complétée intégrée, permet d'effectuer la sélection de modèle préalablement à l'estimation des paramètres.
La maximisation de MICL est faite par un algorithme d'optimisation alternée.
L’intérêt de la procédure est illustré sur des données de génétique des populations composées de 1235 observations décrites par 160470 SNPs. Sélection de variables en classification non-supervisée de données catégorielles
Gildas MAZO
La mod\'elisation des mod\`eles de m\'elange se sont longtemps appuy\'es sur les lois gaussiennes et/ou l'hypoth\`ese d'ind\'ependance conditionnelle. Ce n'est que (relativement) r\'ecemment que les chercheurs ont construit des mod\`eles plus g\'en\'eraux sans faire appel \`a de telles hypoth\`eses. Certaines de ces constructions utilisent les copules qui permettent de s\'eparer l'analyse des effets marginaux de la structure de d\'ependance. Mais cette approche a aussi des inconv\'enients. D'abord, l'utilisateur doit faire plus de choix arbitraires, et ensuite, des probl\`emes de sp\'ecifications peuvent apparaitre. Cette communication a pour but de limiter ces probl\`emes en proposant un mod\`ele de m\'elange bas\'e sur les copules et qui a l'avantage d'\^etre semi-param\'etrique. Gr\^ace \`a une hypoth\`ese de translation, l'estimation semi-param\'etrique est \'egalement r\'ealisable, permettant l'adaptation aux donn\'ees sans effort de mod\'elisation. A semiparametric and location-shift copula-based mixture model
Vincent VANDEWALLE
En classification non supervisée à base de modèles pour les données quantitatives, on suppose en général qu'une seule variable de classe explique l'hétérogénéité des données. Cependant, quand les variables proviennent de différente sources il est souvent irréaliste de supposer que cette hétérogénéité peut être expliquée par seulement une variable. Si une telle hypothèse est faite, elle peut conduire à l'estimation d'un grand nombre de groupe, ce qui peut être difficile à interpréter. Un modèle de mélange multi-objectif est ici proposé, il suppose l'existence de plusieurs variable latente de classification, chacune d'entre-elle expliquant l'hétérogénéité des données selon une projection classifiante particulière. L'estimation des paramètres du modèle est réalisée par un algorithme EM qui s'appuie principalement sur la ré-interprétation probabiliste de l'analyse factorielle discriminante. Les résultats obtenus sont des projection des données sur des composantes classifiantes, ce qui permet une interprétation synthétique des principales classification présentes dans les données. Le comportement du modèle proposé est illustré sur des données réelles et simulées. Réalisation simultanée d'une réduction de la dimension et d'une classification multi-objectifs
Abdelaziz EL MATOUAT, Hassania HAMZOUI
Nous nous intéressons dans ce travail a l'estimation du nombre de composantes
d'un modèle de mélange de régression multivariée. Nous généralisons les résultats
obtenus par Hadi et al. qui ont proposé un critère MRCsd en se basant sur la divergence de Kulback-Leibler symétrique pour identifier un modèle de mélange de régression univarié. Les simulations mettent en evidence la performance du critère proposé. Divergence de Kullback-Leibler et sélection de modèles de mélange de régression multivariée
|
Analyse de sensibilité
Analyse de sensibilité Taieb TOUATI
Nous présentons une extension de la méthode de Martinez au cas non Gaussien.
En effet, ce cas de figure peut altérer la précision de l'intervalle de confiance fourni par l'approximation de Fisher, les deux points suivant seront étudiés: (Cette présentation reprend le travail présenté au SAMO2016: Touati (2016), la fonction R correspondante à la méthode: SobolTouati() est disponible dans le Package Sensitivity)
1/Intervalles de confiances asymptotiques.:Dans ce cas, nous donnons un
intervalle de confiance pour les indices Sobol dans un cas général basé sur un résultat bien connu sur le coefficient de corrélation.
2/Intervalles de confiances non-asymptotiques. Dans ce cas, nous comparons plusieurs méthodes pour améliorer la méthode de Martinez tout en maintenant l'approche d'approximation d'une part et avec une approche de Bootstrap d'autre part Intervalles de confiances pour les indices de Sobol
Mélanie BLAZERE, Nicolas BOUSQUET
Les problèmes d'inversion stochastique correspondent à l'estimation d'une distribution de probabilité caractérisant un paramètre de nature aléatoire, décrit comme une entrée d'un opérateur (typiquement un modèle numérique), à partir de la connaissance de données observées vues comme des sorties bruitées. Si de tels problèmes sont caractérisés par des conditions d'identifiabilité fortes, des conditions dites de ``problème bien posé" du type "signal sur bruit" doivent être intégrées de fa\c con préliminaire à la définition même du problème, avant de considérer la collecte de données suffisamment informatives. En supplément des conditions classiques de Hadamard, une nouvelle condition de ``problème bien posé" est établie, fondée sur la transmission de l'incertitude des entrées aux sorties de l'opérateur, qui peut être perçue comme le résultat prédictif d'une analyse de sensibilité si le problème d'inversion était résolu. Un lien peut alors être fait entre condition de Hadamard et les indices de sensibilité classiques. Cette nouvelle condition s'exprime par l'ajout d'une contrainte a priori dans le problème numérique d'inversion, qui peut être traité de façon fréquentielle ou bayésienne.Celle-ci s’exprime relativement simplement dans le cas
où l’opérateur est linéaire ou linéarisable. Comme ce type de situation engendre souvent des manques de contraste dans les données, on peut percevoir le cas linéaire ou linéarisable comme un cas “dur". On suggère donc que la contrainte exprimée simplement dans le cas linéaire ou linéarisable soit une contrainte utilisée de façon générique, sous réserve que l’opérateur possède de bonnes propriétés de différentiabilité. Liens entre analyse de sensibilité et problèmes d'inversion stochastique bien posés
Esperan PADONOU, Olivier ROUSTANT
On considère le problème de reconstruction spatiale de données coûteuses sur le disque, motivé par des applications en environnement. Outre la spécificité du domaine d'étude, nous nous intéressons à l'interprétation et la visualisation qui sont des questions cruciales aux yeux des utilisateurs. En particulier, on souhaite décrire les variations horizontales, verticales, radiales et angulaires. Pour répondre à ces questions, nous utilisons la décomposition de Sobol-Hoeffding des processus gaussiens sur le disque, représenté en coordonnées cartésiennes ou polaires. Nous montrons comment l'utilisation des noyaux centrés permet de décomposer analytiquement la grandeur reconstruite en effets élémentaires dont l'influence est quantifiée à l'aide des indices de Sobol. Analyse de sensibilité en domaine circulaire
Matthias DE LOZZO, Paul MYCEK, Sophie RICCI, Mélanie ROCHOUX, Pamphile ROY, Nicole GOUTAL
Les simulateurs physico-numériques sont des outils usuels en modélisation hydraulique pour estimer le niveau et le débit d'un fleuve. La complexité de la physique qu'ils implémentent et les incertitudes portées par leurs entrées conduisent à mener des études de quantification d'incertitudes sur leurs sorties en estimant des moyennes, variances, distributions ainsi que des indices de sensibilité. Pour une précision donnée $\varepsilon$, l'estimation par des approches classiques de type Monte-Carlo a néanmoins le défaut de requérir $\mathcal{O}(\varepsilon^{-2})$ évaluations du simulateur dont le coût est souvent élevé. Pour pallier cette contrainte, des méthodes récentes d'échantillonnage de type Monte-Carlo multi-niveaux ont été développées et permettent de réduire ce coût calculatoire en faisant appel à des versions dégradées et moins coûteuses du simulateur initial. Initialement conçues pour l'estimation d'espérances, ces approches ont récemment été étendues à l'estimation d'autres moments statistiques. Nous avons appliqué avec succès les outils existants dans la littérature à un modèle simplifié d'hydraulique 1D avant d'étendre leur utilisation à un modèle fluvial de la Garonne décrivant les équations complètes de Saint-Venant 1D. Les perspectives de cette étude sont une analyse de sensibilité et le calcul de matrices de covariance d'erreurs intervenant dans l'algorithme d'assimilation de données du filtre de Kalman d'ensemble. Méthodes de Monte-Carlo multi-niveaux pour la quantification d'incertitudes et l'assimilation de données - Application à la modélisation fluviale
|
Algorithmes pour la grande dimension
Algorithmes pour la grande dimension Arnaud GLOAGUEN, Vincent GUILLEMOT, Arthur TENENHAUS
An efficient projection enforcing both normalization and sparsity is proposed in this paper. The algorithm has been compared to state of the art methods (binary search and POCS) and provides valuable runtime improvements. Its application within the algorithm associated to Sparse Generalized Canonical Correlation Analysis (SGCCA) has motivated this work. An efficient algorithm to satisfy $l_1$ and $l_2$ constraints
Antoine GODICHON-BAGGIONI, Hervé CARDOT, Peggy CENAC
La médiane géométrique, aussi appelée L1 médiane est souvent utilisée en
statistique du fait de sa robustesse. De plus, il est de plus en plus usuel de traiter de
gros échantillons à valeurs dans des espaces de grande dimension. Dans ce contexte, on se concentre sur des estimateurs rapide de la médiane, qui consistent en des algorithmes de gradient stochastiques moyennées. On définit aussi un nouvel indicateur de dispersion robuste (lié à la médiane) appelée Matrice de Covariance Médiane, et on donne des algorithmes pour l'estimer. Cette matrice peut être très intéressantes pour l'Analyse en Composantes Principales Robuste. En effet, sous certaines conditions, elle a les mêmes espaces propres que la matrice de covariance, mais est moins sensible aux données atypiques. Algorithmes stochastiques pour l'estimation robuste en grande dimension
Minh-Lien Jeanne NGUYEN
Dans cet exposé, une nouvelle méthode par algorithme glouton est présentée pour l’estimation de densité conditionnelle. Plusieurs objectifs sont recherchés : contourner le fléau de la grande dimension sous une hypothèse de parcimonie, converger à vitesse adaptative optimale au sens minimax, assurer une exécution rapide. Estimation de densité conditionnelle en grandes dimensions par algorithme glouton
Christian DERQUENNE
La recherche de structures dans les données représente une aide essentielle pour comprendre les phénomènes à analyser. Les méthodes de classification de variables numériques permettent de répondre à cette problématique, mais elles ont été en grande majorité développées pour des variables ayant des liens linéaires. Nous proposons une nouvelle approche pour classifier des variables numériques possédant des relations quelconques au moyen d'un critère d'agrégation hiérarchique. Celle-ci est fondée sur des modèles polynomiaux pour les corrélations et l'ACP non linéaire pour la construction de variables latentes représentantes des groupes. Classification de variables avec des relations non linéaires
| |
12h50-14h30 | Repas | |||||
14h30-15h30 | Jean-Michel MOREL Théorie de la détection sans apprentissage, avec des exemples Dans cet exposé basé sur des démonstrations en ligne d'algorithmes et sur l'examen de plusieurs exemples pratiques, je développerai le problème de modéliser une tâche de détection dans des images. Je me placerai dans le cas (très fréquent) où la tâche de détection ne peut pas être formulée dans un cadre Bayésien ou, ce qui revient pratiquement au même, par apprentissage simultané du modèle de l'objet et de celui du fond. (Dans le cas où on dispose de plein d'exemples du fond et de l'objet à détecter, les réseaux de neurones apportent une réponse pratique, mais sans pouvoir explicatif). Même pour la détection "sans" apprentissage, je montrerai qu'on ne peut quand même pas faire l'économie d'un modèle de fond, qu'il faut bien apprendre. Si j'ai le temps je discuterai aussi de la question de fusionner des critères de détection complémentaires. Avec les éléments de théorie que je donnerai, on ne peut pas tout détecter. Par exemple pas les chats, les chiens ou les visages. Mais on peut détecter des structures géométriques (alignements, points de fuites, courbes, géométrie épipolaire), et on peut aussi détecter les choses imprévisibles ou aux formes arbitraires, comme par exemple des nuages, ou des anomalies. Travaux menés en collaboration avec notamment Axel Davy, Tristan Dagobert, Agnès Desolneux, Thibaud Ehret. Théorie de la détection sans apprentissage, avec des exemples Modérateur: Catherine MATIAS, Amphi: AT03 | Shai SHALEV-SHWARTZ On Successes and Failures of Deep Learning In the last 5 years, Deep Learning has become the go-to solution for a broad range of applications, often outperforming state-of-the-art. In the first part of the talk I will describe the success of deep learning for autonomous driving. The second part of the talk deals with our current theoretical understanding of deep learning. I will argue that in order to make progress, it is important, for both theoreticians and practitioners, to gain a deeper understanding of the difficulties and limitations associated with common approaches and algorithms. Machine Learning Modérateur: Benjamin GUEDJ, Amphi: AT06 | ||||
15h30-15h50 | Pause Café | |||||
15h50-17h10 |
Modèles mixtes
Modèles mixtes Gersende FORT, Edouard OLLIER, Adeline SAMSON, Eric MOULINES
Les modèles à données cachées sont largement utilisés de nos jours notamment pour modéliser des données longitudinales comme c’est la cas en pharmacocinétique avec les modèles non linéaires à effets mixtes. La sélection de tels modèles peut faire appel à des problèmes de maximum de vraissemblance pénalisée pour lesquels des versions pénalisées de l’algorithme SAEM ont été développées. Bien que fonctionnant très bien en pratique, il n’existe pour l’instant aucune analyse théorique de la convergence de tels algorithmes. Dans ce travail, nous présenterons donc des résultats de convergence théorique dans le cas ou la vraisemblance est concave. Nous verrons de plus qu’il est possible de réduire l’étape M à une application d’un opérateur gradient proximal tout en conservant la convergence. Ces résulats seront illustrés sur données simulées ainsi que sur un exemple de pharmacogénomique Algorithmes gradient proximaux perturbés pour l’estimation de modles à effets mixtes pénalisés
Charlotte BAEY, Paul-Henry COURNEDE, Estelle KUHN
Les modèles non linéaires mixtes sont utilisés dans un grand nombre d'applications, afin de prendre en compte la variabilité inter- et intra- individuelle dans une population. L'une des questions qui se pose naturellement lorsque l'on ajuste un tel modèle paramétrique est celle de l'identification des paramètres pouvant être considérés comme constants dans la population (les "effets fixes") et ceux qui varient d'un individu à l'autre (les "effets aléatoires").
D'un point de vue statistique, ce problème peut se formuler sous la forme d'un test d'hypothèses, dans lequel on teste si les variances d'un sous ensemble d'effets aléatoires sont nulles, et peut se traiter par un test du rapport de vraisemblance (TRV). Le TRV peut être mis en oeuvre mais les résultats standards sur ce test ne s'appliquent pas ici, car sous l'hypothèse nulle, la vraie valeur du paramètre se trouve sur la frontière de l'espace des paramètres.
Cette question a été abordée par plusieurs auteurs dans le cas des modèles linéaires mixtes et dans quelques cas particuliers, et est liée plus généralement à l'inférence et aux tests d'hypothèses sous contraintes.
Nous montrons que la distribution asymptotique de la statistique de test de rapport de vraisemblance est un mélange de lois du chi-deux, dont les poids dépendent de la matrice d’information de Fisher et du nombre de paramètres impliqués dans le test. Nous montrons en particulier que la loi limite dépend de la présence ou non de corrélations entre les effets aléatoires. Nous présentons des résultats sur données simulées et réelles. Test du rapport de vraisemblance pour des composantes de la variance dans les modèles non linéaires mixtes
Jocelyn CHAUVET, Catherine TROTTIER, Xavier BRY
Nous proposons des versions régularisées de l'algorithme Espérance - Maximisation (EM) permettant d'estimer un Modèle Linéaire Généralisé Mixte (GLMM) pour des données de panel (mesurées sur plusieurs individus à différentes dates).
Une réponse aléatoire y est modélisée par un GLMM, au moyen d'un ensemble X de variables explicatives et de deux effets aléatoires.
Le premier effet modélise la dépendance des mesures relatives à un même individu, tandis que le second représente l'effet temporel autocorrélé partagé par tous les individus.
Les variables dans X sont supposées nombreuses et redondantes, si bien qu'il est nécessaire de régulariser la régression.
Dans ce contexte, nous proposons d'abord un algorithme EM pénalisé en norme $L_2$ pour des données de petite dimension, ainsi qu'une version régularisée de l'algorithme EM basée sur la construction de composantes supervisées, plutôt destinée à la grande dimension. Régularisation dans les Modèles Linéaires Généralisés Mixtes avec effet aléatoire autorégressif
Emilie DEVIJVER
Les données fonctionnelles présentent différentes variabilités qu'il faut prendre
en compte dans la modélisation. Dans ce projet, nous travaillons sur des techniques
d'alignement de courbes, en prenant en compte la variabilité individuelle. On propose
pour se faire de travailler avec un modèle mixte fonctionnel non linéaire. Chaque observation d'un processus fonctionnel est alors décomposée comme la somme d'une courbe moyenne et une courbe individuelle, le tout altéré par composition avec une fonction d'alignement. La fonction d'alignement est supposée paramétrique, et on estime les paramètres avec un modèle mixte linéaire. Chaque fonction du modèle est décomposée sur une base de splines. Ce modèle général permet de capter différents types de variabilité, et de faciliter l'interprétation. Dans cet exposé, je proposerai une méthode d'estimation des paramètres de ce modèle, et j'illustrerai la méthode sur des données simulées et des données benchmark. Alignement de courbes avec un modèle mixte fonctionnel
|
Modèles bayesiens : études de cas
Modèles bayesiens : études de cas Rana JREICH, Eric PARENT, Christine HATTE
Le groupe d’experts intergouvernemental sur l’évolution du climat, a mis en
évidence une grande incertitude sur les estimations futures du carbone face au changement
climatique, en particulier pour le stockage en profondeur dans les sols. La compréhension
de la dynamique verticale du carbone est donc un défi majeur.
Nos données de 122 profils de carbone sont issues de nombreux articles de la littérature.
Pour chaque site (profil), on disposons d’observations de D14C à différentes profondeurs,
un indicateur de la potentialité de séquestration du C par le sol. On bénéficie aussi d’autres
informations relatives au site telles que : la température, le type de sol, le type d’écosystéme,
l’indice d’aridité...
Dans un premier temps, on modélise les profils de concentration de de D14C par un modèle
hiérarchique à effet aléatoire. Pour l’ inférence, on a utilisé les algorithmes MCMC afin
d’évaluer les incertitudes intra et inter sites.
La deuxième partie de notre travail consiste à développer un modèle de séléction de variables.
Un échantillonneur de Gibbs sur des variables indicatrices permet d’identifier la
probabilité a posteriori de chacune des variables potentiellement explicatives. Cette technique
de sélection nous permet de recommander de nouvelles stratégies pour augmenter
la séquestration du carbone dans le sol et mitiger le réchauffement global. Modélisation de la dynamique verticale du carbone dans le sol
Julie JOSSE
Face aux critiques soulevées par le facteur d’impact (FI) d’évaluation des revues, de nouveaux indices bibliométriques ont vu le jour qui s’appuient sur les citations croisées entre revues et en particulier sur la matrice d’adjacence d’un réseau orienté citant-cité qui est analysée grâce à un algorithme de type Google PageRank (PR): cf notamment « EigenFactor » (EF) de Bergstrom et « SCImago Journal Rating » (SJR) de Gonzalez-Pereira et Moya-Anegon. L’algorithme PR se base sur un lissage de la matrice adjacente combinant une marche aléatoire markovienne dans le réseau des données et une téléportation générale vers l’ensemble des nœuds avec des probabilités respectives (alpha = 0.85 et 1-alpha = 0.15) fixes. Nous reprenons cette phase de lissage selon une approche bayésienne empirique qui repose sur un modèle Dirichlet-Multinomiale prenant en compte la condition d’exclusion des autocitations (termes diagonaux de la matrice). L’expression de la matrice de transition lissée s’obtient alors par l’espérance de la distribution a posteriori des paramètres des lois multinomiales sachant ceux des lois Dirichlet. Son expression est proche de celle de l’algorithme PR mais avec un coefficient alpha qui dépend maintenant de chacune des revues. Nous proposons de remplacer ces derniers paramètres par leur estimation du maximum de vraisemblance marginale. Celle-ci peut s’obtenir par divers procédés notamment grâce à un algorithme de Levenberg-Marquardt ou par simulation MCMC des lois marginales. Cette méthode a le mérite de reprendre la formule de base de PR tout en s’appuyant sur une modélisation probabiliste qui fait bien la distinction entre zéros structuraux (autocitations sur la diagonale) et zéros d’échantillonnage (termes hors diagonale) contrairement aux autres méthodes. Une alternative bayésienne empirique à un algorithme de type PageRank utilisé en bibliométrie
Christophe ABRAHAM, Nicolas MOLINARI, Rémi SERVIEN
This paper presents a new Bayesian framework for the clustering of multivariate directional or circular data. We introduce a hierarchical model that combines Projected Normal distributions and a Dirichlet Process. The data are made up of (non ordered) sets of $k$ angles. Additional parameters are introduced in order to take into account the non ordered particularity of the data and for modelling their variance. The parameters of the model are then inferred using a Metropolis-Hastings within Gibbs algorithm. Simulated datasets are analyzed to study the influence of the parameters of the model. The benefits of our approach are illustrated by clustering real data from the positions of five separate radiotherapy x-ray beams on a circle.
A clustering Bayesian approach for non-ordered multivariate circular data
Sophie ANCELET, Merlin KELLER
En épidémiologie des rayonnements ionisants (RI), plusieurs modèles dose-réponse sont souvent proposés pour décrire un même jeu de données. Certains modèles peuvent être très difficiles à discriminer en termes de qualité d'ajustement aux données mais conduire \`a des estimations différentes d'un même risque sanitaire radio-induit. Afin de tenir compte de l'incertitude sur la forme du modèle dose-réponse associé \`a une pathologie radio-induite, plusieurs travaux de recherche se sont récemment basés sur l'approche fréquentiste proposée par Burnham et Anderson (2002), appelée Multi-Model Inference (MMI). L'estimateur d'un risque d'intérêt est défini comme l'estimateur de risque moyen dans lequel chaque modèle possible a un poids qui dépend de sa capacité d'ajustement aux données, quantifiée par le critère d'information d'Akaike (AIC). L'utilisation de tels poids AIC peut en effet permettre de réduire les biais potentiellement induits par la sélection d'un modèle unique. Malgré la simplicité de mise en œuvre d'une telle approche, à notre connaissance, aucune théorie n’existe quant à l'optimalité de l'utilisation de tels poids dans une procédure de combinaison de modèles. Dans ce travail, nous réalisons une étude par simulations afin de comparer les performances d'ajustement de l'approche MMI par rapport à une approche alternative bayésienne, connue pour ses bonnes propriétés en termes d'estimation et de prédiction: le Bayesian Model Averaging (BMA). Les simulations réalisées sont motivées par un cas d'étude réel portant sur l'estimation de l'excès de risque de leucémie potentiel due à l'exposition aux RI chez les survivants des bombardements d'Hiroshima-Nagasaki. Pour inférer les modèles candidats et mettre en œuvre le BMA, une approche par échantillonnage préférentiel adaptatif et multiple a été implémentée.
Incertitude sur la forme du modèle dose-réponse en épidémiologie des rayonnements ionisants: étude comparative des approches Multi-Model Inference et Bayesian Model Averaging.
|
Statistique Mathématique
Statistique Mathématique Charles BOUVEYRON, Pierre LATOUCHE, Pierre-Alexandre MATTEI
Nous présentons une méthode de sélection de modèle bayésienne pour déterminer le nombre de composantes principales. Notre approche est basée sur un calcul explicite de la vraisemblance marginale dans le cadre d'un nouvel a priori de type normal-gamma. Ainsi, les probabilités a posteriori des modèles peuvent être déterminées de façon exacte et un nombre d'axes optimal choisi. Les hyperparamètres sont choisis à l'aide d'une méthode heuristique simple. Dans un cadre non-asymptotique, nous montrons à l'aide de simulations que cette méthode exacte est compétitive avec les procédés habituels de sélection de dimension, bayésiens ou non.
Sélection de modèle bayésienne exacte pour l'analyse en composantes principales
Pierre LAFAYE DE MICHEAUX, Pavlo MOZHAROVSKYI, Myriam VIMOND
Initialement introduite par John W. Tukey (1975), la profondeur statistique des données est une fonction qui détermine la centralité d’un point de l’espace par rapport à un nuage de points ou à une distribution de probabilité. Au cours des dernières décennies, la profondeur des données a rapidement évolué vers un mécanisme puissant qui s’avère utile dans divers domaines de la science. Dernièrement, l’extension de profondeur des données dans le cadre fonctionnel a attiré beaucoup d’attention. Nous suggérons une notion basée sur la profondeur de données de Tukey appropriée pour des données représentées par des trajectoires ou des courbes non-paramétrées. Cette profondeur basée sur la longueur des trajectoires ou des courbes hérite à la fois de la géométrie euclidienne et des propriétés fonctionnelles, tout en surmontant certaines limitations des approches précédentes. Les applications de cette profondeur de courbe comprennent l’imagerie cérébrale et la reconnaissance de motifs écrits. Une notion de profondeur pour des données des courbes.
Aurélie FISCHER, Sylvain DELATTRE
Les courbes principales sont des courbes paramétrées passant au milieu d'une loi de probabilité dans $R^d$. Outre la définition originelle basée sur la notion d'auto-consistance, plusieurs points de vue ont été considérés, dont un problème de minimisation de type moindres carrés avec contrainte. Nous étudions les propriétés théoriques de courbes principales de longueur au plus L et montrons notamment qu'elles sont toujours de courbure finie.
A partir de la condition d'ordre 1, exprimant qu'une courbe est un point critique pour le critère, nous obtenons une équation faisant intervenir la courbe, sa courbure, ainsi qu'une variable aléatoire jouant le rôle du paramètre de la courbe paramétrée. Cette équation permet de proposer une nouvelle démonstration de l'injectivité d'une courbe principale contrainte en dimension 2. Quelques propriétés des courbes principales avec contrainte de longueur
Le LI, Benjamin GUEDJ, Sébastien LOUSTAU
Les courbes principales sont la généralisation non-linéaire de l’analyse en composantes principales. En général, une courbe principale passe continûment à travers le «milieu» des données avec une hypothèse probabiliste et en donne un résumé. Nous nous intéressons dans ce travail à la construction et à la mise en oeuvre d’une implémentation d’un programme qui utilise les courbes principales en ligne. Nous proposons un nouvel algorithme pour la construction de courbes principales qui résument séquentiellement des données en ligne, reposant sur l’approche quasi-bayésienne. En particulier, les sommets nécessaires pour former la courbe principale sont estimés dynamiquement (c’est-à-dire qu’ils peuvent changer au cours du temps), et nous démontrons de borne de regret de notre algorithme et donnons une implémentation via MCMC.
Courbes principales dans un contexte d’apprentissage
|
Econométrie
Econométrie Marie-Anne VIBET, Jacques LEVY-VEHEL, Anne PHILIPPE
Nous souhaitons analyser les relations causales entre les variables clés de la politique monétaire américaine. Nous avons appliqué l'analyse des composantes indépendantes (ICA) afin d'identifier la partie structurelle du modèle VAR structurel (SVAR). Cette méthode développé en Machine Learning a été récemment introduite dans le domaine économique. Cette méthode repose sur l'hypothèse de non-Gaussiannité des résidus. La procédure VAR-LINGAM permet d'intégrer l'identifiabilité de la partie structurelle à l'estimation des coefficients du modèle VAR. Nous avons tout d'abord testé cette procédure sur des données simulées avant de l'appliquer à notre jeu de données américaines. Modèles VAR Structurels et Analyse en Composantes Indépendantes - Application aux données macroéconomiques Américaines
Margot BRARD, Sébastien LE, David CAUSEUR
L'analyse de la perception par les consommateurs de concepts complexes associés à des produits fait l’objet d’une attention grandissante dans le domaine du marketing. La complexité d’un concept fait notamment référence à sa multidimensionnalité, l’évaluation subjective s’appuyant sur un ensemble de critères dont l’importance relative est propre à chaque consommateur. À l’échelle d’une population de consommateurs, cette complexité se traduit par une diversité de perceptions, que les études marketing visent à analyser. Inspirée d’approches utilisées dans le domaine de la psychologie pour étudier la subjectivité humaine, la QC-methodology permet d’étudier la diversité de perceptions d’un concept complexe donné au sein d’un ensemble de stimuli. Cette méthodologie fournit des données dans lesquelles chaque sujet peut être assimilé à un profil d’évaluations binaires. Dans ce travail, nous présentons une méthode de segmentation de ces profils basée sur un modèle spécifique de l’accord/désaccord entre sujets. En particulier, dans le cadre général que nous proposons, une séquence de tests de rapport de vraisemblance visant à déterminer le nombre de clusters de désaccord au sein d’un panel de sujets est présentée. La méthode est corroborée en évaluant ses performances dans des situations caricaturales de désaccord. La méthode est également appliquée à un jeu de données obtenu dans le cadre d’une étude réalisée au Centre Culinaire Contemporain (Rennes) auprès de 72 sujets pour caractériser le concept de « bon geste » au sein d’un ensemble de 39 stimuli vidéo représentant des gestes culinaires. Classification de profils binaires via la modélisation de la structure d'accord/désaccord
Adrien EHRHARDT, Christophe BIERNACKI, Vincent VANDEWALLE, Philippe HEINRICH, Sébastien BEBEN
Un système d’octroi de crédit peut refuser des demandes de prêt jugées trop risquées. Au sein de ce système, le score de crédit fournit une valeur mesurant un risque de défaut, valeur qui est comparée à un seuil d'acceptabilité. Ce score est construit exclusivement sur des données de clients financés, contenant en particulier l'information "bon ou mauvais payeur", alors qu'il est par la suite appliqué à l'ensemble des demandes. Un tel score est-il statistiquement pertinent ? Dans cette note, nous précisons et formalisons cette question et étudions l’effet de l’absence des non-financés sur les scores élaborés. Nous présentons ensuite des méthodes pour réintégrer les non-financés et concluons sur leur inefficacité en pratique, à partir de données issues de Crédit Agricole Consumer Finance. Réintégration des refusés en Credit Scoring
Christine THOMAS-AGNAN, Michel SIMIONI, Joanna MORAIS
On considère des modèles de régression comportant des variables compositionnelles. Un vecteur de parts est appelé une composition. Les parts sont les composants et la composition appartient au simplexe. Nous nous intéressons au cas où la variable dépendante ainsi que certaines variables explicatives sont compositionnelles (des variables explicatives classiques peuvent aussi être incluses). Plusieurs modèles sont disponibles pour ce type de données dans la littérature et nous nous concentrons sur la famille des modèles de régression compositionnels (CODA). Dans le but d'améliorer l'interprétabilité de ces modèles, nous montrons que les élasticités sont un outil adapté à la mesure de l'impact d'une variable explicative sur un composant. Cependant leur definition et leur calcul nécéssite l'utilisation de la notion de dérivée d'une fonction à valeurs dans le simplexe. De plus lorsqu'il s'agit de l'impact d'une variable compositionnelle, un soin particulier doit être apporté au calcul. Nous présentons une application au marché automobile où le but est d'étudier l'impact des investissements publicitaires sur les parts de marché des différents constructeurs sur le segment B de ce marché. Impact des variables explicatives dans les modèles compositionnels: effet des investissements publicitaires sur le marché automobile français
|
Régression et détection d'anomalies
Régression et détection d'anomalies Anne DE LA FOYE, Alyssa IMBERT, Marie-Claire NOT, Papa MBAYE, Chafik SAMIR, Anne-Françoise YAO
Nous nous intéressons à la problématique de la mise en relation entre deux ensembles de variables en grande dimension : Y (à expliquer) et X (explicatif) à valeurs respectivement dans les espaces séparables, X et Y à partir n observations de Z = (X, Y). Généralement, l’exploitation de ce type de données est fragmentaire.
L’approche que nous proposons permet de visualiser directement l’influence des sous-ensembles X sur ceux de Y dans un contexte de régression PLS (Partial Least Squares). Plusieurs applications seront abordées au cours de cet exposé.
Nous illustrerons notre approche notamment dans des situations où X et Y sont de grandes dimensions (voire fonctionnelles) et montrerons comment elle permet de répondre à des questions telles que : quel(s) groupe(s) de micro-ARN influence(nt) quel(s) groupe(s) d’ARN messagers. Représentation et interprétation en régression pls fonctionnelle
Maxime BRUNIN, Christophe BIERNACKI, Alain CELISSE
Dans le cadre de la régression linéaire, notre objectif est de trouver un estimateur qui soit meilleur en terme de ``précision'' que l'estimateur des moindres carrés (EMC). Cet estimateur alternatif est construit à l'aide d'un algorithme de descente de gradient à pas fixe et d'un temps d'arrêt. Ce temps d'arrêt assure la ``précision'' de cet estimateur alternatif. La perspective de ce travail sera d'étendre au cas d'estimateurs non explicites afin d'avoir en plus un gain en temps de calcul. Compromis précision - temps de calcul appliqué au problème de régression linéaire
Catherine VERMANDELE, Vincenzo VERARDI
L'identification de valeurs extrêmes (aberrantes) s'avère particulièrement délicate en analyse multivariée lorsque la distribution sous-jacente est asymétrique et/ou à queues lourdes. Nous présenterons dans cette communication une méthode d'identification extrêmement simple, bien adaptée à ce type de distribution et qui n'exige qu'une faible complexité calculatoire. Cette méthode se fonde essentiellement sur la détermination d'une mesure spécifique du caractère extrême (aberrant) de chacune des observations multivariées étudiées, puis sur l'ajustement "robuste" (peu sensible à la présence de valeurs extrêmes), par une distribution dite de Tukey g-et-h, de la distribution des valeurs obtenues en appliquant une transformation monotone croissante fort simple à ces mesures du caractère extrême. Identification d'observations aberrantes pour des distributions multivariées unimodales asymétriques et/ou à queues lourdes
Aurore ARCHIMBAUD, Klaus NORDHAUSEN, Anne RUIZ-GAZEN
Dans cette présentation, nous nous intéressons à la détection non supervisée d’observations atypiques, au sein de données numériques multivariées.
Nous considérons plus particulièrement le cas d’une faible proportion d’observations atypiques, comme par exemple dans la détection de fraudes
ou de produits défectueux. La distance de Mahalanobis permet de calculer un score associé à chaque observation en prenant en compte la structure de
covariances des données. Des scores élevés indiquent de potentiels atypiques.
Nous montrons les limites de cette méthode dans le cas où la dimension augmente alors que la structure d’intérêt reste dans un espace de dimension fixe. La méthode ICS (Invariant Coordinate Selection) permet de pallier cet inconvénient en ne sélectionnant que des composantes pertinentes pour la détection d’atypiques.
Les résultats seront illustrés sur des exemples simulés et sur des exemples réels à l’aide du package R ICSOutlier que nous avons développé. Distance de Mahalanobis et ICS pour la détection d’observations atypiques
| |
17h20-18h40 |
Enquêtes et sondages
Enquêtes et sondages Cyril FAVRE-MARTINOZ, Thomas MERLY-ALPA
L'objectif de cette communication est d'évaluer, dans le cadre du
tirage des unités primaires des enquêtes ménages de l'INSEE, l'apport de l'information géographique sur deux éléments : la constitution d'unités primaires et le tirage équilibré. Nous commençons par décrire notre méthode de constitution d'unités primaires comme groupes de communes, à l'aide d'un algorithme solution au problème du voyageur de commerce. Nous détaillons ensuite la méthode de tirage spatialement équilibré (Grafström et Tillé (2013)). La propriété d'équilibrage spatial est importante dans la mesure où elle permet
de s'assurer que les unités primaires tirées sont éloignées géographiquement. En effet, tirer des unités proches aurait des conséquences néfastes en termes de précision pour des variables d'intérêt spatialement corrélées. Une étude par simulation est présentée pour mettre en évidence les gains supplémentaires apportés sur certaines variables d'intérêt par la méthode de tirage spatialement
équilibrée par rapport à la méthode du cube. Nous étudierons enfin
les gains apportés en termes d'équilibrage spatial par la méthode
spatialement équilibrée, puis nous présenterons une approximation
par Monte-Carlo des probabilités d'inclusion doubles pour la méthode
spatialement équilibrée dans le but de présenter des estimations de
variance. Constitution et Tirage d'Unités Primaires pour des sondages en mobilisant de l'information spatiale
Frédérik CASSOR, Brigitte LE ROUX
Le principal objectif des données barométriques est d'étudier les changements qui se produisent au cours du temps. Nous étudierons ce problème à l'aide des méthodes d'analyse géométrique des données.
Les données sont issues de l'enquête "Baromètre de la confiance politique" initiée par le CEVIPOF portant sur la confiance des électeurs français.
Pour l'analyse statistique, on a retenu 19 questions qui relèvent de 4 thèmes (politique, institutionnel, économique et interpersonnel). Nous avons construit un espace de la confiance en effectuant une analyse des correspondances après dédoublement des questions et pondération par thème. Les individus interrogés en 2016 (vague 8) on été pris comme ensemble de référence, ceux des années 2009 puis 2012 à 2015 ont été mis en éléments supplémentaires.
Pour étudier l'évolution des réponses aux questions, nous avons appliqué les formules de transition aux individus supplémentaires. Par ailleurs, nous avons effectué une classification des individus de l'année 2016 (méthode de Ward). Nous avons identifié 4 classes d'individus au regard de la confiance ("hyperconfiants", "confiants", "défiants", "hyperdéfiants"). Puis, nous avons affecté les individus des autres années aux classes en prenant un critère d'affectation basé sur la distance de Mahalanobis associée à chaque classe afin d'étudier les transferts entre classes.
Mots-clés. Analyse géométrique des données, codage par dédoublement, étude de cas, données d'enquête barométrique, données temporelles. Analyse statistique de données barométriques : Application au
Mireille GETTLER SUMMA, Frédérik CASSOR, Brigitte LE ROUX
L’analyse systématique des questions ouvertes pour décrire un comportement électoral est devenue opérationnelle grâce à des mathématiques, des algorithmes et des logiciels dédiés aux données textuelles.
Nous décrivons dans ce travail l’intérêt de l’Analyse Géométrique Textuelle, et en particulier de la visualisation des résultats, ainsi que l’intérêt de l’Analyse Spécifique de Classe pour l’étude de groupes d’individus.
Nous présentons également une méthodologie de traitements informatiques conçue en 2017 pour ces approches statistiques
Un exemple de cette méthodologie est mise en œuvre sur des verbatim provenant d’enquêtes initiées par le CEVIPOF (centre de recherches politiques de Sciences Po Paris), nous en donnerons les principaux résultats. Analyse Géométrique textuelle d'une question ouverte issue du Baromètre de la Confiance 2015 et 2016
Léo GERVILLE-REACHE
Le 25 avril 2016 ont été adoptées de nouvelles modifications de la Loi 77-808 du 19 juillet 1977 relative à la publication et à la diffusion de certains sondages d’opinion. Attendue depuis de longues années, cette évolution nous informe sur les rapports entre le législateur, les instituts de sondage et la statistique. En particulier les termes « échantillon représentatif » et « marges d’erreur » sont aujourd’hui inscrit dans la loi. La loi et les sondages
|
Apprentissage : études de cas
Apprentissage : études de cas Jean-Michel POGGI, Neska EL HAOUIJ, Raja GHOZI, Sylvie SEVESTRE GHALILA, Mériem JAIDANE
Avec l'urbanisation croissante et les progrès technologiques, la conduite automobile urbaine est une tâche complexe qui exige un niveau élevé de vigilance. Ainsi, la charge mentale du conducteur doit être optimale afin de gérer des situations critiques dans de telles conditions de conduite. Les \'etudes antérieures sur les performances du conducteur reposaient sur l'utilisation de mesures subjectives. La nouvelle technologie de capteurs portables et non intrusifs, fournit non seulement une surveillance physiologique en temps réel, mais enrichit également les outils de surveillance des états affectifs et cognitifs humains.
Cette étude se concentre sur les changements physiologiques du conducteur mesurés \`a l'aide de capteurs portatifs dans différentes conditions de circulation urbaines. Plus précisément, l'activité électrodermale (EDA) mesurée en deux endroits différents : main et pied, l'électromyogramme (EMG), la fréquence cardiaque (HR) et la respiration (RESP) sont enregistrés lors de dix expériences de conduite sur trois types de routes. Les données de conduite considérées sont issues de la base publique de données physiologiques.
Plusieurs études ont été réalisées sur la reconnaissance du niveau de stress à partir de signaux physiologiques. Classiquement, la stratégie consiste dans l'extraction par des experts de caractéristiques de signaux physiologiques et la sélection des caractéristiques les plus pertinentes dans la reconnaissance du niveau de stress par une méthode statistique classique.
Le présent travail fournit une méthode basée sur la forêts aléatoires pour la sélection de variables physiologiques fonctionnelles afin de classer le niveau de stress au cours de l'expérience de conduite. La contribution de cette étude est double : sur le plan méthodologique, elle considère les signaux physiologiques comme des variables fonctionnelles et adapte une procédure de traitement et de sélection de variables de telles données. Du côté appliqué, la méthode proposée fournit une procédure "aveugle" de classification du niveau de stress du conducteur qui ne dépend pas des études d'experts des signaux physiologiques. Random Forest-Based Approach for Physiological Functional Variable Selection for Driver's Stress Level Classification
Rémi BESSON, Erwan LE PENNEC, Stéphanie ALLASSONNIERE
Dans ce travail nous nous intéressons à l’apprentissage de bonnes stratégies
de diagnostic pour la recherche échographique d’anomalie chez le foetus. Nous commençons
par apprendre notre environnement via des techniques bayésiennes de maximum
d’entropie puis nous formalisons notre problème comme un processus de Markov
décisionnel. Des techniques d’apprentissage par renforcement et des idées provenant de
la recherche de plus court chemin sur un graphe (algorithme A*, AO*) sont mises en
oeuvre pour trouver des solutions optimales. Optimisation d'arbre de décision pour un problème de détection précoce d’anomalies foetales.
Benoît SAINCT, Philippe BESSE
Dans cet article, on s'intéresse à la prédiction à long terme de la masse salariale des collectivités, et plus précisément à l'évolution du coût mensuelle par individu. Les dépenses de la fonction publique territoriale présentent à la fois de nombreuses disparités et de grands volumes de données, ce qui nécessite une prise en charge appropriée si l'on souhaite réussir à prédire correctement les valeurs futures.
Deux modèles rapides et automatiques sont présentées, et l'efficacité de leur application est comparée à l'aide d'outils standards. Les résultats montrent une coïncidence significative entre la prévision et la réalité. Évaluation comparative de modèles de prédiction : application la la masse salariale publique
Christine COULOIGNER
Avec le de rapides des réseaux de systèmes de télécommunications à grande échelle, il est nécessaire de disposer de modèles basés sur l’exploration de données pour analyser et évaluer et évaluer les performances d’un système en termes de débit et d’utilisation des ressources – tant au niveau des composants individuels que du système dans son ensemble. Le but de cet article est de présenter une méthode de modélisation des performances d’un produit à partir de l’analyse massive de données collectées sur un réseau opérationnel et la construction d’un modèle. Modélisation des performances d'un système de télécommunications et analyse massive de données
|
Test 1
Test 1 Florian HEBERT, Mathieu EMILY, David CAUSEUR
Les études d'association pangénomiques visent à déterminer des liaisons entre une maladie et des marqueurs génétiques. Pour cela, des tests d'indépendance sont réalisés entre la maladie et chaque marqueur. Le contrôle du taux de faux positifs est d'autant plus difficile que le nombre de marqueurs est très grand et leur dépendance marquée par une structure en blocs. Nous proposons de combiner d'abord les tests au niveau de chaque bloc par une méthode adaptée à la dépendance, puis de corriger les p-values combinées obtenues à la première étape pour contrôler le taux de faux positifs. Une méthode de combinaison de tests basée sur la décorrélation des statistiques est introduite, dont les performances dans un cadre de forte corrélation et de signal sparse sont intéressantes. Combinaison de tests dépendants en études d'association pangénomiques
Marie PERROT-DOCKES, Céline LEVY-LEDUC, Julien CHIQUET, Laure SANSONNET
Les données ’omiques’ sont caractérisées par une forte structure de dépendance
qui peut être due à l’acquisition des données ou `a un phénomène biologique sous-jacent. En métabolomique, par exemple, il est intéressant de trouver quelles variables permettent de caractériser un phénotype donné. Ne pas tenir compte de la structure de dépendance présente dans les données de métabolomique peut conduire à la sélection de variables non pertinentes. Dans cet article nous proposons une nouvelle méthode utilisant le critère Lasso adaptée aux modèles multivariés en grande dimension et prenant en compte la structure de dépendance en utilisant différentes modélisations de la matrice de covariance des résidus. Les résultats des simulations numériques que nous avons menées ont montré que la prise en compte de la structure de dépendance sous-jacente améliore de façon significative la sélection de variables. Nous présentons également une application de notre méthode à des données de métabolomique analysant des échantillons de résine d’arbres. Modèle linéaire multivarié parcimonieux avec estimation de covariance : une application à des données de métabolomique
Tom ROHMER
Dans la littérature, on retrouvera un certain nombre de tests non-paramétriques de détection de rupture dans la distribution d'observations multivariées. Cependant, ces tests se révèlent souvent très peu sensibles à un changement dans la dépendance entre les composantes des vecteurs aléatoires (v.a.), lorsque les lois marginales sont inchangées. Si l'on considère un v.a. dont les marges sont continues, le théorème de Sklar affirme qu'il existe une unique fonction appelée copule du v.a. telle que la donnée de la copule et des fonctions de répartitions marginales, caractérise la loi du v.a. De plus, la copule quant-à-elle caractérise la structure de dépendance entre les composantes du v.a. Dans des contributions récentes, des tests basés sur le processus de copule empirique séquentiel, sensibles à un changement dans la copule lorsque les lois marginales sont inchangées ont été mis en place. Ces tests ne permettent pas de conclure en une rupture dans la copule dès lors que les lois marginales ne sont pas constantes. Lorsque des changements dans les lois marginales surviennent, il est néanmoins possible d'adapter les dernières approches mentionnées pour prendre en compte ces potentiels instants de ruptures Test non-paramétrique de détection de rupture dans la dépendance d'observations multivariées
Doha HADOUNI, Pierre Raphael HADOUNI
Notre étude concerne la détection de rupture {\it a posteriori} en utilisant la méthode de Dérivée Filtrée avec $t$-Value Itérative (I-FD$t$V). Il s'agit d'un algorithme en deux étapes. Dans la première, on utilise la fonction dérivée filtrée (FD), basée sur deux extra-paramètres : le seuil de détection et la taille de la fenêtre, pour sélectionner un ensemble de points de rupture potentiels. Dans la seconde étape, on calcule la $t${\em -valeur} pour chaque point de rupture potentiel que l'on compare avec une $t$-valeur critique incrémentée itérativement . Ainsi, on retient les vrais positifs (avec probabilité $1-\alpha_1$) et on rejette les faux positifs (avec probabilité $1-\alpha_2$). De plus, nous présentons les résultats théoriques et les choix pratiques pour les extra-paramètres de la méthode. Enfin, nous simulons quelques exemples par une méthode de Monte-Carlo et nous appliquons la méthode sur des données réelles. Iterative Filtered Derivative with t-Value for Change Point Detection
|
Statistique spatiale
Statistique spatiale Lionel CUCALA, Michaël GENIN, Caroline LANIER, Florent OCCELLI
Nous proposons une nouvelle statistique de balayage pour des données multivariées associées à une localisation spatiale. Comme de nombreuses méthodes de balayage, elle s'appuie sur un rapport de vraisemblance généralisé, mais elle prend également en compte les corrélations entre les différentes variables. Ce test de balayage semble plus puissant que sa version indépendante, quel que soit le niveau de corrélation entre les variables. Nous appliquons cette méthode à un jeu de données qui recense les niveaux de métaux polluants dans la zone urbaine de Lille, France. Détection d'agrégats spatiaux: une statistique de balayage Gaussienne multivariée.
Edith GABRIEL, Frédérik SALTRE, Joël CHADOEUF, Coray BRADSHAW
Afin de cartographier les dates d'apparition d'espèces sur la base des seules données fossiles et/ou archéologiques, et donc sur la base d'observations de présence et non de dates d'arrivées aux points d'observation, nous proposons de combiner le modèle de dynamique de population de Verhulst à la géostatistique et d'utiliser l'algorithme EM pour l'estimation de ses paramètres, dont un est le champ aléatoire d'intérêt. Les propriétés de la méthode sont illustrées sur simulations et l'approche est utilisée pour estimer et cartographier les dates d'apparition des premiers hommes modernes (homo sapiens) dans le territoire australien à partir de données archéologiques. Allier géostatistique et algorithme EM pour cartographier la date d'apparition des hommes
Ahmed BENSALMA
Il existe dans la littérature une classe de modèles connu sous le nom FISSAR (Fractionnally Integrated Separable Spatial AutoRegressive model). Dans cet article, pour un cas particulier de cette classe de modèles, des simulations seront menées, pour explorer les différentes représentations graphiques qui peuvent être déduites de tels modèles. Sur les données simulées la méthode du maximum de vraisemblance sera utilisée pour estimer les paramètres d’intégration fractionnaire. Fractional autoregressive spatial processes: Monte carlo investigation
Guy MELARD, Rajae AZRAK
Cette contribution est une suite de travaux où nous avons étudié les modèles VARMA à coefficients dépendant du temps, ou modèles tdVARMA. Ici, nous traitons le cas où les coefficients dépendent aussi de la longueur de la série chronologique. Nous proposons des résultats théoriques nouveaux : (i) un théorème fondamental pour la théorie asymptotique; (ii) un autre qui permet de réduire la supposition sur les moments; (iii) deux théorèmes pour établir la convergence des deux matrices V et W impliquées dans la matrice de covariance asymptotique de l’estimateur. Nous appliquons ces résultats à certains modèles tdVAR(1). En particulier nous montrons des résultats de simulation pour différents types de distributions (y compris celle de Laplace) et nous comparons les erreurs-types à celles déduites de la théorie. Nouveaux résultats pour des modèles ARMA à coefficients dépendant du temps
|
Modélisation statistique pour la santé
Modélisation statistique pour la santé Camille SABATHE, Pierre JOLY
L'objectif de ce travail est d'étudier l'effet de facteurs de risque sur la probabilité de devenir dément. Une approche par pseudo-valeurs issues d'estimateurs non paramétriques permet de modéliser directement ces effets sur cet indicateur de santé. Une extension de la méthode par pseudo-valeurs dans le cadre de données censurées par intervalles est proposée ici. Pour cela, la probabilité de tomber malade est estimée à partir des estimateurs du maximum de vraisemblance pénalisée d'après un modèle \textit{illness-death}. L'illustration de la méthode a été faite sur les données de la cohorte Paquid, qui a inclus plus de 3000 individus non déments âgés de 65 ans et plus, avec un suivi des sujets pendant plus de 25 ans. Modélisation de l'effet de facteurs de risque sur la probabilité de devenir dément : approche par pseudo-valeurs
Modibo DIABATE, Adeline SAMSON, Loren COQUILLE
L’objectif principal de ce projet est d’aider à la compréhension de la résistance des tumeurs aux approches immunothérapeutiques. Elle consiste à étudier un modèle stochastique rendant compte des phénomènes qui se déroulent pendant l’immunothérapie du cancer de la peau et à estimer (avec des données biologiques) les paramètres du modèle en utilisant des modèles non linéaires à effets mixtes (NLMEM) et l’algorithme SAEM (Stochastic Approximation Expectation Maximization). Nous disposons d’une base de données de mesures de croissance tumorales recueillies chez 19 souris, réparties en trois groupes (sans traitement, avec immunothérapie, avec immunothérapie et restimulation). Nous avons, dans un premier temps, estimé (et validé) les paramètres associés à la limite déterministe du modèle stochastique. En revenant au modèle stochastique avec ces paramètres, nous estimons la probabilité d’extinction des cellules T. Cette extinction (qui peut être interprétée comme une rechute de la maladie) est un évènement rare dont l’estimation de la probabilité de survenue implique l’utilisation de techniques spécifiques comme l’algorithme d’importance Splitting and Sampling. Modélisation stochastique et estimation de la croissance tumorale
Vivian VIALLON, Marine DUFOURNET
Le paradoxe de l'obésité a été rapporté dans plusieurs études observationnelles : l'obésité protégerait d'une mortalité précoce chez des patients souffrant d'une maladie chronique, telle que le diabète. Des arguments causaux ont récemment été avancés pour expliquer ce paradoxe. Le conditionnement sur un médiateur, le diabète ici, crée un biais de collision, si bien que le côté protecteur de l'obésité observé chez les patients diabétiques n'a pas de valeur causale. Récemment, Sperrin et al. (2016) on relancé le débat prétendant que le biais était vraisemblablement faible et ne pouvait expliquer à lui seul le paradoxe. Cependant, des failles existent dans les arguments de Sperrin et al., qui remettent grandement en cause leurs conclusions. Nous évaluons le biais entre $(i)$ l'association entre l'obésité et la mortalité précoce parmi les patients diabétiques $\Delta_{AS}$ et $(ii)$ l'effet causal considéré par Sperrin et al. Dans le cadre des modèles causaux structuraux, nous expliquons pourquoi ce biais peut être bien plus important que ce que ces auteurs rapportent. Nous considérons également des effets causaux alternatifs et étudions leur différence avec $\Delta_{AS}$. Des exemples numériques sont présentés pour illustrer la magnitude des biais correspondants sous des scénarios réalistes.
Biais de collision et paradoxe de l’obésité
Souad BECHROURI, Mohamed CHOUKRI, Abdelilah MONIR, Hamid MRAOUI, Ennouamane SAALAOUI
La régression logistique est l'un des modèeles les plus utilisés en études
cliniques et épidémiologiques. Elle permet d'estimer la relation entre une variable dépendante binaire et une ou plusieurs variables indépendantes catégorielles ou continues. Concernant ce dernier type, il est fréquent de le transformer en variable catégorielle; cependant cela peut induire une perte d'information. Par ailleurs, la relation entre les variables explicatives et la variable sortie est une relation linaire. Dans cette étude, l'effet non-linéaire est estimé par des fonctions splines afin d'ajouter plus de fexibilité. L'objectif est de modéliser la probabilité d'avoir une hyperglycémie, chez les patients hospitalisés au Centre Hospitalier
Universitaire Mohamed VI d'Oujda, par quelques paramètres biochimiques et l'âge. Nous avons comparé des techniques utilisant des fonctions splines pour ajuster l'effet des variables continues dans un modèle de régression logistique qui sont : les splines pénalisées, les splines naturelles et les splines cubiques restreintes. Pour évaluer ces méthodes, nous utilisons la déviance résiduelle. Nous observons que les splines pénalisées ajuste mieux le modèle avec la plus petite déviance résiduelle. La sélection des variables significatives dans le modèle de régression est effectuée par la méthode bidirectionnelle. Les analyses statistiques
sont réalisées avec la version 3.2.3 du logiciel R. Le niveau de signification
est considéré à 5%. COMPARISON OF SMOOTHING METHODS IN LOGISTIC REGRESSION MODEL WITH APPLICATION TO BIOCHEMICAL ANALYSIS
| |
19h15-20h30 | Réception à l'hotel de ville d'Avignon |
9h00-10h00 | Emilio PORCU Modeling Temporally Evolving Dependent Data over the Globe The last decades have seen an unprecedented increase in the availability of data sets that are inherently global and temporally evolving, from remotely sensed networks to climate model ensembles. We review theoretical and practical paradigms on global and temporal data and we provide a comprehensive survey to frame seemingly sparse results in different areas of Statistics in a general framework. In particular, we review (a) second order-based approaches versus (b) more practical approaches, such as, e.g., dynamical models. Some new results on classes of covariance functions for global data are also provided. We illustrate a global dataset of air pollution from NASA's MERRA2 reanalysis with more than 12 million data points. Modeling Temporally Evolving Dependent Data over the Globe Modérateur: Denis ALLARD, Amphi: AT03 | Agathe GUILLOUX Statistical learning for longitudinal observational data (large health databases). Dynamic regression models are a known tool for analyzing recurrent events data observed with longitudinal covariates. Such data arise in particular in large health databases, with electronic health records (EHR). I will present how machine learning algorithms can be tuned to the problem at hand and can bring faster and, in a certain extend, more precise inference. Results on real life datasets will be presented to illustrate the potentiality of these algorithms. Statistical learning for longitudinal observational data (large health databases) Modérateur: Catherine MATTIAS, Amphi: AT06 | ||||
10h00-10h20 | Pause Café | |||||
10h20-11h20 | Prix du Docteur Marx Lucie LEON Inférence pour l’échantillonnage Lieux-Moments L'échantillonnage lieux-moments est une technique d'échantillonnage largement utilisée en épidémiologie auprès de populations particulièrement à risque d'être infectées notamment par des maladies infectieuses. Son principe consiste à échantillonner des lieux particuliers à des moments précis puis à échantillonner des personnes fréquentant ces lieux-moments. Par exemple, les hommes ayant des relations sexuelles avec d’autres hommes se rencontrent dans des lieux de convivialité gays à certains moments de la journée, les personnes sans domicile ou les usagers de drogues se rendent dans des centres dédiés pour bénéficier de services (soins, point-soupe, hébergement). Cette technique d'enquête soulève deux points importants dans le calcul des estimations \: la prise en compte des poids de sondage et la fréquentation multiple et hétérogène des personnes dans les lieux. L'objectif de cette présentation est de formaliser l'échantillonnage lieux-moments dans le cadre d'un sondage indirect et de proposer un estimateur tenant compte du comportement hétérogène des personnes fréquentant les lieux d'enquêtes. Les propriétés de cet estimateur et celles d’un estimateur ignorant la fréquentation des lieux d’enquête ont été évaluées à travers une étude de simulation et appliquées aux données d’une enquête réalisée en 2011 auprès d’usagers de drogues fréquentant des structures en France. Les résultats montrent que l'estimateur d'une prévalence ou d'un total, qui prend en compte les fréquentations, est sans biais et peut, même si des erreurs interviennent parfois dans la déclaration des fréquentations, demeurer sans biais alors qu'il est fortement biaisé lorsque cette fréquentation multiple est occultée. Ce biais est d'autant plus important quand cette fréquentation dépend du statut sérologique des personnes. Inférence pour l’échantillonnage Lieux-Moments Modérateur: Laurence AMBROISINE, Amphi: AT02 | |||||
11h30-12h50 |
Groupe Fiabilité
Groupe Fiabilité Bertrand IOOSS, Clémentine PRIEUR
L'analyse de sensibilité globale d'un modèle numérique consiste à quantifier les contributions de chacun de ses paramètres d'entrée dans la variabilité de sa sortie.
Malheureusement, l'interprétation des très populaires indices de Sobol' est mise en défaut en présence de corrélations entre les entrées. Récemment introduits en analyse de sensibilité, les indices de Shapley, qui consistent à allouer une part de la variance de la sortie à chaque entrée, permettent de résoudre ce problème. Sur un exemple analytique dont les valeurs théoriques des indices sont connues, nous étudions numériquement la convergence de l'estimation de ces indices. Par ailleurs, la facilité d'interprétation de ces indices est illustrée. Enfin, dans le cas d'un modèle coûteux en temps de calcul, l'estimation directe des indices de Shapley n'est pas possible. Nous montrons que le remplacement du modèle
par un métamodèle (ici le krigeage) permet d'estimer ces indices avec précision. Analyse de sensibilité avec entrées dépendantes : estimation par échantillonnage et par métamodèles des indices de Shapley
Joseph MURE, Josselin GARNIER, Loic LE-GRATIET, Anne DUTFOY
Dans l'esprit des priors de référence, nous proposons une loi a priori objective sur les paramètres du noyau de corrélation d'un modèle de krigeage simple. Ce prior étant propre et défini à travers ses densités conditionnelles, la distribution a posteriori associée l'est aussi et se prête donc bien à l'échantillonnage de Gibbs, ce qui rend le traitement bayésien viable. Des exemples numériques montrent que le taux de couverture fréquentiste des intervalles de prédiction associés est quasi-optimal. Ce travail peut être étendu au cadre plus général du krigeage universel. Prior de référence de Gibbs
Nazih BENOUMECHIARA, Gérard BIAU, Bertrand MICHEL, Philippe SAINT-PIERRE, Roman SUEUR, Nicolas BOUSQUET, Bertrand IOOSS
Dans un problème de fiabilité des structures, les paramètres d’entrée incertains sont décrits par un modèle probabiliste généralement obtenu à partir d'avis d'experts ou de mesures issues d'essais mécaniques. Cependant dans de nombreux cas, ce modèle est incomplet. En effet, certaines informations peuvent être indisponibles ou trop coûteuses à obtenir, en particulier sur la structure de dépendance entre les variables d’entrée. La pratique industrielle la plus courante consiste alors à faire l'hypothèse de l'indépendance des entrées pour les paires de variables dont la structure de dépendance est inconnue. Cette solution, facile à mettre en œuvre mais sans fondement théorique, peut alors mener à une évaluation trop optimiste du risque. C'est pourquoi, dans le but de garantir le conservatisme de la méthode, nous proposons d'explorer un ensemble de scénarios de dépendance afin de déterminer la structure la plus pénalisante. Cette démarche mène ainsi à une estimation plus pessimiste des marges mais également plus robuste vis-à-vis des critères réglementaires. Estimation conservative d'un risque en fiabilité des structures avec dépendance entre variables aléatoires incomplètement spécifiée
Vlad Stefan BARBU, Nicolas VERGNE
Dans ce travail nous nous intéressons aux systèmes multi-états modélisés par une classes particulière de processus stochastiques, appelés processus de Markov dérivants ; nous étudions des mesures associées de fiabilité/analyse de survie et nous estimons ces quantités pour des données statistiques variées.
Des outils classiques pour étudier l'évolution et la performance d'un tel système sont les processus markoviens et semi-markoviens (cf. Sadek et Limnios, 2002; Limnios et Ouhbi, 2006; Barbu et Limnios, 2008). Une hypothèse trop souvent utilisée est celle d'homogénéité par rapport au temps; il est clair que cette homogénéité n'est pas adaptée dans beaucoup d'applications. Mais, d'un point de vue pratique, considérer des processus non-homogènes peut être inapproprié. Une solution possible est de considérer une non-homogénéité "lisse", contrôlée, d'une forme connue. Un exemple de ce type dans un contexte markovien est fournit par ces processus de Markov dérivants (cf. Vergne 2008). Pour ces processus, la matrice de transition est une fonction linéaire (polynomiale) de deux (plusieurs) matrices de transition markoviennes. Nous obtenons ainsi la non-homogénéité "lisse" désirée. Drifting Markov models applied in reliability theory and survival analysis
|
Enseigner la visualisation de données (groupe enseignement et STID)
Enseigner la visualisation de données (groupe enseignement et STID) François-Xavier JOLLOIS
Dans le cadre des enseignements autour de la dataviz du département STID, nous avons fait le choix de présenter trois façons différentes de travailler. Nous présenterons les outils utilisés et nous dresserons un comparatif de ces approches. Outils de dataviz pour l'enseignement
Maguelonne CHANDESRIS, Anaïs REMY
Innovation \& Recherche SNCF mène depuis plusieurs années des travaux de visualisation de données tant sur la question spécifique de la représentation de données spatio-temporelles que sur la cartographie des données elles-mêmes. Les derniers développements pour visualiser la mobilité seront présentés. Visualisation de données massives SNCF
r Prix STID: Riwal Corbel, STID Carcassonne
|
Parcours de docteurs
Parcours de docteurs Pierre GAILLARD
La statistique est un domaine de recherche qui connaît une forte progression dans les universités et les instituts de recherche en France. Les thématiques liées à la statistique sont très variées, allant de l'application à la théorie mathématique.
Nous aurons le témoignage de Pierre Gaillard. Après avoir obtenu un Master 2 MVA (Mathématiques / Vision / Apprentissage) à l'ENS de Cachan en 2011, Pierre a voulu découvrir le monde de l'entreprise. Après un stage académique en Israël, il a effectué une thèse CIFRE (Convention Industrielle de Formation par la REcherche) à EDF, assez libre dans ses thématiques de recherches. Il a alors pu travailler sur les problèmes pratiques d'EDF de prévision, participer à un concours de "machine learning" et établir des résultats théoriques.
Après sa thèse, Pierre hésitait sur la voie professionnelle qu'il désirait prendre, il a alors fait un postdocdorat au Danemark pour se laisser le temps de réfléchir. Il a passé les concours de chargés de recherche au CNRS et à Inria, en cherchant en parallèle un autre postdoctorat pour assurer ses arrières. Il a obtenu un poste de chargé de recherche à Inria Paris.
Il nous racontera son parcours, et décrira plus particulièrement les candidatures pour être chargé de recherche (CNRS, Inria, INRA, Inserm, ...) et, outre le métier de maître de conférences, les autres carrières académiques possibles (ingénieur de recherche, ingénieur d'étude, ...) dans de nombreux instituts (institut Pasteur, IRMa, ...). Témoignage d'un jeune docteur dans la recherche académique
Pierre GAILLARD, Olivier WINTENBERGER
On considère le problème d'optimisation séquentielle d'une suite indépendente et identiquement distribuée (i.i.d.) de n fonctions convexes en observant leurs gradients. Dans ce travail, on introduit une procédure permettant d'accélérer la convergence de procédures lentes en$ O(1/\sqrt{n})$ en vitesse rapide $O(1/n)$ quand le risque est fortement convexe. Si le minimiseur du risque est parcimonieux de dimension d0, cela permet en particulier de dépendre linéairement de d0 plutôt que de la dimension totale de l'espace. Accélération parcimonieuse des poids exponentiels
Cindie ANDRIEU
Qu'il s'agisse de prédire une consommation électrique, de connaître la solvabilité d'un emprunteur, de savoir quand une pièce de réacteur d'avion risque de se briser ou encore de détecter des effets secondaires non prévus d'un médicament, les statistiques sont présentes dans de nombreux domaines et entreprises privées.
La recherche dans le privé peut commencer dès la sortie du Master 2 avec une thèse CIFRE (Convention Industrielle de Formation par la REcherche), ou encore après la thèse en choisissant d'aller dans une entreprise privée.
Nous aurons le témoignage de Cindie Andrieu, qui a fait sa thèse à l'IFSTTAR au sein du LIVIC (Laboratoire sur les Interactions Véhicules-Infrastructure-Conducteurs), rattachée à l'IMT (Institut de Mathématiques de Toulouse). L'objectif de cette thèse était de construire une méthodologie statistique permettant d'utiliser la connaissance des vitesses pratiquées sur les routes (enregistrées à partir de véhicules instrumentés ou de smartphones) pour en déduire un ou plusieurs profils de vitesse de référence reflétant le comportement réel des usagers.
Cindie Andrieu est aujourd'hui chercheur en statistiques au sein de la société Safety Line qui est spécialisée dans l'analyse des données aéronautiques pour la gestion des risques et la réduction de la consommation de carburant. Elle travaille notamment sur l'analyse des données radar pour l'amélioration des opérations aéroportuaires. Elle nous racontera son parcours, et entre autres sa recherche d'emploi dans le privé avec un cursus universitaire. Témoignage d'une jeune docteur dans le privé
Cindie ANDRIEU, Zakaria BEZZA
Le développement des processus d'acquisition des traces numériques a entraîné récemment un véritable essor des méthodes de construction automatique de carte, notamment dans le domaine routier. L'intérêt de ces méthodes est d'une part, de ne pas dépendre d'un format propriétaire de cartographie, et d'autre part, de disposer d'une cartographie à jour. Dans cette étude, nous proposons d'appliquer ces méthodes, utilisés essentiellement dans le domaine routier, à l'analyse du trafic sur une plateforme aéroportuaire. Nous proposons ainsi de reconstruire la cartographie d'un aéroport sous la forme d'un graphe représentant l'ensemble des voies de circulation à partir des traces radar des aéronefs ayant circulé sur la plateforme. Construction de la cartographie d'une plateforme aéroportuaire à partir de traces avions
|
Segmentation
Segmentation Vincent BRAULT, Jean-Charles QUINTON, Adeline LECLERCQ-SAMSON
Dans la recherche sur les véhicules autonomes, nous sommes souvent amenés à synthétiser de longues séquences vidéos de l'environnement (Korrapti et al. 2013) en séparant les lieux qualitativement distincts (e.g. ligne droite, intersection...) (Birem et al. 2014). En résumant la séquence par une matrice de similarité entre les images, l'objectif revient alors à estimer les frontières entre des blocs relativement homogènes.
Pour répondre à cette question, il existe des algorithmes développés pour l'analyse des données Hi-C issue de la biologie (Dixon et al. 2012) dont la problématique est similaire. En particulier, Brault et al. (2016a) proposent une segmentation rapide en supposant que les observations sont constantes par bloc et Brault et al. (2016b) étudient une segmentation fondée sur des statistiques de rang que nous proposons d'utiliser.
Dans cet exposé, nous proposons de comparer les deux procédures dans le cas particulier de la segmentation de séquences vidéo obtenues dans le cadre de l'étude sur les véhicules autonomes. Après avoir rappelé le principe de chaque méthode, nous montrerons les segmentations obtenues. Segmentation des lignes et des colonnes d'une matrice : application aux séquences de navigation visuelle
Vianney BRUNED, Alice CLEYNEN, André MAS, Sylvain WLODARCZYK
La détermination de la lithologie et de la proportion de fluides au sein d’une formation géologique est un objectif essentiel du pétrophysicien. Pour atteindre cet objectif ce dernier dispose d’un vecteur de mesures physiques réalisées tout au long d’un forage à intervalles de distance réguliers $ L_1$ ,$ L_2$ , ..., $L_n \in \mathbb{R}^d$ . Reconstruire la lithologie revient à inférer pour chaque profondeur $i\in \{1,...,n\}$ les fractions volumiques $V_{i,m}$ des M types de minéraux contenus dans le sous-sol. Dès que $M > d$ on est confronté à un problème inverse mal posé (plus d’inconnues que d’équations). Les méthodes classiques actuelles sont basées sur des choix d’experts qui contraignent le problème. Nous proposons une approche bayésienne (ABC) et des méthodes d’optimisation globale afin de déterminer la lithologie par strate géologique. Inversion minéralogique par strate géologique
Meili BARAGATTI, Karine BERTIN, Emilie LEBARBIER, Cristian MEZA
Nous proposons une approche bayésienne pour détecter des points de rupture multiples, dans un signal constant par morceaux corrompu par un biais fonctionnel. Ce biais peut correspondre à des perturbations environnementales ou expérimentales. La partie constante par morceaux est exprimée comme le produit d'une matrice triangulaire inférieure avec un vecteur parcimonieux. la partie fonctionnelle est exprimée comme une combinaison linéaire de fonctions provenant d'un dictionnaire. Une approche de sélection de variables ``Stochastic Search Variable Selection'' est utilisée pour obtenir des estimations parcimonieuses des paramètres de segmentation (les points de rupture et les moyennes des segments) ainsi que de la partie fonctionnelle. Les performances de la méthode proposée seront illustrées sur des simulations, puis la méthode sera appliquée sur deux jeux de données réelles dans les domaines de la géodésie et de l'économie. Approche bayésienne pour la segmentation de séries corrompues par un biais fonctionnel
Marie-Pierre ETIENNE, Julien CHIQUET, Sophie DONNET, Adeline SAMSON
En écologie du déplacement, une question classique consiste à identifier les activités d'un individu grâce à l'observation de sa trajectoire. En utilisant un modèle vectoriel auto-regressif comme modèle de mouvement, nous proposons une méthode de segmentation-classification en deux étapes, programmation dynamique puis régularisation, pour reconstruire l'activité au cours du temps.
Méthode conjointe de segmentation-classification pour des modèles d'écologie du déplacement
|
Graphes et réseaux bayesiens
Graphes et réseaux bayesiens Etienne AUCLAIR, Nathalie PEYRARD, Régis SABBADIN
L'apprentissage d’interactions entre processus dynamiques est un problème
difficile et fréquent en écologie ou en sciences sociales. Contrairement à d'autres domaines comme la bio-informatique, les données sont souvent rares et qualitatives dans ces sciences, mais l'expertise humaine est disponible. Cette expertise peut concerner les processus dynamiques eux-mêmes. Elle peut aussi concerner la structure du réseau d’interactions. Dans cet article, nous proposons un cadre original, basé sur le cadre des Réseaux Bayésiens Dynamiques (RBD), pour intégrer ces connaissances et ainsi améliorer l'apprentissage du réseau. Ce cadre couple une définition paramétrique de RBD avec arêtes étiquetées et un a
priori de type Stochastic Block Model sur la structure du réseau. Nous proposons ensuite un algorithme d'apprentissage de type Restauration-estimation. Cette méthode est instanciée sur un problème d’apprentissage de structure d’un réseau écologique. Des expérimentations sur des réseaux synthétisés et sur un réseau écologique réel permettent de mesurer l'influence de la prise en compte des différents types de connaissances expertes sur la qualité des réseaux reconstruits. Apprentissage de réseau bayésien dynamique étiqueté avec connaissance a priori sur la structure du réseau
Christophe DUMORA, Jérémie BIGOT, Vincent COUALLIER, David AUBER, Cyril LECLERC
Ce papier aborde le problème de l'inférence sur les noeuds d'un très grand graphe, représentant un réseau de distribution d'eau potable, à partir d'une observation partielles de quelques données, possiblement chronologiques, sur un faible nombre de noeuds. Nous utilisons une approche de prédiction par noyau reposant sur un estimateur pénalisé de type ridge qui soulève des problèmes d'analyse spectrale d'une très grande matrice creuse. Regression ridge à noyau dans un graphe : Application au réseau de distribution d'eau potable
Magali CHAMPION, Victor PICHENY, Matthieu VIGNES
Nous nous intéressons à l'apprentissage de graphes acycliques dirigés
engendrés par des données bruitées, avec un intérêt particulier pour la grande dimension. Nous proposons une procédure originale basée sur une formulation spécifique du maximum de vraisemblance pénalisé en norme l1 qui décompose le problème d'estimation de graphes en deux sous-problèmes d'optimisation : l'apprentissage de la structure topologique et de l'ordre des noeuds. Nous présentons des inégalités de convergence pour le graphe estimé ainsi que GADAG, un algorithme destiné à la résolution du problème induit, sous la forme d'un programme convexe intégré à un algorithme génétique. Nous appliquons enfin GADAG à des données simulant des réseaux de régulation géniques, et montrons qu'il se compare favorablement à l'état de l'art. Inférence de Graphes Acycliques Dirigés par maximum de vraisemblance pénalisé
| |
12h50-14h30 | Repas | |||||
14h30-15h30 | Anne-Laure FOUGERES Statistique des extrêmes et données environnementales : quelques développements récents et questions ouvertes L'intérêt pour la quantification des risques liés aux événements extrêmes dans un contexte environnemental a beaucoup augmenté depuis une vingtaine d'années, et de nombreux développements statistiques ont vu le jour. Mais le changement climatique induit des problèmes statistiques supplémentaires, et les questions ouvertes ne manquent pas. Nous nous placerons pour cet exposé dans le cadre de la théorie des valeurs extrêmes (approches multivariée et par processus), et discuterons quelques développements statistiques et problèmes ouverts en lien avec plusieurs applications liées à l'environnement. Statistique des extrêmes et données environnementales : quelques développements récents et questions ouvertes Modérateur: Adeline SAMSON, Amphi: AT03 | Waltraud KAHLE Degradation Processes: Models and Statistical Inference Investigating the lifetime of products or biological organisms that are affected by degradation, damage, stress, or shocks it is often necessary to consider the development of a stochastic process which models aging, wearing, damage accumulation, and other changes of the state. In the following we will will call such processes degradation models. Purely lifetime based reliability analysis is limited
Degradation Processes: Models and Statistical Inference Modérateur: Alberto PASANISI, Amphi: AT06 | ||||
15h30-15h50 | Pause Café | |||||
15h50-16h50 |
Métamodèles
Métamodèles Sophie MARQUE-PUCHEU, Guillaume PERRIN, Josselin GARNIER
Profitant de l'accroissement des puissances de calcul disponibles et de progrès importants en modélisation des phénomènes physiques, la simulation numérique s'impose actuellement comme un outil majeur pour la conception, l'optimisation et la certification de systèmes mécaniques de plus en plus complexes. Pour garantir un rôle prédictif pour la simulation, il est alors primordial de pouvoir associer à tout résultat de simulation une confiance de prédiction, qui intègre l'ensemble des sources d'incertitudes. Cette problématique a déjà fait l'objet de travaux qui concernent principalement le cas d'un unique phénomène. Dans cette présentation nous nous intéressons principalement au cas de deux phénomènes couplés. Deux phénomènes sont couplés lorsque la sortie du premier phénomène est une entrée du second phénomène. Cette sortie peut être scalaire, vectorielle ou de grande dimension.
Des méthodes de métamodélisation d'un phénomène couplé sont proposées pour le cas d'un couplage par une variable scalaire. Les résultats obtenus sont ensuite étendus au cas d'un couplage par une variable fonctionnelle.
Les méthodes proposées sont finalement appliquées à des exemples numériques. Métamodélisation d'un phénomène couplé
Lucie BERNARD, Arnaud GUYADER, Florent MALRIEU, Philippe LEDUC
On s'intéresse à l'estimation d'une probabilité de dépassement de seuil d'une variable aléatoire g(X), où la loi de X est connue mais la fonction déterministe g à valeurs réelles est une boîte-noire coûteuse en temps de calcul. Le peu d'observations de la fonction g dont on dispose n'est pas suffisant pour pouvoir utiliser directement des méthodes de simulations Monte Carlo. On propose alors de modéliser la fonction g par un processus aléatoire gaussien et de considérer la probabilité de dépassement de seuil comme étant la réalisation d'une variable aléatoire. La principale contribution consiste ici à construire une variable aléatoire alternative, dont les bonnes propriétés, en termes de simulation, permettent d'améliorer l'estimation de la probabilité de dépassement de seuil que l'on peut mener en étudiant la distribution la première variable. On montre notamment qu'il existe un ordre convexe entre ces deux variables. Estimation d'une probabilité de dépassement de seuil via l'utilisation d'un ordre stochastique convexe.
Nil VENET, François BACHOC, Fabrice GAMBOA, Jean-Michel LOUBES
Les distances de Monge-Kantorovich, aussi appelées distances de Wasserstein, ont reçu une attention grandissante en statistique et en machine learning en tant que mesure de dissemblance entre des distributions. Dans cet article nous étudions la prédiction de processus gaussiens indexés par des distributions de probabilité. A cette fin nous construisons des noyaux de covariance à partir de ces distances de transport. Nous prouvons que les processus gaussiens associés à ces noyaux peuvent être prédits efficacement par Krigeage, ouvrant de nouvelles perspectives pour la modélisation par processus gaussiens. Modèles de régression gaussiennes pour des distributions en entrée
|
Trucs et astuces pour StatMath
Trucs et astuces pour StatMath Adrien SAUMARD
Nous montrons, d'après P. Bellec et A. Tsybakov (2016), Bounds on the prediction error of penalized least squares estimators with convex penalty, comment des arguments d'optimisation convexe permettent de prouver la concentration de l'excès de risque de l'estimateur d'une fonction de régression, minimisant un critère convexe de moindres carrés pénalisés. Ce cadre théorique décrit en particulier le comportement des estimateurs LASSO, group LASSO et SLOPE. Ce résultat de concentration est essentiel pour obtenir de nouvelles inégalités oracles, intégrables car valident sur un évènement dont la probabilité ne dépend pas du niveau de pénalisation choisi. Concentration d'excès de risque en régression linéaire pénalisée
Nicolas VERZELEN
Le problème du clustering revient à regrouper des objets (points dans l'espace, noeuds d'un graphe, lignes d'un tableau) partageant des propriétés similaires. Parmi les nombreuses méthodes dédiées au clustering, le critère du K-means, ainsi que sa minimisation par l'algorithme de Lloyd sont particulièremet populaires. Dans cet exposé de synthèse, je détaillerai des arguments de Peng et Wei (2007) étudiant différent relaxations convexes du problème du K-means. Une première relaxation aboutit à un programme semi-défini (SDP), tandis qu'une seconde relaxation correspond aux méthodes de clustering spectral. Relaxations convexes du K-means
|
Bioinformatique 2
Bioinformatique 2 Ali JANBAIN, Christelle REYNES, Zainab ASSAGHIR, Hassan ZEINEDDINE, Robert SABATIER, Laurent JOURNOT
L'objectif de ce travail est de mettre au point une nouvelle approche automatique pour identifier les réseaux de gènes concourant à une même fonction biologique. Différentes stratégies ont été développées pour essayer de regrouper les gènes d'un organisme selon leurs relations fonctionnelles: génétique classique et génétique moléculaire. Ici, nous allons utiliser une propriété connue des réseaux de gènes fonctionnellement liés à savoir que ces gènes sont généralement co-régulés et donc coexprimés. Cette co-régulation peut être mise en évidence par des méta-analyses de données de puces à ADN (micro-arrays) telles que Gemma ou COXPRESdb.
Pour cela, nous avons tout d'abord recherché les descripteurs de réseaux discriminant au mieux les ensembles de gènes fonctionnellement liés. Ensuite, nous combinons des outils de classification supervisée et des algorithmes génétiques pour séparer un ensemble de gènes fonctionnellement liés d'un ensemble de gènes sans lien connu. Recherche automatique de réseaux de gènes co-exprimés
Safa AOUINTI, Patrice DUROUX, Véronique GIUDICELLI, Dhafer MALOUCHE, Sofia KOSSIDA, Marie-Paule LEFRANC
Les réponses immunitaires adaptatives de l’espèce humaine et des autres espèces de vertébrés à mâchoires (gnathostomata) sont caractérisées par les cellules B et T et leurs récepteurs d’antigènes spécifiques, les immunoglobulines (IG) ou anticorps et les récepteurs de cellules T (TR) (jusqu’à $2.10^{12}$ différent IG et TR par individu). IMGT, the international ImMunoGeneTics information system (http://www.imgt.org) basé sur IMGT-ONTOLOGY a été créé pour gérer cette diversité. IMGT/HighV-QUEST est l’unique portail web pour l’analyse des séquences IG et TR obtenues par le séquençage haut débit (‘big data from next generation sequencing, NGS’). L’une de ses caractéristiques majeures est l’identification des clonotypes IMGT (AA) et en particulier l’analyse de leur diversité et expression. Nous présentons une approche statistique basée sur un modèle suivant la loi multinomiale pour l’analyse des mutations somatiques des résultats issus d’IMGT/HighV-QUEST, spécifiques aux gènes variables réarrangés des IG, ainsi que les méthodes de visualisation appropriées. Nous utilisons la numérotation unique IMGT pour une description standardisée des mutations.
Analyse statistique des mutations somatiques des régions variables des immunoglobulines à partir des résultats d’IMGT/HighV-QUEST
Cécile ANE, Paul BASTIDE, Mahendra MARIADASSOU, Stéphane ROBIN, Claudia SOLíS-LEMUS
Les méthodes comparatives phylogénétiques (en anglais, PCM, pour Phylogenetic Comparative Methods) ont pour but d'étudier la distribution de traits quantitatifs au seins d'un ensemble d'espèces, en prenant en compte les relations de parentés qui existent entre elles. Ces relations sont représentées de manière classique par un arbre phylogénétique. Cependant, ces arbres, qui supposent une transmission verticale du patrimoine génétique d'une génération à l'autre, ne tiennent pas compte des événements d'hybridations, ou de transferts de gènes horizontaux, qui peuvent modifier la filiation de certaines espèces. Ce type d'événement peut être fréquent pour certains groupes de plantes, ou de bactéries. On a alors recours à un réseau phylogénétique, dans lequel certaines branches horizontales sont ajoutées à la structure arborescente pour représenter ces événements. On peut alors voir les traits observés aux feuilles, pour les espèces actuelles, comme le résultat d'un mouvement Brownien courant sur le réseau considéré. Ce modèle induit une structure de variance-covariance pour les traits observés, qu'il est possible d'utiliser pour des analyses statistiques subséquentes, comme la régression phylogénétique, ou la reconstruction d'états ancestraux. Ces outils, ainsi que le calcul efficace de la matrice de variance grâce à un algorithme récursif, ont été implémentés de manière flexible dans le paquet PhyloNetworks, sur julia. Devant ce nouveau modèle, il est naturel de se poser la question de l'impact de la structure de parenté sur les données observées. Ceci peut être fait grâce à un test statistique, comparant par exemple le modèle induit par un arbre simple à celui induit par un réseau. Nous présenterons une étude de puissance d'un tel test sur des données simulées. Processus d'évolution réticulée : tests de signal phylogénétique
|
Packages R
Packages R Marion BERGER, Bernard G. FRANCQ
Lorsqu’on souhaite comparer deux méthodes X et Y, l’approche graphique Bland-Altman (ou graphe (M,D) pour Moyennes versus Différences) et ses intervalles d’agrément (AIs) sont fréquemment utilisés. Une autre approche intéressante est l’utilisation de régressions avec erreurs-sur-variables permettant une représentation dans un graphique classique (X,Y). Francq et Govaerts (2014) ont démontré que la régression Bivariate Least Squares est la régression la plus appropriée et la plus générale car elle inclut les situations gérées par le régression de Deming, la régression orthogonale, la régression des moindres rectangles ainsi que les régressions des moindres carrés verticaux et horizontaux. Francq et Govaerts (2016) ont aussi réconciliés les approches (M,D) et (X, Y) en proposant des intervalles de tolérance et des intervalles de prédiction ayant de bons taux de couverture pour remplacer les AIs dont les taux de couvertures chutent en présence de données répétées ou de valeurs aberrantes. Ils ont aussi démontré que les erreurs en (M, D) étaient corrélées. Les biais augmentent et les taux de couvertures s’effondrent si cette corrélation est ignorée. Ils ont proposé une nouvelle régression, la régression CBLS (Correlated Bivariate Least Square) pour laquelle les intervalles de prédiction et les intervalles de confiance ont d’excellents taux de couverture quel que soit le design. Un nouveau package R BivRegBLS a été développé pour permettre d’exécuter les régressions BLS et CBLS dans plusieurs situations (données non répétées, données répétées, design équilibré ou déséquilibré, variances homogènes ou hétérogènes). Ce package inclut un nouvel intervalle, l’intervalle généralisé, qui combine les concepts de confiance et de prédiction. L’utilisation des régressions BLS et CBLS est à encourager car l’une permet de visualiser la comparaison dans l’échelle d’origine tandis que l’autre comble les carences de l’approche Bland-Altman. BIVREGBLS : A NEW R PACKAGE IN METHOD COMPARISON STUDIES WITH TOLERANCE INTERVALS AND (CORRELATED)-ERRORS-IN-VARIABLES REGRESSIONS
Andrés CASTRILLEJO, Jairo CUGLIARI, Fernando MASSA, Ignacio RAMIREZ
Le développement de nouvelles technologies de génération d'électricité
donnent aux économies émergentes des possibilités nouvelles. Souvent
marquées par une génération dépendante des énergies fossiles et ainsi du
cours du pétrole.
L'Uruguay a transité une transformation de sa matrice énergétique ayant
aujourd'hui une très large participation des sources renouvelables dans son
mix de production.
Le changement rapide a demandé des nouvelles méthodes mathématiques et informatiques
pour la gestion et pilotage de la charge du système. Dans ce travail nous
pressentons enercast, un package R qui contient des modèles de prévision
de demande qui peuvent être utilisés par l'opérateur du réseau.
Modèles de prévision de demande d'électricité : le cas de l'Uruguay
|
Modèles markoviens
Modèles markoviens Vlad Stefan BARBU, Caroline BERARD, Dominique CELLIER, Mathilde SAUTREUIL, Nicolas VERGNE
L’objectif de notre présentation est double. D’une part, nous considérons le problème d’estimation paramétrique d’une chaîne semi-markovienne, en prenant en compte plusieurs cas : censure au début et/ou à la fin, pas de censure, une ou plusieurs trajectoires. Nous nous intéressons au cas général de noyau semi-markovien, mais aussi à des cas particuliers, importants en pratique. D’autre part, nous présentons un package R que nous avons développé. Il faut noter que dans ce package nous avons aussi implémenté une approche non-paramétrique. Estimation paramétrique des chaînes semi-markoviennes pour des données censurées
Luc LEHERICY
Jusqu'à récemment, la plupart des garanties théoriques sur l'estimation de modèles à chaîne de Markov cachée portaient sur le cadre paramétrique, c'est-à-dire lorsqu'on restreint les paramètres à un espace de dimension finie. Des travaux récents ont permis de démontrer des garanties dans le cadre non paramétrique, à condition que le nombre d'états cachés, supposé fini, soit connu. Des méthodes existent pour estimer ce nombre, mais elles nécessitent de supposer qu'il est borné par une constante connue (on parle alors de borne a priori), ce qui n'est pas toujours possible. Nous présentons deux méthodes pour l'estimer en se passant de borne a priori. La première méthode consiste à minimiser sur une famille de modèles paramétriques un critère empirique des moindres carrés puis à choisir le nombre d'états par pénalisation du critère. La seconde repose sur l'analyse du spectre de tenseurs empiriques. Nous démontrons la consistance des estimateurs obtenus et comparons numériquement leurs performances.
Estimation de l'ordre des modèles à chaîne de Markov cachée non paramétriques
Sebastian LE COZ, Nathalie PEYRARD
L'estimation dans les modèles de Markov cachés (Hidden Markov Model en anglais) est facile grâce à l'algorithme EM, lorsque la variable cachée est de
dimension 1, ou faible. Dans le cas de problèmes spatiaux, la variable cachée peut être de très grande dimension et l'estimation exacte n'est plus possible, ne serait-ce que du fait de la taille des matrices de transition à représenter. Lorsque le vecteur des variables cachées est de grande dimension, et que la probabilité de transition se factorise (cadre des Factorial HMM) une estimation approchée par EM variationnel a été proposée avec succès. Nous considérons ici un cadre plus général, celui des FHMM avec retour des données, et nous proposons plusieurs choix de distribution variationnelle pour construire un algorithme VEM, correspondant à différents compromis coût/qualité.Dans un FHMM avec retour des données, chaque variable cachée au temps t dépend non seulement de la même variable cachée au temps t-1, mais aussi de toutes les variables observées au temps t. Cette dépendance existe par exemple dans la dynamique spatio-temporelle d'espèces végétales avec survie de la banque de graines. Les différentes instanciations de VEM seront testés sur des exemples jouets inspirés des dynamiques d'espèces adventices dans les cultures.
EM variationnel pour les modèles de Markov cachés factorisés avec retour des données
| |
17h00-18h40 | Assemblée générale de la SFdS : Gérard BIAU | |||||
19h30-20h30 | Dégustation vin - La Maison de Fogasses (inscription et contribution 10euros) |
8h30-9h30 | Corina CONSTANTINESCU Results in collective insurance risk models In this talk we will present ruin probabilities results in collective insurance risk models. Starting from the classical model of Cramer and Lundberg we'll build more complex models to account for real phenomena, such as impact of financial investments or dependence among events. We will be using integro-differential equations, Laplace transforms and mixing methods. Risk analysis Modérateur: Véronique MAUME-DESCHAMPS, Amphi: AT03 | Mark PODOLSKIJ High frequency statistics of fractional processes In this talk we will present some recent asymptotic results for high frequency statistics of the linear fractional stable motion. In the first part of the presentation we review the classical statistical methods in the framework of fractional Brownian motion, Levy processes and related objects, in the high frequency regime. Afterwards we will demonstrate some new probabilistic results for stationary increments Levy moving average processes before investigating statistical inference for the linear fractional stable motion High frequency statistics of fractional processes Modérateur: Adeline SAMSON, Amphi: AT06 | ||||
9h30-9h50 | Pause Café | |||||
9h50-10h50 | Prix Marie-Jeanne Laurent-Duhamel Mélisande ALBERT Tests d’indépendance par permutation : une étude asymptotique et non-asymptotique et Clément LEVRARDInitialement motivée par la détection de synchronisations dans l’analyse des suites de potentiels d’action en neurosciences, ma thèse vise à construire de nouveaux tests d’indépendance non-paramétriques, applicables aux processus ponctuels, ayant de bonnes propriétés à la fois asymptotiques et non-asymptotiques. Dans un premier temps, je présenterai de tels tests basés sur une approche par permutation, connus pour leurs bonnes propriétés de niveau non-asymptotique. Leurs performances asymptotiques sont étudiées dans un cadre de processus ponctuels, à travers l’étude du comportement asymptotique de la loi conditionnelle de la statistique de test permutée, sous l’hypothèse nulle ainsi que sous n’importe quelle alternative (répondant partiellement à une question ouverte de Van der Vaart et Wellner). Dans un second temps, les performances non-asymptotiques de ces tests sont étudiées en termes de vitesse de séparation uniforme. Nous construisons une nouvelle procédure de tests agrégés, basée sur une méthode de seuillage par ondelettes dans un cadre de variables aléatoires à densité. En nous basant sur les inégalités fondamentales pour les permutations aléatoires de Talagrand, nous démontrons une nouvelle inégalité de concentration de type Bernstein pour des sommes permutées aléatoirement, nous permettant d’étudier la vitesse de séparation uniforme de notre procédure agrégée sur des classes particulières de fonctions et de déduire, au vu de la littérature, que cette procédure semble être optimale et adaptative d’un point de vue minimax. Quantification et/ou clustering: sous quelles conditions le k-means est-il approprié? Bien qu'originellement conçu pour répondre à des problèmes de quantification vectorielle, l'algorithme des k-means est fréquemment utilisé comme une procédure de clustering à moindre coût, s'avérant empiriquement efficace dans des cas 'simples'. Je présenterai une définition possible de ce qu'est théoriquement un cas simple pour le clustering basé sur les k-means, permettant de concilier les deux objectifs et garantissant des vitesses de convergence rapides (en la taille d'échantillon) pour l'estimateur associé. Je m'intéresserai ensuite à l'influence de la dimension des données sur la qualité de ce clustering, ainsi qu'à la possibilité de combiner réduction de dimension et k-means dans lesdits cas simples. Enfin je conclurai en discutant de la pertinence de la quantification par méthode des k-means en dehors de ces cas simples. Modérateur: Jean-Jacques DROESBECKE, Amphi: AT02 | |||||
11h00-12h20 |
Groupe Banque Finance Assurance
Groupe Banque Finance Assurance Weihong NI, Eric C.K. CHEUNG, Jae-Kyung WOO
Dans le cadre Bonus-Malus, les prix reposent souvent sur le réajustement
de la prime a posteriori, dans le cas où les primes individuelles pourraient être ajustées en fonction des antécédents personnels. L'estimation bayésienne joue normalement un rôle clé lors de la mise en œvre d'une telle procédure. Dans la littérature, une hypothèse importante est l'indépendance entre la fréquence des sinistres et le montant des sinistres (ou sévérité). Ces deux variables sont souvent considérées séparment lors de la réalisation de l'ajustement du modèle et des estimations des paramètres. Dans la suite des résultats obtenus dans Ni et al. (2014), nous introduisons dans ce travail, la fréquence et la sévérité sont liées par un prior conjugué bivarié de la famille exponentielle linéaire. Nous en déduisons une répartition a posteriori bivariée pour les paramètresrelatifs au numéro et la
taille de la demande, ce qui nous permet en plus de calculer une prime nette estimée. Un exemple concret sera également présenté avec le prior donné par une distribution mélange d'Erlang. Nous utilisons également un ensemble de données d'assurance automobile pour vérifer d'abord la dépendance entre la fréquence et la sévérité, puis pour ajuster le modèle et calculer le montant de la prime nette numériquement. En conclusion, une comparaison avec le cas indépendant sera illustrée théoriquement et numériquement. Bonus-Malus avec la fréquence et la gravité de la réclamation dépendante (Bonus-Malus pricing with dependent claim frequency and severity)
Romain BIARD, Bruno SAUSSEREAU
On étudie ici un modèle de risque de renouvellement avec un processus de Poisson fractionnaire composé pour modéliser le montant cumulé des sinistres. Des résultats sur la probabilité de ruine (en temps fini et infini) sont présentés avec des montants de sinistre de distribution à queue lourde. Probabilités de ruine pour un modèle de risque avec processus de Poisson fractionnaire
Yohann LE FAOU, Guillaume GERBER, Olivier LOPEZ, Michael TRUPIN, Arnaud COHEN
Sur le marché du courtage de produits d'assurance, les commissions perçues par les courtiers dépendent fortement de la résiliation observée sur les contrats. Dans l'optique d'optimiser un processus commercial, un scoring de prospects doit donc prendre en compte cette composante de résiliation. Nous proposons d'utiliser une forêt aléatoire pondérée pour prédire le facteur résiliation intervenant dans le score. Notre modèle est adapté à la censure des observations, omniprésente dans l'étude des mécanismes de résiliation. A travers des estimations sur données réelles et simulées, nous comparons notre approche à d'autres méthodes standards d'étude de variables censurées qui s'appliquent dans notre situation. Nous montrons que notre approche est très compétitive en termes d'erreur quadratique pour répondre au problème posé. Forêt Aléatoire pour la Régression d'une Variable Censurée
Julien HAMBUCKERS, Andreas GROLL, Thomas KNEIB
Dans cet article, nous étudions une base de données constituée de 40,871 pertes opérationnelles extrêmes, provenant de la banque UniCredit. Ces données ont été collectées sur une période de 10 ans et recouvrent 7 différents types de pertes. Nous étudions la dépendance entre un ensemble de variables économiques et financières, et la distribution de sévérité de ces pertes, supposées suivant une distribution Generalized Pareto. Cette problématique est particulièrement intéressante pour les banques et leurs régulateurs, pour définir un niveau de capital réglementaire qui soit en adéquation avec la situation économique. Afin de sélectionner les variables pertinentes dans un tel modèle, nous employons une approche par fonction de vraisemblance pénalisée, où nous utilisons une approximation quadratique locale pour le terme de pénalisation, de type $L_{1}$. Etant donné qu'une telle approche n'a pas encore été utilisée dans le cas de la régression Generalized Pareto, nous étudions brièvement ses propriétés aux moyens de simulations. Ensuite, nous réalisons une étude de régression sur les données sus-mentionnées, utilisant jusqu'à 50 facteurs explicatifs pour chacun des paramètres de la sévérité. Nos résultats indiquent que, contrairement à ce que laisserait penser une méthode non-régularisée, seule une petite proportion des variables étudiées ont un impact significatif. Parmi celles-ci, le taux de chômage, l'indice VIX et le ratio d'endettement semble avoir un impact sur la distribution de sévérité. En dernier lieu, nous complétons cette analyse en illustrant l'impact de certains scénarios économiques sur le capital requis si la distribution de la perte opérationnelle totale est conditionnée à ces scénarios. Pour ce faire, nous faisons l'hypothèse supplémentaire que la distribution de fréquence des pertes suit un processus de Poisson non-homogène. What are the economic determinants of operational losses severity? A regularized Generalized Pareto regression approach
|
Statistique et géométrie
Statistique et géométrie Florence NICOL, Stéphane PUECHMOREL
La géométrie de l'information permet une formulation élégante de propriétés statistiques. De nombreux travaux ont été dédiés à l'étude des relations entre représentation géométrique et estimation, mais les informations contenues dans l'espace tangent à une variété statistique sont peu exploitées. En géométrie riemannienne, les métriques dites naturelles sur les fibrés tangent donnent une vision de la géométrie de ces objets. Elles sont adaptées à la connexion de Levi-Civita qui n'est pas d'un usage courant en géométrie de l'information. Le travail présenté ici vise à définir un équivalent des métriques naturelles dans le cas de paires de connexions duales, qui ont une interprétation statistique. Métriques naturelles sur les fibrés en géométrie de l'information
Claire BRECHETEAU
Nous introduisons la notion de DTM-signature. Il s'agit d'une mesure de probabilité sur $\mathbb{R}_+$ qui peut être associée à n'importe quel espace métrique. Cette signature est issue de la fonction distance à la mesure (DTM) introduite par Chazal, Cohen-Steiner et Mérigot (2011). On l'utilise pour construire une pseudo-métrique entre espaces métriques mesurés. Une borne supérieure pour une telle métrique est donnée par la distance de Gromov-Wasserstein. Des bornes inférieures peuvent être obtenues sous des hypothèses géométriques particulières.
Etant donnés deux N-échantillons, on se propose de construire un test statistique, à l'aide de la DTM-signature, permettant de rejeter l'hypothèse d'égalité des espaces métriques mesurés sous-jacents, à isométrie préservant la mesure près. Afin de justifier la validité du test, on utilisera les métriques de Wasserstein. La DTM-signature pour un test d'isomorphisme entre espaces métriques mesurés
Eddie AAMARI, Clément LEVRARD
Divers algorithmes utilisés en géométrie algorithmique et en inférence géométrique utilisent, explicitement ou non, la connaissance de directions tangentes. Étant donnés une sous-variété $M \subset \mathbb{R}^D$ et un point de base $x \in M$, l'espace tangent $T_x M$ est défini comme la meilleure approximation linéaire de $M$ en $x$. Le but de l'exposé est d'étudier les vitesses minimax d'estimation d'estimation d'espaces tangents à partir d'un nuage de points. Après avoir motivé leur étude, on introduira une classe de sous-variétés $\mathcal{C}^k$ en analogie avec les classes de Hölder $\mathcal{C}^k(L)$. Nous proposerons un estimateur construit à partir de polynômes locaux et nous étudierons ses propriétés non asymptotiques. Les bornes inférieures minimax seront détaillées dans les cas où le point de base est fixe et lorsqu'il est aléatoire. Estimation minimax d'espaces tangents
|
ENBIS - AMIES
ENBIS - AMIES Marco REIS
The development of data-driven predictive models has been gaining importance in Industry. These models provide the way to obtain reliable estimates of output variables at lower sampling rates (related to product quality or other properties) based on a set predictor variables which are usually easier to measure and less expensive. Applications range from soft sensors, to process diagnosis, quality prediction, process control and optimization.
In this presentation, the problem of developing predictive models from high-dimensional industrial and laboratory data is addressed. The topics of sparsity and collinearity are discussed and solutions to handle them described. A comparison framework is also proposed in order to assess the performance of a rich variety of predictive analytic tools, compare them and provide guidelines for choosing a suitable methodology in a given application scenario.
Results obtained suggest that matching the structure of the system with that of the predictive model often lead to improved accuracy and interpretation. Therefore, all sources of information – data-driven and process background – should be called upon during model development. Predictive Modeling with High-Dimensional Industrial Data
Komi NAGBE, Jairo CUGLIARI, Adrien THEBAULT, Julien JACQUES
Depuis 2007, le marché de l'électricité en France a été libéralisé. Cette libéralisation a vu l'intégration massive des moyens de productions alternatives intermittentes dites énergies renouvelables. L'état intermittent de ces moyens de production ne permet pas aux acteurs du marché de l'électricité d'anticiper leur capacité de production afin de répondre à leurs obligations envers des partenaires et envers le marché. Pour anticiper ses capacités de production, chaque acteur doit se doter d'outils de prévision qui lui permettent de mener de façon optimale ses activités. En l'occurrence, dans le domaine électrique les données qui sont manipulées quotidiennement sont les courbes de charge, ou quantité d'électricité produite dans un intervalle de temps. Ce document porte sur la prévision mensuelle de ces courbes de charges pour une échéance de 12 mois. Nous considérons ces courbes de charges comme des séries temporelles ou processus stochastiques. Comme méthode de prévision, nous utilisons dans ce document, le lissage exponentiel multiplicatif saisonnier avec tendance amortie appliqué aux données de production d'électricité hydraulique d'ENERCOOP. Prévision de génération d'électricité à partir de sources renouvelables
Maguelonne CHANDESRIS
Des approches de modélisation non-paramétriques ont été développées pour différents cas d'étude de prédiction à SNCF. Ces cas d'études seront brièvement présentés et quelques réflexions suscitées par ces cas discutées. Prévision non-paramétrique. Quelques réflexions issues de cas pratiques développés à SNCF.
|
Statistique de la santé
Statistique de la santé Mounia N. HOCINE, Karim AIT BOUZIAD, Patrick LEGERON, William DAB, Gilbert SAPORTA
1. Introduction
Le stress au travail est devenu un problème de santé professionnelle de plus en plus important à cause de ses effets négatifs sur la santé physique et psychologique (Lee, Joo et Choi, 2013). Bien que le stress soit une partie inévitable de l’organisation du travail, des efforts doivent être fournis pour réduire sa durée et son intensité. Pour cela, les facteurs de risque psychosociaux (stresseurs) liés à un niveau élevé de stress perçu devraient être bien documentés et l'impact de chaque stresseur devrait nécessairement être mesuré en tenant compte de la structure multidimensionnelle des données.
Le but de cette étude est de proposer une approche méthodologique pour orienter les décideurs dans la mise en place d’une stratégie de prévention pour réduire le niveau de stress au travail. L'idée principale est de mettre au point une méthode quantitative d'évaluation des risques afin d'identifier un ensemble de stresseurs nécessitant une action prioritaire pour réduire le niveau de stress au travail. Cependant, un outil méthodologique approprié devrait prendre en considération les multiples stresseurs existants et la structure de corrélation qui pourrait exister entre eux en utilisant une méthode d’analyse appropriée.
Nous avons suggéré une approche combinée basée sur un modèle à équations structurelles et une analyse importance-performance.
2. Materiel et méthodes
2.1. Données de l’étude
Cette étude a été motivée par l'analyse d'une importante base de données appartenant à Stimulus-conseil, un cabinet de conseil indépendant spécialisé dans le bien-être et la santé au travail. Au cours d'un entretien de routine avec le médecin du travail, les participants ont rempli un questionnaire validé sur la santé psychologique au travail, y compris le stress, et un questionnaire sur 58 stresseurs professionnels. Un échantillon de 10 000 employés a été tiré au sort de la base de données de Stimulus-conseil selon un schéma d'échantillonnage aléatoire simple.
Mesure du stress
Un questionnaire validé de 25 items (MSP25), développé par Lemyre \& Tessier (1990), a été utilisé pour évaluer l'état actuel de stress perçu. Les participants à l’étude ont noté leur perception en utilisant une échelle de Likert en 8 points allant de 1 « pas du tout d’accord » à 8 « tout à fait d’accord ». Une échelle de stress a été définie comme la somme des réponses aux 25 items et varie donc entre 25 et 200. Le MSP25 est un outil de mesure utilisé dans le contexte d'évaluation et de prévention du stress et qui a des propriétés psychométriques acceptables.
Les 25 questions du MSP25 définissent un bloc d'items associés à un construit latent endogène nommé « stress ».
Mesure des stresseurs
Afin de mesurer l'impact des caractéristiques d'emploi et de l’environnement de travail, un questionnaire basé sur 58 stresseurs professionnels (PS1, ... ,PS58) développé par Stimulus-conseil a été utilisé. Cet outil repose sur une vision intégrant différents modèles théorisques sur le stress au travail et sa relation avec des facteurs professionnels, comme celui proposé par Karasek et al. (1998). Les participants donnent leur degré d'accord avec chacun des 58 items sur une échelle de Likert de 6 points allant de 0 « pas du tout d’accord » à 5 « tout à fait d'accord ».
Les 58 stresseurs sont regroupés dans les 5 blocs suivants : contexte de travail (14 items), contrôle et autonomie au travail (14 items), relations au travail (12 items), tâches effectuées (12 items) et reconnaissance (6 items). Chaque bloc correspond à un construit latent exogène.
2.2. Structural Equation Modeling: approche Partial Least Squares
Pour mesurer les associations entre les différents stresseurs structurés en cinq blocs et le stress au travail (6ème bloc), des analyses de corrélation ont été effectuées en utilisant des modèles à équations structurelles (SEM) avec l’approche Partial Least Square (PLS) décrite par exemple dans Esposito et Russolillo (2013). Ces modèles sont basés sur des schémas conceptuels et sont formellement définis par deux ensembles d'équations : le modèle interne (ou structurel) et le modèle externe (ou de mesure). Le modèle structurel spécifie les relations entre les construits latents (bloc de stresseurs), tandis que le modèle de mesure spécifie les relations entre un construit latent et ses variables manifestes (stresseurs), comme illustré en Figure 1. Les SEM permettent d'étudier la validité des liens hypothétiques entre les différents items au sein de la population étudiée.
Figure 1. Modéle conceptual entre le stress et les stresseurs au travail
L’hypothèse sous-jacente du modèle conceptuel (Figure 1) est que tous les blocs de stresseurs sont unidimensionnels et qu’ils sont étroitement et négativement associés au stress au travail.
Pour prédire l'impact des 5 blocs de stresseurs sur le bloc stress, nous avons utilisé PLS-PM dans ce cas, plutôt qu’une autre approche de SEM pour deux raisons. La première, c’est qu’elle permet la prise en compte de la forte colinéarité observée entre les blocs de stresseurs. La seconde, est que PLS-PM est préférable lorsque l'hypothèse de distribution gaussienne n'est pas valable, ce qui est le cas avec les données des stresseurs qui sont catégorielles. La PLS-PM utilise un algorithme itératif ; après convergence, les scores des variables latentes sont obtenus pour chaque observation et les « path coefficients » du modèle structurel sont estimés en utilisant une régression linéaire.
A l’aide des estimations des path coefficients, cette approche pourrait fournir une hiérarchisation des cinq blocs de stresseurs en fonction de leur impact prédictif sur le niveau de stress au travail. Cependant, afin de proposer une hiérarchisation directe des stresseurs professionnels selon leur impact sur le niveau de stress, nous avons pensé à utiliser un système de leviers pour identifier les stresseurs que les décideurs devraient maintenir ou sur lesquels ils devraient agir en priorité pour réduire le stress au travail dans le but d’optimiser la gestion des ressources. Pour atteindre cet objectif, nous avons suggéré de compléter l’approche précédente par une analyse de l'importance-performance (AIP).
2.3. Analyse Importance-Performance
L’AIP proposée par Martilla et James (1977) est une méthode graphique qui repose sur une grille divisée en quatre quadrants A, B, C et D comme illustré en Figure 2. Les items qui tombent dans les quadrants A et B sont les plus intéressants, car ceux-ci sont relativement plus importants que les items des quadrants C et D. Par conséquent, un item ayant une faible performance et une importance élevée se situe dans le quadrant A, ce qui indique que les décideurs devraient consacrer davantage de ressources à cet item pour améliorer sa performance. Ces sur les items qui tombent dans ce quadrant qui les efforts doivent être concentrés lors des futurs plans d’action pour réduire e niveau de stress au travail.
La performance d’un item est mesurée comme la réponse moyenne dans l’échantillon. L'importance d’un item est calculée selon un modèle. Dans ce contexte, nous avons proposé d’utiliser la formule suivante :
L’importance (kème item) = 100 x |poids (kème item du jème bloc)| x Path coef. (jème bloc, stress)
Figure 2. Grille de l’analyse importance-performance. Source : Martilla et James (1977)
3. Résultats
3.1. Homogénéité des blocs
Pour évaluer l'homogénéité (ou l'unidimensionalité) des six blocs, on a calculé les valeurs propres de la matrice de corrélation entre les variables manifestes (stresseurs) appartenant à un même bloc (Sijtsma, 2009). Les valeurs de la première valeur propre correspondant à chaque bloc étant dominante, les blocs peuvent être considérés homogènes
3.2. Résultats de l’approche PLS-PM
1ère étape : Les corrélations entre les cinq blocs de stresseurs sont positives et fortes. Pour cette raison principalement, PLS-PM est une approche SEM plus appropriée pour traiter les problèmes de colinéarité. En effet, le modèle structurel devrait être testé pour la colinéarité potentielle qui pourrait biaiser les résultats de l'analyse de régression multiple sous-jacente.
2ème étape : Le modèle de mesure nous a permis de confirmer la validité des six construits latents, les poids externes étaient statistiquement significatifs, indiquant la pertinence des construits latents. Ainsi, la qualité du modèle de mesure est satisfaisante. De plus, les poids externes normalisés des items appartenant au bloc stress pourraient être utilisés pour définir une échelle de stress plus pertinente, à partir du questionnaire MSP25, comme une alternative à l'échelle définie avec les 25 items avec des poids identiques comme décrit au paragraphe 2.1.
3ème étape : Le modèle structurel nous a permis d'évaluer la force et la significativité des path coefficients. Les estimations des path coefficient sont données par l'équation :
Stress =0.18 Contrôle + 0.15 Contexte + 0.15 Tâches + 0.14 Relations + 0.12 Reconnaissance
montrent un impact négatif et significatif comparable de chacune des cinq construits latents.
4ème étape: L'évaluation de la qualité du modèle PLS-PM a montré que les cinq blocs de stresseurs expliquent 40% de la variance de la construction de stress ($R^2= 0.40$).
Le modèle a été ajusté sur l’échantillon de 10 000 employés en deux étapes. D’abord, un sous-échantillon tiré au hasard de 5000 employés a été utilisé pour développer le modèle et le sous-ensemble de 5000 employés restants a servi pour une étape de validation. Les analyses ont été effectuées à l'aide du module PLS-PM du logiciel XLSTAT.
3.3. Résultats de l’analyse importance performance
La grille de l’AIP donnée en Figure 3 illustre pour chaque stresseur, son importance en fonction de sa performance dans la prédiction du stress au travail. Un ensemble de stresseurs qui se détachent des autres items du quadrant A et du quadrant B ont été entourés et détaillés ci-dessous.
Stresseurs à améliorer en priorité
Les items suivants ont été identifiés dans le quadrant A (une importance élevée et une performance faible) méritent d’être considérés en priorité par les décider pour augmenter leur performance et ceci dans le but de réduire le niveau de stress au travail :
1. Task\_PS46: « Je dois travailler très vite étant donné le peu de temps dont je dispose »
2. Recon\_PS07: « Mes perspectives de promotion sont faibles »
3. Recon\_PS17:inverse de « Les perspectives de carrière que m'offre mon entreprise sont intéressantes »
4.Task\_PS31: «Je travaille dans une atmosphère bruyante et agitée »
5.Recon\_PS35: inverse de «Je suis récompensé lorsque j'atteins mes objectifs »
Ces résultats suggèrent qu'à partir des données analysées, l'approche proposée devrait inciter les décideurs à réduire le rythme d'accomplissement des tâches, à améliorer les perspectives de promotion et les perspectives de carrière, à améliorer le milieu de travail et à récompenser et à promouvoir les employés lorsqu'ils atteignent les objectifs.
Stresseurs à maintenir
Les items suivants ont été identifiés dans le quadrant B (une importance élevée et une performance élevée) doivent être maintenus au même niveau pour que le niveau de stress n’augmente pas :
1. Task\_PS13: « Je vois fréquemment le travail s'amonceler sans pouvoir résorber le retard »
2. Task\_PS24: inverse de « Mon travail me donne de nombreuses occasions d’effectuer des tâches intéressantes »
3. Task\_PS03: inverse de « Mon travail a du sens pour moi »
4. Task\_PS04: « Mon travail consiste en des tâches monotones et répétitives »
5. Contro\_PS09: inverse de « J’arrive à mener de front ma vie professionnelle et ma vie personnelle »
6. Contro\_PS54: « Je suis en train de vivre ou je m'attends à vivre un changement indésirable susceptible d'affecter ma carrière »
Figure 3. Grille de l’analyse importance-performance sur 58 stresseurs professionnels.
4. Discussion
Cette étude a permis de développer une approche statistique pour identifier un ensemble de facteurs de stress nécessitant une action prioritaire des décideurs pour réduire le niveau de stress lié au travail, en utilisant deux méthodes statistiques puissantes complémentaires ; PLS-PM et AIP. À notre connaissance, c'est la première fois que ces deux approches ont été utilisées ensemble pour répondre à une seule question. L'utilisation de cette approche fournit des idées supplémentaires pour comprendre la relation entre les différents facteurs de stress professionnels et le stress au travail.
Avantages
Bien que différents modèles soient disponibles pour identifier les stresseurs professionnels ayant un impact sur le stress au travail, aucun ne repose sur une théorie valide. Ces modèles ont été développés à la base d'études empiriques sur le terrain. Par conséquent, il est très important de pouvoir prendre en compte les liens entre les différents stresseurs identifiés par les études épidémiologiques. L'approche PLS-PM permet de prédire le stress lié au travail en utilisant cinq blocs fortement corrélés construits à partir de 58 stresseurs et de comprendre des concepts qui sont difficiles à formaliser. En utilisant les path coefficients, cette approche nous permet de classer par ordre de priorité les cinq blocs de stresseurs en fonction de leur capacité à prédire la variable latente « stress ».
L'approche AIP permet une identification directe des facteurs de stress nécessitant une attention prioritaire pour réduire le stress au travail, en utilisant un calcul indirect de l'importance des items à partir des résultats de PLS-PM. En se basant sur un graphique d'importance relative par rapport à leur performance mesurée, l'AIP fournit un guide utile et facilement compréhensible de la façon dont les quadrants diffèrent les uns des autres, ce qui permet aux décideurs d'identifier les items sur lesquels ils doivent réaffecter les ressources dans le futur plan de prévention du stress lié au travail. De plus, la répartition similaire des items sur le graphique AIP observés en utilisant des réponses dichotomisées à partir de l'échelle initiale de Likert à 6 points a montré la robustesse des résultats de l'AIP.
Limites
La principale limitation statistique de l'approche proposée est que les caractéristiques individuelles (âge, sexe, etc.) n'ont pas été ajustées dans le modèle à équations structurelles pour deux raisons. Tout d'abord, l'ajustement pour un cofacteur individuel ne serait pas possible avec les données disponibles, car la base de données Stimulus-conseil impliquait des données provenant de plusieurs entreprises avec une catégorisation de facteurs hétérogènes, à l'exception du sexe. Deuxièmement, un tel ajustement nécessiterait des tests de permutation nécessitant des calculs plus sophistiqués et un long temps de calcul (Chin, 1998), et rendrait l'approche proposée moins flexible et plus complexe à utiliser. Par ailleurs, comme la corrélation n’implique pas la causalité, cette approche doit être complétée par une analyse de causalité, comme les graphes de causalité proposés par Bühlmann (2013) dans le but de déterminer les leviers d’action permettant de réduire le niveau de stress au travail.
Conclusion
Nous avons proposé d'utiliser une approche statistique multivariée basée sur l'AIP combinée avec un modèle à équations structurelles. Les résultats de l'application de cette approche aux données de Stimulus suggèrent deux domaines dignes d'attention des décideurs pour réduire le niveau de stress. Les résultats montrent également la robustesse de l'AIP lorsque la réponse à chaque item est dichotomisée, comparée à l'échelle initiale de Likert de 6 points. Notre approche pourrait être un outil utile pour évaluer l'impact des facteurs organisationnels et environnementaux sur les niveaux de stress individuels. Cependant, il peut être utilisé pour étudier tout autre résultat ou concept de santé psychologique (performance, fatigue, anxiété, etc.).
Bibliographie
[1] Lee JS, Joo EJ, Choi KS (2013) Perceived Stress and Self‐esteem Mediate the Effects of Work‐related Stress on Depression. Stress and Health 29: 75–81.
[2] Lemyre L, Tessier R (2003) Measuring psychological stress. Concept, model, and measurement instrument in primary care research. Canadian Family Physician 49: 1159.
[3] Karasek R, Brisson C, Kawakami N, Houtman I, Bongers P, Amick B. (1998) The Job Content Questionnaire (JCQ): an instrument for internationally comparative assessments of psychosocial job characteristics. Journal of occupational health psychology 3: 322.
[4] Esposito Vinzi V, Russolillo G (2013) Partial least squares algorithms and methods. Wiley Interdisciplinary Reviews: Computational Statistics 5: 1–19.
[5] Martilla JA, James JC (1977) Importance-performance analysis. The journal of marketing: 77–79.
[6] ChinW (1998) The partial least squares approach to structural equation modeling. Modern methods for business research 295: 295–336.
[7] Bühlmann P (2013) Causal statistical inference in high dimensions. Mathematical Methods of Operations Research 77: 357–370.
IDENTIFICATION ET HIERARCHISATION DES FACTEURS PSYCHOSOCIAUX LIES AU STRESS AU TRAVAIL
Caroline JEFFERY, Daniel SPRAGUE, Joseph OUMA, Thomas HOUSE, Joseph J VALADEZ
Objectives
Lot-quality assurance sampling (LQAS) is a classification method, developed in the 1920s for industrial quality control. In 1991, a WHO consultation on epidemiological and statistical methods for rapid health assessments recommended that LQAS be developed further to
monitor health programmes. LQAS is used to manage health services performance quickly and relatively inexpensively in a defined geographical area. We review the statistical underpinnings of LQAS and methodological extensions, presenting recent applications in
health in the developing world.
Methods
Standard LQAS methodology is a two-stage sampling approach defined in a catchment area (CA), stratified by supervision areas (SA). Communities are selected in each SA with probability-proportional-to-size; typically, one respondent, sampled randomly in each community, is interviewed with a structured questionnaire. LQAS health surveys traditionally measure binary outcomes, classifying SA-level coverage indicators as having reached a predefined target. Classification is based on a decision rule, determined from binomial or hypergeometric distributions. Data from multiple SAs is aggregated to provide CA-level coverage estimates with confidence interval.
Example and Conclusion
During 2003-2015, LQAS household surveys were completed in up to 65 Ugandan districts to monitor health indicators. LQAS was rolled out as a national health sector monitoring system in 2009 and the data merged into one super-database, permitting cross-time and cross-space epidemiological studies to take place as secondary data analysis. One study looked at factors associated with facility-based delivery (FBD) adjusting for multiple factors simultaneously, spatial heterogeneity, and time trends. The statistical model formulated a nascent early warning system to identify districts expected to have low prevalence of FBD in the immediate future. LQAS is an attractive tool for evaluating health services. The scaling up of LQAS in the developing world provides numerous opportunities to design and conduct complex statistical analyses and evaluations to inform health policy and formalise our understanding of health systems.
Lot Quality Assurance Sampling for improving health systems in the developing world: a decision-making tool to empower health officers and inform health policy
Thi Huong TRINH, Joanna MORAIS
Nous appliquons l'Analyse des données de composition (CODA) pour analyser l'impact des caractéristiques socioéconomiques sur les parts de consommation de macronutriments au Vietnam en utilisant les ``Vietnamese Household Living Standard Surveys" pour les années 2004, 2006, 2008, 2010, 2012 et 2014. Nous utilisons plusieurs outils pour décrire l'évolution de la consommation de macronutriments, y compris le diagramme ternaire et le dendogramme CODA. De plus, nous ajustons un modèle de régression pour variable dépendante compositionnelle pour explorer la relation entre la part de consommation de macronutriments et les caractéristiques des ménages. En appliquant plusieurs critères, par example l'ANOVA, le diagramme Quantile-Quantile, le diagramme ternaire des résidus et la variabilité totale R-Carré, nous obtenons des effets significatifs des dépenses alimentaires des ménages et de la taille des ménages. Finalement, nous calculons l'élasticité au revenu de la part des macronutriments et l'élasticité au revenu du volume de la consommation de macronutriments. Les élasticités revenu des volumes de consommation de macronutriments sont positives pour tous les macronutriments. Lorsque les élasticités revenu sont calculées pour les parts de consommation de macronutriments, l'élasticité est positive pour les parts de protéines et de lipides, mais négative pour la part de glucides. Macronutrient consumption in Viet Nam during a period 2004 - 2014: A comprehensive study using Compositional Data Analysis
|
Environnement
Environnement Avner BAR-HEN, Pierre BARBILLON, Sophie DONNET
Dans l'environnement naturel, une grande diversité des types d'interactions entre plantes et espèces animales (parmi lesquels la pollinisation, la dissémination de graines, etc) coexiste.
Chaque type d'interaction peut être représenté par un graphe bipartite entre l'ensemble de plantes observé et un groupe fontionnel d'animaux donné. Jusqu'à récemment, les structurations de ces différents réseaux d'interactions étaient étudiées séparément. Dans ce travail, nous proposons de modéliser de façon conjointe les différents types d'interactions au moyen d'une extension adéquate des modèles à blocs latents.
Nous utilisons une version variationnelle de l'algorithme EM pour maximiser la vraisemblance du modèle et développons un critère pénalisé de sélection de modèle adapté au problème. La pertinence des méthodes et du modèle est illustrée sur données simulées et réelles. Modèles à blocs latents pour graphe multipartite . Application aux interactions entre espèces animales et plantes.
Lucie MONTUELLE, Aurélie FISCHER, Mathilde MOUGEOT, Dominique PICARD
Ce travail étudie et compare différents modèles de prévision temps réel de l'énergie éolienne pour trois parcs éoliens situés dans le nord et l'est de la France. Nous étudions l'impact de la précision de la mesure de vent sur les performances de prévision. Nous montrons que les modèles à base d'apprentissage statistique ont des performances supérieures aux modèles inspirés d'équations physiques habituellement utilisés. Les arbres des régression combinés par la méthode de bagging fournissent les meilleurs résultats. Modèles de production d'énergie éolienne et prévision
Frédéric LANTZ
L’objectif de ce papier est d’identifier les principaux déterminants du prix des biocarburants dans le contexte de la mise en place de la politique environnementale européenne depuis 2006. Les prix du biodiesel sont impactés les prix du colza et du pétrole ainsi que par la politique européenne sur les biocarburants. Une analyse économétrique en terme de cointégration est menée en utilisant des données mensuelles de novembre 2006 à janvier 2016. Cependant, les tests de rupture mettent en évidence plusieurs changements dans l’évolution des prix. Ceci conduit à estimer un modèle de chaine de Markov à changement de régime qui révèle deux régimes des prix du biodiesel. Lorsque le prix du pétrole est élevé, tous les prix sont tirés par celui-ci. Lorsque les prix du pétrole sont faibles, le prix du biodiesel est principalement relié au prix du colza en raison de la politique européenne d’incorporation obligatoire. DYNAMIQUE ET RUPTURES DANS LES RELATIONS ENTRE LES PRIX DES BIOCARBURANTS ET DU PÉTROLE SUR LE MARCHÉ EUROPÉEN
Clément LEROUX, Syrielle MONTARIOL, Laure NICOLLET, Florian ROCHET
Le but de ce projet est d'analyser les séries temporelles provenant de capteurs de température, d'humidité, de CO2 et d'ensoleillement. Deux éléments sont étudiés : l'évolution conjointe de deux séries, et les ruptures détectables dans les séries.
Pour pallier au problème des régressions fallacieuses dû à la non-stationnarité des séries, la méthode de Johansen est utilisée pour détecter des relations de cointégration. Par exemple, les séries de l'humidité et de la température sont souvent cointégrées dans une maison avec des pièces de petite taille et peu d'habitants, donc peu d'interactions. De même, les séries d'humidité dans deux pièces adjacentes d'une petite maison ont souvent des évolutions similaires. À l'inverse, aucune cointégration n'est détectée entre les séries dans une maison de grande taille.
Pour la détection de ruptures dans les séries, trois méthodes sont comparées : l'approche de Bai \& Perron, la méthode de Lavielle, et une fonction de détection spécifique implémentée pour compléter ces méthodes. Les deux dernières peuvent détecter immédiatement une ouverture de fenêtre, par la chute brusque de l'humidité, tandis que la première détecte une lente hausse de température due à l'ensoleillement ou les fluctuations du taux de CO2 selon la présence des habitants dans la maison. Prix ENSAI: Analyse statistique de données capteurs dans des logements habités
|
Logiciels spécialisés
Logiciels spécialisés Julien BLAIZE, Nathalie LALEVE
Coheris SPAD
Ariane LIGER-BELAIR
SAS
|
12h20-14h00 | Repas | |||||
14h00-18h00 | Sorties | |||||
19h15-2h00 | Soirée de Gala des JdS2017 |
9h00-10h00 | Cyril RUCKEBUSCH Analyse et traitements d’images en microscopie de fluorescence de molécules uniques L’imagerie de fluorescence de molécules uniques – « nanoscopique » et « super-résolue », récompensée par le Nobel de Chimie de 2014 – s’impose comme un formidable outil pour étudier les structures biologiques moléculaires et comprendre leurs fonctionnalités. Au-delà des aspects expérimentaux, les techniques de nanoscopie requièrent aujourd’hui le développement d’approches spécifiques de traitements et d’analyse d’images pour mieux quantifier la résolution spatiale, le nombre de molécules ou encore la structure et la dynamique des échantillons étudiés. Cette technique est basée sur la localisation de molécules uniques en fluorescence et la manipulation des propriétés d’émission de labels de fluorescence stochastiques. Le principe consiste (i) à enregistrer de nombreuses images décrivant différents sous-échantillons aléatoires de toutes les molécules à cadence soutenue sur plusieurs sec/min produisant un film de quelques milliers ou dizaines de milliers d’images, puis à (ii) localiser les positions sur chaque image et enfin (iii) à assembler ces positions pour révéler des détails de l’ordre de quelques 10 nm. Nous développons notamment des algorithmes de traitements de ses séquences d’images qui ont la particularité d’être performants pour des images en haute densité. Ces algorithmes de déconvolution/localisation sont construits sur une approche de régression par moindres carrés pénalisés en norme L0. Cette approche fournit des résultats très pertinents et est potentiellement applicable à d’autres modalités d’imagerie. Travail réalisé en collaboration avec S. Hugelier, M. Sliwa, P.Dedecker, J.J. de Rooi , P. H. C. Eilers Analyse et traitements d’images en microscopie de fluorescence de molécules uniques Modérateur: Philippe BASTIEN, Amphi: AT03 | Philippe RIGOLLET Statistical Seriation 'The seriation problem can be described as follows: given a matrix reorder its rows in such a ways that each column satisfies a shape constraint such as monotonicity or unimodality. It has direct applications in archeology, de novo genome assembly and ranking for example. To allow for noisy observations, we introduce the statistical seriation problem that blends ingredients from network estimation (stochastic block models, graphons) and shape constrained estimation. We derive optimal rates of estimation and point to a potential computational vs. statistical tradeoff. [Joint with Nicolas Flammarion (ENS Paris) and Cheng Mao (MIT)]' Statistical Seriation Modérateur: Aurélien GARIVIER, Amphi: AT06 | ||||
10h00-10h20 | Pause Café | |||||
10h20-11h20 | Guillaume CHAUVET Propriétés de la méthode du pivot, avec application à l’échantillonnage sur flux de données et à l’échantillonnage spatial Les plans de sondage à probabilités inégales sont utilisés pour sélectionner des échantillons afin d'améliorer la précision des estimateurs par rapport à un tirage à probabilités égales. Si les variables d'intérêt sont approximativement proportionnelles à la probabilité de tirage, la variance peut ainsi être très fortement réduite. Ce principe est notamment utilisé pour un premier degré de tirage dans une enquête auprès des ménages ou une enquête épidémiologique, où des unités primaires (communes ou groupes de communes) sont généralement sélectionnées à probabilités proportionnelles au nombre de résidences principales. On trouve dans la littérature un très grand nombre d'algorithmes de tirage à probabilités inégales, dont un inventaire récent est donné dans Tillé (2011). Le choix d'un de ces algorithmes va se baser sur des considérations de précision, mais également sur des aspects pratiques. Dans certains cas de figure, les individus se présentent sous la forme d'un flux continu de données dans lequel il faut échantillonner à la volée. Cela nécessite d'utiliser des algorithmes séquentiels, pour lesquels la décision ou non de sélectionner les individus doit se faire au moment même où l'individu apparaît. Parmi les algorithmes de tirage à probabilités inégales, la méthode du pivot (Deville et Tillé, 1998) présente de nombreux avantages. Basée sur un principe de duels entre unités, elle permet de bénéficier d'un effet de stratification, qui tend à réduire la variance si l'ordre d'apparition des unités est lié aux variables mesurées. Il s'agit d'une méthode séquentielle qui permet d'échantillonner des individus à la volée. Elle est donc particulièrement adaptée à un échantillonnage dans un flux de données. Enfin, elle permet d'éviter la sélection d'unités contiguës dans la population. Cela la rend très intéressante dans un contexte d'échantillonnage spatial, où elle permet de sélectionner des échantillons bien équilibrés dans l'espace. De nombreux auteurs se sont récemment intéressés à l'utilisation de la méthode du pivot dans ce contexte, voir notamment Grafström et al. (2012), Grafström and Tillé (2013) ou Vallée et al. (2015). Lors de cette présentation, nous décrirons notamment le principe de la méthode du pivot, et nous montrerons qu'elle offre de bonnes propriétés statistiques pour un estimateur de type Horvitz-Thompson (consistance faible, théorème central-limite, inégalité exponentielle) sous de faibles hypothèses. Nous présenterons deux applications de la méthode du pivot. Le premier travail porte sur un échantillonnage sur flux volumineux de données (travail joint avec Emmanuelle Anceaume, Yann Busnel et Nicolo Rivetti). Le second travail porte sur une modification de la méthode GRTS (Generalized Random Tesselation Sampling), couramment utilisée pour un échantillonnage spatial (travail joint avec Ronan Le Gleut). \noindent [1] Deville, J-C., and Till\'e, Y. (1998). Unequal probability sampling without replacement through a splitting method, Biometrika, 85, 89--101. \noindent [2] Grafstr\"om, A., Lundstr\"om, N. L. P. and Schelin, L. (2012). Spatially Balanced Sampling through the Pivotal Method, Biometrics, 68(2), 514--520. \noindent [3] Grafstr\"om, A., and Till\'e, Y. (2013). Doubly balanced spatial sampling with spreading and restitution of auxiliary totals. Environmetrics, 24, 120--131. \noindent [4] Till\'e, Y. (2011). Sampling Algorithms. New-York, Springer. \noindent [5] Vall\'ee, A.A., Ferland-Raymond, B., Rivest, L.P., and Till\'e, Y. (2015). Incorporating spatial and operational constraints in the sampling designs for forest inventories. Environmetrics, 26, 557--570. Propriétés de la méthode du pivot, avec application à l’échantillonnage sur flux de données et à l’échantillonnage spatial Modérateur: Gaël DE PERETTI, Amphi: AT03 | Alexandre BOUCHARD-COTE Rebondissements dans les méthodes de Monte Carlo Les méthodes de Monte-Carlo par chaînes de Markov sont maintenant des outils standards en inférence bayésienne. Les méthodes actuelles sont typiquement basées sur l’algorithme de Metropolis-Hastings (MH) et consistent donc principalement en des chaînes de Markov reversibles à temps discret. Récemment, des alternatives basées sur des chaînes irréversibles à temps continu ont commencé à émerger et promettent de meilleures performances notamment pour l’inférence de paramètres à haute dimension et/ou pour l’inférence basée sur des volumes massifs de données. Je présenterai nos travaux sur l’échantillonnage par rebondissement particulaire (ERP), où l’espace des paramètres est exploré en temps continu et le rejet de l’algorithme MH est remplacé par des rebondissements. L’algorithme ERP, inspiré de travaux récents en dynamique moléculaire, est ergodique selon la loi cible sous des conditions faibles, et est d’intérêt pratique dans tout un éventail de problèmes bayésiens. Nous proposons plusieurs extensions et des validations empiriques de la méthode. Rebondissements dans les méthodes de Monte Carlo Modérateur: Jean-Michel MARIN, Amphi: AT06 | ||||
11h30-12h30 |
Modèles de survie
Modèles de survie Laurent BRIOLLAIS, Yun-Hee CHOI, Lajmi LAKHAL-CHAIEB
Nous proposons ici un modèle d’association pour estimer la pénétrance (risque) de cancers successifs en présence d’évènements compétitifs. L’association entre les deux évenements successifs est spécifiée à partir d’une fonction Copule et un modèle de hasards proportionnels est utlisé pour chaque évenement compétitif. Ce travail est motivé par l’analyse de cancers successifs chez des individus ayant le syndrome de Lynch. La procédure d’inférence statistique est adaptée à la prise en compte de covariables génétiques manquantes ainsi que le biais de sélèction induit par le recrutement de familles ayant plusieurs individus atteints d’un premier cancer colorectal. Les performances de la procédure d’estimation sont évaluées par simulations et son utilisation est illustrée par l’analyse de données provenant de registres familiaux du cancer colorectal. Modelling successive time-to-event outcomes in presence of competing risk events using Copulas
Sabine HOFFMANN, Chantal GUIHENNEUC, Sophie ANCELET
Les erreurs de mesure d'exposition constituent l'une des sources d'incertitude
les plus importantes dans les études épidémiologiques. Lorsqu'elles ne sont pas ou mal prises en compte, ces incertitudes d'exposition peuvent mener à des estimateurs de risque biaisés ainsi qu'à une déformation des relations exposition-risque. Dans les cohortes professionnelles, les techniques d'évaluation de l'exposition peuvent changer au cours du temps conduisant à des structures d'erreurs de mesure complexes. Bien que l'impact des erreurs de mesure non-partagées soit désormais bien établi en épidémiologie, celui des erreurs partagées sur plusieurs années de suivi d'un même individu ou partagées par
plusieurs individus reste très mal connu. Dans ce contexte, l'objectif est de présenter les résultats d'une étude par simulations conduite afin d'analyser et de comparer l'impact de sources d'incertitudes d'expositions partagées et non-partagées sur l'estimation du risque et de la forme de la relation exposition-risque dans les études de cohortes professionnelles. Les résultats montrent qu'une incertitude d'exposition partagée sur plusieurs années de suivi d'un même individu conduit à des biais plus élevées ainsi qu'à une déformation plus sévère de la relation exposition-risque qu'une incertitude d'exposition non-partagée ou
partagée par plusieurs individus. Cette étude souligne l'importance de faire une caractérisation détaillée des erreurs de mesure d'exposition - partagées et non partagées - potentiellement présentes dans une étude de cohorte professionnelle lorsque l'objectif est de prendre en compte ses erreurs de mesure dans les estimations du risque. The effects of shared and unshared exposure uncertainty on risk estimation via proportional hazards models in occupational cohorts
Alfred BAROULIER, Mehdi DOUCH, Paul MESSINESI, Gisela LECHUGA, Laurent LE BRUSQUET, Arthur TENENHAUS
Cet article étend le modèle de Cox au cas des données multivoie, c’est-à-dire aux données où chaque individu est décrit par plusieurs modalités de la même covariable. Imposer aux coefficients de régression une structure tensorielle identique à celle des données permet d’une part de restreindre le nombre de coefficients à estimer et donc la complexité calculatoire et d’autre part d’éviter le phénomène de sur-apprentissage. Cette nouvelle approche est évaluée et validée sur données simulées. Modèle de durée pour données multivoie
|
Histoire de la statistique
Histoire de la statistique Leo GERVILLE-REACHE, Ingrid ROCHEL
Jean le Rond D’Alembert, dont on célèbre le trois centième anniversaire est connu des statisticiens pour ses positions curieuses en matière de probabilités. Plus largement, ce savant cultivait l’art du doute scientifique et s’opposait ainsi à la pensée unique. A travers ses correspondances parfois virulentes, nous rendons hommage à ce grand académicien enthousiaste et revenons sur son analyse du jeu Croix ou pile. D’ALEMBERT : CONTROVERSES ET PROBABILITES
Nathalie LE BOUTEILLEC, Elisabeth MORAND
Le Royaume de Suède entame en 1749 le « travail des tables » (traduction de Tabellverket), à savoir les premiers relevés statistiques permettant de dénombrer la population et d’en relever les caractéristiques essentielles. Les savants de l’Académie des sciences (dont Linné) ont porté cet ambitieux projet et Pehr Wargentin, astronome et secrétaire de l’Académie a contribué à l’exploitation des résultats. Il a alors écrit plusieurs mémoires relatifs aux statistiques de population, des mémoires peu connus mais qui ont une portée essentielle. Partant de la fonction de survie, Wargentin a une vision de la pyramide des âges. L'objectif de cette communication est de présenter la « pyramide » de Wargentin dans le cadre des théories disponibles à cette époque mais aussi par rapport aux représentations graphiques disponibles aujourd'hui. ANALYSE DES FONCTIONS DE SURVIE SELON WARGENTIN (1717-1782) : DES DONNEES DU TABELLVERKET A LA THEORIE ‘PROBABILISTE’
Dominique BLANC, Cristina CUSANI, Antoine DE FALGUEROLLES
Dans "The Seven Pillars of Satistical Wisdom" (2015), Sephen M. Stigler
rappelle la construction par Francis Galton d'images photographiques types, encore dites composées ou composites,obtenues par superposition et fusion d'images photographiques (1879). L'idée a été rapidement reprise en France par quelques photographes. Dès 1889, Arthur Batut publie un court ouvrage montrant qu'il maîtrise complètement cette technique.
Cette communication vise à jeter un regard statistique sur cette méthode et en particulier sur le travail de Batut. Arthur Batut (1846-1918) et les portraits composés de Francis Galton (1822-1911)
|
Filtrage et lissage
Filtrage et lissage Pierre GLOAGUEN, Marie-Pierre ETIENNE, Sylvain LECORFF
\noindent On s'int\'eresse \`a un mod\`ele de Markov cach\'e (HMM) dont la partie cach\'ee est une diffusion solution de l'\'equation diff\'erentielle stochastique (EDS) suivante~:
\begin{equation}
X_t = \alpha^\theta(X_t) t + d W_t, X_0\sim \chi_0^\theta(\cdot)\label{eq:target:sde_f}
\end{equation}
o\`u $\alpha^\theta()$ est une fonction d\'ependant de param\`etre $\theta$, $W_t$ est un mouvement Brownien standard issu de 0 and $\chi_0^\theta$ est la distribution initiale pour la variable $X_0$\\
La diffusion est seulement partiellement observ\'ee aux instants $t_0=0,\dots,t_n$ au travers d'un processus d'observations $(Y_k)_{k=0,\dots,n}$, tel que $Y_k\vert X_{t_k}=x_k \sim g^\theta(x_k,y)$.\\
Dans ce contexte, obtenir les distributions de filtrage (et resp. de lissage), i.e. la loi de $X_k\vert Y_{0:k}$ (resp. $X_k\vert Y_{0:n}$) reste un probl\`eme difficile puisque le noyau de transition de la diffusion solution de \eqref{eq:target:sde_f} n'a en g\'en\'eral pas de forme explicite.\\
Dans le travail pr\'esent\'e, nous proposons un nouvel algorithme, pour approcher sans biais et avec une complexit\'e lin\'eaire, l'esp\'erance de fonctionnelles additives dans un contexte de mod\`eles de Markov cach\'e dont la partie cach\'ee est r\'egie par la solution d'une \'equation diff\'erentielle stochastique. , i.e.:
\begin{align}
\mathbb{E}\left[ H(X_{0:n})\vert Y_{0:n}\right], &\text{ o\`u } H(X_{0:n}) = \sum_{k=0}^{n-1} h_k\left(X_k,X_{k+1}\right)\label{eq:target:exp_f}\\
&\text{ et } (X_t)_{t\geq 0} \text{ est solution de \eqref{eq:target:sde_f}}\nonumber
\end{align}
L'algorithme propos\'e repose sur des m\'ethodes de filtre particulaire pour les EDS propos\'e par Fernhead \& all~(2008) combin\'e avec un algorithme de lissage r\'ecent propos\'e par Olsson et Westerborn~(2016).
Dans ce travail, nous d\'ecrirons l'algorithme et montrons des r\'esultats sur un mod\`ele donn\'e pour approcher la quantit\'e pivot de la phase E d'un algorithme EM. Un algorithme de lissage efficace et en ligne pour des equations diff\'erentielles stochastiques observ\'ees avec bruit
Melanie PRAGUE, Rodolphe THIEBAUT, Philippe MOIREAU, Annabelle COLLIN
Various methods have been used in the statistical field to estimate parameters in mechanistic models. In particular, approach based on penalised likelihood for estimation of parameters in ordinary differential equations with non linear models on parameters (ODE-NLME) has proven successful. We will consider the NIMROD program [Prague2013] as a benchmark for estimation in these models. However, such approach is time consuming. We propose to consider data assimilation which historically arose in the context of geophysics. We propose a Luenberger (also called nudging) state observer coupled with a parameter Kalman-based observer (RoUKF filter, also called SEIK filter) to perform a joint state and parameter estimation on a dataset composed of longitudinal observations of biomarkers for multiples patients. We compare these methods in term of performances and computation time. We discuss how the concept of random effect can be modelled using Kalman-based filter and its limitations. We illustrate both methods in simulation and on two datasets (the ALBI ANRS 070 trial and the Aquitaine cohort observational data) using an HIV mechanistic model. Joint-state and parameters estimation using nudging and SEIK filters for HIV mechanistic models
Sylvain LE CORFF, Minh NGUYEN, Eric MOULINES
Cette présentation s'intéresse à l'estimation de lois a posteriori dans les modèles de Markov cachés. L'approximation des lois dites de lissage des états cachés conditionnellement à toutes les observations (passées, présentes, futures) est un problème délicat bien que crucial pour l'estimation d'états cachés ou de paramètres au sens du maximum de vraisemblance. Nous proposons une analyse des approximations de ces lois fournies par les méthodes two-filter. Ces méthodes combinent l'utilisation d'un filtre particulaire approchant les lois de filtrage à celle d'un filtre backward approchant une quantité proportionnelle à la loi d'un état conditionnellement aux observations futures. Nous établissons des inégalités de déviation exponentielles ainsi qu'un théorème central limite, ce qui permet d'avoir pour ces algorithmes des résultats du même ordre que ceux existants pour d'autres algorithmes particulaires. L'un des intérêts majeurs de ces résultats est la forme particulière de la variance asymptotique qui peut-être estimée en ligne pour les algorithmes two-filter, seuls algorithmes pour lesquels cela est possible à ce jour. Sur l'approximation des lois de lissage marginales par les algorithmes two-filter
|
Valeurs extrêmes
Valeurs extrêmes Emilie MIRANDA
L'objectif de cette étude est l'estimation d'un quantile extrême dans le cas de données dichotomiques de dépassement de seuil. La problématique est issue d’un cas industriel : l’étude de la résistance d’un matériau
pour des probabilités de rupture cibles très faibles. La méthode proposée est séquentielle et consiste à décomposer la probabilité de l'évènement rare en un produit d'évènements conditionnels. Elle se fonde sur l'utilisation de résultats sur les lois limites de dépassements de seuil. Estimation d'un quantile extrême sur données dichotomiques - Application à l'étude de la résistance de matériau
Victor MELESE, Juliette BLANCHET
We propose in this presentation a regional study of uncertainties in IDF curves derived from point-rainfall maxima. We develop two generalized extreme values model based on the simple scaling assumption. First in the frequentist framework and second in the Bayesian framework. We analyze the impact of these frameworks on the estimations of uncertainties. Estimations of uncertainties of Intensity Duration Frequency curves of extreme rainfall - a regional analysis.
Clément ALBERT, Anne DUTFOY, Stéphane GIRARD
Une problématique générale en analyse des valeurs extrêmes consiste, à partir d’une loi de valeurs extrêmes ajustée sur des données,
à déterminer les quantiles extrêmes de période de retour centenale ou millénale.
Dans cette communication, nous quantifions les limites d'extrapolation associées à ces estimations de quantiles extrêmes.
Pour ce faire, nous nous plaçons dans le cadre de la méthode des maxima par blocs et nous étudions le comportement de l'erreur relative d'approximation
associée à un estimateur des quantiles dédié au domaine d'attraction de Gumbel. Nous donnons des conditions nécessaires et suffisantes à la convergence de l'erreur vers zéro
et le cas échéant un équivalent de cette dernière.
Nous montrons que la qualité de l'extrapolation est grandement dépendante de la loi dont sont issues les données. Etude de l'erreur relative d'approximation des quantiles extrêmes
|
Statistique semi-paramétrique
Statistique semi-paramétrique Thomas LALOE, Gaelle CHAGNY, Rémi SERVIEN
Nous considérons le problème de l'estimation non-paramétrique d'une fonction de régression multivariée sans hypothèse sur la compacité du support du design aléatoire, via une méthode dite de ``déformation" (warping). Un estimateur à noyau déformé adaptatif, dont on prouve qu'il est optimal au sens oracle, est tout d'abord défini dans le cas où la loi du design est connue. Dans un second temps, nous proposons d'estimer également celle-ci : les marginales sont estimées via les fonctions de répartition empiriques. Quant à la structure de dépendance, elle est reconstruite via l'estimation, à noyau toujours, de la densité de copule. Le plug-in de ces estimateurs dans celui de la fonction de régression permet ensuite d'obtenir un estimateur dans le cas général. Des simulations illustrent la méthode. Estimation adaptative de la régression multivariée par noyaux déformés
Jérôme SARACCO
Dans ce travail, nous nous int\'eressons \`a un mod\'ele de r\'egression semiparam\'etrique entre une variable \`a expliquer $y\in\Re$ et une covariable multidimensionnelle $x\in\Re^p$. L'approche SIR (sliced inverse regression) permet d'estimer la partie param\'etrique de ce mod\'ele et d'obtenir une estimation d'une base de l'espace EDR (effective dimension reduction). Nous proposons dans cette communication une mani\'ere de quantifier l'importance des variables explicatives dans ce mod\'ele (en terme d'impact sur la variable \`a expliquer $y$) ne reposant que sur l'estimation de l'espace EDR. Cette approche computationnelle (impl\'ement\'ee en R) permet alors de s\'electionner les variables explicatives les plus utiles/importantes du mod\'ele. Nous illustrons le bon comportement num\'erique de la m\'ethode sur des simulations et sur un jeu de donn\'ees r\'eelles. Evaluation de l'importance des variables dans la méthode SIR (sliced inverse regression)
Pierre MARECHAL, Léopold SIMAR, Anne VANHEMS
L'objectif de ce travail est de proposer une approche alternative aux méthodes de régularisation standard pour les problèmes de déconvolution. Nous considérons l'équation suivante: $Y = X + e$ et nous voulons retrouver la fonction de densité de X à partir de l'échantillon aléatoire observé $(Y_1, ... Y_n)$. Dans ce contexte, nous supposerons que $e$ a une densité connue. Ce problème est bien connu pour être mal posé. Sa résolution a été abordée dans de nombreuses publications, dont par exemple l'approche du noyau de déconvolution ou la régularisation de Tikhonov. Le principal inconvénient de cette dernière approche est que l'équation initiale est perturbée de manière significative, ce qui conduit à un compromis difficile: un paramètre de régularisation fort induit une forte perturbation du modèle (Charybde); Un paramètre de régularisation faible donne une solution instable (Scylla). Dans cet article, nous proposons un autre schéma de régularisation, dans lequel ce compromis deviendra beaucoup moins crucial. La méthodologie correspondante fait appel à la notion de mollification. Déconvolution de variables aléatoires par mollification
| |
12h30-14h30 | Repas | |||||
14h30-15h30 | Ephraim HANKS Stochastic differential equation models for animal movement 'Movement is a fundamental process underlying gene flow, infectious disease spread, and the flow of resources through a population. We present an approach for modeling movement based on modeling three sub-processes: (1) motility, or overall movement rate, (2) directional bias in movement, and (3) directional persistence or autocorrelated movement. We show how these three processes can be jointly modeled using a system of stochastic differential equations describing force acting on the animal, and show how this framework is general enough to model correlated group movement, response to local environmental cues, and movement around impassible barriers. We illustrate this framework by modeling movement of ants in a nest and sea lions off the coast of North America.' Stochastic differential equation models for animal movement Modérateur: Marie-Pierre ETIENNE, Amphi: AT03 | Anne PHILIPPE Processus à longue mémoire, Agrégation et Panel data. 'En collaboration avec D. Surgailis, R. Leipus et V. Pilipauskaité (Université de Vilnius, Lituanie) Depuis les travaux de Granger, l’agrégation de processus autorégressifs à paramètre aléatoire fournit une méthode pour construire des processus stationnaires à longue mémoire. Dans cet exposé nous présentons quelques aspects statistiques associés à ces modèles. Nous étudions en particulier la question de l’estimation de la loi du paramètre AR à partir du processus agrégé ou à partir de la collection de processus individuels (panel data) . Nous proposons aussi une procédure de test pour détecter la présence de phénomènes à longue mémoire à partir des données de panel. Références \noindent R. Leipus, A. Philippe, V. Pilipauskaité, D. Surgailis.(2017) Nonparametric estimation of the distribution of the autoregressive coefficient from panel random-coefficient AR(1) data Journal of Multivariate Analysis. Volume 153, Pages 121–135 \noindent Leipus R., Philippe A., Puplinskaite D., Surgailis D. (2014) Aggregation and long memory: recent developments. Journal of the Indian Statistical Association Vol.52 No. 1' Processus à longue mémoire, Agrégation et Panel data Modérateur: Delphine BLANKE, Amphi: AT06 | ||||
15h30-15h50 | Pause Café | |||||
15h50-17h10 |
Groupe Enquêtes
Groupe Enquêtes Ronan LE GLEUT
La propriété d'équilibrage spatial d'un échantillon est importante dans la mesure où elle permet de limiter les problèmes liés à l'auto-corrélation spatiale. Contrairement au cadre usuel de l'échantillonnage spatial, nous allons comparer dans cet article les performances de différentes méthodes d'échantillonnage appliquées à un plan ou un espace factoriel. L'analyse factorielle est effectuée sur des variables présentes dans la base de sondage et corrélées à la variable d'intérêt de l'enquête. Le fait de tirer de façon spatialement équilibrée dans un plan factoriel conduit à réduire assez fortement la variance des estimateurs des variables d'équilibrage et de la variable d'intérêt, sans pour autant accorder un poids trop important à des variables d'équilibrage corrélées entre elles. Cette procédure permet également de mieux restituer la distribution de ces variables en sélectionnant des individus avec des caractéristiques variées. Nous présenterons également une nouvelle méthode de tirage d'échantillons spatialement répartis implémentée sous R. Cette procédure se base sur l'algorithme de Tessellation de la méthode GRTS (en améliorant le temps d'exécution) et sur la méthode du Pivot. Les performances de cette méthode sont comparées à d'autres méthodes d'échantillonnage spatial en termes d'EQM et de degré d'équilibrage spatial. Analyse Factorielle et Sondage - Utilisation de Méthodes d'Échantillonnage Spatial
Vincent LOONIS, Xavier MARY
L’échantillonnage spatial dans une population finie a fait l’objet de nombreux
travaux au cours des dernières années. La stratégie d’ensemble est répulsive. Elle
consiste à attribuer une faible probabilité d’inclusion double à deux unités proches géographiquement. La propriété de répulsivité apparaît naturellement dans certains processus ponctuels, dont les processus determinantaux. L’application de ces processus au domaine des sondages met en évidence le rôle des matrices de projection orthogonale contractantes dont la diagonale correspond à un jeu de probabilités fixées a priori. La construction effective de telles matrices, qui fera l’objet de la première partie de la présentation, autorise, dans une seconde partie, la comparaison des perfomances des plans déterminantaux avec celles des procédures d’échantillonnage spatial déjà existantes. Plans de sondage déterminantaux et échantillonnage spatial
Audrey-Anne VALLEE, Bastien FERLAND-RAYMOND, Louis-Paul RIVEST, Yves TILLE
Un but des inventaires forestiers est l'étude de l'évolution temporelle de la forêt et des écosystèmes instables. Dans la province du Québec, la forêt est examinée par l'entremise d'inventaires réguliers. La région d'intérêt couvre un grand territoire qui n'est pas accessible facilement et qui est composé de plusieurs types d'arbres. Les exigences opérationnelles par rapport aux coûts de la collecte, à la répartition et au type des placettes sélectionnées sont difficiles à gérer. Dans plusieurs inventaires, les placettes sont sélectionnées à l'aide d'un plan de sondage systématique à deux dimensions. L'information auxiliaire rendue disponible par les différentes techniques d'imagerie n'est utilisée qu'à l'étape de l'estimation. Le but de cette présentation est de montrer que les techniques d'échantillonnage modernes peuvent être utilisées pour sélectionner un échantillon et pour améliorer la planification des inventaires forestiers, et ce, malgré les nombreuses exigences. En effet, notre plan de sondage inclut l'échantillonnage équilibré, l'échantillonnage équilibré hautement stratifié et l'étalage de l'échantillon à travers un plan à deux degrés. L'impact de ces techniques sur la satisfaction des exigences opérationnelles et sur la précision des estimations est étudié à l'aide des données d'un inventaire forestier québécois. Incorporation de contraintes spatiales et opérationnelles dans des plans d'échantillonnage pour des inventaires forestiers
Gaël DE PERETTI, Heidi KOUMARIANOS, Stéphane LEGLEYE, Tiaray RAZAFINDRANOVONA
L’Insee (Institut national de la statistique et des études économiques) s’est lancé depuis le début des années 2010 dans un plan d’expérimentations d’enquête ménages par internet. L’introduction de ce nouveau mode de collecte, et plus généralement, le souhait de développer la collecte multimode, est un trait commun à de nombreux instituts nationaux de statistiques, et a relancé l’intérêt pour les travaux de méthodologie d’enquête souvent en lien avec la notion d’erreur totale d’enquête. En effet, si la collecte multimode et l’introduction du support internet est séduisant de prime abord, cela n’est pas sans soulever de nombreux problèmes lors des phases de réalisation d’une enquête : échantillonnage, conception, collecte, redressement, estimation, etc. L’objectif de ce plan était donc d’accumuler des compétences et des connaissances sur ce sujet pour voir dans quelle mesure, il serait possible d’introduire la collecte par internet dans les enquêtes ménages, et plus généralement développer la collecte multimode. Il s’agit là de faire un premier bilan de ces expérimentations et de voir dans quelle mesure, les résultats déjà obtenus vont aider à reconfigurer la façon de concevoir, organiser, réaliser les enquêtes, mais aussi de produire les informations statistiques. La collecte multimode dans les enquêtes ménages : un point d'étape dans le plan d'expérimentation de l'Insee
|
Apprentissage : arbres et forêts
Apprentissage : arbres et forêts Gérard BIAU, Erwan SCORNET, Johannes WELBL
Les forêts aléatoires, proposées par L. Breiman (2001), comptent parmi les méthodes les plus utilisées dans les problèmes d'estimation de la régression en grande dimension, particulièrement dans des domaines comme la génomique. Un lien naturel existe entre ces forêts et les réseaux de neurones, couramment utilisés pour résoudre des problèmes de reconnaissance d'image par exemple. Dans cet exposé, nous expliciterons cette connexion et en tirerons parti pour construire des réseaux de neurones plus rapides. Un résultat de consistance sera également énoncé. Neural random forests
Audrey POTERIE, Jean-François DUPUY, Valérie MONBET, Laurent ROUVIERE
Nous nous plaçons dans le cas de la classification supervisée et cherchons à expliquer une variable binaire $Y$ par un vecteur $\mathbf{X}$ à valeurs dans $\mathbb{R}^p$. Nous supposons que le vecteur des variables explicatives est structuré en $J$ groupes connus. L'objectif est de prendre en compte cette structure de groupes pour construire le classifieur.
Nous proposons une approche par arbre qui consiste à sélectionner un groupe de variables et à appliquer une analyse discriminante linéaire sur ce groupe pour scinder un nœud.
Le procédé est répété jusqu'à ce qu'un critère d'arrêt soit satisfait. L'arbre ainsi défini ayant tendance à sur-apprendre, nous proposons une méthode d'élagage permettant de sélectionner un arbre performant.
Le procédé est répété jusqu'à ce qu'un critère d'arrêt soit satisfait. L'arbre ainsi défini ayant tendance à sur-apprendre, nous proposons une méthode d'élagage permettant de sélectionner un arbre performant. Arbres de classification pour variables groupées
Vincent MARGOT
L’algorithme que nous présentons est un algorithme d’apprentissage développé pour être facilement interprétable. Il est basé sur des objets de la forme ”If . . . Then . . . ”, appelés experts. L’algorithme identifie un ensemble d’experts par la méthode du minimum de contraste. Cet ensemble est ensuite agrégé via l’utilisation des méthodes d’agrégation d’experts, nous fournissant ainsi un prédicteur dont les performances sont comparables à celle de la meilleure combinaison convexe. La construction de ce prédicteur nous permet aussi de l’exprimer comme un estimateur de la fonction de régression. AdLearn: Un algorithme d'apprentissage interprétable
Louis RAYNAL, Jean-Michel MARIN
Face à la complexité grandissante de certains modèles statistiques, la vraisemblance peut ne pas être disponible ou calculable, elle est alors dite inaccessible. Dans un contexte bayésien, des techniques de simulations intensives se sont développées, les méthodes de calcul bayésien approché (de l'anglais Approximate Bayesian Computation ou ABC) en font partie. Elles comparent des résumés statistiques de données observées et simulées, mais nécessitent cependant une calibration minutieuse, notamment dans leur choix. Nous proposons une nouvelle approche mélangeant ABC et forêts aléatoires de régression (Breiman, 2001), pour faire de l'inférence de paramètres. L'idée est d'utiliser une table de référence ABC comme échantillon d'apprentissage pour des forêts de régression, une par dimension de l'espace des paramètres, dans le but d'estimer espérances, variances ou quantiles a posteriori. La covariance entre paramètres peut être gérée par des forêts supplémentaires. Cette méthodologie a été ajoutée à la bibliothèque R abcrf et sera comparée aux résultats de techniques ABC standards. Tous les résultats de cette présentation sont davantage détaillés dans Marin et al. (2016). Inférence bayésienne de paramètres par forêts aléatoires de régression et ABC
|
Biostatistique et parcimonie
Biostatistique et parcimonie Camilo BROC, Benoit LIQUET, Thérèse TRUONG, Borja CALVO
L’épidémiologie génétique a pour but de comprendre le rôle des gènes dans l’apparition de maladies. La mise en commun de différentes études cliniques donne accès un ensemble de données plus vaste rendant les résultats obtenus plus robustes. Cependant les méthodes multivariées telles la sparse group PLS (Partial Least Square), utilisée dans ce domaine en particulier pour étudier les structures gênes/pathway, bénéficient d’un cadre théorique peu développé lorsqu’il s’agit de mise en commun d’études. De nouveaux modèles sont développés dans cet article. Ils peuvent être mis en application pour la correction de biais d’expérimention (“batch effect”) et pour la pléiotropie. Une formalisation du problème ainsi que de nouveaux résultats théoriques pour ces deux problèmes sont présentés dans cet article. Sparse group PLS on data gathered from different studies : application to experimental bias correction and pleiotropy analysis
Chloé BESSIERE, May TAHA , Florent PETITPREZ, Jimmy VANDEL, Jean-Michel MARIN, Laurent BREHELIN, Sophie LEBRE, Charles LECELLIER
L'expression des gènes est étroitement contrôlée pour assurer une
grande variété de fonctions et de types cellulaires. Le développement
des maladies, en particulier les cancers, est invariablement lié à la
dérégulation de ces contrôles. Notre objectif est de modéliser le lien
entre l'expression des gènes et la composition nucléotidique des
différentes régions régulatrices du génome. Nous proposons d'aborder
ce problème dans un cadre de régression. Nous utilisons exclusivement
des données de séquences et nous apprenons un modèle différent pour
chaque type cellulaire. Nous montrons que (i) les différentes régions
régulatrices apportent des informations différentes et complémentaires
et que (ii) la seule information de leur composition nucléotidique permet
de prédire l'expression des gènes avec une erreur comparable à celle
obtenue en utilisant des données expérimentales. En outre, le
modèle linéaire appris n'est pas aussi performant pour tous les gènes,
mais modélise mieux certaines classes de gènes avec des compositions
nucléotidiques particulières. Modélisation de l'expression des gènes à partir de données de séquence ADN
Boris HEJBLUM, Denis AGNIEL
La technologie RNA-seq s'impose comme le nouveau standard pour la mesure de l'expression génique, et son utilisation est toujours plus importante, y compris dans des études cliniques. Il devient alors nécessaire d'adapter les outils statistiques employés pour leur analyse, puisque les données de séquençage se présentent comme des comptages. Il a été proposé de modéliser les comptageses RNA-seq comme des variables continues en utilisant des régressions non-paramétriques pour modéliser leur hétéroscédasticité intrinsèque. Dans cet esprit, nous avons développé une méthode efficace pour identifier les transcrits différentiellement exprimés à partir de données RNA-seq. Grâce à un test en composante de variance, cette méthode permet d'identifier les transcrits dont le niveau d'expression est significativement associé à un facteur (ou un groupe de facteurs), conditionnellement à des covariables et sans supposer une quelconque forme paramétrique sur la distribution des comptages (transformés). Malgré la présence d'un estimateur non-paramétrique, notre statistique de test a une forme simple et suit une distribution asymptotique, tous deux pouvant être calculés rapidement. Nous proposons également un test de permutation pour palier au cas des petits échantillons. Ce test présente de bonne propriétés statistiques, illustrées grâce à des données simulées ainsi qu'à des données réelles. En particulier, il fait preuve d'une amélioration de la stabilité et de la puissance statistique comparé aux méthodes actuellement utilisées que sont limma/voom, edgeR, et DESeq2. De plus, nous montrons que ces méthodes échouent toutes les trois à contrôler l'erreur de type I ainsi que le taux de fausses découvertes dans des cas réalistes, tandis que notre méthode se comporte comme attendu. Cette méthode est implémentée dans le package tcgsaseq disponible sur le CRAN. Contrôle de l'erreur de type I et du taux de fausses découvertes dans l'analyse de données RNA-seq grâce à un test en composante de variance
Svetlana GRIBKOVA, Davide RISSO, Fanny PERRAUDEAU, Jean-Philippe VERT, Sandrine DUDOIT
Le séquençage de l’ARN à l'échelle de cellule unique est une technique biologique récente et révolutionnaire qui a permis de mesurer les expressions de gènes dans des cellules individuelles. L’hétérogénéité cellulaire transcriptomique joue un rôle important dans de nombreux processus biologiques tels que les transformations malignes ou les processus de développement de tissus. Les données RNA-Seq à l’échelle de cellule unique permettent d’étudier les structures de l’hétérogénéité des populations de cellules individuelles à partir de leurs transcriptomes. Pour le faire, il est nécessaire de passer par une étape de la réduction de la dimension de données afin de représenter les cellules par des points dans un espace de dimension faible. Les distributions spécifiques de ces données de comptage avec excès de zéros rendent inefficaces les techniques standards de la réduction de dimension. Dans cet exposé, nous allons proposer une nouvelle méthode de réduction de dimension, adaptée à la structure des données, qui est basée sur la modélisation par des lois de comptage zéro-inflatées. Une nouvelle méthode de réduction de dimension pour l'analyse de données RNA-Seq à l'échelle de cellule unique
|
Données fonctionnelles : études de cas
Données fonctionnelles : études de cas Bertrand BEAUFILS, Frédéric CHAZAL, Marc GRELET, Bertrand MICHEL
L'entreprise Sysnav conçoit, développe et commercialise des solutions de navigation robustes aux défauts du GPS pour différents marchés professionnels comme la navigation pour piétons ou véhicules terrestres et pour le médical avec notamment l'actimétrie utilisée pour l'évaluation de l'état clinique pour des maladies se traduisant par des troubles du mouvement. Le système de capteurs positionné à la cheville, destiné à suivre les patients quotidiennement, reccueille les données intertielles à une fréquence de 130 Hz. Face à la quantité et la grande diversité des mouvements, nous avons recours à des algorithmes d'apprentissage supervisés afin de détecter les déplacements et d'interpréter les activitiés. Apprentissage statistique pour l'actimétrie du piéton à partir de données inertielles
Amandine SCHMUTZ, Julien JACQUES, Laurence CHEZE, Pauline MARTIN
Nous présentons une méthode de prédiction de la vitesse par un ensemble de variables fonctionnelles présentant la particularité que le nombre de mesures par individu est variable. La méthode utilisée est la régression non paramétrique multivariée via un estimateur à noyau pour données fonctionnelles proposée par Ferraty et Vieu (2009).
We present a predictive method for horse speed with functional predictors. The dataset characteristic is that the number of measurements per individual is variable. The method used is the multivariate nonparametric regression via the functional kernel estimator proposed by Ferraty and Vieu (2009). Prédiction de la vitesse du cheval de sport à partir de données accélérométriques et gyroscopiques
Emilie DEVIJVER, Jean-Charles QUINTON, Adeline SAMSON, Annique SMEDING
Dans cet exposé, on propose une méthode pour analyser des données de trace de souris d’ordinateur suite à des tests cognitifs faits sur plusieurs individus. Le modèle tient compte de la nature fonctionnelle des données en projetant la trajectoire sur une base de splines. De plus, on modélise les différentes variabilités avec un modèle mixte linéaire, pour tenir compte des variabilités intra-individus, inter-individus, et intra-essais. La méthode est basée sur l’analyse d’un jeu de données, où les tests ont été effectués sur des enfants martiniquais. Modèles mixtes fonctionnels pour des données de mouse-tracking
Maxime BAELDE, Christophe BIERNACKI, Raphaël GREFF
La reconnaissance sonore consiste à attribuer un label à un signal audio inconnu. Celle-ci repose généralement sur des descripteurs audio ainsi que des modèles d'apprentissage statistique. Néanmoins les modèles actuels peinent à bien classer les sons dans un contexte temps-réel où ces derniers sont hétérogènes. Ce papier propose une nouvelle méthode basée sur un modèle de mélanges d'histogrammes représentant les spectres audio. La reconnaissance consiste à calculer la probabilité de chaque groupe puis à les agréger temporellement. Une étape de réduction du précédent modèle permet par ailleurs de passer au temps-réel. Cette méthode surpasse les algorithmes actuels, et peut atteindre 96,7% de bonne classification sur une base de 50 classes de sons en utilisant 0,5s de données audio. Classification de signaux audio en temps-réel par un modèle de mélanges d'histogrammes
| ||
17h20-18h40 |
Tests 2
Tests 2 Lionel FILLATRE
Cet article s'intéresse au calcul d'un test minimax de niveau contraint entre plusieurs hypothèses impliquant des observations discrètes et une fonction de perte arbitraire. Le test minimax de niveau contraint minimise le risque de classification maximum et il garantit simultanément que la probabilité de rejeter l'hypothèse nulle, appelé le niveau du test, est bornée par une valeur donnée. Ce type de test est particulièrement adapté au problème de détection et de classification simultanée. Cet article montre que le test minimax de niveau contraint est la solution d'un problème de programmation linéaire qui calcule le risque maximum de classification et la distribution a priori la plus défavorable. Le test minimax égalise les risques de classification dont les probabilités a priori sont strictement positives. Le test est appliqué au problème de détection et d'estimation ponctuelle discrète qui consiste à détecter puis estimer la valeur d'un paramètre appartenant à un ensemble fini. Détection et Classification Minimax d'Observations Discrètes
Alexis DERUMIGNY, Jean-David FERMANIAN
Nous étudions "l'hypothèse simplificatrice" portant sur les copules conditionnelles dans un cadre général. Nous introduisons plusieurs tests de cette hypothèse pour des modèles de copules semi- et non-paramétriques. Nous proposons aussi des procédures de test proches basées sur des conditionnements par des ensembles plutôt que des conditionnements ponctuels. La distribution limite de telles statistiques de test sous l'hypothèse nulle est approchée par plusieurs schémas de bootstrap, dont la plupart sont nouveaux. Nous démontrons la validité d'un schéma particulier de bootstrap semi-paramétrique. Des simulations illustrent l'intérêt de nos résultats. A propos des tests de l'hypothèse simplificatrice pour les copules conditionnelles
Nabil AZOUAGH, Said EL MELHAOUI
Dans ce travail, nous considérons le problème de la détection de l'éventuelle
existence d'une composante exponentielle dans les modèles autorégressifs d'ordre 1 AR(1). Ce problème revient à tester une dépendance linéaire AR(1) contre une non linéaire du modèle exponentiel autorégressif EXPAR(1). En utilisant l'approche de Le Cam, nous avons extrait un test pseudo-gaussien localement et asymptotiquement valide pour n'importe quelle densité d'innovation. Cependant, la statistique de test dépend d'une nuisance non identifiable sous l'hypothèse nulle. Pour répondre à ce problème, nous suggérons de prendre le maximum de la statistique de test sur toute la gamme de la nuisance , puis utiliser la procédure AR-sieve bootstrap pour approximer sa distribution asymptotique. Test pseudo-gaussien du modèle AR(1) contre l' EXPAR(1) en présence d'une nuisance non identifiable sous l'hypothèse nulle
|
Enseignement de la statistique
Enseignement de la statistique Kévin CARILLO, Galy NADINE, Cameron GUTHRIE, Anne VANHEMS
De nombreuses études ont montré l’importance de l’attitude lors des apprentissages. Des étudiants développant une attitude positive auront tendance à obtenir de meilleurs résultats académiques que les autres. Dans le cadre de l’enseignement de la statistique, il existe plusieurs instruments permettant de mesurer cette attitude, mais le plus utilisé reste celui développé par Schau (Survey Attitude Toward Statistics, 1995, 2003). Malgré son usage répandu, la littérature montre que cet instrument reste à améliorer du point de vue de sa validité et de sa fiabilité. Dans cet article, nous revisitons l’instrument de Schau et proposons une nouvelle version plus robuste aux tests de validité et fiabilité. DEVELOPPEMENT ET VALIDATION D’UNE NOUVELLE ECHELLE DE MESURE DE L’ATTITUDE A L’EGARD DES STATISTIQUES : SATS-R
Virginie ROSSARD, Robert SABATIER, Eric LATRILLE, Cécile TREDANIEL, Jean-Michel ROGER, Fabien GOGE, Jean-Claude BOULET
Pour permettre à un plus grand nombre de pratiquer la chimiométrie, ChemProject (chemproject.org) a développé (1) un MOOC, CheMoocs, pour la diffusion des connaissances théoriques en chimiométrie et (2) un logiciel gratuit et ergonomique, nommé ChemFlow.
CheMoocs est un MOOC, Massive Open Online Courses, sur la chimiométrie qui s'est déroulée du 16 septembre au 25 novembre 2016 avec 1570 inscrits via la plateforme FUN, France Université Numérique. C’est le résultat d’un projet éponyme de deux ans financé par Agropolis Fondation. Ce projet a mobilisé une trentaine de personnes, dont un grand nombre de chimiométriciens francophones. Ce MOOC diffuse la connaissance à l’aide de 21 modules (ACP, prétraitement, régression, PLS, discrimination, robustesse, multibloc, etc) pendant que ChemFlow, le logiciel en permet sa pratique donc d’acquérir des compétences en chimiométrie. Cette application web se base sur une plateforme bioinformatique Galaxy (galaxyproject.org) gratuite où les outils bioinformatiques ont été remplacés par des outils de chimiométrie (ACP, PLSR, PLS-DA, MCR-ALS, ICA, ACOM, EPO, etc). Sur 1570 inscrits au MOOC, 650 comptes chemflow ont été créés. Durant ce mooc, le serveur public de l’inra de toulouse (https://vm-chemflow.toulouse.inra.fr) a répondu à 47000 requêtes via les outils de chimiométrie.
Le caractère très collaboratif de ce projet fait que le congrès JDS est une excellente occasion de faire un point devant toute la communauté des statisticiens Francais.
L'accent sera mis sur les perspectives 2017 avec l’enrichissement des cours CheMoocs, l’évolution du logiciel ChemFlow et le développement de la base de données ChemData ainsi que sur le projet global. ChemProject, l'utilisation de la chimiométrie par tous !
Alain BIHAN-POUDEC, Jean-Marie MARION
À la suite d’une recherche sur l’orthographe dans le cadre d’une capacité d’orthophoniste (Bihan-Poudec M., 2015), nous avions remarqué que le nombre d’erreurs orthographique avait considérablement augmenté depuis 1980 (Girolami-Boulinier, 1983) mais que, qualitativement, la structure des erreurs restait, elle, inchangée (Bihan-Poudec, A et Marion, 2016), Bref, augmentation du nombre d’erreurs mais stabilité de leur nature, ce qui confirme mais nuance le « déclin de l’orthographe ».
Toutefois, cette analyse était faite à partir des données recueillies suite à la passation d’une épreuve de langage écrit imposé (ou dictée). Les constats sont-ils les mêmes si l’écriture n’est que suggérée ?
Issus de quatre établissements différents des Alpes-Maritimes, 110 collégiens de classes de quatrième étaient invités à raconter par écrit des histoires à partir de deux séries d’images. Notons tout d’abord que le nombre d’erreurs décroit fortement quand les élèves sont libres de composer ; notons aussi que leur production est aussi abondante que trente-cinq ans plus tôt. Il n’en demeure pas moins qu’entre ces deux périodes, le proportion d’erreurs d’orthographe a doublé. Quant à leur nature, les erreurs d’usage, de genre/nombre et linguistiques ont en moyenne doublé, voire triplé, mais celles phonétiques ont, quant à elles, diminué. Sommes-nous tous des disorthografiks (suite) ? Étude de l’évolution de l’orthographe
Marc BOURDEAU
Enseigner dans le contexte est clairement nécessaire pour assurer une certaine motivation pour la statistique, mais ce n'est pas suffisant car le futur utilisateur fera en général appel à du conseil professionnel pour tout travail technique. C'est pourquoi, il faut insérer l'ensemble du monde dans nos cours, afin de montrer que la statistique est nécessaire à une formation de qualité. La statistique joue en effet un rôle essentiel dans toutes les questions sociétales. Nous présentons ici un site internet (http://wikistat.ca) à cet effet comportant plusieurs dizaines de capsules statistiques destinées à agrémenter les courtes interruptions naturelles des cours aux fins de détente et de recentrage les étudiants. Elles illustrent toutes la nécessité de la statistique pour la compréhension du monde. Notre objectif est d'inciter les enseignants à écrire d'autres capsules pour leurs cours et à les joindre à notre site pour en assurer une diffusion plus large. Nous savons d'expérience que de telles capsules, prenant appui sur l'actualité et l'histoire de notre discipline, intéressent énormément les étudiants. Nous allons voir qu'elles constituent probablement une nouveauté dans le développement récent de la pédagogie statistique.
Mots-clés. Enseignement de la statistique, motivation pédagogique, capsules statistiques. Motiver par des capsules statistiques: une motivation nécessaire
|
Modèles de graphes aléatoires
Modèles de graphes aléatoires Charles BOUVEYRON, Pierre LATOUCHE, Rawya ZREIK
Due to the significant increase of communications between individuals via social media (Facebook, Twitter, Linkedin) or electronic formats (email, web, e-publication) in the past two decades, network analysis has become a unavoidable dis- cipline. Many random graph models have been proposed to extract information from networks based on person-to-person links only, without taking into account information on the contents. This paper describes the stochastic topic block model (STBM) as in- troduced in [2], a probabilistic model for networks with textual edges. We address here the problem of discovering meaningful clusters of vertices that are coherent from both the network interactions and the text contents. A classification variational expectation- maximization (C-VEM) algorithm is proposed to perform inference. Finally, we demon- strate the effectiveness of our methodology on a real-word data set. The Stochastic Topic Block Model for the Clustering of Vertices in Networks with Textual Edges
Vincent BRAULT, Antoine CHANNAROND, Valérie ROBERT
Le modèle des blocs latents définit une loi pour chaque croisement de classe d'objets et de classe de variables d'un tableau de données ; les cases sont supposées indépendantes conditionnellement aux blocs formés. Pour estimer les paramètres, la plupart des algorithmes sont très coûteux en temps de calcul. Brault et Channarond (2016) ont proposé d'adapter l'algorithme Largest Gaps, qui utilise uniquement les marginales, au modèle des blocs latents binaire et ont obtenu une procédure estimant tous les paramètres du modèle de façon consistante mais nécessitant un grand nombre d'observations. Dans cet exposé, nous étendons la procédure au cas de toute loi ayant un moment d'ordre deux en l'associant à une estimation des marginales par l'algorithme EM. Généralisation de l'algorithme Largest Gaps pour le modèle des blocs latents non-paramétrique
Charles BOUVEYRON, Marco CORNELI, Pierre LATOUCHE, Fabrice ROSSI
In the present paper we develop a probabilistic approach accounting for the content of textual edges in a network as well as their frequency. The goal is to cluster the vertices into groups which not only are homogeneous in terms of amount of interactions but also in terms of discussed topics. Similarly, the network will be considered stationary on a time subinterval when the proportions of discussed topics between each pair of groups of nodes do not change in the sub interval. A classification variational expectation-maximization (C-VEM) algorithm is adopted to perform inference and experiments on both simulated and real data are used to assess the proposed methodology. Dynamic Stochastic Topic Block Model for time evolving networks with textual edges
Timothée TABOUY, Pierre BARBILLON, Julien CHIQUET
Le modèle à blocs stochastiques ou Stochastic Block Model (SBM) \cite{Nowicki2001} est un modèle de graphe aléatoire généralisant le modèle d'Erd\H{o}s-Reyni \cite{Erdos1959} à l'aide d'une structure latente sur les n\oe uds. L'utilisation de variables latentes dans le SBM permet de modéliser un large spectre de topologies de réseau, en particulier les graphes en affiliation, en étoile ou bipartite. L'inférence de ces modèles repose sur des modifications de l'algorithme EM (Expectation Maximization), comme par exemple l'approche EM variationnelle \cite{Robin2008} ou Bayésienne variationnelle \cite{latouche2012variational}. Dans ces approches, le réseau est toujours considéré comme parfaitement observé, alors que de nombreux cas d'application (en particulier en sociologie) suggèrent que son observation est partielle et guidée par une stratégie d'échantillonnage dépendant du réseau lui-même.
%, par exemple centrée sur les n\oe uds.
La motivation de ce travail vient du constat qu'un échantillonnage partiel du réseau peut induire un biais d'estimation dans le modèle SBM. Notre objectif est la modélisation de la stratégie d'échantillonnage utilisée et son intégration dans les procédure d'inférence. Dans cette optique, nous nous appuyons sur la théorie des données manquantes développée par D. Rubin \cite{Rubin1976} que nous adaptons au cadre du SBM. Nous proposons une typologie pour les stratégies d'échantillonnages dans le SBM pour lesquelles la prise en compte dans l'inférence varie. Les stratégies se regroupent essentiellement en deux
classes : i) celles où la probabilité d'être échantillonné est indépendante de la valeur des données manquantes, dites "manquantes au hasard" (Missing At Random -- MAR) et ii) leur contrepartie "non manquantes au hasard" (Not Missing At Random -- NMAR). Dans le cas MAR, la stratégie d'échantillonnage ne perturbe pas l'inférence et il suffit de conduire l'inférence uniquement sur la partie observée du graphe. Au contraire, les stratégies NMAR nécessitent la prise en compte dans l'inférence de la stratégie d'échantillonnage employée pour récolter les données.
Pour toutes les stratégies MAR, nous avons adapté les algorithmes EM dans leur forme variationnelle pour l'inférence des
paramètres du SBM binaire. Dans le cas NMAR, nous proposons une version stochastique de l'algorithme EM (SAEM) permettant de corriger les biais d'estimation. Nous présentons des simulations qui permettent de mettre en évidence la pertinence de ces approches. Inférence du Modèle à Blocs Stochastiques en présence de données manquantes.
|
Assemblée Générale Société Française de Biométrie
Assemblée Générale Société Française de Biométrie | ||
19h00-20h30 | Rencontre entre jeunes statisticiens et conférenciers invités |
9h00-10h00 | Sylvia RICHARDSON Statistical genomics: recent developments and future challenges Recent developments in genomics have led to the availability of new types of high dimensional data generated using sequencing technologies, data that have the potential to provide information on the complex interplay of genes and their functions in the entire genome. The search for sparse structures in such large data sets is at the core of many of the analyses carried out, with numerous case studies in which genetics information at the DNA level is linked to a wide range of biomarkers and health outcomes. In this talk, I shall first motivate the importance of the task of building efficient regression models for sparse multivariate analysis of high dimensional data sets, and review how Bayesian variable selection approaches and sparse regression models have been developed and tailored for this purpose. I will discuss application of these approaches for identifying prognostic tumour markers and detecting polygenic association with multiple phenotypes. Going beyond additive models is needed in some cases, in particular for detecting pathogenic genetic variants involved in rare diseases, where modelling the mode of inheritance is important. Recent work on Bayesian partitioning of variants will be discussed and illustrated on the analysis of some rare blood disorders. The final part of the talk will consider problems of scalability of statistical analyses when the number of subjects becomes very large, as is the case when hundreds of thousands of subjects are recruited into epidemiological cohorts like UK Biobank, or when routine collection of electronic medical records are analysed. Such very large data sets present a different challenge of scale for statistical inference, as repeated computation, even of simple likelihoods, can be prohibitively slow. I will discuss how some of these issues can be tacked either by using summary data and external information on the covariance structure or by translating recent ideas from computer science on probabilistic data-compression techniques into a statistical framework that can be ‘safely’ applied for speeding linear regression analyses for very larges sample sizes in bio-medicine. Statistical genomics: recent developments and future challenges Modérateur: Denys POMMERET, Amphi: AT03 | |||||
10h00-10h20 | Pause Café | |||||
10h20-11h40 |
Session SFB
Session SFB Andrew TITMAN
Tests of the Markov property for general multi-state models are constructed using a similar principle to the construction of the landmark Aalen-Johansen estimator (LMAJ). For a given starting state r and time t, the sets of patients who were, and who were not, in that state at that time can be identified and treated as two distinct groups. Under a Markov assumption, the transition intensities in these two groups at times greater than t will be equal. Thus, a series of log-rank test statistics for each of the relevant transition intensities can be combined to construct a local test of Markovianity. Moreover, the set of statistics across different times, t, and starting states, r, form a stochastic process allowing the construction of a global test. While the asymptotic null distribution of the statistic can be determined, a wild bootstrap procedure is proposed to better approximate the null distribution in finite samples. Testing the Markov assumption in general multi-state models
Pascal MONESTIEZ, Groupe De Travail CISSTATS
Le nombre de programmes d’observation participative a fortement augmenté ces dernières années, portant sur des groupes d’espèces de plus en plus diversifiés, et avec des volumes de données en forte croissance du fait des saisies directes sur sites web ou smart-phones. En volume, ces données dépassent désormais largement les capacités des études scientifiques institutionnelles, et deviennent en conséquence incontournables tant sur le plan de la connaissance scientifique que pour les gestionnaires d’espaces naturels. Ce développement rapide n’empêche cependant pas une grande hétérogénéité des protocoles, ni l’absence de planification dans la plupart des cas, engendrant potentiellement de nombreux problèmes. De fort biais peuvent apparaitre dans les résultats même pour des données en très grand nombre. Après une analyse des types de données rencontrés dans différents programmes existants, nous présenterons globalement les solutions actuellement développées sur le plan statistique pour en extraire des distributions spatio-temporelles par espèces, ainsi que des éléments caractérisant la biodiversité. Des approches basées sur des modèles hiérarchiques bayésiens avec des champs spatiaux latents et des modèles d'observation permettent de travailler sur des sources de données hétérogènes et de qualités variables. Les perspectives dans le cadre multivariable avec des ensembles d'espèces sont abordées. Nous montrons qu’une bonne connaissance du processus d’observation et des observateurs bénévoles eux-mêmes est centrale dans la validation et la valorisation de ces données. Dans le cadre des plateformes intégratives au niveau national ou européen, il devient essentiel de ne pas agréger les données de manière irréversible ni d’omettre ce qui caractérise leur source. Modélisation statistique des données d'observation issues des Sciences Participatives
|
Approches bayesiennes
Approches bayesiennes Josephine MERHI BLEIK, Ghislaine GAYRAUD
On s'intéresse à estimer simultanément plusieurs quantiles dans un contexte de régression via l'approche Bayésienne. En supposant le terme d'erreur distribué selon la distribution asymétrique de Laplace (ALD) et en utilisant une relation qui lie deux quantiles distincts d'une ALD, on propose une nouvelle approche qui est simple, full-Bayésienne et qui satisfait à la propriété de non-croisement des quantiles. Pour évaluer la performance de notre méthode, nous utilisons une méthode de Monte-Carlo par chaîne de Markov (MCMC) pour simuler dans la loi a posteriori qui n'admet pas de forme analytique explicite. Estimation simultanée de quantiles de régression via l'approche Bayésienne
Yves DARMAILLAC, Sébastien LOUSTAU
Nous présentons un nouvel algorithme de détection de communautés qui
maintient dynamiquement une structure de communautés dans un réseau de grande taille qui se modifie dans le temps. L’algorithme maximise l’indice de modularité grâce à une segmentation hiérarchique, obtenue par une méthode de Monte Carlo par Chaîne de Markov. Il est intéressant de voir l’algorithme comme une application dynamique de l’algorithme de Louvain (voir Blondel, Guillaume, Lambiotte et Lefebvre (2008)) où l’étape d’agrégation est remplacée par un modèle probabiliste hiérarchique. Détection de communautés en ligne dans des graphes dynamiques
Paul-Marie GROLLEMUND, Christophe ABRAHAM, Meïli BARAGATTI
Un point important de la modélisation bayésienne est de construire une
distribution a priori des paramètres du modèle. Il est possible de construire une distribution qui prennent en compte des informations des experts du domaine d’application. L’extraction de ces informations est une tâche compliquée parce qu’elle consiste à traduire en termes probabilistes les avis des experts. Durant cet exposé, nous présenterons deux approches pour éliciter l’avis des experts à propos du modèle Bliss, cas particulier du modèle de régression linéaire fonctionnelle. Nous appliquerons ensuite les méthodologies
proposées pour estimer l’impact des précipitations sur la production du truffe noire du Périgord. Bayesian approach using expert’s opinion : Impact of rainfall on production of Périgord black truffles
Nawal BELAID, Célestin C. KOKONENDJI, Smail ADJABI
Dans ce travail, nous proposons un estimateur semi-paramétrique d’une fonction
de masse de probabilité multidimensionnelle. Cet estimateur est composé d’une partie paramétrique dirigée par la distribution multivariée de Poisson, et d’une partie non-paramétrique qui est une fonction discrète inconnue de poids à estimer par la méthode du noyau associé discret multivarié. La sélection de la matrice des fenêtres de lissage est effectuée essentiellement par une approche bayésienne. Un modèle de diagnostic est présenté afin d’orienter le choix entre
les approches semi-paramétrique, paramétrique et non-paramétrique. Les performances de la méthode proposée sont illustrées sur des données réelles. APPROCHE SEMI-PARAMÉTRIQUE POUR L’ESTIMATION DE LA FONCTION DE MASSE DE PROBABILITÉ MULTIVARIÉE
|
Champs aléatoires
Champs aléatoires Antoine USSEGLIO-CARLEVE, Véronique MAUME-DESCHAMPS, Didier RULLIERE
Dans ce travail, nous considérons un champ elliptique. Nous proposons de prédire les quantiles et expectiles des valeurs du champ en un point, sachant qu'il a été observé en d'autres points. Le cas de la moyenne (expectile de niveau 1/2 est assez répandu dans la littérature. En effet, Krige (1951) a proposé d'exprimer cette moyenne conditionnelle comme combinaison linéaire des covariables observées, ce que Matheron (1963) formalisera plus tard comme le krigeage. En s'inspirant de cette idée, nous donnons les meilleurs prédicteurs affines des quantiles et expectiles du champ conditionnel, sous des critères que nous préciserons (voir Koenker et Bassett, 1978 et Newey et Powell, 1987). Les propriétés de stabilité par la somme des distributions elliptiques nous permettent également de donner la distribution de ces prédicteurs. En comparant ces prédicteurs aux valeurs théoriques (obtenues soit explicitement dans certains cas, soit par simulation), nous observons que le modèle affine peut être tres éloigné de la réalité, surtout
pour des quantiles (ou expectiles) extrêmes, i.e pour lesquels est proche de 0 ou 1.
Pour cela, nous proposons de nouveaux prédicteurs dits "extrêmes" et démontrons qu'ils sont asymptotiquement équivalents aux quantiles et expectiles théoriques lorsque alpha tend vers 0 et 1. A travers des exemples numériques, il apparait évident que les prédicteurs de régression sont moins efficaces lorsque l'on quitte le cadre gaussien, ce qui justifie l'utilisation des prédicteurs extrêmes. Ce travail est détaillé dans Maume-Deschamps et al. (2016a) et Maume-Deschamps et al. (2016b). Nous présentons en plus une application sur des données de température. Prédictions de quantiles et d’expectiles spatiaux pour des champs elliptiques
Jorge CLARKE, Alfredo ALEGRíA, Emilio PORCU
Nous étudions les propriétés de régularité des champs aléatoires Gaussiens définis sur $\mathbb(S)^{d} \times \mathbb{R}$, spécifiquement, nous considérons deux décompositions spectrales alternatives. Pour chaque décomposition, nous établissons des propriétés de régularité à travers des espaces de Sobolev et d'interpolation. Ensuite, les conditions de régularité de ses trajectoires sont également fournies. Nous proposons une méthode de simulation et étudions son niveau de précision dans le sens $L^{2}$. La méthode se révèle rapide et efficace. Propriétés de régularité et simulations de champs aléatoires gaussiens sur $\mathbb(S)^{d} \times \mathbb{R}$
Thomas DEREGNAUCOURT, Chafik SAMIR, Anne-Françoise YAO
Le problème de déformations larges consiste à estimer la déformation globale entre une image source $I_1$ et une image cible $I_2$ connaissant cette déformation partiellement. Dans ce contexte, nous nous intéressons à l'estimation d'un champ de déformation $U$ sur le domaine $\Omega=[0,1]^{2}$ de $I_1$ sachant $U$ sur un ensemble fini de courbes $\beta \in \Omega$. Pour ce faire, nous proposons une nouvelle méthode basée sur des modèles gaussiens pour recaler des images multimodales. La méthode proposée commence par résoudre le problème de correspondance entre les $\beta$s puis estime le déplacement sur tout $\Omega$ par krigeage. La solution optimale est calculée à l'aide du maximum de vraisemblance et de l'inférence bayésienne. D'après les résultats obtenus sur des données réelles et simulées la déformation résultante a l'avantage d'être exacte sur les observations et d'être lisse sur $\Omega$. Estimation des déformations larges par champs gaussiens : application au recalage d'images
Ahmad YOUNSO
Nous considérons la règle de la fenêtre mobile pour classifier des données fonctionnelles spatialement dépendantes. Nous étudions les propriétés asymptotiques de cette règle de classification non paramétrique basée sur des données d'apprentissage tirées d'un champ aléatoire $ \alpha $ ou $ \beta-$mélangeant à valeurs en espace de dimension infinie. Nous étendons les résultats d'Abraham et al. (2006) concernant la consistance et la consistance forte au cas spatialement dépendant sous des hypothèses légères. Kernel Classification Rule for Functional Random Fields
|
Séries chronologiques et processus stochastiques
Séries chronologiques et processus stochastiques Youssef ESSTAFA, Yacouba BOUBACAR MAINASSARA, Bruno SAUSSEREAU
Dans ce travail, nous étudions les propriétés asymptotiques (convergence et normalité) de l'estimateur des moindres carrés des paramètres d'un modèle FARIMA (pour Fractionally AutoRegressive Integrated Moving-Average) avec un bruit non corrélé mais qui peut contenir des dépendances non linéaires. Les modèles FARIMA occupent une place centrale pour la modélisation des processus à mémoire longue, ils permettent d'identifier les phénomènes de persistance. Relâcher l'hypothèse standard d'indépendance sur le bruit permet à ces modèles de couvrir une large classe de processus à mèmoire longue non linéaires. La convergence forte et la normalité asymptotique de l'estimateur sont démontrées sous certaines hypothèses d'ergodicité et de mélange. Estimation des modèles FARIMA avec un bruit non corrélé mais non indépendant
Bel Hadj Khlifa MERIEM, Yuliya MISHURA
Nous étudions le problème de l'estimation du paramètre drift inconnue dans des équations différentielles stochastiques dirigées par le mouvement brownien fractionnaire à coefficients vérifiant des conditions adéquates pour l' existence et l'unicité de la solution. Nous considérons un cas particulier où le rapport du coefficient drift et celui de diffusion est déterministe et établissons la consistance forte de l'estimateur avec des rapports différents, à partir de nombreuses classes de fonctions standards non aléatoires. Des simulations sont fournies pour illustrer nos résultats. Propriétés asymptotiques d'un estimateur non standard du Drift paramètre dans le modèle incluant un mouvement brownien fractionnaire
Amel OUAARI, Rachid SENOUSSI
On présente une famille paramétrique de lois associée à un processus de branchements multi-types en temps continu et homogène en temps. Par sa simplicité et la pertinence du paramétrage cette famille s'avère bien adaptée à la description de systèmes dynamiques de branchements de populations en interaction. Les différents calculs et propriétés concernant les lois de probabilité utilisent les fonctions génératrices correspondantes et se rapportent dans ce travail à la résolution de certaines équations aux dérivées partielles linéaires.
Une famille paramétrique de lois de branchements multi-types
Samuel SOUBEYRAND, Olivier MARTIN, Rachid SENOUSSI
La Corse connaît actuellement une épidémie de dépérissement de nombre d’espèces de plantes causée par la bactérie Xylella fastidiosa. Suite à la détection de la bactérie en 2015, l’état a mis en place une stratégie de surveillance/arrachage des plantes infectées qui a généré un jeu de données relativement conséquent que nous cherchons à exploiter pour déterminer, en particulier, quand l’épidémie a commencé et si la surveillance/arrachage des plantes infectées (assimilables à un processus de contrôle) permet de contenir l’épidémie. Nous apportons une réponse à ces questions en construisant un processus épidémique stochastique avec contrôle adapté au cas d’étude, et en ajustant le modèle aux données via un algorithme MCMC. Le processus stochastique est un modèle hiérarchique incluant comme processus latent la dynamique épidémique. L’approche proposée permet d’inférer cette dynamique épidémique latente (sur la fenêtre d’observation et antérieurement à la première observation) et de prédire la course future de l’épidémie pour différentes stratégies de contrôle. Un processus épidémique stochastique avec contrôle - Construction du modèle, inférence bayésienne et application à la dynamique de Xylella fastidiosa en Corse
| ||
11h50-12h10 | Clôture des journées : Adeline SAMSON et Delphine BLANKE | |||||
12h10-14h00 | Repas |