• xmlui.mirage2.page-structure.header.title
    • français
    • English
  • Help
  • Login
  • Language 
    • Français
    • English
View Item 
  •   BIRD Home
  • CEREMADE (UMR CNRS 7534)
  • CEREMADE : Thèses
  • View Item
  •   BIRD Home
  • CEREMADE (UMR CNRS 7534)
  • CEREMADE : Thèses
  • View Item
JavaScript is disabled for your browser. Some features of this site may not work without it.

Browse

BIRDResearch centres & CollectionsBy Issue DateAuthorsTitlesTypeThis CollectionBy Issue DateAuthorsTitlesType

My Account

LoginRegister

Statistics

Most Popular ItemsStatistics by CountryMost Popular Authors
Thumbnail

Statistical inference on unknown manifolds

Inférence statistique sur des variétés inconnues

Berenfeld, Clément (2022), Statistical inference on unknown manifolds, doctoral thesis prepared under the supervision of Hoffmann, Marc, Université Paris sciences et lettres

View/Open
2022UPSLD016.pdf (20.97Mb)
Type
Thèse
Date
2022-09-20
Metadata
Show full item record
Author(s)
Berenfeld, Clément
Under the direction of
Hoffmann, Marc
Abstract (FR)
En statistique, l’hypothèse des variétés suppose que les données observées se répartissent autour de structures de faible dimension, appelées variétés. Ce postulat permet d’expliquer pourquoi les algorithmes d’apprentissage fonctionnent bien même sur des données en grande dimension, et est naturellement satisfait pour de nombreux jeux de données issus de la vie réelle. Nous présentons dans cette thèse quelques contributions aux problèmes d’estimation de deux quantités sous cette hypothèse : la densité de la distribution sous-jacente, et le reach de son support. Pour l’estimation du reach, nous élaborons des stratégies basées sur des invariants géométriques, avec d’une part la fonction de défaut de convexité, et d’autre part, des mesures de distortion métrique, desquels nous obtenons des vitesses de convergence optimales au sens minimax. Concernant l’estimation de la densité, nous proposons deux approches : l’une s’appuyant sur l’étude fréquentiste d’un estimateur à noyaux, et une approche bayésienne non-paramétrique se reposant sur des mélanges de gaussiennes. Nous montrons que ces deux méthodes sont optimales et adaptatives en la régularité de la densité. Enfin, nous examinons le comportement de certaines mesures de centralité dans des graphes aléatoires géométriques, l’étude duquel, bien que sans lien avec l’hypothèse des variétés, a des implications méthodologiques et théoriques qui peuvent être intéressantes dans tout cadre statistique.
Abstract (EN)
In high-dimensional statistics, the manifold hypothesis presumes that the data lie near low-dimensional structures, called manifolds. This assumption helps explain why machine learning algorithms work so well on high-dimensional data, and is satisfied for many real-life data sets.We present in this thesis some contributions regarding the estimation of two quantities in this framework: the density of the underlying distribution, and the reach of its support. For the problem of reach estimation, we suggest different strategies based on important geometric invariants — namely the convexity defect functions, and measures of metric distortions — from which we derive minimax-optimal rates of convergence. Regarding the problem of density estimation, we propose two approaches: one relying on the frequentist study of a kernel density estimator, and a Bayesian nonparametric approach based on location-scale mixtures of Gaussians. Both methods are shown to be optimal in most settings, and adaptive to the smoothness of the density. Lastly, we examine the behavior of some centrality measures in random geometric graph, the study of which, although unrelated to the manifold hypothesis, bears methodological and theoretical implications that can be of interest in any statistical framework.
Subjects / Keywords
Statistique non-Paramétrique; Apprentissage sur variété; Inférence géométrique; Estimation de densité; Inférence bayésienne; Estimation du reach; Statistique en grande dimension; Théorie minimax; Estimation adaptative; Mesure de centralité; Profondeur statistique; Nonparametric statistics; Manifold learning; Geometric inference; Density estimation; Reach estimation; Bayesian inference; High-dimensional statistics; Manifold hypothesis; Minimax theory; Adaptive estimation; Centrality measure; Data depth

Related items

Showing items related by title and author.

  • Thumbnail
    Statistical inference on unknown manifolds 
    Berenfeld, Clément (2022-09-20) Thèse
  • Thumbnail
    Density estimation on an unknown submanifold 
    Berenfeld, Clément; Hoffmann, Marc (2021) Article accepté pour publication ou publié
  • Thumbnail
    Estimating the reach of a manifold via its convexity defect function 
    Berenfeld, Clément; Harvey, John; Hoffmann, Marc; Krishnan, Shankar (2021) Article accepté pour publication ou publié
  • Thumbnail
    Optimal Reach Estimation and Metric Learning 
    Aamari, Eddie; Berenfeld, Clément; Levrard, Clément (2022) Document de travail / Working paper
  • Thumbnail
    Choix du niveau d’agrégation d’un processus S&OP dans un contexte de forte variété 
    Sali, Mustapha; Chatras, Clément; Ghrab, Yahya (2021) Communication / Conférence
Dauphine PSL Bibliothèque logo
Place du Maréchal de Lattre de Tassigny 75775 Paris Cedex 16
Phone: 01 44 05 40 94
Contact
Dauphine PSL logoEQUIS logoCreative Commons logo