• xmlui.mirage2.page-structure.header.title
    • français
    • English
  • Help
  • Login
  • Language 
    • Français
    • English
View Item 
  •   BIRD Home
  • LAMSADE (UMR CNRS 7243)
  • LAMSADE : Thèses
  • View Item
  •   BIRD Home
  • LAMSADE (UMR CNRS 7243)
  • LAMSADE : Thèses
  • View Item
JavaScript is disabled for your browser. Some features of this site may not work without it.

Browse

BIRDResearch centres & CollectionsBy Issue DateAuthorsTitlesTypeThis CollectionBy Issue DateAuthorsTitlesType

My Account

LoginRegister

Statistics

Most Popular ItemsStatistics by CountryMost Popular Authors
Thumbnail

Apprentissage supervisé de données symboliques et l'adaptation aux données massives et distribuées

Supervised learning of Symbolic Data and adaptation to Big Data

Haddad, Raja (2016), Apprentissage supervisé de données symboliques et l'adaptation aux données massives et distribuées, doctoral thesis prepared under the supervision of Litwin, Witold, Université Paris Dauphine

View/Open
2016PSLED028.pdf (6.464Mb)
Type
Thèse
Date
2016-11
Metadata
Show full item record
Author(s)
Haddad, Raja
Under the direction of
Litwin, Witold
Abstract (FR)
Cette thèse a pour but l'enrichissement des méthodes supervisées d'analyse de données symboliques et l'extension de ce domaine aux données volumineuses, dites "Big Data". Nous proposons à cette fin une méthode supervisée nommée HistSyr. HistSyr convertit automatiquement les variables continues en histogrammes les plus discriminants pour les classes d'individus. Nous proposons également une nouvelle méthode d'arbres de décision symbolique, dite SyrTree. SyrTree accepte tous plusieurs types de variables explicatives et à expliquer pour construire l'arbre de décision symbolique. Enfin, nous étendons HistSyr aux Big Data, en définissant une méthode distribuée nommée CloudHistSyr. CloudHistSyr utilise Map/Reduce pour créer les histogrammes les plus discriminants pour des données trop volumineuses pour HistSyr. Nous avons testé CloudHistSyr sur Amazon Web Services (AWS). Nous démontrons la scalabilité et l’efficacité de notre méthode sur des données simulées et sur les données expérimentales. Nous concluons sur l’utilité de CloudHistSyr qui , grâce à ses résultats, permet l'étude de données massives en utilisant les méthodes d'analyse symboliques existantes.
Abstract (EN)
This Thesis proposes new supervised methods for Symbolic Data Analysis (SDA) and extends this domain to Big Data. We start by creating a supervised method called HistSyr that converts automatically continuous variables to the most discriminant histograms for classes of individuals. We also propose a new method of symbolic decision trees that we call SyrTree. SyrTree accepts many types of inputs and target variables and can use all symbolic variables describing the target to construct the decision tree. Finally, we extend HistSyr to Big Data, by creating a distributed method called CloudHistSyr. Using the Map/Reduce framework, CloudHistSyr creates of the most discriminant histograms for data too big for HistSyr. We tested CloudHistSyr on Amazon Web Services. We show the efficiency of our method on simulated data and on actual car traffic data in Nantes. We conclude on overall utility of CloudHistSyr which, through its results, allows the study of massive data using existing symbolic analysis methods.
Subjects / Keywords
Analyse de Données Symboliques (ADS); Histogrammes; Arbres de décision symboliques; Big Data; Map/Reduce; Hadoop; Amazon Web Services; Symbolic Data Analysis (SDA); Histograms; Symbolic decision trees; Big Data; Map/Reduce; Hadoop; Amazon Web Services

Related items

Showing items related by title and author.

  • Thumbnail
    Contributions to unsupervised learning from massive high-dimensional data streams : structuring, hashing and clustering 
    Morvan, Anne (2018-11-12) Thèse
  • Thumbnail
    Extension des Programmes Génétiques pour l’apprentissage supervisé à partir de très larges Bases de Données (Big data) 
    Hmida, Hmida (2019-10-23) Thèse
  • Thumbnail
    La recherche en sciences des organisations à l'ère des données massives ou big data 
    Rolland, Sylvie (2022) Chapitre d'ouvrage
  • Thumbnail
    Des rencontres dans la mondialisation : réseaux et apprentissages dans un salon de distribution de programmes de télévision en Afrique sub-saharienne 
    Favre, Guillaume (2014-12) Thèse
  • Thumbnail
    Strategies evaluation in environmental conditions by symbolic data analysis: application in medicine and epidemiology to trachoma 
    Guinot, Christiane; Malvy, Denis; Schémann, Jean-François; Afonso, Filipe; Haddad, Raja; Diday, Edwin (2015) Article accepté pour publication ou publié
Dauphine PSL Bibliothèque logo
Place du Maréchal de Lattre de Tassigny 75775 Paris Cedex 16
Phone: 01 44 05 40 94
Contact
Dauphine PSL logoEQUIS logoCreative Commons logo