• français
    • English
  • English 
    • français
    • English
  • Login
JavaScript is disabled for your browser. Some features of this site may not work without it.
BIRD Home

Browse

This CollectionBy Issue DateAuthorsTitlesSubjectsJournals BIRDResearch centres & CollectionsBy Issue DateAuthorsTitlesSubjectsJournals

My Account

Login

Statistics

View Usage Statistics

Inférence de Schémas pour Données JSON Massives

Thumbnail
Date
2016
Link to item file
https://hal.archives-ouvertes.fr/hal-01502373
Dewey
Organisation des données
Sujet
JSON
Conference name
32ème Conférence sur la "Gestion de Données — Principes, Technologies et Applications" (BDA 2016)
Conference date
11-2016
Conference city
Poitiers
Conference country
France
URI
https://basepub.dauphine.fr/handle/123456789/20833
Collections
  • LAMSADE : Publications
Metadata
Show full item record
Author
Baazizi, Mohamed-Amine
Ben Lahmar, Houssem
Colazzo, Dario
989 Laboratoire d'analyse et modélisation de systèmes pour l'aide à la décision [LAMSADE]
Ghelli, Giorgio
Sartiani, Carlo
Type
Communication / Conférence
Abstract (EN)
Ces dernières années ont connu une large adoption de JSON en tant que format de représentation de données massives. Les données JSON sont généralement dépourvues de schémas puisqu'elles sont produites et gérées de manière flexible. Malgré cet avantage, l'absence de schéma présente de nombreux inconvénients : la correction des requêtes et des programmes ne peut être vérifiée de manière statique comme c'est la cas traditionnellement, les utilisateurs ne disposent d'aucun moyen le permettant de découvrir la structure des données sous-jacentes et, de manière plus générale, les techniques d'optimisations basées sur les schémas ne peuvent être appliquées.Dans ce travail nous nous intéressons à l'inférence de schémas pour des données JSON massives. Notre première contribution consiste à proposer un langage de types pour JSON permettant de représenter la structure complexe des données analysées. Notre seconde contribution concerne le développement d'un algorithme d'inférence distribué et de son implantation dans Spark afin de garantir une exécution efficace sur des données volumineuses. Les résultats obtenus suite à une première étude expérimentale permettent de conclure que notre approche est satisfaisant en terme de temps d'exécution et de concision de schémas inférés.

  • Accueil Bibliothèque
  • Site de l'Université Paris-Dauphine
  • Contact
SCD Paris Dauphine - Place du Maréchal de Lattre de Tassigny 75775 Paris Cedex 16

 Content on this site is licensed under a Creative Commons 2.0 France (CC BY-NC-ND 2.0) license.