• xmlui.mirage2.page-structure.header.title
    • français
    • English
  • Help
  • Login
  • Language 
    • Français
    • English
View Item 
  •   BIRD Home
  • IRISSO (UMR CNRS 7170)
  • IRISSO : Publications
  • View Item
  •   BIRD Home
  • IRISSO (UMR CNRS 7170)
  • IRISSO : Publications
  • View Item
JavaScript is disabled for your browser. Some features of this site may not work without it.

Browse

BIRDResearch centres & CollectionsBy Issue DateAuthorsTitlesTypeThis CollectionBy Issue DateAuthorsTitlesType

My Account

LoginRegister

Statistics

Most Popular ItemsStatistics by CountryMost Popular Authors
Thumbnail - Request a copy

XML content warehousing : Improving sociological studies of mailing lists and web data

Nguyen, Benjamin; Dudouet, François-Xavier; Colazzo, Dario; Vion, Antoine; Manolescu, Ioana; Senellart, Pierre (2011), XML content warehousing : Improving sociological studies of mailing lists and web data, BMS : Bulletin de méthodologie sociologique, 112, 1, p. 5-31. http://dx.doi.org/10.1177/0759106311417540

Type
Article accepté pour publication ou publié
Date
2011
Journal name
BMS : Bulletin de méthodologie sociologique
Volume
112
Number
1
Publisher
Sage
Pages
5-31
Publication identifier
http://dx.doi.org/10.1177/0759106311417540
Metadata
Show full item record
Author(s)
Nguyen, Benjamin
Dudouet, François-Xavier cc
Colazzo, Dario
Vion, Antoine cc
Manolescu, Ioana cc
Senellart, Pierre cc
Abstract (FR)
Dans cet article, nous présentons les lignes directrices d'une approche basée sur XML pour l'étude sociologique des données Web tels que l'analyse des listes de diffusion ou bases de données disponibles en ligne. L'utilisation d'un entrepôt XML est une solution flexible pour le stockage et le traitement de ce type de données. Nous proposons une solution déjà mise en place et montrons des applications possibles avec notre étude de profils d'experts impliqués dans des actions normatives W3C. Nous illustrons l'utilisation de bases de données sociologiques semi-structurées en présentant notre schéma XML pour le stockage de listes de diffusion. Un schéma XML permet de nombreuses adjonctions ou croisements de sources de données, sans modifier les données déjà stockées, tout en permettant de possibles évolutions structurelles. Nous montrons également que l'existence de données cachées implique une complexité accrue pour les utilisateurs SQL traditionnels. Le stockage par XML permet l'entreposage totalement exhaustif et de requêtes récursives dans le contenu, avec beaucoup moins de dépendance au stockage initial. Nous présentons enfin la possibilité d'exporter les données stockées vers des logiciels avancés couramment utilisés et consacrés à l'analyse sociologique.
Abstract (EN)
In this paper, we present the guidelines for an XML-based approach for the sociological study of Web data such as the analysis of mailing lists or databases available online. The use of an XML warehouse is a flexible solution for storing and processing this kind of data. We propose an implemented solution and show possible applications with our case study of profiles of experts involved in W3C standard-setting activity. We illustrate the sociological use of semi-structured databases by presenting our XML Schema for mailing-list warehousing. An XML Schema allows many adjunctions or crossings of data sources, without modifying existing data sets, while allowing possible structural evolution. We also show that the existence of hidden data implies increased complexity for traditional SQL users. XML content warehousing allows altogether exhaustive warehousing and recursive queries through contents, with far less dependence on the initial storage. We finally present the possibility of exporting the data stored in the warehouse to commonly-used advanced software devoted to sociological analysis.
Subjects / Keywords
Mailing List Analysis; Gestion de données sur le Web; Humanities and social sciences/Sociology; Computer sciences/Databases; Web Data Management; Analyse des listes email; XML

Related items

Showing items related by title and author.

  • Thumbnail
    Analysing web data-bases. Towards new AI inquiries. First results of the Webstand ANR project on W3C 
    Dudouet, François-Xavier; Colazzo, Dario; Manolescu, Ioana; Senellart, Pierre; Vion, Antoine; Nguyen, Benjamin (2007) Communication / Conférence
  • Thumbnail
    The WebStand Project 
    Dudouet, François-Xavier; Colazzo, Dario; Nguyen, Benjamin; Vion, Antoine; Manolescu, Ioana; Senellart, Pierre (2009) Communication / Conférence
  • Thumbnail
    Webstand, une plateforme de gestion de données web pour applications sociologiques 
    Manolescu, Ioana; Colazzo, Dario; Dudouet, François-Xavier; Vion, Antoine; Nguyen, Benjamin (2010) Article accepté pour publication ou publié
  • Thumbnail
    XML warehousing meets sociology 
    Senellart, Pierre; Nguyen, Benjamin; Manolescu, Ioana; Dudouet, François-Xavier (2005) Communication / Conférence
  • Thumbnail
    La normalisation en matière de technologies de l'information et de la communication (TIC) 
    Senellart, Pierre; Vion, Antoine; Nguyen, Benjamin; Manolescu, Ioana; Devin, Guillaume; Dudouet, François-Xavier (2007) Rapport
Dauphine PSL Bibliothèque logo
Place du Maréchal de Lattre de Tassigny 75775 Paris Cedex 16
Phone: 01 44 05 40 94
Contact
Dauphine PSL logoEQUIS logoCreative Commons logo