
Découvrabilité et réutilisation de données produites par des workflows : un cas d’usage en génomique
Gaignard, Alban; Skaf-Molli, Hala; Belhajjame, Khalid (2021), Découvrabilité et réutilisation de données produites par des workflows : un cas d’usage en génomique, Journées Francophones d'Ingénierie des Connaissances (IC) Plate-Forme Intelligence Artificielle (PFIA'21), 2021-06, Bordeaux, FRANCE
View/ Open
Type
Communication / ConférenceDate
2021Conference title
Journées Francophones d'Ingénierie des Connaissances (IC) Plate-Forme Intelligence Artificielle (PFIA'21)Conference date
2021-06Conference city
BordeauxConference country
FRANCEMetadata
Show full item recordAbstract (FR)
Les systèmes de workflows ont largement contribué à améliorer la reproductibilité des expériences scientifiques. Cependant, relativement peu de travaux ont porté sur la réutilisation des données produites au cours de l’exécution. Dans cet article, nous faisons l’hypothèse que ces données intermédiaires doivent être considérées comme des objets de premier ordre, qui doivent être conservés et publiés. Non seulement cela permettra d’économiser des ressources de calcul et de stockage, mais surtout cela facilitera et accélérera l’évaluation de nouvelles hypothèses. Pour aider les scientifiques à annoter ces données, nous exploitons plusieurs sources d’information : i) les informations de provenance capturées lors de l’exécution des workflows, et ii) les annotations de domaine qui sont fournies par des catalogues sémantiques d’outils, tels que Bio.Tools. Finalement, nous montrons, sur un scénario réel de bioinformatique, comment des graphes de provenance peuvent être transformés et résumés, à destination des utilisateurs et des machines.Abstract (EN)
Workflow systems have played an important role in facilitating the reproducibility of scientific experiments, yet, litttle work has been devoted to enhance the reuse of produced data. We argue that these intermediate data should be considered as first-order objects, which are worthy of preservation and publication. Not only will this save computational resources, but more importantly it will ease and accelerate the evaluation of new hypotheses. To help scientists annotate such produced data, we exploit multiple sources of information : i) provenance information captured during the execution of workflows, and ii) domain annotations provided by semantic catalogs of tools, such as Bio.Tools. Finally, we show, on a real bioinformatics scenario, how provenance graphs can be transformed and synthesized, for human and machine use.Subjects / Keywords
FAIR; reproducibility; scientific workflows; reproductibilité; workflows scientifiquesRelated items
Showing items related by title and author.
-
Découvrabilité et réutilisation de données produites par des workflows : un cas d’usage en génomique Gaignard, Alban; Skaf-Molli, Hala; Belhajjame, Khalid Communication / Conférence
-
Gaignard, Alban; Skaf-Molli, Hala; Belhajjame, Khalid (2020) Article accepté pour publication ou publié
-
Gaignard, Alban; Belhajjame, Khalid; Skaf-Molli, Hala (2017) Communication / Conférence
-
Cohen-Boulakia, Sarah; Belhajjame, Khalid; Collin, Olivier; Chopard, Jérôme; Froidevaux, Christine; Gaignard, Alban (2017) Article accepté pour publication ou publié
-
Baïna, Karim; Charoy, François; Godart, Claude; Grigori, Daniela; El Hadri, Saad; Skaf, Hala; Akifuji, S.; Sakaguchi, Toshiaki; Seki, Yoko; Yoshioka, Masaichiro (2004) Article accepté pour publication ou publié