Corpus spécialisés

Ce jeu de données propose des collections de corpus spécialisés constituées par l'équipe ISTEX de l'Inist-CNRS en vue d'une exploitation en traitement automatique des langues et en fouille de textes.

Ces corpus spécialisés sont composés de documents en texte intégral extraits de la plateforme ISTEX pour répondre à différents cas d'usage. Certains ciblent un domaine scientifique (astrophysique, géosciences, orthophonie, sciences et techniques alimentaires), d'autres sont rassemblés autour d'une thématique (vieillissement, systématique animale ou végétale, zone géographique Arctique). D'autres, enfin, sont des corpus gold non thématiques constitués pour évaluer les performances d'un outil (Unitex).

Financementschema:funder
Ces collections de corpus s'inscrivent dans le cadre du projet ISTEX (2012-2018)
Agence Nationale pour la Recherche
Numéro de conventiondcterms:identifier
10-IDEX-0004-02
Plateforme ISTEX
Droits d'utilisationdcterms:rights
L'utilisation de ces corpus est permise, à condition de les citer selon les modalités précisées dans leur instance correspondante.

A noter toutefois que l'accès aux textes intégraux composant chaque corpus est réservé aux ayants droit des organismes de l'Enseignement Supérieur et de la Recherche et, de ce fait, est soumis à authentification sur la plateforme ISTEX.

Les métadonnées des documents des corpus sont, quant à elles, placées sous le régime de la licence ouverte/open licence Etalab.

Pour plus de détails sur les droits d'utilisation, d'enrichissement et de diffusion des documents de ces corpus, de leurs métadonnées et des résultats de recherches issus de leur exploitation, veuillez consulter la licence ISTEX.
Liste des collections
    Powered by Lodex 9.3.8