Séminaire archives ouvertes au Mirail

Présentation du séminaire

Dans le cadre de l’information et formation autour des “Archives ouvertes”, que l’UMS et le service « bibliothèque numérique » du SCD souhaitent mettre en place, Daniel Charnay, directeur du Centre pour la Communication Scientifique Directe au CNRS (CCSD) et Hélène Gaboriaud, ingénieur au CCSD sont intervenus le 29 septembre dernier à la Maison de la Recherche pour présenter HAL (Hyper Article en Ligne), outil développé par le CCSD.

Le public assistant au séminaire était constitué de chercheurs, enseignants-chercheurs, doctorants, professionnels de l’information scientifique et technique, informaticiens, et des personnes mandatées pour saisir dans Hal.

Les intervenants ont fait le point sur les possibilités offertes par cette plate-forme, tant du point de vue institutionnel que du point de vue de la communication scientifique directe entre chercheurs. Une démonstration des fonctionnalités de la plate-forme a été réalisée.

Principe des archives ouvertes

Le mouvement des archives ouvertes a débuté dans les années 90. Il vise, pour les chercheurs, à se réapproprier les résultats de leurs recherches, « confisqués » par les éditeurs des revues scientifiques.

Le prix des revues ayant augmenté de manière exponentielle ces dernières années, de nombreuses institutions ont dû se désabonner de certains titres, rendant parfois difficile l’accès à la production scientifique.

Le mouvement des archives ouvertes, ou du libre accès, est donc fondé sur un nouveau modèle économique, pragmatique, mais également humaniste, car il autorise l’accès des pays pauvres aux résultats de la recherche.

Il permet un circuit de diffusion de la connaissance plus rapide : c’est ce qu’on appelle la communication scientifique directe, sans passer par les étapes éditoriales classiques : c’est l’auteur lui-même qui archive ses articles (ou une personne mandatée) .

Les serveurs d’archives ouvertes sont le plus souvent institutionnels et garantissent un archivage à long terme, grâce à un identifiant pérenne associé à chaque document, ce qui n’est pas le cas des serveurs des éditeurs, soumis aux aléas commerciaux.

Le protocole informatique (OAI , Open Archive Initiative) sur lequel est basé le système des archives ouvertes permet une recherche simultanée sur de multiples serveurs disséminés dans le monde entier.

Les revues en libre accès ne sont pas d’un moindre niveau scientifique que les revues commerciales ; ainsi, la revue Plos Biology a été classée en 2005 par l’ISI comme l’une des plus citées de son domaine .

Les chercheurs publiant dans ces revues ne sont pas d’un moindre niveau que les autres ; ainsi, l’un des récipiendaires de la médaille Fields 2006 est un mathématicien russe, qui ne publie ses articles que dans le serveur d’archives ouvertes ArXiv.

Les éditeurs commerciaux sont conscients de la montée en puissance de ce mouvement ; ils revoient leur politique de publication et les contrats de transfert de droits d’exploitation associés, et permettent de plus en plus l’archivage par le chercheur d’une version de son article (voir Romeo).

Le 11 octobre 2006, s’est tenue à l’Académie des sciences une conférence de presse pour présenter le protocole d’accord qui vise à “une approche coordonnée, au niveau national, pour l’archivage ouvert de la production scientifique”. Les 10 partenaires ayant signé le protocole sont le CEMAGREF, le CIRAD, le CNRS, la Conférence des grandes écoles, la Conférence des présidents d’université, l’INRA, l’INRIA, l’INSERM, l’Institut Pasteur et l’IRD

Présentation du CCSD

Le mouvement autour des archives ouvertes lancé depuis plusieurs années s’impose comme un changement déterminant dans le processus de la publication scientifique et sa valorisation. La direction du CNRS s’inscrit dans ce changement et en a fait une priorité pour les prochaines années.

Dans cette perspective, le CNRS a créé en 2000 une petite unité de service, le CCSD (Centre pour la communication scientifique directe) dont la mission est de mettre au point des outils favorisant une meilleure communication scientifique et l’utilisation des archives ouvertes par tous les chercheurs et laboratoires.

L’objectif est de faire diffuser ces techniques nouvelles au sein d’un plus grand nombre de disciplines et d’associer autant que possible les autres EPST et les universités au mouvement. La réalisation principale du CCSD est la plate-forme HAL (Hyper Article en Ligne), outil de stockage et de diffusion en ligne sur internet des résultats de la recherche.

Pour cela ils se sont appuyés sur l’expérience et le modèle de la base ArXiv (Cornell University) développée en physique en en mathématiques. C’est une archive ouverte multidisciplinaire à vocation internationale.

Les principes de base de HAL

Tout type de document peut être déposé, de préférence en texte intégral (sauf pour les travaux confidentiels, pour lesquels on pourra ne soumettre qu’une notice bibliographique : article publié (selon la politique de l’éditeur de la revue), article non encore publié, nouvelle version d’un article déjà publié, thèses, chapitres de livres, brevets, séminaires, workshops, proceedings à comité de lecture… par les chercheurs ou les membres de leur laboratoire (secrétaire, bibliothécaire, documentaliste).

Le texte déposé doit cependant être comparable, au niveau scientifique, aux textes soumis aux comités de lecture des revues traditionnelles.

Afin de responsabiliser les auteurs, le système interdit tout retrait après un délai de 48 heures ; il est tout à fait possible cependant de déposer des versions corrigées de textes présents dans la base.

Comment garantir la valeur scientifique d’un document déposé ? En sciences dures, la relecture des articles par les pairs permet de corriger les erreurs de calcul ou les théories hasardeuses. En SHS, le contrôle est plus difficile ; les documents déposés dans HAL sont vérifiés par un petit comité, en ce qui concerne leur forme ( résumé, références bibliographiques ? Quant au fond, notons que l’auteur engage sa responsabilité et sa crédibilité scientifique et qu’il ne peut retirer son article.

Trois types de dépôt sont possibles dans HAL :

– texte intégral (fichiers)
– texte intégral (lien ArXiv)
– notice bibliographique sans texte intégral (visible uniquement en exportation de listes de publications).

La consultation est gratuite et quasi instantanée depuis le monde entier.

Il existe un lien avec ArXiv pour les disciplines concernées. La soumission automatique de HAL vers ArXiv est possible lors du dépôt (aide technique du CCSD possible), et un outil spécifique a été construit pour faciliter l’importation de textes intégraux déposés dans ArXiv tout en les enrichissant en métadonnées (références de publications, etc…).

Il est possible d’effectuer des recherches, de créer des alertes automatiques et de faire des extractions automatiques multiples.

Hal est totalement pluridisciplinaire, même si pour le moment les disciplines des sciences dures sont les plus représentées.

Les différents acteurs dans HAL

Le lecteur : il n’a aucune action sur la base, et n’est pas identifié. Il peut se créer des alertes automatiques d’après différents critères.

Le déposant : il bénéficie de son espace propre, de ses documents, des outils pour les modifier, et de statistiques. Sa page personnelle est mise à jour automatiquement.

Le tamponneur : il n’a aucune action sur le contenu de la base.

Le « responsable des publications d’un labo » (bibliothécaire, documentaliste, administrateur, etc…) : il peut enrichir les métadonnées ; une trace de ses interventions est conservée ; ses droits sont limités à un laboratoire défini.

Déposer dans HAL

Le dépôt s’effectue sous la responsabilité scientifique de l’auteur (ou du jury de soutenance pour les thèses), qui doit veiller à obtenir l’accord de tous les auteurs en cas de travail collectif.

Au préalable, il faut se créer un compte utilisateur, avec ses informations personnelles (identifiant, mot de passe, identité), son laboratoire ou organisme de rattachement, le domaine de dépôt préféré.

Il faut souligner l’importance de l’association auteur-labo-établissement ; tous les laboratoires sont répertoriés dans une liste fixe et normalisée.

Une fois le compte activé, l’auteur peut déposer ses travaux, après s’être authentifié sur le serveur. Le dépôt est composé de plusieurs éléments : le texte intégral et ses éventuels documents d’accompagnement (présentations, fichiers audio …) et les métadonnées.

Le format des documents est libre : le format visualisable est obligatoire (pdf, ps), et les fichiers source sont recommandés.

Les métadonnées sont de trois sortes : scientifiques (servant à décrire le document : titre, mots clés, résumé..), relatives à la publication du document (s’il a déjà été publié), administratives.
Les métadonnées scientifiques servent aux recherches documentaires dans les bases d’archives ouvertes, à partir de « moissonneurs », tel Oaister .

Le dépôt s’effectue en trois étapes de saisie : renseigner les métadonnées, renseigner les auteurs et les laboratoires, déposer le ou les fichiers (tous les formats sont acceptés), et une étape de récapitulation avant la validation finale.

Gestion de l’espace personnel

Chaque déposant dispose d’un espace personnel où il peut accéder à la liste des documents déposés, ou en attente de vérification et de ceux pour lesquels des modifications ont été suggérées. Il peut également modifier les métadonnées, ajouter ou modifier la référence de publication, ou encore déposer une nouvelle version.

Si un auteur considère un de ses articles comme scientifiquement incorrect, il peut l’indiquer dans une nouvelle version et expliquer ses raisons dans les commentaires ; l’ancien document sera conservé sur le serveur, mais les lecteurs seront automatiquement redirigés sur la nouvelle version.

Quelques fonctionnalités intéressantes

HAL permet de constituer des listes de publications paramétrables, des exports automatiques institutionnels : par exemple la fiche CRAC des chercheurs CNRS (formulaire électronique rempli par les chercheurs pour leur compte rendu annuel d’activité) et l’application LABINTEL (CNRS), ou de créer une « home page » chercheur.

HAL permet la mise en place d’environnements institutionnels (les établissements peuvent faire déposer et extraire automatiquement leur production propre pour en assurer la visibilité). Des environnements personnalisés de dépôt et de consultation peuvent aussi être créés pour satisfaire les besoins de communautés scientifiques particulières, comme par exemple les participants à un congrès.

Il permet de constituer des “collections” ou “présentoirs électroniques” personnalisables pour les chercheurs ou les laboratoires ; un système de “tampons” électroniques permet éventuellement de valider ces collections.

Les « tampons » permettent à leurs propriétaires de marquer certains documents, indépendamment de leur présence dans HAL générique, et d’en faire des extractions automatiques et personnalisées. Ils ont la valeur intellectuelle que leur propriétaire leur confère. Leur nombre peut être illimité.. Ils permettent des validations par un individu, un laboratoire, une institution, un journal, etc… La validation se fait version par version ; un document peut recevoir plusieurs tampons (pour apparaître dans plusieurs collections)

La soumission automatique à un certain nombre de revues à comité de lecture est possible. Actuellement, le nombre total de documents collectés annuellement par le CCSD est un peu moins de 10 000, en croissance régulière. Les SHS occupent 24% des dépôts avec texte intégral.
Depuis septembre 2005 ont été intégrées dans HAL le serveur TEL de thèses en ligne (plusieurs milliers de thèses collectées), Archivesic, et l’Archive de l’Institut Jean Nicod.

Les raisons d’une centralisation dans HAL d’après Daniel Charnay

– garantir l’accès au texte intégral
– gérer l’archivage à long terme
– permettre l’indexation globale du texte intégral contenu dans la base
– préserver un niveau scientifique homogène de qualité
– offrir un seul point d’accès au chercheur
– offrir une meilleure visibilité à l’international
– interconnecter avec les bases mondiales de référence
– fournir des URL pérennes
– « horodater » les dépôts
– enrichir automatiquement les référentiels institutionnels
– limiter la saisie des références à un seul système
– centraliser les alertes du lecteur
– limiter l’effort à une seule unité spécialisée.

En conclusion du séminaire

La démonstration des deux intervenants a été particulièrement convaincante. Le public, très varié, a posé de nombreuses questions relatives aussi bien aux aspects techniques et fonctionnels que « philosophiques » de HAL.

Le seul point faible de l’application est l’indexation, qui n’est pas normalisée. Daniel Charnay s’est déclaré à l’écoute de toute proposition d’amélioration.

Le mouvement des archives ouvertes est à présent une donnée incontournable de la communication scientifique. Le protocole d’accord d’octobre 2006 incite chaque établissement à se positionner. Une archive nationale qui existe et qui fonctionne nous semble être la meilleure solution pour une plus grande visibilité internationale.

Par souci de ne pas constituer un frein à l’utilisation de HAL par toutes les institutions, le CCSD devrait sortir de son environnement institutionnel (création d’un GIP , et une URL moins personnalisée pourrait remplacer l’actuelle).

La recherche au Mirail pourrait acquérir une visibilité encore plus grande si une politique de dépôt systématique était adoptée par l’ensemble des équipes.

Pour convaincre les plus réticents : des études ont démontré que les articles en libre accès avaient un taux de citation plus élevé que ceux publiés uniquement dans les revues traditionnelles.

4 Responses to “Séminaire archives ouvertes au Mirail”

  1. nicomo Says:

    Merci pour cet intéressant compte-rendu.
    Mais j’aurais aimé avoir aussi vos commentaires et votre opinion sur ces questions. Individuels ou au nom de l’institution SCD Toulouse 2. Car il y a de vifs débats sur ces sujets, et par exemple ce que dit Daniel Charnay de la centralisation me semble très criticable.

  2. scdmirailrechdoc Says:

    Bonjour Nicolas,

    Personnellement, compte tenu des éléments en ma connaissance, je suis favorable à une archive nationale et c’est ce que je compte promouvoir ici, à Toulouse 2.

    Mais tes critiques m’intéressent. Si tu pouvais développer …

    Luc Garcia

  3. nicomo Says:

    En (très) bref je pense:
    * qu’un dépôt dans HAL, qui me semble à moi aussi souhaitable, ne devrait pas être exclusif d’un dépôt local. On peut avoir une archive locale, avoir une obligation de dépôt dans l’archive locale, et une synchronisation de l’archive locale vers HAL. Il y a des moyens techniques permettent d’invalider l’affirmation selon laquelle seule la centralisation permettrait de “limiter la saisie des références à un seul système”. Un seul dépôt pour le chercher, oui! Mais cela ne signifie pas que le document et/ou ses métadonnées se trouveront à un seul endroit.
    * HAL parle directement, individuellement au chercheur. Pas à l’institution et pas, au sein de l’institution, à la BU. Je pense du coup qu’au sein de l’institution, il est plus difficile de mettre en oeuvre une politique de l’institution en matière, par exemple, de valorisation et de diffusion des publis
    * le CCSD (le CNRS) a, comme il est normal, sa propre politique scientifique (“préserver un niveau scientifique homogène de qualité”, dit Charnay). Et un certain nombre de documents qui existent dans une université et qu’il serait intéressant de valoriser en ligne, seront refusés pas le CCSD: les mémoires d’infirmières, les mémoires en général, les comptes-rendus de stages dans les écoles d’ingénieur, etc. Bref, il restera plein de documents qu’il faudra gérer, si on veut les gérer, au niveau local: CCSD ou pas, il faudra un outil local.

  4. scdmirailrechdoc Says:

    D’accord avec toi sur la nécessité de valoriser les mémoires et tous types de documents qui ne seraient pas acceptés par HAL. Dans ce cas, à Toulouse, je verrais plutôt une archive interuniversitaire.

    Mais dans la mesure où l’outil national existe, qu’il fonctionne, qu’il permet de cerner la production scientifique de chaque institution, il me semble qu’il est plus judicieux de l’utiliser pour les publications scientifiques.

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s


%d bloggers like this: