Centre International de Recherche

sur l’Environnement et le Développement


Nos tutelles

CNRS Ecole des Ponts CIRAD EHESS AgroParisTech

Nos partenaires

R2DS MPDD FUTURS URBAINS LCS-R Net

Rechercher




Accueil > Rubrique de services > Projet site web - Sun Wu Kong > Historique

Contexte et utilisations

Ravalement de la présentation web, mise en base des productions scientiques et plus

publié le , mis à jour le

Vocabulaire

Je clarifie pour les informaticiens puisque la recherche en économie a aussi un workflow basé sur la transformation de l’information.

Le mot article désigne un texte imprimé dans une revue, sous-entendu approuvé par un comité de lecture éditorial. Un document de travail en économie est publié par l’institution dans laquelle l’auteur travaille, c’est quasiment du compte d’auteur. Une communication est une présentation orale souvent accompagnée d’un texte disponible en ligne mais ce n’est pas obligé. Une publication est un texte transmis par l’un des canaux précédents souvent les trois successivements. Le mot référence désigne les méta-données (genre Dublin Core) qui identifie une publication.

Un projet de recherche est une opération avec une date de fin, un responsable, un document à rendre et surtout un financement. Un thème de recherche est un réseau flou de personnes intéressé par des idées communes qui travaillent et publient ensemble sans exclusivité aucune.

Exemples choisis de sites :

Le webmestre du DMI nous autorise à recopier leur squelette qui est bon.

La liste des publications du MIT est particulièrement bien tenue. Celle de l’IEPE plaît aussi.

Des sites de labos comparables. De première génération mais le contenu y est : le LMD, le DELTA, le GREMAQ, le GREQAM, le labo d’économétrie de l’X (CECO) ils sont tous à peu près pareils, alors je mentionne BETA CEREMADE LAMSADE EUREQUA pour mémoire.

Le site du MODEM est dynamique en passant par le portail de Paris X, mais curieusement pas celui du THEMA dans la même fac. Celui du LET est clairement pro.

Au CNRS on a aussi le labo des biologistes macromoléculaires AFMB basé sur SPIP EVA, le webmestre Eric Blanc est actif sur spip-user de longue date. J’ai aussi identifié comme collègues sur la liste :

Thierry Dumont. MAPLY (Maths Appliquees de Lyon-UMR 5585 CNRS). Univ. Lyon I

Jean-Luc Béchennec, navimodeliste et CR CNRS - IRCCyN - Nantes, 02 40 37 69 81

Valéry Roché, webmestre à l’UFR Lettres et Langues a déclaré le 24 Janvier : Travaillant à l’Université de Poitiers, nous envisageons de basculer la plupart de nos sites web vers SPIP. J’ai pas l’impression qu’ils l’ont fait.

Autres sites SPIP recherche identifiés fin novembre :

Simon Roussel a réalisé le site de l’UMR CNRS "Mort neuronale Neuroprotection et Neurotransmission". Les publications sont tenues sur Medline c’est pratique en Bio.

Le nouveau site du centre de calcul de l’IN2P3.

Le site de la Délégation Paris Michel-Ange.

Pour information, je référence aussi le site de INIST sur l’open access.

En Janvier :

Roger GUILLET déclare avoir installé plusieurs sites web pour des labos de recherche. Neuro-Physique Cellulaire
45 rue des Saints-pères, 75006 Paris. tél. 01 42 86 21 08 - 06 81 34 83 80, fax 01 42 60 80 32.

François Legrand est en charge d’un site (attention au graphisme de l’espace) d’un labo scientifique sous spip.

Produits finaux

Je propose de discuter nos besoins pour un système d’information en partant des produits finaux. En supposant que toutes les données nécessaires sont en base, qu’est-ce qu’on en fait ? Je livre en vrac, le plus important étant censé me venir à l’esprit d’abord.

A/ Aider à faire les rapports d’activité CIRED tous les 4 ans, et rapport intérimaire tous les 2 ans. Ils contiennent par exemple un section ’publications’ qui liste, classée par type puis chrologiquement, la production scientifique du labo. Le rapport contient aussi des descriptions des thèmes de recherche des différentes subdivisions du labo.

A’/ Description générale du labo, publique sur le web, et description des activités avec 2 sous-niveaux : opération de recherche et projets de recherche. La filiation projets/opération est pas stricte.

B/ Aider à faire les rapports d’activité des chercheurs tous les 2 ans, et les fiches résumés tous les ans. A peu près pareil : liste des publis durant la période, liste des publis totales, thèmes de recherche, points forts... Il y a un format modèle au CNRS pour la fiche-résumé, et un format conseilé pour le rapport d’activité.

B’/ Homepages chercheur standard customisable avec description brève, liste des publis, CV en PDF, etc.

Note sur AB : Les rapports sont obligatoires et importants car c’est à leur vue que nous sommes évalués. Dans les 2 cas le texte évolue d’une année sur l’autre mais dans la continuité, on réécrit pas tout à chaque fois. Ce serait bien pratique d’avoir des RTF pré-mises à jour pour ces rapports. De plus le contenu de ces rapports recouvre très largement les informations que nous souhaitons publier sur le web. Par exemple la homepage des chercheurs peut correspondre à sa fiche-résumé avec sa liste des publications intégrale. C’est pour ça que cela semble judicieux de mettre à jour du site à chaque livraison de ce genre de rapport.

C/ Accéder au carnet d’addresse du CIRED en consultation (accès restreint intranet évidement) et gestion pour les secrétaires (voir par tous, avec revue des modifs par les secrétaires).

D/ Exposer la liste des publications du labo depuis la fondation (référence bibliographiques).

E/ Exposer une archive (à créer) des documents de travail électroniques du CIRED publiquement sur le web. Quand l’archive est significative, l’exposer en noeud dans le réseau WoPEc. La génération automatique d’une page de garde davant le document PDF serait bien.

F/ Exposer lisible sur le web une archive ouverte (à créer) des eprints CIRED, ouverte en dépot aux autres labos du site. Une telle archive inclut aussi les preprints et repprints (si IP OK) des articles/thèses/mémoires de DEA/livres formellement publiés. La différence avec E/ est surtout du point de vue de la qualité scientifique : ici on est après la revue par les pairs. Du point de vue du moteur web E/ et F/ sont tous les deux des collections de documents. Mais un eprint est un document électronique auto-archivé par son auteur sur sa page perso, alors que le working paper lui est publié par le labo.

Note sur DEF/ La motivation des chercheurs pour l’auto-archivage des publications est le B/. On parle d’archivage, ces textes ne sont normalement pas mis à jour.

G/ Exposer des textes à discuter, sporadiquement ou dans le cadre de séminaires réguliers. L’auteur l’auteur doit pouvoir choisir un accès privé CIRED ou public (éventuellement sur abonnement des participants à une liste). Ces textes ont vocation à expirer après 1 mois environ.

H/ Exposer publiquement le calendrier des séminaires, au minimum. Ce genre de page est mis à jour environ hebdomadairement, pour ajouter un G/ avant chaque présentation.

I/ Exposer publiquement les textes et le programme quand on fait des congrès.

Note sur GHI : La différence c’est que dans un séminaire c’est une fois par semaine, toute l’année, une personne qui parle. Le congrès c’est deux jours, unique, plusieurs personnes qui parlent. Evidement on peut aller loin dans le support backoffice (gestion des inscrits avec notification automatiques à la liste, page que le speaker du jour uploade lui-même son texte...). On en demande pas tant, mais la responsable du séminaire/congrès doit pouvoir faire ce qu’elle veut sur sa/ses page.

Note générale : Notre cycle de production naturel est G/ -> E/ -> F/ . C’est bien si on peut garder des traces qui montrent d’où viennent et où sont allés les textes. Mais la gestion du workflow n’est pas notre objectif premier (ce serait bien mais on a pas les moyens du MIT).

J/ Afficher des annonces d’évènements extérieurs (congrès, séminaires, réunions, appels d’offre) et intérieurs (contrats, recrutements, galette des rois, réunion stratégique). On doit pouvoir poster un compte rendu après les évènements, et discuter avant ki y va, poster des attachments. Tout doit être archivé. Affichage et accès paramétrables évidement.

Note sur J : Le format AMF propose rien pour les évènements. MARC 21 si.

K/ Si tout au dessus marche bien, on aura des mises à jour régulières, et il y a des gens intéressés par une newsletter hebdomadaire sur les évènements énergie/effet de serre/économie de l’environnement.

L/ On a parlé de mettre le calendrier du patron sur l’intranet. Evidement cela ne marche que la solution électronique meilleure est meilleure que la solution papier, et c’est son assistante qui juge.

M/ Mini-annuaire des institutions partenaires et sites web intéressants. Personellement je suis plus search que browse, mais il y parait que .

N/ Accès Webmail

O/ Statistiques et surveillance du site

P/ Search (y compris les articles en PDF)

Q/ Les chercheurs gèrent des bases de données bibliographiques (bibtex, endnotes), puisque les articles académiques se terminent toujours par une page de référence. Il serait utile de consolider toutes ces données ensemble. La gestion des références est une application distincte, de la gestion électronique des documents publiés par nous. On ne l’envisage pas pour cette année mais on veut y penser maintenant pour pouvoir la faire ensuite sans avoir à démonter tout.

R/ Enfin nous avons une bibliothèque. Il serait bon que ce catalogue soit synchronisé avec D/ (historique des publis) E/ (documents de travail) F/ (eprints). Il serait bon qu’on puisse interroger le catalogue à distance. Le catalogue est actuellement sous le progiciel fermé superdoc . Si on souhaite un jour migrer sur un progiciel open source, on veut pouvoir considérer l’option de fusionner le catalogue dans la même base que DEF.

Modèles de données

Pour avoir une idée des données qui intéressent un laboratoire de recherche : on met en base quelques milliers de gens, des institutions, des textes et des collections. Tenir compte évidement du Dublin Core, puis voir les formats ReDIF (legacy) ou AMF (Academic Metadata Format, proposition XML) comme modèles de données pertinents. Ce dernier décrit bien les intérêts d’un labo de recherche, mais est à complémenter sur deux points qu’il ne décrit pas :

- Les évènements comme congrès et séminaires, ca serait logique de savoir quand, où, qui, quoi...

- Le cataloguage de bibliothèque qui dit où est le bouquin, sa cote... On y fait attention à cause de la contrainte de récupérer la base des publications historiques du labo à partir du catalogue de la bibliothèque. Cette base existe sous superdoc, on peut faire des exports paramétrés (ou en XML) et ce serait une bonne idée de pas perdre d’information quand on importe.

Il y aura d’autres filtres à faire, certains chercheurs ont des bases de références en format bibtex (moi par exemple), d’autres sous endnotes et d’autres je ne sais pas comment.

Moyens

L’équipe projet comprend :
- Producteur : Minh, Chargé de Recherche (CNRS)
- Secrétaire Général : Naceur, Ingénieur de Recherche (CNRS)
- Administrateur : Hoby, administrateur à la MSH
- Documentaliste : Michèle, Ingénieur d’Etudes (CNRS), avec Sandrine, stagiaire
- Regard critique : Gilles, (CNRS)

Concernant le contenu et le legacy, on a le site existant, les rapports d’activité 2002. La liste des publis historique doit être réalisée pour la fin de l’année (20 ans du labo). Les chercheurs ont des bases bibliographiques, certains ont leurs eprints prêts à poster. La documentation a un catalogue. Le secrétariat a mis le carnet d’adresse du labo sous mySQL.

Concernant le fonctionnement, le séminaire a un responsable qui gère déjà sa page. On peut trouver en nos murs un éditeur de Working Papers consciencieux qui va relancer les auteurs. Le système pour les eprints doit être incitatif pour que les chercheurs contribuent eux-même leurs publications (sinon pb. de Prop. Intel.), la documentaliste formée pourra les aider. Enfin une équipe de trois rédacteurs (Naceur, Minh et une administratrice) pourront poster/reviewer les nouvelles, job openings, annonces d’évènements, etc.

On a actuellement 6 serveurs qui sont des boites usagées mais suffisantes :
- site web (Linux Apache mySQL PHP)
- serveur mail (Sun je crois)
- machine d’administration/test, SPIP
- serveur de fichiers (bazard)
- serveur de domaine (essentiellement DNS)
- serveur unix de login en interne / calcul / libre service collaboratif

On peut toujours gratter 10 euros pour une souris, mais concernant des sous sérieux pour payer un professionnel un mois, il faut demander à nos tutelles. Ne rien espérer avant Janvier. Réalistiquement ils veulent bien nous recevoir pour parler, nous passer leurs squelettes et des bouts de code. Peut-être pourrions-nous demander un spécialiste en mission dans nos locaux. Les unités de service au CNRS qui sont censées aider sont le CCSD ( http://www.ccsd.cnrs.fr/ - mirroir ArXiv, PhysNet) et l’INIST.

Considérations fonctionnelles

Je veux un système de gestion de contenu (CMS) avec un minimum de développement à faire, out-of-the-box pas un framework. La documentation significative doit être disponible en anglais et si possible en francais pour la partie auteurs/utilisateurs, en plus d’une liste de diffusion active pour qu’on puisse se ressourcer. C’est mieux si c’est un moteur utilisé par un ou des labos CNRS, MSH, ENGREF, CIRAD ou PONTS qui pourrait nous filer un coup de main.

Le site actuel de première génération a duré 5 ans, on veut un système utilisable pour autant. La taille est 100-1000 pages, 0-5 modifications par jour, 10-100 utilisateurs simultanés. Enfin on est en environnement LAMP : Linux, Apache, mySQL et PHP (c’est à dire pas Perl, Python ni Java) et open source.

Au final SPIP a de gros avantages : CMS actif, français, internationalisé (v. 1.7), on peut récupérer des squelettes de labos, et la fonctionalité magazine correspond assez à la recherche (auteurs, articles, brèves...). On peut bricoler un espace intranet. Il faudra ajouter des champs pour les métadonnées bibliographiques. BolinOS a aussi l’air bien et semble avoir un peu plus de fonctionnalités qui nous intéressent en standard. Typo3 à l’air trop gros pour nos besoins, et AEGIR pareil en plus d’être mal documenté.

Standards de la communication scientifique directe

Le but du projet est de faire partie de la liste des logiciels de gestion d’archive ouverte, en étant approprié pour des institutions de 40 personnes. Les fonctionalités seront comparable à celles d’[http://www.eprints.org] et non à l’échelle du serveur de document du CERN (CDS) celui du CCSD HAL ou celui du CRU, ou du MIT.

Pour plus de contexte voir [http://www.openarchives.org]. Voir aussi le colloque CNRS sur le libre accès en Janvier 2003 et le colloque de Berlin en Octobre.

On pourra réutiliser du code de phpOAIProvider, OAIbiblio ou d’autres outils sur le site d’openarchives international ou sur le site européen.

La démarche générale pour implémenter OAI-PMH est décrite dans le tutoriel à lire absolument.

Fonctionnalités souhaitées

Authentification : On peut rouler avec un système à 4 niveaux : visiteur anonyme, tous membres CIRED, éditeurs, admin (style SPIP natif à documenter). On veut bien un système plus sophistiqué par profils d’utilisateurs et groupes de permissions (style SPIP+Xprotector ou les gros CMS), à condition que l’interface administrateur soit légère et que l’implémentation soit très bonne.
- Autoriser n’importe quel membre du groupe CIRED à modifier n’importe quel contenu, puis revue d’un éditeur avant mise en ligne.
- Un responsable du séminaire est éditeur pour la page dudit, par exemple.
- Chacun est éditeur de sa homepage (donc principe de responsabilité).
- Il n’y a pas de système d’authentification unifié sur notre LAN, on devra faire une liaison ad hoc.

Internationalisation : Francais, anglais, brésilien...
On a les ressources pour traduire les contenus.
- Autoriser n’importe qui à traduire n’importe quel contenu (avec revue d’un éditeur avant mise en ligne) ?
Détail : Devrait être de série sur SPIP 1.7 en cours de développement. Voir par exemple [l’article http://www.uzine.net/spip_contrib/article.php3?id_article=63] de Nicolas Hoizey.

Gestion de la durée de vie des articles : Les drafts/présentations sont définitivement retirés après X mois, les annonces de congrès sont archivées X semaines après l’évènement.

Gestion des collections de documents :
On envisage d’utiliser une application comme spécialisée software.eprints.org par exemple Détail : et d’utiliser le même serveur mySQL du labo.. Il y a donc un travail d’intégration à fournir.
- Les publications sont en PDF, peuvent avoir des abstracts dans 2 langues
- Il y a plusieurs collections, toutes ne seront pas nécessairement gérée de la même façon :
1/ archive ouverte eprints, c’est de l’auto-archivage de textes publiés soumis au contrôle qualité externe. Le degré d’ouverture est à définir mais peut aller jusqu’à anonyme
2/ working papers CIRED, c’est de l’auto-publication. Vocation à passer en 1/
3/ Textes scientifiques internes. Accès et durée de vie restreinte, mais vocation à passer en 2/
- N’importe quel CIRED a le droit d’entrer une publication publique
- Les preprints peuvent expirer quand le (c) est transféré à un journal.

Forums de commentaires : Les drafts des papiers se discutent, on a aussi à poster des CR de réunions et CR de congrès.

Portail et personalisation du contenu : Au minimum avoir une zone intranet réservée par login/password que les navigateurs le gardent en cache bien entendu. On préfère une gestion fine : tj un seul site web internet/intranet, mais le groupe ’visiteur’ ne voit pas les annonces internes CIRED ni les drafts. Par exemple la sélection des brèves sur la première page devrait être différente selon qu’on est authentifié ou non.
- Toute mise en ligne d’un texte scientifique provoque une brève sur la première page.

Homepages : Les chercheurs doivent pouvoir éditer leur propre résumé et/ou leur home page, mettre des liens (manuels) vers à telle ou telle opération et/ou projet.

Organisation des rubriques à plusieurs niveaux :
- Les contenus se classent par Opérations de recherche et par Projets de recherche, avec une hiérarchie faible
- En interne on doit pouvoir faire des rapports sophistiquées sur la base des publications par date, par nature, par auteur pour sortir du RTF pré-formaté.

Moteur de recherche : doit aller dans les PDF

Possibilité d’intégrer WoPEc (pour les working papers) et BibEc (pour les eprints) à 6/12 mois.

Liens vers les autres services : webmail, listes, revues en texte intégral, autres collections de documents partagées comme des bases de données, des logiciels, des modèles de bureautique : papier à lettre, fax, formulaires, maj d’anti virus.

Fonctionnalités souhaitables

Intégration du webmail : style et navigation communs.

Intégration du gestionnaire de listes de diffusion : style et navigation communs.

Groupware de base : calendrier du Patron, calendrier des réunions et des meetings avec notification des participants, voir par exemple www.phpgroupware.org

Gestion des collections de liens. A priori faisable à bas coût et quelqu’un voudra probablement s’en occuper. La plupart de nos sites cible ne se syndiquent pas RSS, mais peut-être que ça viendra.

Annuaire commun : lecture et modification du carnet d’adresse du CIRED, correctement sécurisé. Le dernier stagiaire a fait du Excel->MySQL perso. Utiliser OpenLDAP me semble plus pro, car SPIP ne gère pas tous les champs qu’on veut dans la table des auteurs mais sait utiliser LDAP pour l’authentification. Et puis on en profite pour synchroniser le serveur de mail, et on aura une bonne base pour un service d’authentification correct et du "my". Il y a évidement des front-end web pour OpenLDAP comme rolodap ou aldap. Utiliser myQSL comme back-end de openLDAP serait pratique mais risque de dégradation des performances : a tester.

Ce qui peut attendre

Mise en commun des références bibliographiques. Voir la note à ce propos. Utiliser une application spécialisée comme RefD me semble mieux qu’étirer SPIP au delà de sa fonction centrale. Il y a un travail de synchronisation à faire puisque pour la partie de gestion des documents créés au CIRED on reste dans SPIP.

Mise en commun des documents électroniques en peer-to-peer.

Interrogation du catalogue de la documentation. Gestion dudit : On attend de voir clair sur la fusion ECOPOL et la succession de la documentaliste. L’offre open source est abondante.

Performance et qualité

En ce qui concerne la performance ce n’est pas grave si le site tombe trois heures par an, et il y a peu d’utilisateurs simultanés. Les pages doivent néanmoins se charger sous les 250 ms.

On veut du pérenne qui dure 5 ans pour l’architecture puis évolue bien. On veut un archivage sans limitation de durée pour les articles scientifiques publiés et auto-publiés. La recherche communique en anglais, on travaille aussi beaucoup avec le brésil, donc on utilisera la traduction.

Nous avons aussi besoin de respecter les lignes directrices en ce qui concerne les sites webs de nos tutelles. Pour l’instant seul le CNRS en a. L’EHESS, ENGREF, PONTS et le CIRAD n’ont pas fait connaitre de recommandations.

Le cahier des charges est plus RÉCENT ET DÉTAILLÉ.