Cours Open Edition Samantha

De Learning Lab Environnements Connectés
Sauter à la navigation Sauter à la recherche

Intervenant

Marin DACOS
marin.dacos@openedition.org
Architecte des systèmes d'information - Chercheur au CNRS
Son conseil : Pour créer des projets intéressants il est nécessaire et important de cumuler les compétences

Open Edition

Marque déposée qui veut dire "tirage illimité".
En édition classique ont fait toujours un tirage en édition limité.
Le tirage illimité n'existe pas dans le domaine du papier.
Mais est possible dans le domaine du numérique.

L'économie de la rareté

A construit le modèle économique de l'édition.
Un bien est rare, plusieurs personnes qui sont en concurrence pour ce bien, pour le posséder.
C'est sur cette propriété que le modèle économique de l’édition et de la presse qui s'est construit.
Dans le modèle du numérique, on passe dans une économie de l'abondance car le bien est quasiment multipliable à l'infini.
En envoyant un PDF, on ne s'en dépossède pas.

L'économie de l'attention

On est donc dans l'économie de l'attention. L'attention du public. Cette attention devient rare. Ce qui est difficile pour le bien, est d'attirer l'attention, car le nombre de bien est très important.
Il faut prendre en compte tout cela pour créer de nouveaux modèles pour la presse et l'édition. Ce nouveaux modèles sont obligatoires pour que les structures survivent.

Face à cette problématique, Le Monde, Libération, se sont tourné vers un modèle hybride entre accès payant et accès gratuit. Donc beaucoup de lecteurs car certains contenu sont ouvert mais création de frustration pour que les gens s'abonnent.

Bine rival : Lorsque je donne un bien, je m'en dépossède.
Bien non rival : lorsque je le donne, je ne m'en dépossède pas. La connaissance est un bien non rival.
Le numérique remet la connaissance et le support de cette connaissance sur un même pied d'égalité.

Les modèles Freemium

Exemple : Dropbox.
On accède à toutes les fonctionnalités de Dropbox avec seulement 2Go.
Puis passer en premium pour avoir plus d'espace de strockage.
C'est donc une expérience complète mais non intense.
Le Pay to Win : si on ne paye rien on ne peut rien gagner. Ce n'est donc pas du Freemium.
Skype était à la base le plus grand projet de Freemium. Certaines fonctionnalités étaient payantes comme la visio-conférence à plus de trois personnes.
Dans L'Open Edition il est important que les lecteurs lisent. Puis il faut trouver des solutions Freemium pour le financement.

Il faut créer de la rareté tout en offrant une expérience complète dans le monde free.
NewYork Time à trouver une solution : il compte le nombre d'article. Au 10ème article, grâce aux cookies, il bloque l'accès aux contenus des articles au lecteur.
En effet, NYT a compris que ce lecteur est intéressé par les articles, que le lecteur créer de la valeur.
Donc le NYT demande de payer pour payer les journalistes.

Les coûts de transaction :
il est decisif. C'est le cout matériel, le temps que je passe à faire une transaction avec quelqu'un.

L'analyse du CNRS :

le NYT s'est mis dans une logique B2C (business for consumers). Le NYT avait beaucoup d'utilisateur.
Ici le CNRS est dans une logique B2B en s'adressant aux bibliothèques universitaire. Ils considèrent que l'usage intensif est liés aux professionnels.
On va donc créer des services pour ces professionnels. Ils ont donc décidée de ne pas vendre de contenus, mais de vendre des services.
Les cibles sont donc les chercheurs. Et le chercheur adore créer des bibliothèques. Dans le numérique, ils ont envie d'avoir le livr eou la revue dans leur disque dur.
A la fois pour l'annoter, ensuite pour pouvoir l'emporter partout sans forcément avoir de connexion Internet.
Le CNRS leur vend donc des fichier PDF ou EPUB. Pour les télécharger il faut donc être abonné.
D'autres services comme les statistiques sont également payants.


Plusieurs plateformes :
- Revoues.org
- Calenda
- Hypothèses
- OpenEdition Books

Un peu d'histoire ...

Wikipedia date des années 2000. C'est le modèle le plus achevé, le plus moderne d'édition électronique.
Un des gros projet d'édition électronique remonte au projet Gutemberg.
Un étudiant tape la déclaration d'indépendance des Etats-Unis et se met à la partager avec d'autres personnes. Cela remonte à 1971.
Le plus vieux projet d' édition électronique remonte à 1949.
Un ecclésiastique italien se lie avec IBM qui construit et vends à l'époque des machines à écrire.
Celui-ci fait l'index Thomisticus. Ce projet à duré 30 ans et 56 volumes ont été créer. Il a été porté sur CDRom et cet index existe toujours.
Ces exemple permettent d'introduire l'histoire de l'édition electronique qui se décompose en 3 temps.

Premier Age : la numérisation

C'est le 1er âge de l'édition électronique. On peut par exemple parler de Gallica. C'est un projet de numérisation.
Puis Google s'est lancé dans un gigantesque programme de numérisation du savoir humaine : Google Books.

L'édition telle qu'on la conçoit au 21e siècle, comporte des couches de traitements que l'on n'imaginait pas avant.
On appelle cela la "fouille de texte" ou "text mining". On essaie de sortir du texte des informations.
Mais on ne peut le faire que si l'on a numérisé le texte. Google par exemple fait de la fouille de texte.
autres exemples de text mining:
Le text Mining permet d'analyser les langues, et produire du sens. - Google Ngram : travaille sur le corpus de google books qui a fait de la reconnaissance optique de caractère (OCER). Puis Ngram analyse le nombre de fois qu'un mot ou un expression est utilisé dans l'ensemble du corpus à des moments donnés.
- OpenEdition Lab / Bilbo : cellule de R&D interne au CNRS.


Deuxième Age : l'édition nativement numérique

Utilise des fichiers numériques dès le début. Elle date environ du milieu des années 80 avec l’apparition du Macintosh.
Le WYSIWYG : What you see is what you get. C'est une interface qui permet de sélectionner une zone et modifier l'apparence graphique du texte. Permet la visualisation instantanée par exemple. Mais le défaut étant que l'on ne maîtrise pas le code qu'il y a derrière. Le code est un moyen pour aboutir à une fin, si l'on ne le maîtrise pas, c'est lui qui nous maîtrise.
Workflow : un circuit de traitement. Toutes les étapes allant l'auteur au livre final. Il est linéraire, avec des ta^che en série faites les unes après les autres.
Le multisupport introduit la rupture de charge. Concept notamment utilisé dans le transport fluvial. Cela implique des coûts supplémentaires. Toutes les ruptures de charge demande de la coordination et augemnte les délais et le cout.
Dnas l'édition numérique ces ruptures de charges sont importantes. Produire les métadonnées, les formats différents, l'archivage ...

les métadonnées : les données sur les données. Sur le livre : titre, auteur, poids, prix....
Le DUBLIN CORE : un système de métadonnées.

FDCTT : faire et défaire c'est toujours travailler.
Découpage en 3 âges fait par Pierre MOUNIER et Marin DACOS

SSP : Single source publisher.

système d'information. Il est pensé par un architecte des système d'information dans lequel tout est lié et où il n'y a pas de ruptures de charges. Un fichier pivot auxquel je fais des corrections.
Les corrections s'applique à tous les fichiers, les supports. Il est propagé dans tout le système.
Il n'y a qu'une seule source.
Souvent les formats pivots sont des formats en XML.
Dans le format pivot on est concentré sur le fond? Ce format est lié à plusieurs autres formats qui permettent alors de travailler la forme. Cela permet de différencier la structure du document et l'apparence.

Troisième Age : L'édition nativement en ligne

C'est le cas de Wikipedia par exemple. Elle s'appuie sur le nombre de producteur.
Elle est commentable.

Principe du RetroLien :
Un article est écrit sur un blog A par rapport à un sujet du blog B, un Ping est envoyé vers le blog B. le blog B reçoit un commentaire.
Il peut accepter ou non le commentaire.
Le commentaire renvoi vers le blog A.

L’infobox est une synthèse structuré du sujet dont on parle.

Wikipédia conserve toutes les interventions, et toutes les versions qui se font sur une page.
On peut converser avec l’auteur des propos, modifier le texte, annuler sa modification. Une régulation collective se met en place. Chacun peut contribuer et améliorer le texte.

Pierre Levy : auteur de l’intelligence collective.
L’intelligence collective est supérieure à la somme de l’intelligence individuelle.

Découpage en 3 âges fait par Pierre MOUNIER et Marin DACOS

Les caractéristiques de l’édition/livre numérique : - multiformats / multisupports - modifiable - Commentable - Bien non rival - collaboratif - « ouvert à tous » - Interactif - Proche = independant de la distance - dématérialisé

Première Caractéristique :

Quasiment immatériel : on a besoin des machines pour accéder aux fichiers. Mais aussi des data center. Data center : contient des centaines de milliers de serveurs. Mobilise énormément d’énergie.

Deuxième Caractéristique :

Caractéristique Reproductible quasiment sans cout : mais en réalité cela coute de l’énergie.

Troisième Caractéristique :

Circule avec une grande fluidité.

Quatrième Caractéristique :

Il peut se doter de couches successives.


Il contient des couches d'informations, il y en a plusieurs et ces couches sont vivante. On parle de vie documentaire.
Cela existait déjà dans l'édition classique. Une fois conçu les livre avait une vie. Les gens y écrivait des notes marginales. C'est une couche informationnelle qui se rajouter sur le livre.
Dans le monde numérique on rentre dans un monde multi factoriel, multi support et multi couches.

Différentes couches :
- La base de l'information est le texte
- Métadonnées bibliographique
- Annotations venant du lecteur. Ce peut être des mots-clés, des résumés
- Annotations de type commentaires rétro-lien
- Annotations automatiques du type text-mining
- Page Rank : Ce sont les notes que donne Google à toutes les pages web du monde. Cette note s'appui sur le principe de base qu'un lien vers ce site implique une notoriété du site en question. Mesure la notoriété en donnant une note entre 1 et 10. Maintenant, la vitesse de réaction du serveur est devenu également un critère (si le site est long à chargé, les internautes ont tendance à quitter la page). Google mesure aussi le nombre de site. Il calcule la fréquentation des sites. Si le site n'est pas Mobile Friendly (facile à consulter sur un téléphone), Google ne va pas non plus mettre en avant le site.

Toutes les couches en dehors du texte sont des métadonnées.
L'algortithme panda de Google permet de contrer les fermes de contenus : des sites qui copie les contenus des autres sites pour attirer l'attention des Internautes. C'est une usurpation d'identité.
SEO : Search engine optimization. C'est la plus grosse bulle internet que l'on est vu depuis 15 ans. Les gens qui vendent une remonté dans les liens google, beaucoup mise sur la redirection de lien. Des sites sont conçu dans le but de créer de nombreux liens sans aucun autre contenu dans ces sites.

Ce sont donc des couches qui qualifie la notoriété, la lisibilité, la visibilité du texte. En outre la confiance que l'on peut lui accorder.

Cinquième Caractéristique :

L'hypertextualité


Sixième Caractéristique :

L'indexabilité
Il est indexé. Ce qui permet de classer et hiérarchiser les contenus.
Ce sont des tiers qui créer ces indexations.

Septième Caractéristique :

Le texte électronique relève de l'économie de l'attention.





Le texte électronique idéal

Il possède 3 grandes qualités.

Il doit être lisible

Pour répondre à cette qualité :
- Le texte électronique doit être dans une format ouvert. HTML est le format de rendu ouvert par excellence.
La recette de cuisine pour produire le format est publique. Tout le monde va pouvoir créer un fichier sans avoir a utiliser les logiciels sources. Les spécifications techniques sont donc connu.
Le reverse engineering : essaye de comprendre comme un fichier est conçu sans avoir accès à l'encodage.
Pour wikipedia par exemple, le code de base est le code wiki. Puis ce code est interprété pour produire le rendu. Qui est ici le HTML
Autres formats ouverts : PDF, XML, TXT, EPUB, JPEG,
DRM (Digital Rights management) : Crypte les fichiers, il le rend donc illisible. Le DRM est un système de verrou numérique qui srypte les livres acheté, qui le rend techniquement illisbile et qui le decrypte à la condition que le système a acquis la conviction que l'on est le droit de le lire. Adobe Digital Edition permet de décrypter les DRM. Il contacte donc les fournisseurs pour voir si l'on a bien le droit d'acquerir ce contenu. L'objectif est d'eviter de donner le fichier à quelqu'un d'autre ou de le lire sur d'autres machines de marque concurrente.
Numilog est une société qui vend des livres chronodégradable. Il détruisent le livre au bout d'une durée déterminée.
Water Marking (tatouage numérique) : Pour éviter que le livre circule trop, il rajoute le nom de l'acheteur. C'est un système qui évite le DRM. Et incite la responsabilisation de l'acheteur du livre et qui n'altère pas la lisibilité du livre.

Il doit pouvoir être recomposable

La mise en page doit s'adapter au terminal de lecture.
Le PDF ne permet pas de faire cela car c'est un format dédier à l'impression.
Au contraire, l'EPUB est recomposable.
Depuis 2005 tous les sites doivent être accessibles aux personnes en situation de handicap visuel. Le synthétiseur vocal ne va pas pouvoir comprendre le PDF. Mais une page web répondant au W3C qui édite des normes d'accessibilité va le permettre. Pour lire une image par exemple on rajoute des métadonnées pour décrire textuellement cette image.
Touts les sites conforme à ces normes peut être consultable sans souris, sans touchpad. On peut y naviguer qu'avec une seule touche.


Il doit être conservable