Open Edition Nicolas

Sommaire

1 Intervenant
2 Open Edition
3 L'économie de la rareté
4 L'économie de l'attention
5 Les modèles Freemium
6 L'analyse du CNRS :
7 Un peu d'histoire ...
8 Premier Age : la numérisation
9 Deuxième Age : l'édition nativement numérique
10 Troisième Age : L'édition nativement en ligne
11 Le texte électronique idéal
- 11.1 3 grandes qualités
12 Les systèmes d'Information
13 Les mauvaises pratiques

Intervenant

Marin DACOS
marin.dacos@openedition.org
Architecte des systèmes d'information - Chercheur au CNRS
Son conseil : Pour créer des projets intéressants il est nécessaire et important de cumuler les compétences

Open Edition

Marque déposée qui veut dire "tirage illimité".
En édition classique ont fait toujours un tirage en édition limité.
Le tirage illimité n'existe pas dans le domaine du papier.
Mais est possible dans le domaine du numérique.

L'économie de la rareté

A construit le modèle économique de l'édition.
Un bien est rare, plusieurs personnes qui sont en concurrence pour ce bien, pour le posséder.
C'est sur cette propriété que le modèle économique de l’édition et de la presse qui s'est construit.
Dans le modèle du numérique, on passe dans une économie de l'abondance car le bien est quasiment multipliable à l'infini.
En envoyant un PDF, on ne s'en dépossède pas.

L'économie de l'attention

On est donc dans l'économie de l'attention. L'attention du public. Cette attention devient rare. Ce qui est difficile pour le bien, est d'attirer l'attention, car le nombre de biens est très important.
Il faut prendre en compte tout cela pour créer de nouveaux modèles pour la presse et l'édition. Ce nouveaux modèles sont obligatoires pour que les structures survivent.

Face à cette problématique, Le Monde, Libération, se sont tourné vers un modèle hybride entre accès payant et accès gratuit. Donc beaucoup de lecteurs car certains contenu sont ouvert mais création de frustration pour que les gens s'abonnent.

Bien rival : Lorsque je donne un bien, je m'en dépossède.
Bien non rival : lorsque je le donne, je ne m'en dépossède pas. La connaissance est un bien non rival.
Le numérique remet la connaissance et le support de cette connaissance sur un même pied d'égalité.

Les modèles Freemium

Exemple : Dropbox.
On accède à toutes les fonctionnalités de Dropbox avec seulement 2Go.
Puis passer en premium pour avoir plus d'espace de strockage.
C'est donc une expérience complète mais non intense.
Le Pay to Win : si on ne paye rien on ne peut rien gagner. Ce n'est donc pas du Freemium.
Skype était à la base le plus grand projet de Freemium. Certaines fonctionnalités étaient payantes comme la visio-conférence à plus de trois personnes.
Dans L'Open Edition il est important que les lecteurs lisent. Puis il faut trouver des solutions Freemium pour le financement.

Il faut créer de la rareté tout en offrant une expérience complète dans le monde free.
NewYork Time a trouvé une solution : il compte le nombre d'articles. Au 10ème article, grâce aux cookies, il bloque l'accès aux contenus des articles au lecteur.
En effet, NYT a compris que ce lecteur est intéressé par les articles, que le lecteur créer de la valeur.
Donc le NYT demande de payer pour payer les journalistes.

Les coûts de transaction :
il est decisif. C'est le cout matériel, le temps que je passe à faire une transaction avec quelqu'un.

L'analyse du CNRS :

le NYT s'est mis dans une logique B2C (business for consumers). Le NYT avait beaucoup d'utilisateur.
Ici le CNRS est dans une logique B2B en s'adressant aux bibliothèques universitaire. Ils considèrent que l'usage intensif est liés aux professionnels.
On va donc créer des services pour ces professionnels. Ils ont donc décidée de ne pas vendre de contenus, mais de vendre des services.
Les cibles sont donc les chercheurs. Et le chercheur adore créer des bibliothèques. Dans le numérique, ils ont envie d'avoir le livr eou la revue dans leur disque dur.
A la fois pour l'annoter, ensuite pour pouvoir l'emporter partout sans forcément avoir de connexion Internet.
Le CNRS leur vend donc des fichier PDF ou EPUB. Pour les télécharger il faut donc être abonné.
D'autres services comme les statistiques sont également payants.

Plusieurs plateformes :
- Revues.org
- Calenda
- Hypothèses
- OpenEdition Books

Un peu d'histoire ...

Wikipedia date des années 2000. C'est le modèle le plus achevé, le plus moderne d'édition électronique.
Un des gros projet d'édition électronique remonte au projet Gutemberg.
Un étudiant tape la déclaration d'indépendance des Etats-Unis et se met à la partager avec d'autres personnes. Cela remonte à 1971.
Le plus vieux projet d' édition électronique remonte à 1949.
Un ecclésiastique italien se lie avec IBM qui construit et vends à l'époque des machines à écrire.
Celui-ci fait l'index Thomisticus. Ce projet à duré 30 ans et 56 volumes ont été créer. Il a été porté sur CDRom et cet index existe toujours.
Ces exemple permettent d'introduire l'histoire de l'édition electronique qui se décompose en 3 temps.

Premier Age : la numérisation

C'est le 1er âge de l'édition électronique. On peut par exemple parler de Gallica. C'est un projet de numérisation.
Puis Google s'est lancé dans un gigantesque programme de numérisation du savoir humaine : Google Books.

L'édition telle qu'on la conçoit au 21e siècle, comporte des couches de traitements que l'on n'imaginait pas avant.
On appelle cela la "fouille de texte" ou "text mining". On essaie de sortir du texte des informations.
Text-mining : aider à trouver les fichiers dans la langue désirée.
Mais on ne peut le faire que si l'on a numérisé le texte. Google par exemple fait de la fouille de texte.
autres exemples de text mining:
- Google Ngram : travaille sur le corpus de google books qui a fait de la reconnaissance optique de caractère (OCER). Puis Ngram analyse le nombre de fois qu'un mot ou un expression est utilisé dans l'ensemble du corpus à des moments donnés.
- OpenEdition Lab / Bilbo : cellule de R&D interne au CNRS.

Deuxième Age : l'édition nativement numérique

Utilise des fichiers numériques dès le début. Elle date environ du milieu des années 80 avec l’apparition du Macintosh.
Le WYSIWYG : What you see is what you get. C'est une interface qui permet de sélectionner une zone et modifier l'apparence graphique du texte. Permet la visualisation instantanée par exemple. Mais le défaut étant que l'on ne maîtrise pas le code qu'il y a derrière. Le code est un moyen pour aboutir à une fin, si l'on ne le maîtrise pas, c'est lui qui nous maîtrise.
Workflow : un circuit de traitement. Toutes les étapes allant de l'auteur au livre final. Il est linéraire, avec des ta^che en série faites les unes après les autres.
Le multisupport introduit la rupture de charge. Concept notamment utilisé dans le transport fluvial. Cela implique des coûts supplémentaires. Toutes les ruptures de charge demande de la coordination et augmente les délais et le cout.
Dans l'édition numérique ces ruptures de charges sont importantes. Produire les métadonnées, les formats différents, l'archivage ...

les métadonnées : les données sur les données. Sur le livre : titre, auteur, poids, prix....
Le DUBLIN CORE : un système de métadonnées.

FDCTT : faire et défaire c'est toujours travailler.
Découpage en 3 âges fait par Pierre MOUNIER et Marin DACOS

SSP : Single source publisher.

système d'information. Il est pensé par un architecte des système d'information dans lequel tout est lié et où il n'y a pas de ruptures de charges. Un fichier pivot auxquel je fais des corrections.
Les corrections s'applique à tous les fichiers, les supports. Il est propagé dans tout le système.
Il n'y a qu'une seule source.
Souvent les formats pivots sont des formats en XML.
Dans le format pivot on est concentré sur le fond? Ce format est lié à plusieurs autres formats qui permettent alors de travailler la forme. Cela permet de différencier la structure du document et l'apparence.

Troisième Age : L'édition nativement en ligne

C'est le cas de Wikipedia par exemple. Elle s'appuie sur le nombre de producteur.
Elle est commentable.

Principe du RetroLien :
Un article est écrit sur un blog A par rapport à un sujet du blog B, un Ping est envoyé vers le blog B. le blog B reçoit un commentaire.
Il peut accepter ou non le commentaire.
Le commentaire renvoi vers le blog A.

L’infobox est une synthèse structuré du sujet dont on parle.

Wikipédia conserve toutes les interventions, et toutes les versions qui se font sur une page.
On peut converser avec l’auteur des propos, modifier le texte, annuler sa modification. Une régulation collective se met en place. Chacun peut contribuer et améliorer le texte.

Pierre Levy : auteur de l’intelligence collective.
L’intelligence collective est supérieure à la somme de l’intelligence individuelle.

Les caractéristiques de l’édition/livre numérique : - multiformats / multisupports - modifiable - Commentable - Bien non rival - collaboratif - « ouvert à tous » - Interactif - Proche = independant de la distance - dématérialisé

Première Caractéristique

Quasiment immatériel : on a besoin des machines pour accéder aux fichiers. Mais aussi des data center. Data center : contient des centaines de milliers de serveurs. Mobilise énormément d’énergie.

Deuxième Caractéristique

Caractéristique Reproductible quasiment sans cout : mais en réalité cela coute de l’énergie.

Troisième Caractéristique

Circule avec une grande fluidité.

Quatrième Caractéristique

Il peut se doter de couches successives.

Les couches successives

Il y a plusieurs couches et les couches sont vivantes.
On parle de vie documentaire.
Ces couches existaient déjà dans l'édition classique.
Les marges sont par exemple une couche informationnelle qui se rajoute sur le livre.

Dans le monde numérique, le monde devient multi-couches, multi-supports et multi-factoriels.

Les différentes couches

- la base de l'information est le texte.
- métadonnées bibliographique.
- annotations du lecteur (mot-clé, résumé).
- annotations de type commentaire ou du text-mining.
- page-rank, note que donne Google à toutes les pages web du monde de 1 à 10 et s'appuie sur le principe suivant : si un lien dirige vers le site X, le site X aura un +1. La vitesse de chargement est devenu de nos jours un critère du PageRank, si un site est lent, l'internaute ne va pas rester. La fréquentation (nombre de clics) est également un critère.

Algorithme Panda de Google

Empêche et contre les fermes de contenu.
Contre les duplicate contents.

SEO : Search Engine Optimisation

C'est la plus grosse bulle internet que l'on est vu depuis 15 ans.
Les gens "vendent" une remonté des sites sur Google via des redirections intensives de faux liens.
Google Pinguin va venir punir le PageRank.

Mobile-Friendly

Si le site est mobile friendly, Google va mettre en avant ce genre de site qui s'adapte aux internautes qui sont sur mobile.

Cinquième Caractéristique

L'hypertextualité comme dans Wikipédia.
Lien de mots qui amènent vers un article / ressource.

Sixième Caractéristique

Il est indexé.
Ce qui permet de classer et hiérarchiser le contenu.
Ce sont des tiers qui permettent la création des indexations.

Septième Caractéristique

Relève de l'économie de l'attention.

Le texte électronique idéal

3 grandes qualités

Lisibilité

Le texte, le livre, peu importe, tout doit être lisible.

1 - Format Ouvert

Le HTML est le plus ouvert des formats.
Codé d'abord en Wiki, le code est interprété puis ressort en HTML.
Le WYSIWYG est illisible, il cache le système.
Un format ouvert est un format dont les spécificités techniques sont connues.
Le REVERSE ENGINEERING : essaye de comprendre comment un fichier est conçu sans avoir accès à l'encodage.
RTF
DOCX
XML
TXT
JPG
EPUB

DRM : Digital Rights Management -> le but est de crypter le fichier. Système de verrou numérique qui rend le livre par exemple illisible.
Décryptage des DRM via des logiciels comme Adobe Digital Edition.
Le logiciel contacte donc les fournisseurs pour voir si l'on a bien le droit d'acquérir ce contenu.

Numilog : Société qui vend des livres chronodégradables, ce qui veut dire que par exemple au bout de 8 jours, le livre se supprime.

Watermarking (tatouage numérique) : Pour éviter que le livre circule trop, il rajoute le nom de l'acheteur sur la couverture ou une page.
C'est un système qui veut éviter la diffusion du livre.

2 - Recomposable

Ce qui veut dire que le fichier s'adapte au terminal de lecture.
Le PDF ne permet pas d'être recomposable car il est dédié à l'impression.
Norme que tous les sites publics doivent respecter, ils doivent être accessibles depuis 2005.
Normes établies par le W3C.
Pour les images, la métadonnée à ajouter est la balise Alt.
On peut naviguer sur les sites web accessibles via une touche par une touche.

3 - Conservable

Aucun livre sous DRM n'est conservable.

Affaire Bruce Willis / Canular
Il a acheté une grande bibliothèque de musiques sur iTunes mais il s'est rendu compte qu'il ne peut pas en faire hériter ses enfants. Il porte plainte contre Apple.

"Code is Law" -> Le code c'est la Loi.
Le code s'impose à nous sans qu'on est le choix.
Vient de M. Lessig.

Manipulable

Indexable et cherchable

Par exemple Wikipédia ou LeMonde.
Moteurs de recherche parcours le Web pour copier le contenu sur les serveurs pour faire du text-mining dessus.

Robots.txt
Fichier à la racine du serveur, dit au moteur de recherche à quel contenu il a le droit et à quel contenu il n'a pas le droit.

Permet d'éviter le moissonnage agressif : attaque DDos en quelque sorte, X requêtes par minute.
Permet également d'éviter les mauvaises pratiques comme empêcher un service concurrent d'indexer le site.

Sitemap.
Dit au robot où indexer pour lui donner accès à toutes les pages du site.
Les livres protégés par les DRM par exemple ne sont pas indexables par les outils de recherche des ordinateurs.

Copiable et collable

Un des éléments majeurs offert par le numérique.
Mais certains sites n'autorisent pas le clic droit, ou encore C/C est difficile sur le format PDF.

Le droit d'auteur protège l'oeuvre dès la première seconde de création, toute la durée de la vie, puis 70 ans après la mort.

La protection morale : le fait qu'on reconnaissance la paternité de la création. Incessible.
Le droit patrimonial : le droit d'exploitation de l'oeuvre. Cessible.
Il y a différents niveaux de droit d'exploitation.

Les Creative Comments permettent de déclarer à l'auteur de façon unilatéral qu'il cède des droits d'utilisation à qui veut et sans contrat.
C'est une licence et non un contrat.

CC = Creative Comments.
BY = Annoncer l'auteur.
NC = Non Commercial.
ND = Non Derative = Refus de modifications.
SA = Sharelike = Autorise les modifications seulement si la personne va produire un nouveau contenu sous la même licence.

Annotable et inscriptible

Sur iBooks, il est par exemple possible d'annoter le fichier ePub.

Citable

Pour être citable, un texte électronique doit être identifiable.

Identifiable

Nécessité de donner un identifiant unique.
Le plus courant est l'URL = l'adresse web.

Le web s'appuie sur une structure qu'est le DNS = Domain Name System.
C'est une grosse base de données à deux colonnes, à gauche le nom du site, à droite l'adresse IP.

TRACEROUTE c'est la route de l'ordinateur jusqu'au serveur du site puis le retour via les DNS.

Lecture d'une adresse URL :
Il faut lire de droite à gauche.
TLD = ".fr" -> géré par l'Etat Français.
yahoo = domaine.
m = mobile = sous-domaine.

301 Works = système d'archivage des réducteurs d'URL.

Correctement décrits

Lui donner une forme et des métadonnées interprétables.

1 : Les caractères doivent être correctement encodés.
Le code ASCII : système rudimentaire qui existe depuis 40 ans. Il permet d'encoder les lettres en chiffres. Il est composé de 255 caractères.
Cependant on s'est rapidement mis à traduire d'autres caractères tels que le cyrillique par exemple.
Le problème étant que les caractères étaient encoder avec les même nombre que pour les caractères arabes.
Donc il était impossible de communiquer entre différents types de langues. Nous avons donc inventé l'UNICODE.
L'UNICODE : Il contient des centaines de millieurs de code qui permet une coordination mondiale. Il a unifier tous les codages du monde.
Il y a donc maintenant un code unique pour un caractère unique.

2 : Format.
Idéalement en format ouvert

3 : Les métadonnées.
Le DUBLIN CORE : un système de métadonnées qui connait 15 balises pour renseigner un document.

Exemple avec Star Wars 7 :
DC.TITLE="Le réveil de la force".
DC.TITLE LANG="FR"=".
(DC qualifié) DC.TITLE LANG="FR"=STAR WARS 7".
(DC qualifié) DC.TITLE LANG "FR"="Le réveil de la force".

Pour les dates, il est bien de déclarer la structure car il y a différentes façon d'écrire une date.
DC.DATE SCHEME="W3CTDF"="2015-01-16".

Format universel.

Intéropérable

Le but est que le format marche peu importe la plateforme.
Le format peut marcher sur un iPad ou une tablette Kindle par exemple.

RSS : Really Simple Syndication.
Agréger des flux pour être au courant des nouveautés. https://fr.wikipedia.org/wiki/Aaron_Swartz

Le protocole le plus simple : OAI-PMH :
OPEN ARCHE INITIATIVE PROTOCOL FOR METADATA HARVESTING.

Protocole permet l'opérabilité entre l'entrepôt et moissonneur.
Entrepôt = produit données.
Moissonneur = collecte données.

Pour structurer, on va utiliser les VERBES, ce sont les instructions. La première question est de demander qui est l'entrepôt par la question IDENTIFY.

Les systèmes d'Information

C'est l'ensemble des informations qui manipulent l'entreprise, la structure de ces informations et leurs interactions.
L'ensemble du SI c'est l'addition de tous les workflow et de toutes les informations.
Dans toutes les structures il y a un grand système d'information.
On intervient en permanence dans ces informations, quoi que l'on fasse.

Les mauvaises pratiques

Cliquez "ici" est une mauvaise pratique car en terme d'accessibilité la zone cliquable est trop petite.

Google Bombing : liens sur des mots violents par rapport à un site.
Faire un lien sur le mot "petit" pour le site sarkozy.fr