Cours Audrey Open Edition

De Learning Lab Environnements Connectés
Sauter à la navigation Sauter à la recherche

Marin Dacos - directeur du centre pour l'édition électronique ouverte. Architecte des systèmes d'information - chercheur au CNRS. Parcours à la croisée de plusieurs disciplines : histoire - informatique - sciences humaines - édition

Présentation d'un point de vue professionnel d'Open Edition (marque déposée) (anciennement IBM) = idée tirage illimité (on fait autant de tirage que nécessaire grâce au numérique) Il s'agit d'un nouveau paradigme. Paradigme historique de l'édition/presse : celui de la rareté. Le bien est rare, plusieurs personnes en concurrence pour l'avoir, en jouir, le posséder. Le bien que je perds est un bien rival (je le donne je le perds) Grâce au numérique, la rareté n'est plus de mise, nous entrons dans une autre économie, celle de l'attention. C'est l'attention du public qui devient rare du fait de la profusion de documents disponibles sur Internet. (quand je donne le bien je ne m'en dépossède pas, biens non rivaux) : Chance historique.

Différents modèle économiques

Modèle du péage

Pour reproduire artificiellement de la rareté choisi par certaines presses. Ne fonctionne pas, réduit le lectorat. Obligation d'inventer de nouveaux modèles économiques. Exception Médiapart (mais pour le moment seulement !), ils sortent des affaires, font du buzz et donc créent de la rareté et des abonnements.

Modèles économiques hybrides

Choisis par Libé, le Figaro... : accès abonnés pour une partie du contenu et une autre partie en accès ouvert. Mais revenu insuffisant pour faire vivre de tels grands groupes de presse.

Modèle freemium

Je peux jouer et gagner sur un jeu en ligne par exemple. C'est une expérience complète mais non intense Ex : Dropbox. Toutes les fonctionnalités dispo gratuitement avec 2 Gigas , mais donc espace limité. Pari qu'entre 5 et 8% pourraient passer potentiellement au modèle premium pour obtenir stockage supplémentaire. Skype au départ était freemium (dès que plus de 2 utilisateurs en visioconf, passer en payant)

Interêt initial : faire que les lecteurs nous lisent; Ensuite, passer au freemium. Mais comment ? le cookie du New York Times qui comptabilise le nombre d'articles lus et bloque l'accès aux internautes au bout d'un certain nb de lecture gratuites en ligne. Mais très faiblement coercitif. Logique B2C (business for consumers). Il suffit qu'on change de session pour avoir un accès de nouveau. Le coût de transaction = le coût matériel, le temps que je passe à faire une transaction avec qqun.

Ici le CNRS est dans une logique B2B en s'adressant aux bibliothèques universitaire. Ils considèrent que l'usage intensif est liés aux professionnels. Ils ont créé des services pour ces professionnels qu'ils vendent, et non pas du contenus. Les cibles sont les chercheurs qui aiment créer des bibliothèques. Dans le numérique, ils ont envie d'avoir le livre ou la revue dans leur disque dur. A la fois pour l'annoter, ensuite pour pouvoir l'emporter partout sans forcément avoir de connexion Internet. Le CNRS leur vend des fichiers PDF ou EPUB. Pour les télécharger il faut être abonné. D'autres services comme les statistiques sont également payants. .

4 plateformes : revues.org, calenda, hypothèses (carnet de recherches, blogs de chercheurs), OpenEdition Books

Histoire de l'édition

Wikipédia (années 2000) modèle le plus achevé d'édition éléctronique 1971 : projet Gutemberg. un étudiant à qui on prête un ordinateur et qui tape la déclaration d'indépendance des USA en ASCII . Ce projet existe toujours. 1949 : père Roberto Busa (ecclésiastique italien) qui s'associe avec IBM. Fait des études sur Saint Thomas d'Aquin et fait un Index Thomisticus (30 ans, 56 volumes édités)

trois temps qui cohabitent dans l'édition numérique :

temps 1

Numérisation (ex : projet Gallica de la BNF ou Google Books = un gigantesque programme de numérisation du savoir humain) text mining ou fouille de texte = on essaie de sortir du texte des informations, possible qu'après avoir numérisé le texte (par exemple, la langue du texte). Google fouille des textes par exemple. Le plus connu en fouille de texte c'est Google Ngram grâce à de la ROC (reconnaissance optique de caractère, en anglais OCR). Ensuite il propose de chercher la fréquence d'un terme. mais on ignore ce que contient le corpus. OpenEdition Lab : création de l'outil Bilbo. On lui dit comment on comprend une référence et on lui fournit 3000 références de départ qui servent d'apprentissage. 400 000 docs. Revues comme Persee.fr et Jstor.org qui fournissent aussi des publications en lignes avec recherches

Temps 2

Edition nativement numérique Milieu des années 1980. Elle utilise les éditions numériques dès le début. Passe par la PAO. What you see is what you get (WYSIWYG) permet de voir le rendu graphique immédiatement ce qui n'était pas le cas auparavant (il fallait coder les termes en gras...) le code est indispensable si l'on ne veut pas se faire maîtriser par lui (données cachées sous word par exemple qui gonflent le volume du fichier) sorte de palimpseste, attention, on peut donc parfois revenir sur les versions effacées et retrouver le texte que nous avions choisi de gommer. cf support Dominique ROUX : en devenant numérique, l'édition n'est plus mono support. Avec le multisupport, intervient le pbm des ruptures de charge dans le workflow (= circuit de traitement, de l'auteur au livre final. ) On essaie de réduire ces ruptures de charge (comme dans les transports notamment) car ils impliquent des coûts supplémentaires. Toutes les ruptures de charge demandent de la coordination et augmentent les délais et le coût. Dans l'édition numérique ces ruptures de charges sont importantes. Produire les métadonnées, les formats différents, l'archivage ... meta données = données sur les données (sur un livre = titre, auteur, nb de pages...) le procédé habituel des éditeurs est le FDCTT (faire et défaire c'est toujours travailler) ici, procès du SSP = single source publishing. Graal encore peu atteint aujourd'hui. Système d'informations pensé par un architecte des systèmes d'info. Tout est lié, pas de rupture de charge; un format pivot sur lequel je peux faire les modifs successives et qui peut produire la modif sur tous les supports dont j'ai besoin. Les formats pivots sont très souvent en XML, centré sur le fond, la structure, au lieu du PAO (utilisé habituellement), centré sur l'apparence

Temps 3

Edition nativement en ligne Ex : wikipedia caractéristiques = elle s'appuie sur le nb d’utilisateurs et de producteurs, elle est commentable Retro-lien = inventé par les blogs. les "ping" signalant qu'un blog en cite un autre Définition : qu'est-ce qu'un RÉTROLIEN ? Une définition d'un rétrolien également appelé backlink ou trackback ou lien inverse : http://dicoblog.canalblog.com/archives/2008/11/17/11399790.html "Je pourrais vous dire que le rétrolien est un système de liens semi-automatisé entre deux ou plusieurs blogs, permettant à l'auteur et au lecteur d'un message de savoir quel autre blog a créé un lien vers ledit message. Les rétroliens ne sont pas utilisés par les blogueurs, qui savent de toute façon quels sont les liens qui pointent vers leurs messages par leurs statistiques ou par l’intermédiaire de sites tels que Technorati..."

l'historique d'une page Wikipedia : conserve toutes les modifs et version précédentes

Caractéristiques du texte électronique

(idées élèves) : - multiformat - relève de l'économie de l'attention - modifiable - bien non rival (reproductible quasiment sans coût spécifique mais coût énergétique et salaires des informaticiens) - commentable - collaboratif - interactif

récap prof

- dématérialisé (quasiment immatériel car réalité physique des objets numériques, des data center...) - circule avec une grande fluidité - peut se doter de couches successives - hypertextualité (les liens qui permettent d'aller d'une page à l'autre . conseil de mettre de l'hypertexte dans les textes produits) - indexable (fait par des tiers qui obéissent à des logiques différentes - relève de l'économie de l'attention et plus de la rareté

jeudi 14/01 Retour sur cette question des couches successives. Le multicouche = Une multitudes de couches d'informations qui sont vivantes (dès le MA, déjà 2 couches, celui qui copie et celui qui annote. Mais restreint) dans le numérique, multicouches : le texte meta données = - méta données biblio (auteur, titre...) - méta données annotations auto (text mining) - méta données lecteur (mots clés) - meta données annotations commentaires, retroliens - vitesse, fréquentation, Page Rank (note donnée de 0 à 10 par Google à toutes les pages du monde. elle s'appuie sur l'idée qu'un lien vers une page web est un vote positif sur cette page. Une note de 8 est obtenue rarement, Le monde par ex (def Wikipedia = Le principe de base est d'attribuer à chaque page une valeur (ou score) proportionnelle au nombre de fois que passerait par cette page un utilisateur parcourant le graphe du Web en cliquant aléatoirement, sur un des liens apparaissant sur chaque page. Ainsi, une page a un PageRank d'autant plus important qu'est grande la somme des PageRanks des pages qui pointent vers elle (elle comprise, s'il y a des liens internes). Le PageRank est une mesure de centralité sur le réseau du web.) On peut installer un plugin qui donne cette info sur la barre de navigation.

algorithme Panda de Google = contrer les fermes de contenus. ceux qui veulent juste gagner de l’argent et comme publicités rémunérées au clic donc je vais aller pomper dans des sites connus genre wikipédia, doctissimo, marmiton... et donc, dans google je suis en concurrence avec ces sites. Ce sont des pirates de contenus. Contenus copiés illégalement pour attirer attention des internautes sur une page, de pub le plus souvent. Google peut sanctionner ce type de site avec un page rank de zéro.

algorihme Penguin = contrer les fermes de liens. SEO = Search Engine optimization. métier du référencement, optimisation des pages pour le référencement. On peut développer des sites avec plus ou moins de contenus et vendent des liens vers votre contenu. Pratique frauduleuse sanctionnée par google si détectée.

idem pour mobile friendly : Google peut détecter si votre site est adapté ou non pour un usage sur mobile


Le texte électronique idéal

Doit avoir 3 grandes qualités =

LISIBLE

a) Pour être lisible, le texte doit être dans un format ouvert (un format dont les spécifications techniques sont connues. ex : wikipédia est en HTML, le format ouvert par excellence) Si ce n'est pas le cas, il faut faire du Reverse Engineering = comprendre comment un fichier fonctionne sans avoir de documentations dessus. XML formats ouverts, en général public. Epub est un format ouvert, Jpeg...

Pbatique des DRM (Digital Rights management) = crypter le fichier pour le rendre illisible, système de verrou numérique. Il ne peut être décrypté qu'à la condition qu'il détecte avec certitude que le système avec lequel vous allez le lire en ait acquis le droit. Le DRM envoie malgré tout un message de défiance envers le lecteur, pas terrible pour l'image de marque. le Water Markink : tatouage numérique. incitation à la responsabilisation du lecteur qui a acheté le livre afin qu'il ne le diffuse pas sur le net à grande échelle. On ajoute dans le livre une info visible mais aussi cachée qui marque le nom de l’auteur

b) Pour être lisible le texte doit aussi être recomposable. la mise en page doit s'adapter à mon terminal de lecture, du plus grand au plus petit afin que l'on retrouve une ligne entière sur l'écran, pas besoin de scroller. Le PDF ne permet pas cette recomposition, contrairement aux Epub. accessibilité, conforme au W3C (qui édicte les normes d’accessibilité des pages web, notamment aux personnes handicapées. pour qu'une personne malvoyante puisse reconnaître une image, on insère une balise Alt par ex).

c) Pour être lisible, le texte doit enfin être conservable code is law, selon Laurence LESSIG. Le code peut être totalement illégal et pourtant s'imposer malgré tout à tous !

MANIPULABLE

a) indexable et cherchable robots.txt = petit robot que l'on met à la racine du serveur et qui dit aux autres serveurs ce qu'ils peuvent indexer ou pas. Cela peut permettre (dans le cadre de bonnes pratiques) d'éviter le moissonnage agressif = site qui vient faire des requêtes de façon très soutenue et peuvent faire tomber les serveurs sur lesquels ils font des recherches, ceux ci ne pouvant supporter un tel niveau de requêtes en même temps. Loi numérique d'Axel Lemaire sur le Text and data mining (TDM) exception droit d'auteur pour autoriser (à reprendre)

b) capacité d'être copiable et collable, légalement notamment. Licence Creative Commons, inventé par Lessig = déclaration de façon unilatérale qui indique par licence qu'on cède les droits de ce qu'on publie. (attention, pas un contrat car pas deux signataires). licence CC by = on doit citer auteur et après on utilise comme on veut les fichiers, images... licence CC by NC (non commercial) = j'interdis l'utilisation commerciale dans le cadre de la licence licence CC by NC ND = Non derivative, j'interdis modifs licence CC by NC SA = share alike. j'autorise les modifs si les contenus sont diffusés selon la même licence droit d'auteur en France existe dès le moment de la création et jusqu'à 70 ans après votre mort protégé par registre moral (on vous reconnaît la paternité de la création, droit incessible et éternel) et patrimonial (droit d'exploitation de l'oeuvre, commercial, recopie...peut être cessible à titre exclusif ou non exclusif à partir d'un contrat qui indique obligatoirement le type de support).

c) annotable et inscriptible


CITABLE

a) pour être citable, le texte électronique doit être identifiable. lui donner un identifiant unique,. On utilise l'URL qui fonctionne sur le Domain name system le chemin utilisé par les paquets de données s'appelle le trace route.

On lit une URL de droite vers la gauche : TLD = top level Domain (ex .org, .fr, .com...) le .com dépend d'Icann domain (ex Yahoo) sous domain choisi par le domaine

en cas d'URL longue, la prendre, aller sur TinyURL.com et on me propose de la raccourcir 301 works propose un système d'archivage des réducteurs d'URL

b) Pour être citable, le texte électronique doit être correctement décrit. = lui donner une forme et des méta données qui sont interprétables. Les caractères doivent être correctement encodés. Code ASCII contient 245 caractères. Maintenant, Unicode. dizaines de milliers de valeurs qui permet de mettre en place une coordination mondiale. Consortium mondial qui décide qu'un code unique décrit un caractère unique. Le code Unicode est un système de codage des caractères sur 16 bits mis au point en 1991. Le système Unicode permet de représenter n'importe quel caractère par un code sur 16 bits, indépendamment de tout système d'exploitation ou langage de programmation. Il regroupe ainsi la quasi-totalité des alphabets existants (arabe, arménien, cyrillique, grec, hébreu, latin, ...) et est compatible avec le code ASCII. Depuis 2000, les docs Word sont en unicode

Il faut aussi choisir et renseigner correctement le bon format. les métadonnées : les dublin core = format de méta donnés. 15 balises différentes pour décrire un doc numériques. DC.Title = " le reveil de la force" Dc title lang ="FR" dc title lang = "FR" = Star wars 7. le reveil de la force" dc creator = "J.J.Abrams" dc subject scheme ="DDC" dc date scheme = "w3cdtf"="2015-01-16"


c) le contenu doit être interopérable = permet une utilisation indépendante de la plateforme sur lequel on veut le lire. Ex : on peut télécharger un format et le lire sur un ipad et qu'on puisse aussi le lire sur une autre tablette android. Mais autre sens ici = capacité de deux machines de communiquer entre elles. Le retro lien est un système basique d'interopérabilité. Il y a aussi le RSS (Really Simple Syndication) compétences de veille. détecter les évolutions de notre environnement pour être dans l'anticipation le flux RSS permet la veille qu'il faut pratiquer chaque jour.

Mon feedly : https://feedly.com/i/my

mon diigo : https://www.diigo.com/user/adypaillard

Aaron Swartz. invention du format à 14 ans où sont les flux RSS ? En bas des pages, icones orange. Choisir le flux, copier coller sur feedly le protocole le plus abouti d'interopérabilité c'est le OAI- PMH (OPEN ARCHE INITIATIVE PROTOCOL FOR METADATA HARVESTING) protocole qui permet interopérabilité entre entrepôt qui produit données et moissonneur qui les collecte. On passe par des verbes qui sont des instructions, des questions que les moissonneurs posent aux entrepôts. première question : qui es-tu ? ensuite : le format (question = ListMetadataFormats) la structure


qq notions pour comprendre la société d'information

Workflow site web produisent flux RSS qui sont agrégés sur feedly puis ce qui m'interesse je le publie sur twitter et diigo. Voilà un workflow.

Un système d'informations d'une entreprise = l'ensemble des infos que manipulent l’entreprise, la structure de ces infos et leurs interactions, les traitements qu'on leur impose.


Que font les bots de Wikipedia ? "Les bots sont des agents automatiques ou semi-automatiques qui interagissent avec Wikipédia comme le fait un utilisateur, mais pour des tâches répétitives et fastidieuses pour un humain. Les bots peuvent être utilisés pour éditer ou même créer des articles. Certains bots sont spécialisés dans la résolution des homonymies, les annulations de certains vandalismes ou encore les opérations sur les catégories". source : wikipédia

Quelques exemples des Bots sur Wikipédia, noms et fonctions :

Nom du bot suivi de sa/ses Fonction(s)

Alinebot (d · c) Ajout de données démographiques

Analphabot (d · c) Corrections orthographiques et typographiques, Wikipédia 1.0, regex simples, catégories.

Arkbot (d · c) Décompte des votes, listage des articles sans portail, remplacement de texte, détection de violations de copyright.

AutoritéBot (d · c) Importation bibliographique

Phe-bot (d · c) Homonymies, interwikis, remplacements de texte, catégories.

Bototomatix (d · c) catégories, requêtes

Botte (d · c) Renommage de catégories

Bottine (d · c) Diverses corrections : redirections, syntaxe, orthographe...

Salebot (d · c) Révocation de vandalisme et d'erreurs de débutant ; révocations faites sans le « bot flag ». Licence inconnue

ScoopBot (d · c) Maintenance des articles sans source, WP:RBOT, renommage de catégories

Les bonnes pratiques du Web

Les cliquez ici ne donnent aucune information. Il vaut mieux les remplacer par l'indication du but de la poursuite : inscrivez vous...

Le google bombing = sorte d"attaque" orchestrée par des groupes organisés et nombreux qui vont associer deux termes par exemple comme Bush assassin afin que très vite, le nom de Bush soit associé au qualificatif assassin.

le site opquast, et notamment http://checklists.opquast.com/fr/ aide à vérifier ou améliorer nos pratiques, nos bonnes pratiques du Web. Ils en ont produit un livre : "Qualité Web". L'ensemble de ces bonnes pratiques sont des évidences, mais beaucoup de sites de les respectent pas. Les bonnes pratiques ont été classées en différents critères : - Qualité Web - Web Mobile - SEO - Performance

Pour chaque pratique, le site nous explique les objectifs et les solutions techniques.