Cours Open Edition Samantha : Différence entre versions

De Learning Lab Environnements Connectés
Sauter à la navigation Sauter à la recherche
 
(7 révisions intermédiaires par le même utilisateur non affichées)
Ligne 103 : Ligne 103 :
 
Le WorkFlow est un circuit de traitement intégrant toutes les étapes allant l'auteur au livre final. Il est linéaire, avec des tâches en série faites les unes après les autres. <br />
 
Le WorkFlow est un circuit de traitement intégrant toutes les étapes allant l'auteur au livre final. Il est linéaire, avec des tâches en série faites les unes après les autres. <br />
 
Le multisupport introduit la '''rupture de charge'''. Concept notamment utilisé dans le transport fluvial. Cela implique des coûts supplémentaires. Toutes les ruptures de charge demande de la coordination et augmente les délais et le coût. <br />
 
Le multisupport introduit la '''rupture de charge'''. Concept notamment utilisé dans le transport fluvial. Cela implique des coûts supplémentaires. Toutes les ruptures de charge demande de la coordination et augmente les délais et le coût. <br />
 +
C'est une système d'information allant d'un point à un autre.<br />
 +
Système de transmission, d'échange et de modification de l'information. <br />
 +
Mais ce n'est pas quelque chose de seulement assignable au Web <br />
 
Dans l'édition numérique ces ruptures de charges sont importantes : produire les métadonnées, les formats différents, l'archivage ... <br />
 
Dans l'édition numérique ces ruptures de charges sont importantes : produire les métadonnées, les formats différents, l'archivage ... <br />
 +
  
 
Les métadonnées : les données sur les données. Sur le livre : titre, auteur, poids, prix.... <br />
 
Les métadonnées : les données sur les données. Sur le livre : titre, auteur, poids, prix.... <br />
Ligne 259 : Ligne 263 :
  
 
1 : Les caractères doivent être correctement encodés. <br />
 
1 : Les caractères doivent être correctement encodés. <br />
 +
 
''Le code ASCII'' : système rudimentaire qui existe depuis 40 ans. Il permet d'encoder les lettres en chiffres. Il est composé de 255 caractères. <br />
 
''Le code ASCII'' : système rudimentaire qui existe depuis 40 ans. Il permet d'encoder les lettres en chiffres. Il est composé de 255 caractères. <br />
 
Cependant on s'est rapidement mis à traduire d'autres caractères tels que le cyrillique par exemple. Le problème étant que les caractères étaient encoder avec les même nombre que pour les caractères arabes. Donc il était impossible de communiquer entre différents types de langues. Nous avons donc inventé l'UNICODE. <br />
 
Cependant on s'est rapidement mis à traduire d'autres caractères tels que le cyrillique par exemple. Le problème étant que les caractères étaient encoder avec les même nombre que pour les caractères arabes. Donc il était impossible de communiquer entre différents types de langues. Nous avons donc inventé l'UNICODE. <br />
''L'UNICODE'' : Il contient des centaines de millieurs de code qui permet une coordination mondiale. Il a unifier tous les codages du monde. Il y a donc maintenant un code unique pour un caractère unique.
+
''L'UNICODE'' : Il contient des centaines de millieurs de code qui permet une coordination mondiale. Il a unifier tous les codages du monde. Il y a donc maintenant un code unique pour un caractère unique.<br />
 +
 
 +
2 : Donc il ne suffit pas seulement de correctement l'encoder, il faut également le renseigner le format. <br />
 +
 
 +
3 : Renseigner les métadonnées <br />
 +
Le DUBLIN CORE : c'est un système de métadonnée qui connait 15 balises/attributs pour renseigner un document. Il y a plusieurs syntaxe qui existe. <br />
 +
Prenons un exemple : <br />
 +
DC.TITLE LANG="FR"="STAR WARS 7"<br />
 +
 
 +
Le Dublin Core qualifié permet d'inventer des balises, pour les sous-titre par exemple. <br />
 +
DC.TITLE LANG="fr"="STAR WARS 7"<br />
 +
DC.TITLE.SUBTITLE LANG="fr"="le réveil de la force"<br />
 +
 
 +
Pour les dates il est bien de déclarer la stucture car il y a différentes façon d'écrire une date. <br />
 +
DC.DATE SCHEME="W3CTDF"="2016/01/16"<br />
 +
 
 +
Dublin Core a un avantage : c'est le format de métadonnées rudimentaire utilisé à peu près partout. <br />
 +
 
 +
4 : Interopérabilité<br />
 +
Capapcité de deux machines de communiquer entre elle. <br />
 +
 
 +
Le Flux RSS <br />
 +
Agréger des flux pour être au courant dans nouveautés. Le RSS (Really Simple Syndication) emmène le contenu sur nos téléphones, nos ordinateurs.
 +
Quelques flux RSS intéressants : <br />
 +
- InternetActu.net <br />
 +
- L'observateur<br />
 +
- ArtPress Posts<br />
 +
- Le Figaro : La Une<br />
 +
- FrenchWeb.fr<br />
 +
- Le lab Europe1<br />
 +
- Cultureveille<br />
 +
- A la Une Libération<br />
 +
- Presse-Citron<br />
 +
- GNT - actualités<br />
 +
- Madyness <br />
 +
- Ufunk<br />
 +
 
 +
Le protocole le plus simple : OAI-PMH (Open Archie initiative Protocal for metadata Harvesting) <br />
 +
protocle qui permet l'interopérabilité entre un entrepôt est un moissonneur. L’entrepôt produit les données, le moissonneur les collecte. <br />
 +
Les verbes sont des instructions données à l’entrepôt, ou des question posées par le moissoneur à l’entrepôt. La première question que l'on pose c'est "Identify". <br />
 +
Cela permet à des sites tels qu'Isidore de moissonner des milliers d'autres sites à partir des métadonnées.
 +
 
 +
=Les systèmes d'informations=
 +
 
 +
C'est l'ensemble des informations que manipulent l'entreprise, la structure de ces informations, et leur traitements qu'on leur imposent. <br />
 +
L'ensemble du système des information c'est l'addition de tous les Workflow et de toutes les informations. <br />
 +
Dans toute structure il y a un grand systèmes d’informations. On intervient en permanence dans ces informations, quoi que l'on fasse. <br />
 +
 
 +
=Les Bots Wikipedia=
 +
 
 +
Loveless est un des bots de Wikipedia. Ce bot s'occupe de souhaiter la bienvenue aux nouveaux contributeurs.
 +
Vous pouvez trouver l'ensemble des bots [https://fr.wikipedia.org/wiki/Wikip%C3%A9dia:Bot ici]. <br />
 +
 
 +
 
 +
=Les bonnes pratiques =
 +
 
 +
Il ne faut pas faire de redirection de lien en mettant "cliquez ici". C'est une mauvaise pratique en communication. <br />
 +
Le texte cliquable est considérer comme une étiquette décrivant le système. Il est considérer comme décrivant le texte vers lequel nous sommes redirigé grâce à ce lien. <br />
 +
Ensuite, lorsque l'on permet de télécharger le PDF, il faut avant tout que les informations soient présentes correctement dans le format HTML. <br />
 +
 
 +
Opquast : a fait de manière collaborative une construction de bonnes pratiques pour le web. Ils en ont produit un livre : "Qualité Web". <br />
 +
L'ensemble de ces bonnes pratiques sont des évidences, mais beaucoup de sites de les respectent pas. <br />
 +
Les bonnes pratiques ont été classées en différents critères : <br />
 +
- Qualité Web<br />
 +
- Web Mobile<br />
 +
- SEO<br />
 +
- Performance<br />
 +
 
 +
Pour chaque pratique, le site nous explique les objectifs et les solutions techniques.

Version actuelle datée du 15 janvier 2016 à 10:54

Intervenant

Marin DACOS
Architecte des systèmes d'information - Chercheur au CNRS
Son conseil : Pour créer des projets intéressants il est nécessaire et important de cumuler les compétences

OpenEdition

OpenEdition est une marque déposée qui veut dire "tirage illimité".
Ce nom vient du fait qu'en édition classique nous faisons toujours des tirage en édition limité.
En effet, le tirage illimité n'existe pas dans le domaine du papier. Mais il est possible dans le domaine du numérique.

L'économie de la rareté

L'économie de la rareté a construit le modèle économique de l'édition papier.
Voici le principe : Lorsqu'un bien est rare, plusieurs personnes sont en concurrence pour ce bien, pour le posséder.
C'est sur cette propriété que le modèle économique de l’édition et de la presse s'est construit.
Mais dans le modèle du numérique, on passe d'une économie de la rareté à une économie de l'abondance car le bien est quasiment multipliable à l'infini.
Par exemple, lorsque l'on envoie un PDF, on ne s'en dépossède en réalité pas.

L'économie de l'attention

Nous passons donc du principe de l'économie de la rareté à une économie de l'attention. On cherche à attirer l'attention du public. En effet, avec la multiplication des biens accessibles par le développement du numérique et d'Internet, cette attention devient rare. Il est difficile pour le bien d'attirer l'attention car le nombre de bien est très important.
Il est donc nécessaire de prendre en compte ces éléments pour repenser de nouveaux modèles économiques pour la presse et l'édition. Ce nouveaux modèles sont absolument nécessaires pour que les structures survivent.

Face à cette problématique des structures comme Le Monde.fr ou Libération par exemple, se sont tournés vers un modèle hybride oscillant entre accès payant et accès gratuit. Ils réussissent donc à toucher beaucoup de lecteurs car les contenus sont ouvert mais ils créent une certaine frustration en bloquant l'accès à certains contenus et ainsi pousser les internautes à s'abonner.

Le numérique permet de également de faire de ces biens, des biens non rivaux. Bien rival : Lorsque je donne un bien, je m'en dépossède.
Bien non rival : lorsque je le donne, je ne m'en dépossède pas. La connaissance est un bien non rival.
Le numérique remet donc la connaissance et le support de cette connaissance sur un même pied d'égalité.

Les modèles Freemium

Les modèles Freemium sont des modèles économiques hybrides permettant de créer de l'attention. Dropbox en est un exemple.
Lorsque l'on s'inscrit gratuitement, Dropbox nous permet d'accéder à toutes les fonctionnalités du service, mais nous ne disposons que de 2Go de stockage. Ainsi pour disposer d'un plus grand espace de stockage nous devons passer d'un compte gratuit à un compte payant premium.
C'est donc une expérience complète mais non intense.
Skype était à la base le plus grand projet de Freemium. Certaines fonctionnalités étaient payantes comme la visio-conférence à plus de trois personnes.
Dans L'Open Edition il est important que les lecteurs lisent. Puis il faut trouver des solutions Freemium pour le financement.

Le Pay to Win

Le Pay to Win est différent du modèle FreeMium. Rappelons-le ce dernier offre une expérience complète du service mais en s'abonnant à un compte Premium, le service devient plus intense.
Le Pay to Win se différencie dans le sens où, comme son nom l'indique, si l'on ne paye pas on ne peut rien gagner.

L'exemple du New York Time

Nous l'avons donc compris, le Freemium permet de créer de la rareté tout en offrant une expérience complète dans le monde free. Mais en payant nous accédons à un niveau supérieur d'expérience.
Le New York Time à trouver une solution. Ce dernier comptabilise le nombre d'article qu'un lecteur va lire grâce aux cookies. Au 10ème article, le site bloque l'accès aux contenus des articles au lecteur.
En effet, NYT a compris que ce lecteur est donc réellement intéressé par les articles, il ne les consulte pas seulement pour quelques recherche. Le lecteur est donc un producteur de valeur.
Ainsi le NYT demande alors à ce lecteur de payer pour accéder aux contenus. Et ainsi participer à la rémunération des journalistes.


L'analyse du CNRS :

Les coûts de transaction sont très important dans l'écriture électronique.
Ce sont des coup qui sont décisifs. Ils représentent le coût matériel, le temps que je passe à faire une transaction avec quelqu'un.

Là où le NYT se situe dans une logique B2C (business for consumers), car le NYT disposes de nombreux utilisateurs, le CNRS est plutôt dans une logique B2B. En observant les usages, le CNRS a remarqué que les usages intensifs sont en particulier liés aux professionnels. Le CNRS a donc décidé de s'adresser aux bibliothèques universitaire.
Ils ont donc créeé des services pour ces professionnels. Et ce terme de services est très important. En effet, le CNRS ne vends plus de contenus, mais de vends des services.
Voici leur constat : Les chercheurs sont donc leur cible. En analysant leurs pratiques, ils se sont aperçu que ces chercheurs ont une grande tendance à créer des bibliothèques. Et par le numérique, ils ont envie de disposer librement du livre ou la revue dans leur disque dur. A la fois pour l'annoter mais aussi pour pouvoir l'emporter partout sans forcément avoir de connexion Internet.
Le CNRS s'est donc appuyer sur ce constat pour créer leur modèle économique : l'accès aux fichiers restent gratuits mais pour télécharger les fichier PDF ou EPUB il est nécessaire d'être abonné.
Mais d'autres services comme les statistiques sont également payants.


Plusieurs plateformes ont été conçues par le CNRS:
- Revoues.org
- Calenda
- Hypothèses
- OpenEdition Books

Un peu d'histoire ...

Né dans les années 2000 ,Wikipedia est le modèle le plus achevé, le plus moderne d'édition électronique.
Cependant un des premiers gros projet d'édition électronique remonte au projet Gutemberg en 1971. Un étudiant se décide alors de taper la déclaration d'indépendance des Etats-Unis et se met à la partager avec d'autres personnes. Mais le plus vieux projet d' édition électronique semble remonter à 1949.
Un ecclésiastique italien se lie alors avec IBM qui construit et vends à l'époque des machines à écrire.
Celui-ci réalise l'index Thomisticus. C'est un projet qui à duré 30 ans et 56 volumes ont été crées. Il a ensuite été porté sur CDRom et cet index existe encore de nos jours.
Ces exemples permettent ainsi d'introduire l'histoire de l'édition Electronique qui se décompose en 3 temps.

Premier Age : la numérisation

C'est le 1er âge de l'édition électronique. On peut par exemple parler de Gallica qui est un projet de numérisation.
Puis Google s'est lancé dans un gigantesque programme de numérisation du savoir humain : Google Books.

L'édition telle qu'on la conçoit au 21e siècle, comporte des couches de traitements que l'on n'imaginait pas avant.
On appelle cela la "fouille de texte" ou "text mining". On essaie de sortir du texte de nombreuses informations.
Mais cela est possible dans la mesure où l'on a numérisé le texte. Google par exemple fait de la fouille de texte.
Le Text Mining permet entres autres d'analyser les langues, et produire du sens.

Voici d'autres exemples de Text Mining:
- Google Ngram : travaille sur le corpus de Google Books qui a fait de la reconnaissance optique de caractère (OCER). Puis Ngram analyse le nombre de fois qu'un mot ou un expression est utilisé dans l'ensemble du corpus à des moments donnés.
- OpenEdition Lab / Bilbo : C'est une cellule de R&D interne au CNRS.


Deuxième Age : l'édition nativement numérique

Ici, nous utilisons des fichiers numériques dès le début. L'édition nativement numérique date d'environ du milieu des années 80 avec l’apparition du Macintosh.

===Le WYSIWYG : What you see is what you get===. C'est une interface qui permet de sélectionner une zone et modifier l'apparence graphique du texte. Permet la visualisation instantanée par exemple. Mais le défaut étant que l'on ne maîtrise pas le code qu'il y a derrière. Le code doit être perçu comme moyen pour aboutir à une fin, si l'on ne le maîtrise pas, c'est lui qui nous maîtrise. Word propose par exemple ce système lorsque l'on veut mettre des caractères en italiques.

Workflow

Le WorkFlow est un circuit de traitement intégrant toutes les étapes allant l'auteur au livre final. Il est linéaire, avec des tâches en série faites les unes après les autres.
Le multisupport introduit la rupture de charge. Concept notamment utilisé dans le transport fluvial. Cela implique des coûts supplémentaires. Toutes les ruptures de charge demande de la coordination et augmente les délais et le coût.
C'est une système d'information allant d'un point à un autre.
Système de transmission, d'échange et de modification de l'information.
Mais ce n'est pas quelque chose de seulement assignable au Web
Dans l'édition numérique ces ruptures de charges sont importantes : produire les métadonnées, les formats différents, l'archivage ...


Les métadonnées : les données sur les données. Sur le livre : titre, auteur, poids, prix....
Le DUBLIN CORE : un système de métadonnées.

FDCTT : faire et défaire c'est toujours travailler.
Découpage en 3 âges fait par Pierre MOUNIER et Marin DACOS

SSP : Single source publisher

C'est un système d'information. Il est pensé par un architecte des système d'information. Dans ce système tout est lié et où il n'y a pas de ruptures de charges. On créer un fichier pivot sur lequel les corrections vont être faites.
Une fois ces correction faites, elles vont être appliquées à tous les fichiers et tous les supports. Il est en fait propagé dans tout le système.
Nous sommes donc dans un système où il n'y a qu'une seule source.
Souvent les formats pivots sont des formats en XML.
Dans le format pivot on est concentré sur le fond. Ce format est lié à plusieurs autres formats qui permettent alors de travailler la forme. Cela permet de différencier la structure du document et l'apparence.

Troisième Age : L'édition nativement en ligne

L'édition nativement en ligne s'appuie sur le nombre de producteur. C'est le cas de Wikipedia par exemple.
C'est une forme qui est commentable.
Par exemple, Wikipédia conserve toutes les interventions, et toutes les versions qui se font sur une page.
On peut converser avec l’auteur des propos, modifier le texte, annuler sa modification. Une régulation collective se met en place. Chacun peut contribuer et améliorer le texte.

L’intelligence collective est supérieure à la somme de l’intelligence individuelle.

Pierre Levy : auteur de l’intelligence collective.

===Principe du RetroLien===

Pour comprendre ce principe voici un exemple : un article est écrit sur un blog A par rapport à un sujet du blog B, un Ping est alors envoyé vers le blog B. Le blog B reçoit un commentaire.
Il peut accepter ou non le commentaire. S'il accepte, le commentaire renvoi alors vers le blog A.


Caractéristiques de l'édition électronique

Première Caractéristique

Quasiment immatériel : on a besoin des machines pour accéder aux fichiers. Mais aussi des data center. Data center : contient des centaines de milliers de serveurs. Mobilise énormément d’énergie.

Deuxième Caractéristique :

Caractéristique Reproductible quasiment sans cout : mais en réalité cela coute de l’énergie.

Troisième Caractéristique

Circule avec une grande fluidité.

Quatrième Caractéristique

Il peut se doter de couches successives.

Il contient des couches d'informations, il y en a plusieurs et ces couches sont vivante. On parle de vie documentaire.
Cela existait déjà dans l'édition classique. Une fois conçu les livre avait une vie. Les gens y écrivait des notes marginales. C'est une couche informationnelle qui se rajouter sur le livre.
Dans le monde numérique on rentre dans un monde multi factoriel, multi support et multi couches.

Différentes couches :
- La base de l'information est le texte
- Métadonnées bibliographique
- Annotations venant du lecteur. Ce peut être des mots-clés, des résumés
- Annotations de type commentaires rétro-lien
- Annotations automatiques du type text-mining
- Page Rank : Ce sont les notes que donne Google à toutes les pages web du monde. Cette note s'appui sur le principe de base qu'un lien vers ce site implique une notoriété du site en question. Mesure la notoriété en donnant une note entre 1 et 10. Maintenant, la vitesse de réaction du serveur est devenu également un critère (si le site est long à chargé, les internautes ont tendance à quitter la page). Google mesure aussi le nombre de site. Il calcule la fréquentation des sites. Si le site n'est pas Mobile Friendly (facile à consulter sur un téléphone), Google ne va pas non plus mettre en avant le site.

Toutes les couches en dehors du texte sont des métadonnées.
L'algortithme panda de Google permet de contrer les fermes de contenus : des sites qui copie les contenus des autres sites pour attirer l'attention des Internautes. C'est une usurpation d'identité.
SEO : Search engine optimization. C'est la plus grosse bulle internet que l'on est vu depuis 15 ans. Les gens qui vendent une remonté dans les liens google, beaucoup mise sur la redirection de lien. Des sites sont conçu dans le but de créer de nombreux liens sans aucun autre contenu dans ces sites.

Ce sont donc des couches qui qualifie la notoriété, la lisibilité, la visibilité du texte. En outre la confiance que l'on peut lui accorder.

Cinquième Caractéristique

L'hypertextualité


Sixième Caractéristique

L'indexabilité
Il est indexé. Ce qui permet de classer et hiérarchiser les contenus.
Ce sont des tiers qui créer ces indexations.

Septième Caractéristique

Le texte électronique relève de l'économie de l'attention.



Le texte électronique idéal

Qualité 1 : lisible

Il doit être lisible

- Le texte électronique doit être dans une format ouvert. HTML est le format de rendu ouvert par excellence.
La recette de cuisine pour produire le format est publique. Tout le monde va pouvoir créer un fichier sans avoir a utiliser les logiciels sources. Les spécifications techniques sont donc connu.
Le reverse engineering : essaye de comprendre comme un fichier est conçu sans avoir accès à l'encodage.
Pour wikipedia par exemple, le code de base est le code wiki. Puis ce code est interprété pour produire le rendu. Qui est ici le HTML
Autres formats ouverts : PDF, XML, TXT, EPUB, JPEG,
DRM (Digital Rights management) : Crypte les fichiers, il le rend donc illisible. Le DRM est un système de verrou numérique qui srypte les livres acheté, qui le rend techniquement illisbile et qui le decrypte à la condition que le système a acquis la conviction que l'on est le droit de le lire. Adobe Digital Edition permet de décrypter les DRM. Il contacte donc les fournisseurs pour voir si l'on a bien le droit d'acquerir ce contenu. L'objectif est d'eviter de donner le fichier à quelqu'un d'autre ou de le lire sur d'autres machines de marque concurrente.
Numilog est une société qui vend des livres chronodégradable. Il détruisent le livre au bout d'une durée déterminée.
Water Marking (tatouage numérique) : Pour éviter que le livre circule trop, il rajoute le nom de l'acheteur. C'est un système qui évite le DRM. Et incite la responsabilisation de l'acheteur du livre et qui n'altère pas la lisibilité du livre.

Il doit pouvoir être recomposable

La mise en page doit s'adapter au terminal de lecture.
Le PDF ne permet pas de faire cela car c'est un format dédier à l'impression.
Au contraire, l'EPUB est recomposable.
Depuis 2005 tous les sites doivent être accessibles aux personnes en situation de handicap visuel. Le synthétiseur vocal ne va pas pouvoir comprendre le PDF. Mais une page web répondant au W3C qui édite des normes d'accessibilité va le permettre. Pour lire une image par exemple on rajoute des métadonnées pour décrire textuellement cette image.
Touts les sites conforme à ces normes peut être consultable sans souris, sans touchpad. On peut y naviguer qu'avec une seule touche.


Il doit être conservable

"Code is law", le code c'est la Loi. (LESSIG)Le code peut s'imposer à nous sans qu'on en est le choix. Le nouveau pouvoir est donc dans les algorithmes.
Il y a quelques années, Amazon a vendu le livre 1784. Amazon s'est rendu compte qu'il n'en avait pas le droit patrimonial d'exploitation. Amazon a donc arreter de vendre le lire mais ont aussi détruit tous les livres acheté par les lecteurs dans leurs liseuses grâce au DRM.

Qualité 2 : Manipulable

Il doit être indexable et cherchable

Les moteurs de recherche parcourent les contenu du web , les copie dans des serveurs et en font du text-minign dessus.
Le robots.Txt : C'est un fichier que l'on met à la racine du serveur et qui dit au moteur de recherche qu'ils ont le droit de lire les contenus, et plus particulièrement quels contenus ils ont le droit de lire.
Cela empêche d'une part le moissonnage agressif. Et d'autre part, empêche les mauvaises pratiques comme empêcher un service concurrent d'indexer le site
Tout les contenus protégés par les DRM ne seront pas cherchable par les moteurs de recherches de notre environnement de travail sur ordinateur.

Copiable et Collable

Le PDF n'est pas prévu pour le copier-coller. Certains sites web le bloque également grâce à des types de DRM. Les livres en streaming ne le permettent pas non plus.
La possibilité légale de copier-coller : En France existe le droit d'auteur. N'importe quel document que l'on écrit de notre main par exemple, nous sommes protégés. On dispose de ce droit pendant toutes notre vie et 70 ans après notre mort. Il est protégé selon le registre moral et patrimonial. Le droit moral est le fait que l'on reconnaisse la paternité de la création, c'est un droit incessable et éternelle. Le droit patrimonial, c'est le droit d'exploitation de l'oeuvre, tous les usages que l'on peut avoir dans la vie courante. C'est un droit cessible. Il y a différents niveaux de droit d'exploitation.
Mais a partir où l'on se trouve dans un environnement numérique, on a de nouveaux coût de transaction (un contrat par exemple qui stimule l'autorisation d'exploitation).
LESSIG à inventé les licences Creatives Commons. Elles permettent de déclarer à l'auteur de façon unilatéral qu'il cède des droits d'utilisation à qui veut et sans contrat. Là aussi il existe différents niveau de protection.

CC = Creative commons
BY = citer l'auteur
NC = Non Commercial
ND = Non modifiable
SA (ShareLike) = la personne qui utilise le contenu, doit le publier sous la même licence.

Wikipedia : CCBYSA
Pour que les contenus circulent le plus possible, Wikipedia autorise les utilisations commerciales.

Annotable et inscriptible

Qualité 3 : Citable

Doit être identifiable

Il faut que l'on puisse lui donner un identifiant unique. L'URL est un identifiant, c'est le plus couramment utilisé.
Le web s'appui sur une architecture qui s'appelle le DNS (Domain name System). C'est une grande base de donnée à 2 colonnes. D'un côte nous trouvons le nom du domaine, de l'autre côté l'adresse IP.
Lorsque l'on note l'adresse du site, le système va le convertir en adresse IP et se connecte au serveur du site. Puis l'information revient et affiche les informations sur la page.
Les paquets de données que nous envoyons transite par le meilleur chemin qu'il trouve. Ce chemin s’appelle un Trace-Route.
Nous devons lire une URL de la droite vers la gauche.
Le TLD : top level domain. (.fr, .en, .us....). C'est l'état qui autorise le nom de domaine. Viens ensuite le domaine, et parfois le sous-domaine.

Doit être correctement décrit

C'est lui donner une forme et des métadonnées qui sont interprétables.

1 : Les caractères doivent être correctement encodés.

Le code ASCII : système rudimentaire qui existe depuis 40 ans. Il permet d'encoder les lettres en chiffres. Il est composé de 255 caractères.
Cependant on s'est rapidement mis à traduire d'autres caractères tels que le cyrillique par exemple. Le problème étant que les caractères étaient encoder avec les même nombre que pour les caractères arabes. Donc il était impossible de communiquer entre différents types de langues. Nous avons donc inventé l'UNICODE.
L'UNICODE : Il contient des centaines de millieurs de code qui permet une coordination mondiale. Il a unifier tous les codages du monde. Il y a donc maintenant un code unique pour un caractère unique.

2 : Donc il ne suffit pas seulement de correctement l'encoder, il faut également le renseigner le format.

3 : Renseigner les métadonnées
Le DUBLIN CORE : c'est un système de métadonnée qui connait 15 balises/attributs pour renseigner un document. Il y a plusieurs syntaxe qui existe.
Prenons un exemple :
DC.TITLE LANG="FR"="STAR WARS 7"

Le Dublin Core qualifié permet d'inventer des balises, pour les sous-titre par exemple.
DC.TITLE LANG="fr"="STAR WARS 7"
DC.TITLE.SUBTITLE LANG="fr"="le réveil de la force"

Pour les dates il est bien de déclarer la stucture car il y a différentes façon d'écrire une date.
DC.DATE SCHEME="W3CTDF"="2016/01/16"

Dublin Core a un avantage : c'est le format de métadonnées rudimentaire utilisé à peu près partout.

4 : Interopérabilité
Capapcité de deux machines de communiquer entre elle.

Le Flux RSS
Agréger des flux pour être au courant dans nouveautés. Le RSS (Really Simple Syndication) emmène le contenu sur nos téléphones, nos ordinateurs. Quelques flux RSS intéressants :
- InternetActu.net
- L'observateur
- ArtPress Posts
- Le Figaro : La Une
- FrenchWeb.fr
- Le lab Europe1
- Cultureveille
- A la Une Libération
- Presse-Citron
- GNT - actualités
- Madyness
- Ufunk

Le protocole le plus simple : OAI-PMH (Open Archie initiative Protocal for metadata Harvesting)
protocle qui permet l'interopérabilité entre un entrepôt est un moissonneur. L’entrepôt produit les données, le moissonneur les collecte.
Les verbes sont des instructions données à l’entrepôt, ou des question posées par le moissoneur à l’entrepôt. La première question que l'on pose c'est "Identify".
Cela permet à des sites tels qu'Isidore de moissonner des milliers d'autres sites à partir des métadonnées.

Les systèmes d'informations

C'est l'ensemble des informations que manipulent l'entreprise, la structure de ces informations, et leur traitements qu'on leur imposent.
L'ensemble du système des information c'est l'addition de tous les Workflow et de toutes les informations.
Dans toute structure il y a un grand systèmes d’informations. On intervient en permanence dans ces informations, quoi que l'on fasse.

Les Bots Wikipedia

Loveless est un des bots de Wikipedia. Ce bot s'occupe de souhaiter la bienvenue aux nouveaux contributeurs. Vous pouvez trouver l'ensemble des bots ici.


Les bonnes pratiques

Il ne faut pas faire de redirection de lien en mettant "cliquez ici". C'est une mauvaise pratique en communication.
Le texte cliquable est considérer comme une étiquette décrivant le système. Il est considérer comme décrivant le texte vers lequel nous sommes redirigé grâce à ce lien.
Ensuite, lorsque l'on permet de télécharger le PDF, il faut avant tout que les informations soient présentes correctement dans le format HTML.

Opquast : a fait de manière collaborative une construction de bonnes pratiques pour le web. Ils en ont produit un livre : "Qualité Web".
L'ensemble de ces bonnes pratiques sont des évidences, mais beaucoup de sites de les respectent pas.
Les bonnes pratiques ont été classées en différents critères :
- Qualité Web
- Web Mobile
- SEO
- Performance

Pour chaque pratique, le site nous explique les objectifs et les solutions techniques.