Cours Open Édition Clélie : Différence entre versions

De Learning Lab Environnements Connectés
Sauter à la navigation Sauter à la recherche
Ligne 31 : Ligne 31 :
 
Fouille de texte - text mining (/data mining - big data).<br />
 
Fouille de texte - text mining (/data mining - big data).<br />
 
On extrait de nouvelles données à partir de données existantes (stats) - idem pour les textes.
 
On extrait de nouvelles données à partir de données existantes (stats) - idem pour les textes.
 +
 +
Google Ngram : stats à partir du corpus de GoogleBooks (OCR Optical Caracter Recognition - reconnaissance optique de caractère : on reconnait les caractères image)<br />
 +
(attention, composition du corpus ?)<br />
 +
Outiller le corpus <=> grandes possibilités (ex : [http://bilbo.hypotheses.org/ Bilbo] Open Edition)<br />
 +
<br />
 +
 +
WYSIWYG (what you see is what you get) : encodage => PAO

Version du 13 janvier 2016 à 16:29

Mercredi 13 janvier 2016, après-midi

Cours par Marin Dacos, Open Édition.

Les modèles

Économie de la rareté : objet en unique exemplaire, ne peut être possédé que par 1 personne à chaque fois. L'objet est rare. (biens rivaux)
Économie de l'attention : objet disponible pour tous (numérique). "L'attention" est alors la chose rare, car la ressource, elle, est infinie. Il faut attirer l'attention. (bien non rival)
= changement de paradigme.

Pour la presse par exemple, besoin d'inventer de nouveaux modèles économiques.

Autres modèles :

  • hybride : contenus payants et gratuits coexistants
  • Freemium : tout accès gratuitement (Free), mais exp amélioré en payant (Premium). (≠ PayToWin) Moyenne de 5-8% des utilisateurs qui passent Premium.


Importance du moment de la transaction (ex : NewYorkTimes fait payer pour lire les articles à partir du 10e, et non du 1er - logique B2C).

Cible OpenÉdition : B2C (bibliothèques universitaires).
Modèle Freemium : lecture HTML 100% gratuite. Premium : possibilité de DL en PDF, EPub (création d'une bibliothèque perso) + accès aux statistiques statistiques + format MARC (biblio).
Contenu gratuit, services payants.
Site compatible à la fois pour les biblio et pour les particuliers (compatible Apple bookstore ou autre).

Un peu d'histoire

  • Roberto Busa (1946) : Index Thomisticus - numérisation, données portées sur CD-rom
  • Projet Gutemberg (1971) : livres tapés par des gens et mis à dispo de tous.
  • Gallica : numérisation JPEG (BNF)
  • GoogleBooks


Fouille de texte - text mining (/data mining - big data).
On extrait de nouvelles données à partir de données existantes (stats) - idem pour les textes.

Google Ngram : stats à partir du corpus de GoogleBooks (OCR Optical Caracter Recognition - reconnaissance optique de caractère : on reconnait les caractères image)
(attention, composition du corpus ?)
Outiller le corpus <=> grandes possibilités (ex : Bilbo Open Edition)

WYSIWYG (what you see is what you get) : encodage => PAO