Accueil > Formation > Supports de cours > Méthodologie > Composition documentaire : aspects techniques

Composition documentaire : aspects techniques

Informations sur le document

Rédaction : le dimanche 8 mars 2020, par DEGOUL Samuel

Licence : CC BY-SA 4.0  (voir le contenu)

Cet article vise à expliquer les principes de composition documentaire, texte, support de présentation orale..., sur le plan technique, orientés vers une application en science même si la grande majorité est aussi applicable pour tout autre domaine.

Ce dont cet article ne parle pas :

  • principes de rédaction scientifique (plan IMReD...),
  • soumission d’un article pour publication.

À faire / compléter :

  • écrire une section concernant l’utilisation des fonctionnalités de style de paragraphe d’un logiciel de traitement de texte,
  • fournir des exemples de documents,
  • expliquer en quoi LibreOffice n’a pas à rougir face à Microsoft Word, qu’on dit classiquement plus puissant et plus intuitif (c’est partiellement vrai, mais pas pour tout, et très rarement du point de vue de l’utilisateur « moyen » en faisant une utilisation « moyenne »).

1 Format de fichier en bureautique

1.1 Format de fichier : quésaco ?

1.1.a  Texte brut

Explication
Il s’agit d’un fichier contenant seulement les caractères composant les mots, sans mise en forme.

Attention, certains caractères sont peu ou pas visibles mais sont bien des caractères au sens informatique : tabulation, retour à la ligne, espace insécable...

Utilisation
Contrairement à ce que l’on peut croire, les fichiers en texte brut sont partout dans notre ordinateur, et bien plus fréquents que les documents habituels de bureautique. Il peut s’agir de :

De tels fichiers sont lisibles par un humain bien sûr, mais aussi par la machine ce qui en fait tout leur intérêt.

Type de fichier :

  • le fameux format « TXT » : fichier avec l’extension .txt,
  • mais en fait plein d’autres, notamment pour tous les types de code informatique. Par ex., pages des sites web (format HTML), informations structurées par des « balises » libres tel XML...

Notion d’encodage
Explication : en informatique, toute information est utilisée sous forme binaire. On entend par « encodage » la façon dont sont codés les caractères avec une suite de « 0 » et de « 1 ».
Les principaux encodages qui nous concernent sont :

  • ASCII : le plus simple, ne permet d’encoder que les chiffres, les lettres de l’alphabet non accentuées et les caractères courants de ponctuation. Bien adapté pour la langue anglaise, il rencontre vite des limites du fait de l’impossibilité de gérer les caractères « spéciaux ».
  • ISO 8859-1, aussi appelé « Latin 1 » ou « Europe occidentale » puisqu’il couvre les caractères que l’on rencontre dans les langues de cette région du monde.
  • UTF-8 (Unicode) : permet de coder tous les caractères d’écriture du monde, langues non alphabétiques incluses. C’est donc le plus utilisé, aux dépends des deux précédents.


Quand un logiciel nous demande de choisir un « encodage », préférer systématiquement l’UTF-8.

Tout le monde a déjà rencontré un document, une page web ou un courriel s’affichant mal du fait d’erreur d’encodage. L’image ci-dessous en donne une illustration.

Erreur d’encodage : le logiciel essaie d’appliquer un encodage ISO 8859-1 sur un document encodé avec UTF-8.

Logiciel pour l’édition de texte brut = « éditeur de texte »
Il s’agit souvent d’un éditeur spécialisé de code informatique, mais certains sont généralistes, tel le bloc-note de Windows (très limité au demeurant).
Liste absolument pas exhaustive :

  • sous Windows :
    • bloc note (Notepad)
    • Notepad++
  • logiciels libres, fonctionnant aussi sous GNU/Linux :
    • Gedit,
    • Geany,
    • Vim,
    • Emacs.
      Les deux derniers sont très puissants mais de maîtrise difficile et sont donc utilisés par les geeks.

1.1.b Fichier texte formaté

Explication
Ce type de fichier contient :

  • caractères composant les mots bien sûr,
  • mais aussi toutes les informations de mise en forme des caractères (par ex. type de police, graisse de la police, couleur...), des paragraphes, des pages...,
  • ainsi que d’éventuelles métadonnées : auteur du document, date de création ou de modification...

Utilisation
Il s’agit de l’utilisation classique connue de tous pour la rédaction de documents « agréables à voir », en vue d’une lecture humaine (et seulement ça : un programme informatique a du mal à en extraire des informations, même si ce n’est pas impossible).

Structure du fichier :

  • contenu en mots, avec les mêmes notions d’encodage des caractères,
  • « encapsulation » du texte par les instructions de formatage via des fichiers d’instructions
    • en texte brut,
    • ou directement au format binaire.
Format OpenDocument Text = archive au format ZIP contenant de nombreux fichiers XML

Nombreux formats existants
Selon les utilisations :

  • document texte « classique »,
  • support de présentation orale [1],
  • livre électronique (eBook),
  • ...

Souvent propres à un logiciel particulier, mais pas toujours, surtout si la spécification du format est ouverte.

Logiciel = traitement de texte bureautique
Par ex., parmi les plus connus :

  • LibreOffice,
  • Microsoft Word.

1.2 Quel format utiliser pour éditer un document texte ?

1.2.a Texte brut

Avantages :

  • simplicité,
  • éditable avec n’importe quel logiciel éditeur de texte [2],
  • taille de fichier très réduite,
  • pérennité : la lecture du fichier est garantie à l’avenir, car celle-ci ne dépend pas d’un format bureautique ni d’un logiciel de traitement de texte particulier.

Inconvénients :

  • lisibilité médiocre,
    • du fait de l’absence de formatage du texte,
    • seul moyen de structurer le texte = sauts de ligne
  • peu connu [3].

En pratique :
Utilisation limitée à de petits documents
Par ex. :


Mais il faut savoir que ça existe et ce que c’est.

1.2.b Fichier texte formaté

Les formats de fichiers existants suivent des standards.


À propos des standards


Il est largement préférable, voire, en science, moralement obligatoire, d’utiliser un format suivant un standard ouvert, c’est-à-dire dont les spécifications peuvent être connues de tous pour pouvoir être appliquées par tous les éditeurs de logiciels.

Sinon :

  • ben, c’est comme si on nous demandait de nous exprimer dans une langue sans nous fournir de dictionnaire : ce n’est pas trop l’idée d’un travail scientifique,
  • on favorise le monopole commercial de l’entreprise à l’origine du standard. C’est le cas d’Office Open XML de Microsoft.

OpenDocument Format (ODF)

  • Il s’agit des fichiers avec les extensions :
    • .odt pour « OpenDocument Text » (document texte),
    • .odp pour « OpenDocument Presentation » (support de présentation orale),
    • .ods pour « OpenDocument Spreadsheet » (tableur),
    • ...
  • Avantages :
    • un vrai standard ouvert,
    • seul format recommandé pour les documents bureautique par le Référentiel général d’interopérabilité (Direction Interministérielle du Numérique et du Système d’Information et de Communication de l’Etat) [4],
    • les logiciels qui permettent au mieux de l’utiliser sont libres et gratuits.
  • Inconvénient principal : relativement peu connu, même si des institutions l’utilisent couramment (écoles, universités, gendarmerie nationale...).
  • Logiciels :

Office Open XML (OOXML)

  • Il s’agit des fichiers avec les extensions :
    • .docx pour les documents texte (Word),
    • .pptx pour les supports de présentation orale (PowerPoint),
    • .xlsx pour les documents tableur (Excel).

Et j’insiste sur le « x » à la fin de ces extensions. Les .doc, .ppt et .xls correspondent à d’autres formats très différents, bien que les mêmes logiciels puissent les produire, c’est-à-dire ceux de la suite Microsoft Office (voir infra).

  • Avantage : le plus utilisé, souvent inconsciemment puisque la suite Microsoft Office est le logiciel de bureautique le plus utilisé et qu’il s’agit de son format par défaut,
  • Inconvénients :
    • processus de normalisation douteux, et pas « neutre » car très lié à la suite Microsoft Office. Voir cet article concernant le processus de standardisation d’OOXML,
    • les spécifications sont si complexes et lourdes qu’en pratique, même Microsoft a du mal à les implémenter correctement,
    • non recommandé par le Référentiel général d’interopérabilité [7],
    • les logiciels permettant de l’utiliser au mieux (en pratique, Microsoft Word) sont propriétaires et payants.
  • Logiciels :


Ne pas confondre logiciel utilisé et format du fichier produit !

  • on peut éditer de l’OOXML avec LibreOffice, malgré quelques limitations de compatibilité (assez mineures, surtout des petits décalages de mise en page),
  • on peut éditer de l’ODF avec Microsoft Office ; mais s’attendre alors à de sérieuses limitations (quelques explications ici).


Note importante : formats fermés propriétaires

  • Les plus connus sont ceux utilisés par Microsoft Office < 2007, et qui ont malheureusement la peau dure et sont encore courants aujourd’hui : .doc pour les documents texte (Word), .ppt pour les supports de présentation orale (PowerPoint)... Il s’agit de formats fermés et binaires, dont la perennité n’est pas du tout garantie.
  • suite iWork d’Apple : Keynote, Pages...


Si vous vous souciez un peu de ceux avec qui vous partagez ces documents et souhaitez établir une gestion pérenne de vos documents, n’utilisez pas ces formats de fichiers, surtout pour un travail scientifique !

1.2.c Langages de balisage

Explication
Il s’agit de fichier en texte brut dont certains caractères, ou suite de caractères, ont une fonction de mise en forme et ne participent donc pas au contenu du message.

Par ex,

  • HTML : le texte entre les balises <H1> et </H1> correspond à un titre de niveau 1 d’une page web (pour le présent article, c’est son titre en haut de la page),
  • Markdown : l’encadrement d’un texte par ** correspond à une forte mise en évidence (gras).

Langages légers
Il s’agit de langages de balisage légers adaptés à l’édition de texte structuré mais de mise en forme simple.

LaTeX : la grande star de la composition documentaire
Présentation : il s’agit d’un système de composition documentaire très ancien (années 1980) qui fait, en pratique, le travail précis d’un typographe, avec toutes les règles de présentation que cela implique, et qui sont souvent mal gérées par les traitements de texte classiques.

Domaines d’utilisation :

  • sciences « dures », surtout du fait de l’édition de formules mathématiques, et monde de l’enseignement,
  • mais pas seulement : écriture musicale, édition professionnelle...

LaTeX est adapté à des documents structurés de toute taille, d’une lettre à un livre complet, pour diverses utilisations :

  • document rédigé classique : livre, mémoire, thèse, article,
  • support de présentation orale,
  • rapport d’analyses statistiques (dans une optique de recherche reproductible),
  • partition musicale,
  • ...

Fonctionnement : la création du document s’effectue en deux temps :

  1. composition dans un langage de balisage = code source,
  2. compilation par l’ordinateur vers un langage de description de page (par ex. PDF).

Avantages :

  • qualité de rendu inégalable. Il est même difficile de faire un document mal présenté ! [8]
  • approche WYSIWYM (cf. infra),
  • le code source est du texte brut donc :
    • fichier très léger,
    • pérennité du document,
    • gestion de version par des outils génériques puissants tel git.

Inconvénients :

  • très peu connu hors de ses milieux de prédilection,
  • courbe d’apprentissage non négligeable.

Logiciels nécessaires :

  • composition : éditeur de texte brut, de préférence spécialisé, permettant une coloration syntaxique des « balises » et des raccourcis pour aider la composition (voir une liste ici),
  • compilation : « distribution » LaTeX.


De nombreuses ressources disponibles sur ce site web été réalisées avec LaTeX. C’est le cas de la plupart des supports de présentation orale des cours que j’ai mis en ligne et des rapports d’analyses statistiques. Souvent, je mets à disposition le code source.

1.3 Dans quel format distribuer le document ?

Il y a deux cas de figure :

1.3.a Si le document est destiné à être modifié par d’autres

Utiliser alors le format d’édition original, bien entendu.
Mais s’assurer que les autres personnes aient la possibilité d’éditer sereinement le fichier, c’est-à-dire qu’elles disposent d’un logiciel capable de gérer ce format !
Donc, hors contexte d’entreprise ou de groupe ayant accès aux mêmes logiciels, envoyer un document dans un format fermé tel ceux de Microsoft est :

  • pour qui ne connaît pas le problème (donc pas vous, qui lisez cet article) le témoin de son ignorance,
  • pour qui connaît le problème (donc vous) un manque d’empathie pour vos correspondants et/ou une attitude passive, préfèrant succomber au poids des habitudes au lieu de réfléchir et de faire un peu d’effort pour s’y mettre.

1.3.b Si le document n’est destiné qu’à la consultation (lecture seule)


C’est le cas le plus fréquent !

Par ex.

  • publication,
  • support de présentation orale,
  • affiche d’information,
  • notice d’utilisation,
  • ...

Utiliser dans ce cas le format PDF, assurant une uniformité du rendu pour tous les lecteurs quelque soit le logiciel de lecture du PDF utilisé.

2 Étapes de la composition

2.1 Plusieurs étapes distinctes

  1. organiser les idées,
    • définir le(les) message(s),
    • structurer le document,
  2. rédiger,
  3. mettre en forme,
  4. relire.

2.2 Deux approches

Composition en un seul temps : What You See Is What You Get (WYSIWYG)
On visualise le rendu final pendant la composition (texte et mise en forme à la fois)
Ex.

  • texte brut non formaté,
  • texte formaté avec les logiciels de bureautique habituels.


Composition en deux temps : What You See Is What You Mean (WYSIWYM)

Rédaction puis transformation vers une version destinée à la lecture.

Ex.

  • LaTeX,
  • autres langages de balisage.

Comparaison entre ces deux approches
Au premier abord, l’approche WYSIWYG paraît la plus simple. C’est en effet la plus connue, mais pas forcément la meilleure.

En effet,

  • l’approche WYSIWYM favorise la distinction entres les étapes « rédaction » et « mise en forme », et force aussi à organiser les idées avant la rédaction,
  • la mise en forme est là pour contribuer au message, et non pour faire joli. Or la mise en forme manuelle avec les logiciels bureautique :
    • entraîne souvent une perte de temps puisqu’elle est réalisée en même temps que la rédaction et que les fonctionnalités de styles de paragraphes sont souvent peu voire pas utilisées, là où les langages de balisage ne laissent pas le choix,
    • fournit un résultat moins bon qu’une mise en forme professionnelle respectant les règles typographiques, dont certaines sont spécifique de la langue du document (on pense particulièrement à LaTeX).

Donc l’approche WYSIWYM est plus efficace, à condition de l’apprendre (déroutant au début).

Un bonne référence : Traitements de texte : stupides et inefficaces, notamment le chapitre « II-A. Composition et typographie ».

2.3 Exemple : composition du présent article

  1. Organiser les idées : cette étape à été réalisée à l’aide de cette carte heuristique
    Carte heuristique (état du 08/03/20)

    Contenu du fichier = archive ZIP, avec :

    • la carte heuristique dans son format d’édition (logiciel utilisé : Freeplane 1.7.5),
    • un export au format image PNG,
  2. Rédiger : écriture du code source
    • combinant deux langages de balisage légers : Markdown et syntaxe propre à SPIP,
    • rapide : les idées sont toutes prêtes, il suffit d’un export depuis la carte heuristique puis d’un complément de rédaction pour mettre du « liant » dans le texte,
      Source, format texte brut bien sûr ! (état du 08/03/20)
  3. Mettre en forme : pas besoin, la feuille de style CSS de ce site web s’occupe de tout !
  4. Relire : le rédacteur, et vous, cher lecteur, qui pouvez laisser des commentaires via le forum ci-dessous 😉.

[1Appelé à tort d’une façon générique un « PowerPoint ».

[2Et même un traitement de texte, mais c’est idiot.

[3Alors que ça devrait faire partie des connaissances de base de tout utilisateur de l’informatique. C’est un peu comme si un médecin connaissait l’échocardiographie mais pas l’auscultation cardiaque...

[4C’est une justification de poids, non ? Il en est de même au Royaume-Uni.

[5On pourrait presque dire feu-OpenOffice.

[6Un autre argument de poids, et toc !

[7Et re toc !

[8Pour exemple, je vous invite à comparer les documents fournis comme « matériel » pour ce cours : le fichier version_originale.pdf a été réalisé avec LaTeX, et document_ameliore.pdf est le résultat d’une réécriture avec LibreOffice (et plutôt bien faite !) : la différence saute aux yeux pour quelqu’un d’averti.

Un message, un commentaire ?

modération a priori

Ce forum est modéré a priori : votre contribution n’apparaîtra qu’après avoir été validée par un administrateur du site.

Qui êtes-vous ?
Votre message

Pour créer des paragraphes, laissez simplement des lignes vides.