name=Exemple d'image mise en page section_text=pages de journaux shortDescription=Cette collection contient quelques journaux de la collection de journaux Maori Niupepa. description1a=

Cette collection contient quelques journaux de la collection de journaux Maori Niupepa.

description1=

Comment fonctionne la collection

Chaque numéro de revue est constitué d'une série d'images, une par page, et d'une série de fichiers textuels issus de l'OCR. Un fichier d'exemplaire fait le lien entre la série d'images et le document du numéro du journal. Le plugiciel PagedImagePlugin est utilisé pour traiter les fichiers d'exemplaire.

description2=

Il y a deux styles de fichiers d'exemplaires, et cette collection les utilise tous les deux. Le premier utilise un format textuel, et regroupe une liste de métadonnées et une liste de pages. En voici quelques exemples \: Te Waka o Te Iwi, Vol. 1, No. 1 (import/09/09\_1\_1.item\), Te Whetu o Te Tau, Vol. 1, No. 3 (import/10/10\_1\_3.item\). Ce format permet de spécifier des métadonnées de niveau document, et une seule liste de pages.

description3=

Le second style est un format étendu et utilise XML. Il permet de hiérarchiser les pages, et de spécifier des métadonnées aussi bien au niveau de la page que du document. En voici un exemple \: Matariki 1881, No. 2 (import/xml/23/23\_\_2.item\). Ce journal a aussi un résumé qui lui est associé. Les contenus ont donc été regroupés en deux sections \: matériaux complémentaires, qui contient les résumés, et pages du journal, qui contient les images des pages.

description4=

Les documents paginés peuvent être présentés avec une table des matières hiérarchique (voir par exemple celle-ci), ou avec des flèches de navigation pour atteindre la page précédente ou la page suivante, ainsi qu'une boîte permettant d'atteindre une page en particulier (par exemple celle-ci). Cela est défini par l'option -documenttype (hierarchy|paged) du plugiciel PagedImagePlugin. Les flèches de navigation suivent l'organisation linéaire des documents, tandis que la table des matières respecte l'organisation hiérarchique des documents. Normalement, une collection Greenstone utilise un seul plugiciel par type de document, et tous les documents de ce type subissent le même traitement. Dans ce cas, nous voulons traiter différemment les fichiers d'exemplaires au format XML et les ficiers d'exemplaires au format texte. Nous pouvons arriver à ce résultat en ajoutant deux plugiciels PagedImagePlugin à la collection, et en les configurant différemment de la façon suivante \:

description5=

plugin PagedImagePlugin -documenttype hierarchy -process_exp xml.*\.item$ ...
plugin PagedImagePlugin -documenttype paged ...

description6=

Les journaux décrits en XML ont été regroupés dans un dossier appelé xml. Cela nous permet de traiter ces fichiers différemment, en utilisant l'option process_exp dont disposent tous les plugiciels. Le premier plugiciel PagedImagePlugin de la liste recherche les fichiers d'exemplaires à l'intérieur du dossier xml. Ces documents seront alors traités comme des documents hiérarchisés. Les fichiers d'exemplaires qui ne correspondent pas à l'expression de recherche (c'est à dire qui ne sont pas situés dans le dossier xml) seront traités par le second plugiciel PagedImagePlugin, comme des documents paginés.

description7=[PENDING]

Formatage

Nous avons modifié le formatage du document pour afficher les images en haute résolution, prévisualiser les images ou le texte, avec un bouton pour passer d'un mode à l'autre. Cela implique des modifications dans les déclarations des formats DocumentHeading et DocumentText, dans le fichier de configuration de la collection ((etc/collectionConfig.xml)), et la définition de certaines macros dans le fichier de macro extra.dm (macros/extra.dm). Le fichier de macro extra.dm définit les boutons (\_viewfullsize\_, \_viewpreview\_, \_viewtext\_) qui sont utilisés par la déclaration de format dans le fichier collect.cfg. La déclaration de format change l'affichage du document et définit les boutons affichés en se basant sur l'argument p, qui est aussi défini dans la déclaration du format.