name=Dimostrazione Paged Image section_text=pagine di giornale shortDescription=Questa collezione contiene alcuni giornali della collezione Niupepa di giornali maori. description1a=Questa collezione contiene alcuni giornali della collezione Niupepa di giornali maori. description1=
Ogni numero di giornale è costituito da una serie di immagini, una per pagina, e da una serie di file di testo per il testo sottoposto a OCR. Un file di elemento collega la serie di pagine in un unico documento di giornale. PagedImagePlugin viene utilizzato per elaborare i file di elemento. description2=
Esistono due tipi di file di elementi e questa collezione ne mostra entrambi. Il primo utilizza un formato basato su testo e consiste in un elenco di metadati per il documento e un elenco di pagine. Alcuni esempi sono: Te Waka o Te Iwi, Vol. 1, No. 1 (in import/09/09_1_1.item) e Te Whetu o Te Tau, Vol. 1, No. 3 (in import/10/10_1_3.item. Questo formato consente di specificare i metadati a livello di documento e di creare un unico elenco di pagine. description3=
Il secondo stile è un formato esteso e utilizza XML. Consente una gerarchia di pagine e la specificazione dei metadati a livello di pagina e di documento. Un esempio è Matariki 1881, n. 2 in import/xml/23/23__2.item. Questo giornale ha anche un abstract associato. I contenuti sono stati raggruppati in due sezioni: Materiale supplementare, che contiene l'abstract, e Pagine del giornale, che contiene le immagini delle pagine. description4=
I documenti impaginati possono essere presentati con un sommario gerarchico (ad esempio 23__1.2.1) o con una struttura a profondità singola (ad esempio 10_1_2). Questo è specificato dall'opzione -documenttype (hierarchy|paged) di PagedImagePlugin. Normalmente, una collezione Greenstone avrebbe un plugin per ogni tipo di documento e tutti i documenti di quel tipo riceverebbero la stessa elaborazione. In questo caso, vogliamo trattare i file di elementi basati su XML in modo diverso dai file di elementi basati su testo. Possiamo ottenere questo risultato aggiungendo due plugin PagedImagePlugin alla collezione e configurandoli in modo diverso. description5=
plugin PagedImagePlugin -documenttype hierarchy -process_exp xml.*\.item$ ...
plugin PagedImagePlugin -documenttype paged ...
I giornali basati su XML sono stati raggruppati in una cartella denominata xml. Ciò consente di elaborare questi file in modo diverso, utilizzando l'opzione process_exp supportata da tutti i plugin. Il primo PagedImagePlugin nell'elenco cerca i file di elementi nella cartella xml. Questi documenti saranno elaborati come documenti gerarchici. I file di elementi che non corrispondono all'espressione di elaborazione (ovvero che non si trovano nella cartella xml) saranno passati al secondo PagedImagePlugin e trattati come documenti impaginati. description7=
Formattazione
A differenza di Greenstone 2, dove la formattazione dei documenti veniva modificata per personalizzare la visualizzazione, in Greenstone 3 ci affidiamo al comportamento predefinito di Greenstone per tutto il resto.