name=Dimostrazione dei documenti Office document_text=documenti shortDescription=Questa collezione dimostra la capacità di Greenstone di creare collezioni a partire da documenti forniti in diversi formati. Contiene una serie di articoli scritti da vari membri del progetto NZDL in formato PDF, MSWord, RTF e Postscript. description1=

I documenti di questa collezione sono stati prodotti dai membri del Dipartimento di Informatica dell'Università di Waikato. L'Università di Waikato detiene il copyright. Possono essere distribuiti liberamente, senza alcuna restrizione. description2=

Come funziona la collezione

Il file di configurazione di questa collezione, collectionConfig.xml, contiene i quattro plugin WordPlugin, RTFPlugin, PDFPlugin e PostScriptPlugin (insieme ai quattro standard, GreenstoneXMLPlugin, MetadataXMLPlugin, ArchivesInfPlugin e DirectoryPlugin). Questi quattro plugin estraggono tutti i metadati Titolo e Fonte (ovvero il nome del file). description3=

Greenstone contiene software di terze parti utilizzato per convertire file Word, RTF, PDF e PostScript in HTML. Il team Greenstone non gestisce questi moduli, anche se cerchiamo di includere le versioni più recenti in ogni release di Greenstone. Si verificano bug con documenti Word insoliti (ad esempio provenienti da sistemi Macintosh meno recenti) e talvolta il testo viene estratto in modo errato. Alcuni file PDF non contengono testo leggibile dal computer, ma solo una sequenza di immagini di pagine da cui il testo può essere estratto solo tramite riconoscimento ottico dei caratteri (OCR), che Greenstone non supporta. Se si verificano questi problemi, è possibile rimuovere i documenti incriminati dalla collezione o provare a utilizzare alcune delle opzioni avanzate dei plugin per elaborare i documenti in modi diversi. Per ulteriori informazioni, consultare i tutorial PDF avanzato e Word sul wiki di Greenstone. In alternativa, una nuova collezione Greenstone 3 aggiungerà un UnknownConverterPlugin preconfigurato che utilizzerà apache tika per impostazione predefinita per elaborare i file docx. È possibile riconfigurarlo o aggiungere un altro UnknownConverterPlugin e configurarlo in modo appropriato per elaborare altri tipi di documenti, fare riferimento alla pagina The UnknownConverterPlugin sul wiki di Greenstone. description4=

Il file di configurazione della collezione, collectionConfig.xml, include un unico indice, basato sul testo del documento, e un classificatore, un AZList basato sui metadati Title, mostrato in CL1 (il selettore alfabetico viene automaticamente soppresso perché la collezione contiene solo pochi documenti). Tuttavia, non è specificata alcuna dichiarazione di formato. In assenza di informazioni esplicite, Greenstone fornisce impostazioni predefinite sensate. In questo caso, l'istruzione di formato predefinita per il classificatore è la seguente: \n\

\n\

description5=Ecco un'istruzione di formato che ottiene esattamente lo stesso effetto in modo esplicito. Si applica a tutti i Vlist e quindi controlla sia l'elenco dei risultati della ricerca che il browser dei titoli alfabetici.