creator greenstone@cs.waikato.ac.nz public true buildtype mg plugin WordPlugin plugin RTFPlugin plugin PDFPlugin plugin PostScriptPlugin plugin GreenstoneXMLPlugin plugin MetadataXMLPlugin plugin ArchivesInfPlugin plugin DirectoryPlugin indexes document:text classify AZList -metadata Title format DocumentHeading "" format DocumentButtons "" format VList "[link][icon][/link] [ex.srclink]{Or}{[ex.thumbicon],[ex.srcicon]}[ex./srclink] [highlight] {Or}{[dc.Title],[exp.Title],[ex.Title],Untitled} [/highlight]{If}{[ex.Source],
([ex.Source])}" format HList "[link][highlight][ex.Title][/highlight][/link]" format DocumentText "[Text]" # -- English strings ---------------- collectionmeta collectionname [l=en] "MSWord and PDF demonstration" collectionmeta .document:text [l=en] "documents" # -- French strings ---------------- collectionmeta collectionname [l=fr] "Démonstration MSWord et PDF" collectionmeta .document:text [l=fr] "documents" # -- Spanish strings ---------------- collectionmeta collectionname [l=es] "Demostración de MSWord y PDF" collectionmeta .document:text [l=es] "documentos" # -- Russian strings ---------------- collectionmeta collectionname [l=ru] "Демонстрация MSWord и PDF" collectionmeta .document:text [l=ru] "Документы" # -- Chinese strings ---------------- collectionmeta collectionname [l=zh] "微软Word与PDF演示馆藏" collectionmeta .document:text [l=zh] "文档" # -- English text ---------------- collectionmeta collectionextra [l=en] "This collection demonstrates Greenstone\'s ability to build collections from documents provided in different formats. It contains a number of papers written by various members of the NZDL project in PDF, MSWord, RTF, and Postscript formats.\n

The documents in this collection have been produced by members of the Department of Computer Science, University of Waikato. The University of Waikato holds copyright. They may be distributed freely, without any restrictions.

How the collection works

This collection\'s configuration file contains the four plugins WordPlugin, RTFPlugin, PDFPlugin and PostScriptPlugin (along with the standard four, GreenstoneXMLPlugin, MetadataXMLPlugin, ArchivesInfPlugin and DirectoryPlugin). These four plugins all extract Title and Source (i.e. filename) metadata. \n

Greenstone contains third-party software that is used to convert Word, RTF, PDF and PostScript files into HTML. The Greenstone team does not maintain these modules, although we do try to include the latest versions with each Greenstone release. Bugs arise with unusual Word documents (e.g. from older Macintosh systems), and sometimes the text is badly extracted. Some PDF files have no machine-readable text at all, comprising instead a sequence of page images from which text can only be extracted by optical character recognition (OCR), which Greenstone does not attempt. If you encounter these problems, you can either remove the offending documents from your collection, or try using some of the advanced plugin options to process the documents in different ways. For more information, see the Enhanced PDf and Word tutorials on the Greenstone wiki.

The configuration file includes a single index, based on document text, and one classifier, an AZList based on Title metadata, shown here (the alphabetic selector is suppressed automatically because the collection contains only a few documents). However, no format statement is specified. In the absence of explicit information, Greenstone supplies sensible defaults. In this case, the default format for the classifier gives:\n

an icon for the HTML version of the document (the text that is actually indexed, essentially the same as the Greenstone Archive format);\n
an icon for the original version of the document (clicking it opens the document in its original form);\n
Title metadata, extracted from the document;\n
Source (i.e. filename) metadata, extracted from the document.\n

Here is a format statement that achieves exactly the same effect explicitly. It applies to all Vlists, and so controls both search results list and the alphabetic title browser.\n

format VList \"
<td>[link][icon][/link]<\/td>\n
<td>[srclink][srcicon][/srclink]<\/td>\n
<td>[Title]<br><i>([Source])</i></td>\"\n

" # -- French text ---------------- collectionmeta collectionextra [l=fr] "Cette collection démontre les capacités de Greenstone pour rassembler des collections à partir de documents existants en différents formats. Elle contient plusieurs articles écrits par différents membres du projet NZDL en format PDF, MSWord, RTF, et Postscript.

Comment marche cette collection ?

Le fichier de configuration de cette collection contient quatre plugins, WordPlugin, RTFPlugin, PDFPlugin et PostScriptPlugin (ensemble avec les quatre plugins standards GreenstoneXMLPlugin, MetadataXMLPlugin, ArchivesInfPlugin et DirectoryPlugin). Tous ces quatre modules extraient les méta-données Titre et Source (c.-a-d. nom de fichier).

Greenstone contient des logiciels de tierces parties utilisés pour convertir des fichiers Word, RTF, PDF et PostScript en HTML. L\'équipe Greenstone ne maintient pas ces modules bien que nous incluons les dernières versions dans chaque édition de Greenstone. Des coquilles apparaissent avec les documents inhabituels de Word (par exemple à partir de vieux systèmes Macintosh) et des fois, le texte est mal extrait. Certains fichiers PDF n\'ont pas du tout une forme lisible directement par les machines, mais sont représentés par une séquence de pages d\'images à partir desquelless le texte ne peut être extrait que par une reconnaissance optique de caractères (ROC), ce que Greenstone ne tente pas de faire. Si vous rencontrez ce type de problèmes, vous pouvez soit supprimer les documents problématiques de votre collection, soit essayer d'utiliser les options avancées du plugiciel pour traiter les documents d'une autre façon. Pour plus d'informations, se reporter aux tutoriels avancés sur les documents PDF et Word, disponibles sur le wiki Greenstone.

Le fichier de configuration comprend un index unique, basé sur un texte de document et un classificateur, un AZList basée sur la méta-donnée Titre, montrée ici (le sélecteur alphabétique est supprimé automatiquement parce que la collection ne contient que peu de documents). Cependant aucune déclaration de format n\'est spécifiée. A l\'absence d\'information explicite, Greenstone fournit des défauts sensés. Dans ce cas le format par défaut pour le classificateur donne ceci :

une icône pour la version HTML du document (le texte est en fait indexé en grande partie de la même façon que le format d\'archive Greenstone);
une icône pour la version originale du document (en cliquant dessus, on ouvre le document dans sa version originale);
méta-donnée Titre extraite du document;
méta-donnée Source (c.-à-d. nom du fichier) extraite du document.

Voici une déclaration de format qui fait exactement la même chose de manière explicite. Elle s\'applique à tous les VList et contrôle donc aussi bien les résultats de recherche que la navigation alphabétique par titre.

format VList \"
<td>[link][icon][/link]<\/td>\n
<td>[srclink][srcicon][/srclink]<\/td>\n
<td>[Title]<br><i>([Source])</i></td>\"\n

" # -- Spanish text ---------------- collectionmeta collectionextra [l=es] " Esta colección demuestra la capacidad del programa Greenstone para construir colecciones con documentos en diferentes formatos. Contiene artículos escritos por varios de los miembros del proyecto NZDL en formato PDF, MSWord, RTF y Postscript.

Los documentos han sido producidos por miembros del Departamento de Ciencias de la Computación, de la Universidad de Waikato. La Universidad tiene el copyright. Ellos pueden distribuirse libremente, sin ninguna restricción.

Cómo trabaja esta colección

Este archivo de configuración de la colección contiene los cuatro plugins WordPlugin, RTFPlugin, PDFPlugin y PostScriptPlugin (junto con los cuatro plugins estándar, GreenstoneXMLPlugin, MetadataXMLPlugin, ArchivesInfPlugin y DirectoryPlugin). Los cuatro plugins extraen los metadatos de Título y Fuente (es decir, nombre del archivo).

Greenstone contiene un software de otro fabricante que se utiliza para convertir archivos Word, RTF, PDF y PostScript a HTML. El equipo de Greenstone no le da mantenimiento a estos módulos, aunque incluimos las más recientes versiones con cada nueva versión de Greenstone. Los errores lógicos surgen con documentos Word inusuales (p. ej. provenientes de sistemas Macintosh anteriores) y en ocasiones el texto no se extrae adecuadamente. Algunos archivos PDF no contienen textos legibles de ninguna manera, ya que están compuestos de una secuencia de imágenes de página de las cuales el texto únicamente se puede extraer por medio del reconocimiento óptico de caracteres (OCR por sus siglas en inglés), que es algo que Greenstone no pretende hacer. Si encuentra estos problemas entonces puede remover el documento dañado de la colección, o tratar de usar alguna de las opciones avanzadas para procesar los documentos de diferentes maneras. Para más información, vea los tutoriales avanzados sobre PDF y Word en la wiki de Greenstone.

El archivo de configuración incluye un solo índice basado en el texto de los documentos y un clasificador AZList basado en el metadato de Título, tal como se muestra aquí (el selector alfabético se suprime automáticamente ya que la colección contiene únicamente unos cuantos documentos). Sin embargo, no se especifica ningún enunciado de formato. En ausencia de información explícita, Greenstone suministra los formatos por omisión. En este caso, el formato por omisión para el clasificador proporciona:

un icono para la versión HTML del documento (el texto que se está indexando, básicamente el mismo que el formato del Archivo Greenstone);
un icono para la versión original del documento (al hacer click en él abre el documento en su forma original);
el metadato de Título extraído del documento;
el metadato de Fuente (es decir, el nombre de archivo) extraído del documento.

Aquí se describe un enunciado de formato que logra exactamente el mismo efecto de manera explícita. Se aplica a todas las Vlists y por lo tanto controla tanto la lista de resultados de la búsqueda como el explorador de títulos por orden alfabético.

format VList \"
<td>[link][icon][/link]<\/td>\n
<td>[srclink][srcicon][/srclink]<\/td>\n
<td>[Title]<br><i>([Source])</i></td>\"\n

" # -- Russian text ---------------- collectionmeta collectionextra [l=ru] " Эта коллекция демонстрирует способность Greenstone к построению коллекции из документов, выполненных в различных форматах. Она содержит множество статей, написанных различными членами проекта NZDL, в форматах PDF, MSWord, RTF и Postscript.

Как работает коллекция

Конфигурационный файл этой коллекции содержит четыре плагина WordPlugin, RTFPlugin, PDFPlugin и PostScriptPlugin (наряду с четыре стандартными GreenstoneXMLPlugin, MetadataXMLPlugin, ArchivesInfPlugin и DirectoryPlugin). Все эти четыре плагина извлекают метаданные из Названия (Title) и Источника (Source), то есть имя файла.

Greenstone содержит стороннее программное обеспечение, которое используется для того, чтобы конвертировать файлы, созданные в Word, RTF, PDF и PostScript в HTML. Команда Greenstone не обслуживает эти модели, хотя мы включаем их самые последние версии в каждый выпуск Greenstone. Ошибки возникают у необычных документов Word (например, от старых систем Макинтоша), и иногда текст ужасно извлекается. Некоторые PDF файлы не создают никакого машинночитаемого текста вообще, а вместо этого включают последовательность изображений страницы, из которых текст может быть извлечен только путем оптического распознавания (OCR), что в Greenstone не предусмотрено. If you encounter these problems, you can either remove the offending documents from your collection, or try using some of the advanced plugin options to process the documents in different ways. For more information, see the Enhanced PDf and Word tutorials on the Greenstone wiki.

Конфигурационный файл включает единственный индекс, основанный на тексте документа и один классификатор AZList, основанный на метаданных Названия, показанный здесь (алфавитный отборщик автоматически отключен, поскольку коллекция содержит только несколько документов). Однако никаких операторов формата не определено. При отсутствии явной информации Greenstone поддерживает по умолчанию наиболее ощутимые. В этом случае по умолчанию используются следующие форматы для классификатора:

изображение (иконка) для HTML-версии документа (текст, который фактическииндексирован, по существу такой же, как формат архива Greenstone);
изображение (иконка) для оригинальной версии документа (щелкая на нем, открывают документ в его исходном формате);
метаданные Названия (Title), извлеченные из документа;
метаданные Источника (Source), то есть имя файла, извлеченное из документа.

Имеется оператор формата, который достигает такой же самый эффект. Он обращается ко всем Vlists и таким образом осуществляет контроль как над списком результатов поиска, так и над алфавитным показом названий.

format VList \"
<td>[link][icon][/link]<\/td>\n
<td>[srclink][srcicon][/srclink]<\/td>\n
<td>[Title]<br><i>([Source])</i></td>\"\n

" # -- Chinese text ---------------- collectionmeta collectionextra [l=zh] " 本馆藏演示Greenstone用不同格式文档创建馆藏的功能。本馆藏收录了若干NZDL项目组成员所写的论文，有PDF，微软Word以及Postscript格式。\n

本馆藏中的文档来自于怀卡托大学计算机系的成员。版权由怀卡托大学所属。这些文档可自由发布，没有任何限制。

本馆藏如何工作

本馆藏的配置文件包含四个插件，WordPlugin，RTFPlugin，PDFPlugin与PostScriptPlugin（以及四个标准插件，GreenstoneXMLPlugin，MetadataXMLPlugin，ArchivesInfPlugin与DirectoryPlugin）。这四个插件都会抽取题名与来源（即文件名）元数据。\n

Greenstone使用第三方软件将Word，RTF，PDF与PostScript文件转换成HTML文档。Greenstone小组并不负责维护这些第三方软件，尽管我们尽量在发布每个Greenstone版本中使用最新的版本。特殊的Word文档可能会有某些问题（比如旧的Macintosh系统创建的Word文档），并且有时从这些文档中抽取的文本质量很差。有些PDF文档不包括任何机器可读的文本，而是由一系列的页面图片组成，只能用光学字符识别技术（OCR）从中读取文本，而Greenstone并不包括OCR技术。如果你遇到了这些问题，要么你可以从馆藏中删除有问题的文档，或者尝试高级的插件选项，以不同的方式处理文档。更多信息，请参阅Greenstone wiki中的提高版PDF与Word文档处理教程。

本馆藏的配置文件中只有一个索引，该索引是基于文档文本的，以及一个分类器：一个基于题名元数据的AZList，如这里所示（这里自动隐藏了按字母的选择浏览条，因为本馆藏只有为数不多的几个文档）。然而，本馆藏没有设定任何格式变量。在没有制定特定格式信息时，Greenstone提供合理的缺省值。在这种情况下，缺省的分类器格式将显示：\n

一个图标并链接到文档的HTML版本（即真正被索引的文本，本质上与Greenstone内部存储格式相同）；\n
一个图标并链接到文档的原始版本（点击该图标将打开文档的原始格式）；\n
题名元数据，抽取自文档；\n
来源（即文件名）元数据，抽取自文档。\n

这个特定的格式变量将得到一模一样的外观。它适用于所有的Vlists，也控制搜索结果列表与字母顺序的题名列表。\n

 
format VList \"<td>[link][icon][/link]<\/td>\n 
              <td>[srclink][srcicon][/srclink]<\/td>\n 
              <td>[Title]<br><i>([Source])</i></td>\"\n