creator greenstone@cs.waikato.ac.nz maintainer greenstone@cs.waikato.ac.nz public true buildtype mg indexes document:text document:From document:Subject defaultindex document:text plugin GreenstoneXMLPlugin # process_exp tells EmailPlugin which files to process - in this case all files # starting with 'greenstone'. This is used as the email files in this # collection don't have a standard mbx/email extension. # OIDtype message_id tells the plugin to use the message identifier as the # Greenstone document identifier - this way we can use the InReplyTo metadata # to link to the original email. plugin EmailPlugin -process_exp greenstone.* -OIDtype message_id plugin MetadataXMLPlugin plugin ArchivesInfPlugin plugin DirectoryPlugin groupsize 200 # note that [ and ] get turned into x; before we remove the prefix! # mingroup 2 so that bookshelves are only generated when there is more than # one item with a common value. # removeprefix removes re: fwd: [greenstone-users] [greenstone-devel] from # the subject line before classifying, so that messages and their replies end # up in the same folder. classify AZCompactList -metadata Subject -mingroup 2 -removeprefix (\\s*(?i:re:|fw(d)?:|\[greenstone-(users|devel)\])\\s*)* classify AZCompactList -metadata FromName -mingroup 2 -buttonname From classify DateList -nogroup -bymonth format DocumentHeading "" format DocumentButtons "" format DocumentArrowsTop false format DocumentArrowsBottom false format DocumentGoTo false # removed from format strings to prevent listing email addresses - John: # <[FromAddr]> # for Subjects format CL1VList " [link][icon][/link] {If}{[numleafdocs], [Title],[link][Subject][/link]
_From_: [FromName]   (_SearchBySender_)
_Date_: [DateText]} " # for From format CL2VList " [link][icon][/link] {If}{[numleafdocs], _From_: [Title] ([numleafdocs]), _From_: [FromName]   (_SearchBySender_)
_Subject_: [link][Subject][/link]
_Date_: [DateText] } " # for Dates format CL3DateList " [link][icon][/link] [link][Subject][/link]
_From_: [FromName]   (_SearchBySender_)
_Date_: [DateText] " format SearchVList " [link][icon][/link] [link][Subject][/link]
_From_: [FromName]   (_SearchBySender_)
_Date_: [DateText] " format DocumentText "

[Subject]

_If_([InReplyTo],)

_From_ [FromName]

_Date_ [DateText]

_Subject_ [Subject]
In-Reply-To ([InReplyTo])
[Text]

" format VList "[link][icon][/link] [ex.srclink]{Or}{[ex.thumbicon],[ex.srcicon]}[ex./srclink] [highlight] {Or}{[dc.Title],[exp.Title],[ex.Title],Untitled} [/highlight]{If}{[ex.Source],
([ex.Source])}" format HList "[link][highlight][ex.Title][/highlight][/link]" format DateList "[link][icon][/link] [highlight]{Or}{[dc.Title],[exp.Title],[ex.Title],Untitled}[/highlight] {Or}{[dc.Date],[exp.Date],[ex.Date]}" # -- English strings ---------------- collectionmeta collectionname [l=en] "Greenstone Archives collection" collectionmeta .document:text [l=en] "Messages" collectionmeta .document:From [l=en] "From fields" collectionmeta .document:Subject [l=en] "Subject lines" collectionmeta From [l=en] "From" collectionmeta Date [l=en] "Date" collectionmeta Subject [l=en] "Subject" collectionmeta SearchBySender [l=en] "search by sender" # -- French strings ---------------- collectionmeta collectionname [l=fr] "Collection des Archives de Greenstone" collectionmeta .document:text [l=fr] "Messages" collectionmeta .document:From [l=fr] "Champs De" collectionmeta .document:Subject [l=fr] "Lignes de sujets" collectionmeta From [l=fr] "De" collectionmeta Date [l=fr] "Date" collectionmeta Subject [l=fr] "Sujet" collectionmeta SearchBySender [l=fr] "recherche par expéditeur" # -- Spanish strings ---------------- collectionmeta collectionname [l=es] "Colección de Archivos Greenstone" collectionmeta .document:text [l=es] "Mensaje" collectionmeta .document:From [l=es] "Campo Emisor" collectionmeta .document:Subject [l=es] "Líneas del Asunto" collectionmeta From [l=es] "De" collectionmeta Date [l=es] "Fecha" collectionmeta Subject [l=es] "Asunto" collectionmeta SearchBySender [l=es] "buscar por emisor" # -- Russian strings ---------------- collectionmeta collectionname [l=ru] "Коллекция архивов Greenstone" collectionmeta .document:text [l=ru] "Сообщения" collectionmeta .document:From [l=ru] "Из полей" collectionmeta .document:Subject [l=ru] "Строки предмета" collectionmeta From [l=ru] "От" collectionmeta Date [l=ru] "Дата" collectionmeta Subject [l=ru] "Предмет" collectionmeta SearchBySender [l=ru] "Поиск по отправителю" # -- Simplified Chinese strings ---------------- collectionmeta collectionname [l=zh] "Greenstone存档馆藏" collectionmeta .document:text [l=zh] "消息" collectionmeta .document:From [l=zh] "来自字段" collectionmeta .document:Subject [l=zh] "主题行" collectionmeta From [l=zh] "来自" collectionmeta Date [l=zh] "日期" collectionmeta Subject [l=zh] "主题" collectionmeta SearchBySender [l=zh] "按发送者搜索" # -- English text ---------------- collectionmeta collectionextra [l=en] "This is a collection of email messages from the Greenstone mailing list archives, from November/December, 2008.

How the collection works

The Greenstone Archives collection uses the Email plugin, which parses files in email formats. In this case, there is a file per month per mailing list, and each file contains many email messages. The Email plugin splits these into individual documents, and produces Title, Subject, From, FromName, FromAddr, Date, DateText, InReplyTo, and optionally Headers, metadata.

The collection configuration file begins with the specification groupsize 200. This groups documents together into groups of 200. Email collections typically have many small documents, and grouping them together prevents Greenstone\'s internal file structures from becoming bloated and occupying more disk space than necessary. Notice that the Email plugin first splits the input files up into individual Emails, then groupsize groups them together again. This allows the collection designer to control what is going on.

The indexes line specifies 3 searchable indexes, which can be seen by clicking beside the word \"Messages\" on the search page to reveal a drop-down menu. The first (called Messages) is created from the document text, while the others are formed from From and Subject metadata.

There are three classifiers, based on Subject, FromName, and Date metadata. The AZCompactList classifier used for the first two is like AZList but generates a bookshelf for duplicate items, as illustrated here. This is represented by a tree structure whose nodes are either leaf nodes, representing documents, or internal nodes. A metadata item called numleafdocs gives the total number of documents below an internal node. The format statement for the first classifier, called CL1Vlist, checks whether this item exists. If so the node must be an internal one, in which case it is labeled by its Title. Otherwise the node\'s label starts with the Subject which links to the document, then gives FromName metadata, with a link to \"Search by Sender\", followed by the DateText.

The second classifier (CL2Vlist) is similar, but shows slightly different information -- the result can be seen here. For internal nodes, the actual number of leaf documents (numleafdocs) is given in parentheses after the Title. For document nodes the FromName, with a link to \"Search By Sender\", Subject (linked to the document), and DateText metadata is shown.

The third classifier is a DateList, which allows selection by month and year.

Finally, the document text is formatted to show the header fields (FromName, DateText, Subject, InReplyTo), followed by the message text (written as [Text] in the format statement). FromName is linked to a search on that name, while InReplyTo links to the email message that it refers to. " # -- French text ---------------- collectionmeta collectionextra [l=fr] " Cette collection est composée de messages électroniques extraits des archives de la liste de diffusion Greenstone, publiés entre novembre et décembre 2008.

Comment fonctionne cette collection ?

La collection Greenstone Archive utilise le plugin \"E-mail\", qui traite les fichiers aux formats e-mail. Dans ce cas, il y a un fichier par mois et par liste de diffusion, et chaque fichier contient de nombreux messages. Le plugin E-mail les éclate en documents individuels et produit les métadonnées Title, Subject, Headers (en option), From, FromName, FromAddr, Date et DateText.

Le fichier de configuration de la collection débute avec la spécification groupsize 200. Ceci regroupe les documents par groupes de 200. Les collections E-mail sont constituées habituellement de plusieurs documents de petite taille; leur regroupement évite l\'augmentation excessive des structures de fichier internes de Greenstone et l\'occupation de plus d\'espace disque que nécessaire. Notez que le plugin E-mail éclate d\'abord les fichiers d\'entrée à traiter en E-mail individuels, ensuite groupsize procède à leur regroupement. Ceci permet au créateur de la collection de contrôler ce qui se passe.

La ligne des indexes précise trois indexes de recherche qui peuvent être vus en cliquant à côté du mot \"Message\" de la page de recherche pour révéler un menu déroulant. Le premier (appelé Messages) est créé à partir du texte du document, tandis que les autres sont formés à partir des méta-données From et Subject.

Il existe trois classificateurs basés sur les méta-données Subject, FromName et Date. Le classificateur AZCompactList utilisé pour les deux premiers est semblable à \"AZList\", mais en outre il génère un rayon de bibliothèque pour les articles dupliqués, comme illustré ici. Il est représenté par une structure arborescente dont les nœuds sont soit des nœuds de feuille représentant les documents, soit des nœuds internes. Une Méta-donnée appelée \"Numleafdocs\" donne le nombre total de documents sous un nœud interne. Les déclarations de format pour le premier classificateur, appelé CL1VList, vérifie si cette méta-donnée existe, auquel cas le nœud doit être d\'une part interne et d\'autre part libellé par son \"Title\" (Titre). Sinon le nom du noeud commencera par le Subject qui fait le lien vers le document, suivi par la métadonnée FromName, avec un lien vers la \"Recherche par expéditeur\" et enfin par la DateText.

Le deuxième classificateur (CL2Vlist) est similaire, mais fournit une information légèrement différente --le résultat peut être vu ici. Pour les nœuds internes, le nombre exact de documents en feuilles (numleafdocs) est donné entre parenthèses après Title. Pour les documents noeuds, les métadonnées suivantes seront visibles : FromName, avec un lien vers la \"Recherche par expéditeur\", Subject (avec un lien vers le document), et DateText.

Le troisième classificateur est un \"DateList\" qui permet une sélection par mois et par année.

Pour finir, le document est mis en forme pour montrer les entêtes (FromName, DateText, Subjet, InReplyTo), suivis par le texte du message (écrit en tant que [Text] dans le format d'enregistrement). FromName est un lien vers une recherche sur ce nom, tandis que InReplyTo est un lien vers le message électronique auquel celui-ci se réfère. " # -- Spanish text ---------------- collectionmeta collectionextra [l=es] " Esta es una colección de mensajes de email del archivo de la lista de mailing de Greenstone, de Noviembre/Diciembre de 2008.

Cómo trabaja esta colección

La colección de Archivos de Greenstone utiliza el plugin Email, el cual descompone y analiza los archivos que están en formato de correo electrónico. En este caso, hay un archivo por mes por lista, y cada archivo contiene muchos mensajes de email. El plugin Email los divide en documentos individuales y produce los metadatos Title, Subject, From, FromName, FromAddr, Date, DateText, InReplyTo, y opcionalmente Headers.

El archivo de configuración de la colección empieza con la especificación groupsize 200, la cual reúne los documentos en grupos de 200. En términos generales las colecciones de correo electrónico tienen muchos documentos pequeños y al agruparlos se evita que las estructuras de archivos internos de Greenstone crezcan demasiado y ocupen más espacio del necesario. Recuerde que el plugin Email divide primero los archivos de entrada en correos individuales y luego groupsize los agrupa nuevamente. Esto le permite al diseñador de la colección controlar lo que está pasando.

La línea ïndexes especifica 3 índices de búsqueda, los cuales se pueden ver haciendo click a un lado de la palabra \"Mensajes\" en la página de búsqueda para que aparezca un menú descendente. El primero (llamado Mensajes) se crea a partir del texto del documento, mientras que los demás se forman a partir de los metadatos de Remitente y Asunto.

Existen tres clasificadores basados en los metadatos de Asunto, Nombre del Remitente y Fecha. El clasificador AZCompactList utilizado para los dos primeros es como AZList, pero además genera un estante para los ítems duplicados, tal como se puede ver aquí. Éste se representa por medio de una estructura de árbol cuyos nodos son hojas que representan documentos o nodos internos. Un ítem de metadato llamado numleafdocs proporciona el número total de documentos debajo de un nodo interno. Los enunciados de formato para el primer clasificador llamado CL1Vlist comprueban si existe dicho ítem. En caso afirmativo se trata de un nodo interno, en cuyo caso se etiquetará por su Título. Además, la etiqueta del nodo comienza con Subject que es un link al documento, luego el metadato FromName, con un link a \"Search by sender\", seguido por la fecha DateText.

El segundo clasificador (CL2Vlist) es similar, sólo que muestra una información ligeramente diferente. El resultado se puede ver aquí. Para nodos internos el número de documentos (numleafdocs) aparece entre paréntesis después del Título. Para los nodos de los documentos se muestran el FromName, con un link a \"Search by Sender\", el Subject (enlazado al documento), y DateText.

El tercer clasificador es una Lista de Fechas (DateList), que permite hacer la selección por mes y año.

Finalmente, el document text está formateado para mostrar los campos del encabezado (FromName, DateText, Subject, InReplyTo), seguido del texto del mensaje (escrito como [Text] en la cadena de formateo). FromName está enlazado a una búsqueda sobre ese mismo nombre, mientras que InReplyTo enlaza con el mensaje al cual hace referencia. " # -- Russian strings ---------------- collectionmeta collectionextra [l=ru] " This is a collection of email messages from the Greenstone mailing list archives, from November/December, 2008.

Как работает коллекция

Коллекция архивов Greenstone использует плагин Еmail, который анализирует файлы в форматах электронной почты. In this case, there is a file per month per mailing list, and each file contains many email messages. Плагин Еmail разбивает их на индивидуальные документы и создает Название, Предмет, От, Имя отправителя, Адрес отправителя, Дата, Дата текстом, Кому Ответ и выборочно Заголовки.

Конфигурационный файл коллекции начинается с определения groupsize 200. Он собирает документы в группы по 200 единиц. Коллекции электронной почты обычно состоят из большого числа небольших документов, и группировка их вместе предотвращает внутренние файловые структуры Greenstone от разбухания и занятия большего места на диске, чем необходимо. Заметьте, что плагин Еmail вначале разбивает входные файлы на индивидуальные электронные письма, а затем groupsize снова собирает их вместе. Это позволяет проектировщику коллекции управлять тем, что следует дальше.

Строка индексов (indexes) определяет 3 доступных для поиска индекса, которые могут быть видны, если щелкать около слова Сообщения (Messages) на поисковой странице для показа ниспадающего меню. Первый, называемый Сообщениями, создается из текста документа, в то время как другие сформированы по метаданным От кого и Предмет.

Существует три классификатора, основанные на метаданных Предмет, Имя отправителя и Дата. Классификатор AZCompactList, используемый для первых двух, похож на AZLIST, но он формирует книжную полку для дубликатов элементов, как показано здесь. Она представлена структурой дерева, узлы которой являются или узлами листа, представляя документы, или внутренними узлами. Метаданные элементов, называемые numleafdocs, дают общее количество документов, расположенных ниже внутреннего узла. Операторы формата для первого классификатора, называемые CL1Vlist, проверяют, существует ли этот элемент. Если это так, то узел должен быть внутренним, в случае чего он помечается его Названием (Title). Otherwise the node\'s label starts with the Subject which links to the document, then gives FromName metadata, with a link to \"Search by Sender\", followed by the DateText.

Второй классификатор (CL2Vlist) подобен первому, но он показывает отличающуюся информацию -- результат можно видеть здесь. Для внутренних узлов фактическое число документов в списке (numleafdocs) дается в круглых скобках после Названия. For document nodes the FromName, with a link to \"Search By Sender\", Subject (linked to the document), and DateText metadata is shown.

Третьим классификатором является DateList, который позволяет производить выборку сообщений по месяцу и году.

Finally, the document text is formatted to show the header fields (FromName, DateText, Subject, InReplyTo), followed by the message text (written as [Text] in the format statement). FromName is linked to a search on that name, while InReplyTo links to the email message that it refers to. " # -- Simplified Chinese text ---------------- collectionmeta collectionextra [l=zh] " 本馆藏由Greenstone邮件列表文档中2008年11月与12月的email消息组成。

本馆藏如何工作

Greenstone存档馆藏使用Email插件，这个插件处理email格式的文件。在本馆藏这，每个邮件列表每个月都有一个对应的文件，而每个文件包含许多email消息。Email 插件将这些文件分成单个的文档，并生成标题、主题、发件人、 发件人名称、发件人地址、日期、日期文本、回复以及选择性的题名元数据。

馆藏配置文件起始于groupsize 200设置。这个设置将文档以200为单位分组。Email馆藏通常有许多小文档，而将这些小文档分成小组可避免Greenstone的内部文件结构变得过于庞杂且占据不必要的磁盘空间。请注意Email插件首先将输入文件分成单个的email，然后groupsize 再将它们分组。这使得馆藏的设计者可以对过程加以控制。

indexes行设置了3个供检索的索引，这可通过在搜索页面上点击\"消息\"，产生一个下拉列表菜单。第一个（称为消息）是从文档文本中创建的，另外的选项是构建在发送人和主题元数据上的。

本馆藏有三个分类器，分别基于主题、发件人名称以及日期元数据。前面两个AZCompactList分类器和AZList类似，但重复条目会以书架形式显示，如这里所示。这里是一个树型结构，其节点要么是代表文档的叶子节点，要么是内部节点。numleafdocs元数据记录了一个内部节点下的文档的总数。第一个分类器的格式变量，CL1Vlist，判断这个元数据是否存在。如果存在则当前节点必然是一个内部节点，此时该节点用其题名所标识。否则该节点的标签将首先显示主题元数据，且可以链接到该文档，然后显示发件人名称元数据，以及一个\"按发送人搜索\"的链接，接下来是日期文本。

第二个分类器（CL2Vlist）与前面的类似，只是显示的信息稍有不同——如这里所示。对于内部节点而言，其叶子文档的数目（numleafdocs）用圆括号括起并显示在题名之后。对于文档节点则显示发件人名称、以及一个\"按发件人名称搜索\"的链接，主题（链接到文本）以及日期文本元数据。

第三个分类器是DateList，可按月和年进行选择。

最后，文档文本的显示格式是头字段（发件人名称、日期文本、主题、回复），接下来是消息文本（即格式变量中的[Text]）。 发件人名称所带的链接将对这个发件人名字进行搜索，而回复所带的链接指向所引用的email消息。 " # use utf-8 as the default encoding cgiarg shortname=w argdefault=utf-8

_From_	[FromName]
_Date_	[DateText]
_Subject_	[Subject]
In-Reply-To	([InReplyTo])
[Text]