Верхний каталог, в который вы установили Harvest, обозначим $HARVEST_HOME. По умолчанию $HARVEST_HOME -- это /usr/local/harvest. В $HARVEST_HOME находятся следующие файлы и каталоги:
RunHarvest* brokers/ gatherers/ tmp/
bin/ cgi-bin/ lib/
RunHarvest -- это скрипт, используемый для создания и запуска серверов Harvest
(см. раздел
Запуск системы: команда RunHarvest и связанные с ней команды.
RunHarvest имеет
такой же синтаксис командной строки, что и Harvest.
Каталог $HARVEST_HOME/bin содержит только те программы, которые пользователи обычно могут сразу запустить. Все другие программы (например, отдельные summarizer'ы для Gatherer'а) так же, как и библиотечный код Perl находятмя в каталоге lib. Каталог bin содержит следующие программы:
CreateBrokerСоздает брокер.
Использование: CreateBroker [skeleton-tree [destination]]
GathererГлавный пользовательский интерфейс Gatherer'а. Эта программа запускается
скриптом RunGatherer, который находится в каталоге Gatherer'а.
Использование: Gatherer [-manual|-export|-debug] file.cf
HarvestЭта программа используется RunHarvest для создания и запуска серверов Harvest
согласно описанию пользователя.
Использование: Harvest [flags]
Где флаги (flags) могут быть следующие:
-novice Простейшая форма вопрос-ответ. В основном использует установки по умолчанию.
-glimpse Использовать Glimpse для брокера. (по умолчанию)
-swish Использовать Swish для брокера.
-wais Использовать WAIS для брокера.
-dumbtty Немой режим TTY.
-debug Режим отладки.
-dont-run Не запускать брокер и Gatherer.
-fake Не строить сервера Harvest.
-protect Не менять umask.
brokerПрограмма Broker. Эта программа запускается скриптом RunBroker,
который находится в каталоге брокера. Записывает лог-сообщения как в
broker.out, так и в admin/LOG.
Использование: broker [broker.conf file] [-nocol]
gatherКлиентский интерфейс Gatherer'а.
Использование: gather [-info] [-nocompress] host port [timestamp]
Каталог $HARVEST_HOME/brokers содержит картинки и логотипы в
каталоге images, некоторые основные учебные HTML страницы и файлы-скелеты,
которые использует CreateBroker для построения новых брокеров. Вы можете
изменить значения по умолчанию в этих создаваемых брокерах, отредактировав файлы в
skeleton.
Каталог $HARVEST_HOME/cgi-bin содержит программы, необходимые для
WWW интерфейса брокера (описанного в разделе
Программы CGI) и конфигурационные
файлы для search.cgi в каталоге lib.
Каталог $HARVEST_HOME/gatherers содержит примеры Gatherer,
обсуждаемые в разделе
Примеры Gatherer'ов.
RunHarvest по умолчанию создаст новый Gatherer
в этом каталоге.
Каталог $HARVEST_HOME/lib содержит много функций библиотеки Perl и другие программы, необходимые различным частям Harvest'а, например, следующие:
Библиотеки Perl, используемые для соединения с удаленными серверами FTP.
Библиотеки Perl, используемые для разбора выхода ls.
ftpgetПрограмма, используемая для получения файлов и каталогов с серверов FTP.
Использование: ftpget [-htmlify] localfile hostname filename A,I username password
gopherget.plПрограмма Perl для получения файлов и меню с серверов Gopher.
Использование: gopherget.pl localfile hostname port command
harvest-check.plПрограмма Perl для проверки, запущены ли брокеры и gatherer'ы.
Использование: harvest-check.pl [-v]
md5Программа для вычисления контрольных сумм MD5.
Использование: md5 file [...]
newsget.plПрограмма Perl для получения статей и резюме групп USENET с серверов NNTP.
Использование: newsget.pl localfile news-URL
Библиотека Perl для обработки SOIF.
urlgetПрограмма для извлечения данных с URL.
Использование: urlget URL
urlpurgeПрограмма чистки локального URL кэша, используемая urlget и
Gatherer'ом.
Использование: urlpurge
Каталог $HARVEST_HOME/lib/broker содержит поисковые и индексные программы, необходимые брокеру, а также несколько утилит для администрирования брокера:
BrokerRestartЭта программа выполнит команду перезапуска брокера.
Использование: BrokerRestart [-password passwd] host port
brkclientКлиентский интерфейс брокера. Может быть использован для отправления запросов или административных команд брокеру.
Использование: brkclient hostname port command-string
dumpregistryПечатает файл-реестр брокера в удобном для чтения формате.
Использование: dumpregistry [-count] [BrokerDirectory]
agrep, glimpse, glimpseindex, glimpseserverСистема индекса и поиска Glimpse, описанная в разделе Broker.
swishПрограмма индекса и поиска Swish как альтернатива Glimpse.
info-to-html.pl, mkbrokerstats.plПрограммы Perl для генерирования статистики брокера и создания stats.html.
Использование: gather -info host port | info-to-html.pl > host.port.html
Использование: mkbrokerstats.pl broker-dir > stats.html
Каталог $HARVEST_HOME/lib/gatherer содержит summarizer'ы, описанные в разделе Получение данных для индексации: подсистема суммирования Essence, а также различные утилиты, необходимые summarizer'ам и Gatherer'у, как например:
Фильтр URL по умолчанию, описанный в разделе Описание RootNode.
Конфигурационные файлы Essence, описанные в разделе Настройка шагов распознавания типов, выбора кандидатов, извлечения прдставлений и суммирования.
*.sumSummarizer'ы Essence, описанные в разделе Получение данных для индексации: подсистема суммирования Essence.
HTML-sum.plАльтернативные HTML summarizer'ы, написанные на Perl.
HTMLurlsПрограммы для извлечения URL'ов из файлов HTML.
Использование: HTMLurls [--base-url url] filename
catdoc, xls2csv, catdoc-libПрограммы и файлы, используемые summarizer'ом Microsoft Word.
dvi2tty, print-c-comments, ps2txt, ps2txt-2.1, pstext,
skimПрограммы, используемы разными summarizer'ами.
gifinfoПрограмма для поддержки summarizer'ов.
l2hПрограмма, используемая summarizer'ом TeX.
rast, smgls, sgmlsasp, sgmls-libПрограммы и файлы для SGML summarizer'а.
rtf2htmlПрограмма для RTF summarizer'а.
wp2x, wp2x.sh, wp2x-libПрограммы и файлы для WordPerfect summarizer'а.
hexbin, unshar, uudecodeПрограммы для извлечения упакованных объектов.
cksoifПрограммы для проверки точности потока SOIF (например, чтобы убедиться, что нет ошибок разбора).
Использование: cksoif < INPUT.soif
cleandb, consoldb, expiredb, folddb, mergedb,
mkgathererstats.pl, mkindex, rmbinaryПрограммы для подготовки базы данных Gatherer'а для экспорта при помощи
gatherd.
cleandb удостоверяется в том, что все объекты SOIF не содержат ошибок,
и удалaет все объекты с ошибками;
consoldb объединяет n файлов баз данных GDBM в один файл;
expiredb удаляет все объекты SOIF, которые устарели согласно атрибту
Time-to-Live (время жизни);
folddb проделывает все необходимые операции, необходимые для подготовки
базы данных Gatherer'а к экспорту при помощи gatherd;
mergedb объединяет файлы GDBM, как описано в разделе
Включение в Gatherer информации, сгенерированной вручную;
mkgathererstats.pl генерирует файл статистики INFO.soif
mkindex генерирует кэш временных меток;
rmbinary удаляет двоичные данные из базы данных GDBM.
enum, prepurls, staturlПрограммы, используемые Gatherer'ом для нумерации RootNode и LeafNode,
как описано в разделе
Описание RootNode.
enum выполняет нумерацию RootNode данных URL'ов;
prepurls -- программа-упаковщик для взаимодействия
Gatherer'а и essence;
staturl получает LeafNode URL и определяет изменился URL или
нет.
fileenum, ftpenum, ftpenum.pl, gopherenum-*, httpenum-*,
newsenumПрограммы, используемые enum, чтобы выполнять нумерацию в зависимости от протокола.
fileenum выполняет нумерацию RootNode для URL'ов типа ``file'';
ftpenum вызывает ftpenum.pl для выполнения нумерации RootNode
URL'ов по ``ftp'';
gopherenum-breadth выполняет широкую нумерацию RootNode
для URL'ов типа ``gopher'';
gopherenum-depth выполняет глубокую нумерацию RootNode
для URL'ов типа ``gopher'';
httpenum-breadth выполняет широкую нумерацию RootNode для URL'ов типа ``http'';
httpenum-depth выполняет глубокую нумерацию RootNode для URL'ов типа ``http'';
newsenum выполняет нумерацию RootNode для ``news'' URL'ов;
essenceСистема извлечения содержимого Essence, описанная в разделе Настройка шагов распознавания типов, выбора кандидатов, извлечения прдставлений и суммирования.
Использование: essence [options] -f input-URLs
или essence [options] URL ...
где опции (options):
--dbdir directory Каталог для размещения базы данных
--full-text Использовать весь файл вместо суммирования
--gatherer-host Хост Gatherer'а
--gatherer-name Имя Gatherer'а
--gatherer-version Версия Gatherer'а
--help Выдает информацию об использовании
--libdir directory Каталог для размещения конфигурационных файлов
--log logfile Имя файла для лог-сообщений
--max-deletions n Число удалений GDBM перед реорганизацией
--minimal-bookkeeping Генерирует минимальное число атрибутов учета ресурсов
--no-access Не читать содержимое объектов
--no-keywords Не генерировать автоматически ключевые слова
--allowlist filename Файл со списком допустимых типов
--stoplist filename Файл со списком типов, которые нужно удалять
--tmpdir directory Имя каталога для временных файлов
--type-only Только выдавать данные, не суммировать объекты
--verbose Более полный вывод
--version Информация о версии
print-attrЧитает поток SOIF из stdin и печатает данные, связанные с данным атрибутом, на stdout.
Использование: cat SOIF-file | print-attr Attribute
gatherd, in.gatherdДемоны, которые экспортируют базу данных Gatherer'а. in.gatherd
используется для запуска этого демона из inetd.
Использование:
gatherd [-db | -index | -log | -zip | -cf file] [-dir dir] port
Использование:
in.gatherd [-db | -index | -log | -zip | -cf file] [-dir dir]
gdbmutilПрограмма для выполнения различных действий над базой данных GDBM.
Использование: gdbmutil consolidate [-d | -D] master-file file [file ...]
Использование: gdbmutil delete file key
Использование: gdbmutil dump file
Использование: gdbmutil fetch file key
Использование: gdbmutil keys file
Использование: gdbmutil print [-gatherd] file
Использование: gdbmutil reorganize file
Использование: gdbmutil restore file
Использование: gdbmutil sort file
Использование: gdbmutil stats file
Использование: gdbmutil store file key < data
mktemplateПрограмма для генерирования правильных SOIF на основе более простого редактируемого формата, подобногоSOIF (например, SOIF без подсчета байтов).
Использование: mktemplate < INPUT.txt > OUTPUT.soif
quick-sumПростоая программа Perl для эмулирования обработки quick-sum.cf Essence для тех, кто не может откомпилировать Essence с соответствующим кодом на C.
template2dbКонвертирует поток объетов SOIF (из stdin или данных файлов) в базу данных GDBM.
Использование: template2db database [tmpl tmpl...]
wrapitПреобразует данные из stdin в пары SOIF атрибут-значение с подсчетом байт. Используется summarizer'ами Essence и легко гнерирует SOIf.
Использование: wrapit [Attribute]
kill-gatherdСкрипт для убивания процесса gatherd.
Каталог $HARVEST_HOME/tmp используется search.cgi для хранения страниц результатов поиска.