Верхний каталог, в который вы установили Harvest, обозначим $HARVEST_HOME. По умолчанию $HARVEST_HOME -- это /usr/local/harvest. В $HARVEST_HOME находятся следующие файлы и каталоги:
RunHarvest* brokers/ gatherers/ tmp/
bin/ cgi-bin/ lib/
RunHarvest
-- это скрипт, используемый для создания и запуска серверов Harvest
(см. раздел
Запуск системы: команда RunHarvest и связанные с ней команды.
RunHarvest
имеет
такой же синтаксис командной строки, что и Harvest
.
Каталог $HARVEST_HOME/bin содержит только те программы, которые пользователи обычно могут сразу запустить. Все другие программы (например, отдельные summarizer'ы для Gatherer'а) так же, как и библиотечный код Perl находятмя в каталоге lib. Каталог bin содержит следующие программы:
CreateBroker
Создает брокер.
Использование: CreateBroker [skeleton-tree [destination]]
Gatherer
Главный пользовательский интерфейс Gatherer'а. Эта программа запускается
скриптом RunGatherer
, который находится в каталоге Gatherer'а.
Использование: Gatherer [-manual|-export|-debug] file.cf
Harvest
Эта программа используется RunHarvest
для создания и запуска серверов Harvest
согласно описанию пользователя.
Использование: Harvest [flags]
Где флаги (flags) могут быть следующие:
-novice Простейшая форма вопрос-ответ. В основном использует установки по умолчанию.
-glimpse Использовать Glimpse для брокера. (по умолчанию)
-swish Использовать Swish для брокера.
-wais Использовать WAIS для брокера.
-dumbtty Немой режим TTY.
-debug Режим отладки.
-dont-run Не запускать брокер и Gatherer.
-fake Не строить сервера Harvest.
-protect Не менять umask.
broker
Программа Broker. Эта программа запускается скриптом RunBroker
,
который находится в каталоге брокера. Записывает лог-сообщения как в
broker.out, так и в admin/LOG.
Использование: broker [broker.conf file] [-nocol]
gather
Клиентский интерфейс Gatherer'а.
Использование: gather [-info] [-nocompress] host port [timestamp]
Каталог $HARVEST_HOME/brokers содержит картинки и логотипы в
каталоге images, некоторые основные учебные HTML страницы и файлы-скелеты,
которые использует CreateBroker
для построения новых брокеров. Вы можете
изменить значения по умолчанию в этих создаваемых брокерах, отредактировав файлы в
skeleton.
Каталог $HARVEST_HOME/cgi-bin содержит программы, необходимые для
WWW интерфейса брокера (описанного в разделе
Программы CGI) и конфигурационные
файлы для search.cgi
в каталоге lib.
Каталог $HARVEST_HOME/gatherers содержит примеры Gatherer,
обсуждаемые в разделе
Примеры Gatherer'ов.
RunHarvest
по умолчанию создаст новый Gatherer
в этом каталоге.
Каталог $HARVEST_HOME/lib содержит много функций библиотеки Perl и другие программы, необходимые различным частям Harvest'а, например, следующие:
Библиотеки Perl, используемые для соединения с удаленными серверами FTP.
Библиотеки Perl, используемые для разбора выхода ls
.
ftpget
Программа, используемая для получения файлов и каталогов с серверов FTP.
Использование: ftpget [-htmlify] localfile hostname filename A,I username password
gopherget.pl
Программа Perl для получения файлов и меню с серверов Gopher.
Использование: gopherget.pl localfile hostname port command
harvest-check.pl
Программа Perl для проверки, запущены ли брокеры и gatherer'ы.
Использование: harvest-check.pl [-v]
md5
Программа для вычисления контрольных сумм MD5.
Использование: md5 file [...]
newsget.pl
Программа Perl для получения статей и резюме групп USENET с серверов NNTP.
Использование: newsget.pl localfile news-URL
Библиотека Perl для обработки SOIF.
urlget
Программа для извлечения данных с URL.
Использование: urlget URL
urlpurge
Программа чистки локального URL кэша, используемая urlget
и
Gatherer'ом.
Использование: urlpurge
Каталог $HARVEST_HOME/lib/broker содержит поисковые и индексные программы, необходимые брокеру, а также несколько утилит для администрирования брокера:
BrokerRestart
Эта программа выполнит команду перезапуска брокера.
Использование: BrokerRestart [-password passwd] host port
brkclient
Клиентский интерфейс брокера. Может быть использован для отправления запросов или административных команд брокеру.
Использование: brkclient hostname port command-string
dumpregistry
Печатает файл-реестр брокера в удобном для чтения формате.
Использование: dumpregistry [-count] [BrokerDirectory]
agrep, glimpse, glimpseindex, glimpseserver
Система индекса и поиска Glimpse, описанная в разделе Broker.
swish
Программа индекса и поиска Swish как альтернатива Glimpse.
info-to-html.pl, mkbrokerstats.pl
Программы Perl для генерирования статистики брокера и создания stats.html.
Использование: gather -info host port | info-to-html.pl > host.port.html
Использование: mkbrokerstats.pl broker-dir > stats.html
Каталог $HARVEST_HOME/lib/gatherer содержит summarizer'ы, описанные в разделе Получение данных для индексации: подсистема суммирования Essence, а также различные утилиты, необходимые summarizer'ам и Gatherer'у, как например:
Фильтр URL по умолчанию, описанный в разделе Описание RootNode.
Конфигурационные файлы Essence, описанные в разделе Настройка шагов распознавания типов, выбора кандидатов, извлечения прдставлений и суммирования.
*.sum
Summarizer'ы Essence, описанные в разделе Получение данных для индексации: подсистема суммирования Essence.
HTML-sum.pl
Альтернативные HTML summarizer'ы, написанные на Perl.
HTMLurls
Программы для извлечения URL'ов из файлов HTML.
Использование: HTMLurls [--base-url url] filename
catdoc, xls2csv,
catdoc-libПрограммы и файлы, используемые summarizer'ом Microsoft Word.
dvi2tty, print-c-comments, ps2txt, ps2txt-2.1, pstext,
skim
Программы, используемы разными summarizer'ами.
gifinfo
Программа для поддержки summarizer'ов.
l2h
Программа, используемая summarizer'ом TeX.
rast, smgls, sgmlsasp,
sgmls-libПрограммы и файлы для SGML summarizer'а.
rtf2html
Программа для RTF summarizer'а.
wp2x, wp2x.sh,
wp2x-libПрограммы и файлы для WordPerfect summarizer'а.
hexbin, unshar, uudecode
Программы для извлечения упакованных объектов.
cksoif
Программы для проверки точности потока SOIF (например, чтобы убедиться, что нет ошибок разбора).
Использование: cksoif < INPUT.soif
cleandb, consoldb, expiredb, folddb, mergedb,
mkgathererstats.pl, mkindex, rmbinary
Программы для подготовки базы данных Gatherer'а для экспорта при помощи
gatherd
.
cleandb
удостоверяется в том, что все объекты SOIF не содержат ошибок,
и удалaет все объекты с ошибками;
consoldb
объединяет n файлов баз данных GDBM в один файл;
expiredb
удаляет все объекты SOIF, которые устарели согласно атрибту
Time-to-Live (время жизни);
folddb
проделывает все необходимые операции, необходимые для подготовки
базы данных Gatherer'а к экспорту при помощи gatherd
;
mergedb
объединяет файлы GDBM, как описано в разделе
Включение в Gatherer информации, сгенерированной вручную;
mkgathererstats.pl
генерирует файл статистики INFO.soif
mkindex
генерирует кэш временных меток;
rmbinary
удаляет двоичные данные из базы данных GDBM.
enum, prepurls, staturl
Программы, используемые Gatherer'ом
для нумерации RootNode и LeafNode,
как описано в разделе
Описание RootNode.
enum
выполняет нумерацию RootNode данных URL'ов;
prepurls
-- программа-упаковщик для взаимодействия
Gatherer'а
и essence
;
staturl
получает LeafNode URL и определяет изменился URL или
нет.
fileenum, ftpenum, ftpenum.pl, gopherenum-*, httpenum-*,
newsenum
Программы, используемые enum
, чтобы выполнять нумерацию в зависимости от протокола.
fileenum
выполняет нумерацию RootNode для URL'ов типа ``file'';
ftpenum
вызывает ftpenum.pl
для выполнения нумерации RootNode
URL'ов по ``ftp'';
gopherenum-breadth
выполняет широкую нумерацию RootNode
для URL'ов типа ``gopher'';
gopherenum-depth
выполняет глубокую нумерацию RootNode
для URL'ов типа ``gopher'';
httpenum-breadth
выполняет широкую нумерацию RootNode для URL'ов типа ``http'';
httpenum-depth
выполняет глубокую нумерацию RootNode для URL'ов типа ``http'';
newsenum
выполняет нумерацию RootNode для ``news'' URL'ов;
essence
Система извлечения содержимого Essence, описанная в разделе Настройка шагов распознавания типов, выбора кандидатов, извлечения прдставлений и суммирования.
Использование: essence [options] -f input-URLs
или essence [options] URL ...
где опции (options):
--dbdir directory Каталог для размещения базы данных
--full-text Использовать весь файл вместо суммирования
--gatherer-host Хост Gatherer'а
--gatherer-name Имя Gatherer'а
--gatherer-version Версия Gatherer'а
--help Выдает информацию об использовании
--libdir directory Каталог для размещения конфигурационных файлов
--log logfile Имя файла для лог-сообщений
--max-deletions n Число удалений GDBM перед реорганизацией
--minimal-bookkeeping Генерирует минимальное число атрибутов учета ресурсов
--no-access Не читать содержимое объектов
--no-keywords Не генерировать автоматически ключевые слова
--allowlist filename Файл со списком допустимых типов
--stoplist filename Файл со списком типов, которые нужно удалять
--tmpdir directory Имя каталога для временных файлов
--type-only Только выдавать данные, не суммировать объекты
--verbose Более полный вывод
--version Информация о версии
print-attr
Читает поток SOIF из stdin и печатает данные, связанные с данным атрибутом, на stdout.
Использование: cat SOIF-file | print-attr Attribute
gatherd, in.gatherd
Демоны, которые экспортируют базу данных Gatherer'а. in.gatherd
используется для запуска этого демона из inetd.
Использование:
gatherd [-db | -index | -log | -zip | -cf file] [-dir dir] port
Использование:
in.gatherd [-db | -index | -log | -zip | -cf file] [-dir dir]
gdbmutil
Программа для выполнения различных действий над базой данных GDBM.
Использование: gdbmutil consolidate [-d | -D] master-file file [file ...]
Использование: gdbmutil delete file key
Использование: gdbmutil dump file
Использование: gdbmutil fetch file key
Использование: gdbmutil keys file
Использование: gdbmutil print [-gatherd] file
Использование: gdbmutil reorganize file
Использование: gdbmutil restore file
Использование: gdbmutil sort file
Использование: gdbmutil stats file
Использование: gdbmutil store file key < data
mktemplate
Программа для генерирования правильных SOIF на основе более простого редактируемого формата, подобногоSOIF (например, SOIF без подсчета байтов).
Использование: mktemplate < INPUT.txt > OUTPUT.soif
quick-sum
Простоая программа Perl для эмулирования обработки quick-sum.cf Essence для тех, кто не может откомпилировать Essence с соответствующим кодом на C.
template2db
Конвертирует поток объетов SOIF (из stdin или данных файлов) в базу данных GDBM.
Использование: template2db database [tmpl tmpl...]
wrapit
Преобразует данные из stdin в пары SOIF атрибут-значение с подсчетом байт. Используется summarizer'ами Essence и легко гнерирует SOIf.
Использование: wrapit [Attribute]
kill-gatherd
Скрипт для убивания процесса gatherd.
Каталог $HARVEST_HOME/tmp используется search.cgi для хранения страниц результатов поиска.