Документация пользователя Harvest
  Darren R. Hardy, Michael F. Schwartz, Duane Wessels, Kang-
  Jin Lee
  2002-09-04

  Документация пользователя Harvest была отредактирована Kang-Jin Lee и
  относится к Harvest version 1.8. Первоначально она была написана Darґ
  ren R. Hardy, Michael F. Schwartz и Duane Wessels для Harvest 1.4.pl2
  31 января 1996г.
  ______________________________________________________________________

  Table of Contents


  1. Введение в Harvest

     1.1 Copyright
     1.2 Ресурсы Harvest Online

  2. Обзор подсистем

     2.1 Распределение процессов Gathering и Brokering

  3. Установка ПО Harvest

     3.1 Требования к серверам Harvest
        3.1.1 ``Железо''
        3.1.2 Платформы
        3.1.3 ПО
     3.2 Требования к пользователям Harvest
     3.3 Получение и установка ПО Harvest
        3.3.1 Типы дистрибутивов
        3.3.2 Компоненты Harvest
        3.3.3 Программное обеспечение, созданное пользователями
     3.4 Компилирование исходников
     3.5 Дополнительная установка для Harvest Broker
        3.5.1 Проверка установки на возможность HTTP доступа
        3.5.2 Необходимые изменения вашего сервера HTTP
        3.5.3 Apache httpd
        3.5.4 Другие сервера HTTP
     3.6 Модернизация ПО Harvest
        3.6.1 Переход от версии 1.6 до версии 1.8
        3.6.2 Переход от версии 1.5 до версии 1.6
        3.6.3 Переход от версии 1.4 до версии 1.5
        3.6.4 Переход от версии 1.3 до версии 1.4
        3.6.5 Переход от версии 1.2 до версии 1.3
        3.6.6 Переход от версии 1.1 до версии 1.2
        3.6.7 Переход к версии 1.1 с версии 1.0 или более ранних версий
     3.7 Запуск системы: команда RunHarvest и связанные с ней команды
     3.8 Контактная информация команды разработчиков Harvest

  4. Gatherer

     4.1 Обзор
     4.2 Начальная установка
        4.2.1 Сбор новостных URL'ов (News) при помощи NNTP
        4.2.2 Очистка Gatherer'а
     4.3 Описание RootNode
        4.3.1 Фильтры RootNode
        4.3.2 Описание програмы нумерации
        4.3.3 Пример конфигурации RootNode
        4.3.4 Нумерация Gatherer'а и выбор кандидатов
     4.4 Генерация LeafNode/RootNode URL'ов из программы
     4.5 Извлечение данных для индексации: Подсистема суммирования Essence
        4.5.1 Действия стандартных summarizer'ов по умолчанию
        4.5.2 Суммирование данных SGML
           4.5.2.1 Размещение вспомогательных файлов
           4.5.2.2 Таблица соответствий SGML - SOIF
           4.5.2.3 Ошибки и предупреждения парсера SGML
           4.5.2.4 Создание summarizer'а для новых типов данных SGML
           4.5.2.5 HTML summarizer на основе SGML
           4.5.2.6 Добавление META данных в ваш HTML
           4.5.2.7 Другие примеры
        4.5.3 Настройка шагов распознавания типов, выбора кандидатов, извлечения прдставлений и суммирования
           4.5.3.1 Настройка шага распознавания типов
           4.5.3.2 Настройка шага выбора кандидатов
           4.5.3.3 Настройка шага извлечения представлений
           4.5.3.4 Настройка шага суммирования
     4.6 Пост-суммирование: настройка резюме объектов (object summaries) по правилам
        4.6.1 Файл правил
        4.6.2 Rewriting URLs
     4.7 Администрирование Gatherer'а
        4.7.1 Задание значений переменных в конфигурационном файле Gatherer'а
        4.7.2 Собирание на локальной файловой системе для сниженной загрузки процессора
        4.7.3 Собирание с серверов, защищенных паролем
        4.7.4 Контроль доступа к базе данных Gatherer'а
        4.7.5 Периодическое собирание и обновления в реальном времени
        4.7.6 Дисковый кэш
        4.7.7 Включение в Gatherer информации, сгенерированной вручную
     4.8 Устранение неполадок

  5. Broker

     5.1 Обзор
     5.2 Начальная установка
     5.3 Отправление запросов Broker'у
        5.3.1 Примеры запросов
        5.3.2 Регулярные выражения
        5.3.3 Опции запросов, выбираемые в меню или кнопками
        5.3.4 Фильтрование результатов запроса
        5.3.5 Представление результатов
     5.4 Настройка выдаваемого результата на запрос Broker'у
        5.4.1 Конфигурационный файл search.cf
           5.4.1.1 Определенные переменные
           5.4.1.2 Список определений
        5.4.2 Пример файла настроек search.cf
        5.4.3 Интегрирование ваших настроенных конфигурационных файлов
        5.4.4 Выдача атрибутов SOIF в результатах
     5.5 Описание интерфейса World Wide Web
        5.5.1 Файлы HTML для графического пользовательского интерфейса
        5.5.2 Программы CGI
        5.5.3 Файлы помощи пользователю
     5.6 Администрирование Broker'а
        5.6.1 Удаление нежелательных объектов брокера
        5.6.2 Администрирование из командной строки
     5.7 Настройка индексирования Glimpse в Broker'е
        5.7.1 Программа glimpseserver
     5.8 Использование различных индексирующих/поисковых систем вместе с Broker'ом
        5.8.1 Использование Swish в качестве индексера
        5.8.2 Использование WAIS в качестве индексера
     5.9 Описание интерфейса коллектора: Collection.conf
     5.10 Устранение неполадок

  6. Программы и размещение установленного ПО Harvest

     6.1 $HARVEST_HOME
     6.2 $HARVEST_HOME/bin
     6.3 $HARVEST_HOME/brokers
     6.4 $HARVEST_HOME/cgi-bin
     6.5 $HARVEST_HOME/gatherers
     6.6 $HARVEST_HOME/lib
     6.7 $HARVEST_HOME/lib/broker
     6.8 $HARVEST_HOME/lib/gatherer
     6.9 $HARVEST_HOME/tmp

  7. Формат взаимообмена краткими изложениями документов (SOIF)

     7.1 Формальное описание SOIF
     7.2 Список общих имен атрибутов SOIF

  8. Примеры Gatherer

     8.1 Пример 1 - простой Gatherer
     8.2 Пример 2 - включение информации, сгенерированной вручную
     8.3 Пример 3 - Настройка распознавания типов и выбора кандидатов
     8.4 Пример 4 - настройка распознавания типов и суммирование
        8.4.1 Использование регулярных выражений для суммирования формата
        8.4.2 Использование программ для суммирования формата
        8.4.3 Запуск примера
     8.5 Пример 5 - Использование фильтров RootNode

  9. История Harvest

     9.1 История Harvest
     9.2 История документации Harvest


  ______________________________________________________________________

  11..  ВВввееддееннииее вв HHaarrvveesstt

  HARVEST - это объединенный набор средств для собирания, извлечения,
  систематизирования и поиска информации в Internet. Небольшими усилиями
  пользователи могут адаптировать Harvest для систематизации информации
  в различных форматах и предложить свои услуги поиска в Internet.

  Главная задача Harvest - предоставить гибкую систему, которая может
  быть настроена различными способами для создания большого числа типов
  индексов.

  Harvest также позволяет пользователям извлекать структурированную
  (пара атрибут-значение) информацию из многих различных форматов
  хранения информации и строить индексы, которые позволят обращаться к
  этим атрибутам во время запросов (например, поиск всех документов,
  содержащих определенное регулярное выражение в поле "заголовок").

  Важное преимущество Harvest заключается в том, что он позволяет
  пользователям строить индексы используя или свои шаблоны (для
  максимального контроля над содержанием индекса), или созданные
  автоматически шаблоны извлеченных данных (для легкого охвата больших
  коллекций), смесь этих двух способов.

  Harvest спроектирован для легкого распределения поисковой системы на
  множество машин, подключенных к сети, для управления более высокими
  нагрузками.


  11..11..  CCooppyyrriigghhtt

  Ядро Harvest находится под лицензией GPL
  <http://harvest.sourceforge.net/harvest/COPYING>.  Дополнительные
  компоненты, поставляемые вместе с Harvest, также находятся под GPL или
  похожими лицензиями.  Glimpse, на данный момент используемая по
  умолчанию полнотекстовая система индексации имеет другую лицензию.
  Вот прояснение статуса авторского права Glimpse
  <http://harvest.sourceforge.net/harvest/doc/glimpse-license-status>,
  любезно предоставленное Golda Velez <mailto:gvelez@tucson.com> в
  comp.infosystems.harvest <news:comp.infosystems.harvest>.


  11..22..  РРеессууррссыы HHaarrvveesstt OOnnlliinnee

  Эта документация доступна на
  harvest.sourceforge.net/harvest/doc/html/manual.html.

  Болле подробную информацию о Harvest можно получить на
  harvest.sourceforge.net.


  22..  ООббззоорр ппооддссииссттеемм

  Harvest состоит из нескольких подсистем. Подсистема _G_a_t_h_e_r_e_r собирает
  индексируемую информацию (такую как ключевые слова, имена авторов и
  заголовки) с ресурсов, доступных на сайтах _P_r_o_v_i_d_e_r'ов (таких как FTP
  и HTTP сервера). Подсистема _B_r_o_k_e_r получает индексируемую информацию
  от одного или нескольких Gatherer'ов, избавляется от повторной
  информации, постепенно индексирует собранную информацию и
  предоставляет WWW интерфейс для запросов к нему.


                          Компоненты ПО Harvest

  Следует начать использование Harvest просто установив один ``готовый''
  (т.е. не настроенный) Gatherer и Broker на одну машину для
  индексирования некоторых FTP, World Wide Web и NetNews данных на вашем
  сайте.

  После того, как вы получите работающую систему в этой основной
  конфигурации, вы можете обоснованно предпринимать дальнейшие усилия.
  Во-первых, дойдя до увеличения объемов индексируемой информации, вы
  можете уменьшить нагрузку процессора и сети для индексацци ваших
  данных распределяя процесс сбора. Во-вторых, вы можете настроить
  Harvest так, чтобы он извлекал, индексировал и искал вашу информацию
  лучше сопоставляя типы имеющихся у вас данных и способы, которыми ваши
  пользователи хотели бы взаимодействовать с данными.

  Мы обсудим, как распределить процесс сбора в следующем разделе. Мы
  охватим различные формы настройки в разделе ``Настройка распознавания
  типов, выбора кандидатов, представление разбора и суммирование'' и в
  разных частях раздела ``Broker''.


  22..11..  РРаассппррееддееллееннииее ппррооццеессссоовв GGaatthheerriinngg ии BBrrookkeerriinngg

  Harvest Gatherer'ы и Broker'ы могут быть сконфигурированы различными
  способами.  Запуск Gatherer'а удаленно с сайта провайдера позволяет
  Harvest'у взаимодействовать с сайтами, не использующими Harvest
  Gatherer'ы, используя стандартные протоколы получения объектов как
  FTP, Gopher, HTTP, and NNTP.  Однако, как показано толстыми линиями
  слева на рисунке ``2'', такое расположение приводит к излишку нагрузки
  сервера и сети. Запуск Gatherer'а локально более эффективно, как
  показано справа на рисунке ``2''.  Тем не менее, запускать Gatherer'ы
  удаленно все же лучше, чем иметь много сайтов, независимо собирающих
  индексируемую информацию, так как много Broker'ов или других поисковых
  служб могут совместно использовать индексируемую информацию, которую
  собирает Gatherer.

  Если у вас есть много FTP/HTTP/Gopher/NNTP серверов на вашем сайте, то
  наиболее правильно запустить Gatherer на каждой машине, где есть
  сервер.  С другой стороны, вы можете уменьшить усилия на установку,
  запустив Gatherer всего на одной машине на вашем сайте и позволив ему
  получить данные по сети.


                      Варианты конфигурации Harvest
  Рисунок ``2'' также показывает, что Broker может собирать информацию
  от нескольких Gatherer'ов (чтобы построить индекс широко разбросанной
  информации). Broker'ы могут также получать информацию от других
  Broker'ов, в сущности передавая проиндексированную информацию друг
  другу. Broker'ы получают эту информацию, используя интерфейс запросов,
  позволяя фильтровать или очищать информацию от одного Broker'а к
  другому.


  33..  УУссттааннооввккаа ППОО HHaarrvveesstt


  33..11..  ТТррееббоовваанниияя кк ссееррввеерраамм HHaarrvveesstt


  33..11..11..  ````ЖЖееллееззоо''''

  Хорошая машина для запуска обычного сервера Harvest должна иметь
  достаточно быстрый процессор, 1-2 GB свободного дискового пространства
  и 128 MB RAM.  Медленный процессор будет работать, но будет сильно
  тормозить сервер Harvest. Однако, размер памяти важнее чем скорость
  процессора. Harvest использует много процессов, некоторые из которых
  предоставляют необходимую ``связь'' (т.е., например, search.cgi
  связывает пользователя с брокером), а некоторые улучшают
  производительность (например, процесс glimpseserver ).  Если у вас
  недостаточно памяти, ваша система будет слишком много записываться на
  диск и значительно уменьшит производительность. Другой фактор,
  влияющий на использование RAM, заключается в том, сколько вы пытаетесь
  проиндексировать брокером Harvest. Чем больше данных, тем больше будет
  выполняться операций ввода/вывода за время запроса, и тем больше
  памяти будет занято, чтобы предоставить дисковый буфер разумного
  размера.

  Количество места на диске, которое вам понадобится зависит от того,
  сколько данных вы хотите проиндексировать одним брокером.  (Можно
  распределить ваш индекс на несколько брокеров, если одного диска
  становится недостаточно.) Опыт показывает, что вам понадобится места
  на диске около 10% от общего размера данных, подлежащих
  индексированию, для содержания Gatherer'а и Broker'а.  Реальные
  размеры будут зависеть от типа данных, которые вы индексируете.
  Например, PostScript достигает значительно большего уменьшения
  индексного пространства, чем HTML, потому что очень много информации в
  PostScript (такой как информация о расстановке страниц) отбрасывается
  при построении индекса.


  33..11..22..  ППллааттффооррммыы

  Для того, чтобы запустить сервер Harvest, вам нужна UNIX-подобная
  операционная система.


  33..11..33..  ППОО

  Для использования Harvest вам необходимы следующие программные пакеты:


  Ї  Все сервера Harvest требуют: Perl v5.0 или выше.

  Ї  Harvest Broker и Gatherer требуют: GNU gzip v1.2.4 или выше.

  Ї  Harvest Broker требует: HTTP сервер.


  Для того, чтобы собрать Harvest из дистрибутива с исходниками, вам
  может понадобиться установить один или больше из следующих программных
  пакетов:


  Ї  Для компилирования Harvest необходимо: GNU gcc v2.5.8 или выше.

  Ї  Для компилирования брокера Harvest необходимо: flex v2.4.7 или выше
     и bison v1.22 или выше.

  Исходники gcc, gzip, flex и bison можно взять на GNU FTP сервере
  <ftp://ftp.gnu.org/>.


  33..22..  ТТррееббоовваанниияя кк ппооллььззооввааттеелляямм HHaarrvveesstt

  Любой, у кого есть веб-броузер (например, Internet Explorer, Lynx,
  Mozilla, Netscape, Opera и др.), может использовать сервера Harvest.


  33..33..  ППооллууччееннииее ии ууссттааннооввккаа ППОО HHaarrvveesstt


  33..33..11..  ТТииппыы ддииссттррииббууттииввоовв

  Сейчас мы предлагаем только один дистрибутив с исходниками Harvest.
  _Д_и_с_т_р_и_б_у_т_и_в _с _и_с_х_о_д_н_и_к_а_м_и содержит весь исходный код для ПО Harvest.
  Нет _б_и_н_а_р_н_ы_х _д_и_с_т_р_и_б_у_т_и_в_о_в Harvest'а.

  Вы можете получить дистрибутивы с исходниками Harvest на странице
  загрузки Harvest prdownloads.sourceforge.net/harvest/.


  33..33..22..  ККооммппооннееннттыы HHaarrvveesstt

  Компоненты Harvest находятся в каталоге _c_o_m_p_o_n_e_n_t_s.  Чтобы
  использовать компонент, следуйте инструкциям, находящимся в каталоге
  соответствующего компонента.


  33..33..33..  ППррооггррааммммннооее ооббеессппееччееннииее,, ссооззддааннннооее ппооллььззооввааттеелляяммии

  Существует коллекция неподдерживаемого ПО, созданного пользователями в
  каталоге _c_o_n_t_r_i_b.  Если вы хотите внести свой вклад и предоставить
  ваше ПО, отправьте, пожалуйста, письмо на lee@arco.de
  <mailto:lee@arco.de>.


  33..44..  ККооммппииллииррооввааннииее ииссххооддннииккоовв

  Дистрибутив с исходниками можно извлечь в любой каталог.  Следующая
  команда извлечет архив gnu-zip с исходниками:


               % gzip -dc harvest-x.y.z.tar.gz | tar xf -


  Для архивов, сжатых при помощи bzip2, используйте:


          % bzip2 -dc harvest-x.y.z.tar.bz2 | tar xf -


  Harvest использует пакеты GNU _a_u_t_o_c_o_n_f для предоставления необходимой
  конфигурации в процессе установки.  Если вы хотите заменить место
  установки по умолчанию _/_u_s_r_/_l_o_c_a_l_/_h_a_r_v_e_s_t, измените переменную
  ``prefix'' при запуске ``configure''.  При желании можете
  отредактировать _s_r_c_/_c_o_m_m_o_n_/_i_n_c_l_u_d_e_/_c_o_n_f_i_g_._h перед компиляцией, чтобы
  изменить различные переменные и ограничения времени компиляции
  Harvest'а. Чтобы скомпилировать дерево исходников, наберите make.

  Например, чтобы построить и установить полную систему Harvest в
  каталог _/_u_s_r_/_l_o_c_a_l_/_h_a_r_v_e_s_t , наберите:


               % ./configure
               % make
               % make install


  Вы можете увидеть несколько предупреждающих сообщений компилятора,
  которые можно проигнорировать.

  Построение полного дистрибутива Harvest займет несколько минут на
  достаточно быстрой машине. Скомпилированное дерево исходников занимает
  примерно 25 мегабайт дискового пространства.

  Потом, после того, как заработает установленное ПО, вы можете удалить
  скомпилированный код (файлы ".o") и прочие промежуточные файлы, набрав
  make clean.  Если вы хотите удалить файлы, созданные configure
  (Makefiles), наберите make distclean.


  33..55..  ДДооппооллннииттееллььннааяя ууссттааннооввккаа ддлляя HHaarrvveesstt BBrrookkeerr


  33..55..11..  ППррооввееррккаа ууссттааннооввккии ннаа ввооззммоожжннооссттьь HHTTTTPP ддооссттууппаа

  Broker взаимодействует с вашим сервером HTTP различными способами.
  Следует убедиться, что сервер HTTP имеет необходимый доступ к нужным
  ему файлам. Часто сервер HTTP запускается пользователем, не являющимся
  владельцем файлов Harvest.

  Во-первых, убедитесь, что userid сервера HTTP может прочитать файлы
  _q_u_e_r_y_._h_t_m_l в каталогах каждого брокера.  Во-вторых, убедитесь, что
  userid сервера HTTP имеет доступ и может запустить программы CGI в
  _$_H_A_R_V_E_S_T___H_O_M_E_/_c_g_i_-_b_i_n_/.  Скрипт search.cgi читает файлы из каталога
  _$_H_A_R_V_E_S_T___H_O_M_E_/_c_g_i_-_b_i_n_/_l_i_b_/, так что проверьте его тоже.  Наконец,
  проверьте файлы в _$_H_A_R_V_E_S_T___H_O_M_E_/_l_i_b_/.  Некторые скрипты Perl CGI
  требуют файлы ``include'' в этом каталоге.

  The Broker interacts with your HTTP server in a number of ways.  You
  should make sure that the HTTP server can properly access the files it
  needs.  In many cases, the HTTP server will run under a different
  userid than the owner of the Harvest files.


  33..55..22..  ННееооббххооддииммыыее ииззммееннеенниияя вваашшееггоо ссееррввеерраа HHTTTTPP


  Harvest Broker требует, чтобы был запущен сервер HTTP, и чтобы сервер
  HTTP ``знал'' о файлах Broker'а.  Ниже приведено несколько примеров
  того, как настроить различные сервера HTTP для работы с Harvest
  Broker.


  33..55..33..  AAppaacchhee hhttttppdd

  Требует SSccrriippttAAlliiaass и AAlliiaass записи в _h_t_t_p_d_._c_o_n_f, например:


               ScriptAlias /Harvest/cgi-bin/ Your-HARVEST_HOME/cgi-bin/
               Alias /Harvest/ Your-HARVEST_HOME/


  _В_Н_И_М_А_Н_И_Е_: Запись SSccrriippttAAlliiaass должна появиться _п_е_р_е_д записью AAlliiaass.

  Дополнительно может оказаться необходимым настроить Apache httpd,
  чтобы он следовал _п_о _с_и_м_в_о_л_и_ч_е_с_к_и_м _с_ы_л_к_а_м.  Чтобы сделать это,
  добавьте следующее в ваш _h_t_t_p_d_._c_o_n_f:


               <Directory Your-HARVEST_HOME>
                       Options FollowSymLinks
               </Directory>


  33..55..44..  ДДррууггииее ссееррввеерраа HHTTTTPP


  Установите сервер HTTP и измените его конфигурационный файл так, чтобы
  каталог _/_H_a_r_v_e_s_t указывал на _$_H_A_R_V_E_S_T___H_O_M_E. Вам также понадобится
  настроить ваш сервер HTTP так, чтобы он знал, что каталог
  _/_H_a_r_v_e_s_t_/_c_g_i_-_b_i_n содержит программы CGI.  Если по умолчанию ваш сервер
  не следует по символическим ссылкам, вам нужно настроить его так,
  чтобы он следовал по символическим ссылкам в каталоге _/_H_a_r_v_e_s_t.


  33..66..  ММооддееррннииззаацциияя ППОО HHaarrvveesstt


  33..66..11..  ППееррееххоодд оотт ввееррссииии 11..66 ддоо ввееррссииии 11..88


  _Н_е_л_ь_з_я устанавливать версию 1.8 поверх версии 1.6.  Например,
  изменения версии 1.8 по сравнению с 1.6 включают некоторую
  реорганизацию  исполняемых файлов, и, следовательно, простая установка
  версии 1.8 поверх версии 1.6 приведет в некоторых случаях к
  использованию старых исполняемых файлов.

  Для перехода Harvest'а с версии 1.6 до 1.8:


  1. Переместите старую установку во временный каталог.

  2. Установите новую версию, руководствуясь инструкцией, поставляемой с
     Harvest'ом.

  3. Потом, для каждого Gatherer'а и Broker'а, которые вы запускали в
     старой инсталляции, переместите сервер на новую инсталляцию.


     GGaatthheerreerr''ыы::
        необходимо переместить каталог Gatherer'а в
        _$_H_A_R_V_E_S_T___H_O_M_E_/_g_a_t_h_e_r_e_r_s.  Раздел ``Описание RootNode''
        показывает специфику загрузки Gatherer'а, если вы хотите внести
        изменения в конфигурационный файл вашего Gatherer'а.


     BBrrookkeerr''ыы::
        переделайте ваш Broker, используя CreateBroker, и сделайте все
        настройки, которые были у вашего старого Broker'а.


  33..66..22..  ППееррееххоодд оотт ввееррссииии 11..55 ддоо ввееррссииии 11..66

  Нет никаких известных несовместимостей между версиями 1.5 и 1.6.


  33..66..33..  ППееррееххоодд оотт ввееррссииии 11..44 ддоо ввееррссииии 11..55

  _Н_е_л_ь_з_я устанавливать версию 1.5 поверх версии 1.4.  Например,
  изменения версии 1.5 по сравнению с 1.4 включают некоторую
  реорганизацию  исполняемых файлов, и, следовательно, простая установка
  версии 1.5 поверх версии 1.4 приведет в некоторых случаях к
  использованию старых исполняемых файлов.

  Для перехода Harvest'а с версии 1.4 до 1.5:


  1. Переместите старую установку во временный каталог.

  2. Установите новую версию, руководствуясь инструкцией, поставляемой с
     Harvest'ом.

  3. Потом, для каждого Gatherer'а и Broker'а, которые вы запускали в
     старой инсталляции, переместите сервер на новую инсталляцию.


     GGaatthheerreerr''ыы::
        необходимо переместить каталог Gatherer'а в
        _$_H_A_R_V_E_S_T___H_O_M_E_/_g_a_t_h_e_r_e_r_s.  Раздел ``Описание RootNode''
        показывает специфику загрузки Gatherer'а, если вы хотите внести
        изменения в конфигурационный файл вашего Gatherer'а.


     BBrrookkeerr''ыы::
        необходимо переместить каталог Broker'а в _$_H_A_R_V_E_S_T___H_O_M_E_/_b_r_o_k_e_r_s.
        Удалите все файлы _._g_l_i_m_p_s_e___* из каталога вашего Broker'а и
        используйте интерфейс _a_d_m_i_n_._h_t_m_l для полного индексирования.
        Возможно, вы захотите перестроить ваш Broker, используя
        CreateBroker, после чего вы сможете использовать новый
        _q_u_e_r_y_._h_t_m_l и связанные с ним файлы.


  33..66..44..  ППееррееххоодд оотт ввееррссииии 11..33 ддоо ввееррссииии 11..44

  Нет никаких известных несовместимостей между версиями 1.3 и 1.4.

  33..66..55..  ППееррееххоодд оотт ввееррссииии 11..22 ддоо ввееррссииии 11..33

  Версия 1.3 почти полностью обратно совместима с 1.2 со следующим
  исключением:

  Harvest 1.3 использует 3.0. Файлы _._g_l_i_m_p_s_e___* в каталоге брокера,
  созданные при помощи Harvest 1.2 (Glimpse 2.0),


  1. Закрыть все запущенные брокеры.

  2. Выполнить rm .glimpse_* в каталогах каждого брокера.

  3. Перезапустить ваши брокеры командой RunBroker.

  4. Выполните полное индексирование при помощи интерфейса _a_d_m_i_n_._h_t_m_l.


  33..66..66..  ППееррееххоодд оотт ввееррссииии 11..11 ддоо ввееррссииии 11..22

  Есть несколько несовместимостей между версиями Harvest 1.1 и 1.2.


  Ї  У Gatherer'а есть улучшенная поддержка возрастающего сбора, которая
     несовместима с версией 1.1.  Для обновления вашего существующего
     Gatherer'а зайдите в _к_а_т_а_л_о_г _д_а_н_н_ы_х Gatherer'а (обычно подкаталог
     _d_a_t_a) и запустите следующую команду:


               % set path = ($HARVEST_HOME/lib/gatherer $path)
               % cd data
               % rm -f INDEX.gdbm
               % mkindex


  Должны создаться файлы _I_N_D_E_X_._g_d_b_m и _M_D_5_._g_d_b_m в текущем каталоге.

  Ї  У Broker'а есть новый формат логов для файла _a_d_m_i_n_/_L_O_G, который
     несовместим с версией 1.1.


  33..66..77..  ППееррееххоодд кк ввееррссииии 11..11 сс ввееррссииии 11..00 ииллии ббооллееее рраанннниихх ввееррссиийй

  Если у вас уже установлена более рання версия Harvest, и вы хотите ее
  обновить, то _н_е_л_ь_з_я распаковывать новый дистрибутив поверх старого.
  Например, изменения версии 1.1 по сравнению с 1.0 включают некоторую
  реорганизацию исполняемых файлов, и, следовательно, простая установка
  версии 1.1 поверх версии 1.0 приведет в некоторых случаях к
  использованию старых исполняемых файлов.

  С другой стороны, возможно вы не захотите устанавливать с нуля новую
  версию, так как вы уже собрали и проиндексировали большое число
  данных.  Вместо этого, для перехода с версии Harvest 1.0 до 1.1
  проделайте следующее:


  1. Переместите старую установку во временный каталог.

  2. Установите новую версию, руководствуясь инструкцией, поставляемой с
     Harvest'ом.

  3. Потом, для каждого Gatherer'а и Broker'а, которые вы запускали в
     старой инсталляции, переместите сервер на новую инсталляцию.


     GGaatthheerreerr''ыы::
        необходимо переместить каталог Gatherer'а в
        _$_H_A_R_V_E_S_T___H_O_M_E_/_g_a_t_h_e_r_e_r_s. Раздел ``Описание RootNode'' показывает
        специфику загрузки Gatherer'а, если вы хотите внести изменения в
        конфигурационный файл вашего Gatherer'а.


     BBrrookkeerr''ыы::
        необходимо переместить каталог Broker'а в _$_H_A_R_V_E_S_T___H_O_M_E_/_b_r_o_k_e_r_s.
        Возможно, вы захотите перестроить ваш брокер, используя
        CreateBroker, чтобы можно было использовать обновленный
        _q_u_e_r_y_._h_t_m_l и связанные с ним файлы.


  33..77..  ЗЗааппуусскк ссииссттееммыы:: ккооммааннддаа RRuunnHHaarrvveesstt ии ссввяяззаанннныыее сс ннеейй ккооммааннддыы

  Простейший способ запуска системы Harvest - использовать команду
  RunHarvest. RunHarvest предлагает пользователю ответить на небольшой
  список вопросов о том, какие данные индексировать и проч., и затем
  создает и запускает Gatherer и Broker со стандартным (не настроенным)
  набором механизмов извлечения содержимого и индексирования. Имеется
  несколько более простых команд для запуска отдельных Gatherer'ов и
  Broker'ов (например, если вы хотите распределить процесс собирания).
  Команды запуска Harvest'а:


     RRuunnHHaarrvveesstt
        Проверяет, корректно ли установлено ПО Harvest, спрашивает у
        пользователя   основную конфигурационную информацию и затем
        создает и запускает Gatherer и   Broker.  Если у вас установлена
        переменная _$_H_A_R_V_E_S_T___H_O_M_E, тогда команда использует ее;   в
        противном случае она попытается определить _$_H_A_R_V_E_S_T___H_O_M_E
        автоматически.  Находится   в каталоге _$_H_A_R_V_E_S_T___H_O_M_E.


     RRuunnBBrrookkeerr
        Запускает Broker. Находится в каталоге Broker'а.


     RRuunnGGaatthheerreerr
        Запускает Gatherer. Находится в каталоге Gatherer'а.


     CCrreeaatteeBBrrookkeerr
        Создает отдельный Broker, который будет собирать свою информацию
        от других существующих Broker'ов или Gatherer'ов. Используется
        RunHarvest, или может быть запущена пользователем для создания
        нового брокера. Использует _$_H_A_R_V_E_S_T___H_O_M_E и по умолчанию
        _/_u_s_r_/_l_o_c_a_l_/_h_a_r_v_e_s_t.  находится в каталоге _$_H_A_R_V_E_S_T___H_O_M_E_/_b_i_n.

  Не существует команды CreateGatherer, но команда RunHarvest может
  создать Gatherer, или вы можете создать Gatherer вручную (смотрите
  раздел ``Настройка распознавания типов, выбора кандидатов,
  представление разбора и суммирование'' или раздел ``Примеры
  Gatherer'ов'').  Расположение каталогов и программ установлнного
  Harvest'а обсуждается в разделе ``Программы и размещение
  установленного ПО Harvest''.

  Среди всего прочего, команда RunHarvest спрашивает пользователя, какие
  порты использовать для Gatherer'а и Broker'а. По умолчанию Gatherer
  будет использовать 8500, а Broker -- порт Gatherer'а плюс 1.  Выбор
  порта зависит от конкретной машины -- вам нужно выбрать порты, которые
  не используются другими серверами на вашей машине.  Вы можете
  посмотреть в своем файле _/_e_t_c_/_s_e_r_v_i_c_e_s, какие порты используются (хотя
  в этом файле показано только несколько серверов; некоторые сервера
  используют порты, нигде не регистрируя этой информации).  Обычно
  указанные выше порты не используются другими процессами.  По-видимому,
  самый простой способ -- просто попытаться использовать порты,
  предлагаемые по умолчанию, и посмотреть, все ли работает.

  Остальная часть этого руководства предоставляет информацию для
  пользователей, которые хотят подстроить Harvest или сделать его
  использование более изощренным, чем при простом запуске RunHarvest.


  33..88..  ККооннттааккттннааяя ииннффооррммаацциияя ккооммааннддыы ррааззррааббооттччииккоовв HHaarrvveesstt

  Если у вас есть вопросы о системе Harvest или проблемы с ПО, оставьте
  сообщение новостной группе USENET comp.infosystems.harvest
  <news:comp.infosystems.harvest>.  Пожалуйста, укажите тип вашего
  компьютера, операционную систему и версию Harvest в вашем письме.

  Если у вас есть исправления ошибок, порты к новым платформам или
  другие улучшения ПО, пожалуйста, отправьте email разработчику Harvest
  lee@arco.de <mailto:lee@arco.de>.


  44..  GGaatthheerreerr


  44..11..  ООббззоорр

  Gatherer получает информационные ресурсы используя различные
  стандартные методы доступа (FTP, Gopher, HTTP, NNTP и локальные
  файлы), а затем суммирует эти ресурсы различными типизированными
  способами, чтобы создать структурированную индексную информацию.
  Например, Gatherer может получить технический отчет с FTP архива, а
  затем извлечь автора, заголовок и краткий обзор текста, чтобы создать
  резюме (summarize, далее для этого понятия будет использоваться термин
  ``суммировать'') технического отчета. Брокеры Harvest или другие
  поисковые сервисы могут затем получать индексную информацию от
  Gatherer'а для использования ее поисковом индексе, доступном через WWW
  интерфейс.

  Gatherer состоит из большого числа отдельных компонентов. Программа
  Gatherer считывает конфигурационный файл Gatherer'а и контролирует
  весь процесс нумерации и резюмирования объектов данных.

  Структурированная индексная информация, которую собирает Gatherer,
  представляется в виде списка пар "атрибут-значение" используя _Ф_о_р_м_а_т_о_м
  _в_з_а_и_м_о_о_б_м_е_н_о_в _р_е_з_ю_м_е _о_б_ъ_е_к_т_о_в _(_S_u_m_m_a_r_y _O_b_j_e_c_t _I_n_t_e_r_c_h_a_n_g_e _F_o_r_m_a_t _-
  SOIF, смотрите раздел ``The Summary Object Interchange Format
  (SOIF)'').  Демон gatherd предоставляет базу данных Gatherer'а
  Broker"ам. Он запускается в фоновом режиме по завершении процесса
  собирания. Отдельная программа gather - это клиент для сервера
  gatherd. Она может использована с командной строки для тестирования и
  используется Broker'ом. Gatherer использует кэш на локальном диске для
  хранения полученных объектов. Дисковый кэш описывается в разделе
  ``Дисковый кэш''.

  Несмотря на то, что демон gatherd остается в фоновом режиме, Gatherer
  не обновляет автоматически свои резюмированные объекты. Каждый объект
  у Gatherer'а имеет значение Time-to-Live (``время жизни'').  Объекты
  остаются в базе данных до тех пор, пока они не устареют. Смотрите в
  разделе ``Периодическое собирание и обновления в реальном времени''
  дополнительную информацию по хранению Gatherer'ом обновленных
  объектов.

  Несколько примеров Gatherer'ов поставляются вместе с дистрибутивом с
  ПО Harvest (смотрите раздел ``Примеры Gatherer'ов'').


  44..22..  ННааччааллььннааяя ууссттааннооввккаа

  Чтобы запустить основной Gatherer, вам нужен только список URL'ов
  (смотрите RFC1630 и RFC1738), из которых он будет собирать индексную
  информацию. Этот список указывается в конфигурационном файле
  Gatherer'а вместе с прочей опциональной информацией, такой как имя
  Gatherer'а и каталог, в котором он размещен (обратитесь в раздел
  ``#Задание значений переменных в конфигурационном файле Gatherer'а''
  за деталями по опциональной информации). Ниже приведен пример
  конфигурационного файла Gatherer'а:


               #
               #  sample.cf - Sample Gatherer Configuration File
               #
               Gatherer-Name:    My Sample Harvest Gatherer
               Gatherer-Port:    8500
               Top-Directory:    /usr/local/harvest/gatherers/sample

               <RootNodes>
               # Enter URLs for RootNodes here
               http://www.mozilla.org/
               http://www.xfree86.org/
               </RootNodes>

               <LeafNodes>
               # Enter URLs for LeafNodes here
               http://www.arco.de/~kj/index.html
               </LeafNodes>


  Как показано в примере конфигурационного файла, можно классифицировать
  URL на RRoooottNNooddee и LLeeaaffNNooddee. Что касается LeafNode URL, Gatherer просто
  получает URL и обрабатывает его. LeafNode URL'ы - это обычно файлы как
  документы PostScript или сжатые дистрибутивы ``tar''. Gatherer
  разложит RootNode URL на ноль или более LeafNode URL'ов, рекурсивно
  нумеруя их способами, зависящими от метода доступа. Для FTP или Gopher
  Gatherer представит листинг рекурсивных каталогов на сервере FTP или
  Gopher для разложения RootNode (обычно имя каталога). Для HTTP
  RootNode URL разлагается следованием ссылкам HTML на другие URL'ы. Для
  News нумерация возвращает все сообщения в указанной новостной группе
  USENET.

  ПОЖАЛУЙСТА, БУДЬТЕ ОСТОРОЖНЫ при указании RootNode, так как можно
  задать гигантский объем работы одним лишь RootNode URL'ом. Чтобы
  предостеречь плохо сконфигурированный Gatherer от неправильного
  использования серверов, по умолчанию Gatherer разлагает RootNode на
  250 LeafNode'ов, а также включает только те HTML линки, которые
  указывают на документы, которые находятся на том же сервере, что и
  оригинальный RootNode URL. Есть несколько опций, которые позволяют
  изменить эти ограничения и иным способом улучшить спецификации
  Gatherer'а. За деталями обратитесь к разделу ``Описание RootNode''.

  Gatherer - это ``robot'', он собирает URL'ы, начиная с URL'ов,
  указанных в RootNodes. Он следует соглашению _r_o_b_o_t_s_._t_x_t и _r_o_b_o_t_s _M_E_T_A
  _t_a_g. Он также поддерживает протокол HTTP версии 1.1 и отправляет поля
  _U_s_e_r_-_A_g_e_n_t и запросы _F_r_o_m серверам HTTP для идентификации.
  После того, как вы написали конфигурационный файл Gatherer'а, создайте
  каталог для Gatherer'а и скопируйте туда конфигурационный файл. Затем
  запустите программу Gatherer из командной строки с единственным
  аргументом -- именем конфигурационного файла, как показано ниже:


               % Gatherer GathName.cf


  Gatherer сгенерирует базу данных, содержащую резюме документов,
  log-файл (_l_o_g_._g_a_t_h_e_r_e_r) и log-файл с ошибками (_l_o_g_._e_r_r_o_r_s). Он также
  запустит демон gatherd, который автоматически поставляет индексную
  информацию брокерам и другим клиентам. Для просмотра экспортируемой
  индексной информации вы можете использовать клиентскую программу
  gather, как показано ниже:


               % gather localhost 8500 | more


  Опция --iinnffoo заставляет Gatherer выдавать только краткое описание
  документов в Gatherer'е, которое состоит из доступных в указанной базе
  данных Gatherer'а атрибутов, хоста и имени Gatherer'а, список времен
  обновлений объектов и числа объектов.  По умолчанию установлена
  компрессия, но ее можно отменить опцией --nnooccoommpprreessss. Опциональная
  метка времени говорит Gatherer'у посылать только объекты, которые
  изменились со времени, указанном в метке (в секундах с начала
  ``эпохи'' UNIX - 1 января 1970г).


  44..22..11..  ССббоорр ннооввооссттнныыхх UURRLL''оовв ((NNeewwss)) ппррии ппооммоощщии NNNNTTPP

  URL'ы News отличаются от других протоколов доступа, потому что URL в
  основном не содержит имени хоста. Gatherer получает новостные URL'ы от
  сервера NNTP. Имя сервера должно быть помещено в переменную окружения
  _$_N_N_T_P_S_E_R_V_E_R. Возможно, хорошая идея - добавить ее в ваш скрипт
  RunGatherer. Если переменная окружения не установлена, Gatherer
  попытается подсоединиться к хосту с именем _n_e_w_s на вашем сайте.


  44..22..22..  ООччииссттккаа GGaatthheerreerr''аа

  Помните, что базы данных Gatherer'а продолжают существовать между
  запусками.  Объекты остаются в в базе данных, пока не устареют.
  Эксперементируя с Gatherer'ом, всегда является хорошей идеей
  ``очистка'' базы данных между запусками. Проще всего это осуществить,
  выполнив команду из каталога Gatherer'а:


               % rm -rf data tmp log.*


  44..33..  ООппииссааннииее RRoooottNNooddee

  Средства описания RootNode, описанные в разделе ``Начальная
  установка'', предоставляют основной набор действий нумерации RootNode
  по умолчанию.  Обычно полезно нумеровать, не ограничиваясь пределами
  по умолчанию, например, чтобы увеличить пределы нумерации (больше 250
  URL'ов) или чтобы позволить пересечение границ сайтов при нумерации
  линков HTML. Можно указать эти и другие аспекты нумерации следующим
  образом:


               <RootNodes>
               URL EnumSpec
               URL EnumSpec
               ...
               </RootNodes>


  где _E_n_u_m_S_p_e_c - одна строка (используя ``\\'' при переходе на новую
  строку) со следующим синтаксисом:


               URL=URL-Max[,URL-Filter-filename]  \
               Host=Host-Max[,Host-Filter-filename] \
               Access=TypeList \
               Delay=Seconds \
               Depth=Number \
               Enumeration=Enumeration-Program


  Все модификаторы _E_n_u_m_S_p_e_c опциональные и имеют следующие значения:


     UURRLL--MMaaxx
        Число, указываемое справа в выражении ``URL='' показывает
        максимальное число URL'ов LeafNode URLs, которые нужно
        сгенерировать на всех уровнях глубины индексации, начиная от
        текущего URL. Заметьте, что _U_R_L_-_M_a_x - это максимальное число
        URL'ов которые генерируются во время нумерации, а  _н_е
        ограничение на то, сколько URL'ов может пройти через фазу выбора
        кандидата (смотрите раздел ``Настройка шага выбора кандидата'').


     UURRLL--FFiilltteerr--ffiilleennaammee
        Это имя файла, содержащего набор фильтров из регулярных
        выражений (смотрите раздел ``Фильтры RootNode'') для разрешения
        или запрета отдельных LeafNode при нумерации. По умолчанию
        используется фильтр _$_H_A_R_V_E_S_T___H_O_M_E_/_l_i_b_/_g_a_t_h_e_r_e_r_/_U_R_L_-_f_i_l_t_e_r_-
        _d_e_f_a_u_l_t, который исключает много изображений и звуковых файлов.


     HHoosstt--MMaaxx
        Число, указанное справа в выражении ``Host='' показывает
        максимальное число хостов, которое может быть использовано для
        нумерации RootNode.  Хосты обычно подсчитываются по своим
        IP-адресам, таким образом хосты, имеющие несколько алиасов
        учитываются один раз. Но это не работает для хостов, имеющих
        несколько IP-адресов или хостов, DNS именами которых управляет
        какая-нибудь программа (например, для уравновешивания загрузки
        серверов).

        _З_а_м_е_ч_а_н_и_е_: До версии Harvest 1.2 строка ``Host=...'' называлась
        ``Site=...''. Мы изменили имя на ``Host='', потому что оно
        интуитивно более понятно (ограничение на число хостов, а не
        сайтов). Для совместимости с конфигурационными файлами старых
        Gatherer'ов мы будем продолжать использовать ``Site='' как алиас
        для ``Host=''.


     HHoosstt--FFiilltteerr--ffiilleennaammee
        Это имя файла, содержащего набор регулярных выражений - фильтров
        для разрешения или запрещения определенных хостов в нумерации.
        Каждое выражение может определять как имя хоста (или IP-адрес),
        так и номер порта (в случае, если у вас есть несколько серверов
        на различных портах одной машины, а вы хотите проиндексировать
        только один из них). Синтаксис - ``hostname:port''.


     AAcccceessss
        Если RootNode - это HTTP URL, тогда вы можете указать методы
        доступа, которыми нужно производить нумерацию. Возможные типы
        методов доступа: FFIILLEE,, FFTTPP,, GGoopphheerr,, HHTTTTPP,, NNeewwss,, TTeellnneett или WWAAIISS.
        Используйте символ ``||'' между именами типов для разрешения
        нескольких методов доступа. Например, ``AAcccceessss==HHTTTTPP||FFTTPP||GGoopphheerr''
        зайдет на URL'ы HTTP, FTP и Gopher при нумерации HTTP URL'а
        RootNode.

        _З_а_м_е_ч_а_н_и_е_: Мы не поддерживаем перекрестные методы нумерации в
        Gopher, потому что трудно убедиться, что указатели Gopher не
        пересекают границ сайта.  Например, URL Gopher
        _g_o_p_h_e_r_:_/_/_p_o_w_e_l_l_._c_s_._c_o_l_o_r_a_d_o_._e_d_u_:_7_0_0_5_/_1_f_t_p_3_a_f_t_p_._c_s_._w_a_s_h_i_n_g_t_o_n_._e_d_u_4_0_p_u_b_/
        получит листинг каталога FTP ftp.cs.washington.edu:/pub,
        несмотря на то, что часть URL с именем хоста --
        powell.cs.colorado.edu.


     DDeellaayy
        Это число секунд ожидания между контактами с серверами. По
        умолчанию оно равно одной секунде, если не указано другое.
        DDeellaayy==33 позволит Gatherer'у ждать 3 секунды между контактами.


     DDeepptthh
        Это максимальное число уровней нумерации (глубина) во время
        собирания информации.  DDeepptthh==00 означает, что _н_е_т ограничений на
        глубину нумерации. DDeepptthh==11 означает, что будет получен указанный
        URL, а также все URL'ы, на которые есть ссылки в указанном
        URL'е; и так далее для более больших значений Depth. Другими
        словами, Gatherer будет следовать по ссылкам вплоть до _D_e_p_t_h
        шагов от указанного URL'а.


     EEnnuummeerraattiioonn--PPrrooggrraamm
        Этот модификатор добавляет очень удобный способ контролирования
        Gatherer'а.  Enumeration-Program - это фильтр, который
        считываетs URL'ы, как входные параметры, и записывает новые
        параметры нумерации на выходе. Обратитесь к разделу ``Описание
        настраиваемой программы нумерации'' за отдельными деталями.

  По умолчанию, _U_R_L_-_M_a_x равно 250, _U_R_L_-_F_i_l_t_e_r не делает ограничений,
  _H_o_s_t_-_M_a_x равно 1, _H_o_s_t_-_F_i_l_t_e_r не делает ограничений, _A_c_c_e_s_s равен
  HTTP, _D_e_l_a_y равен 1 секунде, а _D_e_p_t_h равно нулю. Нет способа указать
  неограниченное значение для _U_R_L_-_M_a_x или _H_o_s_t_-_M_a_x.


  44..33..11..  ФФииллььттррыы RRoooottNNooddee

  Файлы-фильтры используют стандартный синтаксис регулярных выражений
  UNIX (как определено стандартом POSIX), а не синтаксис csh. Например,
  нужно использовать ``.*abc'' для обозначения любой строки,
  заканчивающейся на ``abc'', но не ``*abc''. Файл-фильтр имеет
  следующий синтаксис:


               Deny  regex
               Allow regex


  Регулярные выражения в _U_R_L_-_F_i_l_t_e_r сопостовляются только с той часьтю
  каждого URL, которая указывает путь (схема, имя хоста и порт не
  включаются). Например, следующий файл URL-Filter позволит нумеровать
  все  URL'ы, кроме содержащих регулярное выражение ``_/_g_a_t_h_e_r_e_r_s_/'':


               Deny  /gatherers/
               Allow .


  Другое общее использование фильтров URL заключается в запрещении
  перехода Gatherer'а в вышестоящий каталог. Автоматически
  сгенерированные страницы HTML для HTTP и FTP каталогов часто содержат
  ссылку на родительский каталог ``_._.''. Чтобы держать Gatherer ниже
  указанного каталога, используйте файл фильтров URL следующим образом:


               Allow ^/my/cool/sutff/
               Deny  .


  Регулярные выражения _H_o_s_t_-_F_i_l_t_e_r сопоставляются по части
  ``hostname:port'' каждого URL. Из-за включения в выражение port, вы не
  можете использовать ``$$'' для выделения конца имени хоста. Начиная с
  версии 1.3, вместо имени хоста может быть указан IP-адрес. Адрес
  кдасса B, такой как 128.138.0.0 в регулярных выражениях должен быть
  написан в виде ``^^112288\\..113388\\....**''. Например:


               Deny   bcn.boulder.co.us:8080
               Deny   bvsd.k12.co.us
               Allow  ^128\.138\..*
               Deny   .


  Важен порядок строк AAllllooww и DDeennyy, так как фильтры применяются
  последовательно от первой строки к последней. Так, например, если вы
  укажете сперва ``AAllllooww ..**'', никакие последующие выражения DDeennyy не
  будут обработаны, так как этот фильтр AAllllooww разрешит все записи.


  44..33..22..  ООппииссааннииее ппррооггррааммыы ннууммееррааццииии

  Гибкая нумерация может быть достигнута указанием модификатора
  EEnnuummeerraattiioonn==EEnnuummeerraattiioonn--PPrrooggrraamm в RootNode URL.  _E_n_u_m_e_r_a_t_i_o_n_-_P_r_o_g_r_a_m -
  это фильтр, который принимает на стандартный вход URL и записывает
  новые RootNode URL на стандартный выход.

  Выходной формат отличен от указываемого RootNode URL в
  конфигурационном файле Gatherer'а.  Каждая выходная строка должна
  содержать девять полей, разделенных пробелами.  Поля следующие:


               URL
               URL-Max
               URL-Filter-filename
               Host-Max
               Host-Filter-filename
               Access
               Delay
               Depth
               Enumeration-Program


  Это те же самые поля, которые описаны в разделе ``Описание RootNode''.
  Значения должны даваться в каждом поле. Используйте _/_d_e_v_/_n_u_l_l для
  отмены имен файлов URL-Filter и Host-Filter. Испольлзуйте /bin/false
  для отмены программы Enumeration.


  44..33..33..  ППррииммеерр ккооннффииггууррааццииии RRoooottNNooddee

  Ниже приведен пример конфигурации RootNode:


               <RootNodes>
         (1)   http://harvest.cs.colorado.edu/               URL=100,MyFilter
         (2)   http://www.cs.colorado.edu/                   Host=50 Delay=60
         (3)   gopher://gopher.colorado.edu/                 Depth=1
         (4)   file://powell.cs.colorado.edu/home/hardy/     Depth=2
         (5)   ftp://ftp.cs.colorado.edu/pub/cs/techreports/ Depth=1
         (6)   http://harvest.cs.colorado.edu/~hardy/hotlist.html \
                       Depth=1 Delay=60
         (7)   http://harvest.cs.colorado.edu/~hardy/ \
                       Depth=2 Access=HTTP|FTP
               </RootNodes>


  Каждый из приведенных выше RootNode содержит различную конфигурации
  нумерации:


  1. Этот RootNode будет собирать вплоть до 100 документов, которые
     пройдут через фильтры URL, содержащиеся в файле _M_y_F_i_l_t_e_r.

  2. Этот RootNode соберет документы из первых 50 хостов, которые
     встретятся при нумерации указанного URL без ограничения на глубину
     ссылок. Он также будет ждать 60 секунд после получения каждого
     документа.

  3. Этот RootNode соберет документы только с верхнего уровня сервера
     Gopher на _g_o_p_h_e_r_._c_o_l_o_r_a_d_o_._e_d_u.

  4. Этот RootNode соберет все документы из каталога _/_h_o_m_e_/_h_a_r_d_y и всех
     подкаталогов _/_h_o_m_e_/_h_a_r_d_y.

  5. Этот RootNode соберет документы только из каталога
     _/_p_u_b_/_t_e_c_h_r_e_p_o_r_t_s, который, в данном случае, содержит некоторые
     библиографические файлы, а не сами технические отчеты.

  6. Этот RootNode соберет все документы, которые находятся в одном шаге
     от указанного URL с интервалом в 60 секунд. Это удобный способ
     индексирования вашего ``хотлиста''. Если создать файл HTML,
     содержащий такие ``горячие'' указатели, как этот RootNode, то
     процесс нумерации соберет страницы верхнего уровня для каждого
     указателя.

  7. Этот RootNode соберет все документы, которые находятся не дальше,
     чем в двух шагах от указанного URL. Более того, он проследует и
     пронумерует любые HTTP и FTP ссылки, которые встретятся.


  44..33..44..  ННууммеерраацциияя GGaatthheerreerr''аа ии ввыыббоорр ккааннддииддааттоовв

  Кроме использования файлов _U_R_L_-_F_i_l_t_e_r и _H_o_s_t_-_F_i_l_t_e_r в механизме
  определения RootNode, описанного в разделе ``Описание RootNode'', вы
  можете предотвратить индексацию документов, настроив файл _s_t_o_p_l_i_s_t_._c_f,
  описанный в разделе ``Настройка шагов распознавания типов, выбора
  кандидатов, извлечения представлений и суммирования''.  Так как эти
  механизмы включаются в разное время, они могут иметь различные
  эффекты. Механизмы _U_R_L_-_F_i_l_t_e_r и _H_o_s_t_-_F_i_l_t_e_r вовлекаются программой
  Gatherer'а нумерации ``RootNode''.  Использование этих фильтров, как
  стоп-списков, может предотвратить скачивание нежелаемых объектов через
  сеть. Это существенно может уменьшить время собирания и сетевой
  трафик.

  Файл _s_t_o_p_l_i_s_t_._c_f используется системой извлечения содержания _E_s_s_e_n_c_e
  (описана в разделе ``Извлечение данных для индексации: Подсистема
  суммирования Essence'') _п_о_с_л_е того, как объекты уже получены, чтобы
  выбрать, из каких объектов должно быть извлечено содержание и какие
  объекты должны быть проиндексированы. Это может быть полезным, так как
  Essence предоставляет более мощные средства отклонения кандидатов на
  индексацию, при помощи которых вы можете настроить выбор объектов не
  только на основе имен файлов, но и на основе их содержания (например,
  посмотрев на строчки в начале файла или на ``магические'' числа UNIX).
  Также можно использовать более сложные схемы группирования файлов
  (например, решив не извлекать содержание из файлов объектного кода,
  если доступен исходный код).

  В качестве примера комбинирования этих механизмов, предположим, что вы
  хотите проиндексировать файлы ``.ps'', имеющиеся на вашем WWW сайте.
  Вы можете сделать это, создав файл _s_t_o_p_l_i_s_t_._c_f, который содержит
  ``HTML'' и фильтр RootNode _U_R_L_-_F_i_l_t_e_r:


               Allow \.html
               Allow \.ps
               Deny  .*


  В заключение, независимо от этих настроек, Gatherer попытается
  избежать скачивание объектов, где это возможно, используя кэш на
  локальном диске и заголоки HTTP запросв ``If-Modified-Since'' (если
  есть изменения с такого-то времени).  Кэш на локальном диске описан в
  разделе ``Дисковый кэш''.


  44..44..  ГГееннеерраацциияя LLeeaaffNNooddee//RRoooottNNooddee UURRLL''оовв иизз ппррооггррааммммыы

  Можно генерировать RootNode или LeafNode URL'ы автоматически из
  программы.  Это может оказаться полезным, например, при собирании
  большого числа новостных групп Usenet.  Пргорамма указывается в
  разделе RootNode или LeafNode, вместе с вертикальной чертой.


               <LeafNodes>
               |generate-news-urls.sh
               </LeafNodes>


  Скрипт должен выдавать правильные URL'ы, такие как


               news:comp.unix.voodoo
               news:rec.pets.birds
               http://www.nlanr.net/
               ...


  В случае URL'ов RootNode, параметры нумерации могут быть заданы после
  программы.


               <RootNodes>
               |my-fave-sites.pl Depth=1 URL=5000,url-filter
               </RootNodes>


  44..55..  ИИззввллееччееннииее ддаанннныыхх ддлляя ииннддееккссааццииии:: ППооддссииссттееммаа ссууммммиирроовваанниияя
  EEsssseennccee

  После того, как Gatherer получает документ, он пропускает его через
  подсистему, называемую _E_s_s_e_n_c_e, чтобы извлечь информацию для индекса.
  Essence позволяет Gatherer'у собирать этот индекс из большого
  разнообразия информации различными способами в зависимости от типа
  данных и потребностей данного индексируемого блока. В кратце, Essence
  может определить тип данных, на которые указывает URL (напрмер,
  PostScript или HTML), ``распутать'' форматы представления (такие как
  сжатые файлы ``tar''), выбрать, какой тип данных индексировать
  (например, не индексировать аудио файлы), и потом применить
  соответствующий алгоритм (называемый _s_u_m_m_a_r_i_z_e_r) для генерации резюме
  содержимого данных. Пользователи могут настроить каждый из этих
  аспектов, но зачастую в этом нет необходимости. Harvest
  распространяется со стандартным набором распозавателей типов,
  архиваторов (извлечение представлений), избирателей кандидатов и
  summarizer'ов, которые хорошо работают для большинства приложений.

  Ниже мы описываем стандартный набор summarizer'ов, компонент текущего
  дистрибутива, и как пользователи могут настроить summarizer'ы и
  добавить свои для новых типов данных.  Если вы разрабатывате
  summarizer, который, вероятно, может быть полезен другим
  пользователям, пожалуйста, сообщите нам по e-mail'у на lee@arco.de
  <mailto:lee@arco.de>, так что мы сможем включить его в наш дистрибутив
  Harvest'а.


       Тип             Функция summarizer'а
       --------------------------------------------------------------------
       Bibliographic   Извлечение автора и заголовка
       Binary          Извлечение смысловых строчек и резюме страниц руководства (manual page summary)
       C, CHeader      Извлечение имен процедур, имен включенных файлов и комментариев
       Dvi             Вызов summarizer'а текста на извлеченный ASCII текст
       FAQ, FullText, README
                       Извлечение всех слов в файле
       Font            Извлечение комментариев
       HTML            Извлечение выделений, гиперссылок и выбраных полей
       LaTex           Разбор выбраных полей LaTex (автор, заголовок и т.д.)
       Mail            Извлечение определенных полей заголовка
       Makefile        Извлечение комментариев и имен целей
       ManPage         Извлечение резюме, автора, заголовка и т.д. на основе макроса ``-man''
       News            Извлечение определенных полей заголовка
       Object          Извлечение таблицы символов
       Patch           Извлечение имен ``пропаченых'' файлов
       Perl            Извлечение имен процедур и комментариев
       PostScript      Извлечение текста определенным обработчиком слов (word processor) и пропуск
                       через summarizer текста.
       RCS, SCCS       Извлечение revision control summary
       RTF             Конвертирование в HTML и пропуск через HTML summarizer
       SGML            Извлечение полей, названных в таблице извлечений
       ShellScript     Извлечение комментариев
       SourceDistribution
                       Извлечение полного текста файла README и комментариев из Makefile
                       и файлов исходного кода, и суммирование всех man-страниц
       SymbolicLink    Извлечение имени файла, владельца и даты создания
       TeX             Вызов summarizer'а текста на извлеченный ASCII текст
       Text            Извлечение первых 100 строк и первых предложений всех оставшихся
                       абзацев
       Troff           Извлечение автора, заголовка и т.д. на основе макропакетов ``-man'', ``-ms'',
                       ``-me'', или извлечение заголовков разделов и
                       тем.
       Unrecognized    Извлечение имени файла, владельца и даты создания.


  44..55..11..  ДДееййссттввиияя ссттааннддааррттнныыхх ssuummmmaarriizzeerr''оовв ппоо ууммооллччааннииюю

  Таблица в разделе ``Извлечение данных для индексации: Подсистема
  суммирования Essence'' снабжает короткой справкой о том, как документы
  суммируются в зависимости от их типа. Эти действия могут быть
  настроены, как обсуждалось в разделе ``Настройка шагов распознавания
  типов, выбора кандидатов, извлечения прдставлений и суммирования''.
  Некоторые summarizer'ы реализованы как программы UNIX, в то время как
  другие выражаются регулярными выражениями; обртитесь в раздел
  ``Настройка шага суммирования'' или раздел ``Пример 4'' за информацией
  о том, как написать summarizer.


  44..55..22..  ССууммммииррооввааннииее ддаанннныыхх SSGGMMLL

  Можно суммировать документы, которые удовлетворяют Стандартному
  обобщенному языку верстки (Standart Generalized Markup Language,
  SGML), для которого у вас есть Определение типа документа (Document
  Type Definition, DTD). HTML -- это на самом деле частное приложение
  SGML с соответствующим DTD.  (HTML summarizer Harvest'а может
  использовать HTML DTD и наш механизм суммирования SGML, который
  предоставляет множество преимуществ; см. раздел ``HTML summarizer на
  основе SGML''.)  SGML используется во все более увеличивающемся
  широком разнообразии приложений, например как формат для хранения
  данных для большого числа физических наук.  Так как SGML позволяет
  документам иметь хорошую структуру, Harvest может суммировать
  документы SGML очень эффективно.

  Summarizer SGML (SGML.sum) использует программу sgmls Джеймса Кларка
  (James Clark) для разбора документов SGML. Парсеру нужен и DTD
  документа, и файл деклараций, который описывает допустимый набор
  символов.  Программа SGML.sum использует таблицу, которая сопоставляет
  тэги SGML с атрибутами SOIF.


  44..55..22..11..  РРааззммеещщееннииее ввссппооммооггааттееллььнныыхх ффааййллоовв

  Вспомогательные файлы SGML можно найти в
  _$_H_A_R_V_E_S_T___H_O_M_E_/_l_i_b_/_g_a_t_h_e_r_e_r_/_s_g_m_l_s_-_l_i_b_/. Например, вот пути по умолчанию
  для суммирования HTML, используя механизм суммирования SGML:


               $HARVEST_HOME/lib/gatherer/sgmls-lib/HTML/html.dtd
               $HARVEST_HOME/lib/gatherer/sgmls-lib/HTML/HTML.decl
               $HARVEST_HOME/lib/gatherer/sgmls-lib/HTML/HTML.sum.tbl


  Размещение файла DTD должно быть указано в каталоге sgmls
  (_$_H_A_R_V_E_S_T___H_O_M_E_/_l_i_b_/_g_a_t_h_e_r_e_r_/_s_g_m_l_s_-_l_i_b_/_c_a_t_a_l_o_g). Например:


               DOCTYPE   HTML   HTML/html.dtd


  Программа SGML.sum ищет файл _._d_e_c_l, используя путь по умолчанию.
  Другой путь может быть указан SGML.sum опцией --dd.

  Summarizer ищет файл _._s_u_m_._t_b_l сначала в каталоге Gatherer'а lib, а
  потом по пути по умолчанию. Свой путь можно указать SGML.sum опцией
  --tt.


  44..55..22..22..  ТТааббллииццаа ссооооттввееттссттввиийй SSGGMMLL -- SSOOIIFF

  Таблица перевода снабжает простым, но мощным средством указания, как
  документ SGML должен быть суммирован. Есть четыре способа сопоставить
  данные SGML с SOIF. Первые два касаются помещения содержания (_c_o_n_t_e_n_t)
  тэга SGML в атрибут SOIF.

  Простое сопоставление SGML и SOIF выглядит примерно так:


               <TAG>              soif1,soif2,...


  Оно помещает все, что находится между тэгами ``TAG'' в атрибуты SOIF
  ``soif1'' и ``soif2''. Можно выбрать различные атрибуты SOIF на основе
  значений атрибутов SGML. Например, если ``ATT'' - атрибут тэга
  ``TAG'', то надо написать так:
               <TAG,ATT=x>         x-stuff
               <TAG,ATT=y>         y-stuff
               <TAG>               stuff


  Два других способа заключаются в помещении атрибутов SGML в атрибуты
  SOIF.  Чтобы поместить значения атрибута ``ATT'' тэга ``TAG'' в
  атрибут SOIF ``att-stuff'' нужно написать:


               <TAG:ATT>           att-stuff


  Также можно поместить значение атрибута SGML в атрибут SOIF, используя
  другой атрибут SOIF:


               <TAG:ATT1>          $ATT2


  Когда summarizer встречает атрибут SGML, не занесенный в таблицу,
  содержимое отнесется к родительскому тэгу и станет частью содержимого
  родительского тэга.  Чтобы _н_е обрабатывать содержимое какого-то тэга,
  укажите атрибут SOIF как ``ignore''. Чтобы содержимое некоторого тэга
  было рассмотрено также и в родительском тэге в дополнение к помещению
  в свой атрибут SOIF, занесите в таблицу дополнительный атрибут SOIF
  под названием ``parent''.

  Обратитесь в раздел ``HTML summarizer на основе SGML'' за примерами
  таких сопоставлений.


  44..55..22..33..  ООшшииббккии ии ппррееддууппрреежжддеенниияя ппааррссеерраа SSGGMMLL

  Парсер sgmls может генерировать большой объем сообщений об ошибках и
  предупреждениях. Это в особенности справедливо для документов HTML,
  находящихся в Internet, которые часто не соответствуют строгому DTD
  HTML. По умолчанию, ошибки и предупреждения направляются в _/_d_e_v_/_n_u_l_l
  так что они не будут засорять логи Gatherer'а. Чтобы включить эти
  сообщения в логи, отредактируйте Perl скрипт SGML.sum и установите
  $$ssyynnttaaxx__cchheecckk == 11.


  44..55..22..44..  ССооззддааннииее ssuummmmaarriizzeerr''аа ддлляя ннооввыыхх ттииппоовв ддаанннныыхх SSGGMMLL

  Чтобы создать summarizer SGML для новых типов данных SGML с
  соответствующим DTD, вам нужно сделать следующее:


  1. Напишите скрипт оболочки shell под именем FOO.sum, который просто
     содержит


               #!/bin/sh
               exec SGML.sum FOO $*


  2. Модифицируйте конфигурационные файлы essence (как описано в разделе
     ``Настройка шага распознавания типов''), чтобы ваш документ был
     понят как тип FOO.

  3. Создайте каталог _$_H_A_R_V_E_S_T___H_O_M_E_/_l_i_b_/_g_a_t_h_e_r_e_r_/_s_g_m_l_s_-_l_i_b_/_F_O_O_/ и
     скопируйте туда DTD и файл деклараций как FOO.dtd и FOO.decl.
     Отредактируйте _$_H_A_R_V_E_S_T___H_O_M_E_/_l_i_b_/_g_a_t_h_e_r_e_r_/_s_g_m_l_s_-_l_i_b_/_c_a_t_a_l_o_g и
     добавьте туда FOO.dtd.

  4. Создайте таблицу переводов FOO.sum.tbl и поместите ее вместе с DTD
     в _$_H_A_R_V_E_S_T___H_O_M_E_/_l_i_b_/_g_a_t_h_e_r_e_r_/_s_g_m_l_s_-_l_i_b_/_F_O_O_/.

  Теперь можно протестировать все из командной строки:


               % FOO.sum myfile.foo


  44..55..22..55..  HHTTMMLL ssuummmmaarriizzeerr ннаа ооссннооввее SSGGMMLL

  Harvest может суммировать HTML, используя свой SGML summarizer,
  описанный в разделе ``Суммирование данных SGML''.  Преимущество такого
  подхода заключается в том, что summarizer более просто настраивается,
  и удовлетворяет хорошо продуманной модели SGML (где вы можете
  определить DTD для отдельных типов документов и создать
  интерпретирующее для понимания DTD, а не отдельных типов документов).
  Минус в том, что теперь summarizer более придирчив к синтаксису, а
  большинство документов Web синтаксически не корректны. Из=за такой
  придирчивости, по умолчанию для HTML отключена выдача результатов
  проверки синтаксиса.  Если ваши документы так плохо организованы, что
  запутывают парсер, это может означать, что процесс суммирования
  бесцеремонно умирает. Если вы обнаружите, что ваши документы HTML не
  суммировались или суммировались частично, вы можете включить выдачу
  результатов проверки синтаксиса, установив $$ssyynnttaaxx__cchheecckk == 11 в
  $HARVEST_HOME/lib/gatherer/SGML.sum. Это позволит вам увидеть, какие
  документы неправильные и где-именно.

  Отметим, что частично причина данной проблемы состоит в том, что
  броузеры Web не настаивают на хорошей организации документов. Так что
  пользователи могут просто создавать документы, которые не совсем
  корректны, но отображаются нормально.

  Ниже приведена таблица SGML-SOIF, используемая по умолчанию HTML
  summarizer'ом:


  Элемент HTML    Атрибуты SOIF
  ------------   -----------------------
      <A>             keywords,parent
      <A:HREF>        url-references
      <ADDRESS>       address
      <B>             keywords,parent
      <BODY>          body
      <CITE>          references
      <CODE>          ignore
      <EM>            keywords,parent
      <H1>            headings
      <H2>            headings
      <H3>            headings
      <H4>            headings
      <H5>            headings
      <H6>            headings
      <HEAD>          head
      <I>             keywords,parent
      <IMG:SRC>       images
      <META:CONTENT>  $NAME
      <STRONG>        keywords,parent
      <TITLE>         title
      <TT>            keywords,parent
      <UL>            keywords,parent


  Путь к этому файлу -- _$_H_A_R_V_E_S_T___H_O_M_E_/_l_i_b_/_g_a_t_h_e_r_e_r_/_s_g_m_l_s_-
  _l_i_b_/_H_T_M_L_/_H_T_M_L_._s_u_m_._t_b_l.

  Отдельные Gatherer'ы могут производить настроенное суммирование HTML,
  если поместить модифицированную версию этого файла в каталог
  Gatherer'а _l_i_b. Другой способ настройки -- модифицировать скрипт
  HTML.sum и добавить опцию --tt команде SGML.sum. Например:


               SGML.sum -t $HARVEST_HOME/lib/my-HTML.table HTML $*


  В HTML заголовок документа записывается так:


               <TITLE>My Home Page</TITLE>


  Выше приведенная таблица переводов поместит резюме SOIF так:


               title{13}:  My Home Page


  Отметим, что ``keywords,parent'' встречаются в таблице часто. Для
  любого выделенного текста (жирный, курсив, гиперссылки и т.д.), слова
  будут скопированы в атрибут keywords (ключевые слова) и также
  останутся в содержимом родительского элемента. Так сохраняется тело
  читаемого текста, и определенные слова не удаляются.
  Любой текст, который появляется внутри пары тэгов CODE, не будет
  показан в резюме, так как мы указали ``ignore'' в качестве атрибута
  SOIF.

  URL'ы в HTML записываются так:


               <A HREF="http://harvest.cs.colorado.edu/">


  Указание <<AA::HHRREEFF>> в таблице переводов занесет URL в атрибут SOIF как:


               url-references{32}: http://harvest.cs.colorado.edu/


  44..55..22..66..  ДДооббааввллееннииее MMEETTAA ддаанннныыхх вв вваашш HHTTMMLL

  Один из наиболее полезных тэгов HTML- META. Он позволяет автору
  документа включить произвольные метаданные в документ HTML. Типичное
  применение элемента META:


               <META NAME="author" CONTENT="Joe T. Slacker">


  Указав ``<<MMEETTAA::CCOONNTTEENNTT>> $NAME'' в таблице переводов, вы получите:


               author{15}: Joe T. Slacker


  Используя тэги META, авторы HTML могут легко добавть список ключевых
  слов в свои документы:


               <META NAME="keywords" CONTENT="word1 word2">
               <META NAME="keywords" CONTENT="word3 word4">


  44..55..22..77..  ДДррууггииее ппррииммееррыы

  Очень короткий summarizer HTML может быть создан таблицей, которая
  только помещает выделенные слова в атрибут ключевых слов keywords:


  Элемент HTML   Атрибуты SOIF
  ------------   -----------------------
      <A>             keywords
      <B>             keywords
      <EM>            keywords
      <H1>            keywords
      <H2>            keywords
      <H3>            keywords
      <I>             keywords
      <META:CONTENT>  $NAME
      <STRONG>        keywords
      <TITLE>         title,keywords
      <TT>            keywords


  Наоборот, полнотекстовый summarizer можно легко сделать так:


       Элемент HTML   Атрибуты SOIF
       ------------   -----------------------
           <HTML>          full-text
           <TITLE>         title,parent


  44..55..33..  ННаассттррооййккаа шшааггоовв рраассппооззннаавваанниияя ттииппоовв,, ввыыббоорраа ккааннддииддааттоовв,,
  ииззввллееччеенниияя ппррддссттааввллеенниийй ии ссууммммиирроовваанниияя

  Действия Gatherer'а определяются набором конфигурационных файлов,
  утилит и соответствующим набором исполняемых программ, на которые
  ссылаются конфигурационные файлы.

  Если вы хотите настроить Gatherer, вам нужно создать подкаталоги _b_i_n и
  _l_i_b в каталоге, где вы запускаете Gatherer, а потом скопировать
  _$_H_A_R_V_E_S_T___H_O_M_E_/_l_i_b_/_g_a_t_h_e_r_e_r_/_*_._c_f и _$_H_A_R_V_E_S_T___H_O_M_E_/_l_i_b_/_g_a_t_h_e_r_e_r_/_m_a_g_i_c в
  ваш каталог _l_i_b. Потом добавьте в конфигурационный файл вашего
  Gatherer'а:


               Lib-Directory:         lib


  Ниже описаны детали о том, что делает каждый из этих файлов. Основное
  содержание типичного каталога Gatherer'а следующее (отметим: некоторые
  имена файлов ниже можно изменить, установив переменные в
  конфигурационнм файле Gatherer'а, как описано в разделе ``Задание
  значений переменных в конфигурационном файле Gatherer'а''):


          RunGatherd*    bin/           GathName.cf    log.errors     tmp/
          RunGatherer*   data/          lib/           log.gatherer

          bin:
          MyNewType.sum*

          data:
          All-Templates.gz    INFO.soif    PRODUCTION.gdbm    gatherd.log
          INDEX.gdbm          MD5.gdbm     gatherd.cf

          lib:
          bycontent.cf   byurl.cf       quick-sum.cf
          byname.cf      magic          stoplist.cf

          tmp:


  RunGatherd и RunGatherer используются, чтобы экспортировать базу
  данных Gatherer'а после перезапучка машины и запуска
  Gatherer'а,соответственно.  Файлы _l_o_g_._e_r_r_o_r_s и _l_o_g_._g_a_t_h_e_r_e_r содержат
  сообщения об ошибках и вывод программы _E_s_s_e_n_c_e, соответственно
  (Essence будет коротко описан). Файл _G_a_t_h_N_a_m_e_._c_f - это
  конфигурационный файл Gatherer'а.

  Каталог _b_i_n содержит все summarizer'ы и другие программы, которые
  нужны summarizer'ам. Если бы вам нужно было настроить Gatherer,
  добавив summarizer, вам нужно было бы поместить соответствующие
  программы в этот каталог _b_i_n; MyNewType.sum - пример.

  Каталог _d_a_t_a содержит базу данных Gatherer'а, которую экспортирует
  gatherd. База данных Gatherer'а состоит из файлов _A_l_l_-_T_e_m_p_l_a_t_e_s_._g_z_,
  _I_N_D_E_X_._g_d_b_m_, _I_N_F_O_._s_o_i_f_, _M_D_5_._g_d_b_m и _P_R_O_D_U_C_T_I_O_N_._g_d_b_m. Файл _g_a_t_h_e_r_d_._c_f
  используется для поддержки контроля доступа, что описано в разделе
  ``Контроль доступа к базе данных Gatherer'а''.  В файл _g_a_t_h_e_r_d_._l_o_g
  программа gatherd заносит свою информацию (логи).

  Каталог _l_i_b содержит конфигурационные файлы, используемы подсистемами
  Gatherer'а, а именно Essence. Эти файлы коротко описаны в следующей
  таблице:


               bycontent.cf    Эвристика разбора содержания для распознавания типов
               byname.cf       содержит эвристики для распознавания типов по именам файлов
               byurl.cf        содержит эвристики для распознавания типов по URL
               magic           инструкции команды ``file'' UNIX (соотвествующие строкам
                               bycontent.cf)
               quick-sum.cf    Извлекает атрибуты на шаге суммирования
               stoplist.cf     содержит типы файлов, которые нужно отклонить на шаге выбора кандидатов


  44..55..33..11..  ННаассттррооййккаа шшааггаа рраассппооззннаавваанниияя ттииппоовв

  Essence распознает типы тремя способами (в порядке приоритета): по
  названиям URL, по названиям файлов и определяя _и_д_е_н_ц_и_ф_и_ц_и_р_у_ю_щ_и_е данные
  в файле, используя команду (file) UNIX.

  Чтобы изменить шаг распознавания типов, отредактируйте _l_i_b_/_b_y_n_a_m_e_._c_f
  для добавления эвристики по имени файла, или _l_i_b_/_b_y_u_r_l_._c_f для
  добавления эвристики по URL, или _l_i_b_/_b_y_c_o_n_t_e_n_t_._c_f для добавления
  эвристики по содержимому. Эвристика по содержимому согласовывается с
  выходом комманды file, так что возможно также понадобится
  отредактировать файл _l_i_b_/_m_a_g_i_c. Обратитесь в разделы ``Пример 3'' и
  ``Пример 4'' за подробными примерами, как настроить шаг распознавания
  типов.


  44..55..33..22..  ННаассттррооййккаа шшааггаа ввыыббоорраа ккааннддииддааттоовв

  Конфигурационный файл _l_i_b_/_s_t_o_p_l_i_s_t_._c_f содержит список типов, которые
  отклоняются Essence. Вы можете добавить или удалить некоторые типы из
  _l_i_b_/_s_t_o_p_l_i_s_t_._c_f для контроля шага выбора кандидатов.

  Чтобы направить Essence индексировать только определенные типы, вы
  можете составить список типов для индексирования в _l_i_b_/_a_l_l_o_w_l_i_s_t_._c_f.
  Потом укажите Essence флаг ----aalllloowwlliisstt.

  Эвристики по именам файлов и URL, используемые на шаге распознавания
  типов (описано в разделе ``Настройка шага распознавания типов''), в
  особенности полезны для выбора кандидаьов при собирании удаленных
  данных. Они позволяют Gatherer'у избежать получение файлов, которые вы
  не хотите индексировать (в отличие от этого распознавание типов
  определением иденцифицирующих данных внутри фалйа требует сначала
  получение файла). Такой подход может сохранить достаточно много
  сетевого трафика, особенно при индексировании _R_o_o_t_N_o_d_e URL'ов.
  Например, много сайтов предлагают свои файлы как в сжатом, так и не в
  сжатом виде. Создав _l_i_b_/_a_l_l_o_w_l_i_s_t_._c_f, содержащий только сжатые типы,
  вы сможете избежать получение несжатых версий файлов.


  44..55..33..33..  ННаассттррооййккаа шшааггаа ииззввллееччеенниияя ппррееддссттааввллеенниийй

  Некоторые типы объявлены как ``уплотненные'' (nested). Essence
  трактует их не так, как другие типы, он запускает алгоритм извлечения
  представлений или ``Exploder'' лдя этих данных, а не Summarizer. На
  данный момент Essence может работать с файлами, сжатыми в следующих
  форматах:


  1. binhex

  2. uuencode

  3. shell archive (``shar'')

  4. tape archive (``tar'')

  5. bzip2 compressed (``bzip2'')

  6. compressed

  7. GNU compressed (``gzip'')

  8. zip compressed archive

  Чтобы настроить щаг извлечения представлений, вы можете модифицировать
  исходный файл Essence _s_r_c_/_g_a_t_h_e_r_e_r_/_e_s_s_e_n_c_e_/_u_n_n_e_s_t_._c. Этот файл выдает
  список доступных кодировок представления, а также указывает алгоритм
  расжатия.  Обычно используется внешняя программа для раскрывания файла
  в один или более файлов-компонент (например bzip2, gunzip, uudecode, и
  tar).

  _E_x_p_l_o_d_e_r также можно использовать для преобразования файла в поток
  объектов SOIF.  Программа Exploder принимает URL как первый аргумент в
  командной строке и файл, содержащий данные, как второй аргумент, а
  потом генерирует один или более объектов SOIF на выходе. Для вашего
  удобства, тип _E_x_p_l_o_d_e_r уже определен как уплотненный тип (nested
  type). Для сохранения некоторго времени вы можете использовать этот
  тип и соответствующую программу Exploder.unnest, а не модифицировать
  код Essence.

  Обратитесь в раздел ``Пример 2'' за подробным примером по написанию
  Exploder'а. Файл _u_n_n_e_s_t_._c также содержит информацию по определению
  алгоритмов расжатия.


  44..55..33..44..  ННаассттррооййккаа шшааггаа ссууммммиирроовваанниияя

  Essence поддерживает два механизма для определения алгоритмов
  извлечения по типу (называемые _S_u_m_m_a_r_i_z_e_r_'_а_м_и), которые генерируют
  резюме содержимого (summaries): программа UNIX, которая принимает имя
  файла для суммированя в качестве одного аргумента в командной строке,
  и регулярные выражения, указанные в _l_i_b_/_q_u_i_c_k_-_s_u_m_._c_f. Обратитесь в
  раздел ``Пример 4'' за подробными примерами, как определять оба типа
  Summarizer'ов.

  Summarizer'ы UNIX принято называть TypeName.sum (например,
  PostScript.sum). Эти Summarizer'ы выдают на выходе резюме содержимого
  в виде списка атрибут SOIF - значение (см. раздел ``Формат
  взаимообмена краткими изложениями документов (SOIF)'').  Вы можете
  использовать команду wrapit для облечения сырой выход в формат SOIF
  (т.е., для расстановки разграничителей на отдельные пары
  атрибут-значение).

  Есть summarizer, называемый FullText.sum, который вы можете
  использовать для представления полнотекстового индексирования
  выбранного типа файлов просто заставив конфигурационные файлы
  _l_i_b_/_b_y_c_o_n_t_e_n_t_._c_f и _l_i_b_/_b_y_n_a_m_e_._c_f распознавать желаемые типы файлов как
  FullText (т.е., напишите ``FullText'' напротив соответствующего
  регулярного выражения).


  44..66..  ППоосстт--ссууммммииррооввааннииее:: ннаассттррооййккаа ррееззююммее ооббъъееккттоовв ((oobbjjeecctt ssuummmmaarriieess))
  ппоо ппррааввииллаамм

  Возможна ``тонкая настройка'' резюме, сгенерированных summarizer'ами
  Essence.  Типичным приложением этого может быть изменение атрибута
  _T_i_m_e_-_t_o_-_L_i_v_e (время жизни), основанного на некоторых сведениях о
  объекте. Так, администратор может использовать свойства
  пост-суммирования и дать быстро меняющимся объектам малый TTL, а очень
  стабильным документам - большой TTL.

  Объекты выбираются для пост-суммирования, если они удовлетворяют
  указанным условиям.  Условие состоит из трех частей: имя атрибута,
  оператор, и некоторая строка данных. Например: some string data.  For
  example:


               city == 'New York'


  В этом случае мы проверяем, равен ли атрибут _c_i_t_y строке ``New York''.
  Для точного совпадения строк, строка должна быть заключена в одинарные
  кавычки. Также поддерживаются регулярные выражения:


               city ~ /New York/


  Также поддерживаются отрицательные операторы:


               city != 'New York'
               city !~ /New York/


  Условия могут быть объединены операторами `&&&&' (логическое ``И'') или
  `||||' (логическое ``ИЛИ''):


               city == 'New York' && state != 'NY';


  Если объект удовлетворяет всем условиям, над ним выполняется несколько
  инструкций.  Можно указать четыре типа инструкций:


  1. Установить атрибуту точно заданное значение. Например:


               time-to-live = "86400"


  2. Отфильтровать атрибут какой-нибудь программой. Значение атрибута
     подается на вход фильтра. Фильтр выдает новое значение атрибута.
     Например:


               keywords | tr A-Z a-z


  3. Отфильтровать множественные атрибуты программой. В этом случае
     фильтр должен прочитать и записать атрибуты в формате SOIF.
     Например:


               address,city,state,zip ! cleanup-address.pl


  4. Особый случай инструкций - удалить объект. Чтобы сделать это,
     напишите просто:


          delete()


  44..66..11..  ФФааййлл ппррааввиилл

  Условия и инструкции объединены вместе в файле правил (``rules''
  file).  Формат этого файла чем-то напоминает формат файла Makefile;
  условия начинаются в первой колонке, а инструкции отделяются
  табуляцией.

  Например:


               type == 'HTML'
                       partial-text | cleanup-html-text.pl

               URL ~ /users/
                       time-to-live = "86400"
                       partial-text ! extract-owner.sh

               type == 'SOIFStream'
                       delete()


  Файл правил указывается в файле gatherer.cf при помощи тэга Post-
  Summarizing, например:


               Post-Summarizing: lib/myrules


  44..66..22..  RReewwrriittiinngg UURRLLss

  До версии 1.4 невозможно было переписать часть резюме, содержащую URL.
  Сейчас это возможно, но только при помощи инструкции ``pipe''. Это
  может оказаться полезным для людей, желающих запустить Gatherer для
  URL'ов типа _f_i_l_e_:_/_/, но которые должны показываться как _h_t_t_p_:_/_/.
  Сделать это можно с таким правилом пост-суммирования как:


               url ~ 'file://localhost/web/htdocs/'
                       url | fix-url.pl


  А скрипт `fix-url.pl' может выглядеть так:


               #!/usr/local/bin/perl -p
               s'file://localhost/web/htdocs/'http://www.my.domain/';

  44..77..  ААддммииннииссттррииррооввааннииее GGaatthheerreerr''аа


  44..77..11..  ЗЗааддааннииее ззннааччеенниийй ппееррееммеенннныыхх вв ккооннффииггууррааццииоонннноомм ффааййллее GGaatthhґґ
  eerreerr''аа

  Кроме настроек, описанных в разделе ``Настройка шагов распознавания
  типов, выбора кандидатов, извлечения прдставлений и суммирования'', вы
  можете настроить Gatherer, установив переменные в конфигурационном
  файле Gatherer'а. Этот файл состоит из двух частей: список переменных,
  которые указывают информацию о Gatherer'е (такую как его имя, хост, и
  номер порта), и два списка URL (разделенных на RRoooottNNooddeess и LLeeaaffNNooddeess),
  из которых нужно собирать индексируемую информацию. Раздел ``Начальная
  установка'' содержит пример конфигурационного файла Gatherer'а. В этом
  разделе мы сосредоточим внимание на переменных, которые может
  установить пользователь в первой части конфигурационного файла
  Gatherer'а.

  Название каждой переменной начинается в первой колонке, заканчивается
  двоеточием, потом следует значение. Следующая таблица показывает
  поддерживаемые переменные:


               Access-Delay:           Задержка по умолчанию между доступами к URL.
               Data-Directory:         Каталог, куда записывается база данных GDBM.
               Debug-Options:          Опции отладчтка, передаваемые дочерним программам.
               Errorlog-File:          Файл для записи ошибок.
               Essence-Options:        Любые дополнительные опции для программы Essence.
               FTP-Auth:               Имя пользователя/пароль для защищенных документов FTP.
               Gatherd-Inetd:          Обознчает, что gatherd запущен из inetd.
               Gatherer-Host:          Полное имя хоста, на котором запущен Gatherer.
               Gatherer-Name:          Униакльное имя Gatherer'а.
               Gatherer-Options:       Дополнительные опции для Gatherer'а.
               Gatherer-Port:          Номер порта для демона gatherd.
               Gatherer-Version:       Версия Gatherer'а.
               HTTP-Basic-Auth:        Имя пользователя/пароль для защищенных документов HTTP.
               HTTP-Proxy:             хост:порт вашего HTTP прокси.
               Keep-Cache:             ``yes'', чтобы не удалять кэш на локальном диске.
               Lib-Directory:          Каталог, в котором "живут" конфигурационные файлы.
               Local-Mapping:          Преобразование информации для локального собирания.
               Log-File:               Файл для записи логов.
               Post-Summarizing:       Файл правил для пост-суммирования.
               Refresh-Rate:           Скорость обновления объектов в секундах, по умолчанию 1 неделя.
               Time-To-Live:           Время жизни объектов в секундах, по умолчанию 1 месяц.
               Top-Directory:          Каталог верхнего уровня для Gatherer'а.
               Working-Directory:      Каталог для временных файлов (tmp) и локального кэша.


  Замечания:


  Ї  Мы рекомендуем вам использовать переменную TToopp--DDiirreeccttoorryy, так как
     она установит переменные DDaattaa--DDiirreeccttoorryy, LLiibb--DDiirreeccttoorryy и WWoorrkkiinngg--
     DDiirreeccttoorryy.

  Ї  И WWoorrkkiinngg--DDiirreeccttoorryy, и DDaattaa--DDiirreeccttoorryy будут иметь файлы после
     запуска Gatherer'а. WWoorrkkiinngg--DDiirreeccttoorryy будет хранить локальный кэш,
     который использует Gatherer для уменьшения сетевого трафика, а
     DDaattaa--DDiirreeccttoorryy будет хранить базы данных GDBM, которые хранят
     содержимое резюме.


  Ї  Следует использовать полные, а не относительные имена каталогов.

  Ї  Все определения переменных _д_о_л_ж_н_ы быть сделаны перед URL'ами
     RootNode и LeafNode.

  Ї  Любая строка, начинающаяся с ``#'' - комментарий.

  Ї  LLooccaall--MMaappppiinngg обсуждается в разделе ``Собирание на локальной
     файловой системе для сниженной загрузки процессора''.

  Ї  HHTTTTPP--PPrrooxxyy будет получать URL'ы HTTP через прокси сервер. Синтаксис
     следующий: hhoossttnnaammee::ppoorrtt; например, pprrooxxyy..yyoouurrssiittee..ccoomm::33112288.

  Ї  Опция EEsssseennccee--OOppttiioonnss особенно полезна, так как позволяет легко
     настроить основные аспекты Gatherer'а.

  Ї  Единственная действительная опция GGaatthheerreerr--OOppttiioonnss -- ----ssaavvee--ssppaaccee,
     которая указывает Gatherer'у быть более эффективным с местом на
     диске при подготовке своей базы данных для экспорта.

  Ї  Программа Gatherer примет флаг --bbaacckkggrroouunndd, который заставит
     Gatherer запуститься в фоновом режиме.

  Опции Essence:


       Опция                   Значение
       --------------------------------------------------------------------
       --allowlist filename    Файл со списком допустимых типов
       --fake-md5s             Генерирует MD5 для объектов SOIF из программы .unnest
       --fast-summarizing      Увеличивает скорость за счет согласованности данных. Используйте только,
                               когда уверены, что внешний summarizer будет генерировать чистые,
                               уникальные атрибуты.
       --full-text             Использует весь файл вместо резюме. Также вы
                               можете получить полный текст, индексируя отдельные типы
                               файлов, используя summarizer FullText.sum.
       --max-deletions n       Число удалений GDBM перед реорганизацией
       --minimal-bookkeeping   Генерирует минимальное число атрибутов учета системных ресурсов
       --no-access             Не читать содержимое объектов
       --no-keywords           Не генерировать ключевые слова автоматически
       --stoplist filename     Файл со списком типов, которые подлежат удалению
       --type-only             Только типы данных; не суммировать объекты


  Особенное замечание о полнотекстовом суммировании: Использование опции
  Essence ----ffuullll--tteexxtt запрещает файлам проходить через механизм
  извлечения содержания Essence.  Вместо этого, все содержимое файлов
  включается в поток резюме SOIF.  В некоторых случаях это может
  привести к нежелательным результатам (например, программа сразу
  включит PostScript, а не пропустит сначала его через переводчик данных
  из PostScript в текст, предоставляя несколько терминов, поддающихся
  поиску, и большие объекты SOIF). Использование механизма суммирования
  отдельных типов файлов, описанное в разделе ``Настройка шага
  суммирования'', будет лучше работать в этом случае, но потребует от
  вас указать, как должны извлекаться данные для каждого отдельного типа
  файлов. В следующих версиях Harvest мы заменим опцию Essence ----ffuullll--
  tteexxtt, чтобы выполнять извлечение содержимого перед включением полного
  текста документов.


  44..77..22..  ССооббииррааннииее ннаа ллооккааллььнноойй ффааййллооввоойй ссииссттееммее ддлляя сснниижжеенннноойй ззааггррууззккии
  ппррооццеессссоорраа

  Хотя рабочая нагрузка Gatherer'а определяется указываемыми URL'ами,
  часто собираемые файлы размещены в локальной файловой системе. В этом
  случае гораздо более эффективно собирать прямо с файловой системы, а
  не через FTP/Gopher/HTTP/News, в основном потому, что все требуемые
  порождаемые процессы UNIX должны собирать информацию через сетевые
  процессы. Например, наши измерения показывают, что процессор нагружен
  в 4-7 раз больше при собирании с FTP, чем прямо с локальной файловой
  системы. Для больших коллекций (например, архивные сайты, содержащие
  тысячи файлов), выигрыш процессорного времени может быть значительным.

  Начиная с версии 1.1 Harvest'а стало возможным указать Gatherer'у, как
  транслировать URL'ы в имена локальной файловой системы, используя
  переменную LLooccaall--MMaappppiinngg конфигурационного файла Gatherer'а (см.
  раздел ``Задание значений переменных в конфигурационном файле
  Gatherer'а''.  Синтаксис:


               Local-Mapping: URL_prefix local_path_prefix


  Это заставит во время сбора транслироваться все URL'ы, начинающиеся с
  UURRLL__pprreeffiixx, в файлы, начинающиеся с llooccaall__ppaatthh__pprreeffiixx, но в
  результатах запросов будут оставаться URL'ы (поэтому объекты могут
  быть получены как обычно). Заметьте, что регулярные выражения здесь не
  поддерживаются. Например, указание


               Local-Mapping: http://harvest.cs.colorado.edu/~hardy/ /homes/hardy/public_html/
               Local-Mapping: ftp://ftp.cs.colorado.edu/pub/cs/ /cs/ftp/


  заставит URL _h_t_t_p_:_/_/_h_a_r_v_e_s_t_._c_s_._c_o_l_o_r_a_d_o_._e_d_u_/ _h_a_r_d_y_/_H_o_m_e_._h_t_m_l
  транслироваться в локальное файловое имя
  _/_h_o_m_e_s_/_h_a_r_d_y_/_p_u_b_l_i_c___h_t_m_l_/_H_o_m_e_._h_t_m_l, а URL
  _f_t_p_:_/_/_f_t_p_._c_s_._c_o_l_o_r_a_d_o_._e_d_u_/_p_u_b_/_c_s_/_t_e_c_h_r_e_p_o_r_t_s_/_s_c_h_w_a_r_t_z_/_H_a_r_v_e_s_t_._C_o_n_f_._p_s_._Z
  будет транслирован в имя
  _/_c_s_/_f_t_p_/_t_e_c_h_r_e_p_o_r_t_s_/_s_c_h_w_a_r_t_z_/_H_a_r_v_e_s_t_._C_o_n_f_._p_s_._Z.

  Локальное собирание будет работать с фаловой системой NFS. Локальное
  транслирование не удастся, если: локальные файлы не могут быть открыты
  для чтения; локальный файл - не регулярный файл (например, ссылка); у
  локального файла установлены биты на исполнение. Так, к каталогам,
  символическим ссылкам и сценариям CGI всегда обращается сервер, а не
  локальная файловая система. Наконец, Gatherer не предоставляет никаких
  преобразований синтаксиса URL для локального транслирования. Если ваш
  URL содержит управляющие символы (см. RFC1738), тогда локальное
  преобразование не удастся. Начиная с версии 1.4 (patchlevel 2) Essence
  печатает _[_L_] после каждого URL, который был удачно обработан локально.

  Заметье, что если ваша сеть сильно загружена, на самом деле может
  оказаться быстрее собрать через HTTP/FTP/Gopher, чем по NFS, так как
  NFS становится очень неэффективным в сильно нагруженных сетях. Гораздо
  лучше запускать свои Gatherer'ы на хостах на их собственных дисках и
  обращаться к ним прямо через локальную файловую систему.


  44..77..33..  ССооббииррааннииее сс ссееррввеерроовв,, ззаащщиищщеенннныыхх ппааррооллеемм

  Вы можете собирать документы, защищенные паролем, с серверов HTTP и
  FTP. В обоих случаях, вы можете указать имя пользователя и пароль как
  часть URL. Формат следующий:


                ftp://user:password@host:port/url-path
               http://user:password@host:port/url-path


  В таком формате, часть ``user:password'' хранится как часть строки URL
  во всем процессе обработки Harvest'ом. Это может позволить любому, кто
  имеет доступ у вашему брокеру, получить доступ к документам,
  защищенным паролем.

  Вы можете хранить информацию с именем пользователя и паролем в
  ``спрятанном'' виде, указав индецифицирующую информацию в
  конфигурационном файле Gatherer'а. Для HTTP формат следующий:


               HTTP-Basic-Auth: realm username password


  где rreeaallmm - это то же самое, что и параметр AAuutthhNNaammee в
  конфигурационном файле Apache httpd _h_t_t_p_d_._c_o_n_f или файле _._h_t_a_c_c_e_s_s. В
  других конфигурациях сервера httpd значание realm иногда называется
  SSeerrvveerrIIdd.

  Для FTP формат в файле gatherer.cf следующий:


               FTP-Auth: hostname[:port] username password


  44..77..44..  ККооннттрроолльь ддооссттууппаа кк ббааззее ддаанннныыхх GGaatthheerreerr''аа

  Вы можете использовать файл _g_a_t_h_e_r_d_._c_f (помещенный в каталог
  Gatherer'а DDaattaa--DDiirreeccttoorryy) для контроля доступа к базе данных
  Gatherer'а.  В строке, начинающейся с AAllllooww, соодержится произвольное
  число имен доменов или хостов, которым разрешено подключаться к
  Gatherer'у. Если используется слово aallll, тогда подходят все хосты.
  DDeennyy имеет противоположное назначение к AAllllooww. Следующий пример
  разрешит доступ к базе данных Gatherer'а только хостам из доменов
  ccss..ccoolloorraaddoo..eedduu или uusscc..eedduu:


               Allow  cs.colorado.edu usc.edu
               Deny   all


  44..77..55..  ППееррииооддииччеессккооее ссооббииррааннииее ии ооббннооввллеенниияя вв ррееааллььнноомм ввррееммееннии

  Программа Gatherer автоматически не совершает никаких периодических
  обновлений -- когда вы запустите ее, она обработает указанные URL'ы,
  запустит демон gatherd (если он уже не запущен), и затем прекратит
  работу. Если вы хотите периодически обновлять данные (например, чтобы
  получать новые файлы, как только они появлятся в FTP архиве), вам
  нужно использовать команду UNIX cron для запуска программы Gatherer с
  каким-то регулярным интервалом.

  Чтобы установить периодическое собирание при помощи cron, используйте
  команду RunGatherer, которую создаст RunHarvest.  Пример скрипта
  RunGatherer:


               #!/bin/sh
               #
               #  RunGatherer - Runs the ATT 800 Gatherer (from cron)
               #
               HARVEST_HOME=/usr/local/harvest; export HARVEST_HOME
               PATH=${HARVEST_HOME}/bin:${HARVEST_HOME}/lib/gatherer:${HARVEST_HOME}/lib:$PATH
               export PATH
               NNTPSERVER=localhost; export NNTPSERVER
               cd /usr/local/harvest/gatherers/att800
               exec Gatherer "att800.cf"


  Вам следует запускать оманду RunGatherd из системного файла начальной
  загрузки (например, _/_e_t_c_/_r_c_._l_o_c_a_l), чтобы база данных Gatherer'а
  экспортировалась всякий раз, когда машина перегружается. Пример
  скрипта RunGatherd:


               #!/bin/sh
               #
               #  RunGatherd - starts up the gatherd process (from /etc/rc.local)
               #
               HARVEST_HOME=/usr/local/harvest; export HARVEST_HOME
               PATH=${HARVEST_HOME}/lib/gatherer:${HARVEST_HOME}/bin:$PATH; export PATH
               exec gatherd -d /usr/local/harvest/gatherers/att800/data 8500


  44..77..66..  ДДииссккооввыыйй ккээшш

  Gatherer содержит локальный дисковый кэш файлов, которые он собирает,
  чтобы снизить сетевой трафик после перезапуска неудачных попыток
  сбора. Однако, так как к уаленному серверу должен быть доступ
  независимо от того, запущен ли Gatherer, не устанвливайте работу cron
  на слишком частый запуск Gatherer'а.  Типичное значение может быть
  неделя или месяц, в зависимости от того, как загружена сеть и как
  важно вам иметь более свежие данные.

  По умолчанию, локальный кэш Gatherer'а удаляется после каждого
  удачного завершения.  Чтобы сохранить кэш между сессиями Gatherer'а,
  определите переменную KKeeeepp--CCaacchhee:: yyeess в конфигурационном файле
  Gatherer'а (раздел ``Задание значений переменных в конфигурационном
  файле Gatherer'а'').


  Если вы хотите, чтобы индекс вашего брокера отображал новые данные,
  тогода вы должны запустить Gatherer _и запустить коллекционирование
  брокера. По умолчанию брокер будет осуществлять коллекционирования раз
  в день. Если вы хотите, чтобы брокер коллекционировал данные, как
  только они будут собраны, тогда вам нужно координировать синхронизацию
  завершения собираний Gatherer'а и брокера.

  Если вы запускаете ваш Gatherer часто и используете KKeeeepp--CCaacchhee:: yyeess в
  конфигурационном файле Gatherer'а, тогда локальный кэш Gatherer'а
  может перемешиваться с получаемыми обновлениями. По умолчанию объекты
  в локальном кэше устаревают через 7 дней; однако, вы можте заставить
  ``устаревать'' их быстрее, установив переменную окружения
  $$GGAATTHHEERREERR__CCAACCHHEE__TTTTLL, равную числу секунд для времени жизни (Time-To-
  Live, TTL) перед запуском Gatherer'а, или вы можете изменить
  RunGatherer, чтобы удалять каталог Gatherer'а _t_m_p после каждого
  запуска Gatherer'а. Например, чтобы объекты устаревали в локальном
  кэше через один день:


               % setenv GATHERER_CACHE_TTL 86400       # one day
               % ./RunGatherer


  Размер локального кэша Gatherer'а равен по умолчанию 32 MB, но вы
  можете изменить это значение, установив переменную окружения
  $$HHAARRVVEESSTT__MMAAXX__LLOOCCAALL__CCAACCHHEE равную числу MB перед запуском Gatherer'а.
  Например, для максимального размера кэша 10 MB вы можете проделать
  следующее:


               % setenv HARVEST_MAX_LOCAL_CACHE 10       # 10 MB
               % ./RunGatherer


  Если у вас есть доступ к программному обеспечению, которое создает
  файлы, которые вы индексируете (например, если все обновления
  пропускаются через особенный редактор, скрипты обновления, или
  системные вызовы), вы можте модифицировать ПО, чтобы заставить
  Gatherer делать обновления в реальном времени сразу после создания или
  обновления файла. Например, если все пользователи обнавляют
  индексируемы файлы, используя определенную программу, эта программа
  может быть модифицирована для запуска Gatherer'а по окончании
  пользовательских обновлений.

  Заметьте, что при использовании вместе с cron, Gatherer предоставляет
  мощную возможность ``зеркалирования'' данных (data ``mirroring''). Вы
  можете использовать Gatherer для дублирования содержимого одного или
  нескольких сайтов, получения данных в различных форматах по различным
  протоколам (FTP, HTTP, etc.), по желанию проделывать разнообразие
  преобразований данных в зависимости от их типа или сайта, и эффективно
  выдавать результаты в виде сжатых резюме объектов SOIF другим сайтам,
  которые хотят использовать данные для построения индексов или других
  целей.


  44..77..77..  ВВккллююччееннииее вв GGaatthheerreerr ииннффооррммааццииии,, ссггееннеерриирроовваанннноойй ввррууччннууюю

  Возможно вы захотите проверить качество автоматически сгенерированных
  шаблонов SOIF.  В общем случае, техника Essence для автоматического
  извлечения информации производит неидельные результаты. Иногда
  возможно настроить summarizer'ы, чтобы они лучше подходили данному
  контексту (см. раздел ``Настройка шага суммирования'').  Иногда,
  однако, может иметь смысл пополнить или изменить автоматически
  сгенерированные ключевые слова, вручную вводя информацию.  Например,
  вы можете захотеть добавить атрибуты _T_i_t_l_e в содержимое резюме для
  набора документов PostScript (так как довольно трудно получить их
  автоматически из PostScript).

  Harvest имеет некоторые программы, которые автоматически вычищают базу
  данных Gatherer'а.  Программа rmbinary удаляет любые двоичные данные
  из шаблонов объектов.  Программа cleandb делает простое утверждение
  объектов SOIF, и если задан флаг --ttrruunnccaattee, она обрежет поле данных
  _K_e_y_w_o_r_d_s до 8 килобайт. Чтобы помочь вручную управлять базами данных
  Gatherer'а, имеется средство управления базами данных GDBM gdbmutil в
  _$_H_A_R_V_E_S_T___H_O_M_E_/_l_i_b_/_g_a_t_h_e_r_e_r.

  В будущих выпусках Harvest'а мы добавим механизм на основе форм, чтобы
  легко вручную вносить дополнения. А пока вы можете дополнять базу
  данных Gatherer'а информацией, написанной вручную, используя программы
  mktemplate, template2db, mergedb и mkindex. Сначала вам нужно создать
  файл (назовем его, скажем, _a_n_n_o_t_a_t_i_o_n_s) в слеующем формате:


               @FILE { url1
               Attribute-Name-1:        DATA
               Attribute-Name-2:        DATA
               ...
               Attribute-Name-n:        DATA
               }

               @FILE { url2
               Attribute-Name-1:        DATA
               Attribute-Name-2:        DATA
               ...
               Attribute-Name-n:        DATA
               }

               ...


  Заметьте, что _а_т_р_и_б_у_т_ы должны начинаться в нулевой колонке и должна
  быть одна табуляция после колонки, а данные (_D_A_T_A) должны быть в
  пределах одной строчки.

  Затем, запустите программы mktemplate и template2db, чтобы
  сгенерировать SOIF и потом версии GDBM этих данных (у вас может быть
  несколько файлов с дополнениями, и вы можете сгенерировать одну базу
  данных GDBM при помощи вышеуказанных команд):


               % set path = ($HARVEST_HOME/lib/gatherer $path)
               % mktemplate annotations [annotations2 ...] | template2db annotations.gdbm


  Наконец, запустите mergedb, чтобы включить дополнения в автоматически
  сгенерированные данные, и mkindex, чтобы сгенерировать их индекс.
  Использование mergedb:


          mergedb production automatic manual [manual ...]


  Идея заключается в том, что _p_r_o_d_u_c_t_i_o_n - окончательная база данных
  GDBM database, которую будет обслуживать Gatherer. Это _н_о_в_а_я база
  данных, которая будет генерироваться из других баз в командной строке.
  _a_u_t_o_m_a_t_i_c - это база данных GDBM, которую Gatherer сгенерировал в
  предыдущем запуске (наример, _W_O_R_K_I_N_G_._g_d_b_m или предыдущая
  _P_R_O_D_U_C_T_I_O_N_._g_d_b_m). _m_a_n_u_a_l и т.д. - базы данных GDBM, которые вы создали
  вручную. Когда запускается mergedb, она строит базу данных _p_r_o_d_u_c_t_i_o_n,
  сперва скопировав шаблоны из баз даных _m_a_n_u_a_l, а затем соединив с
  атрибутами атрибуты из базы данных _a_u_t_o_m_a_t_i_c. В случае конфликта (одни
  и те же атрибуты имеют различные значения в базах _m_a_n_u_a_l и _a_u_t_o_m_a_t_i_c),
  значения _m_a_n_u_a_l перевесят значения _a_u_t_o_m_a_t_i_c.

  Если хранить автоматически и вручную сгенерированные данные отдельно,
  вы можете избежать потерю обновлений вручную при периодических
  автоматических собираниях.  Чтобы это сделать, вам нужно создать
  скрипт, перевносить свои дополнения в автоматически собранные данные
  после каждого собирания.

  Пример использования mergedb:


               % mergedb PRODUCTION.new PRODUCTION.gdbm annotations.gdbm
               % mv PRODUCTION.new PRODUCTION.gdbm
               % mkindex


  Если база данных manual выглядит так:


               @FILE { url1
               my-manual-attribute:  this is a neat attribute
               }


  а база данных automatic выглядит так:


               @FILE { url1
               keywords:   boulder colorado
               file-size:  1034
               md5:        c3d79dc037efd538ce50464089af2fb6
               }


  то в конце база данных production будет выглядеть вот так:


          @FILE { url1
          my-manual-attribute:  this is a neat attribute
          keywords:   boulder colorado
          file-size:  1034
          md5:        c3d79dc037efd538ce50464089af2fb6
          }


  44..88..  УУссттррааннееннииее ннееппооллааддоокк


     ООттллааддккаа
        Доплнительная информация от отдельных программ и библиотечных
        функций может записана, если установить отладочные флаги
        (debugging flags). Отладочный флаг имеет вид --DDsseeccttiioonn,,lleevveell.
        _S_e_c_t_i_o_n -- это целое число в пределах 1-255, а _l_e_v_e_l -- целое
        число в пределах 1-9. Флаги могут быть заданы в командной
        строке, при помощи тэга DDeebbuugg--OOppttiioonnss:: в конфигурационном файле
        Gatherer'а, или установлением переменной окружения
        $$HHAARRVVEESSTT__DDEEBBUUGG.

        Примеры:


                  Debug-Options: -D68,5 -D44,1
                  % httpenum -D20,1 -D21,1 -D42,1 http://harvest.cs.colorado.edu/
                  % setenv HARVEST_DEBUG '-D20,1 -D23,1 -D63,1'


     Разделы отладки (debugging sections) и уровни (levels) относятся к
     следующим разделам кода: of the code:


     section  20, level 1, 5, 9          liburl обработка URL
     section  21, level 1, 5, 9          Функции HTTP библиотеки liburl
     section  22, level 1, 5             Функции дискового кэша библиотеки liburl
     section  23, level 1                Функции FTP библиотеки liburl
     section  24, level 1                Функции Gopher библиотеки liburl
     section  25, level 1                urlget - отдельная программа liburl
     section  26, level 1                ftpget - отдельная программа liburl
     section  40, level 1, 5, 9          Нумерация URL Gatherer'ом
     section  41, level 1                Нумерация Gatherer'а, подтверждение URL
     section  42, level 1, 5, 9          Нумерация Gatherer'а для HTTP
     section  43, level 1, 5, 9          Нумерация Gatherer'а для Gopher
     section  44, level 1, 5             Нумерация Gatherer'а, функции фильтра
     section  45, level 1                Нумерация Gatherer'а для FTP
     section  46, level 1                Нумерация Gatherer'а для URL'ов типа file://
     section  48, level 1, 5             Нумерация Gatherer'а, robots.txt
     section  60, level 1                Gatherer essence, обработка объекта данных
     section  61, level 1                Gatherer essence, функции базы данных
     section  62, level 1                Gatherer essence, главная часть (main)
     section  63, level 1                Gatherer essence, распознавания типов
     section  64, level 1                Gatherer essence, суммирование объектов
     section  65, level 1                Gatherer essence, извлечение объектов
     section  66, level 1, 2, 5          Gatherer essence, пост-суммирование
     section  67, level 1                Gatherer essence, код ID объекта
     section  69, level 1, 5, 9          Обработка шаблонов SOIF
     section  70, level 1, 5, 9          Broker, регистр
     section  71, level 1                Broker, функции коллекций
     section  72, level 1                Broker, функции разбора SOIF
     section  73, level 1, 5, 9          Broker, хэш-таблицы регистра
     section  74, level 1                Broker, функции управления хранением
     section  75, level 1, 5             Broker, функции обработки запросов
     section  75, level 4                Broker, отладка query_list
     section  76, level 1                Broker, функции обработки событий
     section  77, level 1                Broker, main
     section  78, level 9                Broker, цикл select(2)
     section  79, level 1, 5, 9          Broker, управление gatherer-id
     section  80, level 1                Общие утилиты, управление памятью
     section  81, level 1                Общие утилиты, функции буфера
     section  82, level 1                Общие утилиты, системные(3) функции
     section  83, level 1                Общие утилиты, функции путей (pathname)
     section  84, level 1                Общие утилиты, обработка имени хоста
     section  85, level 1                Общие утилиты, обработка строк
     section  86, level 1                Общие утилиты, кэш хостов DNS
     section 101, level 1                Broker, движок индекса PLWeb
     section 102, level 1, 2, 5          Broker, движок индекса Glimpse
     section 103, level 1                Broker, движок индекса Swish


     ССииммппттоомм
        Gatherer _н_е _с_о_б_и_р_а_е_т _в_с_е _о_б_ъ_е_к_т_ы, на которые указывают некоторые
        из моих RootNode'ов.


     РРеешшееннииее
        Gatherer делает различные ограничения на нумерацию, чтобы
        предостеречь плохо сконфигурированный Gatherer от неправильного
        обращения к серверам или от ``дикого'' запуска. Обратитесь в
        раздел ``Описание RootNode'' за деталями о том, как переделать
        эти ограничения.


     ССииммппттоомм
        _Н_е _с_р_а_б_о_т_а_л_о _л_о_к_а_л_ь_н_о_е _п_р_е_о_б_р_а_з_о_в_а_н_и_е _(_L_o_c_a_l_-_M_a_p_p_i_n_g_) - объекты
        получены по обычным протоколам удаленного доступа.
     РРеешшееннииее
        Локальное преобразование не удастся, если:


     Ї  Локальное преобразование не удастся, если:

     Ї  локальный файл - не регулярный файл;

     Ї  у локального файла установлены биты на исполнение.

        Так, к каталогам, символическим ссылкам и сценариям CGI всегда
        обращается сервер, а не локальная файловая система. Мы не
        предоставляем преобразование URL для локальных преобразований.
        Если ваш URL имеет специальные символы, от которых нужно
        избавиться, то локальное преобразование также не удастя.
        Добавьте опцию отладчика --DD2200,,11, чтобы понять, как происходит
        локальное преобразование.


     ССииммппттоомм
        Используя опцию ----ffuullll--tteexxtt, я вижу много _н_е_о_б_р_а_б_о_т_а_н_н_ы_х _д_а_н_н_ы_х
        в резюме содержимого, которые имеют мало ключевых слов для
        поиска.


     РРеешшееннииее
        На данный момент ----ffuullll--tteexxtt просто включает все данные из
        содержимого в резюме SOIF. Использование механизмов суммирования
        отдельных типов данных, описанных в разделе ``Настройка шага
        суммирования'', будет лучше работать в этом случае, но потребует
        от вас указать, как нужно извлекать данные для отдельных типов
        файлов. В будущих версиях Harvest'а мы заменим опцию Essence
        ----ffuullll--tteexxtt, чтобы выполнять извлечение содержимого перед
        включением полного текста документов.


     ССииммппттоомм
        Не сгенерировались индексирующие термины в резюме SOIF для тэгов
        META в моих документах HTML.


     РРеешшееннииее
        Вероятно, это показывает, что ваш HTML синтаксически неверно
        организован, и следовательно HTML summarizer на основе SGML не
        способен понять его. Обратитесь в раздел ``Суммирование данных
        SGML'' за деталями и опциями отладки.


     ССииммппттоомм
        Собранные данные _н_е _о_б_н_о_в_л_я_ю_т_с_я.


     РРеешшееннииее
        Gatherer автоматически не производит периодических обновлений.
        Обратитесь в раздел ``Периодическое собирание и обновления в
        реальном времени'' за деталями.


     ССииммппттоомм
        Gatherer записывает _н_е_м_н_о_г_о _д_р_у_г_и_е _U_R_L в резюме _S_O_I_F, а не те,
        что я указал в _к_о_н_ф_и_г_у_р_а_ц_и_о_н_н_о_м _ф_а_й_л_е Gatherer'а.


     РРеешшееннииее
        Это происходит потому, что Gatherer пытается привести URL к
        каноническому формату. Он делает это, убирая номера портов по
        умолчанию и похожие ``косметические'' изменения. Также по
        умолчанию Essence (подсистема Gtherer'а извлечения содержимого)
        удаляет стандартные типы из stoplist.cf, который включает
        запросы HTTP (состав cgi-bin).


     ССииммппттоомм
        Нет _L_a_s_t_-_M_o_d_i_f_i_c_a_t_i_o_n_-_T_i_m_e (время последнего изменения) или
        _а_т_р_и_б_у_т_о_в _M_D_5 в моих данных SOIF, поэтому брокер не может делать
        повторного отсеивания.


     РРеешшееннииее
        Если вы собираете удаленно созданную вручную информацию, она
        добывается Harvest'ом, используя ``exploder'ы'', которые
        транслируют удаленный формат в SOIF.  Это значит, что они не
        имеют прямого способа заполнить информацию Last-Modification-
        Time или MD5 за одну запись. Заметьте также, что это занчит, что
        после одного обновления удаленные записи будут выглядеть
        обновленными, что приведет к большей сетевой загрузке для
        брокера, который собирает данные с этого Gatherer'а. Как
        решение, вы можете вычислять MD5 для всех объектов и хранить их
        как часть записи.  Потом, когда вы запустите exploder, вы
        сгенерируете только временные метки для тех объектов, у которых
        изменилось MD5 - это даст вам реальные времена последних
        изменений.


     ССииммппттоомм
        Gatherer заменяет на ``%7e'' тильды `` '' во всех URL'ах
        каталогов пользователя.  directory URLs.


     РРеешшееннииее
        Gatherer следует RFC1738, который говорит, что тильда внутри URL
        должна кодироваться как ``%7e'', так как она рассматривается как
        ``небезопасный'' символ.


     ССииммппттоомм
        Когда я ищу, используя ключевые слова, которые точно есть в
        документе, который я проиндексировал Harvest'ом, _д_о_к_у_м_е_н_т _н_е
        _н_а_х_о_д_и_т_с_я.


     РРеешшееннииее
        Harvest использует подсистему извлечения содержимого _E_s_s_e_n_c_e,
        которая по умолчанию не извлекает каждое ключевое слово в
        документе. Вместо этого, она использует эвристику, чтобы
        попытаться выбрать наиболее нужные ключевые слова. Вы можете
        установить, какие ключевые слова выбирать настроив summarizer'ы
        для этих типов данных, что обсуждается в разделе ``Настройка
        шагов распознавания типов, выбора кандидатов, извлечения
        прдставлений и суммирования''.  Или вы можете сказать _E_s_s_e_n_c_e,
        чтобы он использовал полнотекстовое суммирование, если
        чувствуете, что увелечение занимаего места на диске будет
        оправдано, это обсуждается в разделе ``Задание значений
        переменных в конфигурационном файле Gatherer'а''.


     ССииммппттоомм
        Я запускаю Harvest на HP-UX, но процесс essence Gatherer'а
        _з_а_н_и_м_а_е_т _с_л_и_ш_к_о_м _м_н_о_г_о _п_а_м_я_т_и.


     РРеешшееннииее
        Имеющаяся библиотека регулярных выражений имеет утечки памяти на
        HP-UX, поэтому вам нужно использовать библиотеку регулярных
        выражений, поставляемую с HP-UX. Замените _M_a_k_e_f_i_l_e в
        _s_r_c_/_g_a_t_h_e_r_e_r_/_e_s_s_e_n_c_e:


                  REGEX_DEFINE    = -DUSE_POSIX_REGEX
                  REGEX_INCLUDE   =
                  REGEX_OBJ       =
                  REGEX_TYPE      = posix


     ССииммппттоомм
        Я создал конфигурационный файл, чтобы _у_к_а_з_а_т_ь, как Essence
        должен извлекать данные types/content, но он _и_с_п_о_л_ь_з_у_е_т _в_с_е
        _р_а_в_н_о _с_т_а_н_д_а_р_т_н_ы_е _м_е_х_а_н_и_з_м_ы _t_y_p_i_n_g_/_e_x_t_r_a_c_t_i_n_g.


     РРеешшееннииее
        Убедитесь, что у вас LLiibb--DDiirreeccttoorryy установлена в каталог _l_i_b_/, в
        который вы положили ваш конфигурационный файл. LLiibb--DDiirreeccttoorryy
        определяется в конфигурационном файле вашего Gatherer'а.


     ССииммппттоомм
        У меня проблемы с _р_а_з_р_е_ш_е_н_и_е_м _и_м_е_н _х_о_с_т_о_в на SunOS.


     РРеешшееннииее
        Для того, чтобы собирать данные с хостов вне вашей организации,
        ваша система должна быть способна разрешать полностью правильные
        имена доменов в адреса IP.  Если ваша система не может разрешить
        имена хостов, вы увидите сообщения об ошибках, как ``Unknown
        Host''. В этом случае, одно из двух:


     Ї  имя хоста, которое вы задали, на самом деле не существует;

     Ї  ваша система не сконфигурирована для использования  DNS.

        Чтобы убедиться, что ваша система сконфигурирована для DNS,
        убедитесь, что файл _/_e_t_c_/_r_e_s_o_l_v_._c_o_n_f существует и может быть
        прочитан. Прочитайте страницу man для resolv.conf(5) с
        информацией об этом файле. Вы можете убедиться, что DNS работает
        при помощи команды nslookup.

        Некоторые сайты могут использовать Службу сетевой информации Sun
        Microsystem (Network Information Service, NIS) вместо или вместе
        с DNS. Мы считаем, что Harvest работает на системах, в которых
        NIS был правильно сконфигурирован. Сервера NIS (имена которых вы
        можете определить при помощи команды ypwhich) должны быть
        сконфигурированы, чтобы делать запросы к серверам DNS для имен
        хостов, о которых они ничего не знают. Попробуте опцию --bb
        команды ypxfr.


     ССииммппттоомм
        Я не могу заставить Gatherer работать через наш _f_i_r_e_w_a_l_l
        _g_a_t_e_w_a_y.


     РРеешшееннииее
        Harvest поддерживает только получение объектов HTTP через
        прокси. Пока еще невозможно запросить Gopher и FTP объекты через
        firewall. Для этих объектов, вам может понадобиться запустить
        Harvest внутренне (за firewall'ом) или на самом хосте с
        firewall'ом.

        Если вы видите сообщение ``Host is unreachable'', вероятно,
        возникли эти проблемы:


     Ї  ваше соединение с Internet временно невозможно из-за сбоя в цепи
        или маршрутизации;

     Ї  вы за firewall'ом.

        Если вы видите сообщение ``Connection refused'', вероятно,
        проблема в том, что вы пытаетесь подсоединиться к
        неиспользуемому порту на машине назначения. Другими словами, нет
        программы, прослушивающей соединения на этом порту.

        Gatherer Harvest'а - это, по существу, клиент WWW. Вы должны
        ожидать, что он будет работать так же как и любой Web броузер.


  55..  BBrrookkeerr


  55..11..  ООббззоорр

  Broker получает индексную информацию от Gatherer'ов и других брокеров
  и управляет ею, а также предлагает вебинтерфейс для запросов к
  индексируемой информации.


  55..22..  ННааччааллььннааяя ууссттааннооввккаа

  Брокер автоматически запускается командой RunHarvest.  Другие подобные
  команды описываются в разделе ``Запуск системы: команда RunHarvest и
  связанные с ней команды''.

  В этом разделе мы обсуждаем различные способы переделки и настройки
  брокера, как администрировать брокер и различные программные
  интерфейсы брокера.

  Как показано на рисунке ``1'', брокер использует гибкий интерфейс
  индексирования, который поддерживает множество подсистем
  индексирования. По умолчанию брокер Harvest'а использует Glimpse в
  качестве индексатора, но также с брокером работают другие индексаторы,
  как Swish и WAIS (как свободный freeWAIS
  <ftp://ftp.cnidr.org/pub/software/freewais/>, так и коммерческий WAIS)
  (см. раздел ``Использование различных индексирующих/поисковых систем
  вместе с Broker'ом'').

  Для создания нового брокера запустите программу CreateBroker. Она
  задаст вам ряд вопросов о том, как бы вы хотели сконфигурировать ваш
  брокер, а потом атоматически создаст и сконфигурирует его. Для запуска
  вашего брокера используйте программу RunBroker, которую создаст
  CreateBroker.  Брокер должен запускаться при перезапуске вашей
  системы. Чтобы предотвратить брокер от коллекционирования при запуске,
  используйте опцию --nnooccooll. Есть много способов, которыми вы можете
  переделать и настроить брокер, обсуждаемые в разделах ``Настройка
  индексирования Glimpse в Broker'е '' и ``Использование различных
  индексирующих/поисковых систем вместе с Broker'ом''.  Вы также можете
  использовать команду RunHarvest, рассматриваемую в разделе ``Запуск
  системы: команда RunHarvest и связанные с ней команды'', чтобы создать
  как брокер, так и Gatherer.


  55..33..  ООттппррааввллееннииее ззааппррооссоовв BBrrookkeerr''уу

  Брокер Harvest'а может работать с различными типами запросов. Запросы,
  обрабатываемые отдельным брокером, зависят от того, какая
  индексируюшая/поисковая система используется внутри его (например,
  WAIS не поддерживает некоторые из запросов, которые поддерживает
  Glimpse). В этом разделе мы описываем весь синтаксис. Если данный
  брокер не поддерживает определенный тип запросов, он вернет ошибку,
  когда пользователь совершит запрос такого типа.

  Простейшие запросы - это отдельные ключевые слова, например:


               lightbulb


  Поиск по общеупотребительным словам (как ``computer'' или ``html'')
  может занять много времени.

  В частности для больших брокеров часто полезно использовать более
  мощные запросы. Harvest поддерживает много раздичных
  индексирующих/поисковых движков с разными возможностями. На данный
  момент, наш самый мощный (и чаще используемый) поисковый движок --
  Glimpse, который поддерживает:


  Ї  запросы с учетом и без учета регистра;

  Ї  поиск по частям слова, целым словам, или фразам из нескольких слов
     (как ``обнаружение ресурсов'');

  Ї  булевские (И/ИЛИ) комбинации ключевых слов;

  Ї  приблизительные сопоставления (например, позволяя допускать ошибки
     в написании);

  Ї  структурированные запросы (которые дают вам возможность совершать
     поиск по определенным атрибутам);

  Ї  вывод совпавших строк или целыз записей (например, для
     цитирования);

  Ї  указание пределов на число возвращаемых совпадений;

  Ї  ограниченную форму регулярных выражений (например, позволяя
     задавать выражения, которые подходят ко всем словам, оканчивающимся
     на данный суффикс).

  Ниже описываются различные типы запросов (и как их использовать).
  Заметьте, что вы используете тот же синтаксис, независимо от, того
  какой движок запущен в данном брокере, но не все движки поддерживают
  все вышеперечисленные свойства. В частности, некоторые брокеры
  используют WAIS, который иногда ищет быстрее, чем Glimpse, но
  поддерживает только булевские комбинации в запросах и возможность
  указать ограничения на количество выдаваемых результатов.

  Различные опции: учет регистра, приблизительное сопоставление,
  возможность показывать совпавшие строки и записи и возможность указать
  пределы числа совпадений -- все они могут быть указаны пи помощи
  кнопок и меню в формах запросов брокера.

  Структурированный запрос имеет вид:


               tag-name : value


  Где _t_a_g_-_n_a_m_e -- это имя атрибута резюме содержимого, а _v_a_l_u_e -
  значание для поиска по этому атрибуту. Если вы кликните на резюме
  содержимого (Content Summary), вы увидите, какие атрибуты доступны для
  данного брокера.  Список наиболее общих атрибутов показан в разделе
  ``Список общих имен атрибутов SOIF ''.

  Поиск по ключевым словам и структурированные запросы могут быть
  объединены, используя булевские операторы (AND и OR) для образования
  сложных запросов. Без скобок логические операции применяются слева
  направо. Для фраз с несколькими словами или регулярными выражениями вы
  должны заключать строки в двойные кавычки, например,


               "internet resource discovery"


  или


               "discov.*"


  Двойные кавычки также должны быть использованы при поиске по символам,
  не являющимся буквами алфавита или цифрами.


  55..33..11..  ППррииммееррыы ззааппррооссоовв


     ЗЗааппрроосс ддлляя ппррооссттооггоо ппооииссккаа ппоо ккллююччееввооммуу ссллооввуу::
        _A_r_i_z_o_n_a

        тот запрос вернет все объекты брокера, содержащие слово _A_r_i_z_o_n_a.


     ББууллееввссккиийй ззааппрроосс::
        _A_r_i_z_o_n_a _A_N_D _d_e_s_e_r_t

        Этот запрос веренеи все объекты содержащие оба слова где угодно
        в объекте в любом порядке.


     ЗЗааппрроосс сс ффррааззоойй::
        _"_A_r_i_z_o_n_a _d_e_s_e_r_t_"

        Этот запрос вернет все объекты брокера, которые содержат _A_r_i_z_o_n_a
        _d_e_s_e_r_t как фразу. Заметьте, что вокруг фразы нужно ставить
        двойные кавычки.

     ББууллееввссккииее ззааппррооссыы сс ффррааззааммии::
        _"_A_r_i_z_o_n_a _d_e_s_e_r_t_" _A_N_D _w_i_n_d_s_u_r_f_i_n_g

        Этот запрос вернет все объекты брокера, которые содержат _A_r_i_z_o_n_a
        _d_e_s_e_r_t как фразу и слово _w_i_n_d_s_u_r_f_i_n_g.


     ППррооссттоойй ссттррууккттуурриирроовваанннныыйй ззааппрроосс::
        _T_i_t_l_e _: _w_i_n_d_s_u_r_f_i_n_g

        Этот запрос вернет все объекты брокера, в которых атрибут _T_i_t_l_e
        содержит значение _w_i_n_d_s_u_r_f_i_n_g.


     ССллоожжнныыйй ззааппрроосс::
        _"_A_r_i_z_o_n_a _d_e_s_e_r_t_" _A_N_D _(_T_i_t_l_e _: _w_i_n_d_s_u_r_f_i_n_g_)

        Этот запрос вернет все объекты брокера, которые содержат фразу
        _A_r_i_z_o_n_a _d_e_s_e_r_t и в которых атрибут _T_i_t_l_e содержит значение
        _w_i_n_d_s_u_r_f_i_n_g.


  55..33..22..  РРееггуулляяррнныыее ввыырраажжеенниияя

  Glimpse поддерживает некоторые типы регулярных выражений. Поиск по
  регулярным выражениям может быть намного медленне других типов поиска.
  Далее следует частичный список возмошных шаблонов. (За деталями
  обратитесь к документации Glimpse.)


  Ї  _^_j_o_e соответствует ``joe'' в начале строки.

  Ї  _j_o_e_$ соответствует ``joe'' в конце строки.

  Ї  _[_a_-_h_o_-_z_] соответствует любому символу между ``a'' и ``h'' или между
     ``o'' и ``z''.

  Ї  _. соответствует одному произвольному символу кроме символа новой
     строки.

  Ї  _c_* соответствует произвольному числу символов ``c'' или ни ондного
     такого символа.

  Ї  _._* соотвествует произвольному числу любых символов кроме новой
     строки.

  Ї  _\_* соответствует символу ``*''. (_\ позволяет передать любой из
     вышеуказанных спецсимволов.)

  Регулярные выражения на данный момент ограничены по длине до
  приблизительно 30 символов, не включая метасимволы. Регулярные
  выражения обычно не будут переступать за границы слов (так как в
  индексе хранятся только слова). Так, например, _`_`_l_i_n_._*_i_n_g_'_' найдет
  ``linking'' или ``flinching'', но не ``linear programming''.


  55..33..33..  ООппццииии ззааппррооссоовв,, ввыыббииррааееммыыее вв ммееннюю ииллии ккннооппккааммии

  Страница запросов может иметь следующие меню (типа checkbox), чтобы
  позволить контролировать спецификацию запроса.


     ББеезз ууччееттаа ррееггииссттрраа::
        При выборе этого меню запрос станет нечувствительным к регистру
        (заглавные и строчные буквы не различаются). В противном случае
        запрос будет чувствительным к регистру. По умолчанию - без учета
        регистра.


     ССооппооссттааввллееннииее ккллююччееввыыхх ссллоовв ппоо ггррааннииццаамм ссллоовв::
        При выборе этого меню ключевые слова будут сопоставляться по
        границам слов.  В противном случае ключевое слово будет
        сопоставляться части слова (или фразы). Например, ``network''
        сопоставится с ``networking'', ``sensitive'' сопоставится с
        ``insensitive'', и ``Arizona desert'' сопоставится с ``Arizona
        desertness''. По умолчанию -- сопоставление по границам слов.


     ЧЧииссллоо ддооппууссттииммыыхх оошшииббоокк::
        Glimpse позволяет запросу содержать некоторое число ошибок.
        Ошибка -- это или удаление, вставка или замещение одного
        символа. Опция лучшее сопоставление (Best Match) найдет
        сопоставление (-ия) с наименьшим числом ошибок. По умолчанию --
        0 (ноль) ошибок.

  _П_р_и_м_е_ч_а_н_и_е_: Предыдущие три опции не применяются к именам атрибутов.
  Имена атрибутов всегда чувствительны к регистру и не допускают ошибок.


  55..33..44..  ФФииллььттррооввааннииее ррееззууллььттааттоовв ззааппррооссаа

  Harvest позволяет фильтровать результаты запроса по любому из частей
  запроса, используя атрибуты, определенные в разделе ``Список общих
  имен атрибутов SOIF''.  Это делается определением параметров ffiilltteerr в
  форме запросов. Можно определить больше, чем один параметр фильтра;
  они будут конкатенированы булевым ИИ. Параметры фильтра состоят из двух
  частей, разделенных вертикальной чертой ``|''. Первая часть - это
  выражение запроса, которое прикрепляется к запросу пользователя,
  используя AANNDD перед отправлением запроса брокеру. Опциональная вторая
  часть -- это текст HTML, который будет показываться на странице
  результатов для того, чтобы дать пользователю некоторую информацию по
  примененному фильтру.

  Пример:


              <SELECT NAME="filter">
              <OPTION VALUE=''>Нет фильтра
              <OPTION VALUE='uri: "xyz\.edu"|Seach only xyz.edu'>Искать только xyz.edu
              <OPTION VALUE='type: html|HTML documents only'>Искать только документы HTML
              </SELECT>


  Первая опция везвращает неотфильтрованный результат. Вторая опция
  возвращает только страницы с ``xyz.edu'' в их URL'ах. Третья опция
  возвращает только документы HTML. Обратитесь на страницу расширенного
  поиска брокера за другими примерами.


  55..33..55..  ППррееддссттааввллееннииее ррееззууллььттааттоовв

  Страница может иметь следующие чекбоксы, которые позволяют
  контролироватьf представление результатов запроса.


     ППооккааззааттьь ссооввппааввшшииее ссттррооккии ((иизз ррееззююммее ссооддеерржжииммооггоо))::
        При выборе этого меню, результат будет содержать строки из
        резюме содержимого, которые удовлетворили запросу. В противном
        случае, совпавшие строки не будут показаны. По умолчанию --
        показывать совпавшие строки.


     ППооккааззыыввааттьь ооппииссаанниияя ооббъъееккттоовв ((еессллии ддооссттууппнноо))::
        Некоторые бъекты имеют короткие, в одну строчку, описания. При
        выборе этого меню будут показываться описания. В противном
        случае описания объектов не будут показываться. По умолчанию --
        показывать описания.


     ППооккааззыыввааттьь ссссыыллккии кк ппррооииннддееккссииррооввааннннооммуу ррееззююммее ссооддеерржжииммооггоо::
        Это меню позволяет вам выбрать, показывать ли ссылки на
        проиндексированные резюме объектов. По умолчанию -- не
        показывать.


  55..44..  ННаассттррооййккаа ввыыддааввааееммооггоо ррееззууллььттааттаа ннаа ззааппрроосс BBrrookkeerr''уу

  Администратору Harvest'а можно настроить, как будет генерироваться
  результат запроса брокеру. Это можно сделать, модифицируя
  конфигурационный файл, который читается программой Perl search.cgi во
  время выполнения запроса.

  search.cgi позволяет настроить почти любой аспект его HTML-выхода.
  Файл _$_H_A_R_V_E_S_T___H_O_M_E_/_c_g_i_-_b_i_n_/_l_i_b_/_s_e_a_r_c_h_._c_f содержит определения выхода
  по умолчанию. Отдельные брокеры могуть быть настроены путем создания
  похожего файла, который заменит определения по умолчанию.


  55..44..11..  ККооннффииггууррааццииоонннныыйй ффааййлл sseeaarrcchh..ccff

  Определения заключаются в начальные и конечные тэги типа SGML.
  Например:


               <HarvestUrl>
               http://harvest.sourceforge.net/
               </HarvestUrl>


  Последний символ новой строки удаляется из каждого определения, так
  что вышеуказанная строка станет ``http://harvest.sourceforge.net/''.

  Подстановка переменной происходит для каждого определения перед
  выводом.  Некоторые особые переменные определены в search.cgi, которые
  могут использоваться внутри определения. Например:


               <BrokerLoad>
               Sorry, the Broker at <STRONG>$host, port $port</STRONG>
               is currently too heavily loaded to process your request.
               Please try again later.<P>
               </BrokerLoad>


  Когда определения будут печататься, переменные _$_h_o_s_t и _$_p_o_r_t будут
  заменены на имя хоста и порт брокера.


  55..44..11..11..  ООппррееддееллеенннныыее ппееррееммеенннныыее

  Следующие переменные определяются как только начинает обрабатываться
  строка запроса.  Они могут быть использованы перед тем, как брокер
  вернет какой-либо результат.


               $maxresult    максимальное возвращаемое число совпавших строк
               $host         имя хоста брокера
               $port         порт брокера
               $query        строка запроса, введенная пользователем
               $bquery       полная строка запроса, посланная брокеру


  Эти переменные определены для каждого объекта, удовлетворяющего
  запросу (подходящего), выдаваемого брокером.


               $objectnum   число возращаемых объектов
               $desc        атрибут описания подходящих объектов
               $opaque      ВСЕ совпавшие строки из подходящих объектов
               $url         Первоначальный URL of the matched object
               $A           метод доступа к $url (например, http)
               $H           имя хоста (включая порт) из $url
               $P           часть $url, содержащая путь
               $D           часть $P с именем каталога
               $F           часть $P с именем файла
               $cs_url      URL резюме содержимого в базе данных брокера
               $cs_a        часть $cs_url с методом доступа
               $cs_h        часть $cs_url с именем хоста
               $cs_p        часть $cs_url, содержащая путь
               $cs_d        часть $cs_p с именем каталога
               $cs_f        часть $cs_p с именем файла


  55..44..11..22..  ССппииссоокк ооппррееддееллеенниийй

  Ниже приведен частичный список определений. Полный список можн найти в
  файле search.cf. Здесь описаны только определения, которые, возможно,
  вам захочется изменить.


     <<TTiimmeeoouutt>>
        Значение времени ожидания для search.cgi. Если брокер не
        отвечает в течение этого времени, search.cgi выходит.


     <<RReessuullttHHeeaaddeerr>>
        Первая часть страницы результатов. Должно вероятно содержать
        элемент HTML <<TTIITTLLEE>> и строку запроса пользователя.


     <<RReessuullttTTrraaiilleerr>>
        Последняя часть страницы результатов. По умолчанию имеет ссылки
        URL к домашней странице брокера и домашней странице проекта
        Harvest.


     <<RReessuullttSSeettBBeeggiinn>>
        Это вывод прямо перед циклом по всем подходящим объектам.


     <<RReessuullttSSeettEEnndd>>
        Это вывод сразу после завершения цикла по объектам.


     <<PPrriinnttOObbjjeecctt>>
        Это определение печатает подошедший объект. Оно, возможно,
        должно включать переменные _$_u_r_l_, _$_c_s___u_r_l_, _$_d_e_s_c и _$_o_p_a_q_u_e.


     <<EEnnddBBrrookkeerrRReessuullttss>>
        Печатается между <<RReessuullttSSeettEEnndd>> и <<RReessuullttTTrraaiilleerr>>, если запрос
        был успешным. Вероятно, должно включать число найденных объектов
        и/или совпавших строк.


     <<FFaaiillBBrrookkeerrRReessuullttss>>
        Похоже на <<EEnnddBBrrookkeerrRReessuullttss>>, но печатается, если вернул ошибку
        в ответ на запрос.


     <<OObbjjeeccttNNuummPPrriinnttff>>
        Формат printf строки для объекта под номером (_$_o_b_j_e_c_t_n_u_m).


     <<TTrruunnccaatteeWWaarrnniinngg>>
        Печатает предупреждающее сообщение, если результат был усечен до
        максимального числа совпавших строк.

  Следующие определения немного отличаются, так как они определяются как
  инструкции Perl, а не строки.


     <<MMaattcchheeddLLiinneeSSuubb>>
        Определяется для каждой совпавшей строки, возвращаемой брокером.
        Может быть использовано для разделения совпавших строк или,
        чтобы удалить главную ``совпавшую строку'' и строки с именами
        атрибутов.


     <<IInniittFFuunnccttiioonn>>
        Определяется вначале программы search.cgi. Может быть
        использовано для установки специальных переменных или чтения
        файлов данных.


     <<PPeerrOObbjjeeccttFFuunnccttiioonn>>
        Определяется для каждого объекта прямо перед вызовом
        <<PPrriinnttOObbjjeecctt>>.


     <<FFoorrmmaattAAttttrriibbuuttee>>
        Определяется для каждого атрибута SOIF, запрошенного для
        подходящего объекта (см.  раздел ``Выдача атрибутов SOIF в
        результатах'' _$_a_t_t установлено для имени атрибута, а _$_v_a_l
        установлено для значения атрибута.


  55..44..22..  ППррииммеерр ффааййллаа ннаассттррооеекк sseeaarrcchh..ccff

  Следующие определения демонстрируют, как менять вывод search.cgi.
  <<PPeerrOObbjjeeccttFFuunnccttiioonn>>, что определение не пусто. Оно также
  присоединяется спереди к строке ``matched data:'' перед любой
  совпавшей строкой. Определение <<PPrriinnttOObbjjeecctt>> печатает номер объекта,
  описание и индексные данные, все в первой строчке.  Описание
  располагается вокруг тэгов привязки HMTL (anchor tags), так что оно
  становится ссылкой на первоначально созданный объект. Слова ``indexing
  data'' - ссылка на программу displaySOIF, которая отфрматирует резюме
  содержимого для броузеров HTML.  Номер объекта отформатирован как
  число в скобках, такое что все вместе занимает до четырех символов.

  Определение <<MMaattcchheeddLLiinneeSSuubb>> включает четыре замещающих выражения.
  Первое удаляет слова ``Matched line'': в начале каждой совпавшей
  строчки. Второе удаляет атрибуты SOIF вида ``_p_a_r_t_i_a_l_-_t_e_x_t_{_4_3_}_:''
  вначале каждой строки. Третье показывает имена атрибутов (например,
  _p_a_r_t_i_a_l_-_t_e_x_t_#) курсивом. Последнее выражение разделяет каждую строку
  пятью пробелами и располагает ее вместе со строкой описания.
  Опрделение <<EEnnddBBrrookkeerrRReessuullttss>> слегка модифицирует отчет о том, сколько
  объектов было найдено.


          # Пример показывает некоторые особенности настройки вывода Harvest'а
          # Больше информации можно найти на:
          # http://harvest.sourceforge.net/harvest/doc/html/manual.html


          # PerObjectFunction - это код Perl определенный для каждого совпадения
          <PerObjectFunction>
          # Создаем описание
          # Являются ли описания, предоставленные Harvest'ом очень короткими (например, пропущен <TITLE>)?
          if (length($desc) < 5) {
            # Да: использовать вместо него имя файла ($F)
            $description = "<I>File:</I> $F";
          } else {
            # Нет: использовать описание Harvest'а
            $description = $desc;
          }

          # Форматируем совпавшие строки ("мутные данные") если данные есть
          if ($opaque ne '') {
            $opaque = "<strong>matched lines:</strong><BR>$opaque"
          }
          </PerObjectFunction>


          # PrintObject определяет появление совпадений
          <PrintObject>
          $objectnum <A HREF="$url"><STRONG>$description</STRONG></A> \
          [<A HREF="$cs_a://$cs_h/Harvest/cgi-bin/displaySOIF.cgi?object=$cs_p">\
          indexing data</A>]
          <pre>
               $opaque
          </pre>\n
          </PrintObject>


          # Форматируем появление числа совпадений
          <ObjectNumPrintf>
          (%2d)
          </ObjectNumPrintf>


          # Форматируем появление каждой совпавшей строки
          <MatchedLineSub>
          s/^Matched line: *//;            # Remove "Matched line:"
          s/^([\w-]+# )[\w-]+{\d+}:\t/\1/; # Remove SOIF attributes of the form "partial-text{43}:"
          s/^([\w-]+#)/<I>\1<\/I>/;        # Format attribute names as italics
          s/^.*/     $&/;                  # Add spaces to indent text
          </MatchedLineSub>


          # Модифицируем отчет о том, сколько объектов было найдено
          <EndBrokerResults>
          <STRONG>Found $nopaquelines matched lines, $nobjects objects.</STRONG>
          <P>\n
          </EndBrokerResults>


  55..44..33..  ИИннттееггррииррооввааннииее вваашшиихх ннаассттррооеенннныыхх ккооннффииггууррааццииоонннныыхх ффааййллоовв

  Конфигурационные файлы search.cgi хранятся в _$_H_A_R_V_E_S_T___H_O_M_E_/_c_g_i_-
  _b_i_n_/_l_i_b. Имя настроенного файла занесено в список формы _q_u_e_r_y_._h_t_m_l и
  передано как опция программе search.cgi.

  Самый простой способ определить настроенный файл -поместить тэг
  <<IINNPPUUTT>> в форму  HTML:


               <INPUT TYPE="hidden" NAME="brokerqueryconfig" VALUE="custom.cf">


  Другой способ - позволить пользователям выбирать различные настройки
  при помощи списка <<SSEELLEECCTT>>:


               <SELECT NAME="brokerqueryconfig">
               <OPTION VALUE=""> Default
               <OPTION VALUE="custom1.cf"> Customized
               <OPTION VALUE="custom2.cf" SELECTED> Highly Customized
               </SELECT>


  55..44..44..  ВВыыддааччаа ааттррииббууттоовв SSOOIIFF вв ррееззууллььттааттаахх

  Можно запросить атрибуты SOIF из формы запросов HTML. Простое
  приближение - включить список select в форму запросов:


               <SELECT MULTIPLE NAME="attribute">
               <OPTION VALUE="title">
               <OPTION VALUE="author">
               <OPTION VALUE="date">
               <OPTION VALUE="subject">
               </SELECT>


  Таким образом пользователь может контролировать, какие атрибуты
  показывать.  Расположение этих атрибутов при выводе результатов в HTML
  контролируется инструкцией <<FFoorrmmaattAAttttrriibbuuttee>> в файле _s_e_a_r_c_h_._c_f,
  оисанном в разделе ``Конфигурационный файл search.cf''.


  55..55..  ООппииссааннииее ииннттееррффееййссаа WWoorrlldd WWiiddee WWeebb

  Чтобы позволить броузерам легко взаимодействовать с брокером, мы
  реализовали WWW интерфейсы: административный и менеджер запросов
  брокеру.  Эти WWW интерфейсы, которые включают несколько файлов HTML и
  несколько программ, использующих Common Gateway Interface (CGI),
  состоят из:


  Ї  файлов HTML, использующих формы для предоставления пользователю
     графического пользовательского интерфейса -- graphical user
     interface (GUI);

  Ї  CGI программы, которые действуют как шлюз между пользователем и
     брокером;

  Ї  файлы помощи для пользователя.

  Пользователи проходят через следующие шаги при использовании брокера
  для обнаружения информации:


  1. Пользователь отправляет запрос брокеру.

  2. Брокер обрабатывает запрос и возвращает результаты запроса
     пользователю.

  3. Затем пользователь может посмотреть резюме содержимого из набора
     результатов, или прямо пойти по указанному URL в наборе
     результатов.

  Чтобы предоставить WWW-интерфейс, брокер должен быт запущен вместе с
  сервером HTTPr. Раздел ``Дополнительная установка для Harvest Broker''
  описывает, как как конфигурировать ваш HTTP сервер для работы с
  Harvest.

  Вы можете запустить брокер не на той машине, на которой запущен сервер
  HTTP, но если вы хотите, чтобы пользователи могли видеть резюме
  содержимого брокера, тогда файлы брокера должны быть доступны вашему
  серверу HTTP. Вы можете подмонтировать по NFS те файлы или вручную
  скопировать их. Вам также понадобится изменить файл _B_r_o_k_e_r_s_._c_f и
  указать на хост, где запущен брокер.


  55..55..11..  ФФааййллыы HHTTMMLL ддлляя ггррааффииччеессккооггоо ппооллььззооввааттееллььссккооггоо ииннттееррффееййссаа

  CreateBroker создает несколько файлов HTML и предоставляет GUI
  пользователю:


     _q_u_e_r_y_._h_t_m_l
        Содержит GUI для интерфейса запросов. CreateBroker установит
        разные файлы _q_u_e_r_y_._h_t_m_l для Glimpse, Swish и WAIS, так как
        каждая подсистема требует различных установок по умолчанию и
        поддерживает разную функциональность (например, WAIS не
        поддерживает приблизительный поиск, в отличие от Glimpse).  Это
        также ``домашняя страница'' для брокера и ссылка на нее включена
        внизу во всех страницах результатов запросов.


     _a_d_m_i_n_._h_t_m_l
        Содержит GUI для административного интерфейса. Это файл
        устанавливается в каталог _a_d_m_i_n брокера.


     _B_r_o_k_e_r_s_._c_f
        Содержит информацию об именах хостов и портах поддерживаемых
        брокеров. Этот файл устанавливается в каталог
        _$_H_A_R_V_E_S_T___H_O_M_E_/_b_r_o_k_e_r_s. Файл _q_u_e_r_y_._h_t_m_l использует значение тэга
        FORM ``broker'', чтобы передать имя брокера search.cgi, который
        в свою очередь получает имя хоста и порт из _B_r_o_k_e_r_s_._c_f.


  55..55..22..  ППррооггррааммммыы CCGGII

  Когда вы устанавливаете WWW интерфейс (см. раздел ``The Broker''),
  несколько программ устанавливаются в каталог _/_H_a_r_v_e_s_t_/_c_g_i_-_b_i_n вашего
  сервера HTTP:


     search.cgi
        Эта программа берет отправленный запрос из _q_u_e_r_y_._h_t_m_l и посылает
        его указанному брокеру. Затем она получает результаты запроса от
        брокера, форматирует его в HTML и отправляет пользователю.
     displaySOIF.cgi
        Эта программа показывает резюме содержимого объектов брокера.


     BrokerAdmin.pl.cgi
        Эта программа принимает административную команду из _a_d_m_i_n_._h_t_m_l и
        отправляет ее соответствующему брокеру. Она получает результат
        от брокера и выдает его пользователю.


  55..55..33..  ФФааййллыы ппооммоощщии ппооллььззооввааттееллюю

  WWW интерфейс брокера включает несколько файлов помощи, написанных на
  HTML.  Эти файлы устанавливаются на ваш сервер HTTP в каталог
  _/_H_a_r_v_e_s_t_/_b_r_o_k_e_r_s, когда вы устанавливаете брокер (см. раздел
  ``Broker''):


     _q_u_e_r_y_h_e_l_p_._h_t_m_l
        Предоставляет учебное пособие по построению запросов брокеру и
        использованию форм _q_u_e_r_y_._h_t_m_l. _q_u_e_r_y_._h_t_m_l имеет ссылку на эту
        страницу.


     _a_d_m_i_n_h_e_l_p_._h_t_m_l
        Предоставляет учебное пособие по отправдению брокеру
        административных команд, используя форму _a_d_m_i_n_._h_t_m_l. _a_d_m_i_n_._h_t_m_l
        имеет ссылку на эту страницу.


     _s_o_i_f_h_e_l_p_._h_t_m_l
        Предоставляет краткое описание SOIF.


  55..66..  ААддммииннииссттррииррооввааннииее BBrrookkeerr''аа

  У администраторов есть два основных способа управления брокером: через
  конфигурационные файлы _b_r_o_k_e_r_._c_o_n_f и _C_o_l_l_e_c_t_i_o_n_._c_o_n_f, и через
  интерактивный административный интерфейс. Интерактивный интерфейс
  контролирует разные средства и действующие параметры в брокере. Мы
  предоставляем HTML интерфейс для этих административных команд.
  Обратитесь в раздел ``Описание интерфейса коллектора:
  Collection.conf'' за дополнительной информацией о интерфейсе
  коллектора и административном интерфейсе брокера.

  Файл _b_r_o_k_e_r_._c_o_n_f - это список имен переменных и их значений, который
  состоит из информации о брокере (такой как каталог, где он находится)
  и порт, на котором он запущен. Файл _C_o_l_l_e_c_t_i_o_n_._c_o_n_f (обратитесь в
  раздел ``Описание интерфейса коллектора: Collection.conf'' за
  примером) - это список точек коллекционирования, откуда брокер будет
  собирать свою индексную информацию.  Программа CreateBroker
  автоматически генерирует оба эти конфигурационные файла. Вы можете
  вручную отредактировать их в случае необходимости.

  Программа CreateBroker также создает файл _a_d_m_i_n_._h_t_m_l, который является
  административным интерфейсом для команд брокеру. Заметьте, что все
  административные команды требуют пароль, определенный в _b_r_o_k_e_r_._c_o_n_f.

  _З_а_м_е_ч_а_н_и_е_: Изменения конфигурации брокера не сохраняются при
  перезапуске брокера. Постоянные изменения конфигурации брокера должны
  быть сделаны вручную редактированием файла _b_r_o_k_e_r_._c_o_n_f.

  Административный интерфейс, созданный CreateBroker, имеет следующие
  поля:


       Command         Выбрать административную команду.  Ниже приведено описание
                       команд.
       Parameters      Указать параметры для тех команд, для которых это необходимо.
       Password        Административный пароль.
       Broker Host     Хост, на котором запущен брокер.
       Broker Port     Порт, который прослушивает брокер.


  Административный интерфейс, созданный CreateBroker, поддерживает
  следующие команды:


     AAdddd oobbjjeeccttss bbyy ffiillee::
        Добавить объект(ы) брокеру. Параметр -- список файлов,
        содержащих объекты SOIF, которые нужно добавить.


     CClloossee lloogg::
        Записать всю накопленную лог-информацию и закрыть текущий
        лог-файл.  Заставляет брокер прекратить вести логи. Параметров
        нет.


     CCoommpprreessss RReeggiissttrryy::
        Предоставляет сбор мусора в файле реестра. Параметров нет.


     DDeelleettee eexxppiirreedd oobbjjeeccttss::
        Удалить все объекты из брокера, у которых истекло время жизни
        _T_i_m_e_-_t_o_-_L_i_v_e.  Параметров нет.


     DDeelleettee oobbjjeeccttss bbyy qquueerryy::
        Удаляет все объекты, которые удовлетворяют данному запросу.
        Параметр -- запрос с таким же синтаксисом, как и
        пользовательский запрос. Флаги запросов на данный момент не
        поддерживаются.


     DDeelleettee oobbjjeeccttss bbyy ooiidd::
        Удалить объекты(ы), указанные данными числами OID. Параметр --
        список чисел OID. Числа OID могут быть получены, используя
        команду dumpregistry.


     DDiissaabbllee lloogg ttyyppee::
        Отменяет ведение лог-информации о данном типе событий.  Параметр
        -- тип события. Чтобы посмотреть список событий, см. ``Включить
        логи по типу''.


     EEnnaabbllee lloogg ttyyppee::
        Включает ведение лог-информации о данном типе событий.  Параметр
        -- имя типа события. Сейчас типы событий ограничены следующим
        набором:


     Update                  Вести логи по обновленным объектам.
     Delete                  Вести логи по удаленным объектам.
     Refresh                 Вести логи по восстановленным объектам.
     Query                   Вести логи по запросам пользователей.
     Query-Return            Вести логи по объектам, возвращенным на запрос.
     Cleaned                 Вести логи по объектам, удаленным уборщиком (cleaner).
     Collection              Вести логи о коллекционировании.
     Admin                   Вести логи об административных событиях.
     Admin-Return            Вести логи о результатах административных событий.
     Bulk-Transfer           Вести логи о событиях с с болшой передачей данных.
     Bulk-Return             Вести логи об объектах, отправленных при большой передаче.
     Cleaner-On              Вести логи о событиях очистки.
     Compressing-Registry    Вести логи о сжатии реестра.
     All                     Вести логи о всех событиях.


     FFlluusshh lloogg::
        Записать всю накопленную лог-информацию в текущий лог-файл.
        Параметров нет.


     GGeenneerraattee ssttaattiissttiiccss::
        Генерирует основную статистику об объектах брокера в базе
        данных.  Параметров нет.


     IInnddeexx cchhaannggeess::
        Индексировать только объекты, которые были добавлены недавно.
        Параметров нет.


     IInnddeexx ccoorrppuuss::
        Индексировать _в_с_ю базу данных объектов. Параметров нет.


     OOppeenn lloogg::
        Открывает новый лог-файл. Если файл не существует, создает
        новый.  Параметр - имя (относительно брокера) файла для логов.


     RReessttaarrtt sseerrvveerr::
        Заставляет брокер прочитать заново реестр и переиндексировать
        все. Процесс брокера на самом деле не убивается. Параметров нет.


     RRoottaattee lloogg ffiillee::
        Заменяет текущий лог-файл на LOG.YYYYMMDD. Открывает новый
        лог-файл. Параметров нет.


     SSeett vvaarriiaabbllee::
        Устанавливает значение переменной конфигурации брокера.
        Принимаеи два параметра, имя переменной и ее новое значение.
        Переменные конфигурации, которые можно установить -- те, которые
        встречаются в файле _b_r_o_k_e_r_._c_o_n_f. Изменение действительно до тех
        пор, пока процесс брокера не умрет.


     SShhuuttddoowwnn sseerrvveerr::
        Очевидно останавливает сервер. Параметров нет.


     SSttaarrtt ccoolllleeccttiioonn::
        Начинает сбор. Параметров нет.


     DDeelleettee oollddeerr oobbjjeeccttss ooff dduupplliiccaattee UURRLLss::
        Иногда брокер может прекратить работать с продублированными
        резюме для некоторых URL. Это может случиться, когда Gatherer
        меняет свое описание, имя хоста или номер порта. Используйте эту
        команду, чтобы брокер нашел повторяющиеся URL'ы. Когда находятся
        два объекта с одинаковыми URL'ами, объект с наибольшей временной
        меткой удаляется.


  55..66..11..  УУддааллееннииее ннеежжееллааттееллььнныыхх ооббъъееккттоовв ббррооккеерраа

  Если вы построите брокер, а потом решите не индексировать некоторые
  данные (например, если вы решите разделить данные для индексирования
  двумя разными брокерами), вам нужно изменить конфигурационный файл
  Gatherer'а, перезапустить Gatherer, а потом позволить старым объектам
  устареть в брокере (так как брокер и Gatherer содержат отдельные базы
  данных). Если вы хотите вычистить данные брокера быстрее, вы можете
  использовать административный интерфейс брокера одним из трех
  способов:


  1. Использовать команду 'удалить объекты по имени'. Это разумно
     только, если у вас небольшое число объектов, которые надо удалить.

  2. Использовать 'удалить объекты по запросу'. Это может оказаться
     лучшей опцией, если, например, вы можете построить регулярное
     выражение для тех URL'ов, которые вы хотите удалить.

  3. Остановить сервер, вручную удалить файлы брокера _o_b_j_e_c_t_s_/_*, а потом
     перезапустить брокер. Это самы простой способ, хотя если у вас
     большое число объектов, то для перестроения индекса потребуется
     много времени. Простой способ выполнить это -- перезапустить
     брокер, удалить все текущие объекты и сделать полную коллекцию:


               % mv objects objects.old
               % rm -rf objects.old &
               % broker ./admin/broker.conf -new


  После удаления объектов, вам следует использовать команду
  _и_н_д_е_к_с_и_р_о_в_а_т_ь _в_с_е.


  55..66..22..  ААддммииннииссттррииррооввааннииее иизз ккооммаанндднноойй ссттррооккии

  Можно предоставить административные функции, используя программу
  brkclient из командной строки и скриптов оболочки.  Например, чтобы
  выполнить собирание (collection), запустите:


               % brkclient localhost 8501 '#ADMIN #Password secret #collection'


  Посмотрите файл _a_d_m_i_n_._h_t_m_l вашего брокера, если хотите увидеть полный
  список административных команд.


  55..77..  ННаассттррооййккаа ииннддееккссиирроовваанниияя GGlliimmppssee вв BBrrookkeerr''ее

  Система индексирования Glimpse может быть настроена различными
  способами, чтобы удовлетворить вашим конкретным нуждам. Наверное,
  больше всего внимания заслуживает параметр ``степень детализации
  индексирования'' (indexing granularity), для которго Glimpse
  предоставляет три опции: крохотный индекс (2-3% всего размера всех
  файлов), маленький индекс (7-8%) и средний индекс (20-30%). Времена
  поиска лучше с большими индексами.  Изменяя опцию GGlliimmppsseeIInnddeexx--OOppttiioonn
  в файле _b_r_o_k_e_r_._c_o_n_f вашего брокера, вы можете настроить Glimpse для
  использования одной из трех опций детализации индекса. По умолчанию,
  GGlliimmppsseeIInnddeexx--OOppttiioonn строит средний индекс, используя программу
  glimpseindex.

  Заметьте также, что при помощи Glimpse поиск осуществляется быстрее,
  если выключить ``показывать совпавшие строки'' на странице запросов
  брокеру.

  Glimpse использует ``stop-list'', чтобы избежать индексирование очень
  распространенных слов.  Этот список не фиксирован, он получается при
  построении индекса. По умолчанию для среднего индекса каждое слово,
  которое встречается по крайней мере 500 раз в 1 Mb (в среднем),
  помещается в stop-list. Для маленького индекса по умолчанию в stop-
  list помещаются слова, которые появляются в 80% всех файлов (если
  файло не меньше 256, иначе stop-list не создается). Установки по
  умолчанию можно изменить, используя опцию --SS, за которой должно стоять
  новое чисол (среднее в 1 Mb при использовании индексирования --bb, или %
  от файлов при использовании индексирования --oo).  Крошечные индексы не
  содержат stop-list'ов (их влияние минимально).

  glimpseindex включает несколько других опций, которые могут быть
  интересными. Вы можете больше узнать об этих опциях (и о Glimpse в
  общем) в документации Glimpse.  Если вы захотите изменить то, как
  брокер вызывает программу glimpseindex, то отредактируйте файл
  _s_r_c_/_b_r_o_k_e_r_/_G_l_i_m_p_s_e_/_i_n_d_e_x_._c в исходниках дистрибутива Harvest'а.


  55..77..11..  ППррооггррааммммаа gglliimmppsseesseerrvveerr

  Система Glimpse поставляется со вспомогательным сервером, называемым
  glimpseserver, который позволяет считывать индексы в процесс и хранить
  в памяти. Это помогает избежать добавочной стоимости чтения индекса и
  запуска больших процессов для каждого поиска. glimpseserver
  автоматически запускается каждый раз, когда вы запускаете брокер, или
  заново все индексируете. Если вы не хотите запускать glimpseserver,
  тогда установите GGlliimmppsseeSSeerrvveerr--HHoosstt в ``false'' в вашем _b_r_o_k_e_r_._c_o_n_f.


  55..88..  ИИссппооллььззооввааннииее ррааззллииччнныыхх ииннддееккссииррууюющщиихх//ппооииссккооввыыхх ссииссттеемм ввммеессттее сс
  BBrrookkeerr''оомм

  По умолчанию Harvest использует подсистему индекса/поиска Glimpse.
  Однако Harvest определяет гибкий интерфейс индексирования, что
  позволяет администраторам брокера использовать разные
  индексирующие/поисковые подсистемы и удовлетворять требованиям,
  особенным для данного домена.  Например, может оказаться полезным
  снабдить реляционную базу данных сервером.

  На данный момент мы распространяем код с поддержкой интерфейса как
  свободного, так и коммерческого движков WAIS, Glimpse и Swish.


  Ниже мы обсуждаем, как использовать другие движки индекса/поиска
  вместо Glimpse в брокере, и коротко обсуждаем, как объединить новый
  движок индекса/поиска с брокером.


  55..88..11..  ИИссппооллььззооввааннииее SSwwiisshh вв ккааччеессттввее ииннддееккссеерраа

  Harvest включает поддержку для испльзования Swish, как индексирующего
  движка, с брокером.  Swish -- это хорошая альтернатива Glimpse, если
  вас нужна поддержка более быстрого поиска, и вы не желаете
  использовать более мощные свойства запросов. Также это иногда
  альтернатива, если есть проблемы со статусом прав использования
  Glimpse.

  Чтобы использовать Swish с существующим брокером, вам нужно изменить
  переменную _I_n_d_e_x_e_r_-_T_y_p_e в _b_r_o_k_e_r_._c_o_n_f на ``Swish''.

  Вы также можете указать, что вы хотите использовать Swish для брокера,
  когда используете команду RunHarvest, запустив: RunHarvest -swish.


  55..88..22..  ИИссппооллььззооввааннииее WWAAIISS вв ккааччеессттввее ииннддееккссеерраа

  Поддержка использования WAIS (как freeWAIS, так и WAIS Inc.) как
  подсистем брокера индексирования и поиска включена в дистрибутив
  Harvest.  WAIS -- это хорошая альтернатива Glimpse, если вас нужна
  поддержка более быстрого поиска, и вы не желаете использовать более
  мощные свойства запросов.

  Чтобы использовать WAIS с существующим брокером, вам нужно изменить
  переменную _I_n_d_e_x_e_r_-_T_y_p_e в _b_r_o_k_e_r_._c_o_n_f на ``WAIS''; вы можете выбрать
  вариант WAIS, установив переменную _W_A_I_S_-_F_l_a_v_o_r в _b_r_o_k_e_r_._c_o_n_f на
  ``Commercial-WAIS'', ``freeWAIS'' или ``WAIS''.  Иначе CreateBroker
  спросит вас, хотите ли вы использовать WAIS и где находятся программы
  WAIS (waisindex, waissearch, waisserver и, в коммерческой версии WAIS,
  waisparse). Когда вы запустите брокер, после построения индекса
  автоматически запустится сервер WAIS.

  Вы также можете указать, что хотите использовать WAIS для брокера,
  когда используете команду RunHarvest, запустив: RunHarvest -wais.


  55..99..  ООппииссааннииее ииннттееррффееййссаа ккооллллееккттоорраа:: CCoolllleeccttiioonn..ccoonnff

  Брокер получает индексную информацию от Gatherer'ов или других
  брокеров через свой интерфейс _C_o_l_l_e_c_t_o_r. Список точек
  коллекционирования указан в конфигурационном файле
  _a_d_m_i_n_/_C_o_l_l_e_c_t_i_o_n_._c_o_n_f. Этот файл содержит точки коллекционирования в
  каждой строке из 4 полей. Первое поле -- хост удаленного Gatherer'а
  или брокера, второе поле -- номер порта на этом хосте, третье поле --
  тип кооекции, а четвертое поле -- фильтр запросов или ----, если фильтра
  нет.

  Брокер поддерживает различные типы коллекций, которые приведены ниже:


    Тип   Удаленный процесс     Описание                      Сжатие?
    ---------------------------------------------------------------------
      0     Gatherer    Полное коллекционирование всякий раз  Нет
      1     Gatherer    Инкрементальное коллекционирование    Нет
      2     Gatherer    Полное коллекционирование всякий раз  Да
      3     Gatherer    Инкрементальное коллекционирование    Да
      4     Broker      Полное коллекционирование всякий раз  Нет
      5     Broker      Инкрементальное коллекционирование    Нет
      6     Broker      Коллекционированное на основе запроса Нет
      7     Broker      Инкрементальное на основе запроса     Нет


  Спецификация фильтра запроса для типов коллекций 6 и 7 содержит две
  части: ----QQUUEERRYY kkeeyywwoorrddss и опционально ----FFLLAAGGSS ffllaaggss.  Часть ----QQUUEERRYY
  передается брокеру как ключевые слова для хапроса (ключевые слова
  могут быть любым булевским и/или структурированным запросом); часть
  ----FFLLAAGGSS передается брокеру как флаги запросу, в зависимости от
  индексера.  Следующая таблица показывает действующие флаги для
  поддерживаемых индексеров:


       Индексер        Флаг                            Описание
       -----------------------------------------------------------------------------
       All:            #desc                           показать строки описания

       Glimpse:        #index case insensitive         без учета регистра
                       #index case sensitive           с учетом регистра
                       #index error number             допустимо число "number" ошибок
                       #index matchword                поиск по границам слов
                       #index maxresult number         максимальное число результатов "number"
                       #opaque                         показать совпавшие строки

       Wais:           #index maxresult number         максимальное число результатов "number"
                       #opaque                         показать оценки и ранжирования


  Ниже приведен пример _C_o_l_l_e_c_t_i_o_n_._c_o_n_f, который собирает информацию с 2
  Gatherer'ов (один -- сжатое инкрементальное коллекционирование, а
  другой -- несжатое полное) и с 3 брокеров (один -- инкрементальное на
  основе временной метки, а другие -- с использованием фильтров
  запросов):


               gatherer-host1.foo.com 8500 3 --
               gatherer-host2.foo.com 8500 0 --
               broker-host1.foo.com   8501 5 --
               broker-host2.foo.com   8501 6 --QUERY (URL : document) AND gnu
               broker-host3.foo.com   8501 7 --QUERY Harvest --FLAGS #index case sensitive


  55..1100..  УУссттррааннееннииее ннееппооллааддоокк


     ССииммппттоомм
        Брокер запущен, но всегда возвращает _e_m_p_t_y _q_u_e_r_y _r_e_s_u_l_t_s _(_п_у_с_т_о_й
        _р_е_з_у_л_ь_т_а_т _н_а _з_а_п_р_о_с_).

     РРеешшееннииее
        Посмотрите в файле broker.out в каталоге брокера на сообщения об
        ошибках. Если ваш брокер не проиндексировал данные, используйте
        административный интерфейс, чтобы заставить брокер построить
        индекс (см. раздел ``Администрирование брокера''.


     ССииммппттоомм
        Когда я отправляю запрос брокеру, я получаю "500 Server Error"
        (ошибка сервера 500).


     РРеешшееннииее
        В основном, ошибки ``500'' относятся к неверно работающим
        программам CGI или неверно сконфигурированному серверу httpd.
        Убедитесь, что userid пользователя, запустившего сервер HTTP
        имеет доступ к каталогу Harvest'а cgi-bin и файлам Perl в
        _$_H_A_R_V_E_S_T___H_O_M_E_/_l_i_b. Обратитесь в раздел ``Дополнительная
        установка для Harvest Broker'' за деталями.


     ССииммппттоомм
        Я вижу _п_р_о_д_у_б_л_и_р_о_в_а_н_н_ы_е _д_о_к_у_м_е_н_т_ы в моем брокере.


     РРеешшееннииее
        Брокер предоставляет устранение дубликатов на основе комбинации
        контрольных сумм MD5 и хоста, имени, версии Gatherer'а. Таким
        образм, вы можете убрать продублированные документы, если ваш
        брокер собирает с более чем одного Gatherer'а, каждый из которых
        собирает с одного набора URL. (Как отступление, причина этого
        замечания о устранении дубликатов связана с тем, что отдельный
        брокер может содержать несколько различных объектов SOIF для
        одного URL, но просуммированных различными способами.)

        Есть два решения проблемы:


        1. Запустите ваши Gatherer'ы на одном хосте.

        2. Удалите продублированные URL'ы в настроенной версии программы
           search.cgi, проделав построчное сравнение URL.


     ССииммппттоомм
        Брокер долго работает и не отвечает на запросы.


     РРеешшееннииее
        Некоторые запросы очень тяжелые, так как вовлекают много работы
        с вводом/выводом.  По этой причине мы модифицировали Broker, так
        что если запрос занимает больше чем 5 минут, процесс запроса
        убивается. Лучшее решение -- использовать менее тяжелые запросы,
        например, используя меньше распространенных ключевых слов.


     ССииммппттоомм
        Некоторые из _о_п_ц_и_й _з_а_п_р_о_с_о_в (такие как структурированные запросы
        или запросы с учетом регистра) _н_е _р_а_б_о_т_а_ю_т.


     РРеешшееннииее
        Обычно это означает, что вы используете движок индекса/поиска,
        который не поддерживает структурированных запросов. Если вы
        устанавливаете свой брокер (а не используете чей-то еще),
        обратитесь в раздел ``Использование различных
        индексирующих/поисковых систем вместе с Broker'ом'' за деталями
        о том, как переключиться на другие движки. Или может быть ваша
        программа search.cgi старой версии и должна быть обновлена.


     ССииммппттоомм
        Я получаю _s_y_n_t_a_x _e_r_r_o_r_s (ошибки синтаксиса), когда посылаю
        запрос.


     РРеешшееннииее
        Обычно это значит, что вы не испотзовали двойные кавычки, где
        необходимо. См. раздел ``Отправление запросов Broker'у''.


     ССииммппттоомм
        Когда я посылаю запрос, я получаю ответ _б_ы_с_т_р_е_е_, _ч_е_м_, _к_а_к _я
        _д_у_м_а_ю_, нужно потратить на обработку запроса, и ответ содержит
        _д_а_н_н_ы_е _с _м_у_с_о_р_о_м.


     РРеешшееннииее
        Вероятно, это указывает, что ваш httpd плохо сконфигурирован.
        Обычно не ставят 'ScriptAlias' перед 'Alias' в файле
        _c_o_n_f_/_h_t_t_p_d_._c_o_n_f, когда запускают Apache httpd. См. раздел
        ``Дополнительная установка для Harvest Broker''.


     ССииммппттоомм
        Когда я делаю _и_з_м_е_н_е_н_и_я в конфигурационном файле брокера при
        помощи _а_д_м_и_н_и_с_т_р_а_т_и_в_н_о_г_о _и_н_т_е_р_ф_е_й_с_а, они _т_е_р_я_ю_т_с_я после
        перезапуска брокера.  is restarted.


     РРеешшееннииее
        Административный интерфейс брокера не сохраняет изменений при
        перезапуске.  Постоянные изменения в конфигурации брокера
        следует делать в файле _b_r_o_k_e_r_._c_o_n_f.


     ССииммппттоомм
        Мой брокер _р_а_б_о_т_а_е_т _о_ч_е_н_ь _м_е_д_л_е_н_н_о.


     РРеешшееннииее
        Настройка производительности может быть сложна, но скорее всего
        проблема в том, что вы запускаете брокер на машине с
        недостаточным количеством RAM, и много записываете в своп, так
        как движок запросов выбрасывает страницы памяти, чтобы получить
        доступ к необходимому индексу и файлам с данными.  (В UNIX
        буферный кэш диска борется с программными страницами  и
        страницами даных за память.)

        Простой способ проверить -- запустить ``vmstat 5'' в одном окне,
        и после пары строк вывода, выполнить запрос из другого окна. Так
        напечатается строка с измерениями статуса виртуальной памяти
        вашей машины каждые 5 секунд. В частности, посмотрите на колонки
        ``pi'' и ``po''. Если числа вдруг прыгнут в диапазон 500-1000
        после выполнения запроса, значит вы много записываете страниц
        памяти.

        Заметьте, что проблемы со страницами обостряются при
        одновременном запуске программ с интенсивным вводом/выводом в
        память или на диск. Одновременные запросы одному брокеру не
        должны вызывать проблем со страницами, так как брокер
        обрабатывает запросы последовательно.
        Лучше всего запускать брокер на почти не используемой машине с
        памятью, по меньшей мере, 128 MB (лучше больше, если
        вышеуказанный эксперимент с ``vmstat'' показывает, что вы
        записывает много страниц).

        Другой способ улучшить производительность - запустить _h_t_t_p_d_-
        _a_c_c_e_l_e_r_a_t_o_r на машине с вашим брокером, чтобы перехватывать
        запросы брокеру. Пока он заносит в кэш результат запросов, он
        снизит загрузку машины, так как он снабжен очень эффективными
        средствами возвращения запросов в случае пааллельных запросов.
        Без акселератора результаты возвращаются процессами search.cgi
        на каждый запрос, а ядро UNIX неэффективно делит время для этих
        процессов. С акселератором процессы search.cgi быстро умирают и
        дают акселератору вернуть результаты разным пользователям
        одновременно.  Акселератор также снизит нагрузку для получения
        данных (не запросов) с вашего сервера httpd.


  66..  ППррооггррааммммыы ии ррааззммеещщееннииее ууссттааннооввллееннннооггоо ППОО HHaarrvveesstt


  66..11..  $$HHAARRVVEESSTT__HHOOMMEE

  Верхний каталог, в который вы установили Harvest, обозначим
  _$_H_A_R_V_E_S_T___H_O_M_E. По умолчанию _$_H_A_R_V_E_S_T___H_O_M_E -- это _/_u_s_r_/_l_o_c_a_l_/_h_a_r_v_e_s_t. В
  _$_H_A_R_V_E_S_T___H_O_M_E находятся следующие файлы и каталоги:


               RunHarvest*         brokers/            gatherers/          tmp/
               bin/                cgi-bin/            lib/


  RunHarvest -- это скрипт, используемый для создания и запуска серверов
  Harvest (см. раздел ``Запуск системы: команда RunHarvest и связанные с
  ней команды''.  RunHarvest имеет такой же синтаксис командной строки,
  что и Harvest.


  66..22..  $$HHAARRVVEESSTT__HHOOMMEE//bbiinn

  Каталог _$_H_A_R_V_E_S_T___H_O_M_E_/_b_i_n содержит только те программы, которые
  пользователи обычно могут сразу запустить. Все другие программы
  (например, отдельные summarizer'ы для Gatherer'а) так же, как и
  библиотечный код Perl находятмя в каталоге _l_i_b.  Каталог _b_i_n содержит
  следующие программы:


     CreateBroker
        Создает брокер.

        Использование: CreateBroker [skeleton-tree [destination]]


     Gatherer
        Главный пользовательский интерфейс Gatherer'а. Эта программа
        запускается скриптом RunGatherer, который находится в каталоге
        Gatherer'а.

        Использование: Gatherer [-manual|-export|-debug] file.cf


     Harvest
        Эта программа используется RunHarvest для создания и запуска
        серверов Harvest согласно описанию пользователя.

        Использование: Harvest [flags]

        Где флаги (flags) могут быть следующие:


                  -novice         Простейшая форма вопрос-ответ. В основном использует установки по умолчанию.
                  -glimpse        Использовать Glimpse для брокера. (по умолчанию)
                  -swish          Использовать Swish для брокера.
                  -wais           Использовать WAIS для брокера.
                  -dumbtty        Немой режим TTY.
                  -debug          Режим отладки.
                  -dont-run       Не запускать брокер и Gatherer.
                  -fake           Не строить сервера Harvest.
                  -protect        Не менять umask.


     broker
        Программа Broker. Эта программа запускается скриптом RunBroker,
        который находится в каталоге брокера. Записывает лог-сообщения
        как в _b_r_o_k_e_r_._o_u_t, так и в _a_d_m_i_n_/_L_O_G.

        Использование: broker [broker.conf file] [-nocol]


     gather
        Клиентский интерфейс Gatherer'а.

        Использование: gather [-info] [-nocompress] host port
        [timestamp]


  66..33..  $$HHAARRVVEESSTT__HHOOMMEE//bbrrookkeerrss

  Каталог _$_H_A_R_V_E_S_T___H_O_M_E_/_b_r_o_k_e_r_s содержит картинки и логотипы в каталоге
  _i_m_a_g_e_s, некоторые основные учебные HTML страницы и файлы-скелеты,
  которые использует CreateBroker для построения новых брокеров. Вы
  можете изменить значения по умолчанию в этих создаваемых брокерах,
  отредактировав файлы в _s_k_e_l_e_t_o_n.


  66..44..  $$HHAARRVVEESSTT__HHOOMMEE//ccggii--bbiinn

  Каталог _$_H_A_R_V_E_S_T___H_O_M_E_/_c_g_i_-_b_i_n содержит программы, необходимые для WWW
  интерфейса брокера (описанного в разделе ``Программы CGI'') и
  конфигурационные файлы для search.cgi в каталоге _l_i_b.


  66..55..  $$HHAARRVVEESSTT__HHOOMMEE//ggaatthheerreerrss

  Каталог _$_H_A_R_V_E_S_T___H_O_M_E_/_g_a_t_h_e_r_e_r_s содержит примеры Gatherer, обсуждаемые
  в разделе ``Примеры Gatherer'ов''.  RunHarvest по умолчанию создаст
  новый Gatherer в этом каталоге.


  66..66..  $$HHAARRVVEESSTT__HHOOMMEE//lliibb

  Каталог _$_H_A_R_V_E_S_T___H_O_M_E_/_l_i_b содержит много функций библиотеки Perl и
  другие программы, необходимые различным частям Harvest'а, например,
  следующие:


     _c_h_a_t_2_._p_l_, _f_t_p_._p_l_, _s_o_c_k_e_t_._p_h
        Библиотеки Perl, используемые для соединения с удаленными
        серверами FTP.


     _d_a_t_e_c_o_n_v_._p_l_, _l_s_p_a_r_s_e_._p_l_, _t_i_m_e_l_o_c_a_l_._p_l
        Библиотеки Perl, используемые для разбора выхода ls.


     ftpget
        Программа, используемая для получения файлов и каталогов с
        серверов FTP.

        Использование: ftpget [-htmlify] localfile hostname filename A,I
        username password


     gopherget.pl
        Программа Perl для получения файлов и меню с серверов Gopher.

        Использование: gopherget.pl localfile hostname port command


     harvest-check.pl
        Программа Perl для проверки, запущены ли брокеры и gatherer'ы.

        Использование: harvest-check.pl [-v]


     md5
        Программа для вычисления контрольных сумм MD5.

        Использование: md5 file [...]


     newsget.pl
        Программа Perl для получения статей и резюме групп USENET с
        серверов NNTP.

        Использование: newsget.pl localfile news-URL


     _s_o_i_f_._p_l_, _s_o_i_f_-_m_e_m_-_e_f_f_i_c_i_e_n_t_._p_l
        Библиотека Perl для обработки SOIF.


     urlget
        Программа для извлечения  данных с URL.

        Использование: urlget URL


     urlpurge
        Программа чистки локального URL кэша, используемая urlget и
        Gatherer'ом.

        Использование: urlpurge


  66..77..  $$HHAARRVVEESSTT__HHOOMMEE//lliibb//bbrrookkeerr

  Каталог _$_H_A_R_V_E_S_T___H_O_M_E_/_l_i_b_/_b_r_o_k_e_r содержит поисковые и индексные
  программы, необходимые брокеру, а также несколько утилит для
  администрирования брокера:


     BrokerRestart
        Эта программа выполнит команду перезапуска брокера.

        Использование: BrokerRestart [-password passwd] host port


     brkclient
        Клиентский интерфейс брокера. Может быть использован для
        отправления запросов или административных команд брокеру.

        Использование: brkclient hostname port command-string


     dumpregistry
        Печатает файл-реестр брокера в удобном для чтения формате.

        Использование: dumpregistry [-count] [BrokerDirectory]


     agrep, glimpse, glimpseindex, glimpseserver
        Система индекса и поиска Glimpse, описанная в разделе
        ``Broker''.


     swish
        Программа индекса и поиска Swish как альтернатива Glimpse.


     info-to-html.pl, mkbrokerstats.pl
        Программы Perl для генерирования статистики брокера и создания
        _s_t_a_t_s_._h_t_m_l.

        Использование: gather -info host port | info-to-html.pl >
        host.port.html

        Использование: mkbrokerstats.pl broker-dir > stats.html


  66..88..  $$HHAARRVVEESSTT__HHOOMMEE//lliibb//ggaatthheerreerr

  Каталог _$_H_A_R_V_E_S_T___H_O_M_E_/_l_i_b_/_g_a_t_h_e_r_e_r содержит summarizer'ы, описанные в
  разделе ``Получение данных для индексации: подсистема суммирования
  Essence'', а также различные утилиты, необходимые summarizer'ам и
  Gatherer'у, как например:


     _U_R_L_-_f_i_l_t_e_r_-_d_e_f_a_u_l_t
        Фильтр URL по умолчанию, описанный в разделе ``Описание
        RootNode''.


     _b_y_c_o_n_t_e_n_t_._c_f_, _b_y_n_a_m_e_._c_f_, _b_y_u_r_l_._c_f_, _m_a_g_i_c_, _s_t_o_p_l_i_s_t_._c_f_, _q_u_i_c_k_-_s_u_m_._c_f
        Конфигурационные файлы Essence, описанные в разделе ``Настройка
        шагов распознавания типов, выбора кандидатов, извлечения
        прдставлений и суммирования''.


     *.sum
        Summarizer'ы Essence, описанные в разделе ``Получение данных для
        индексации: подсистема суммирования Essence''.


     HTML-sum.pl
        Альтернативные HTML summarizer'ы, написанные на Perl.


     HTMLurls
        Программы для извлечения URL'ов из файлов HTML.

        Использование: HTMLurls [--base-url url] filename


     catdoc, xls2csv, _c_a_t_d_o_c_-_l_i_b
        Программы и файлы, используемые summarizer'ом Microsoft Word.


     dvi2tty, print-c-comments, ps2txt, ps2txt-2.1, pstext,
        skim" Программы, используемы разными summarizer'ами.


     gifinfo
        Программа для поддержки summarizer'ов.


     l2h
        Программа, используемая summarizer'ом TeX.


     rast, smgls, sgmlsasp, _s_g_m_l_s_-_l_i_b
        Программы и файлы для SGML summarizer'а.


     rtf2html
        Программа для RTF summarizer'а.


     wp2x, wp2x.sh, _w_p_2_x_-_l_i_b
        Программы и файлы для WordPerfect summarizer'а.


     hexbin, unshar, uudecode
        Программы для извлечения упакованных объектов.


     cksoif
        Программы для проверки точности потока SOIF (например, чтобы
        убедиться, что нет ошибок разбора).

        Использование: cksoif < INPUT.soif


     cleandb, consoldb, expiredb, folddb, mergedb,
        mkgathererstats.pl, mkindex, rmbinary" Программы для подготовки
        базы данных Gatherer'а для экспорта при помощи gatherd.

        cleandb удостоверяется в том, что все объекты SOIF не содержат
        ошибок, и удалaет все объекты с ошибками;

        consoldb объединяет n файлов баз данных GDBM в один файл;

        expiredb удаляет все объекты SOIF, которые устарели согласно
        атрибту _T_i_m_e_-_t_o_-_L_i_v_e (время жизни);

        folddb проделывает все необходимые операции, необходимые для
        подготовки базы данных Gatherer'а к экспорту при помощи gatherd;

        mergedb объединяет файлы GDBM, как описано в разделе ``Включение
        в Gatherer информации, сгенерированной вручную'';
        mkgathererstats.pl генерирует файл статистики _I_N_F_O_._s_o_i_f

        mkindex генерирует кэш временных меток;

        rmbinary удаляет двоичные данные из базы данных GDBM.


     enum, prepurls, staturl
        Программы, используемые Gatherer'ом для нумерации RootNode и
        LeafNode, как описано в разделе ``Описание RootNode''.

        enum выполняет нумерацию RootNode данных URL'ов;

        prepurls -- программа-упаковщик для взаимодействия Gatherer'а и
        essence;

        staturl получает LeafNode URL и определяет изменился URL или
        нет.


     fileenum, ftpenum, ftpenum.pl, gopherenum-*, httpenum-*,
        newsenum" Программы, используемые enum, чтобы выполнять
        нумерацию в зависимости от протокола.

        fileenum выполняет нумерацию RootNode для URL'ов типа ``file'';

        ftpenum вызывает ftpenum.pl для выполнения нумерации RootNode
        URL'ов по ``ftp'';

        gopherenum-breadth выполняет широкую нумерацию RootNode для
        URL'ов типа ``gopher'';

        gopherenum-depth выполняет глубокую нумерацию RootNode для
        URL'ов типа ``gopher'';

        httpenum-breadth выполняет широкую нумерацию RootNode для URL'ов
        типа ``http'';

        httpenum-depth выполняет глубокую нумерацию RootNode для URL'ов
        типа ``http'';

        newsenum выполняет нумерацию RootNode для ``news'' URL'ов;


     essence
        Система извлечения содержимого Essence, описанная в разделе
        ``Настройка шагов распознавания типов, выбора кандидатов,
        извлечения прдставлений и суммирования''.

        Использование: essence [options] -f input-URLs или essence
        [options] URL ...

        где опции (options):


             --dbdir directory       Каталог для размещения базы данных
             --full-text             Использовать весь файл вместо суммирования
             --gatherer-host         Хост Gatherer'а
             --gatherer-name         Имя Gatherer'а
             --gatherer-version      Версия Gatherer'а
             --help                  Выдает информацию об использовании
             --libdir directory      Каталог для размещения конфигурационных файлов
             --log logfile           Имя файла для лог-сообщений
             --max-deletions n       Число удалений GDBM перед реорганизацией
             --minimal-bookkeeping   Генерирует минимальное число атрибутов учета ресурсов
             --no-access             Не читать содержимое объектов
             --no-keywords           Не генерировать автоматически ключевые слова
             --allowlist filename    Файл со списком допустимых типов
             --stoplist filename     Файл со списком типов, которые нужно удалять
             --tmpdir directory      Имя каталога для временных файлов
             --type-only             Только выдавать данные, не суммировать объекты
             --verbose               Более полный вывод
             --version               Информация о версии


     print-attr
        Читает поток SOIF из stdin и печатает данные, связанные с данным
        атрибутом, на stdout.

        Использование: cat SOIF-file | print-attr Attribute


     gatherd, in.gatherd
        Демоны, которые экспортируют базу данных Gatherer'а. in.gatherd
        используется для запуска этого демона из inetd.

        Использование: gatherd    [-db | -index | -log | -zip | -cf
        file] [-dir dir] port

        Использование: in.gatherd [-db | -index | -log | -zip | -cf
        file] [-dir dir]


     gdbmutil
        Программа для выполнения различных действий над базой данных
        GDBM.


          Использование: gdbmutil consolidate [-d | -D] master-file file [file ...]
          Использование: gdbmutil delete file key
          Использование: gdbmutil dump file
          Использование: gdbmutil fetch file key
          Использование: gdbmutil keys file
          Использование: gdbmutil print [-gatherd] file
          Использование: gdbmutil reorganize file
          Использование: gdbmutil restore file
          Использование: gdbmutil sort file
          Использование: gdbmutil stats file
          Использование: gdbmutil store file key < data


     mktemplate
        Программа для генерирования правильных SOIF на основе более
        простого редактируемого формата, подобногоSOIF (например, SOIF
        без подсчета байтов).

        Использование: mktemplate < INPUT.txt > OUTPUT.soif


     quick-sum
        Простоая программа Perl для эмулирования обработки _q_u_i_c_k_-_s_u_m_._c_f
        Essence для тех, кто не может откомпилировать Essence с
        соответствующим кодом на C.


     template2db
        Конвертирует поток объетов SOIF (из stdin или данных файлов) в
        базу данных GDBM.

        Использование: template2db database [tmpl tmpl...]


     wrapit
        Преобразует данные из stdin в пары SOIF атрибут-значение с
        подсчетом байт.  Используется summarizer'ами Essence и легко
        гнерирует SOIf.

        Использование: wrapit [Attribute]


     kill-gatherd
        Скрипт для убивания процесса gatherd.


  66..99..  $$HHAARRVVEESSTT__HHOOMMEE//ttmmpp

  Каталог _$_H_A_R_V_E_S_T___H_O_M_E_/_t_m_p используется search.cgi для хранения страниц
  результатов поиска.


  77..  ФФооррммаатт ввззааииммооооббммееннаа ккррааттккииммии ииззллоожжеенниияяммии ддооккууммееннттоовв ((SSOOIIFF))

  Gatherer'ы и Broker'ы Harvest взаимодействуют используя протокол
  потока пар атрибут-значение, который называется форматом взаимообмена
  краткими изложениями документов (_S_u_m_m_a_r_y _O_b_j_e_c_t _I_n_t_e_r_c_h_a_n_g_e _F_o_r_m_a_t_,
  _S_O_I_F_), пример которого есть в разделе ``Пример 1''.  Gatherer'ы
  генерируют резюме содержимого для отдельных объектов в формате SOIF и
  предоставляют эти резюме брокерам, которые хотят их собрать и
  проиндексировать. SOIF предоставляет средства для передачи резюме
  содержимого объектов брокерам от Gatherer'а в формате SOIF для многих
  объектов в одном, эффективном сжатом потоке.  Брокеры Harvest имеют
  поддержку для выполнения запросов к данным SOIF, используя
  структурированные запросы вида атрибут-значение и много других типов
  запросов, что обсуждается в разделе ``Отправление запросов Broker'у''.


  77..11..  ФФооррммааллььннооее ооппииссааннииее SSOOIIFF

  Грмматика SOIF следующая:


      SOIF            ::=  OBJECT SOIF | OBJECT
      OBJECT          ::=  @ TEMPLATE-TYPE { URL ATTRIBUTE-LIST }
      ATTRIBUTE-LIST  ::=  ATTRIBUTE ATTRIBUTE-LIST | ATTRIBUTE
      ATTRIBUTE       ::=  IDENTIFIER {VALUE-SIZE} DELIMITER VALUE
      TEMPLATE-TYPE   ::=  Alpha-Numeric-String
      IDENTIFIER      ::=  Alpha-Numeric-String
      VALUE           ::=  Arbitrary-Data
      VALUE-SIZE      ::=  Number
      DELIMITER       ::=  ":<tab>"


  77..22..  ССппииссоокк ооббщщиихх ииммеенн ааттррииббууттоовв SSOOIIFF

  Каждый брокер может поддерживать различные атрибуты, в зависимости от
  данных, которые он хранит.  Ниже мв приводим список наиболее общих
  атрибутов:


  Abstract
       Краткий обзор объекта.
  Author
       Автор(ы) объекта.
  Description
       Краткое описание объекта.
  File-Size
       Число байт в объекте.
  Full-Text
       Все содержимое объекта.
  Gatherer-Host
       Хост, на котором Gatherer запущен для извлечения информации об объекте.
  Gatherer-Name
       Имя Gatherer'а, который извлекает информацию об объекте. (например,
       Full-Text (весь текст), Selected-Text (выбранный текст) или Terse (сжатый)).
  Gatherer-Port
       Номер порта на хосте Gatherer'а, который обслуживает информацию Gatherer'а.
  Gatherer-Version
       Номер версии Gatherer'а.
  Update-Time
       Время, когда Gatherer обновлял резюме содержимого объекта.
       ТРЕБУЕМОЕ поле. Нет значения по умолчанию.
  Keywords
       Ключевые слова для поиска, извлеченные из объекта.
  Last-Modification-Time
       Время, когда объект был модифицирован последний раз.
  MD5
       16-байтная контрольная сумма MD5 объекта.
  Refresh-Rate
       Число секунд после времени Update-Time, по истечнии которых резюме объекта должно быть
       регенерировано.  По умолчанию -- 1 месяц.
  Time-to-Live
       Число секунд после времени Update-Time, по исечении которых резюме объекта больше
       не действительно. По умолчанию -- 6 месяцев.
  Title
       Заголовок объекта.
  Type
       Тип объекта. Ниже приведены некоторые примеры типов:

               Archive
               Audio
               Awk
               Backup
               Binary
               C
               CHeader
               Command
               Compressed
               CompressedTar
               Configuration
               Data
               Directory
               DotFile
               Dvi
               FAQ
               FYI
               Font
               FormattedText
               GDBM
               GNUCompressed
               GNUCompressedTar
               HTML
               Image
               Internet-Draft
               MacCompressed
               Mail
               Makefile
               ManPage
               Object
               OtherCode
               PCCompressed
               Patch
               Pdf
               Perl
               PostScript
               RCS
               README
               RFC
               RTF
               SCCS
               ShellArchive
               Tar
               Tcl
               Tex
               Text
               Troff
               Uuencoded
               WaisSource

  URI
       Uniform Resource Identifier - универсальный идентификатор ресурса.
  URL-References
       Любые ссылки URL, присутствующие в объектах HTML.


  88..  ППррииммееррыы GGaatthheerreerr

  Следующие примеры устанавливаются в _$_H_A_R_V_E_S_T___H_O_M_E_/_g_a_t_h_e_r_e_r_s по
  умолчанию (см. раздел ``Установка ПО Harvest'').

  Дистрибутив Harvest содержит несколько примеров того, как
  конфигурировать, настраивать и запусктаь Gatherer'ы. Это раздел
  проведет вас через некоторые примеры Gatherer'ов. Цель -- дать вам
  почувствовать, что вы можете делать с Gatherer'ом и как это делать.
  Вам не обязательно прорабатывать все эти примеры; каждый из них
  поучителен по-своему.

  Чтобы использовать примеры Gatherer'ов, вам нужно определить каталог
  bin Harvest'а в вашей переменной пути, и определить _H_A_R_V_E_S_T___H_O_M_E.
  Например:


               % setenv HARVEST_HOME /usr/local/harvest
               % set path = ($HARVEST_HOME/bin $path)


  88..11..  ППррииммеерр 11 -- ппррооссттоойй GGaatthheerreerr

  Этот пример -- это простой Gatherer, который использует установки по
  умолчанию.  Единственное, что нужно сделать пользователю для работы с
  этим Gatherer'ом -- это указать список URL'ов, из которых собирать
  данные (см. раздел ``Gatherer'').

  Чтобы запустить этот пример, наберите:

               % cd $HARVEST_HOME/gatherers/example-1
               % ./RunGatherer


  Чтобы посмотреть конфигурационный файл этого Gatherer'а, посмотрите
  _e_x_a_m_p_l_e_-_1_._c_f. Первые несколько строчек -- это переменные, которые
  указывают некоторую локальную информацию о Gatherer'е (см. раздел
  ``Задание значений переменных в конфигурационном файле Gatherer'а'').
  Например, каждое резюме содержимого будет содержать имя Gatherer'а
  (GGaatthheerreerr--NNaammee), который сгенерировал его, номер порта (GGaatthheerreerr--
  PPoorrtt), который будет использоваться для экспорта индексной информации,
  каталог, который содержит Gatherer (TToopp--DDiirreeccttoorryy). Заметьте, что есть
  один RootNode URL и один LeafNode URL.

  После того, как Gatherer закончит, он запустит демон Gatherer, который
  будет экспортировать резюме содержимого. Чтобы посмотреть резюме,
  наберите:


               % gather localhost 9111 | more


  Следующий объект SOIF должен выглядеть примерно как тот, который
  сгенерирует этот Gatherer.


          @FILE { http://harvest.cs.colorado.edu/~schwartz/IRTF.html
          Time-to-Live{7}:        9676800
          Last-Modification-Time{1}:      0
          Refresh-Rate{7}:        2419200
          Gatherer-Name{25}:      Example Gatherer Number 1
          Gatherer-Host{22}:      powell.cs.colorado.edu
          Gatherer-Version{3}:    0.4
          Update-Time{9}: 781478043
          Type{4}:        HTML
          File-Size{4}:   2099
          MD5{32}:        c2fa35fd44a47634f39086652e879170
          Partial-Text{151}:      research problems
          Mic Bowman
          Peter Danzig
          Udi Manber
          Michael Schwartz
          Darren Hardy
          talk
          talk
          Harvest
          talk
          Advanced
          Research Projects Agency

          URL-References{628}:
          ftp://ftp.cs.colorado.edu/pub/cs/techreports/schwartz/RD.ResearchProblems.Jour.ps.Z
          ftp://grand.central.org/afs/transarc.com/public/mic/html/Bio.html
          http://excalibur.usc.edu/people/danzig.html
          http://glimpse.cs.arizona.edu:1994/udi.html
          http://harvest.cs.colorado.edu/~schwartz/Home.html
          http://harvest.cs.colorado.edu/~hardy/Home.html
          ftp://ftp.cs.colorado.edu/pub/cs/misc/schwartz/HPCC94.Slides.ps.Z
          ftp://ftp.cs.colorado.edu/pub/cs/misc/schwartz/HPC94.Slides.ps.Z
          http://harvest.cs.colorado.edu/harvest/Home.html
          ftp://ftp.cs.colorado.edu/pub/cs/misc/schwartz/IETF.Jul94.Slides.ps.Z
          http://ftp.arpa.mil/ResearchAreas/NETS/Internet.html

          Title{84}:      IRTF Research Group on Resource Discovery
          IRTF Research Group on Resource Discovery

          Keywords{121}:  advanced agency bowman danzig darren hardy harvest manber mic
          michael peter problems projects research schwartz talk udi

          }


  Заметьте, что хотя конфигурационный файл Gatherer'а содержит только 2
  URL'а (один в разделе RootNode и один в разделе LeafNode), появилось
  больше, чем 2 резюме в базе данных Gatherer'а. Gatherer развернул
  RootNode URL на десятки LeafNode URL'ов рекурсивно извлекая ссылки из
  файла HTML _h_t_t_p_:_/_/_h_a_r_v_e_s_t_._c_s_._c_o_l_o_r_a_d_o_._e_d_u_/. Далее, для каждого данного
  LeafNode в Gatherer'е, было сгенерировано резюме, как в приведенном
  выше примере для _h_t_t_p_:_/_/_h_a_r_v_e_s_t_._c_s_._c_o_l_o_r_a_d_o_._e_d_u_/_~_s_c_h_w_a_r_t_z_/_I_R_T_F_._h_t_m_l.

  Summarizer HTML извлечет структурированную информацию об авторе и
  заголовке файла. Он также извлечет любые ссылки URL в атрибут _U_R_L_-
  _R_e_f_e_r_e_n_c_e_s, а любой тэг привязки anchor -- в атрибут _P_a_r_t_i_a_l_-_T_e_x_t.
  Остальная информация о файле HTML, такая как его сумма MD5 (см.
  RFC1321) и его размер (_F_i_l_e_-_S_i_z_e) в байтах также добавится в резюме
  содержимого.


  88..22..  ППррииммеерр 22 -- ввккллююччееннииее ииннффооррммааццииии,, ссггееннеерриирроовваанннноойй ввррууччннууюю

  Gatherer способен ``разорвать'' ресурс в поток резюме.  Это полезно
  для файлов, которые содержат информацию, сгенерированную вручную,
  которая может описывать один или более ресурсов, или для построения
  шлюза между разными структурированными форматыми и SOIF (см. раздел
  ``Формат взаимообмена краткими изложениями документов (SOIF)''.

  Этот пример демонстрирует ``взрыватель'' (exploder) для формата Linux
  Software Map (LSM).  Файлы LSM содержат структурированную информацию
  (как автор, размещение и т.д.)  о доступном ПО для операционных систем
  Linux.

  Чтобы запустить это пример, наберите:


               % cd $HARVEST_HOME/gatherers/example-2
               % ./RunGatherer


  Чтобы посмотреть конфигурационный файл этого Gatherer'а, посмотрите
  _e_x_a_m_p_l_e_-_2_._c_f. Заметьте, что Gatherer имеет свой каталог _L_i_b_-_D_i_r_e_c_t_o_r_y
  (обратитесь в раздел ``Задание значений переменных в конфигурационном
  файле Gatherer'а'' за помощью в написании конфигурационных файлов).
  Каталог библиотеки содержит настройки для типов и выбора кандидатов
  Essence. В этом примере, мы только настроили шаг выбора кандидатов.
  _l_i_b_/_s_t_o_p_l_i_s_t_._c_f определяет типы, которые Essence должен
  проиндексировать. Этот пример использует пустой файл _s_t_o_p_l_i_s_t_._c_f, что
  говорит Essence индексировать все файлы.

  Gatherer получает каждый из LeafNode URL'ов, которые являются файлами
  в формате Linux Software Map в FTP архиве Linux _t_s_x_-_1_1_._m_i_t_._e_d_u.
  Gatherer понимает, что файл ``.lsm'' -- это файл типа _L_S_M, так как в
  _l_i_b_/_b_y_n_a_m_e_._c_f присутствует эвристика по имени.Тип _L_S_M -- это
  упакованный тип, что указано в исходном коде Essence
  (_s_r_c_/_g_a_t_h_e_r_e_r_/_e_s_s_e_n_c_e_/_u_n_n_e_s_t_._c). Для упакованных типов запускаются
  программы Exploder (называемые TypeName.unnest), а не обычные
  summarizer'ы. Программа LSM.unnest -- это стандартная программа
  exploder, которая берет файл _L_S_M и генерирует один или более
  соотвествующих объектов SOIF. Когда Gatherer завершает работу, он
  содержит один или более соответствующих объектов SOIF для ПО,
  описанного в каждом файле _L_S_M.

  Потом Gatherer запускает демон Gatherer, который будет предоставлять
  резюме содержимого объектов. Чтобы посмотреть резюме, наберите:


               % gather localhost 9222 | more


  Так как _t_s_x_-_1_1_._m_i_t_._e_d_u -- популярный и загруженный архив, Gatherer
  часто не сможет получить файлы LSM. Если вы подозреваете, что что-то
  подобное случилось, посмотрите _l_o_g_._e_r_r_o_r_s и _l_o_g_._g_a_t_h_e_r_e_r, чтобы
  определить проблему.

  Следующие два объекта SOIF были сгенерированы этим Gatherer'ом. Первый
  объект -- описывает сам файл _L_S_M, а второй -- ПО, описанное в файле
  _L_S_M.


               @FILE { ftp://tsx-11.mit.edu/pub/linux/docs/linux-doc-project/man-pages-1.4.lsm
               Time-to-Live{7}:        9676800
               Last-Modification-Time{9}:      781931042
               Refresh-Rate{7}:        2419200
               Gatherer-Name{25}:      Example Gatherer Number 2
               Gatherer-Host{22}:      powell.cs.colorado.edu
               Gatherer-Version{3}:    0.4
               Type{3}:        LSM
               Update-Time{9}: 781931042
               File-Size{3}:   848
               MD5{32}:        67377f3ea214ab680892c82906081caf
               }

               @FILE { ftp://ftp.cs.unc.edu/pub/faith/linux/man-pages-1.4.tar.gz
               Time-to-Live{7}:        9676800
               Last-Modification-Time{9}:      781931042
               Refresh-Rate{7}:        2419200
               Gatherer-Name{25}:      Example Gatherer Number 2
               Gatherer-Host{22}:      powell.cs.colorado.edu
               Gatherer-Version{3}:    0.4
               Update-Time{9}: 781931042
               Type{16}:       GNUCompressedTar
               Title{48}:      Section 2, 3, 4, 5, 7, and 9 man pages for Linux
               Version{3}:     1.4
               Description{124}:       Man pages for Linux.  Mostly section 2 is complete.  Section
               3 has over 200 man pages, but it still far from being finished.
               Author{27}:     Linux Documentation Project
               AuthorEmail{11}:        DOC channel
               Maintainer{9}:  Rik Faith
               MaintEmail{16}: faith@cs.unc.edu
               Site{45}:       ftp.cs.unc.edu
               sunsite.unc.edu
               tsx-11.mit.edu
               Path{94}:       /pub/faith/linux
               /pub/Linux/docs/linux-doc-project/man-pages
               /pub/linux/docs/linux-doc-project
               File{20}:       man-pages-1.4.tar.gz
               FileSize{4}:    170k
               CopyPolicy{47}: Public Domain or otherwise freely distributable
               Keywords{10}:   man
               pages

               Entered{24}:    Sun Sep 11 19:52:06 1994
               EnteredBy{9}:   Rik Faith
               CheckedEmail{16}:       faith@cs.unc.edu
               }


  Мы также построили Gatherer, который переводит около пяти индесных
  файлов из различных PC архивов в более, чем 25000 резюме. Каждый из
  этих индексных файлов содержит сотни однострочных описаний о
  программном обеспечении, которые доступны по анонимному доступу FTP.


  88..33..  ППррииммеерр 33 -- ННаассттррооййккаа рраассппооззннаавваанниияя ттииппоовв ии ввыыббоорраа ккааннддииддааттоовв

  Этот пример демонстрирует, как настроить шаги распознавание типов и
  выбора кандидатов в Gatherer'е (см. раздел ``Настройка шагов
  распознавания типов, выбора кандидатов, извлечения прдставлений и
  суммирования'').  Этот Gatherer распознает страницы WWW, и он
  сконфигурирован только для собирания индексной информации с этих
  страниц.


  Чтобы запустить этот пример, наберите:


               % cd $HARVEST_HOME/gatherers/example-3
               % ./RunGatherer


  Чтобы посмотреть конфигурационный файл этого Gatherer'а, посмотрите
  _e_x_a_m_p_l_e_-_3_._c_f. Как в разделе ``Пример 2'', этот Gatherer имеет свой
  библиотечный каталог, который содержит настройки Essence. Так как мы
  заинтересованы только в индексировании домашних страниц, нам нужно
  только определить эвристику для распознавания домашних страниц. Как
  показано ниже, мы можем использовать эвристику по именам URL для
  определения домашних страниц в _l_i_b_/_b_y_u_r_l_._c_f. Мы также добавили тип по
  умолчанию _U_n_k_n_o_w_n, чтобы сделать выбор кандидатов проще.


               HomeHTML                ^http:.*/$
               HomeHTML                ^http:.*[hH]ome\.html$
               HomeHTML                ^http:.*[hH]ome[pP]age\.html$
               HomeHTML                ^http:.*[wW]elcome\.html$
               HomeHTML                ^http:.*/index\.html$


  Конфигурационный файл _l_i_b_/_s_t_o_p_l_i_s_t_._c_f содержит список типов, которые
  не надо индексировать. В этом примере _U_n_k_n_o_w_n -- это единственный тип,
  занесенный в этот список, так что Gatherer будет отклонятьт только
  файлы типа _U_n_k_n_o_w_n. Вы можете также распознавать URL'ы по именам
  файлов (в _b_y_n_a_m_e_._c_f) или по содержимому (в _b_y_c_o_n_t_e_n_t_._c_f и _m_a_g_i_c); хотя
  в этом примере, нам не нужно использовать эти механизмы. Summarizer
  HomeHTML.sum, установленный по умолчанию, суммирует все файлы
  _H_o_m_e_H_T_M_L.

  После того, как Gatherer закончит работу, он запустит демон Gatherer,
  который будет предоставлять резюме содержимого объектов. Вы заметите,
  что присутствуют только резюме для файлов HomeHTML. Чтобы посмотреть
  резюме, наберите:


               % gather localhost 9333 | more


  88..44..  ППррииммеерр 44 -- ннаассттррооййккаа рраассппооззннаавваанниияя ттииппоовв ии ссууммммииррооввааннииее

  Этот пример демонстрирует, как настроить шаги распознавания типов и
  суммирования в Gatherer'е (см. раздел ``Настройка шагов распознавания
  типов, выбора кандидатов, извлечения прдставлений и суммирования''.
  Gatherer распознает два новых формата файлов и суммирует их должным
  образм.

  Чтобы посмотреть конфигурационный файл Gatherer'а, посмотрите
  _e_x_a_m_p_l_e_-_4_._c_f. Как в примерах в ``Пример 2'' и ``Пример 3'', этот
  Gatherer имеет свой библиотечный каталог, который содержит
  конфигурационные файлы Essence. Конфигурационные файлы Essence такие
  же, как и для настроек по умолчанию, кроме _l_i_b_/_b_y_n_a_m_e_._c_f, который
  содержит две настройки для новых форматов файлов.
  88..44..11..  ИИссппооллььззооввааннииее ррееггуулляяррнныыхх ввыырраажжеенниийй ддлляя ссууммммиирроовваанниияя ффооррммааттаа

  Первый новый формат -- тип ``ReferBibliographic'', который относится к
  использованию программ для представления библиографической информации.
  Чтобы понять, что файл записан в этом формате, мы будем использовать
  соглашение, что имена файлов заканчиваются на ``.referbib''. Таким
  образом, мы добавим эвристику по имени для настройки распознвания
  типов. Эвристика по именам представляется в виде регулярного выражения
  напротив имени файла в _l_i_b_/_b_y_n_a_m_e_._c_f:


               ReferBibliographic      ^.*\.referbib$


  Теперь, чтобы написать summarizer для этого типа, нам понадобится
  образец файла ReferBibliographic:


               %A A. S. Tanenbaum
               %T Computer Networks
               %I Prentice Hall
               %C Englewood Cliffs, NJ
               %D 1988


  Summarizer'ы Essence извлекают структурированную информацию из файлов.
  Один способ написать summarizer -- использовать регулярные выражения
  для определения, что надо извлекать.  Для каждого типа информации,
  который вы хотите извлечь из файла, добавьте регулярное выражение,
  которое подойдет для нужных строк в файл _l_i_b_/_q_u_i_c_k_-_s_u_m_._c_f. Например,
  следующие регулярные выражения в _l_i_b_/_q_u_i_c_k_-_s_u_m_._c_f извлекут автора,
  заглавие, дату и другую информацию из файлов ReferBibliographic:


               ReferBibliographic      Author                  ^%A[ \t]+.*$
               ReferBibliographic      City                    ^%C[ \t]+.*$
               ReferBibliographic      Date                    ^%D[ \t]+.*$
               ReferBibliographic      Editor                  ^%E[ \t]+.*$
               ReferBibliographic      Comments                ^%H[ \t]+.*$
               ReferBibliographic      Issuer                  ^%I[ \t]+.*$
               ReferBibliographic      Journal                 ^%J[ \t]+.*$
               ReferBibliographic      Keywords                ^%K[ \t]+.*$
               ReferBibliographic      Label                   ^%L[ \t]+.*$
               ReferBibliographic      Number                  ^%N[ \t]+.*$
               ReferBibliographic      Comments                ^%O[ \t]+.*$
               ReferBibliographic      Page-Number             ^%P[ \t]+.*$
               ReferBibliographic      Unpublished-Info        ^%R[ \t]+.*$
               ReferBibliographic      Series-Title            ^%S[ \t]+.*$
               ReferBibliographic      Title                   ^%T[ \t]+.*$
               ReferBibliographic      Volume                  ^%V[ \t]+.*$
               ReferBibliographic      Abstract                ^%X[ \t]+.*$


  Первое поле в _l_i_b_/_q_u_i_c_k_-_s_u_m_._c_f -- это имя типа.  Второе поле --
  атрибут, под которым надо извлекать информацию в строках,
  удовлетворяющих регулярному выражению из третьего поля.

  88..44..22..  ИИссппооллььззооввааннииее ппррооггрраамммм ддлляя ссууммммиирроовваанниияя ффооррммааттаа

  Второй новый формат -- это тип ``Abstract'', который является файлом,
  содержащим только текст с кратким описанием статьи (формат, который
  является принятым в технических отчетах архивов FTP). Чтобы
  распознать, что файл написан в этом формате, мы используем соглашение,
  что имена файлов типа ``Abstract'' заканчиваются на ``.abs''. Таким
  образом, мы добавим настройку распознавания типов в файл _l_i_b_/_b_y_n_a_m_e_._c_f
  в виде регулярного выражения:


               Abstract                ^.*\.abs$


  Другой способ написания summarizer'а -- написать программу или скрипт,
  который принимает имя файла как первый аргумент командной строки,
  извлекает структурированную информацию, затем выдает результат в виде
  списка пар SOIF атрибут-значение.

  Программы Summarizer называется TypeName.sum, так что мы назовем наш
  новый summarizer Abstract.sum. Не забудьте поместить программу в
  каталог, который есть в вашей переменной пути, чтобы Gatherer мог
  запустить ее. Вы увидите ниже, что Abstract.sum -- это скрипт оболочки
  Bourne, который берет первые 50 строк файла, объявляет их атрибутом
  ``Abstract'' и выдает в виде пары SOIF атрибут-значение.


               #!/bin/sh
               #
               #  Usage: Abstract.sum filename
               #
               head -50 "$1" | wrapit "Abstract"


  88..44..33..  ЗЗааппуусскк ппррииммеерраа

  Чтобы запустить этот пример, наберите:


               % cd $HARVEST_HOME/gatherers/example-4
               % ./RunGatherer


  После того, как Gatherer закончит свою работу, он запустит демон
  Gatherer, который будет предоставлять резюме содержимого объектов.
  Чтобы посмотреть резюме, наберите:


               % gather localhost 9444 | more


  88..55..  ППррииммеерр 55 -- ИИссппооллььззооввааннииее ффииллььттрроовв RRoooottNNooddee

  Этот пример демонстрирует, как использовать фильтры RootNode для
  настройки выбора кандидатов в Gatherer'е (см. раздел ``Фильтры
  RootNode'').  Только объекты, которые пройдут через фильтры, будут
  получены по сети (см. раздел ``Нумерация Gatherer'а и выбор
  кандидатов'').

  Чтобы запустить этот пример, наберите:


               % cd $HARVEST_HOME/gatherers/example-5
               % ./RunGatherer


  После того, как Gatherer закончит свою работу, он запустит демон
  Gatherer, который будет предоставлять резюме содержимого объектов.
  Чтобы посмотреть резюме, наберите:


               % gather localhost 9555 | more


  99..  ИИссттоорриияя HHaarrvveesstt


  99..11..  ИИссттоорриияя HHaarrvveesstt


  Ї  1996-01-31: Harvest 1.4pl2 был последним официальным выпуском
     Darren R.  Hardy, Michael F. Schwartz, и Duane Wessels.

  Ї  1997-04-21: Simon Wilkinson выпустил Harvest 1.5.

  Ї  1998-06-12: Simon Wilkinson выпустил Harvest 1.5.20.

  Ї  1999-05-26: Выпущен Harvest-MathNet100.tar.gz.

  Ї  2000-01-14: Выпущен harvest-modified-by-RL-Stajsic.tar.gz.

  Ї  2000-02-07: Harvest 1.6.1 выпустил Kang-Jin Lee при содействии с
     Simon Wilkinson.

  Ї  2002-10-01: Harvest 1.8.0 выпустили Harald Weinreich и Kang-Jin
     Lee.


  99..22..  ИИссттоорриияя ддооккууммееннттааццииии HHaarrvveesstt


  Ї  1996-01-31: Документация Harvest для Harvest 1.4.pl2 была написана
     Darren R. Hardy, Michael F. Schwartz и Duane Wessels. Документ был
     написан в LaTeX. Стали также доступны версии HTML (конвертированный
     при помощи LaTeX2HTML) и Postscript.

  Ї  2001-04-27:HTML версия этого документа была обновлена и добавлена к
     дистрибутиву Harvest Kang-Jin Lee. Значительные изменения --
     удаления разделов о кэше объектов Harvest и о Replicator'е, которые
     больше не являются частями Harvest.

  Ї  2002-01-28: Эта документация была конвертирована в linuxdoc. Сейчас
     она доступна в форматах PostScript, PDF, text и HTML.

  Ї  2003-04-22: Документация доступна на русском языке в формате HTML
     (Andrei Malashevich).

  Ї  2003-10-15: Документация доступна на русском языке в формате SGML
     (Andrei Malashevich).