Harvest состоит из нескольких подсистем. Подсистема Gatherer собирает индексируемую информацию (такую как ключевые слова, имена авторов и заголовки) с ресурсов, доступных на сайтах Provider'ов (таких как FTP и HTTP сервера). Подсистема Broker получает индексируемую информацию от одного или нескольких Gatherer'ов, избавляется от повторной информации, постепенно индексирует собранную информацию и предоставляет WWW интерфейс для запросов к нему.
Следует начать использование Harvest просто установив один ``готовый'' (т.е. не настроенный) Gatherer и Broker на одну машину для индексирования некоторых FTP, World Wide Web и NetNews данных на вашем сайте.
После того, как вы получите работающую систему в этой основной конфигурации, вы можете обоснованно предпринимать дальнейшие усилия. Во-первых, дойдя до увеличения объемов индексируемой информации, вы можете уменьшить нагрузку процессора и сети для индексацци ваших данных распределяя процесс сбора. Во-вторых, вы можете настроить Harvest так, чтобы он извлекал, индексировал и искал вашу информацию лучше сопоставляя типы имеющихся у вас данных и способы, которыми ваши пользователи хотели бы взаимодействовать с данными.
Мы обсудим, как распределить процесс сбора в следующем разделе. Мы охватим различные формы настройки в разделе Настройка распознавания типов, выбора кандидатов, представление разбора и суммирование и в разных частях раздела Broker.
Harvest Gatherer'ы и Broker'ы могут быть сконфигурированы различными способами. Запуск Gatherer'а удаленно с сайта провайдера позволяет Harvest'у взаимодействовать с сайтами, не использующими Harvest Gatherer'ы, используя стандартные протоколы получения объектов как FTP, Gopher, HTTP, and NNTP. Однако, как показано толстыми линиями слева на рисунке 2, такое расположение приводит к излишку нагрузки сервера и сети. Запуск Gatherer'а локально более эффективно, как показано справа на рисунке 2. Тем не менее, запускать Gatherer'ы удаленно все же лучше, чем иметь много сайтов, независимо собирающих индексируемую информацию, так как много Broker'ов или других поисковых служб могут совместно использовать индексируемую информацию, которую собирает Gatherer.
Если у вас есть много FTP/HTTP/Gopher/NNTP серверов на вашем сайте, то наиболее правильно запустить Gatherer на каждой машине, где есть сервер. С другой стороны, вы можете уменьшить усилия на установку, запустив Gatherer всего на одной машине на вашем сайте и позволив ему получить данные по сети.
Рисунок 2 также показывает, что Broker может собирать информацию от нескольких Gatherer'ов (чтобы построить индекс широко разбросанной информации). Broker'ы могут также получать информацию от других Broker'ов, в сущности передавая проиндексированную информацию друг другу. Broker'ы получают эту информацию, используя интерфейс запросов, позволяя фильтровать или очищать информацию от одного Broker'а к другому.