HARVEST - это объединенный набор средств для собирания, извлечения, систематизирования и поиска информации в Internet. Небольшими усилиями пользователи могут адаптировать Harvest для систематизации информации в различных форматах и предложить свои услуги поиска в Internet.
Главная задача Harvest - предоставить гибкую систему, которая может быть настроена различными способами для создания большого числа типов индексов.
Harvest также позволяет пользователям извлекать структурированную (пара атрибут-значение) информацию из многих различных форматов хранения информации и строить индексы, которые позволят обращаться к этим атрибутам во время запросов (например, поиск всех документов, содержащих определенное регулярное выражение в поле "заголовок").
Важное преимущество Harvest заключается в том, что он позволяет пользователям строить индексы используя или свои шаблоны (для максимального контроля над содержанием индекса), или созданные автоматически шаблоны извлеченных данных (для легкого охвата больших коллекций), смесь этих двух способов.
Harvest спроектирован для легкого распределения поисковой системы на множество машин, подключенных к сети, для управления более высокими нагрузками.
Ядро Harvest находится под лицензией GPL. Дополнительные компоненты, поставляемые вместе с Harvest, также находятся под GPL или похожими лицензиями. Glimpse, на данный момент используемая по умолчанию полнотекстовая система индексации имеет другую лицензию. Вот прояснение статуса авторского права Glimpse, любезно предоставленное Golda Velez в comp.infosystems.harvest.
Эта документация доступна на harvest.sourceforge.net/harvest/doc/html/manual.html.
Болле подробную информацию о Harvest можно получить на harvest.sourceforge.net.