Категории источников

В граббере FDE Grabber имеется раздел "Категории источников". Давайте рассмотрим его подробно. В данном разделе создаются категории для ваших источников. Источники могут быть трёх типов:

  1. RSS источники, в данном случае списки статей будут импортироваться из RSS фидов, которые вещает сайт, с которого планируется получать контент
  2. Atom источники, в данном случае списки статей будут импортироваться из Atom фидов, которые вещает сайт, с которого планируется получать контент
  3. HTML источники, в данном случае списки статей будут импортироваться из обычных HTML страниц, на которых имеется список новостей
Для того чтобы получать полное содержимое статей, граббер должен из полученного списка новостей переходить по каждому адресу и парсить страницу. Для того, чтобы получить лишь часть страницы, необходимо указать границы получения полезного контента. Они задаются, с помощью регулярных выражений. Для того, чтобы не было проблем с кодировкой полученных статей, указывайте её явно. Для того, чтобы наша система правильно переводила одну кодировку в другую, необходимо, чтобы на вашем сервере была доступна библиотека iconv. Список кодировок, для указания явно можно пополнять по своему усмотрению в файле ROOT/inc/charsets_list.php Для того, чтобы просмотреть список доступных кодировок в UNIX доступна команда iconv -l Библиотека iconv может быть доступна как системная и/или как модуль для PHP. Если перекодирование работает при ручном тесте, но не работает из CRON, то кроновские скрипты граббера придётся запускать через wget Для того, чтобы граббер логинился на сайт, и мог, например, читать скрытый текст, можно указать POST параметры для логина. Пример: https://www.some-site.ru/index.php?username=ineedwarez&password=ineedwarez Здесь параметры делятся на 2 части:
  1. https://www.some-site.ru/index.php - адрес страницы, на которой будет производиться логин на сайт
  2. username=ineedwarez&password=ineedwarez - непосредственно POST параметры