Граббинг с RSS/Atom источников

Как можно импортировать контент с RSS или Atom источников? Каков прицип работы? В двух словах имеем вот что: имеется постоянно обновляющийся список новостей (feed, фид) в котором, обычно есть следующая информация по каждой статье (обычно в фиде представлены 10-20 последних статей):
  1. адрес статьи
  2. название статьи
  3. краткое описание
  4. дата
этого нам достаточно, чтобы добавить задание для граббинга с подобного RSS/Atom источника. Но перед этим, нам потребуется настроить категорию для граббера. В категории источников указываются настройки, согласно которым будет обрабатываться получаемый контент (содержимое).

Одной из самый важных настроек категории является шаблон для парсинга. Согласно данному шаблону будет получаться полезный контент статьи. В граббере имеется возможность указать шаблон для парсинга двумя способами:

  1. с помощью регулярного выражения (требуется знание регулярных выражений)
  2. указать простой шаблон без регулярных выражений (обычно это оптимальный вариант указания шаблона)
предположим, что мы заглянули в HTML код каждой страницы со статьёй и увидели некоторую закономерность, а именно, шаблонность: 1-я статья: https://warezed.ru/show_buisness/9276.html код:
...<div class="w_content">
<div id='news-id-9276'>В IX международном фестивале балета "Мариинский" примут участие ...
</div>
</div>
</td></tr><tr><td>&nbsp;</td></tr></table>...
10-я статья: https://warezed.ru/economic/9275.html код:
...<div class="w_content">
<div id='news-id-9275'>Министры считают необходимой скорейшую активизацию новой модели...
</div>
</div>
</td></tr><tr><td>&nbsp;</td></tr></table>...
Исходя из приведённых данных можно заметить шаблонную структуру:
<div class="w_content">
<div id='news-id-{null}'>{description}</div>
</div></td></tr><tr><td>&nbsp;</td></tr></table>
Где {null} - это произвольно изменяющееся ненужное нам содержимое, а {description} - это как раз нужный нам контент.  Собственно, это и есть простой шаблон для категории граббера Проверить правильность настройки шаблона категории можно в разделе "Тест категории". Для этого требуется просто выбрать из списка нужную категорию для проведения теста, и указать адрес статьи, на которой будет проводиться тест, например https://warezed.ru/show_buisness/9276.html Когда мы добавили категорию с шаблоном для парсинга полезного контента - мы можем переходить к добавлению источника. Собственно, нам потребуется просто указать адрес RSS/Atom фида и связанную с ним категорию CMS, куда будут помещаться полученные новости, а также категорию граббера, согласно которой будет происходить парсинг полного содержимого статей по заданному шаблону. Проверить, что получает граббер с определённого RSS/Atom источника можно в разделе "Пинг RSS/Atom источника"

Разделы сайта

Форум web-разработчиков