Граббинг с RSS/Atom источников
Как можно импортировать контент с RSS или Atom источников? Каков прицип работы? В двух словах имеем вот что: имеется постоянно обновляющийся список новостей (feed, фид) в котором, обычно есть следующая информация по каждой статье (обычно в фиде представлены 10-20 последних статей):этого нам достаточно, чтобы добавить задание для граббинга с подобного RSS/Atom источника. Но перед этим, нам потребуется настроить категорию для граббера. В категории источников указываются настройки, согласно которым будет обрабатываться получаемый контент (содержимое).
- адрес статьи
- название статьи
- краткое описание
- дата
Одной из самый важных настроек категории является шаблон для парсинга. Согласно данному шаблону будет получаться полезный контент статьи. В граббере имеется возможность указать шаблон для парсинга двумя способами:
предположим, что мы заглянули в HTML код каждой страницы со статьёй и увидели некоторую закономерность, а именно, шаблонность: 1-я статья: https://warezed.ru/show_buisness/9276.html код:
- с помощью регулярного выражения (требуется знание регулярных выражений)
- указать простой шаблон без регулярных выражений (обычно это оптимальный вариант указания шаблона)
...<div class="w_content">
<div id='news-id-9276'>В IX международном фестивале балета "Мариинский" примут участие ...
</div>
</div>
</td></tr><tr><td> </td></tr></table>...
10-я статья: https://warezed.ru/economic/9275.html код:
...<div class="w_content">
<div id='news-id-9275'>Министры считают необходимой скорейшую активизацию новой модели...
</div>
</div>
</td></tr><tr><td> </td></tr></table>...
Исходя из приведённых данных можно заметить шаблонную структуру:
<div class="w_content">
<div id='news-id-{null}'>{description}</div>
</div></td></tr><tr><td> </td></tr></table>
Где {null} - это произвольно изменяющееся ненужное нам содержимое, а {description} - это как раз нужный нам контент. Собственно, это и есть простой шаблон для категории граббера
Проверить правильность настройки шаблона категории можно в разделе "Тест категории". Для этого требуется просто выбрать из списка нужную категорию для проведения теста, и указать адрес статьи, на которой будет проводиться тест, например https://warezed.ru/show_buisness/9276.html
Когда мы добавили категорию с шаблоном для парсинга полезного контента - мы можем переходить к добавлению источника.
Собственно, нам потребуется просто указать адрес RSS/Atom фида и связанную с ним категорию CMS, куда будут помещаться полученные новости, а также категорию граббера, согласно которой будет происходить парсинг полного содержимого статей по заданному шаблону.
Проверить, что получает граббер с определённого RSS/Atom источника можно в разделе "Пинг RSS/Atom источника"