Обход пейджера

В данной статье речь пойдёт не о приборе с одноимённым названием, а о совершенно ином значении. Пейджер, от английского слова page означает нумерацию страниц в виде ссылок: назад  1  2  3  ...  100  вперёд Поняли о чём идёт речь? ;-) Да,  именно о разбиении на страницы большого списка новостей. Очевидно, что каждая страница пейджера является HTML источником для граббера. И адреса данных страниц выглядят примерно так: https://fdstar.com/page/1/ https://fdstar.com/page/2/ https://fdstar.com/page/3/ ... https://fdstar.com/page/100/ Опять шаблон :-): https://fdstar.com/page/{page}/

В граббере имеется возможность указывать вместо обычного адреса HTML источника шаблонный адрес, включающий переменную {page}, для которой можно задать диапазон принимаемых значений. Следовательно мы можем сграбить не только самые последние новости, но и весь сайт :-) Кроме всего прочего, в системе импорта новостей FDE Grabber можно указывать ещё и переменную {param} для адреса источника. Данная переменная будет принимать при обходе указанные в списке параметры. Такой обход называется "обход по параметру"

Разделы сайта

Форум web-разработчиков