Обход пейджера

В данной статье речь пойдёт не о приборе с одноимённым названием, а о совершенно ином значении. Пейджер, от английского слова page означает нумерацию страниц в виде ссылок: назад  1  2  3  ...  100  вперёд Поняли о чём идёт речь? ;-) Да,  именно о разбиении на страницы большого списка новостей. Очевидно, что каждая страница пейджера является HTML источником для граббера. И адреса данных страниц выглядят примерно так: https://fdstar.com/page/1/ https://fdstar.com/page/2/ https://fdstar.com/page/3/ ... https://fdstar.com/page/100/ Опять шаблон :-): https://fdstar.com/page/{page}/

Обход пейджера, читать далее...

Импорт статей с HTML источников

Ранее мы с вами рассмотрели импорт новостей с RSS/Atom источников. Пришло время познакомиться с граббингом с HTML источников. Но перед этим нам нужно понять, что такое HTML источник. Для граббера источник - это просто обновляющийся список новостей, в котором можно выявить следующие данные по каждой статье:
  1. адрес конечной статьи
  2. название
  3. краткое описание
  4. возможно, некоторые другие дополнительные данные
Очевидно, что HTML источник - это тот же RSS или Atom фид, только с нестандартным шаблоном парсинга. Поэтому, при использовании HTML источника нам требуется указывать шаблон для него. HTML шаблон для HTML источника выявляется совершенно аналогично описанному способу выявления шаблона для категории, за тем лишь исключением, что теперь у нас имеется больше переменных: {date} - дата; {name} - название; {link} - адрес к полному описанию статьи; {description} - краткое описание; {category} - категория публикации; {null} - ненужный контент; Добавление HTML источника совершенно аналогично добавлению RSS/Atom источника, только теперь требуется указать ещё и шаблон для парсинга. Проверить правильность указания шаблона для парсинга HTML источника можно в разделе "Тест HTML источника"

Импорт статей с HTML источников, читать далее...

Граббинг с RSS/Atom источников

Как можно импортировать контент с RSS или Atom источников? Каков прицип работы? В двух словах имеем вот что: имеется постоянно обновляющийся список новостей (feed, фид) в котором, обычно есть следующая информация по каждой статье (обычно в фиде представлены 10-20 последних статей):
  1. адрес статьи
  2. название статьи
  3. краткое описание
  4. дата
этого нам достаточно, чтобы добавить задание для граббинга с подобного RSS/Atom источника. Но перед этим, нам потребуется настроить категорию для граббера. В категории источников указываются настройки, согласно которым будет обрабатываться получаемый контент (содержимое).

Граббинг с RSS/Atom источников, читать далее...

Хостинги для FDE Grabber

Интересное название статьи, не правда ли? На самом деле тема достаточно актуальна. Если Вы используете выделенный сервер (Dedicated Server) или виртуальный выделенный сервер (VDS - Virtual Dedicated Server или VPS - Virtual Private Server), то Вы можете его настроить как угодно под себя, и проблем с запуском граббера быть не может. А что делать, если Вы пока не готовы использовать выделенный или виртуальный сервер, но желаете полноценно работать с граббером? - для этого просто нужно подобрать подходящий виртуальный хостинг. Мы подготовили небольшой список хостингов, поддерживающих систему импорта новостей FDE Grabber: https://agava.ru/ https://peterhost.ru/ https://masterhost.ru/ данный список будет, со временем пополняться

Хостинги для FDE Grabber, читать далее...

Интересные фичи граббера

Ручное добавление задания В данном разделе вы можете вручную добавить задания для получения (импорта) определённой статьи Ручной CRON manual_cron В данном разделе вы можете запускать кроновские скрипты граббера вручную. Работа системы импорта новостей происходит в три этапа:

  1. кроновский скрипт путь_к_грабберу/crontab_feeds.php определяет один из доступных источников получения статей (RSS/Atom/HTML источник) и обновляет его. Если, при этом, имеются новые статьи (уникальность статьи определяется по названию), то статьи будут добавлены в качестве задания для получения По мере запуска данного кроновского скрипта, источники обновляются по кругу Каждому запуску скрипта соответствует одно обновление одного из доступных источников
  2. кроновский скрипт путь_к_грабберу/crontab_articles.php смотрит на задания для получения статей и получает статью. Одному запуску данного скрипта соответствует одно получение статьи
  3. кроновский скрипт путь_к_грабберу/crontab_publicate.php публикует полученные статьи в вашу CMS
Администраторы В данном разделе вы можете добавлять/изменять/удалять администраторов системы получения статей. Также, здесь можно скорректировать логин и/или пароль выбранного пользователя-администратора Фейковые пользователи В данном разделе вы можете добавлять/изменять/удалять фейковых (мнимых) пользователей. Фейковые пользователи могут использоваться для случайного проставления авторства публикуемых статей, а также случайного проставления авторства публикуемых фейковых комментариев. Фейковые комментарии В данном разделе вы можете добавлять/изменять/удалять фейковые комментарии, которые могут случайно добавляться при публикации полученных статей от имени одного из фейковых пользователей. Утилиты В данном разделе вы можете воспользоваться одной из утилит:
  1. удалить временные файлы старше дня - если по какой-то причине в директории граббера для временных файлов остались временные файлы, то их можно удалить
  2. удалить файлы старше дня - если по какой-то причине в директории граббера для полученных файлов остались файлы, то их можно удалить
  3. удалить неполученные статьи - если по какой-то причине статьи не были получены граббером, то соответствующие данные о них в базе можно удалить
  4. удалить опубликованные статьи старше XXX даты - так, например, можно очистить уже неактуальные данные о полученных статьях (для того, чтобы не было дубляжа получения статей, информация о статьях должна храниться определённое время)
  5. удалить удалённые статьи - если статьи не подошли по указаным параметрам, то они будут помечены как "удаленные", при этом информация о них всё-равно остаётся в базе. Данная утилита очищает базу от подобных статей
  6. приостановить/возодновить работу CRON скриптов - для приостановки/возобновления работы кроновских скриптов
Экспорт/импорт настроек В данном разделе можно осуществить экспорт/импорт настроек граббера. Справка В данном разделе представлена справочная информация системы импорта статей Информация о системе В данном разделе вы можете просмотреть конфигурацию PHP Совместимость системы В данном разделе вы можете узнать насколько совместима система импорта новостей с вашей платформой Выход Для выхода из админцентра системы импорта новостей и для удаления сессии, можно использовать данную ссылку

Интересные фичи граббера, читать далее...

Отслеживание событий граббера

Для того, чтобы отслеживать что происходит в системе импорта новостей FDE Grabber имеется специальный раздел "Отслеживание" Лог событий В данном разделе вы можете просматривать все события, которые происходят при работе кроновских скриптов граббера Это может быть весьма полезно для отслеживания возникающий ошибок, или, просто для контроля качественной работы граббера. Список статей В данном разделе вы можете контролировать ход получения статей, просматривать что было получено, определять статус статей и т.д. Поиск В данном разделе вы можете осуществить поиск интересующих вас статей, указав наводящие параметры для поиска. Узнать, например, какие статьи только что добавлены, в качестве задания для получения, какие уже опубликованы и т.д. При этом, доступно гибкое указание поисковых параметров

Отслеживание событий граббера, читать далее...

Синонимайзер

В системе импорта новостей FDE Grabber имеется раздел "Синонимайзер". Рассмотрим его. Редактирование синонимов В данном разделе вы можете редактировать синонимы в базе синонимайзера: добавлять/изменять/удалять Редактирование стоп-слов В данном разделе вы можете указывать стоп-слова для синонимайзера, такие как "железная дорога", или, например "белый дом". Для того, чтобы синонимайзер не заменил случайно "железная дорога" на "металлическая дорога" Внимание! Стоп-слов не может быть слишком много. Для функционирования работы стоп-слов, синонимайзер подгружает абсолютно все стоп-слова, содержащиеся в базе Базы синонимайзера В данном разделе вы можете импортировать/экспортировать базы данных для синонимайзера из файла/в файл При этом, файл синонимов должен иметь формат: слово_для_замены|синоним_1,синоним_2,синоним_3... слово_для_замены|синоним_1,синоним_2,синоним_3... слово_для_замены|синоним_1,синоним_2,синоним_3... слово_для_замены|синоним_1,синоним_2,синоним_3... Базовые версии баз данных для синонимайзера можно скачать отсюда: https://fdstar.net/download/synonymizer/english_utf8_syn_base_0.1.zip - база английских синонимов https://fdstar.net/download/synonymizer/russian_utf8_syn_base_0.1.zip - база русских синонимов Для импортирования базы данных синонимайзера, необходимо распаковать архив в директорию на вашем сервере путь_к_грабберу/uploads/synonymizer/import и в разделе импортирования баз для синонимайзера её импортировать. Процесс импортирования - довольно ресурсоёмок, и может занять некоторое время. Рекомендуется его проводить в то время, когда ваш сервер не сильно загружен, например, в ночное время. При импортировании файла базы синонимайзера, необходимо правильно указать кодировку, в которой он записан. Базовые версии файлов баз синонимайзера распространяются в кодировке UTF-8 Тест синонимайзера В данном разделе вы можете протестировать работу синонимайзера. Для работы синонимайзера, необходима база синонимов.

Синонимайзер, читать далее...

Тест HTML источника

Раздел в грабере "Тест HTML источника" служит для тестирования правильности настройки HTML источнико. Для проведения теста достаточно выбрать из списка интересующий HTML источник. Если для тестируемого источника задействован обход пейджера, то потребуется указать значение переменной {page} на которой будет проводиться тест. Если для тестируемого источника задействован обход по параметру, то потребуется указать значение переменной {param} на которой будет проводиться тест

Тест HTML источника, читать далее...

Пинг RSS/Atom источника

Для того, чтобы проверить что получает граббер от RSS/Atom источников, можно воспользоваться данным разделом. Для этого, достаточно указать адрес источника и его кодировку

Пинг RSS/Atom источника, читать далее...

RSS vs Atom vs HTML источники

В данном разделе грвббера создаются задания для обновления источников. Источники могут быть трёх типов:

  1. RSS источники, в данном случае списки статей будут импортироваться из RSS фидов, которые вещает сайт, с которого планируется получать контент
  2. Atom источники, в данном случае списки статей будут импортироваться из Atom фидов, которые вещает сайт, с которого планируется получать контент
  3. HTML источники, в данном случае списки статей будут импортироваться из обычных HTML страниц, на которых имеется список новостей
Для указания HTML источников, необходимо дополнительное указание шаблонов для распознавания списка новостей

RSS vs Atom vs HTML источники, читать далее...