Отслеживание событий граббера

Для того, чтобы отслеживать что происходит в системе импорта новостей FDE Grabber имеется специальный раздел "Отслеживание" Лог событий В данном разделе вы можете просматривать все события, которые происходят при работе кроновских скриптов граббера Это может быть весьма полезно для отслеживания возникающий ошибок, или, просто для контроля качественной работы граббера. Список статей В данном разделе вы можете контролировать ход получения статей, просматривать что было получено, определять статус статей и т.д. Поиск В данном разделе вы можете осуществить поиск интересующих вас статей, указав наводящие параметры для поиска. Узнать, например, какие статьи только что добавлены, в качестве задания для получения, какие уже опубликованы и т.д. При этом, доступно гибкое указание поисковых параметров

Отслеживание событий граббера, читать далее...

Синонимайзер

В системе импорта новостей FDE Grabber имеется раздел "Синонимайзер". Рассмотрим его. Редактирование синонимов В данном разделе вы можете редактировать синонимы в базе синонимайзера: добавлять/изменять/удалять Редактирование стоп-слов В данном разделе вы можете указывать стоп-слова для синонимайзера, такие как "железная дорога", или, например "белый дом". Для того, чтобы синонимайзер не заменил случайно "железная дорога" на "металлическая дорога" Внимание! Стоп-слов не может быть слишком много. Для функционирования работы стоп-слов, синонимайзер подгружает абсолютно все стоп-слова, содержащиеся в базе Базы синонимайзера В данном разделе вы можете импортировать/экспортировать базы данных для синонимайзера из файла/в файл При этом, файл синонимов должен иметь формат: слово_для_замены|синоним_1,синоним_2,синоним_3... слово_для_замены|синоним_1,синоним_2,синоним_3... слово_для_замены|синоним_1,синоним_2,синоним_3... слово_для_замены|синоним_1,синоним_2,синоним_3... Базовые версии баз данных для синонимайзера можно скачать отсюда: https://fdstar.net/download/synonymizer/english_utf8_syn_base_0.1.zip - база английских синонимов https://fdstar.net/download/synonymizer/russian_utf8_syn_base_0.1.zip - база русских синонимов Для импортирования базы данных синонимайзера, необходимо распаковать архив в директорию на вашем сервере путь_к_грабберу/uploads/synonymizer/import и в разделе импортирования баз для синонимайзера её импортировать. Процесс импортирования - довольно ресурсоёмок, и может занять некоторое время. Рекомендуется его проводить в то время, когда ваш сервер не сильно загружен, например, в ночное время. При импортировании файла базы синонимайзера, необходимо правильно указать кодировку, в которой он записан. Базовые версии файлов баз синонимайзера распространяются в кодировке UTF-8 Тест синонимайзера В данном разделе вы можете протестировать работу синонимайзера. Для работы синонимайзера, необходима база синонимов.

Синонимайзер, читать далее...

Тест HTML источника

Раздел в грабере "Тест HTML источника" служит для тестирования правильности настройки HTML источнико. Для проведения теста достаточно выбрать из списка интересующий HTML источник. Если для тестируемого источника задействован обход пейджера, то потребуется указать значение переменной {page} на которой будет проводиться тест. Если для тестируемого источника задействован обход по параметру, то потребуется указать значение переменной {param} на которой будет проводиться тест

Тест HTML источника, читать далее...

Пинг RSS/Atom источника

Для того, чтобы проверить что получает граббер от RSS/Atom источников, можно воспользоваться данным разделом. Для этого, достаточно указать адрес источника и его кодировку

Пинг RSS/Atom источника, читать далее...

RSS vs Atom vs HTML источники

В данном разделе грвббера создаются задания для обновления источников. Источники могут быть трёх типов:

  1. RSS источники, в данном случае списки статей будут импортироваться из RSS фидов, которые вещает сайт, с которого планируется получать контент
  2. Atom источники, в данном случае списки статей будут импортироваться из Atom фидов, которые вещает сайт, с которого планируется получать контент
  3. HTML источники, в данном случае списки статей будут импортироваться из обычных HTML страниц, на которых имеется список новостей
Для указания HTML источников, необходимо дополнительное указание шаблонов для распознавания списка новостей

RSS vs Atom vs HTML источники, читать далее...

Тест категории

Для того, чтобы протестировать правильность настройки категории: настройки границ получения контента с помощью регулярных выражений и/или правильности указания кодировки, можно воспользоваться разделом "Тест категории". При этом, вам необходимо указать категорию для проведения теста, а также полный адрес статьи, соответствующей настройкам данной категории

Тест категории, читать далее...

Категории источников

В граббере FDE Grabber имеется раздел "Категории источников". Давайте рассмотрим его подробно. В данном разделе создаются категории для ваших источников. Источники могут быть трёх типов:

  1. RSS источники, в данном случае списки статей будут импортироваться из RSS фидов, которые вещает сайт, с которого планируется получать контент
  2. Atom источники, в данном случае списки статей будут импортироваться из Atom фидов, которые вещает сайт, с которого планируется получать контент
  3. HTML источники, в данном случае списки статей будут импортироваться из обычных HTML страниц, на которых имеется список новостей
Для того чтобы получать полное содержимое статей, граббер должен из полученного списка новостей переходить по каждому адресу и парсить страницу. Для того, чтобы получить лишь часть страницы, необходимо указать границы получения полезного контента. Они задаются, с помощью регулярных выражений. Для того, чтобы не было проблем с кодировкой полученных статей, указывайте её явно. Для того, чтобы наша система правильно переводила одну кодировку в другую, необходимо, чтобы на вашем сервере была доступна библиотека iconv. Список кодировок, для указания явно можно пополнять по своему усмотрению в файле ROOT/inc/charsets_list.php Для того, чтобы просмотреть список доступных кодировок в UNIX доступна команда iconv -l Библиотека iconv может быть доступна как системная и/или как модуль для PHP. Если перекодирование работает при ручном тесте, но не работает из CRON, то кроновские скрипты граббера придётся запускать через wget Для того, чтобы граббер логинился на сайт, и мог, например, читать скрытый текст, можно указать POST параметры для логина. Пример: https://www.some-site.ru/index.php?username=ineedwarez&password=ineedwarez Здесь параметры делятся на 2 части:
  1. https://www.some-site.ru/index.php - адрес страницы, на которой будет производиться логин на сайт
  2. username=ineedwarez&password=ineedwarez - непосредственно POST параметры

Категории источников, читать далее...

Разделы сайта

Форум web-разработчиков