Вышла новая версия парсера новостей FDE Grabber 5.6

Дорогие друзья, извещаем о том, что доступна для скачивания и покупки новая версия системы импорта новостей FDE Grabber 5.6 Изменения и дополнения, коснувшиеся новой версии описаны ниже.

Переработан и улучшен интерфейс редактора простых шаблонов:

Отрефакторен движок простого парсинга, теперь он позволят забыть о пробелах и переносах строк при составлении простого шаблона и привносит ряд удобных дополнительных возможностей:

  • можно использовать новые переменные в шаблоне:
    • {a} — соответствует ненужному тексту, соответствующему регулярному выражению ([^<>]*?)
    • {d} — соответствует ненужному числу, соответствующему регулярному выражению (\d+)
  • При указании в шаблоне простого парсинга переменной теперь можно указывать уточнения того, какой контент должен быть сохранён в данную переменную, с помощью регулярных выражений: {переменная[регулярное выражение]}.
    • Пример 1: запись {description[[a-z\d\s\.]+]} означает, что в description может содержаться только текст, состоящий из латинских символов, цифр, пробельных символов и точки, иначе шаблон не подойдёт.
    • Пример 2: запись {null[\d+]} соответствует ненужному контенту, состоящему из последовательности цифр, аналог {d}
    • Пример 3: запись {null[[a-z]+]} соответствует ненужному контенту, состоящему из последовательности латинских символов (от регистра не зависит)

В настройках категории источником граббера добавлено указание списка разрешённых хостов в ссылках исходной статьи

Данная функция позволяет фильтровать новостные статьи и оставлять только авторские. Принцип её работы заключается в том, что когда в новостной статье содержатся ссылки на чужие сайты - с большой долей вероятности, она не является авторской. Пример: пусть, нам требуется импортировать какие-либо новостные статьи с какого-либо сайта, для определённости его адрес: https://www.test.com/. И нам нужны только авторские новости с этого сайта, а не перепечатанные, то есть в которых содержатся ссылки на третьи сайты-источники. В большинстве случаев авторские новости могут или вообще не содержать никаких ссылок или содержать ссылки на внутренние статьи, которые расположены в пределах хоста сайта-источника test.com или его поддоменов *.test.com, поэтому в настройках категории для осуществления фильтрации по данному принципу мы указываем список разрешённых хостов в ссылках исходной статьи: test.com, *.test.com Любая статья, содержащая в ссылках хосты, не входящие в указанный список не будет сохранена граббером.

В настройках источника граббера теперь можно уточнить какие адреса ссылок на статьи нам нужны, с помощью регулярного выражения

Пример: пусть нам требуется распарсить источник, в котором ссылки на статьи имеют вид https://test.com/news/* и https://test.com/articles/*. И нас интересуют только те статьи, адреса которых начинаются с https://test.com/news/, поэтому в настройках источника граббера, мы можем указать соответствующее уточнение, с помощью регулярного выражения: # ^https://test\.com/news/#i Все новости, адрес которых начинается с текста  https://test.com/news/ парсер статей сохранит, а остальные, например адрес которых начинается с  https://test.com/articles/ нет

В настройках категории источников парсера добавлены новые поля, отвечающие за название сайта источника и за его адрес

Эти поля используются при указании ссылок в статьях на сайт-источник:

Добавлен хак для указания ссылок на сайт-источник в первом абзаце текста статьи

Некоторые сайты позволяют перепечатку новостей, но при условии указания обратной ссылки, причём не где-либо, а именно не ниже первого абзаца статьи. Новый хак позволяет это сделать. Текст статьи без использования хака: Текст статьи с использованием хака: