Вышла новая версия парсера новостей FDE Grabber 5.6

Дорогие друзья, извещаем о том, что доступна для скачивания и покупки новая версия системы импорта новостей FDE Grabber 5.6 Изменения и дополнения, коснувшиеся новой версии описаны ниже.

Переработан и улучшен интерфейс редактора простых шаблонов:

Отрефакторен движок простого парсинга, теперь он позволят забыть о пробелах и переносах строк при составлении простого шаблона и привносит ряд удобных дополнительных возможностей:

можно использовать новые переменные в шаблоне:
- {a} — соответствует ненужному тексту, соответствующему регулярному выражению ([^<>]*?)
- {d} — соответствует ненужному числу, соответствующему регулярному выражению (\d+)
При указании в шаблоне простого парсинга переменной теперь можно указывать уточнения того, какой контент должен быть сохранён в данную переменную, с помощью регулярных выражений: {переменная[регулярное выражение]}.
- Пример 1: запись {description[[a-z\d\s\.]+]} означает, что в description может содержаться только текст, состоящий из латинских символов, цифр, пробельных символов и точки, иначе шаблон не подойдёт.
- Пример 2: запись {null[\d+]} соответствует ненужному контенту, состоящему из последовательности цифр, аналог {d}
- Пример 3: запись {null[[a-z]+]} соответствует ненужному контенту, состоящему из последовательности латинских символов (от регистра не зависит)

В настройках категории источником граббера добавлено указание списка разрешённых хостов в ссылках исходной статьи

Данная функция позволяет фильтровать новостные статьи и оставлять только авторские. Принцип её работы заключается в том, что когда в новостной статье содержатся ссылки на чужие сайты - с большой долей вероятности, она не является авторской. Пример: пусть, нам требуется импортировать какие-либо новостные статьи с какого-либо сайта, для определённости его адрес: https://www.test.com/. И нам нужны только авторские новости с этого сайта, а не перепечатанные, то есть в которых содержатся ссылки на третьи сайты-источники. В большинстве случаев авторские новости могут или вообще не содержать никаких ссылок или содержать ссылки на внутренние статьи, которые расположены в пределах хоста сайта-источника test.com или его поддоменов *.test.com, поэтому в настройках категории для осуществления фильтрации по данному принципу мы указываем список разрешённых хостов в ссылках исходной статьи: test.com, *.test.com

Любая статья, содержащая в ссылках хосты, не входящие в указанный список не будет сохранена граббером.

В настройках источника граббера теперь можно уточнить какие адреса ссылок на статьи нам нужны, с помощью регулярного выражения

Пример: пусть нам требуется распарсить источник, в котором ссылки на статьи имеют вид https://test.com/news/* и https://test.com/articles/*. И нас интересуют только те статьи, адреса которых начинаются с https://test.com/news/, поэтому в настройках источника граббера, мы можем указать соответствующее уточнение, с помощью регулярного выражения: # ^https://test\.com/news/#i

Все новости, адрес которых начинается с текста https://test.com/news/ парсер статей сохранит, а остальные, например адрес которых начинается с https://test.com/articles/ нет

В настройках категории источников парсера добавлены новые поля, отвечающие за название сайта источника и за его адрес

Эти поля используются при указании ссылок в статьях на сайт-источник:

Добавлен хак для указания ссылок на сайт-источник в первом абзаце текста статьи

Некоторые сайты позволяют перепечатку новостей, но при условии указания обратной ссылки, причём не где-либо, а именно не ниже первого абзаца статьи. Новый хак позволяет это сделать. Текст статьи без использования хака:

Текст статьи с использованием хака:

Метки: FDE Grabber, граббер, парсер, [ Система импорта новостей FDE Grabber, Докуметация ]

Разделы сайта

Форум web-разработчиков

» Omro - ваш надежный партнер в сфере виртуального хостинга, VPS, выделенных...

С уважением, OMRO.HOST

» h...

С уважением, XeniaKlimova

» Среди ингредиентов в составе шампуней и средств против выпадения волос наиболее эффективными считаются биотин, кератин, ниацинамид,...

С уважением, Chervang

» Какие ингредиенты в составе шампуней и средств против выпадения...

С уважением, alexbordug

» h...

С уважением, XeniaKlimova

» VPS для Форекс Форекс требует мгновенности и надежности, и в этом VPS становится вашим надежным союзником!...

С уважением, OMRO.HOST

» API — новый способ для эффективного управления услугами По многочисленным просьбам...

С уважением, proxy5

» Привіт, порадьте де можна придбати пластикові пожежні...

С уважением, alexbordug

» h...

С уважением, XeniaKlimova

» Наверное, нет ничего более романтичного, чем совместное творчество в искусстве. Вместе создавать картину в просторной студии,...

С уважением, Chervang

RSS новости

© FDE Grabber, 2008-2024. Разработано в компании FDSTAR. Программный продукт FDE Grabber является собственностью компании FDSTAR (https://fdstar.net/).
Система импорта новостей FDE Grabber может распространяться только через сайты компании FDSTAR: fde-cms.ru, fde-cms.com, fdstar.net, fde-grabber.ru. Распространение программы FDE Grabber любым другим способом запрещено. Лицензионное соглашение
Время генерации: 0,0143 секунды.