Новая версия парсера статей FDE Grabber 7.7

Дорогие друзья, извещаем о том, что доступен для покупки, скачивания и тестирования парсер новостей FDE Grabber 7.7 В новую версию вошли следующие изменения и дополнения:

  1. Улучшен встроенный синонимайзер - теперь можно указывать не только слова по отдельности, но и целые фразы, включая знаки пунктуации.
  2. Значительно улучшена точность системы автоматического распознавания категорий (рубрик), к которым относится данный текст по набору указанных ключевых слов;
  3. Добавлена поддержка публикации через xml-rpc для сайтов, работающих ТОЛЬКО по безопасному протоколу https (например wordpress.com)
  4. Оптимизировано поведение парсера новостей при неоднозначных настройках, например, если в настройках категории источников получение краткой новости указано из полной, путём обрезки, а картинка есть только в исходной краткой (а в полной новости её нет), то граббер, теперь всё равно получит картинку.
  5. Добавлен хак, который обеспечивает корректировку заглавных букв. Так, если в результате каких-либо произведённых замен, корректировок или просто ошибки на сайте-источнике слова в предложениях начинаются не с заглавных букв, то применив данный хак можно это исправить.

Исправлены все найденные недочёты и недоработки прошлых версий.

Вышла новая версия парсера новостей FDE Grabber 7.7, читать далее...

Доступна новая версия граббера новостей FDE Grabber 7.6

Совместимость с PHP 7

Дорогие друзья, извещаем о том, что доступна для покупки, скачивания и тестирования новая версия парсера новостей FDE Grabber 7.6

В новой версии системы импорта новостей добавлена совместимость с новой версией интерпретатора PHP - PHP 7

Совместимость с PHP 7, читать далее...

FDE Grabber 7.5 — мы экономим ваше время

Дорогие друзья, извещаем о том, что доступна для покупки, скачивания и тестирования новая версия парсера новостей FDE Grabber 7.5 В новую версию граббера вошли следующие изменения и дополнения:

Изменена система получения недостающих картинок и иллюстраций для кратких и полных статей

Так, теперь в настройках категорий источников можно указать отдельно, как для краткой, так и для полной статьи — откуда взять недостающую картинку или иллюстрацию: smart_enclosures Допустим, что требуется по максимуму использовать возможности парсера и нужно, чтобы он искал картинки или иллюстрации для кратких статей (в случае их отсутствия) везде где это только возможно, то можно выбрать соответствующую опцию «Использовать варианты 1, 2, 3«, что будет соответствовать поиску иллюстраций в приложениях к RSS/Atom фиду *, метатегах полной новости, а также полном содержимом новости. Аналогично, если требуется, чтобы граббер вёл поиск картинки или иллюстрации для полных статей (в случае их отсутствия) везде где это только возможно, то можно выбрать соответствующую опцию «Использовать варианты 1, 2, 3«, что будет соответствовать поиску иллюстраций в приложениях к RSS/Atom фиду *, метатегах полной новости, а также кратком содержимом новости. * в случае использования HTML-источника данная опция игнорируется.

Добавлена возможность массового изменения настроек сайтов

В списке сайтов парсера теперь можно выбрать интересующие и массово изменить их параметры: mass_sites_actionsДанная функция полностью аналогична уже существующим, для таких разделов парсера, как категории источников, а также источники. Исправлены недочёты и недоработки прошлых версий граббера, оптимизирован функионал.

FDE Grabber 7.5 — мы экономим ваше время, читать далее...

Доступна новая версия граббера новостей FDE Grabber 7.4

Дорогие друзья, извещаем о том, что доступна для покупки, скачивания и тестирования новая версия парсера контента FDE Grabber 7.4 Изменения и дополнения, вошедшие в новую версию системы импорта статей:

Добавлен новый модуль для работы с тегами

В граббере появился новый раздел для работы с тегами, которые могут сопоставляться с той или иной новостью. При добавлении тега можно указать его название, список ключевых слов, по которым новости будут сопоставляться с данным тегом, а также возможность использования стеммера Портера (что позволяет не склонять ключевые слова), а также сайт, для которого этот тег будет доступен: tagsНапример, если указать набор ключевых слов:
Ай-Петри, Алупка, Алушта, Армянск, Балаклава, Бахчисарай, Веселое, Гаспра, Гурзуф, Джанкой, Евпатория, Инкерман, Керчь, Клепинино, Коктебель, Кореиз, Красноперекопск, Ленино, Массандра, Мискхор, Нижнегорский, Орджоникидзе, Партенит, Раздольное, Саки, Севастополь, Симеиз, Симферополь, Старый Крым, Судак, Феодосия, Форос, Черноморское, Щёлкино, Ялта, Крым
и озаглавить его под общим тегом «Крым», то данный тег будет сопоставляться с новостями, в которых содержатся данные ключевые слова.

Добавлен новый модуль для работы с ключевыми словами

Кроме того, в новой версии парсера контента добавлен раздел, полностью аналогичный модулю для работы с тегами, только ориентированный на работу с ключевыми словами, которые могут указываться в метатеге статьи:
<meta name=»keywords» content=»Новости, события, вести, …»>
keywordsОтметим, что возможность указания ключевых слов доступна не во всех CMS/способах публикации, с которыми работает граббер, а лишь некоторых, например компонент для Joomla K2, Instant CMS, DataLife Engine и т,д.

При работе с сайтом теперь можно указать способ, по которому должны получаться теги и ключевые слова

Ранее граббер мог получать теги/ключевые слова, сопоставляющиеся с данной новостью только путём разбиения её заголовка на слова, например если заголовок выглядел так «В Крыму проведут перепись населения«, то ключевые слова/теги, которые он получал выглядели, как «Крыму«, «проведут«, «перепись«, «населения«, но теперь появилась возможность задействовать модули для работы с тегами и ключевыми словами и получать их более точно и гибко: sitesПарсер контента теперь может получать теги и ключевые слова как из заголовка, так и из подготовленных заблаговременно записей через модули для работы с тегами и ключевыми словами, а также путём комбинирования данных способов.

Исправлены недочёты и недоработки прошлых версий системы импорта новостей

Доступна новая версия граббера новостей FDE Grabber 7.4, читать далее...

Доступна новая версия граббера новостей - FDE Grabber 7.3

Дорогие друзья, извещаем о том, что доступна для покупки, скачивания и тестирования новая версия граббера новостей FDE Grabber 7.3 В новой версии парсера статей была добавлена возможность при тестировании настроек категорий, источников (RSS/Atom, HTML), а также при пинге фидов указывать то, через какой именно прокси-сервер должны проводиться тесты, а также от имени какого сетевого интерфейса или через какой IP адрес требуется провести тестирование: proxy_and_interfaceТаким образом, если необходимо убедиться, что контент новости получается через тот или иной прокси-сервер и/или IP адрес, то можно указать их явно во время проведения теста. Во время проведении визуального теста с показом картинок — картинки также получаются и показываются с учётом указанных настроек, а также с учётом полученных на первом этапе кукисов и заголовков. В настройках категорий источников добавлена возможность указания получения картинки-иллюстрации из метатегов (в случае полного отсутствия картинок в теле статьи): images_by_the_metaТаким образом, если в полученном контенте не найдено ни одной картинки, то при активации данной опции парсер новостей попытается получить картинку-иллюстрацию из метатегов, вида:

<meta property="og:image" content="https://www.com.com/0063_11.jpg" />
<meta property="twitter:image" content="https://www.com.com/0063_11.jpg" />
<link rel="image_src" type="image/jpeg" href="https://www.com.com/0063_1" />
Заметим, что парсер и ранее получал картинки из метатегов, но делал это без спроса — теперь же это можно включить или отключить в настройках выбранной категории источников. В новой версии граббера новостей исправлено множество недочётов и недоработок прошлых версий, оптимизирован функционал и увеличено быстродействие.

Доступна новая версия граббера новостей - FDE Grabber 7.3, читать далее...

Доступна новая версия граббера новостей FDE Grabber 7.2

Дорогие друзья, извещаем о том, что доступна для покупки, скачивания и тестирования новая версия парсера статей и новостей FDE Grabber 7.2 Среди новых возможностей и дополнений можно отметить следующие:
  • поддержка новых тегов при составлении шаблонов для граббера (как при настройке категорий источников, так и при настройке источников)
  • поддержка новой версии системы управления сообществами InstantCMS 2.x.

Поддержка новых тегов при составлении шаблонов для граббера

При составлении шаблонов теперь имеется возможность наряду со старым способом выделения в шаблоне полезного контента сделать это и новым способом. Рассмотрим простой пример. Допустим определённый нами шаблон имеет вид: usual_pattenЗдесь видно, что полезный контент будет собираться в тег {description}
Но что, если нам требуется производить захват и обрамляющего дескриптора <div id=»pageContent»>…</div>?
- для таких случаев мы предусмотрели новый способ указания шаблонов с помощью обрамляющих парных тегов, например {x_description}…{/x_description}: extended_patternМы видим, что в полученном с помощью данного шаблона контенте будут содержаться и обрамляющие дескрипторы:  <div id=»pageContent»>…</div> Там, где содержимое изменяется произвольно и оно нам не нужно, мы указали тег {null}

Поддержка InstantCMS 2.x

При добавлении сайта в парсер новостей теперь можно выбрать несколько типов публикации, связанных с новой версией InstantCMS 2.x: instant_cms_2xxxСейчас доступны такие типы публикации:
  • публикация в раздел блогов
  • публикация в раздел новостей
  • публикация в раздел со статьями
Исправлены мелкие недочёты и недоработки прошлых версий

Доступна новая версия граббера новостей FDE Grabber 7.2, читать далее...

Новая версия граббера новостей FDE Grabber 7.0

Дорогие друзья, извещаем о том, что доступна для покупки, скачивания и обновления новая версия парсера контента FDE Grabber 7.0 Новый функционал и изменения:

Добавлена возможность работы со списком юзер-агентов (User Agent), от имени которых парсер новостей обращается к сайтам-источникам .

Для этого в системе создан новый раздел Юзер-агенты: user_agents_moduleВ данном модуле можно добавлять/редактировать/удалять юзер-агенты, а также изменить их статус. Кроме того, в новом модуле доступны функции массового изменения активности и добавления списка юзер-агентов, разделённых через перенос строки.

В разделе «Фейковых пользователей» добавлена возможность импорта списка имён пользователей, разделённых, через перенос строки:

mass_users_additionЕсли, например, требуется добавить сразу несколько новых пользователей, то достаточно указать их имена, через перенос строки:

mass_users_addition_2При редактировании категории источников граббера добавлено указание имени юзер-агента, с которым граббер будет обращаться к сайту-источнику:

user_agentЕсли поле оставить пустым, то парсер случайно выберет один из активных юзер-агентов из раздела «Юзер-агенты» и будет работать от данного имени.

Оптимизирован функционал, увеличена скорость работы, исправлены недочёты и недоработки прошлых версий.

Новая версия граббера новостей FDE Grabber 7.0, читать далее...

FDE Grabber 6.8 — увеличение скорости работы, модуль сброса пароля

Дорогие друзья, с радостью извещаем о том, что доступна для покупки, скачивания и обновления новая версия граббера новостей FDE Grabber 6.8 Мы проделали большую работу по оптимизации работы системы, и с большой гордостью рады представить новую версию, со значительно увеличенной скоростью работы и сниженной создаваемой нагрузкой на сервер, на котором расположена основная часть граббера. В среднем, на небольших объёмах контента прирост в скорости составляет 1.5-2 раза, на больших — от 2 до 3 раз. Добавлена возможность сброса забытого пароля: account_recoveryПроцесс сброса пароля состоит из двух частей:
  • заполнение формы с указанием логина или адреса электронной почты, отправка письма на связанный с аккаунтом e-mail адрес для подтверждения операции;
  • переход по ссылке, пришедшей в письме на связанный с аккаунтом e-mail адрес и, непосредственно, сам сброс пароля;
Для повышения безопасности и исключения возможности брутфорса логина и/или пароля, добавлена возможность логина в админцентр системы импорта новостей, с использованием каптчи (визуального кода). Для активации или отключения каптчи при логине следует зайти в настройки граббера, во вкладку «Основные настройки» и отметить или снять галочку «Использовать каптчу при логине«: use_captcha_1 При включённом режиме отображения каптчи при логине страница авторизации выглядит следующим образом: use_captcha_2Исправлены недочёты и недоработки прошлых версий.

FDE Grabber 6.8 — увеличение скорости работы, модуль сброса пароля, читать далее...

FDE Grabber 6.6 - новая версия граббера новостей

Дорогие друзья, извещаем о том, что уже доступна для скачивания, покупки или обновлений новая версия граббера новостей FDE Grabber 6.6 Среди изменений и дополнений можно выделить следующие:

Возможность указывать текстовые замены, а также замены с помощью регулярных выражений так, чтобы они применялись рекурсивно, до тех пор, пока будут находиться соответствия

Теперь в парсере новостей можно использовать замены регулярными выражениями и текстовые замены рекурсивно, например если необходимо изменить содержимое статьи или новости так, чтобы все картинки были изъяты из таблиц и вынесены из них, то можно использовать несложную замену, которая будет применена к тексту рекурсивно: #(<table[^<>]*>.*?)(<img[^<>]*>)(.*?</table>)#is  на \2\1\3 Ранее так можно было сделать лишь с помощью специального написанного для этого хака или указав это же выражение несколько раз (так, чтобы перекрыть все замены).

recursive_preg_replaceВозможность в обычных заменах, а также заменах с помощью регулярных выражений игнорировать пробелы и пробельные символы

Теперь не обязательно заботиться о том, чтобы в ваших заменах были указаны пробелы  и переносы строк точно также, как и в исходном тексте — теперь достаточно отметить галочку «не учитывать пробельные символы«:

space_ignoreВозможность выделения категорий источников и источников цветом

Для этого, в настройках категорий источников добавлена настройка ««: colorize Если выделения цветом указаны, то списки категорий и источников могут выглядеть так: colorize2

Возможность группировки списков источников по категориям

Теперь при выводе списков источников, для удобства восприятия, можно перегруппировать записи по категориям источников group_by_сategories

Исправлены ошибки и недочёты прошлых версий

FDE Grabber 6.6 - новая версия граббера новостей, читать далее...

Новая версия граббера новостей FDE Grabber 6.5 - прокси-чекер и веб-интерфейс для работы со списком proxy-серверов

Дорогие друзья, извещаем о том, что доступна для покупки, скачивания и обновления новая версия граббера новостей FDE Grabber 6.5 Новые возможности и функционал:

Добавлен веб-интерфейс для работы со списком прокси-серверов

proxy_servers_interfaceДанный интерфейс позволяет добавлять, редактировать, удалять, изменять активность, производить массовые действия над прокси-серверами, а также добавлять proxy-сервера в систему импорта новостей списками (одновременно, сразу много): add_new_proxy_server

добавление нового proxy-сервера

edit_proxy_serverредактирование proxy-сервера

mass_proxy_servers_additionмассовое добавление списка с proxy-серверами

Добавлен механизм проверки прокси-серверов (proxy-checker, прокси-чекер)

Проверка прокси-серверов на работоспособность происходит непосредственно при работе системы импорта новостей (её кронтабов). Например, если proxy server окажется нерабочим, то граббер его автоматически сделает неактивным. Для того, чтобы включить эту функцию, потребуется зайти в настройки граббера (вкладка «граббинг«) и отметить галочку «Автоматически отключать прокси-сервер, если размер полученного через него контента при запуске кронтабов будет равен нулю«: proxy_checker

Добавлены новые события, отвечающие за показ в логе событий граббера сообщений о доступности или недоступности прокси-серверов, а также исправлены мелкие недочёты и недоработки прошлых версий системы импорта новостей

Новая версия граббера новостей FDE Grabber 6.5 - прокси-чекер и веб-интерфейс для работы со списком proxy-серверов, читать далее...