Новая версия парсера статей FDE Grabber 7.7

Дорогие друзья, извещаем о том, что доступен для покупки, скачивания и тестирования парсер новостей FDE Grabber 7.7 В новую версию вошли следующие изменения и дополнения:

  1. Улучшен встроенный синонимайзер - теперь можно указывать не только слова по отдельности, но и целые фразы, включая знаки пунктуации.
  2. Значительно улучшена точность системы автоматического распознавания категорий (рубрик), к которым относится данный текст по набору указанных ключевых слов;
  3. Добавлена поддержка публикации через xml-rpc для сайтов, работающих ТОЛЬКО по безопасному протоколу https (например wordpress.com)
  4. Оптимизировано поведение парсера новостей при неоднозначных настройках, например, если в настройках категории источников получение краткой новости указано из полной, путём обрезки, а картинка есть только в исходной краткой (а в полной новости её нет), то граббер, теперь всё равно получит картинку.
  5. Добавлен хак, который обеспечивает корректировку заглавных букв. Так, если в результате каких-либо произведённых замен, корректировок или просто ошибки на сайте-источнике слова в предложениях начинаются не с заглавных букв, то применив данный хак можно это исправить.

Исправлены все найденные недочёты и недоработки прошлых версий.

Вышла новая версия парсера новостей FDE Grabber 7.7, читать далее...

FDE Grabber 7.5 — мы экономим ваше время

Дорогие друзья, извещаем о том, что доступна для покупки, скачивания и тестирования новая версия парсера новостей FDE Grabber 7.5 В новую версию граббера вошли следующие изменения и дополнения:

Изменена система получения недостающих картинок и иллюстраций для кратких и полных статей

Так, теперь в настройках категорий источников можно указать отдельно, как для краткой, так и для полной статьи — откуда взять недостающую картинку или иллюстрацию: smart_enclosures Допустим, что требуется по максимуму использовать возможности парсера и нужно, чтобы он искал картинки или иллюстрации для кратких статей (в случае их отсутствия) везде где это только возможно, то можно выбрать соответствующую опцию «Использовать варианты 1, 2, 3«, что будет соответствовать поиску иллюстраций в приложениях к RSS/Atom фиду *, метатегах полной новости, а также полном содержимом новости. Аналогично, если требуется, чтобы граббер вёл поиск картинки или иллюстрации для полных статей (в случае их отсутствия) везде где это только возможно, то можно выбрать соответствующую опцию «Использовать варианты 1, 2, 3«, что будет соответствовать поиску иллюстраций в приложениях к RSS/Atom фиду *, метатегах полной новости, а также кратком содержимом новости. * в случае использования HTML-источника данная опция игнорируется.

Добавлена возможность массового изменения настроек сайтов

В списке сайтов парсера теперь можно выбрать интересующие и массово изменить их параметры: mass_sites_actionsДанная функция полностью аналогична уже существующим, для таких разделов парсера, как категории источников, а также источники. Исправлены недочёты и недоработки прошлых версий граббера, оптимизирован функионал.

FDE Grabber 7.5 — мы экономим ваше время, читать далее...

Доступна новая версия граббера новостей - FDE Grabber 7.3

Дорогие друзья, извещаем о том, что доступна для покупки, скачивания и тестирования новая версия граббера новостей FDE Grabber 7.3 В новой версии парсера статей была добавлена возможность при тестировании настроек категорий, источников (RSS/Atom, HTML), а также при пинге фидов указывать то, через какой именно прокси-сервер должны проводиться тесты, а также от имени какого сетевого интерфейса или через какой IP адрес требуется провести тестирование: proxy_and_interfaceТаким образом, если необходимо убедиться, что контент новости получается через тот или иной прокси-сервер и/или IP адрес, то можно указать их явно во время проведения теста. Во время проведении визуального теста с показом картинок — картинки также получаются и показываются с учётом указанных настроек, а также с учётом полученных на первом этапе кукисов и заголовков. В настройках категорий источников добавлена возможность указания получения картинки-иллюстрации из метатегов (в случае полного отсутствия картинок в теле статьи): images_by_the_metaТаким образом, если в полученном контенте не найдено ни одной картинки, то при активации данной опции парсер новостей попытается получить картинку-иллюстрацию из метатегов, вида:

<meta property="og:image" content="https://www.com.com/0063_11.jpg" />
<meta property="twitter:image" content="https://www.com.com/0063_11.jpg" />
<link rel="image_src" type="image/jpeg" href="https://www.com.com/0063_1" />
Заметим, что парсер и ранее получал картинки из метатегов, но делал это без спроса — теперь же это можно включить или отключить в настройках выбранной категории источников. В новой версии граббера новостей исправлено множество недочётов и недоработок прошлых версий, оптимизирован функционал и увеличено быстродействие.

Доступна новая версия граббера новостей - FDE Grabber 7.3, читать далее...

FDE Grabber 7.1 — работа с разных IPv4 адресов

Дорогие друзья, извещаем о том, что доступна для покупки, скачивания и тестирования новая версия парсера контента FDE Grabber 7.1 Изменения и дополнения:

Работа с разных IPv4 адресов/сетевых интерфейсов

В настройках системы импорта новостей добавлено указание списка IP адресов или имён сетевых интерфейсов, разделённых через запятую, через которые будет работать парсер (через них будут производиться внешние запросы к сайтам). ipv4_external_queriesЕсли ваш сервер имеет несколько выделенных IP адресов, то можно указать их в настройках системы импорта новостей, и она будет вести запросы через них по очереди.

Возможность явного указания IP адреса, через который  должна вестись проверка лицензии системы импорта новостей FDE Grabber

В настройках граббера новостей теперь имеется возможность указать явно IP адрес или имя сетевого интерфейса через который будет вестись проверка лицензии. ipv4_grabber_licenseЭто может понадобиться, когда ваш сервер имеет несколько выделенных IPv4 адресов или сетевых карт.

Путь к директории с кешем парсера новостей вынесен в конфиг

Для более гибкой настройки парсера статей путь к папке кеша теперь можно указать/изменить в параметрах системы (Настройки -> вкладка "Файлы и картинки" -> "Путь к папке для кеша"). cache_rootЭто необходимо в случае, когда нужно указать произвольный путь к папкам, например, если администратор хочет оптимизировать и ускорить работу путём использования RAM дисков (дисков, которые работают в оперативной памяти компьютера), что, несомненно может значительно повлиять и повысить производительность сервера. На Unix/Linux системах можно использовать tmpfs, рекомендуемые статьи по теме: Использование tmpfs в MySQL, Using tmpfs for /tmp. На Windows системах можно воспользоваться программой RAMDisk от компании Dataram (диски, объёмом до 4 ГБ можно создать бесплатно).

Возможность экспорта/импорта настроек сайтов с помощью датафайлов

Данная функция полностью аналогична уже полюбившейся многими нашими пользователями возможности экспорта/импорта параметров, которая есть в настройках источников и настройках категорий источников. sites_export_import

Исправлены недочёты и недоработки прошлых версий

FDE Grabber 7.1 — работа с разных IPv4 адресов, читать далее...

Новая версия граббера новостей FDE Grabber 7.0

Дорогие друзья, извещаем о том, что доступна для покупки, скачивания и обновления новая версия парсера контента FDE Grabber 7.0 Новый функционал и изменения:

Добавлена возможность работы со списком юзер-агентов (User Agent), от имени которых парсер новостей обращается к сайтам-источникам .

Для этого в системе создан новый раздел Юзер-агенты: user_agents_moduleВ данном модуле можно добавлять/редактировать/удалять юзер-агенты, а также изменить их статус. Кроме того, в новом модуле доступны функции массового изменения активности и добавления списка юзер-агентов, разделённых через перенос строки.

В разделе «Фейковых пользователей» добавлена возможность импорта списка имён пользователей, разделённых, через перенос строки:

mass_users_additionЕсли, например, требуется добавить сразу несколько новых пользователей, то достаточно указать их имена, через перенос строки:

mass_users_addition_2При редактировании категории источников граббера добавлено указание имени юзер-агента, с которым граббер будет обращаться к сайту-источнику:

user_agentЕсли поле оставить пустым, то парсер случайно выберет один из активных юзер-агентов из раздела «Юзер-агенты» и будет работать от данного имени.

Оптимизирован функционал, увеличена скорость работы, исправлены недочёты и недоработки прошлых версий.

Новая версия граббера новостей FDE Grabber 7.0, читать далее...

Вышла новая версия граббера - FDE Grabber 6.9

Дорогие друзья, сообщаем о том, что доступна для покупки и обновления новая версия граббера новостей FDE Grabber 6.9 В новой версии добавлена возможность обновления тех статей, которые уже были опубликованы. Так, если например некоторая статья была получена и опубликована, то можно настроить систему импорта новостей так, чтобы проверялось не обновилась ли данная статья на сайте-источнике и если обновилась, то заново её получать и обновлять. Для этого, в настройках категории граббера добавлены две дополнительные опции:

  • Обновлять статьи при обновлении источников
Следует учесть, что во втором случае будут делаться дополнительные запросы - граббер будет парсить заново уже полученные статьи, и проверять не обновилось ли их полное содержимое. Рассмотрим более подробно эти опции.

Проверка обновления статей при обновлении источников

source_updatesЕсли при обновлении источника, для статьи, которая была уже опубликована, изменился заголовок или краткое содержание, то статья будет считаться изменившейся и парсер попытается её заново получить и обновить на вашем сайте. В случае успешного парсинга он её заново опубликует, но при этом не будет создавать новую запись, а обновит старую. Все сопутствующие файлы и картинки также обновятся.

Дополнительная проверка обновления статей на изменение полного содержания

full_content_updateЕсли в текущий момент нет заданий на получение новых статей, то система импорта новостей перейдёт в режим обновления старых (если это требуется). В настройках категории источников указываются дополнительные данные: «Период обновления, в часах» — это промежуток времени, на протяжении которого, с момента после публикации, статья будет проверяться граббером на обновление; «» — это промежуток времени, через который парсер новостей будет проверять, не обновилась ли данная статья. В данный момент обновление статей работает для следующих типов публикации: DLE (Data Life Engine), NGCMS, WordPress (кроме публикации через протокол XML-RPC), Joomla, а также публикация в компонент K2, E107, Drupal, Danneo, Slaed, InstantCMS, FDE CMS Кроме того, исправлены мелкие недочёты и недоработки прошлых версий.

Вышла новая версия граббера - FDE Grabber 6.9, читать далее...

Новая версия граббера новостей FDE Grabber 6.7

Дорогие друзья, с радостью сообщаем о том, что доступна для покупки, обновления и скачивания новая версия граббера сайтов FDE Grabber 6.7 Новые возможности: В настройках системы импорта новостей (настройки->вкладка «граббинг») добавлена галочка Мягкое обновление источников. При её активации, граббер будет пытаться, по возможности, обращаться к источникам, так, чтобы предотвратить последовательное (подряд) получение данных от одного и того же хоста сайта-источника. Данная опция по умолчанию активирована и рекомендуется к дальнейшему применению: softy_feeds_recievingКроме того, в настройках граббера, добавлена опция Получать следующий источник только после окончания обхода пейджера у предыдущего. При её активации, если в парсере, например, имеется источник, в котором включен обход пейджера (или обход по параметру), то он будут обновляться и получаться до тех пор, пока не будет полностью завершён обход пейджера, и только после этого система перейдёт к обновлению следующего источника. В случае, если данную опцию, наоборот, отключить, то парсер будет обновлять источники по очереди, и обновление следующего источника произойдёт не по завершению обхода пейджера предыдущего источника, а лишь при завершении единичной итерации обхода: hard_paginationДобавлен функционал, позволяющий вести блокировку кронтабов граббера, для защиты от одновременного запуска, с помощью lock-файлов. Активировать использование блокировочных lock-файлов можно в настройках граббера новостей (настройки->вкладка «граббинг»), с помощью галочки: «Использовать блокировочные lock-файлы«. В дальнейшем, рекомендуется использовать данный функционал: crontab_lock_filesВ настройках категорий источников добавлена новая опция: ««. При её активации парсер новостей будет пытаться перед получением контента устранять ошибки, допущенные редактором сайта-источника: correct_tagsПри выводе списка полученных граббером статей добавлено выделение цветом (по бокам, аналогично тому, как это сделано при просмотре списков категорий  и источников граббера), соответствующее связанным категориям: colorizeИсправлены недочёты и недоработки прошлых версий.

Новая версия граббера новостей FDE Grabber 6.7, читать далее...

Новая версия граббера новостей FDE Grabber 6.5 - прокси-чекер и веб-интерфейс для работы со списком proxy-серверов

Дорогие друзья, извещаем о том, что доступна для покупки, скачивания и обновления новая версия граббера новостей FDE Grabber 6.5 Новые возможности и функционал:

Добавлен веб-интерфейс для работы со списком прокси-серверов

proxy_servers_interfaceДанный интерфейс позволяет добавлять, редактировать, удалять, изменять активность, производить массовые действия над прокси-серверами, а также добавлять proxy-сервера в систему импорта новостей списками (одновременно, сразу много): add_new_proxy_server

добавление нового proxy-сервера

edit_proxy_serverредактирование proxy-сервера

mass_proxy_servers_additionмассовое добавление списка с proxy-серверами

Добавлен механизм проверки прокси-серверов (proxy-checker, прокси-чекер)

Проверка прокси-серверов на работоспособность происходит непосредственно при работе системы импорта новостей (её кронтабов). Например, если proxy server окажется нерабочим, то граббер его автоматически сделает неактивным. Для того, чтобы включить эту функцию, потребуется зайти в настройки граббера (вкладка «граббинг«) и отметить галочку «Автоматически отключать прокси-сервер, если размер полученного через него контента при запуске кронтабов будет равен нулю«: proxy_checker

Добавлены новые события, отвечающие за показ в логе событий граббера сообщений о доступности или недоступности прокси-серверов, а также исправлены мелкие недочёты и недоработки прошлых версий системы импорта новостей

Новая версия граббера новостей FDE Grabber 6.5 - прокси-чекер и веб-интерфейс для работы со списком proxy-серверов, читать далее...

FDE Grabber 6.4 — возможность ведения публикации по протоколу XML-RPC

Дорогие друзья, извещаем о том, что доступна для покупки и обновления новая версия граббера новостей FDE Grabber 6.4 Нами была проделана большая работа и основным её результатом стала поддержка публикации статей и новостей, а также связанных с ними файлов с помощью протокола XML-RPC В настройках сайта для публикации в граббере добавлено два новых типа поддерживаемых систем:
  • XML-RPC MetaWeblog API
  • XML-RPC WordPress API
Среди данных, которые следует указывать, при выборе публикации по протоколам XML-RPC:
  • , чаще всего можно оставлять пустым
xml-rpcСледует отметить, что протокол XML-RPC поддерживается многими CMS и сервисами и является единственным возможным средством публикации информации в том случае, когда нет возможности получить непосредственный доступ к файлам и папкам системы, в которую необходима настройка публикации. Приведём список систем и CMS, которые поддерживают публикацию по протоколу XML-RPC:
  • WordPress, WordPress MU, а также одноимённый сервис бесплатных блогов WordPress.com
  • Drupal
  • Joomla (при наличии специального модуля)
  • e107 (при наличии специального модуля)
  • DotNetNuke
  • TYPO3
  • и другие
Кроме того, были внесены изменения в системе работы с сайтами в граббере, теперь, в зависимости от специфики выбранного типа CMS или сервиса появляются/исчезают соответствующие настройки для публикации.

FDE Grabber 6.4 — возможность ведения публикации по протоколу XML-RPC, читать далее...

FDE Grrabber 6.3, с возможностью HTTP аутентификации и более гибкой настройкой шаблонов

Дорогие друзья, извещаем о том, что уже доступна для покупки и обновлений новая версия граббера новостей FDE Grabber 6.3, которая несёт в себе ещё больше полезных функций и удобств. Нами была проделана большая работа при подготовке данной версии, процесс настройки парсера сделан ещё более удобным и универсальным. А теперь о том, что же нами было сделано:

Добавлен функционал  получения дополнительного контента, такого как: заголовок новости, дата, категория, краткое описание из полных версий страниц. Для этого, в настройках категории граббера введены соответствующие дополнительные параметры

При составлении DOM шаблонов добавлено указание того, какой именно контент ему соответствует: dom_pattern Типы контента:
  • Полное описание статьи
  • Заголовок статьи
  • Краткое описание статьи
  • Дата статьи
  • Имя категории
При составлении простого шаблона парсинга добавлены новые переменные {name}, {short}, {date} и {category}: simple_pattern {name} — соответствует заголовку статьи; {short} — соответствует вводному тексту статьи; {date} — соответствует дате статьи; {category} — соответствует названию категории; Переработана система тестирования категории источников, добавлен вывод новых данных: category_testИзменена и улучшена логика поведения граббера новостей тогда, когда он определяет подходящий шаблон для парсинга. Так, теперь, полное описание он сможет получить, например, из одного шаблона, а дату или, например, заголовок из другого.

В настройках категории источников, а также настройках самих источников добавлена возможность указания логина и пароля для HTTP аутентификации:

http_authenticationКроме логина и пароля можно также указать и метод шифрования, в данный момент поддерживаются следующие:
  • Basic
  • Digest
  • GSS Negotiate
  • NTLM
  • Любой
  • Любой безопасный
Следует отметить, что самым распространённым является тип "Basic".

При отсутствующей картинке в полученном тексте, теперь, парсер новостей попытается её получить из метатегов:

<meta property="og:image" content="https://www.com.com/0063_11.jpg" />
<meta property="twitter:image" content="https://www.com.com/0063_11.jpg" />
<link rel="image_src" type="image/jpeg" href="https://www.com.com/0063_11.jpg"/>

В настройках категории граббера добавлена возможность указания диапазона, из которого будет выбрано случайное количество фейковых комментариев при публикации на сайт:

random_fake_comments_range

Исправлены недочёты и недоработки прошлых версий, а также оптимизирован процесс граббинга.

FDE Grrabber 6.3, с возможностью HTTP аутентификации и более гибкой настройкой шаблонов, читать далее...