FDE Grabber 6.2 уже доступен для покупки, скачивания и обновления

Дорогие друзья, с радостью сообщаем о том, что доступна для покупки, скачивания и обновления новая версия граббера новостей/статей FDE Grabber 6.2 Изменения и дополнения, вошедшие в новую версию:

В настройках категории источников граббера добавлена новая возможность указания минимальной длины полной новости

В том случае, когда длина текста полной новости (без учёта HTML форматирования, но с учётом пробелов) меньше заданной, то инициируется ошибка и новость удаляется

min_full_news_length

В настройках источников граббера добавлена возможность указания минимальной длины краткой новости

В том случае, когда длина текста краткой новости (без учёта HTML форматирования, но с учётом пробелов) меньше заданной, то инициируется ошибка и новость удаляется

min_short_news_length

В настройках категории источников парсера новостей добавлена возможность указания того, на какие именно картинки должны накладываться вотермарки (водяные знаки):

watermarks Указанная настройка доступна отдельно, как для  краткой, так и для полной новости. Среди возможных значений, можно указать следующие:
  • не накладывать вотермарки
  • накладывать вотермарки на все картинки
  • накладывать вотермарки только на картинки-превью
  • накладывать вотермарки только на полные версии картинок
Это позволяет гораздо гибче вести настройку указания наложения вотермарков на изображения. Обращаем ваше внимание на то, что: Разные настройки наложения водяных знаков на изображения для краткой и полной новости могут потребовать создания дополнительных картинок, что отразится на размере, занимаемом файлами, на диске вашего сервера.

В настройках сайтов для публикации, добавлена возможность указания минимальной длины генерируемых граббером ключевых слов

keywords
В некоторых CMS, например DLE (Data Life Engine), есть возможность указания связанных с новостью ключевых слов для метатега META. Граббер автоматически генерирует ключевые слова и отправляет их при публикации новости.
Данная настойка позволяет отфильтровывать слишком короткие слова и оставлять только нужной нам длины.

Исправлены мелкие ошибки и недочёты в работе системы импорта новостей

FDE Grabber 6.2 уже доступен для покупки, скачивания и обновления, читать далее...

Вышла новая версия системы импорта новостей FDE Grabber 6.1

Дорогие друзья, с радостью сообщаем о том, что доступна для покупки и обновлений новая версия граббера новостей FDE Grabber 6.1 Изменения и дополнения:

В настройках категории источников парсера добавлена возможность фильтрации картинок по наименьшему размеру:

Теперь можно указать минимальную ширину и/или высоту изображений, по которым можно отфильтровывать ненужные картинки. Среди возможных действий можно указать:
  • удалять картинки из кода статьи
  • удалять статью, содержащую такие картинки
  • ничего не делать
Фильтрацию картинок можно осуществлять как в краткой, так и в полной новости по отдельности.

Добавлен функционал докачки файлов при обрывах связи или тогда, когда сервер отдаёт их по частям (206 Partial Content)

Теперь, если при скачивании файла или картинки полученный размер отличается от задекларированного в заголовках сервера, с которого идёт скачивание, то FDE Grabber попытается докачать данный файл. Это, несомненно, значительно улучшает стабильность при скачивании файлов.

Обновлены хаки машинного перевода

Внимание! С 1 июля 2013 года Yandex Translate API вводит доступ к своему сервису по ключу разработчика. Получить этот ключ можно здесь: https://api.yandex.ru/key/form.xml?service=trnsl Если вы пользуетесь хаками машинного перевода в граббере, то вам потребуется его обновить, получить ключ разработчика, и указать его в настройках системы импорта новостей FDE Grabber, иначе с 1 июля они перестанут работать.

Исправлены  ошибки и недчёты прошлых версий

Вышла новая версия системы импорта новостей FDE Grabber 6.1, читать далее...

FDE Grabber 6.0 - работа с FTP

Дорогие друзья, извещаем о том, что доступна для покупки и обновления новая версия парсера новостей и статей FDE Grabber 6.0 В новой версии была существенно переработана система публикации граббера, и теперь появилась  возможность, позволяющая вести публикацию полученных парсером файлов и изображений с помощью FTP протокола. Таким образом, теперь есть возможность вести публикацию файлов и изображений тремя способами:
  • Напрямую в указанную папку. Этот способ подходит тогда, когда система парсинга новостей установлена на том же сервере, куда идёт публикация.
  • С использованием транзитной системы граббера - данный способ применим в том случае, когда парсер контента установлен на одном сервере, а сайт, в который идёт публикация на другом.
  • Через FTP протокол. Этот вариант подходит для публикации файлов и изображений и когда парсер установлен на том же сервере и тогда, когда он установлен на отличном сервере от того, на котором расположен сайт, в который идёт публикация полученных данных.
Для того, чтобы активировать публикацию через FTP протокол потребуется в настройках сайта отметить опцию «» и заполнить некоторые дополнительные поля: Здесь потребуется указать FTP хост, порт, логин пользователя, его пароль, режим подключения активный/пассивный и пути на FTP сервере к сайту и к папке с загрузками. Также, в новой версии системы импорта новостей улучшен обход антилич (antileech) защиты сайтов от скачивания изображений и исправлены мелкие недочёты и недоработки прошлых версий.

FDE Grabber 6.0 - работа с FTP, читать далее...

Вышла новая версия системы импорта новостей FDE Grabber 5.9

Дорогие друзья, извещаем вас о том, что доступна для покупки и скачивания новая версия граббера новостей FDE Grabber 5.9

Изменения и дополнения:

1 — Добавлена поддержка публикации полученных статей на сайты в разных часовых поясах (временных зонах) В настройках категорий источников добавлен выбор часового пояса сайта-источника: Опция для выбора часового пояса добавлена, также, в настройках сайта для публикации полученных новостей: Таким образом, вы сможете легко настроить парсер новостей под самые необычные задачи, например когда сайт-источник работает в одном часовом поясе (временной зоне), граббер в другом, а ваш сайт, на который идёт публикация полученных статей в третьем. Напомним, что выбор часового пояса, который используется для отображения дат в самой системе импорта новостей указывается в разделе настроек системы: 2 — В настройках категорий источников граббера новостей добавлена опция, позволяющая включить повышение резкости у изображений, после изменения их размера, например уменьшения: 3 — В настройках категорий источников системы импорта новостей добавлена возможность указания произвольного содержимого атрибутов alt и title в тегах картинок: 4 — Улучшена система обхода антилич защиты от скачивания файлов и картинок 5 — Исправлены мелкие недочёты и недоработки прошлых версий

Вышла новая версия системы импорта новостей FDE Grabber 5.9, читать далее...

FDE Grabber 5.8 - скачивание дополнительных файлов

Дорогие друзья, с радостью сообщаем о том, что доступна для покупки и скачивания новая версия граббера новостей FDE Grabber 5.8 Изменения, а также новые функции, вошедшие в новую версию парсера:

Изменение прав на необходимые файлы и папки из админцентра

В разделе «Утилиты» добавлена возможность, с помощью которой можно попытаться исправить неправильно выставленные права на необходимые файлы и папки:
«Попытаться исправить неправильно выставленные права на нужные файлы и папки»
Если скрипты граббера запускаются от того же пользователя, которым были записаны на сервер файлы и папки парсера, то попытка исправления неправильно выставленных прав на файлы и папки увенчается успехом - в противном случае вам придётся выставить необходимые права вручную. При проведении теста настроек сайта для публикации, FDE Grabber, в случае обнаружения неправильно выставленных прав на необходимые файлы и папки тоже пытается их исправить.

Скачивание прикреплённых к статьям файлов

В настройках граббера добавлено указание разрешённых для загрузки на сервер типов файлов (их расширений): Следует отметить, что в данном списке указывать расширения файлов «jpeg«, «jpg«,»gif«, «png» не нужно  — их граббер учитывает самостоятельно В настройках категории источников добавлена галочка, включающая скачивание разрешённых в настройках типов  файлов на сервер Если её отметить, то при необходимости можно указать дополнительные опции: Когда ссылки на скачивание файлов отображаются без расширений и невозможно заранее определить нужно ли скачивать файл по данной ссылке или нет, например https://test.com/download/36345783, то можно указать дополнительные шаблоны для распознавания ссылок на скачивание (в виде регулярных выражений), например: #/download/\d+#i Для скачивания прикреплённых к новостям файлов создан кронтаб «crontab_downloads.php«, поэтому в разделе ручной крон появилась соответствующая кнопка:

При включенной в настройках категории источников опции скачивания прикреплённых к статье файлов, после того, как новость будет получена, она не изменит свой статус на «ожидает публикации» до тех пор, пока не скачаются все прикреплённые к данной новости файлы — только после скачивания последнего прикреплённого файла новость изменит свой статус на "ожидает публикации".

Исправлены мелкие недочёты и недоработки прошлых версий

FDE Grabber 5.8 - скачивание дополнительных файлов, читать далее...

Новая версия граббера сайтов FDE Grabber 5.7 с возможностью перевода на другие языки

Дорогие друзья, извещаем вас о том, что вышла новая версия граббера новостей FDE Grabber 5.7 Изменения, вошедшие в новую версию:

Добавлены хаки, позволяющие вести перевод новостей на другие языки:

  • Немецко-русский переводчик [Яндекс.Перевод]
  • Англо-русский переводчик [Яндекс.Перевод]
  • Испанско-русский переводчик [Яндекс.Перевод]
  • Французско-русский переводчик [Яндекс.Перевод]
  • Итальянско-русский переводчик [Яндекс.Перевод]
  • Украинско-русский переводчик [Яндекс.Перевод]
  • Русско-немецкий переводчик [Яндекс.Перевод]
  • Русско-английский переводчик [Яндекс.Перевод]
  • Русско-испанский переводчик [Яндекс.Перевод]
  • Русско-французский переводчик [Яндекс.Перевод]
  • Русско-итальянский переводчик [Яндекс.Перевод]
  • Русско-украинский переводчик [Яндекс.Перевод]
Данные хаки используют бесплатное API от компании Yandex: Yandex Translate API. Перед использованием указанных  хаков необходимо ознакомиться с правилами использования API. В частности, в правилах использования, Yandex позволяет вести перевод текста, в объёме, не более 1 миллиона символов в день, включая HTML разметку и пробелы. В FDE Grabber встроен счётчик, не допускающий превышение установленного лимита. Для оптимизации и сокращения количества запросов к Yandex Translate API мы настоятельно рекомендуем использовать хаки для перевода только после основных преобразований контента, и применять одновременно к заголовку, полной и краткой новости: Пример новости без использования хака для перевода: Пример новости с использованием хака для перевода: Поскольку Google Translate API уже почти два года является платным решением, поэтому его использование мы даже не рассматривали.

В настройках параметров источника в граббере добавлена опция, позволяющая ограничивать количество получаемых новостей в указанный период времени:

Так, теперь у нас появляется возможность указать, что мы желаем получать с определённого источника, например, не более 30 новостей за 15 часов.

В настройках сайта в граббере, для большего удобства, список CMS теперь группируется по логическим блокам:

Новая версия граббера сайтов FDE Grabber 5.7 с возможностью перевода на другие языки, читать далее...

Вышла новая версия парсера новостей FDE Grabber 5.6

Дорогие друзья, извещаем о том, что доступна для скачивания и покупки новая версия системы импорта новостей FDE Grabber 5.6 Изменения и дополнения, коснувшиеся новой версии описаны ниже.

Переработан и улучшен интерфейс редактора простых шаблонов:

Отрефакторен движок простого парсинга, теперь он позволят забыть о пробелах и переносах строк при составлении простого шаблона и привносит ряд удобных дополнительных возможностей:

  • можно использовать новые переменные в шаблоне:
    • {a} — соответствует ненужному тексту, соответствующему регулярному выражению ([^<>]*?)
    • {d} — соответствует ненужному числу, соответствующему регулярному выражению (\d+)
  • При указании в шаблоне простого парсинга переменной теперь можно указывать уточнения того, какой контент должен быть сохранён в данную переменную, с помощью регулярных выражений: {переменная[регулярное выражение]}.
    • Пример 1: запись {description[[a-z\d\s\.]+]} означает, что в description может содержаться только текст, состоящий из латинских символов, цифр, пробельных символов и точки, иначе шаблон не подойдёт.
    • Пример 2: запись {null[\d+]} соответствует ненужному контенту, состоящему из последовательности цифр, аналог {d}
    • Пример 3: запись {null[[a-z]+]} соответствует ненужному контенту, состоящему из последовательности латинских символов (от регистра не зависит)

В настройках категории источником граббера добавлено указание списка разрешённых хостов в ссылках исходной статьи

Данная функция позволяет фильтровать новостные статьи и оставлять только авторские. Принцип её работы заключается в том, что когда в новостной статье содержатся ссылки на чужие сайты - с большой долей вероятности, она не является авторской. Пример: пусть, нам требуется импортировать какие-либо новостные статьи с какого-либо сайта, для определённости его адрес: https://www.test.com/. И нам нужны только авторские новости с этого сайта, а не перепечатанные, то есть в которых содержатся ссылки на третьи сайты-источники. В большинстве случаев авторские новости могут или вообще не содержать никаких ссылок или содержать ссылки на внутренние статьи, которые расположены в пределах хоста сайта-источника test.com или его поддоменов *.test.com, поэтому в настройках категории для осуществления фильтрации по данному принципу мы указываем список разрешённых хостов в ссылках исходной статьи: test.com, *.test.com Любая статья, содержащая в ссылках хосты, не входящие в указанный список не будет сохранена граббером.

В настройках источника граббера теперь можно уточнить какие адреса ссылок на статьи нам нужны, с помощью регулярного выражения

Пример: пусть нам требуется распарсить источник, в котором ссылки на статьи имеют вид https://test.com/news/* и https://test.com/articles/*. И нас интересуют только те статьи, адреса которых начинаются с https://test.com/news/, поэтому в настройках источника граббера, мы можем указать соответствующее уточнение, с помощью регулярного выражения: # ^https://test\.com/news/#i Все новости, адрес которых начинается с текста  https://test.com/news/ парсер статей сохранит, а остальные, например адрес которых начинается с  https://test.com/articles/ нет

В настройках категории источников парсера добавлены новые поля, отвечающие за название сайта источника и за его адрес

Эти поля используются при указании ссылок в статьях на сайт-источник:

Добавлен хак для указания ссылок на сайт-источник в первом абзаце текста статьи

Некоторые сайты позволяют перепечатку новостей, но при условии указания обратной ссылки, причём не где-либо, а именно не ниже первого абзаца статьи. Новый хак позволяет это сделать. Текст статьи без использования хака: Текст статьи с использованием хака:

Вышла новая версия парсера новостей FDE Grabber 5.6, читать далее...

FDE Grabber 5.5 - возможность извещения о возникающих ошибках

Дорогие друзья, уведомляем вас о том,что вышла новая версия граббера новостей FDE Grabber 5.5 Изменения и дополнения:

  • В разделе настроек парсера, во вкладке настройки файлов и картинок добавлено свойство «Максимальное количество символов в имени файла, без учёта префиксов и суффиксов«:
Новое свойство отвечает за количество символов, которое будет отводиться парсером под имена сохраняемых картинок и файлов: Похожее свойство добавлено и при редактировании сайта, отвечающее за количество символов в адресах статей: (длину)
  • Добавлена многоязычная универсальная таблица транслитерации, которая включает в себя в данный момент символы латинского алфавита и кириллицу
  • В настройках граббера добавлена новая вкладка Почта, отвечающая за отправляемые через систему импорта новостей электронные письма:
  • В настройках граббера добавлена вкладка Уведомление об ошибках, которая отвечает за извещение о возникающих при работе граббера ошибках
Система извещений об ошибках поддерживает следующие виды событий:
  1. Невозможность получить статью, согласно указанному шаблону  парсинга в настройках категории источников
  2. Невозможность получить список статей, по указанному шаблону парсинга в настройках источника
Когда может понадобиться эта система? Допустим, что вы настроили получение статей или новостей с определённого источника, но со временем на сайте источнике поменялся темплейт и указанный шаблон парсинга в настройках граббера перестал работать. Узнать об этом можно только лишь зайдя в граббер. Так, как многие пользователи настроив граббер благополучно о нём забывают, то со временем может сложиться такая ситуация, что новости перестают получаться. Для того, чтобы оперативно реагировать на подобные события и была создана система нотификации о возникающих ошибках, связанных с парсингом статей. Для того, чтобы активировать систему извещения об ошибках в граббере требуется: 1 — настроить отправку почтовых сообщений во вкладке «Почта» 2 — отметить галочку «Включить регулярное уведомление об ошибках» во вкладке Уведомления об ошибках, а также указать список почтовых адресов, на которые будут отправляться данные уведомления 3 — поставить на cron запуск скрипта граббера «crontab_notification.php«, с интервалом, например, через каждый час

FDE Grabber 5.5 - возможность извещения о возникающих ошибках, читать далее...

Парсер новостей FDE Grabber 5.4

С радостью извещаем о том, что доступна для покупки и скачивания новая версия граббера новостей FDE Grabber 5.4 Изменения, вошедшие в новый релиз:
  • При настройке системы импорта новостей добавлен выбор часового пояса (временной зоны), в котором должен работать граббер:
Список временных зон переведён и доступен для всех поддерживаемых языков граббера: русский, английский, украинский. Для удобства пользователя список сгруппирован по континентам, а также рядом с названием каждой из зон указано смещение от Гринвича
  • Добавлена поддержка публикации в форум XenForo (ссылка: https://xenforo.com/)
  • Созданы новые хаки, позволяющие конвертировать HTML код в BB коды (BB codes). Конвертация работает не путём простой замены, а последовательности действий:
  1. построение DOM дерева на основе HTML кода статьи
  2. произведение обратных преобразований, но не в HTML код, а в BB коды, на основе сопоставлений HTML дескрипторов (тегов), их стилей и атрибутов BB кодам
Благодаря чему достигается наилучший результат.
Хаки выбираются при настройке категории источников в граббере:
  • При тестировании категорий источников, а также источников рядом с выбранным пунктом селектбокса теперь, для удобства пользователя, отображается ссылка, ведущая к настройкам записи:
  • Исправлены мелкие недочёты и недоработки прошлых версий системы импорта новостей FDE Grabber

Парсер новостей FDE Grabber 5.4, читать далее...

Новая версия парсера контента FDE Grabber 5.3

Дорогие друзья, извещаем о том, что доступна для тестирования, покупки и скачивания новая версия парсера контента FDE Grabber 5.3 Изменения, коснувшиеся новой версии:

  • Добавлен модуль для проведения тестирования и отладки регулярных выражений. В указывается текст, с которым мы будем работать и сама замена, с помощью регулярных выражений (PCRE)
  • Изменена система обновлений. Теперь, для того, чтобы обновиться до последней версии с любой из версий граббера, начиная с 4.0 достаточно обновить файлы дистрибутива граббера (за исключением конфига) и запустить файл update.php.
  • В настройках путей граббера теперь можно указывать переменную {root}, которая определяется автоматически и соответствует полному пути к грабберу на  сервере. Таким образом, теперь не потребуется узнавать полный путь к грабберу на сервере, чтобы его установить или  настроить
  • Исправлены мелкие недоработки и недочёты прошлых версий
Новый модуль для тестирования и отладки регулярных выражений Для тестирования регулярных выражений требуется
  1. указать текст, на котором будем проводить тест, например www.test.ru
  2. указать регулярное выражение, например #test.ru#i
  3. указать замену, на что мы хотим заменить найденные вхождения текста; если  их требуется удалить, то это поле нужно оставить пустым
  4. нажать на кнопку «тестировать»
  5. в поле «» отобразится результат

Новая версия парсера контента FDE Grabber 5.3, читать далее...