Новая версия граббера новостей FDE Grabber 6.5 - прокси-чекер и веб-интерфейс для работы со списком proxy-серверов

Дорогие друзья, извещаем о том, что доступна для покупки, скачивания и обновления новая версия граббера новостей FDE Grabber 6.5 Новые возможности и функционал:

Добавлен веб-интерфейс для работы со списком прокси-серверов

proxy_servers_interfaceДанный интерфейс позволяет добавлять, редактировать, удалять, изменять активность, производить массовые действия над прокси-серверами, а также добавлять proxy-сервера в систему импорта новостей списками (одновременно, сразу много): add_new_proxy_server

добавление нового proxy-сервера

edit_proxy_serverредактирование proxy-сервера

mass_proxy_servers_additionмассовое добавление списка с proxy-серверами

Добавлен механизм проверки прокси-серверов (proxy-checker, прокси-чекер)

Проверка прокси-серверов на работоспособность происходит непосредственно при работе системы импорта новостей (её кронтабов). Например, если proxy server окажется нерабочим, то граббер его автоматически сделает неактивным. Для того, чтобы включить эту функцию, потребуется зайти в настройки граббера (вкладка «граббинг«) и отметить галочку «Автоматически отключать прокси-сервер, если размер полученного через него контента при запуске кронтабов будет равен нулю«: proxy_checker

Добавлены новые события, отвечающие за показ в логе событий граббера сообщений о доступности или недоступности прокси-серверов, а также исправлены мелкие недочёты и недоработки прошлых версий системы импорта новостей

Новая версия граббера новостей FDE Grabber 6.5 - прокси-чекер и веб-интерфейс для работы со списком proxy-серверов, читать далее...

FDE Grrabber 6.3, с возможностью HTTP аутентификации и более гибкой настройкой шаблонов

Дорогие друзья, извещаем о том, что уже доступна для покупки и обновлений новая версия граббера новостей FDE Grabber 6.3, которая несёт в себе ещё больше полезных функций и удобств. Нами была проделана большая работа при подготовке данной версии, процесс настройки парсера сделан ещё более удобным и универсальным. А теперь о том, что же нами было сделано:

Добавлен функционал  получения дополнительного контента, такого как: заголовок новости, дата, категория, краткое описание из полных версий страниц. Для этого, в настройках категории граббера введены соответствующие дополнительные параметры

При составлении DOM шаблонов добавлено указание того, какой именно контент ему соответствует: dom_pattern Типы контента:
  • Полное описание статьи
  • Заголовок статьи
  • Краткое описание статьи
  • Дата статьи
  • Имя категории
При составлении простого шаблона парсинга добавлены новые переменные {name}, {short}, {date} и {category}: simple_pattern {name} — соответствует заголовку статьи; {short} — соответствует вводному тексту статьи; {date} — соответствует дате статьи; {category} — соответствует названию категории; Переработана система тестирования категории источников, добавлен вывод новых данных: category_testИзменена и улучшена логика поведения граббера новостей тогда, когда он определяет подходящий шаблон для парсинга. Так, теперь, полное описание он сможет получить, например, из одного шаблона, а дату или, например, заголовок из другого.

В настройках категории источников, а также настройках самих источников добавлена возможность указания логина и пароля для HTTP аутентификации:

http_authenticationКроме логина и пароля можно также указать и метод шифрования, в данный момент поддерживаются следующие:
  • Basic
  • Digest
  • GSS Negotiate
  • NTLM
  • Любой
  • Любой безопасный
Следует отметить, что самым распространённым является тип "Basic".

При отсутствующей картинке в полученном тексте, теперь, парсер новостей попытается её получить из метатегов:

<meta property="og:image" content="https://www.com.com/0063_11.jpg" />
<meta property="twitter:image" content="https://www.com.com/0063_11.jpg" />
<link rel="image_src" type="image/jpeg" href="https://www.com.com/0063_11.jpg"/>

В настройках категории граббера добавлена возможность указания диапазона, из которого будет выбрано случайное количество фейковых комментариев при публикации на сайт:

random_fake_comments_range

Исправлены недочёты и недоработки прошлых версий, а также оптимизирован процесс граббинга.

FDE Grrabber 6.3, с возможностью HTTP аутентификации и более гибкой настройкой шаблонов, читать далее...

Новая версия граббера сайтов FDE Grabber 5.7 с возможностью перевода на другие языки

Дорогие друзья, извещаем вас о том, что вышла новая версия граббера новостей FDE Grabber 5.7 Изменения, вошедшие в новую версию:

Добавлены хаки, позволяющие вести перевод новостей на другие языки:

  • Немецко-русский переводчик [Яндекс.Перевод]
  • Англо-русский переводчик [Яндекс.Перевод]
  • Испанско-русский переводчик [Яндекс.Перевод]
  • Французско-русский переводчик [Яндекс.Перевод]
  • Итальянско-русский переводчик [Яндекс.Перевод]
  • Украинско-русский переводчик [Яндекс.Перевод]
  • Русско-немецкий переводчик [Яндекс.Перевод]
  • Русско-английский переводчик [Яндекс.Перевод]
  • Русско-испанский переводчик [Яндекс.Перевод]
  • Русско-французский переводчик [Яндекс.Перевод]
  • Русско-итальянский переводчик [Яндекс.Перевод]
  • Русско-украинский переводчик [Яндекс.Перевод]
Данные хаки используют бесплатное API от компании Yandex: Yandex Translate API. Перед использованием указанных  хаков необходимо ознакомиться с правилами использования API. В частности, в правилах использования, Yandex позволяет вести перевод текста, в объёме, не более 1 миллиона символов в день, включая HTML разметку и пробелы. В FDE Grabber встроен счётчик, не допускающий превышение установленного лимита. Для оптимизации и сокращения количества запросов к Yandex Translate API мы настоятельно рекомендуем использовать хаки для перевода только после основных преобразований контента, и применять одновременно к заголовку, полной и краткой новости: Пример новости без использования хака для перевода: Пример новости с использованием хака для перевода: Поскольку Google Translate API уже почти два года является платным решением, поэтому его использование мы даже не рассматривали.

В настройках параметров источника в граббере добавлена опция, позволяющая ограничивать количество получаемых новостей в указанный период времени:

Так, теперь у нас появляется возможность указать, что мы желаем получать с определённого источника, например, не более 30 новостей за 15 часов.

В настройках сайта в граббере, для большего удобства, список CMS теперь группируется по логическим блокам:

Новая версия граббера сайтов FDE Grabber 5.7 с возможностью перевода на другие языки, читать далее...

FDE Grabber 5.5 - возможность извещения о возникающих ошибках

Дорогие друзья, уведомляем вас о том,что вышла новая версия граббера новостей FDE Grabber 5.5 Изменения и дополнения:

  • В разделе настроек парсера, во вкладке настройки файлов и картинок добавлено свойство «Максимальное количество символов в имени файла, без учёта префиксов и суффиксов«:
Новое свойство отвечает за количество символов, которое будет отводиться парсером под имена сохраняемых картинок и файлов: Похожее свойство добавлено и при редактировании сайта, отвечающее за количество символов в адресах статей: (длину)
  • Добавлена многоязычная универсальная таблица транслитерации, которая включает в себя в данный момент символы латинского алфавита и кириллицу
  • В настройках граббера добавлена новая вкладка Почта, отвечающая за отправляемые через систему импорта новостей электронные письма:
  • В настройках граббера добавлена вкладка Уведомление об ошибках, которая отвечает за извещение о возникающих при работе граббера ошибках
Система извещений об ошибках поддерживает следующие виды событий:
  1. Невозможность получить статью, согласно указанному шаблону  парсинга в настройках категории источников
  2. Невозможность получить список статей, по указанному шаблону парсинга в настройках источника
Когда может понадобиться эта система? Допустим, что вы настроили получение статей или новостей с определённого источника, но со временем на сайте источнике поменялся темплейт и указанный шаблон парсинга в настройках граббера перестал работать. Узнать об этом можно только лишь зайдя в граббер. Так, как многие пользователи настроив граббер благополучно о нём забывают, то со временем может сложиться такая ситуация, что новости перестают получаться. Для того, чтобы оперативно реагировать на подобные события и была создана система нотификации о возникающих ошибках, связанных с парсингом статей. Для того, чтобы активировать систему извещения об ошибках в граббере требуется: 1 — настроить отправку почтовых сообщений во вкладке «Почта» 2 — отметить галочку «Включить регулярное уведомление об ошибках» во вкладке Уведомления об ошибках, а также указать список почтовых адресов, на которые будут отправляться данные уведомления 3 — поставить на cron запуск скрипта граббера «crontab_notification.php«, с интервалом, например, через каждый час

FDE Grabber 5.5 - возможность извещения о возникающих ошибках, читать далее...

Парсер новостей FDE Grabber 5.4

С радостью извещаем о том, что доступна для покупки и скачивания новая версия граббера новостей FDE Grabber 5.4 Изменения, вошедшие в новый релиз:
  • При настройке системы импорта новостей добавлен выбор часового пояса (временной зоны), в котором должен работать граббер:
Список временных зон переведён и доступен для всех поддерживаемых языков граббера: русский, английский, украинский. Для удобства пользователя список сгруппирован по континентам, а также рядом с названием каждой из зон указано смещение от Гринвича
  • Добавлена поддержка публикации в форум XenForo (ссылка: https://xenforo.com/)
  • Созданы новые хаки, позволяющие конвертировать HTML код в BB коды (BB codes). Конвертация работает не путём простой замены, а последовательности действий:
  1. построение DOM дерева на основе HTML кода статьи
  2. произведение обратных преобразований, но не в HTML код, а в BB коды, на основе сопоставлений HTML дескрипторов (тегов), их стилей и атрибутов BB кодам
Благодаря чему достигается наилучший результат.
Хаки выбираются при настройке категории источников в граббере:
  • При тестировании категорий источников, а также источников рядом с выбранным пунктом селектбокса теперь, для удобства пользователя, отображается ссылка, ведущая к настройкам записи:
  • Исправлены мелкие недочёты и недоработки прошлых версий системы импорта новостей FDE Grabber

Парсер новостей FDE Grabber 5.4, читать далее...

Граббер новостей с сайтов FDE Grabber 5.1

Дорогие друзья, извещаем вас о том. что доступна для скачивания и приобретения новая версия системы граббинга новостей FDE Grabber 5.1

Новые возможности и изменения:

  • Новейший механизм работы с динамическими списками
Полностью переработана и улучшена система для работы с динамическими списками. Теперь каждый элемент списка выделяется чередующимся цветом (зебра). При любом изменении порядка, добавлении, удалении нового элемента зебра автоматически перерисуется. Добавлены кнопки для удаления элементов списка: Введены области захвата элементов списка для последующего перетаскивания мышью на новое место, с целью изменения их сортировки:
  • Добавлена поддержка импорта и сохранения изображений, внедрённых непосредственно в тело HTML документа
Если в статье, которую необходимо импортировать находится картинка, встроенная в тело HTML документа, с помощью метода Base64, то система импорта новостей FDE Grabber автоматически распознает картинку и сохранит. Пример картинки, внедрённой в тело документа:
<img
src="data:image/gif;base64,R0lGODdhMAAwAPAAAAAAAP///ywAAAAAMAAw
AAAC8IyPqcvt3wCcDkiLc7C0qwyGHhSWpjQu5yqmCYsapyuvUUlvONmOZtfzgFz
ByTB10QgxOR0TqBQejhRNzOfkVJ+5YiUqrXF5Y5lKh/DeuNcP5yLWGsEbtLiOSp
a/TPg7JpJHxyendzWTBfX0cxOnKPjgBzi4diinWGdkF8kjdfnycQZXZeYGejmJl
ZeGl9i2icVqaNVailT6F5iJ90m6mvuTS4OK05M0vDk0Q4XUtwvKOzrcd3iq9uis
F81M1OIcR7lEewwcLp7tuNNkM3uNna3F2JQFo97Vriy/Xl4/f1cf5VWzXyym7PH
hhx4dbgYKAAA7"
alt="Good girl" />
  • Добавлена поддержка импорта контента с сайтов, находящихся в доменах, содержащих символы национальных алфавитов
Теперь FDE Grabber может полноценно получать контент с сайтов, находящихся в доменах вида россия.рф, москва.ru  и т.д.
  • Адреса, которые начинаются с // теперь автоматически воспринимаются как начинающиеся с https://

Граббер новостей с сайтов FDE Grabber 5.1, читать далее...

FDE Grabber 4.4 уже доступен

Дорогие друзья! Сообщаем о том, что вышла новая версия системы импорта новостей FDE Grabber 4.4 Нужно сказать, что с этой версии в граббере начинается новая веха в истории FDE Grabber. Было сделано немало изменений в плане улучшения производительности, но и реализовано множество новых идей… Обо всём по порядку, начнём с мелочей:
  • В настройках категории добавлена возможность указания минимального необходимого количества в статье картинок. Если количество картинок в статье  меньше указанной величины, то статья будет удалена и не будет импортирована
  • Добавлена возможность бесшаблонного парсинга новостей (статей). Это означает, что теперь в большинстве случаев можно получать полезный контент полного содержимого статьи вообще не составляя никакого шаблона
  • Добавлена возможность DOM парсинга как содержимого статей так и источников.
  • Добавлена возможность DOM замен, наряду с обычными заменами и заменами, с помощью регулярных выражений
А теперь непосредственно о самом главном, о DOM парсинге и о преимуществах, которые мы получаем, используя DOM шаблоны DOM – это аббревиатура от английскогоDocument Object Model”, что переводится на русский, как “Объектная Модель Документа”. Любой документ известной структуры с помощью DOM может быть представлен в виде дерева узлов, каждый узел которого представляет собой элемент, атрибут, текстовый, графический или любой другой объект. Узлы связаны между собой отношениями “родительский-дочерний”. Иными словами, система импорта новостей FDE Grabber теперь умеет построить из HTML кода документа иерархическое DOM дерево, состоящее из узлов, связанных между собой отношениями родитель-дочерний элемент. При этом технология DOM парсинга разработана нами самостоятельно, в стенах компании FDSTAR и не основывается ни на каких-либо чужих разработках. Как работает DOM парсинг на примере разбора содержимого статьи:
  • указывается DOM шаблон
  • FDE Grabber преобразует документ в иерархическое  DOM дерево
  • начинается поиск по указанному DOM шаблону необходимого нам элемента  и в случае его нахождения мы получим полезный контент
Как выглядит DOM шаблон В DOM шаблоне указываются DOM элементы (узлы)  в виде иерархической последовательности (как и в CSS стилях или, например jquery). Рассмотрим пример. Пусть, полезный контент содержится в документе, который выглядит следующим образом:
<body>
	<div>
		<table>
			<tr>
				<td>
					<div class="content">
полезное содержимое,
которое мы должны получить
					</div>
				</td>
			</tr>
		</table>
	</div>
</body>
Тогда мы можем выстроить некоторый шаблон, который будет выглядеть, например так: body div table div.content Последовательность body div table div.content означает, что мы ищем элемент div со стилевым классом “content“, который является дочерним по отношению к table, а table в свою очередь дочерним, по отношению к div, а div к body. Допускается указание идентификаторов, в виде div#id, где div - это элемент с идентификатором “id“. Кроме того, допускается указание любой общности элементов в виде “*”. Конструкция вида *.content означает любой элемент со стилевым классом “content” Ну хорошо, скажете вы, но это не позволяет распознать контент в большинстве сайтов, работающих на популярном движке DLE. Контент там находится, обычно в блочных элементах с уникальным идентификатором, вида news-id-555555 ДА! Именно поэтому мы сделали возможность указания дополнительного сопоставления атрибутов Например, id {preg} #content_\d+#i – это сопоставление значения атрибута id с указанным регулярным выражением #content_\d+#i. width {like} 100 – это сопоставление значения атрибута width со строковым значением “100” (не регулярное выражениие). Как несложно догадаться, для всех сайтов, работающих на DLE унас будет всего один универсальный шаблон: id {preg} #news\-id\-\d+#is Кроме поиска, по такой же схеме мы сделали возможность указания DOM замен. При этом можно заменить любой DOM элемент на указанную замену. Парсить с помощью DOM шаблонов в FDE Grabber можно не только полное содержимое статей, но и источники. Итоги Как мы видим, теперь имеется возможность ещё более удобного указания шаблонов для парсинга и время на реализацию новых идей!

FDE Grabber 4.4 уже доступен, читать далее...

Новая версия граббера сайтов FDE Grabber 4.3

Дорогие друзья, сообщаем о том, что вышла новая версия системы импорта новостей и статей FDE Grabber 4.3 О сделанных изменениях и дополнениях:

  1. Была изменена система логирования. Теперь в лог записи сохраняются не в виде одноязычной фразы, язык которой совпадает с языком интерфейса по умолчанию, а в виде параметров, что даёт возможность при просмотре лога показывать описание события на текущем языке, выбранном администратором
  2. Добавлена возможность замены регулярными выражениями, а также обычной замены текста после основных преобразований контента (когда именно следует  применять замену указывается при настройке категории)
  3. Добавлены два новых хака для указания ссылки на источник (для соблюдения авторских прав). Можно настроить указание ссылок на источник по своему усмотрению и вкусу, изменив файл хака (хаки обязательно требуется сохранять в кодировке UTF-8)
  4. Добавлен хак корректировки незакрытых тегов. Работает быстрее чем предыдущий. Теперь именно он используется в  комплексном хаке “красивый контент”
  5. Добавлена возможность предварительного просмотра статей при выводе списка статей. Просмотр можно осуществлять как в виде HTML так и обычном виде, добавлена возможность быстрого просмотра при наведении мышки на ссылку “просмотр”, с помощью ajax технологии
Теперь можно приобрести систему импорта новостей FDE Grabber в полностью автоматическом режиме, оплатив через систему электронных платежей WebMoney Transfer, подробности здесь: https://fde-cms.ru/buy_grabber.html Детальное описание системы импорта новостей FDE Grabber можно найти здесь: https://fdstar.net/fde-grabber.html Как обновить систему FDE Grabber на новую версию?
  • зайти в персональный кабинет на нашем сайте https://fde-cms.com/ или https://fde-cms.ru/
  • скачать дистрибутив версии 4.3*
  • следовать инструкции по обновлению, которая находится в корне дистрибутива (файл “how_to_update_from_4.2_to_4.3.txt”, текст сохранён в кодировке Windows-1251)
* Были вопросы о том, как это сделать, как скачать дистрибутив FDE Grabber – ответ прост:
  • Заходим на сайт https://fde-cms.com/ или https://fde-cms.ru/ (первый на английском языке, второй на русском) под своим логином. Если ещё логина нет, то требуется зарегистрироваться на странице регистрации: https://fde-cms.ru/do/registration/
  • Переходим в раздел лицензий:   https://fde-cms.ru/do/my_licenses/. Если у вас ещё нет лицензии, купить лицензию FDE Grabber на странице https://fde-cms.ru/do/order/ (требуется залогиниться)
  • Далее, на странице лицензий находим нужный нам дистрибутив и нажимаем на ссылку “скачать” (смотрите скриншот ниже). Здесь требуется предостеречь: не нажимайте по несколько раз на эту ссылку – генерация дистрибутива довольно длительный процесс, поэтому требуется дождаться ответа сервера, в случае двойного нажатия сайт вас забанит и придётся писать в службу поддержки для разблокировки

Новая версия граббера сайтов FDE Grabber 4.3, читать далее...

Новогодний сюрприз

Только в период с 25 декабря 2011 года по 7 января 2012 года (включительно) стоимость полноценной лицензии граббера  FDE Grabber будет  всего 55.5 USD
Все кто ещё не успел приобрести систему смогут это сделать со значительной скидкой (почти 30%):
старая цена: $88.8
новая (в период действия акции): $55.5

Новогодний сюрприз, читать далее...

FDE Grabber 4.0

Уважаемые пользователи системы импорта новостей, а также потенциальные клиенты. Рады сообщить, что подходит к концу работа над новой системой лицензирования FDE Grabber, которая вступает в силу с версии FDE Grabber 4.0 Поэтому, в ближайшее время вы сможете приобрести/обновиться до версии FDE Grabber 4.0 Новая система лицензирования, в отличие от старой,  предусматривает проверку лицензий через наш сервер, а также ограничение на запуск системы импорта новостей с 10 IP адресов в рамках одной лицензии. Список вы сможете отредактировать в личном кабинете на нашем сайте ; Ограничений на запуск по доменам по прежнему не будет

FDE Grabber 4.0, читать далее...

Разделы сайта

Форум web-разработчиков