FDE Grabber

Как удалённо публиковать получаемые парсером статьи

опубликовал дата: Май.17, 2012, категория: Докуметация

Бывает, что нам необходимо поставить парсер контента на сервер, отличный от того, на котором находится сайт, куда требуется публиковать получаемые парсером статьи. Причины тому могут быть разные — желание централизовать управление наполнением сайтов, разгрузка серверных ресурсов (на сервере, на котором находится сайт) и т.д.

В парсере сайтов FDE Grabber публикацию полученных статей можно осуществлять как локальную так и удалённую.

Локальная публикация — это такой режим работы парсера, когда он установлен на том же сервере, что и сайт, в который требуется публиковать полученные статьи.

Удалённая публикация — это такой режим работы парсера, когда он установлен на другом сервере, отличном от того, на котором работает сайт, в который требуется публиковать полученные статьи.

Если в случае локальной публикации всё понятно — ставится граббер рядом с сайтом, который требуется наполнять и поехали, то в случае удалённой публикации могут возникнуть некоторые вопросы.

Для осуществления удалённой публикации нам потребуется при настройке сайта (в разделе граббера «сайты») отметить опцию «Удалённая публикация» (поставить галочку) и заполнить поле «URL транзитного файла».

URL транзитного файла — это адрес транзитного файла копии граббера, которую потребуется установить на тот же сервер, где находится ваш сайт.

Пусть ваш сайт находится по адресу http://test.com/ и вы установили транзитную копию граббера в директорию fde, таким образом, что URL граббера получился http://test.com/fde/. Тогда URL транзитного файла будет выглядеть так: http://test.com/fde/transit_publication.php

Транзитную копию граббера не обязательно устанавливать полностью, запуская инсталлятор install.php. Если копия граббера будет использоваться исключительно в транзитных целях, то достаточно отредактировать его конфигурационный файл /путь_к_корню_папки_системы_импорта_новостей_на_сервере/config/dynamic.php следующим образом:

‘FILES_DIR’ => ‘/путь_к_грабберу_на_сервере/uploads/files/’,
‘TMP_DIR’ => ‘/путь_к_грабберу_на_сервере/uploads/tmp/’,

указав реальные пути и проставив на соответствующие папки права на запись.

Больше ничем удалённая публикация не отличается от локальной — все остальные параметры сайта указываются так, как если бы граббер осуществлял локальную публикацию.

оставить комментарий Метки:, далее...

Как использовать FDE Grabber на сервере с динамическим IP

опубликовал дата: Май.07, 2012, категория: Докуметация

Возможен ли запуск системы импорта новостей FDE Grabber на сервере с динамическим IP?

- ответ да.

В рамках одной лицензии вы вправе запускать FDE Grabber с 10 различных IPv4 адресов, а также с основного домена. Это означает, что если вы привязали к своему серверу с динамическим IP какой-либо домен, то можно указать этот домен, как основной в свойствах лицензии на систему импорта новостей, чтобы иметь возможность осуществлять запуск FDE Grabber на подобном сервере:

Как и список IP адресов — основной домен вы можете отредактировать в любой момент в свойствах лицензии по своему усмотрению.

оставить комментарий Метки:, далее...

Новая версия системы импорта новостей FDE Grabber 4.7

опубликовал дата: Май.03, 2012, категория: Докуметация, Система импорта новостей FDE Grabber

Дорогие друзья, сообщаем вам о том, что вышла новая версия граббера статей FDE Grabber 4.7

Какие изменения вошли в новую версию:

  • Добавлен новый модуль для редактирования языковых файлов системы импорта новостей (как им пользоваться и зачем он нужен читайте ниже)
  • Добавлен новый хак (микропрограмма для обработки контента) для обхода редиректов (перенаправлений) в ссылках. Так, если в контенте существует ссылка, вида http://site.ru/?id=23123217, при переходе по которой вы перенаправляетесь на страницу http://fdstar.net/,  то при активации данного хака система перейдёт по ссылке и заменит адрес на конечный результат: http://fdstar.net/ вместо того, который был вначале (http://site.ru/?id=23123217). Хак работает только (!) с редиректами, отправляемыми через HTTP заголовки — если сайт использует другой тип перенаправления, например через метатег или с помощью языка javascript, то использование данного хака не поможет.
  • Теперь при работе удалённой публикации файлы во временной папке на удалённом сервере не накапливаются, а сразу удаляются.
  • Добавлена поддержка нового типа движка DataLife Engine 9.6 (который вышел 1 мая).

Что такое модуль для редактирования языковых файлов граббера

Модуль для редактирования и переводов языковых файлов системы импорта новостей нужен для коррекции возможных ошибок и недочётов в подписях и текстах FDE Grabber, а также как средство удобного перевода системы на другие языки.

Если вы хотите помочь развитию системы, перевёв её на новый язык, то данный модуль поможет это сделать.

Языковые файлы граббера находятся в папке languages. Под каждый поддерживаемый язык выделяется отдельная подпапка, так например для русского языка выделена директория languages/russian, а для английского  языка languages/english.

При работе с модулем для редактирования языковых файлов требуется проставить права на запись (например 0777) как на сами языковые папки, так и на их содержимое — языковые файлы.

При добавлении нового языка требуется создать внутри папки languages новую директорию, в которой и будут храниться языковые файлы нового языка. Например для украинского языка мы можем создать пустую папку languages/ukranian и выставить на неё права на запись, после чего воспользоваться модулем для редактирования и переводов.

Как пользоваться модулем редактирования и переводов языковых файлов системы импорта новостей FDE Grabber

Для того, чтобы отредактировать какой либо язык или языки требуется зайти на главную страницу модуля, выбрать требуемый язык, при необходимости добавить для редактирования дополнительный язык, воспользовавшись кнопками «+» и «-».

После чего нажать на кнопку «применить«.

Для редактирования какого либо файла требуется перейти, кликнув по соответствующей ссылке:

После проведения перевода или редактирования сохранить результат, нажав на кнопку «изменить«:

Для того, чтобы увидеть свой перевод среди списка возможных для выбора языков:

Потребуется очистить папку граббера «cache«, сделав это или напрямую через файловую систему или с помощью функции «очистки кеша» в разделе «утилиты» граббера. Перед тем как это сделать убедитесь в том, что переведены все языковые файлы граббера иначе вы можете увидеть сообщения об ошибках.

 

оставить комментарий далее...

Новая версия парсера контента FDE Grabber 4.6

опубликовал дата: Апр.06, 2012, категория: Система импорта новостей FDE Grabber

Доступна для скачивания и покупки новая версия парсера контента FDE Grabber 4.6

Изменения, вошедшие в новую версию:

  • Добавлена возможность использования замен регулярными выражениями, использования замен текста, использования DOM замен, использования хаков (микропрограмм для обработки, постобработки контента, корректировки верстки и т.д.) до получения контента (перед парсингом). Данная возможность обеспечивает ещё более гибкую настройку парсера контента FDE Grabber:

  • В настройках категории источников, при выводе списка хаков,  теперь происходит их группировка в обобщённые блоки:
  • При использовании ручного крона во время его работы теперь учитывается таймаут, по истечению которого, в случае неответа сервера происходит перезапуск ручного крона. Это обеспечивает более стабильную работу ручного крона, без остановок, например тогда, когда ваш сервер работает через кэширующий прокси-сервер nginx и nginx, не дожидаясь ответа от кроновского скрипта граббера, по таймауту выводит ошибку «504 Gateway Time-out».
  • При просмотре лога событий добавлен фильтр по дате, с возможностью указывать: вывод всех записей, независимо от даты / вывод записей за текущий день / вывод записей за текущий месяц / а также вывод записей за указанный период:
  • При просмотре информации о статье добавлен вывод дополнительной информации о категории источников, источнике и адресе источника:

Для того, чтобы обновить парсер контента FDE Grabber требуется зайти на сайт fde-cms.ru или fde-cms.com в раздел лицензий, скачать новую версию и следовать инструкции по обновлению в корне дистрибутива.

Для того, чтобы приобрести систему импорта новостей FDE Grabber требуется перейти на страницу http://fde-cms.ru/buy_grabber.html и следовать приведённым там инструкциям.

оставить комментарий Метки:, , далее...

DOM парсинг контента

опубликовал дата: Апр.03, 2012, категория: Докуметация

Как было описано ранее, в рамках пресс релиза выхода парсера сайтов FDE Grabber 4.4,  DOM – это аббревиатура от английскогоDocument Object Model”, что переводится на русский язык, как “Объектная Модель Документа”.

Любой документ известной структуры с помощью DOM может быть представлен в виде дерева узлов,  в котором каждый узел представляет собой элемент, атрибут, текстовый, графический или любой другой объект.

Узлы полученного дерева связаны между собой отношениями “родительский-дочерний”. Иными словами, система импорта новостей FDE Grabber теперь умеет построить из HTML кода документа иерархическое DOM дерево, состоящее из узлов, связанных между собой отношениями родитель-потомок.

Чтобы иметь возможность наглядно представлять себе DOM структуру какого-либо документа статьи мы советуем вам установить бесплатное дополнение к браузеру FireFox, которое называется FireBug.

Для этого заходим через браузер FireFox на сайт https://addons.mozilla.org/ru/firefox/

Проводим поиск плагина, указывая в поисковом запросе «FireBug» https://addons.mozilla.org/ru/firefox/addon/firebug/?src=ss

На странице описания плагина нажимаем на кнопку «Добавитиь в FireFox», добавляем плагин, перезапускаем браузер FireFox и пробуем его в действии.

Пусть, для примера мы хотим составить DOM шаблон для импорта контента со страниц сайта http://warezed.ru/. Для этого открываем любую страницу с контентом, например http://warezed.ru/819-Nad-Severnym-morem-vot-vot-vzorvetsya-gaz.html через браузер FireFox, выделяем полный текст статьи:

Вызываем контекстное меню, нажимая на правую кнопку мышки по выделенному тексту статьи:

В открывшейся панели FireBug ищем уникальный родительский элемент, содержащий полный текст статьи:

Можно заметить, что полезный контент статьи полностью содержится в теге span, имеющим стилевой класс news

Поэтому мы можем составить DOM шаблон так: span.news (это очень напоминает описание CSS описание стилей). Для уверенности в уникальности нашего шаблона  мы можем пойти дальше и составить иерархическую последовательность узлов в виде цепочки, обращая внимание на то, что элемент span.news является дочерним по отношению к элементу div.big-news, поэтому альтернативный DOM шаблон будет выглядеть так: div.big-news span.news (что опять же идентично CSS нотации описания стилей). Или даже так: body div.big-news span.news

В общем случае иерархическая DOM цепочка узлов может быть неограниченной.

В том случае, когда стилевой класс указывается через пробел, например для атрибута class=″main left″ в теге div, который является дочерним по отношению к body мы не можем записывать шаблон в виде а ля: body div.main left, так как граббер будет его интерпретировать искажённо — он будет думать что div.main содержит в себе элемент left, что в корне неверно — для таких случаев нотация должна иметь вид: body>div.main left, то есть в этом случае мы иерархическую последовательность узлов разделяем не пробелами, а через символы ″>″.

Вот так, легко и непринуждённо мы можем составлять DOM шаблоны для парсера контента FDE Grabber.

Для того, чтобы открыть FireBug можно также воспользоваться иконкой, как показано на скриншоте ниже:

Как работает DOM парсинг на примере разбора содержимого статьи:

  • указывается DOM шаблон
  • FDE Grabber преобразует документ в иерархическое  DOM дерево
  • начинается поиск по указанному DOM шаблону необходимого нам элемента  и в случае его нахождения мы получим полезный контент

Как выглядит DOM шаблон

В DOM шаблоне указываются DOM элементы (узлы)  в виде иерархической последовательности (как и в CSS стилях или, например jquery).

Рассмотрим пример. Пусть, полезный контент содержится в документе, который выглядит следующим образом:

<body>
	<div>
		<table>
			<tr>
				<td>
					<div class=″content″>
полезное содержимое,
которое мы желаем получить
					</div>
				</td>
			</tr>
		</table>
	</div>
</body>

Тогда мы можем выстроить некоторый шаблон, который будет выглядеть, например так: body div table div.content

Последовательность body div table div.content означает, что мы ищем элемент div со стилевым классом “content“, который является дочерним по отношению к table, а table в свою очередь дочерним, по отношению к div, а div к body.
Допускается указание идентификаторов, в виде div#id, где div - это элемент с идентификатором “id“.
Кроме того, допускается указание любой общности элементов в виде “*”. Конструкция вида *.content означает любой элемент со стилевым классом “content

Ну хорошо, скажете вы, но это не позволяет распознать контент в большинстве сайтов, работающих на популярном движке DLE. Контент там находится, обычно в блочных элементах с уникальным идентификатором, вида news-id-555555

ДА! Именно поэтому мы сделали возможность указания дополнительного сопоставления атрибутов

Например, id {preg} #content_\d+#i – это сопоставление значения атрибута id с указанным регулярным выражением #content_\d+#i.
width {like} 100 – это сопоставление значения атрибута width со строковым значением “100” (не регулярное выражениие).

Как несложно догадаться, для всех сайтов, работающих на DLE унас будет всего один универсальный шаблон:

id {preg} #news\-id\-\d+#is

На скриншоте ниже приводится пример настройки граббера FDE Grabber под любой сайт, работающий на CMS DataLife Engine:

Кроме поиска, по такой же схеме мы сделали возможность указания DOM замен. При этом можно заменить любой DOM элемент на указанную замену. Парсить с помощью DOM шаблонов в FDE Grabber можно не только полное содержимое статей, но и источники.

оставить комментарий Метки:, далее...

Новая версия FDE Grabber 4.5

опубликовал дата: Мар.12, 2012, категория: Докуметация, Система импорта новостей FDE Grabber

Дорогие друзья!

С радостью сообщаем о том, что выпущена новая версия парсера статей FDE Grabber 4.5

О том, какие изменения были сделаны в новой версии читайте ниже:

  • добавлена возможность массового изменения настроек категорий источников парсера новостей
  • добавлена возможность массового изменения настроек источников парсера новостей
  • для статей добавлен новый статус “в архиве”
  • добавлена возможность перемещать статьи сразу же после публикации в архив, а также перемещать их вручную через раздел “статьи”
  • добавлена возможность получения сжатых страниц на стороне сервера (gzip, deflate  и т.д.)
  • улучшена система обхода защит от ботов на некоторых сайтах – теперь граббер в своём поведении ещё более похож на обычный браузер клиента и практически полностью имитирует его работу
  • исправлены мелкие недочёты

Рассмотрим более подробно новые возможности, которые появились в новой версии

(читать далее…)

оставить комментарий Метки:, , , далее...

Бесшаблонный парсинг

опубликовал дата: Фев.15, 2012, категория: Докуметация

Начиная с версии 4.4 в системе импорта новостей FDE Grabber появился бесшаблонный парсер или бесшаблонный граббер (кому как нравится :-) )

При настройке категории источников имеется вот такая опция:

При её активации можно не указывать шаблона для поиска полезного контента, тогда парсер сайтов FDE Grabber будет пытаться получить полезное содержимое с помощью своей технологии бесшаблонного парсинга.

Надо сказать, что в большинстве случаев у него получается распознавать контент довольно качественно. Поэтому это может оказаться полезной особенностью для быстрой настройки категории.

 

оставить комментарий Метки:, , , далее...

FDE Grabber 4.4 уже доступен

опубликовал дата: Фев.15, 2012, категория: Докуметация, Покупка системы, Система импорта новостей FDE Grabber

Дорогие друзья!

Сообщаем о том, что вышла новая версия системы импорта новостей FDE Grabber 4.4

Нужно сказать, что с этой версии в граббере начинается новая веха в истории FDE Grabber. Было сделано немало изменений в плане улучшения производительности, но и реализовано множество новых идей…

Обо всём по порядку, начнём с мелочей:

  • В настройках категории добавлена возможность указания минимального необходимого количества в статье картинок. Если количество картинок в статье  меньше указанной величины, то статья будет удалена и не будет импортирована
  • Добавлена возможность бесшаблонного парсинга новостей (статей). Это означает, что теперь в большинстве случаев можно получать полезный контент полного содержимого статьи вообще не составляя никакого шаблона
  • Добавлена возможность DOM парсинга как содержимого статей так и источников.
  • Добавлена возможность DOM замен, наряду с обычными заменами и заменами, с помощью регулярных выражений

А теперь непосредственно о самом главном, о DOM парсинге и о преимуществах, которые мы получаем, используя DOM шаблоны

DOM – это аббревиатура от английскогоDocument Object Model”, что переводится на русский, как “Объектная Модель Документа”. Любой документ известной структуры с помощью DOM может быть представлен в виде дерева узлов, каждый узел которого представляет собой элемент, атрибут, текстовый, графический или любой другой объект. Узлы связаны между собой отношениями “родительский-дочерний”. Иными словами, система импорта новостей FDE Grabber теперь умеет построить из HTML кода документа иерархическое DOM дерево, состоящее из узлов, связанных между собой отношениями родитель-дочерний элемент. При этом технология DOM парсинга разработана нами самостоятельно, в стенах компании FDSTAR и не основывается ни на каких-либо чужих разработках.

Как работает DOM парсинг на примере разбора содержимого статьи:

  • указывается DOM шаблон
  • FDE Grabber преобразует документ в иерархическое  DOM дерево
  • начинается поиск по указанному DOM шаблону необходимого нам элемента  и в случае его нахождения мы получим полезный контент

Как выглядит DOM шаблон

В DOM шаблоне указываются DOM элементы (узлы)  в виде иерархической последовательности (как и в CSS стилях или, например jquery).

Рассмотрим пример. Пусть, полезный контент содержится в документе, который выглядит следующим образом:

<body>
	<div>
		<table>
			<tr>
				<td>
					<div class="content">
полезное содержимое,
которое мы должны получить
					</div>
				</td>
			</tr>
		</table>
	</div>
</body>

Тогда мы можем выстроить некоторый шаблон, который будет выглядеть, например так: body div table div.content

Последовательность body div table div.content означает, что мы ищем элемент div со стилевым классом “content“, который является дочерним по отношению к table, а table в свою очередь дочерним, по отношению к div, а div к body.
Допускается указание идентификаторов, в виде div#id, где div - это элемент с идентификатором “id“.
Кроме того, допускается указание любой общности элементов в виде “*”. Конструкция вида *.content означает любой элемент со стилевым классом “content

Ну хорошо, скажете вы, но это не позволяет распознать контент в большинстве сайтов, работающих на популярном движке DLE. Контент там находится, обычно в блочных элементах с уникальным идентификатором, вида news-id-555555

ДА! Именно поэтому мы сделали возможность указания дополнительного сопоставления атрибутов

Например, id {preg} #content_\d+#i – это сопоставление значения атрибута id с указанным регулярным выражением #content_\d+#i.
width {like} 100 – это сопоставление значения атрибута width со строковым значением “100” (не регулярное выражениие).

Как несложно догадаться, для всех сайтов, работающих на DLE унас будет всего один универсальный шаблон:

id {preg} #news\-id\-\d+#is

Кроме поиска, по такой же схеме мы сделали возможность указания DOM замен. При этом можно заменить любой DOM элемент на указанную замену. Парсить с помощью DOM шаблонов в FDE Grabber можно не только полное содержимое статей, но и источники.

Итоги

Как мы видим, теперь имеется возможность ещё более удобного указания шаблонов для парсинга и время на реализацию новых идей!

оставить комментарий Метки:, , , , , далее...

Новая версия граббера сайтов FDE Grabber 4.3

опубликовал дата: Янв.27, 2012, категория: Докуметация, Покупка системы, Система импорта новостей FDE Grabber

Дорогие друзья, сообщаем о том, что вышла новая версия системы импорта новостей и статей FDE Grabber 4.3

О сделанных изменениях и дополнениях:

  1. Была изменена система логирования. Теперь в лог записи сохраняются не в виде одноязычной фразы, язык которой совпадает с языком интерфейса по умолчанию, а в виде параметров, что даёт возможность при просмотре лога показывать описание события на текущем языке, выбранном администратором
  2. Добавлена возможность замены регулярными выражениями, а также обычной замены текста после основных преобразований контента (когда именно следует  применять замену указывается при настройке категории)
  3. Добавлены два новых хака для указания ссылки на источник (для соблюдения авторских прав). Можно настроить указание ссылок на источник по своему усмотрению и вкусу, изменив файл хака (хаки обязательно требуется сохранять в кодировке UTF-8)
  4. Добавлен хак корректировки незакрытых тегов. Работает быстрее чем предыдущий. Теперь именно он используется в  комплексном хаке “красивый контент”
  5. Добавлена возможность предварительного просмотра статей при выводе списка статей. Просмотр можно осуществлять как в виде HTML так и обычном виде, добавлена возможность быстрого просмотра при наведении мышки на ссылку “просмотр”, с помощью ajax технологии

Теперь можно приобрести систему импорта новостей FDE Grabber в полностью автоматическом режиме, оплатив через систему электронных платежей WebMoney Transfer, подробности здесь: http://fde-cms.ru/buy_grabber.html

Детальное описание системы импорта новостей FDE Grabber можно найти здесь: http://fdstar.net/fde-grabber.html

Как обновить систему FDE Grabber на новую версию?

  • зайти в персональный кабинет на нашем сайте http://fde-cms.com/ или http://fde-cms.ru/
  • скачать дистрибутив версии 4.3*
  • следовать инструкции по обновлению, которая находится в корне дистрибутива (файл “how_to_update_from_4.2_to_4.3.txt”, текст сохранён в кодировке Windows-1251)

* Были вопросы о том, как это сделать, как скачать дистрибутив FDE Grabber – ответ прост:

  • Заходим на сайт http://fde-cms.com/ или http://fde-cms.ru/ (первый на английском языке, второй на русском) под своим логином. Если ещё логина нет, то требуется зарегистрироваться на странице регистрации: http://fde-cms.ru/do/registration/
  • Переходим в раздел лицензий:   http://fde-cms.ru/do/my_licenses/. Если у вас ещё нет лицензии, купить лицензию FDE Grabber на странице http://fde-cms.ru/do/order/ (требуется залогиниться)
  • Далее, на странице лицензий находим нужный нам дистрибутив и нажимаем на ссылку “скачать” (смотрите скриншот ниже). Здесь требуется предостеречь: не нажимайте по несколько раз на эту ссылку – генерация дистрибутива довольно длительный процесс, поэтому требуется дождаться ответа сервера, в случае двойного нажатия сайт вас забанит и придётся писать в службу поддержки для разблокировки

оставить комментарий Метки:, , далее...

Вышла новая версия граббера 4.2

опубликовал дата: Дек.26, 2011, категория: Система импорта новостей FDE Grabber

Дорогие друзья, с радостью вам сообщаем о том, что доступна новая версия системы импорта новостей: FDE Grabber 4.2

Изменения, сделанные в новой версии, а также что появилось нового:

  • добавлена возможность указания публикации на один из выбранных сайтов при настройке источника в граббере случайно. То есть, теперь вы сможете публиковать получаемые новости с определённого источника или на все указанные сайты или случайно на один из указанных
  • при настройке категории, в заменах регулярными выражениями вы сможете делать замены в HTML списках новостей (в HTML коде) до получения краткой новости (только для html источников). Это даёт возможность более гибкой настройки и парсинга html источников

Как обновиться на новую версию?

– зайти в персональный кабинет на сайте http://fde-cms.com/ или http://fde-cms.ru/
- скачать дистрибутив версии 4.2
- следовать инструкции по обновлению, которая находится в корне дистрибутива (файл называется “how_to_update_from_4.1_to_4.2.txt”)

оставить комментарий Метки:, , , , , далее...

страница 1 из 41234