FDE Grabber

Бесшаблонный парсинг

опубликовал admin дата: Feb.15, 2012, категория: Докуметация

Начиная с версии 4.4 в системе импорта новостей FDE Grabber появился бесшаблонный парсер или бесшаблонный граббер (кому как нравится)

При настройке категории источников имеется вот такая опция:

При её активации можно не указывать шаблона для поиска полезного контента, тогда парсер сайтов FDE Grabber будет пытаться получить полезное содержимое с помощью своей технологии бесшаблонного парсинга.

Надо сказать, что в большинстве случаев у него получается распознавать контент довольно качественно. Поэтому это может оказаться полезной особенностью для быстрой настройки категории.

 

оставить комментарий :, , , далее...

FDE Grabber 4.4 уже доступен

опубликовал admin дата: Feb.15, 2012, категория: Докуметация, Покупка системы, Система импорта новостей FDE Grabber

Дорогие друзья!

Сообщаем о том, что вышла новая версия системы импорта новостей FDE Grabber 4.4

Нужно сказать, что с этой версии в граббере начинается новая веха в истории FDE Grabber. Было сделано немало изменений в плане улучшения производительности, но и реализовано множество новых идей…

Обо всём по порядку, начнём с мелочей:

  • В настройках категории добавлена возможность указания минимального необходимого количества в статье картинок. Если количество картинок в статье  меньше указанной величины, то статья будет удалена и не будет импортирована
  • Добавлена возможность бесшаблонного парсинга новостей (статей). Это означает, что теперь в большинстве случаев можно получать полезный контент полного содержимого статьи вообще не составляя никакого шаблона
  • Добавлена возможность DOM парсинга как содержимого статей так и источников.
  • Добавлена возможность DOM замен, наряду с обычными заменами и заменами, с помощью регулярных выражений

А теперь непосредственно о самом главном, о DOM парсинге и о преимуществах, которые мы получаем, используя DOM шаблоны

DOM – это аббревиатура от английскогоDocument Object Model”, что переводится на русский, как “Объектная Модель Документа”. Любой документ известной структуры с помощью DOM может быть представлен в виде дерева узлов, каждый узел которого представляет собой элемент, атрибут, текстовый, графический или любой другой объект. Узлы связаны между собой отношениями “родительский-дочерний”. Иными словами, система импорта новостей FDE Grabber теперь умеет построить из HTML кода документа иерархическое DOM дерево, состоящее из узлов, связанных между собой отношениями родитель-дочерний элемент. При этом технология DOM парсинга разработана нами самостоятельно, в стенах компании FDSTAR и не основывается ни на каких-либо чужих разработках.

Как работает DOM парсинг на примере разбора содержимого статьи:

  • указывается DOM шаблон
  • FDE Grabber преобразует документ в иерархическое  DOM дерево
  • начинается поиск по указанному DOM шаблону необходимого нам элемента  и в случае его нахождения мы получим полезный контент

Как выглядит DOM шаблон

В DOM шаблоне указываются DOM элементы (узлы)  в виде иерархической последовательности (как и в CSS стилях или, например jquery).

Рассмотрим пример. Пусть, полезный контент содержится в документе, который выглядит следующим образом:

<body>
	<div>
		<table>
			<tr>
				<td>
					<div class="content">
полезное содержимое,
которрое мы должны получить
					</div>
				</td>
			</tr>
		</table>
	</div>
</body>

Тогда мы можем выстроить некоторый шаблон, который будет выглядеть, например так: body div table div.content

Последовательность body div table div.content означает, что мы ищем элемент div со стилевым классом “content“, который является дочерним по отношению к table, а table в свою очередь дочерним, по отношению к div, а div к body.
Допускается указание идентификаторов, в виде div#id, где div - это элемент с идентификатором “id“.
Кроме того, допускается указание любой общности элементов в виде “*”. Конструкция вида *.content означает любой элемент со стилевым классом “content

Ну хорошо, скажете вы, но это не позволяет распознать контент в большинстве сайтов, работающих на популярном движке DLE. Контент там находится, обычно в блочных элементах с уникальным идентификатором, вида news-id-555555

ДА! Именно поэтому мы сделали возможность указания дополнительного сопоставления атрибутов

Например, id {preg} #content_\d+#i – это сопоставление значения атрибута id с указанным регулярным выражением #content_\d+#i.
width {like} 100 – это сопоставление значения атрибута width со строковым значением “100” (не регулярное выражениие).

Как несложно догадаться, для всех сайтов, работающих на DLE унас будет всего один универсальный шаблон:

id {preg} #news\-id\-\d+#is

Кроме поиска, по такой же схеме мы сделали возможность указания DOM замен. При этом можно заменить любой DOM элемент на указанную замену. Парсить с помощью DOM шаблонов в FDE Grabber можно не только полное содержимое статей, но и источники.

Итоги

Как мы видим, теперь имеется возможность ещё более удобного указания шаблонов для парсинга и время на реализацию новых идей!

оставить комментарий :, , , , , далее...

Новая версия граббера сайтов FDE Grabber 4.3

опубликовал admin дата: Jan.27, 2012, категория: Докуметация, Покупка системы, Система импорта новостей FDE Grabber

Дорогие друзья, сообщаем о том, что вышла новая версия системы импорта новостей и статей FDE Grabber 4.3

О сделанных изменениях и дополнениях:

  1. Была изменена система логирования. Теперь в лог записи сохраняются не в виде одноязычной фразы, язык которой совпадает с языком интерфейса по умолчанию, а в виде параметров, что даёт возможность при просмотре лога показывать описание события на текущем языке, выбранном администратором
  2. Добавлена возможность замены регулярными выражениями, а также обычной замены текста после основных преобразований контента (когда именно следует  применять замену указывается при настройке категории)
  3. Добавлены два новых хака для указания ссылки на источник (для соблюдения авторских прав). Можно настроить указание ссылок на источник по своему усмотрению и вкусу, изменив файл хака (хаки обязательно требуется сохранять в кодировке UTF-8)
  4. Добавлен хак корректировки незакрытых тегов. Работает быстрее чем предыдущий. Теперь именно он используется в  комплексном хаке “красивый контент”
  5. Добавлена возможность предварительного просмотра статей при выводе списка статей. Просмотр можно осуществлять как в виде HTML так и обычном виде, добавлена возможность быстрого просмотра при наведении мышки на ссылку “просмотр”, с помощью ajax технологии

Теперь можно приобрести систему импорта новостей FDE Grabber в полностью автоматическом режиме, оплатив через систему электронных платежей WebMoney Transfer, подробности здесь: http://fde-cms.ru/buy_grabber.html

Детальное описание системы импорта новостей FDE Grabber можно найти здесь: http://fdstar.net/fde-grabber.html

Как обновить систему FDE Grabber на новую версию?

  • зайти в персональный кабинет на нашем сайте http://fde-cms.com/ или http://fde-cms.ru/
  • скачать дистрибутив версии 4.3*
  • следовать инструкции по обновлению, которая находится в корне дистрибутива (файл “how_to_update_from_4.2_to_4.3.txt”, текст сохранён в кодировке Windows-1251)

* Были вопросы о том, как это сделать, как скачать дистрибутив FDE Grabber – ответ прост:

  • Заходим на сайт http://fde-cms.com/ или http://fde-cms.ru/ (первый на английском языке, второй на русском) под своим логином. Если ещё логина нет, то требуется зарегистрироваться на странице регистрации: http://fde-cms.ru/do/registration/
  • Переходим в раздел лицензий:   http://fde-cms.ru/do/my_licenses/. Если у вас ещё нет лицензии, купить лицензию FDE Grabber на странице http://fde-cms.ru/do/order/ (требуется залогиниться)
  • Далее, на странице лицензий находим нужный нам дистрибутив и нажимаем на ссылку “скачать” (смотрите скриншот ниже). Здесь требуется предостеречь: не нажимайте по несколько раз на эту ссылку – генерация дистрибутива довольно длительный процесс, поэтому требуется дождаться ответа сервера, в случае двойного нажатия сайт вас забанит и придётся писать в службу поддержки для разблокировки

оставить комментарий :, , далее...

Вышла новая версия граббера 4.2

опубликовал admin дата: Dec.26, 2011, категория: Система импорта новостей FDE Grabber

Дорогие друзья, с радостью вам сообщаем о том, что доступна новая версия системы импорта новостей: FDE Grabber 4.2

Изменения, сделанные в новой версии, а также что появилось нового:

  • добавлена возможность указания публикации на один из выбранных сайтов при настройке источника в граббере случайно. То есть, теперь вы сможете публиковать получаемые новости с определённого источника или на все указанные сайты или случайно на один из указанных
  • при настройке категории, в заменах регулярными выражениями вы сможете делать замены в HTML списках новостей (в HTML коде) до получения краткой новости (только для html источников). Это даёт возможность более гибкой настройки и парсинга html источников

Как обновиться на новую версию?

– зайти в персональный кабинет на сайте http://fde-cms.com/ или http://fde-cms.ru/
- скачать дистрибутив версии 4.2
- следовать инструкции по обновлению, которая находится в корне дистрибутива (файл называется “how_to_update_from_4.1_to_4.2.txt”)

оставить комментарий :, , , , , далее...

Новогодний сюрприз

опубликовал admin дата: Dec.25, 2011, категория: Покупка системы, Система импорта новостей FDE Grabber

Только в период с 25 декабря 2011 года по 7 января 2012 года (включительно) стоимость полноценной лицензии граббера  FDE Grabber будет  всего 55.5 USD
Все кто ещё не успел приобрести систему смогут это сделать со значительной скидкой (почти 30%):
старая цена: $88.8
новая (в период действия акции): $55.5
оставить комментарий :, , , , далее...

скачать FDE Grabber 4.1

опубликовал admin дата: Aug.09, 2011, категория: Система импорта новостей FDE Grabber

Дорогие друзья, с радостью вам сообщаем о том, что вышла новая версия системы импорта новостей: FDE Grabber 4.1

Изменения, которые были сделаны в новой версии  и что появилось нового:

- полностью изменена работа с датами получаемых статей и новостей. Теперь вы имеете большую свободу в настройках и можете настраивать дату публикуемой новости так, как этого требует ваш ресурс, с учётом всех тонкостей:
доступны несколько вариантов простановки дат:
a) из источника
б) дата, на момент граббинга источника
в) дата, на момент граббинга статьи
д) дата, на момент публикации

- переработан механизм флуктуации дат статей. Теперь вы можете устанавливать флуктуации на уровне настройки категории источников. Старый параметр флуктуации, устанавливавшийся на уровне глобальных настроек больше недоступен. Доступна установка параметра начального значения флуктуации дат (в секундах) и конечного, допускаются как положительные, так и отрицательные значения

- добавлен параметр фиксированного смещения даты (в секундах) новостей, который устанавливается также на уровне настройки категории источника

- JavaScript библиотека подсказок заменена на аналогичный встроенный в jquery механизм

- теперь вы можете читать новости о граббере, находясь в админ центре системы

- парсер новостей теперь отображает актуальность версии и  возможную необходимость обновления

Как обновить дистрибутив системы?

– зайти в персональный кабинет на нашем сайте http://fde-cms.com/ или http://fde-cms.ru/
- скачать дистрибутив системы импорта новостей FDE Grabber 4.1
- следовать инструкции по обновлению, которая находится в корне дистрибутива

Если вы ещё не являетесь клиентом, то требуется приобрести систему. По вопросам покупки обращайтесь через форму обратной связи: http://fde-cms.ru/do/feedback/

оставить комментарий :, далее...

FDE Grabber 4.0 уже доступна

опубликовал admin дата: Feb.11, 2011, категория: Система импорта новостей FDE Grabber

С  радостью сообщаем о том, что доступна для тестирования на нашем демо сайте http://fdegrabber.demo.fdstar.net/grabber-demo/ и покупки новая версия системы импорта новостей FDE Grabber 4.0

Из новшеств, коснувшихся версии, кратко, можно отметить следующие:

  • полнофункциональная мультисайтовость: Публикация доступна из одного источника на неограниченное число сайтов, работающих на любой из поддерживаемых CMS. Это означает, что мы не только ввели мультисайтовость, но и отказались от привязок лицензий к CMS – теперь вы можете работать с любой поддерживаемой CMS в рамках одной лицензии
  • Чтобы компенсировать такую щедрость, мы ввели ограничение запуска одной лицензии с 10 IP адресов *
  • Чтобы компенсировать ограничение запуска с 10 IP адресов, мы постарались и сделали возможность удалённой публикации – это означает, что теперь вы сможете установить систему импорта новостей, например на локальный компьютер, и публиковать полученные статьи на неограниченное число своих сайтов, работающих на любом хостинге, где есть PHP
  • Полностью проведён редизайн и ребрендинг системы, это хорошо заметно тем, кто видел нашу систему раньше – серой и безликой
  • Добавлено переключение языков админцентра FDE Grabber
  • Ну и, конечно же, множество других вкусностей… ;-)

* список адресов, с которых разрешён запуск граббера FDE Grabber можно отредактировать в любой момент, по своему усмотрению в личном кабинете на нашем сайте

2 комментариев :, далее...

FDE Grabber 4.0

опубликовал admin дата: Apr.06, 2010, категория: Покупка системы, Система импорта новостей FDE Grabber

Уважаемые пользователи системы импорта новостей, а также потенциальные клиенты.

Рады сообщить, что подходит к концу работа над новой системой лицензирования FDE Grabber, которая вступает в силу с версии FDE Grabber 4.0

Поэтому, в ближайшее время вы сможете приобрести/обновиться до версии FDE Grabber 4.0

Новая система лицензирования, в отличие от старой,  предусматривает проверку лицензий через наш сервер, а также ограничение на запуск системы импорта новостей с 10 IP адресов в рамках одной лицензии. Список вы сможете отредактировать в личном кабинете на нашем сайте ; Ограничений на запуск по доменам по прежнему не будет

оставить комментарий далее...

Выпущена новая версия системы импорта новостей FDE Grabber

опубликовал admin дата: Jun.28, 2009, категория: Система импорта новостей FDE Grabber

Мы выпустили новую версию граббера FDE Grabber 3.5

Среди новых функций:

- разграничение прав и свобод пользователей в админке граббера. Возможность назначать пользователям группу. Возможность создавать новые группы, с указанием прав доступа
- возможность устанавливать лимит публикуемых статей за день
- возможность автоматического клонирования категорий и источников
- возможность автоматического определения категории, к которой относится данная статья на основе обработанных стеммером ключевых слов

Стемминг — это процесс нахождения основы слова для заданного исходного слова. Основа слова необязательно будет совпадать с морфологическим корнем слова. Процесс стеминга применяется в поисковых системах для обобщения поискового запроса пользователя.
Конкретные реализации стемминга называются алгоритм стемминга или просто стеммер.

- возможность распознавания русских дат
- возможность указания нескольких шаблонов для парсинга через тег логического ИЛИ: {or}
- возможность автоматического переименования получаемых картинок путём транслитерации заголовка статьи для получения псевдо SEF (ЧПУ) адресов
- возможность настройки расположения вотермарка: левый верхний угол/правый верхний угол/левый нижний угол/ правый нижний угол/по центру/случайно из перечисленных вариантов
- возможность указания случайной флуктуации дат публикации статей

Также добавлен новый хак для перемешивания предложений. И отличная фича: расширение текстовых полей ввода типа textarea с помощью JavaScript с последующим запоминанием размера

оставить комментарий :, , , , , далее...

Хаки для граббера

опубликовал admin дата: Mar.15, 2009, категория: Докуметация

Что такое хак, применительно к грабберу?

Хак, это микропрограмма, вызываемая для обработки получаемого содержимого (контента).

Из-за того, что полученный контент часто приходится каким-либо образом обрабатывать, например выравнивать картинки по правому или левому краю или по центру. Или, к примеру, удалять все ссылки на третьи сайты, оставляя просто текст или заключать в тег <noindex>, добавляя атрибут rel=nofollow

Таких простых задач, может набраться довольно много. Поэтому, мы добавили в систему импорта новостей возможность указывать хаки для обработки контента, и  даже создавать свои (потребуются знания языка PHP)

(читать далее…)

оставить комментарий :, , , , далее...