Вышел в свет FDE Grabber 5.2

Доступна для покупки и скачивания новая версия граббера новостей FDE Grabber 5.2 Новые возможности системы импорта новостей:

  • Улучшена система работы с изображениями — теперь парсер контента просчитывает все действия, которые будет совершать с картинками наперёд, что позволяет более экономно расходовать вычислительные ресурсы сервера.
  • Возможность четырёхсторонней обрезки (кроппинга) исходных картинок для обрезки вотермарков
  • При автоматическом определении кодировки статьи теперь принимаются во внимание не только данные, полученные из HTML тега <META>, но и отправляемый сервером заголовок Content-Type
  • Улучшен интерфейс категорий источников, источников, а также сайтов — добавлены логические разделители
  • При тестировании настроек категории источников теперь, если не указать категорию, а указать только адрес статьи, которая уже находится в списке полученных статей, то категория подставится автоматически
  • В списке статей, в также при  просмотре самих статей в парсере сайтов добавлены кнопки теста категории источников

Четырёхсторонняя обрезка картинок

  В категории источников теперь можно указать по сколько пикселей должен обрезать FDE Grabber у каждой из сторон исходного изображения. Обрезку можно назначить только если изображение превышает указанные опорные размеры: Обрезка картинок в краткой новости и полной настраивается отдельно.

Зачем нужна обрезка изображений

  Когда сайт-донор добавляет на картинки вотермарки — небольшие картинки, наложенные на исходные, то это выглядит примерно следующим образом:
В правом нижнем углу на картинке находится вотермарк. Если вотермарки нежелательны, то для их удаления единственным возможным решением может быть только обрезка изображений. Если обрезать картинку снизу на высоту вотермарка, то картинка будет выглядеть так:
FDE Grabber четырёхстороннюю обрезку производит у исходных картинок, а уже потом производит иные преобразования, манипулируя с уже обрезанной картинкой.

Вышел в свет FDE Grabber 5.2, читать далее...

Граббер новостей с сайтов FDE Grabber 5.1

Дорогие друзья, извещаем вас о том. что доступна для скачивания и приобретения новая версия системы граббинга новостей FDE Grabber 5.1

Новые возможности и изменения:

  • Новейший механизм работы с динамическими списками
Полностью переработана и улучшена система для работы с динамическими списками. Теперь каждый элемент списка выделяется чередующимся цветом (зебра). При любом изменении порядка, добавлении, удалении нового элемента зебра автоматически перерисуется. Добавлены кнопки для удаления элементов списка: Введены области захвата элементов списка для последующего перетаскивания мышью на новое место, с целью изменения их сортировки:
  • Добавлена поддержка импорта и сохранения изображений, внедрённых непосредственно в тело HTML документа
Если в статье, которую необходимо импортировать находится картинка, встроенная в тело HTML документа, с помощью метода Base64, то система импорта новостей FDE Grabber автоматически распознает картинку и сохранит. Пример картинки, внедрённой в тело документа:
<img
src="data:image/gif;base64,R0lGODdhMAAwAPAAAAAAAP///ywAAAAAMAAw
AAAC8IyPqcvt3wCcDkiLc7C0qwyGHhSWpjQu5yqmCYsapyuvUUlvONmOZtfzgFz
ByTB10QgxOR0TqBQejhRNzOfkVJ+5YiUqrXF5Y5lKh/DeuNcP5yLWGsEbtLiOSp
a/TPg7JpJHxyendzWTBfX0cxOnKPjgBzi4diinWGdkF8kjdfnycQZXZeYGejmJl
ZeGl9i2icVqaNVailT6F5iJ90m6mvuTS4OK05M0vDk0Q4XUtwvKOzrcd3iq9uis
F81M1OIcR7lEewwcLp7tuNNkM3uNna3F2JQFo97Vriy/Xl4/f1cf5VWzXyym7PH
hhx4dbgYKAAA7"
alt="Good girl" />
  • Добавлена поддержка импорта контента с сайтов, находящихся в доменах, содержащих символы национальных алфавитов
Теперь FDE Grabber может полноценно получать контент с сайтов, находящихся в доменах вида россия.рф, москва.ru  и т.д.
  • Адреса, которые начинаются с // теперь автоматически воспринимаются как начинающиеся с https://

Граббер новостей с сайтов FDE Grabber 5.1, читать далее...

Парсер контента FDE Grabber 5.0

Доступна для скачивания  и покупки очередная версия системы парсинга новостей FDE Grabber 5.0 Изменения и новые возможности:

  • появилась система умного выравнивания картинок (в настройках категории источников)
  • в настройках источников новостей добавлена опция, в зависимости от настроек которой краткую новость можно получить как из источника, так и из полной новости, путём обрезки по заданному количеству абзацев/символов/предложений
  • в настройках категории источников добавлена опция указания вставки в атрибуты alt и title тегов изображений содержимого заголовка статьи (для лучшей SEO оптимизации)
  • в настройках категории добавлена возможность для картинок указать отступы от текста по вертикали и горизонтали
  • система подсказок для удобного и правильного указания кодировок сайтов
  • система проверки настроек сайтов, в которые планируется публиковать полученные статьи
  • система ограничения доступа по IP/подсетям
  • система транзитных ключей, позволяющая повысить безопасность при удалённой публикации
Теперь обо всём более подробно…  

Система умного выравнивания картинок

Система позволяет в зависимости от заданного опорного размера указывать разное выравнивание для кратких и полных новостей. Например: опорный размер указан как 300X300 (ширина 300 пикселей, высота 300 пикселей). При размере изображения меньше указанного размера мы можем указать выравнивание по левому краю, а при превышении заданного размера выравнивание  поставить по центру. Таким образом получаемые новости будут смотреться гораздо лучше.  

Возможность получать краткую новость как из источника так и путём обработки полной новости

При настройке источника можно выбрать то, как вы желаете получать краткую новость. По умолчанию она будет получаться из источника, но можно и переключить логику так, чтобы система импорта новостей получала её из полной новости. Кроме того, можно указать обрезку краткой новости по заданному количеству символов/параграфов/предложений. При любом типе обрезки система автоматически закрывает открытые HTML теги.    

Система подсказок при настройке сайта

При указании кодировки сайта система сама предложит варианты правильных кодировок, что позволит избежать досадных ошибок при настройке сайта. При выборе кодировки,  подсказанной системой все остальные поля кодировок заполнятся автоматически (если они были пустыми).  

Возможность проверки настроек сайта до использования

Возможности ограничения доступа к системе по заданным IP адресам/подсетям

Значения указываются через пробел. Если необходимо указать подсеть, то используется звёздочка, например: 46.8.2.*   В случае попытки доступа к системе с IP, не входящего в список доступ будет запрещён.

Возможность повысить безопасность, используя транзитные ключи

При транзитной публикации теперь можно указать секретный ключ при настройке сайта: И транзитный ключ при настройке самого граббера: В конфиге граббера config/dynamic.php параметр, отвечающий за транзитный ключ называется TRANSIT_KEY В случае, если ключи, указанные в настройках сайта и в настройках транзитной системы граббера не совпадут, то доступ к публикации будет заблокирован.
При использовании граббера теперь необходимо обязательно сменить дефолтный пароль, иначе система откажется работать.

Парсер контента FDE Grabber 5.0, читать далее...

FDE Grabber 4.9 выпущен на волю!

Ящик Пандоры уже открыт, FDE Grabber 4.9 выпущен на волю, и его уже не остановить :-) Изменения и дополнения, которые вошли в новую версию:

  • появилась возможность экспорта настроек категорий источников и источников в специальный датафайл (о новом функционале читайте ниже)
  • появилась возможность импорта настроек категорий источников и источников из датафайла (о новом функционале читайте ниже)
  • исправлены мелкие недочёты и недоработки прошлых версий
Экспорт настроек категорий источников и источников в датафайл В списке записей выбираем нужную и нажимаем на кнопку «экспорт» В открывшемся диалоговом окне выбираем «сохранить файл»: И сохраняем настройки в файл Импорт настроек категорий источников и источников из датафайла В списке записей нажимаем на кнопку «импорт из файла» Выбираем файл и нажимаем на кнопку «импортировать«: ЗАЧЕМ рязанскому крестьянину этот странный замечательный функционал?
  • функционал позволяет вести заработок на настройке категорий и источников, принимая заказы у своих знакомых
  • обмениваться настройками граббера со своими друзьями и знакомыми
  • позволяет организовать «быстрый старт» новичкам. С нашего демо сайта без проблем можно экспортировать нужную настройку и импортировать себе в граббер
FDE Grabber 5 не за горами — ждите сюрпризов ;-)  

FDE Grabber 4.9 выпущен на волю!, читать далее...

Парсер сайтов FDE Grabber 4.8

Доступна для скачивания и тестирования новая версия системы импорта новостей, парсера контента, граббера сайтов FDE Grabber 4.8 Новые возможности, вошедшие в версию:
  • Была сделана и добавлена полноценная система перелинковки (как она работает - читайте далее)
  • В DOM шаблоны для получения полезного контента при настройке категории источников граббера добавлена возможность указания номеров не уникальных элементов, но подходящих под указанный DOM шаблон, из которых будет получаться полезный контент. Например, если указан DOM шаблон в виде BODY TABLE DIV, а на странице элементов, подходящих под этот шаблон больше одного, то теперь есть возможность указать порядковые номера этих элементов (через запятую или пробел) - из них FDE Grabber будет получать контент. Если соответствующее поле не заполнять, то FDE Grabber будет получать контент сразу из всех элементов, подходящих под указанный шаблон.
  • исправлены небольшие недочёты прошлых версий граббера

Система перелинковки (добавления ссылок)

Если для вашего сайта активирована система перелинковки (в гразделе "Сайты"): То при публикации на него полученных статей граббер будет её использовать. Система перелинковки работает следующим образом:
  • Указывается адрес ссылки и подписи к ней (через запятую). Также, указывается сайт (добавленный  в граббер через раздел «сайты»), для которого будут ставиться ссылки.
  • В момент публикации, в случае нахождения в тексте статьи указанных текстовых подписей - они будут замены на соответствующие ссылки.
При добавлении ссылки можно указать применение стеммера (Стеммер Портера) — таким образом отпадёт необходимость склонять по падежам указанные подписи. Кто-то предпочтёт потратить лишние 2-3 минуты и просклоняет подписи к ссылкам, а кто-то может включить использование стеммера.

Парсер сайтов FDE Grabber 4.8, читать далее...

Как удалённо публиковать получаемые парсером статьи

Бывает, что нам необходимо поставить парсер контента на сервер, отличный от того, на котором находится сайт, куда требуется публиковать получаемые парсером статьи. Причины тому могут быть разные — желание централизовать управление наполнением сайтов, разгрузка серверных ресурсов (на сервере, на котором находится сайт) и т.д. В парсере сайтов FDE Grabber публикацию полученных статей можно осуществлять как локальную так и удалённую. Локальная публикация — это такой режим работы парсера, когда он установлен на том же сервере, что и сайт, в который требуется публиковать полученные статьи. Удалённая публикация — это такой режим работы парсера, когда он установлен на другом сервере, отличном от того, на котором работает сайт, в который требуется публиковать полученные статьи. Если в случае локальной публикации всё понятно — ставится граббер рядом с сайтом, который требуется наполнять и поехали, то в случае удалённой публикации могут возникнуть некоторые вопросы. Для осуществления удалённой публикации нам потребуется при настройке сайта (в разделе граббера «сайты») отметить опцию «Удалённая публикация» (поставить галочку) и заполнить поле «URL транзитного файла». URL транзитного файла — это адрес транзитного файла копии граббера, которую потребуется установить на тот же сервер, где находится ваш сайт. Пусть ваш сайт находится по адресу https://test.com/ и вы установили транзитную копию граббера в директорию fde, таким образом, что URL граббера получился https://test.com/fde/. Тогда URL транзитного файла будет выглядеть так: https://test.com/fde/transit_publication.php Транзитную копию граббера не обязательно устанавливать полностью, запуская инсталлятор install.php. Если копия граббера будет использоваться исключительно в транзитных целях, то достаточно отредактировать его конфигурационный файл /путь_к_корню_папки_системы_импорта_новостей_на_сервере/config/dynamic.php следующим образом: ‘FILES_DIR’ => ‘/путь_к_грабберу_на_сервере/uploads/files/’, ‘TMP_DIR’ => ‘/путь_к_грабберу_на_сервере/uploads/tmp/’, указав реальные пути и проставив на соответствующие папки права на запись. Больше ничем удалённая публикация не отличается от локальной — все остальные параметры сайта указываются так, как если бы граббер осуществлял локальную публикацию.

Как удалённо публиковать получаемые парсером статьи, читать далее...

Как использовать FDE Grabber на сервере с динамическим IP

Возможен ли запуск системы импорта новостей FDE Grabber на сервере с динамическим IP? - ответ да. В рамках одной лицензии вы вправе запускать FDE Grabber с 10 различных IPv4 адресов, а также с основного домена. Это означает, что если вы привязали к своему серверу с динамическим IP какой-либо домен, то можно указать этот домен, как основной в свойствах лицензии на систему импорта новостей, чтобы иметь возможность осуществлять запуск FDE Grabber на подобном сервере: Как и список IP адресов - основной домен вы можете отредактировать в любой момент в свойствах лицензии по своему усмотрению.

Как использовать FDE Grabber на сервере с динамическим IP, читать далее...

Новая версия системы импорта новостей FDE Grabber 4.7

Дорогие друзья, сообщаем вам о том, что вышла новая версия граббера статей FDE Grabber 4.7 Какие изменения вошли в новую версию:
  • Добавлен новый модуль для редактирования языковых файлов системы импорта новостей (как им пользоваться и зачем он нужен читайте ниже)
  • Добавлен новый хак (микропрограмма для обработки контента) для обхода редиректов (перенаправлений) в ссылках. Так, если в контенте существует ссылка, вида https://site.ru/?id=23123217, при переходе по которой вы перенаправляетесь на страницу https://fdstar.net/,  то при активации данного хака система перейдёт по ссылке и заменит адрес на конечный результат: https://fdstar.net/ вместо того, который был вначале (https://site.ru/?id=23123217). Хак работает только (!) с редиректами, отправляемыми через HTTP заголовки — если сайт использует другой тип перенаправления, например через метатег или с помощью языка javascript, то использование данного хака не поможет.
  • Теперь при работе удалённой публикации файлы во временной папке на удалённом сервере не накапливаются, а сразу удаляются.
  • Добавлена поддержка нового типа движка DataLife Engine 9.6 (который вышел 1 мая).
Что такое модуль для редактирования языковых файлов граббера Модуль для редактирования и переводов языковых файлов системы импорта новостей нужен для коррекции возможных ошибок и недочётов в подписях и текстах FDE Grabber, а также как средство удобного перевода системы на другие языки. Если вы хотите помочь развитию системы, перевёв её на новый язык, то данный модуль поможет это сделать. Языковые файлы граббера находятся в папке languages. Под каждый поддерживаемый язык выделяется отдельная подпапка, так например для русского языка выделена директория languages/russian, а для английского  языка languages/english. При работе с модулем для редактирования языковых файлов требуется проставить права на запись (например 0777) как на сами языковые папки, так и на их содержимое — языковые файлы. При добавлении нового языка требуется создать внутри папки languages новую директорию, в которой и будут храниться языковые файлы нового языка. Например для украинского языка мы можем создать пустую папку languages/ukranian и выставить на неё права на запись, после чего воспользоваться модулем для редактирования и переводов. Как пользоваться модулем редактирования и переводов языковых файлов системы импорта новостей FDE Grabber Для того, чтобы отредактировать какой либо язык или языки требуется зайти на главную страницу модуля, выбрать требуемый язык, при необходимости добавить для редактирования дополнительный язык, воспользовавшись кнопками «+» и «-». После чего нажать на кнопку «применить«. Для редактирования какого либо файла требуется перейти, кликнув по соответствующей ссылке: После проведения перевода или редактирования сохранить результат, нажав на кнопку «изменить«: Для того, чтобы увидеть свой перевод среди списка возможных для выбора языков: Потребуется очистить папку граббера «cache«, сделав это или напрямую через файловую систему или с помощью функции «очистки кеша» в разделе «утилиты» граббера. Перед тем как это сделать убедитесь в том, что переведены все языковые файлы граббера иначе вы можете увидеть сообщения об ошибках.  

Новая версия системы импорта новостей FDE Grabber 4.7, читать далее...

DOM парсинг контента

Как было описано ранее, в рамках пресс релиза выхода парсера сайтов FDE Grabber 4.4,  DOM – это аббревиатура от английскогоDocument Object Model”, что переводится на русский язык, как “Объектная Модель Документа”. Любой документ известной структуры с помощью DOM может быть представлен в виде дерева узлов,  в котором каждый узел представляет собой элемент, атрибут, текстовый, графический или любой другой объект. Узлы полученного дерева связаны между собой отношениями “родительский-дочерний”. Иными словами, система импорта новостей FDE Grabber теперь умеет построить из HTML кода документа иерархическое DOM дерево, состоящее из узлов, связанных между собой отношениями родитель-потомок. Чтобы иметь возможность наглядно представлять себе DOM структуру какого-либо документа статьи мы советуем вам установить бесплатное дополнение к браузеру FireFox, которое называется FireBug. Для этого заходим через браузер FireFox на сайт https://addons.mozilla.org/ru/firefox/ Проводим поиск плагина, указывая в поисковом запросе «FireBug» https://addons.mozilla.org/ru/firefox/addon/firebug/?src=ss На странице описания плагина нажимаем на кнопку «Добавитиь в FireFox», добавляем плагин, перезапускаем браузер FireFox и пробуем его в действии. Пусть, для примера мы хотим составить DOM шаблон для импорта контента со страниц сайта https://warezed.ru/. Для этого открываем любую страницу с контентом, например https://warezed.ru/819-Nad-Severnym-morem-vot-vot-vzorvetsya-gaz.html через браузер FireFox, выделяем полный текст статьи: Вызываем контекстное меню, нажимая на правую кнопку мышки по выделенному тексту статьи: В открывшейся панели FireBug ищем уникальный родительский элемент, содержащий полный текст статьи: Можно заметить, что полезный контент статьи полностью содержится в теге span, имеющим стилевой класс news Поэтому мы можем составить DOM шаблон так: span.news (это очень напоминает описание CSS описание стилей). Для уверенности в уникальности нашего шаблона  мы можем пойти дальше и составить иерархическую последовательность узлов в виде цепочки, обращая внимание на то, что элемент span.news является дочерним по отношению к элементу div.big-news, поэтому альтернативный DOM шаблон будет выглядеть так: div.big-news span.news (что опять же идентично CSS нотации описания стилей). Или даже так: body div.big-news span.news В общем случае иерархическая DOM цепочка узлов может быть неограниченной. В том случае, когда стилевой класс указывается через пробел, например для атрибута class=″main left″ в теге div, который является дочерним по отношению к body мы не можем записывать шаблон в виде а ля: body div.main left, так как граббер будет его интерпретировать искажённо - он будет думать что div.main содержит в себе элемент left, что в корне неверно — для таких случаев нотация должна иметь вид: body>div.main left, то есть в этом случае мы иерархическую последовательность узлов разделяем не пробелами, а через символы ″>″. Вот так, легко и непринуждённо мы можем составлять DOM шаблоны для парсера контента FDE Grabber. Для того, чтобы открыть FireBug можно также воспользоваться иконкой, как показано на скриншоте ниже: Как работает DOM парсинг на примере разбора содержимого статьи:

  • указывается DOM шаблон
  • FDE Grabber преобразует документ в иерархическое  DOM дерево
  • начинается поиск по указанному DOM шаблону необходимого нам элемента  и в случае его нахождения мы получим полезный контент
Как выглядит DOM шаблон В DOM шаблоне указываются DOM элементы (узлы)  в виде иерархической последовательности (как и в CSS стилях или, например jquery). Рассмотрим пример. Пусть, полезный контент содержится в документе, который выглядит следующим образом:
<body>
	<div>
		<table>
			<tr>
				<td>
					<div class=″content″>
полезное содержимое,
которое мы желаем получить
					</div>
				</td>
			</tr>
		</table>
	</div>
</body>
Тогда мы можем выстроить некоторый шаблон, который будет выглядеть, например так: body div table div.content Последовательность body div table div.content означает, что мы ищем элемент div со стилевым классом “content“, который является дочерним по отношению к table, а table в свою очередь дочерним, по отношению к div, а div к body. Допускается указание идентификаторов, в виде div#id, где div - это элемент с идентификатором “id“. Кроме того, допускается указание любой общности элементов в виде “*”. Конструкция вида *.content означает любой элемент со стилевым классом “content” Ну хорошо, скажете вы, но это не позволяет распознать контент в большинстве сайтов, работающих на популярном движке DLE. Контент там находится, обычно в блочных элементах с уникальным идентификатором, вида news-id-555555 ДА! Именно поэтому мы сделали возможность указания дополнительного сопоставления атрибутов Например, id {preg} #content_\d+#i – это сопоставление значения атрибута id с указанным регулярным выражением #content_\d+#i. width {like} 100 – это сопоставление значения атрибута width со строковым значением “100” (не регулярное выражениие). Как несложно догадаться, для всех сайтов, работающих на DLE унас будет всего один универсальный шаблон: id {preg} #news\-id\-\d+#is На скриншоте ниже приводится пример настройки граббера FDE Grabber под любой сайт, работающий на CMS DataLife Engine: Кроме поиска, по такой же схеме мы сделали возможность указания DOM замен. При этом можно заменить любой DOM элемент на указанную замену. Парсить с помощью DOM шаблонов в FDE Grabber можно не только полное содержимое статей, но и источники.

DOM парсинг контента, читать далее...

Новая версия FDE Grabber 4.5

Дорогие друзья! С радостью сообщаем о том, что выпущена новая версия парсера статей FDE Grabber 4.5 О том, какие изменения были сделаны в новой версии читайте ниже:
  • добавлена возможность массового изменения настроек категорий источников парсера новостей
  • добавлена возможность массового изменения настроек источников парсера новостей
  • для статей добавлен новый статус “в архиве”
  • добавлена возможность перемещать статьи сразу же после публикации в архив, а также перемещать их вручную через раздел “статьи”
  • добавлена возможность получения сжатых страниц на стороне сервера (gzip, deflate  и т.д.)
  • улучшена система обхода защит от ботов на некоторых сайтах – теперь граббер в своём поведении ещё более похож на обычный браузер клиента и практически полностью имитирует его работу
  • исправлены мелкие недочёты
Рассмотрим более подробно новые возможности, которые появились в новой версии

Новая версия FDE Grabber 4.5, читать далее...