Парсят ли они javascript или они видят только исходник страницы?
Просто порой хочется списки, таблицы генерировать с помощью JS, но если так то бот не увидит сгенерированную инфу... _________________ NextStage - live music competition
боты видят только статичную инфу между тегами, и ничего кроме нее. Есть специальные браузеры и даже сайты, через которые можно увидеть, какстраница будет видна для бота. _________________ Fear is the Mind Killer.
Парсят ли они javascript или они видят только исходник страницы?
Просто порой хочется списки, таблицы генерировать с помощью JS, но если так то бот не увидит сгенерированную инфу...
Нет, точнее в ряде случаев боты поисковиков могут парсить кое-какие команды JS, но только подозрительные команды JS которыми пытаются прикрыть поисковый спам.(например, безусловную переадресацию на другой сайт или сокрытие большей части текста для пользователя).
В мануалах гугла и яндекса предлагается делать навигацию как удобно, но обязательно дублировать её обычными ссылками внизу страницы (или на край сделать карту сайта и передать её в эти поисковики). _________________ Написание конвекторов, парсеров, интеграции нескольких сайтов (в личку)
боты видят только статичную инфу между тегами, и ничего кроме нее. Есть специальные браузеры и даже сайты, через которые можно увидеть, какстраница будет видна для бота.
Помоему ничего спецального для этого не нужно, просто отключаешь в браузере CSS и JS и ты превратишся в бота _________________ C/C++, Lua, JavaScript, CSS + XHTML, PHP.
Тега <noindex> не существует.
Его придумал Yandex и помоему только он его и обрабатывает.
Причем вставка этого тега, карается не валидностью документа. _________________ C/C++, Lua, JavaScript, CSS + XHTML, PHP.
Хм... а яндексбота что не существует??? Или я что-то пропустил?? Мы говорили о том как увидеть то что видят боты... Я вот например хотел бы увидеть глазами яндекса А потом ещё и гугла с яху... _________________
S|D|EG| Let's Rock! | XAP в ЛИЧКУ, SAPE
Хм... а яндексбота что не существует??? Или я что-то пропустил?? Мы говорили о том как увидеть то что видят боты... Я вот например хотел бы увидеть глазами яндекса А потом ещё и гугла с яху...
устраивает?
Дело в том что в реальности страница превращается в некий комплексный индекс, который потом используется для поиска, причем там хитрым способом отбрасываются частые слова, учитывается расстояние между словами и т.д. Описание алгоритма постороения похожего индекса есть в яндексе (правда они используют другой), но я так и не смог осилить его описание.
З.И. Примерный алгоритм как получить страницу глазами гугла или бота:
1. Выберете в браузере сохранить как текст
2. Из текста выкиньте все предлоги союзы местоимения и т.п.
3. Переведите ряд слов в их более употребимые синонимы
4. Чаще всего выкидываем общий текст с другими страницами сайта (например, текст главного меню, дизайна, подвала и т.п. )
5. Выдираем title и анализируем его отдельного
6. Переводим в индекс на самом деле у поисковиков один индекс, но будем считать, что их три:
1) Минимальное расстояние (в словах) между словами (т.е в фразе солнце рано встало и петухи меня разбудили, солнце и петухи отделены 3 словами), на сколько знаю такого индекса нет у гугла, и точно есть у яндекса
2) Кол-во вхождений слова на странице (на самом деле тут ещё определяется, где находится слово, например слова в меню или подвале общем для всего сайта может не учитыватся в заголовке напротив учитыватся очень сильно+слишком большое кол-во вхождений наоборот уменьшает этот индекс)
3) Порядок слов друг за другом
7. Определяем копипастеность текста примерный алгоритм (упрощенно,алгоритм поисковиков похож, но другой) берем первый индекс (Минимальное расстояние между словами) и сравниваем десяток комбинаций слов на странице с десятком слов в базе, если есть другие сайты у которых большая часть комбинаций совпадает с вашей страницей, сравниваем большое кол-во комбинаций, если текст все равно совпадает, то это копипаст. Такой алгоритм позволит обнаружить даже значительно измененый текст.
8. Получаем ссылки и определяем внутренние они или внешние, якоря ссылок их вес и т.д.
Вот вы посмотрели глазами бота поисковика страницу (конечно упрощенно, на самом деле все ещё сложнее) _________________ Написание конвекторов, парсеров, интеграции нескольких сайтов (в личку)
DISCLAIMER: All messages made available as part of this discussion group
(including any bulletin boards and chat rooms) and any opinions,
advice, statements or other information contained in any messages posted
or transmitted by any third party are the responsibility of the author
of that message. The fact that a particular message is posted on or
transmitted using this web site does not mean that we
endorsed that message in any way or verified the accuracy,
completeness or usefulness of any message.
Although we require that all users read and agree with the forum rules,
we cannot constantly monitor forum activity. We encourage visitors to the
forum to report any objectionable message to moderators. Once again, this
forum is not monitored 24/7.