Процесс индексации
К сожалению, не всегда индексация ресурса проходит идеально. Нередко
возникают проблемы, которые препятствуют индексации части и даже всего
веб-сайта. Либо ресурс полностью вылетает из индекса. Очень часто
причиной таких явлений становятся ошибки, допущенные во время разработки
проекта.
Специалисты выделают три типа ошибок, которые препятствуют нормальной индексации сайта:
Использование конструкций, препятствующих индексации
Засорение индекса дубликатами страниц
Препятствия индексированию сайта
К ошибкам первого типа относят использование скриптов
и флэш для создания меню. Дело в том, что поисковые машины не умеют
индексировать содержимое скриптов и Flash. Поэтому спрятанные в них
ссылки они также не найдут и не перейдут по ним на другие документы.
Если на вашем сайте использовано такое меню, выход - продублировать
навигацию текстовыми ссылками, например, внизу страницы. Впрочем,
ситуация с Flash сейчас немного лучше. Часть поисковых машин, к числу
которых относятся Яндекс и Рамблер, научились индексировать Flash. Но
остаются системы, которые не могут этого делать.
Популярная в прошлом ошибка - использование фреймов. Они позволяют
разделить экран пользователя на несколько областей и в каждой открыть
определенный документ. Использование фреймов замедляет индексацию
документа. Также встает вопрос авторитетности того или иного документа.
Если на главной странице открываются три разных html-файла, то
неизвестно, какой из них поисковая машина посчитает главной страницей.
Использование фреймов приносит множество проблем.
Осторожно следует подходить к использованию редиректа, который
автоматически направляет посетителя с одной страницы на другую. Редирект
на стороне клиента однозначно воспринимается поисковыми машинами как спам.
Дело в том, что такой редирект часто используют владельцы дорвеев.
Редирект на стороне сервера не относится к запрещенным технологиям, но
также может вызвать проблемы. Например, с учетом внешних ссылок на
документ.
Не всегда поисковые машины корректно индексируют динамические
страницы. К их числу относятся страницы, в адресе которых находится знак
вопроса, либо их разрешение отлично от .htm или .html. Некоторые
поисковые системы накладывают ограничения на индексацию подобных
документов и учет ссылок на них.
Засорение индекса дубликатами страниц происходит чаще всего при
использовании идентификаторов сессии. В случае их применения каждому
посетителю присваивается уникальный код, который дублируется в адресе
страницы. Идентификаторы позволяют собирать информацию о поведении
посетителей на сайте, но в то же время затрудняют индексацию ресурса.
При каждом визите поисковый робот получает одни и те же страницы с
разными адресами (из-за идентификаторов) и в поисковой машине копятся
дубликаты страниц. В итоге сайт могут пессимизировать либо удалить из
индекса большую часть документов.
Сегодня идентификаторы потеряли свою актуальность - существует
множество других инструментов для сбора статистики. Тем не менее, если
на вашем сайте используются идентификаторы, необходимо избавиться от них
или прописать запрет на присвоение идентификаторов поисковым роботам.
Ошибки возникают в случае неправильно настроенного сервера. При
обращении поискового робота к документу сервер сообщает в заголовке код,
например, 200 (все OK). Есть другие коды: 301 (документ перемещен), 302
(временно перемещен), 404 (не найден). Проблемы возникают, если сервер
передает код 200 (все ОК) для несуществующих страниц.
В случае очень крупных сайтов возникает еще одна проблема. Поисковые
роботы за один визит индексируют определенное количество документов.
Если ресурс содержит тысячи страниц, то на их индексацию потребуется
несколько визитов ботов и соответственно больше времени. Владельцу
сайта, наоборот, хочется увидеть все страницы в индексе как можно
скорее. Решить проблему можно созданием поддоменов, например, отдельного
поддомена для форума. Для каждого поддомена выделяется своя квота
индексации и в итоге за один визит обрабатывается больше документов.
Другое решение - запретить для индексации малоинформативные страницы.
Тогда в индекс попадут только самые интересные для посетителей и
поисковых машин документы.
Как добавить
Процесс индексации можно ускорить, если вручную подать заявку на
добавление сайта в поисковую систему. Ниже приведены ссылки на страницы
добавления сайтов в наиболее популярных поисковых системах:
При добавлении сайтов в поисковые машины необходимо учитывать ряд их
особенностей. Например, для добавления сайта в поисковую систему Google
необходимо, чтобы на ресурс стояла хотя бы одна внешняя ссылка. Тогда
поисковый робот Google сам найдет ваш ресурс.
Некоторые поисковые машины используют алгоритмы других поисковиков, а
также учитывают наличие сайтов в определенных каталогах. Например, тот
же Google и ряд других поисковых машин используют базу данных каталога
DMOZ (http://dmoz.org/). Отечественная поисковая машина Mail.ru использует алгоритмы Яндекса.
Авторы: Николай Евдокимов и Сергей Баиров
|