Процесс индексации
К сожалению, не всегда индексация ресурса проходит идеально. Нередко возникают проблемы, которые препятствуют индексации части и даже всего веб-сайта. Либо ресурс полностью вылетает из индекса. Очень часто причиной таких явлений становятся ошибки, допущенные во время разработки проекта.
Специалисты выделают три типа ошибок, которые препятствуют нормальной индексации сайта:
Использование конструкций, препятствующих индексации
Засорение индекса дубликатами страниц
Препятствия индексированию сайта
К ошибкам первого типа относят использование скриптов и флэш для создания меню. Дело в том, что поисковые машины не умеют индексировать содержимое скриптов и Flash. Поэтому спрятанные в них ссылки они также не найдут и не перейдут по ним на другие документы. Если на вашем сайте использовано такое меню, выход - продублировать навигацию текстовыми ссылками, например, внизу страницы. Впрочем, ситуация с Flash сейчас немного лучше. Часть поисковых машин, к числу которых относятся Яндекс и Рамблер, научились индексировать Flash. Но остаются системы, которые не могут этого делать.
Популярная в прошлом ошибка - использование фреймов. Они позволяют разделить экран пользователя на несколько областей и в каждой открыть определенный документ. Использование фреймов замедляет индексацию документа. Также встает вопрос авторитетности того или иного документа. Если на главной странице открываются три разных html-файла, то неизвестно, какой из них поисковая машина посчитает главной страницей. Использование фреймов приносит множество проблем.
Осторожно следует подходить к использованию редиректа, который автоматически направляет посетителя с одной страницы на другую. Редирект на стороне клиента однозначно воспринимается поисковыми машинами как спам. Дело в том, что такой редирект часто используют владельцы дорвеев. Редирект на стороне сервера не относится к запрещенным технологиям, но также может вызвать проблемы. Например, с учетом внешних ссылок на документ.
Не всегда поисковые машины корректно индексируют динамические страницы. К их числу относятся страницы, в адресе которых находится знак вопроса, либо их разрешение отлично от .htm или .html. Некоторые поисковые системы накладывают ограничения на индексацию подобных документов и учет ссылок на них.
Засорение индекса дубликатами страниц происходит чаще всего при использовании идентификаторов сессии. В случае их применения каждому посетителю присваивается уникальный код, который дублируется в адресе страницы. Идентификаторы позволяют собирать информацию о поведении посетителей на сайте, но в то же время затрудняют индексацию ресурса. При каждом визите поисковый робот получает одни и те же страницы с разными адресами (из-за идентификаторов) и в поисковой машине копятся дубликаты страниц. В итоге сайт могут пессимизировать либо удалить из индекса большую часть документов.
Сегодня идентификаторы потеряли свою актуальность - существует множество других инструментов для сбора статистики. Тем не менее, если на вашем сайте используются идентификаторы, необходимо избавиться от них или прописать запрет на присвоение идентификаторов поисковым роботам. Ошибки возникают в случае неправильно настроенного сервера. При обращении поискового робота к документу сервер сообщает в заголовке код, например, 200 (все OK). Есть другие коды: 301 (документ перемещен), 302 (временно перемещен), 404 (не найден). Проблемы возникают, если сервер передает код 200 (все ОК) для несуществующих страниц.
В случае очень крупных сайтов возникает еще одна проблема. Поисковые роботы за один визит индексируют определенное количество документов. Если ресурс содержит тысячи страниц, то на их индексацию потребуется несколько визитов ботов и соответственно больше времени. Владельцу сайта, наоборот, хочется увидеть все страницы в индексе как можно скорее. Решить проблему можно созданием поддоменов, например, отдельного поддомена для форума. Для каждого поддомена выделяется своя квота индексации и в итоге за один визит обрабатывается больше документов. Другое решение - запретить для индексации малоинформативные страницы. Тогда в индекс попадут только самые интересные для посетителей и поисковых машин документы.
Как добавить
Процесс индексации можно ускорить, если вручную подать заявку на добавление сайта в поисковую систему. Ниже приведены ссылки на страницы добавления сайтов в наиболее популярных поисковых системах:
Поисковая система |
Язык |
Страна |
Страница для добавления нового сайта |
Яндекс |
Русский |
Россия |
|
Рамблер |
Русский |
Россия |
|
Апорт |
Русский |
Россия |
|
LiveInternet.ru |
Русский |
Россия |
|
Meta.ua |
Русс/Укр |
Украина |
|
Google.ru |
Многояз |
Интернац |
|
Yahoo.com |
Многояз |
Интернац |
|
MSN.com |
Многояз |
Интернац |
|
AltaVista.com |
Многояз |
Интернац |
|
AOL.com |
Многояз |
Интернац |
|
Looksmart.com |
Многояз |
Интернац |
|
Lycos.com |
Многояз |
Интернац |
|
Dogpile.com |
Многояз |
Интернац |
При добавлении сайтов в поисковые машины необходимо учитывать ряд их особенностей. Например, для добавления сайта в поисковую систему Google необходимо, чтобы на ресурс стояла хотя бы одна внешняя ссылка. Тогда поисковый робот Google сам найдет ваш ресурс.
Некоторые поисковые машины используют алгоритмы других поисковиков, а также учитывают наличие сайтов в определенных каталогах. Например, тот же Google и ряд других поисковых машин используют базу данных каталога DMOZ (http://dmoz.org/). Отечественная поисковая машина Mail.ru использует алгоритмы Яндекса.
Авторы: Николай Евдокимов и Сергей Баиров