Статьи

Google: Индексирование вашего сайта

Множество раз тема индексации сайтов в поисковой системе поднималась и обсуждалась на различных веб-мастерских форумах. И вот теперь нам представилась возможность получить информацию из первых рук. Статья в первую очередь будет интересна начинающим оптимизаторам, но, возможно, и опытные мастера найдут в ней немало интересного для себя.

Для наших пользователей Google – это удобный поисковик, в котором Вы, задав поисковый запрос, получаете перечень страниц с искомой информацией. Однако с точки зрения того, что происходит «за кадром», процесс поиска в Интернете выглядит куда сложнее. И он непрерывно усложняется по мере того, как все больше информации становится доступно в «глобальной паутине». В компании Google мы постоянно работаем над тем, чтобы облегчить и ускорить процесс поиска необходимых сведений. За последние пять лет система поиска Google в Интернете стала гораздо быстрее, а наши системы сканирования и индексирования (crawling and indexing systems) — значительно «умнее».

Google

Это хорошая новость для веб-разработчиков, так как мы можем взаимодействовать с контентом сайтов более эффективно, чем когда-либо прежде. Например, наши системы индексирования «знают», что обновление страниц на сайтах интернет-газет происходит достаточно часто – следовательно, их нужно так же часто сканировать. Или, к примеру, теперь мы можем обнаружить сайты с бесконечным числом страниц (например, онлайновые календари), которые не представляют большой ценности для пользователя, однако замедляют работу нашей системы сканирования (Googlebot).

Как сделать так, чтобы найти ваш сайт было проще?
Прекрасным ресурсом, где можно найти ответы на этот часто задаваемый вопрос, а также и на многие другие вопросы, является Центр веб-мастеров Google (http://www.google.ru/intl/ru/webmasters).

Что же делать для того, чтобы найти ваш сайт было проще? Для начала необходимо убедиться, что Google может обнаружить и проиндексировать ваш сайт: вы можете воспользоваться средствами, имеющимися в Центре веб-мастеров, и установить, включен ли ваш сайт в индекс Google и не были ли получены нами сообщения об ошибках в процессе сканирования.

Время от времени веб-мастер может столкнуться с ситуацией, когда его сайт не появляется в результатах поиска. Это может произойти из-за того, что на момент сканирования Googlebot в работе сайта произошел сбой или, к примеру, сайт был размещен уже после завершения сканирования. Возможно, причина в том, что на него мало ссылок с других сайтов или же в том, что наша система сканирования не может сделать копии страниц сайта для включения их в результаты поиска.

Иногда сама страница устроена так, что ее сложно найти. Динамический контент (динамически генерируемые URL, Flash и JavaScript и т.д.) достаточно непросто индексируется в поисковых машинах. Похожую проблему представляют также страницы, которые требуют от пользователей заполнения какой-либо формы, прежде чем будет предоставлен доступ к содержанию. Чтобы получить более ясное представление о том, в каком виде поисковые системы сканируют ваш сайт, нужно зайти на него, предварительно отключив изображения, Flash и JavaScript в браузере.

На возможность Google проиндексировать сайт могут также повлиять другие проблемы более общего характера. Так, если адрес страницы содержит идентификатор сессии, множество параметров или вызывает частую переадресацию, то проиндексировать ее нам будет гораздо сложнее.

Контроль содержания
Разные веб-сайты делаются для самых различных целей. Например, некоторые газеты бесплатно предоставляют онлайн-доступ ко всем своим статьям. Другие предпочитают предоставлять часть или весь контент за абонентскую плату. Некоторые веб-мастера хотят, чтобы контент был доступен посредством целого ряда поисковых сервисов: через мобильный поиск, поиск картинок и т.п., в то время как другие предпочитают, чтобы их сайты выдавались только в результатах веб-поиска.

Хорошая новость в том, что теперь у Вас имеются средства, благодаря которым вы можете предоставлять поисковым машинам ровно столько контента, сколько считаете необходимым. Эти средства варьируются в широком диапазоне – от контроля всего сайта посредством “robots.txt” до использования метатегов для контроля индексирования отдельных страниц. Как и другие поисковые системы, Google идет навстречу пожеланиям веб-мастеров в использовании контента их сайтов. Используя ряд имеющихся инструментов (в том числе, некоторые недавно усовершенствованные функции), веб-мастера могут встроить в структуру сайтов средства автоматического управления доступом. Это поможет потенциальным посетителям быстрее найти наиболее релевантную информацию.

Использование “robots.txt”
Протокол Robots Exclusion Protocol является хорошо зарекомендовавшим себя средством, устанавливающим ограничения доступа для всего сайта. Первая часть протокола – это файл “robots.txt”, который помещается в корневую директорию вашего веб-сайта. Он содержит простые правила, определяющие, каким образом поисковые машины могут получить доступ к вашему сайту на различных уровнях: от сайта в целом до отдельных директорий и типов страниц, вплоть до регулирования правил доступа к отдельным страницам.

Конечно, большинство владельцев сайтов хотят, чтобы Google их сайты проиндексировал. Однако существуют отдельные файлы или директории, появление которых в результатах поиска для Вас нежелательно. Например, к таким файлам или директориям могут относиться внутренние журналы учета (логи) или контент, доступный только за абонентскую плату.

В файле “robots.txt” содержится перечень страниц, которые поисковые машины не должны индексировать. Например, если вы хотите прекратить индексирование логов системой Googlebot, файл “robots.txt” должен содержать следующее:
User-agent: Googlebot
Disallow: /logs/

Строка, начинающаяся с User-agent, указывает на то, что следующий за ней раздел является набором правил, установленных специально для Googlebot. Строка Disallow предписывает Googlebot не индексировать директории логов.

Все основные поисковые машины будут считывать и исполнять инструкции в файле “robots.txt”. При этом вы можете установить различные правила для разных поисковых машин. Вы также можете контролировать способы взаимодействия поисковых машин с определенными типами файлов. Например, если вы хотите, чтобы изображения с вашего сайта не включались в результаты поиска, вы должны вставить в файл “robots.txt” следующие строки:
User-agent: *
Disallow: /*.jpg$
Disallow: /*.jpeg$

Строка User-agent указывает на то, что эти правила распространяются на все поисковые машины. Две строки Disallow инструктируют поисковые системы игнорировать любой файл, имеющий расширение jpg или jpeg.

Работа с метатегами
Вторая часть протокола Robots Exclusion Protocol – это метатеги. Они позволяют весьма детально контролировать индексирование отдельных документов. Метатеги особенно полезны в тех случаях, когда у Вас есть разрешение редактировать отдельные файлы, но нет доступа к файлу “robots.txt” для всего сайта. Вы можете поместить один или несколько метатегов в заголовок HTML страницы, чтобы определить поведение поисковой машины в отношении конкретно этой страницы.

Скажем, на вашем сайте размещена новостная статья, которая должна быть доступна только зарегистрированным пользователям. Чтобы исключить индексирование этой страницы добавьте метатег noindex в заголовок HTML:
<html>
<head>
<meta name=”googlebot” content=”noindex”>
</head>

Конечно, во многих случаях вам, в общем-то, нужно, чтобы система Google проиндексировала такую страницу для того, чтобы пользователи могли ее найти, даже если за ознакомление с контентом им придется платить.

Возможно, вы хотите, чтобы метатеги использовались всеми поисковыми машинами. Например, если вам необходимо, чтобы какой-то конкретный пост вашего блога игнорировался всеми поисковыми машинами, это легко устроить: вам нужно добавить метатег в HTML этого поста.
<meta name=”robots” content=”noindex”>

Преимущества Sitemap
Для того, чтобы Google включил страницы вашего сайта в индекс, необходимо знать URL всех страниц сайта. Как правило, Googlebot находит страницы вашего сайта, считывая ссылки с одной страницы для того, чтобы обнаружить все остальные. Некоторые сайты представляют собой «сады с оградой», страницы которых не связаны ссылками ни с чем. Поскольку Googlebot обнаруживает страницы сайта, следуя по ведущим на них ссылкам, он не может осуществить сканирование и индексирование страниц на сайтах с подобной структурой. Чтобы решить эту проблему, вы можете предоставить в Google перечень всех URL на сайте. Этот перечень предоставляется в виде Sitemap.

Первая версия протокола Sitemap (Sitemaps Protocol) была выпущена Google в 2005 г., и с этого времени в сотрудничестве с другими поисковиками, включая Windows Live и Yahoo, мы работаем над совершенствованием функциональности этого протокола. Наша цель состоит в том, чтобы протокол Sitemap стал открытым стандартом. Sitemap дополняет действующие механизмы сканирования и дает веб-мастерам возможность сообщать поисковым машинам информацию обо всех страницах на сайте. Это может увеличить количество просмотров и улучшить рейтинг страниц в результатах поиска. Ниже представлен вид XML Sitemap:
<?xml version=”1.0” encoding=”UTF-8”?>
<urlset xmins=http://www.sitemaps.org/schemas/sitemap/0.9>
<url>
<loc>http://www.kiberjob.info/</loc>
<lastmod>2005-01-01</lastmod>
<changefreq>monthly</changefreq>
<priority>0.8</priority>
</url>
</urlset>

Еще больше возможностей контроля
Теперь давайте вернемся к протоколу Robots Exclusion Protocol. Для чего? Чтобы ознакомиться с недавно реализованными компанией Google новыми свойствами, которые предоставляют вам еще больше возможностей контролировать процесс индексирования. Первым из них является новый метатег unavailable_after. Он дает возможность сообщить Google о том, что некая страница перестает функционировать с какой-либо конкретной даты. После этой даты Google удалит указанную страницу из своего индекса.

Возможно, у Вас есть временная страница, которая будет удалена в конце месяца, или же к некоторым страницам в течение недели доступ останется бесплатным, а затем они будут перемещены в платный архив. Ниже представлен пример, как убрать страницу из индекса с 10 ноября 2008 г.:
<meta name=”googlebot” content=”unavailable_after:10-Nov-2008 12:00:00 EST”>

Другой новой опцией является возможность добавлять метатеги в файл любого типа. Метатеги являются полезным инструментом, но до недавнего времени они могли добавляться только в страницы формата HTML. А если вам необходимо сообщить Google, что некий файл в формате PDF не должен индексироваться или что файл в формате JPEG не должен быть доступен после определенной даты? Теперь Вы можете добавить метатеги в заголовок HTTP любого файла. Для этого вам необходимо переконфигурировать ваш веб-сервер, добавив к заголовкам HTTP этих файлов тег X-Robots-Tag:
X-Robots-Tag: noindex

Воплотив все вышесказанное на практике, вы непременно обнаружите, что количество пользователей, которые находят нужные страницы на вашем сайте, увеличилось. Удачи!

Дэн Кроу, эксперт по сканированию и индексированию Google

 
Рекомендуем
 
Реклама
 
Новости

 
Статистика



Ссылки