Михаил Сенин - Индексирование сайта: Яндекс.Вебмастер...

Post on 11-Nov-2014

6.478 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

DESCRIPTION

Обзор основных проблем, которые могут возникнуть при индексировании сайта. Способы их выявления с помощью инструментов Яндекс.Вебмастера. В докладе будет рассказано также, как улучшить представление интернет-магазина в результатах поиска.

TRANSCRIPT

Индексирование сайта: используем Яндекс.Вебмастер для устранения проблем

Михаил Сенин Ноябрь 2013

2

3

4

Знай и люби свой сайт!

5

Поисковый индекс

6

Обход роботом и поисковые индексы

Подготовка  индекса  

t Подготовка  индекса  

Основной  индекс  

Выкладывание нового индекса

Выкладывание нового индекса

Загрузка

страницы

роботом

Загрузка

страницы

роботом

Загрузка

страницы

роботом

Загрузка

страницы

роботом

Загрузка

страницы

роботом

Основной  индекс  

Индекс  Быстрого  робота  

Результаты поиска

Сообщение  в  Я.Вебмастере  

Сообщение  в  Я.Вебмастере  

7

Сообщения о новом индексе

8

Объясняем роботу как индексировать сайт

9

Настройка индексирования

Анализатор  robots.txt  –  куда  можно  ходить  

1 2

3

4

10

Настройка индексирования

Файлы  sitemap  –  что  нужно  индексировать  –  Проверьте  корректность  файла  Sitemap  в  валидаторе  –  Добавьте  в  robots.txt  или  Я.Вебмастер  –  Получайте  информацию  об  обработке  файла  роботом  Яндекса  

11

Этапы обработки страницы

12

не знаю L

Этапы обработки страницы DNS   Сайт  Робот  Яндекса  

имя домена

GET /robots.txt

Анализ robots.txt

GET <адрес страницы>

Анализ контента (кодировка, язык и т.п.)

Построение поискового индекса

IP-адрес

Не удалось соединиться L

Запрет L

Не годится L

Не берём L В индекс!

robots.txt

Контент страницы

500, 404, ошибки HTTP L

Не удалось соединиться L

13

Этапы обработки страницы

•  Получение  ip  по  имени  Возможны  ошибки  DNS  

•  Соединение  с  сайтом  Возможен  запрет  робота  Яндекса  по  ip    

•  Проверка  запрета  в  robots.txt  Возможен  запрет  страницы  в  robots.txt  

•  Загрузка  страницы  Возможны  ошибки  HTTP  соединения,    5XX  и  т.п.  

•  Обработка  страницы  после  загрузки  Запрет  мета-­‐тегом  и  т.п.,  неверная  кодировка  и  т.п.,    ограничения  робота  Яндекса

•  Включение  в  индекс  

14

Предупреждения о недоступности сайта

•  Ошибка  DNS  Проверяем,  пробуем  настроить,  идём  к  хостеру  или  провайдеру  

•  Соединение  с  сайтом  Проверяем  ответ  сайта  роботу  Яндекса,  идём  к  разработчикам  сайта,  хостеру  или  провайдеру  

•  Запрет  в  robots.txt  Проверяем  в  анализаторе  robots.txt

 За год проблемами подобного рода сталкивались 10% сайтов!

15

Сообщения о недоступности сайта

Скоро  всё  будет  плохо    

Подготовка  индекса  

OK Ошибка

16

Сообщения о недоступности сайта

Всё  плохо  

Подготовка  индекса  

Ошибка Ошибка

17

Сообщения о недоступности сайта

Скоро  будет  хорошо  

Подготовка  индекса  

OK Ошибка

18

Причины, по которым страница не попадает в поиск

19

Некоторые определения

•  URL  страницы  Разные  URL  могут  вести  на  один  и  тот  же  контент    

•  Страница  проиндексирована  Контент  страницы  доступен  в  поиске    

•  Канонический  URL  URL,  под  которым  страница  доступна  в  поиске      

20

Страница в поиске под другим именем

•  Редирект  на  более  длинный  URL  Выбираем более короткий URL, т.к. его проще воспринять  

•  Мета-­‐тег  refresh  на  более  длинный  URL  

•  Контент  дублирует  контент  другого  URL  

 

•  Было  указание  на  канонический  URL  <link rel="canonical" href="http://www.examplesite.ru/blog"/>  

21

Обошли, но в поиск не взяли  

 

•  Исключено  роботом  Страницу не удалось получить или обработать

 

•  «Неинтересный»  контент  Вероятность показа страницы очень мала

•  Страница  является  спамом    

22

Исключённые страницы

23

Причины исключения страниц роботом

•  Ограничения  робота  У  всех  свои  ограничения…  

•  Страница  запрещена  к  индексированию  

вебмастером  или  не  существует  robots.txt,    refresh,  noindex,  rel=canonical,  4XX  кроме  403  

•  Ошибки  на  стороне  сайта  403,  5XX,  обрыв  соединения,  ошибки  протокола  HTTP,  неверная  кодировка,  страница  без  текста,  ошибки  распаковывания    

24

Исключенные страницы: сводка

25

Исключенные страницы: по типам

26

Ограничения робота

•  Слишком  большой  документ  –  10  Мб  

•  Формат  документа  не  поддерживается  или указывается сервером неправильно

•  Документ  является  логом  сервера  

•  Неверный  формат  документа  Не соответствует html, pdf, doc, rtf, swf, xls или ppt; чаще всего xml

•  Кодировка  не  распознана  http://help.yandex.ru/webmaster/?id=1111516

•  Язык  не  поддерживается  http://help.yandex.ru/webmaster/?id=1111517

•  Слишком  много  ссылок  –      ?  3072

27

Запрет или не существует

•  Все  4ХХ  коды,  кроме  403  Фильтруем по наличию внутренних ссылок

•  robots.txt  Анализатор robots.txt

•  Мета-­‐тег  noindex  Смотрим код страницы

•  Мета-­‐тег  refresh  Не индексируется, т.к. пользователь реально не видит этот контент

•  rel=“canonical”  Индексируется канонический URL

28

Ошибки на стороне сервера или сайта

•  Все  5ХХ  коды  и  403  Чиним сервер, закрываем страницы от индексации или меняем настройки

•  Обрыв  соединения,  неверная  длина  сообщения  

•  Неверный  URL,  длина  URL  превышает  предел  

•  Неверный  HTTP-­‐код  

•  Неверная  кодировка  (Transfer-­‐encoding)  •  Длина  HTTP-­‐заголовка  превышает  предел  

•  Документ  не  содержит  текста  

•  Ошибка  распаковывания  

29

Инструмент для проверки URL

30

Спасибо за внимание! Вопросы?

http://webmaster.yandex.ru http://help.yandex.ru/webmaster senin@yandex-team.ru

top related