analýza webu pomocí xenu

19
+420 272 763 111 [email protected] www.h1.cz Xenu Vytěžte z Xenu maximum pro analýzu webu

Upload: h1cz

Post on 08-Jul-2015

10.090 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Analýza webu pomocí Xenu

+420 272 763 111 [email protected] www.h1.cz

Xenu

Vytěžte z Xenu maximum pro analýzu webu

Page 2: Analýza webu pomocí Xenu

Kontrola webu pomocí Xenu

Základní informace o Xenu

Primárně využívané pro hledání chybných odkazů

Xenu kontroluje i další typy linků:

obrázky

styly, externí soubory

vnořené rámce

a další

http://home.snafu.de/tilman/xenulink.html

Nejnovější beta verze -http://home.snafu.de/tilman/tmp/xenubeta.zip

Page 3: Analýza webu pomocí Xenu

Co byste měli o Xenu vědět

Nerespektuje direktivy uvedené v robots.txt.

Neoznačí stránky se zakázanou indexací (pomocí robots.txt ani meta tagem robots s hodnotou noindex.

Xenu nerozlišuje parametr nofollow.

Projde přes přesměrování pomocí meta refresh.

Kontrola webu pomocí Xenu

Page 4: Analýza webu pomocí Xenu

Prvotní nastavení kontroly webu

Kontrola se spustí pomocí tlačítka Check URL v hlavní nabídce Xenu.

Běh Xenu je možné omezit pomocí zakázání adres.

Do pole „Do not check any URLs beginning with this:“ se přidají potřebné adresy.

Adresa se musí přidat včetně domény webu, tedy například www.example.com/skript.

Xenu pak bude ignorovat všechny adresy začínající „skript“, tedy např. www.example.com/skripty/, nebo www.example.com/skript.php.

Kontrola webu pomocí Xenu

Page 5: Analýza webu pomocí Xenu

Prvotní nastavení kontroly webu

Je také možné povolit adresy, které by jinak nebyly zahrnuty:

Typicky pokud je úvodní stránka na jiné adrese, než www.example.com (například www.example.com/uvod) nebo pokud je web přes více subdomén.

Do adresy pro kontrolu je potom nutné zadat URL homepage a povolit procházení celého webu.

Do pole „Consider URLs beginning with this as internal:“ se zadá doména webu ve tvaru www.example.com.

Kontrola webu pomocí Xenu

Page 6: Analýza webu pomocí Xenu

Prvotní nastavení kontroly webu

Kontrola webu pomocí Xenu

Page 7: Analýza webu pomocí Xenu

Prvotní nastavení kontroly webu

Z obrázku je patrné následující:

Kontrola bude spuštěna nad webem http://www.slevomat.cz/.

Úvodní stránka je na URL http://www.slevomat.cz/cs/.

Xenu nemá kontrolovat stránky blogu, který je na adrese http://www.slevomat.cz/blog/.

Nechceme kontrolovat externí odkazy (tlačítko „Checkexternal links“).

Kontrola webu pomocí Xenu

Page 8: Analýza webu pomocí Xenu

Podrobné nastavení Xenu

Před spuštěním je dobré zvolit „More options“ a přizpůsobit další nastavení:

Kontrola webu pomocí Xenu

Page 9: Analýza webu pomocí Xenu

Podrobné nastavení Xenu

Parallel threads udává počet souběžně stahovaných vláken. Doporučuji max. 5, aby nedošlo k zahlcení serveru.

Apply to all jobs znamená, že si Xenu bude nastavení pamatovat i pro příští kontroly.

Ask for password or certificate when needed – Xenuse zeptá na hesla. Je potřeba dát pozor, aby se potom robot nedostal například do administrace webu.

Treat redirections as errors přidá do reportu přesměrované odkazy (hlavičky 301 a 302).

Kontrola webu pomocí Xenu

Page 10: Analýza webu pomocí Xenu

Podrobné nastavení Xenu

Ostatní nastavení slouží pro report, který nemusí být potřeba dělat vždy:

FTP and gopher URLs zreportuje odkazy na FTP soubory.

Valid text URLs zobrazí seznam všech odkazů na webu.

Site Map – Generovaná mapa webu není příliš použitelná a její vytvoření trvá u rozsáhlých webů velmi dlouho.

Orphan Files by mělo zobrazit osiřelé (nepoužívané) soubory, tento report ale nedává příliš smysl.

Kontrola webu pomocí Xenu

Page 11: Analýza webu pomocí Xenu

Kontrola webu

První kontrola webu odhalí přesměrované, nenalezené a další chybové odkazy.

V druhém kroku se v options / preferences vypne volba Treat redirections as errors a opět se spustí kontrola webu (Ctrl+R).

Xenu tak bude následovat přesměrované odkazy a lze zjistit, zda přesměrování vede na existující soubory.

V posledním kroku se zaškrtne volba Check externalURLs v Options a opět se spustí běh Xenu (Ctrl+R).

Report chybových externích odkazů.

Kontrola webu pomocí Xenu

Page 12: Analýza webu pomocí Xenu

Zpracování reportů

V každém kroku je nutné uložit report zvlášť (vzniknou tak 3 různé soubory – např. xenu1.xen, xenu2.xen a xenu3.xen)

Výsledné soubory se v Xenu exportují jako soubory oddělené tabulátorem (File / Export to TAB separetedfile, nebo CTRL + T) a ty se importují do Excelu.

Ne vždy je nutné dělat všechny 3 kontroly a reporty.

Kontrola webu pomocí Xenu

Page 13: Analýza webu pomocí Xenu

Import dat do Excelu

V novém sešitu vybereme kartu Data / Z textu > vybereme exportovaný soubor.

V roletě Typ souboru se zvolí stejné kódování, jako má web (je vidět v Xenu, sloupec Charset).

Dokončíme import.

Označíme první řádek a přidáme mu Filtr (karta Data / Filtr).

Kontrola webu pomocí Xenu

Page 14: Analýza webu pomocí Xenu

Reporty

Z výstupů lze vytvořit několik reportů:

Indexovatelné stránky: z prvního souboru se vyfiltrují stránky se Status-Code „200“ a zároveň Type „text/html“.

Odkazy na neexistující URL. Z druhého (případně třetího) souboru se vyfiltrují stránky se Status-Code „404“, případně i dalšími chybovými kódy.

Přesměrovaná URL: Větší počet přesměrovaných URL také není ideální. Z prvního souboru se vyfiltrují stránky se Status-Code „301“, případně “302”.

Pokud se na webu objevují další typy chyb (např. chyba serveru 500), mohou se udělat i jejich reporty.

Kontrola webu pomocí Xenu

Page 15: Analýza webu pomocí Xenu

Analýza reportů

Analýza webu se obvykle dělá nad reportem indexovatelné stránky.

Obsahuje stránky, které jsou na webu potencionálně dostupné pro uživatele a vyhledávače.

Tj. stránky, na které vede odkaz z interní navigace.

Ostatní reporty slouží ke kontrole chybných odkazů.

Kontrola webu pomocí Xenu

Page 16: Analýza webu pomocí Xenu

Analýza webu

Potencionální duplicitní a podobný obsah

Obsah souboru se seřadí zároveň podle titulku a velikosti.

Je možné si zvýraznit duplicitní záznamy označením sloupců a vybráním Podmíněné formátování > Zvýraznit pravidla buněk > Duplicitní hodnoty na kartě „Domů“.

Porovnáním řádků lze zjistit možné duplicity – stránky se stejným titulkem a shodnou (podobnou ) velikostí.

Obdobně lze zjistit obsahově velmi podobné stránky.

Získaná data je nutné ručně ověřit.

U zjištěných stránek je nutné prověřit, zda nejsou zakázané pro indexaci (robots.txt, meta tag robots).

Kontrola webu pomocí Xenu

Page 17: Analýza webu pomocí Xenu

Analýza webu

URL adresy

Struktura – klíčová slova, tvar, parametry

Délka (cca do 70 znaků)

Počet odchozích odkazů

Seřazení obsahu souboru sestupně dle Links Out

Maximálně doporučených je cca 100, lepší je méně

Kontrola webu pomocí Xenu

Page 18: Analýza webu pomocí Xenu

Analýza webu

Velikost kódu

Seřazení obsahu dle Size

Zjištění nadměrně velkých souborů

Struktura webu

Seřazení souboru sestupně dle Links In (počet interních odkazů na danou stránku)

Na obecné stránky ve vyšších patrech by mělo vést více odkazů než na stránky v nižších úrovních hierarchie.

Kontrola webu pomocí Xenu

Page 19: Analýza webu pomocí Xenu

+420 272 763 111 [email protected] www.h1.cz

Petr Fidler

http://twitter.com/maxell92

http://blog.h1.cz/