analýza webu pomocí xenu
TRANSCRIPT
Kontrola webu pomocí Xenu
Základní informace o Xenu
Primárně využívané pro hledání chybných odkazů
Xenu kontroluje i další typy linků:
obrázky
styly, externí soubory
vnořené rámce
a další
http://home.snafu.de/tilman/xenulink.html
Nejnovější beta verze -http://home.snafu.de/tilman/tmp/xenubeta.zip
Co byste měli o Xenu vědět
Nerespektuje direktivy uvedené v robots.txt.
Neoznačí stránky se zakázanou indexací (pomocí robots.txt ani meta tagem robots s hodnotou noindex.
Xenu nerozlišuje parametr nofollow.
Projde přes přesměrování pomocí meta refresh.
Kontrola webu pomocí Xenu
Prvotní nastavení kontroly webu
Kontrola se spustí pomocí tlačítka Check URL v hlavní nabídce Xenu.
Běh Xenu je možné omezit pomocí zakázání adres.
Do pole „Do not check any URLs beginning with this:“ se přidají potřebné adresy.
Adresa se musí přidat včetně domény webu, tedy například www.example.com/skript.
Xenu pak bude ignorovat všechny adresy začínající „skript“, tedy např. www.example.com/skripty/, nebo www.example.com/skript.php.
Kontrola webu pomocí Xenu
Prvotní nastavení kontroly webu
Je také možné povolit adresy, které by jinak nebyly zahrnuty:
Typicky pokud je úvodní stránka na jiné adrese, než www.example.com (například www.example.com/uvod) nebo pokud je web přes více subdomén.
Do adresy pro kontrolu je potom nutné zadat URL homepage a povolit procházení celého webu.
Do pole „Consider URLs beginning with this as internal:“ se zadá doména webu ve tvaru www.example.com.
Kontrola webu pomocí Xenu
Prvotní nastavení kontroly webu
Kontrola webu pomocí Xenu
Prvotní nastavení kontroly webu
Z obrázku je patrné následující:
Kontrola bude spuštěna nad webem http://www.slevomat.cz/.
Úvodní stránka je na URL http://www.slevomat.cz/cs/.
Xenu nemá kontrolovat stránky blogu, který je na adrese http://www.slevomat.cz/blog/.
Nechceme kontrolovat externí odkazy (tlačítko „Checkexternal links“).
Kontrola webu pomocí Xenu
Podrobné nastavení Xenu
Před spuštěním je dobré zvolit „More options“ a přizpůsobit další nastavení:
Kontrola webu pomocí Xenu
Podrobné nastavení Xenu
Parallel threads udává počet souběžně stahovaných vláken. Doporučuji max. 5, aby nedošlo k zahlcení serveru.
Apply to all jobs znamená, že si Xenu bude nastavení pamatovat i pro příští kontroly.
Ask for password or certificate when needed – Xenuse zeptá na hesla. Je potřeba dát pozor, aby se potom robot nedostal například do administrace webu.
Treat redirections as errors přidá do reportu přesměrované odkazy (hlavičky 301 a 302).
Kontrola webu pomocí Xenu
Podrobné nastavení Xenu
Ostatní nastavení slouží pro report, který nemusí být potřeba dělat vždy:
FTP and gopher URLs zreportuje odkazy na FTP soubory.
Valid text URLs zobrazí seznam všech odkazů na webu.
Site Map – Generovaná mapa webu není příliš použitelná a její vytvoření trvá u rozsáhlých webů velmi dlouho.
Orphan Files by mělo zobrazit osiřelé (nepoužívané) soubory, tento report ale nedává příliš smysl.
Kontrola webu pomocí Xenu
Kontrola webu
První kontrola webu odhalí přesměrované, nenalezené a další chybové odkazy.
V druhém kroku se v options / preferences vypne volba Treat redirections as errors a opět se spustí kontrola webu (Ctrl+R).
Xenu tak bude následovat přesměrované odkazy a lze zjistit, zda přesměrování vede na existující soubory.
V posledním kroku se zaškrtne volba Check externalURLs v Options a opět se spustí běh Xenu (Ctrl+R).
Report chybových externích odkazů.
Kontrola webu pomocí Xenu
Zpracování reportů
V každém kroku je nutné uložit report zvlášť (vzniknou tak 3 různé soubory – např. xenu1.xen, xenu2.xen a xenu3.xen)
Výsledné soubory se v Xenu exportují jako soubory oddělené tabulátorem (File / Export to TAB separetedfile, nebo CTRL + T) a ty se importují do Excelu.
Ne vždy je nutné dělat všechny 3 kontroly a reporty.
Kontrola webu pomocí Xenu
Import dat do Excelu
V novém sešitu vybereme kartu Data / Z textu > vybereme exportovaný soubor.
V roletě Typ souboru se zvolí stejné kódování, jako má web (je vidět v Xenu, sloupec Charset).
Dokončíme import.
Označíme první řádek a přidáme mu Filtr (karta Data / Filtr).
Kontrola webu pomocí Xenu
Reporty
Z výstupů lze vytvořit několik reportů:
Indexovatelné stránky: z prvního souboru se vyfiltrují stránky se Status-Code „200“ a zároveň Type „text/html“.
Odkazy na neexistující URL. Z druhého (případně třetího) souboru se vyfiltrují stránky se Status-Code „404“, případně i dalšími chybovými kódy.
Přesměrovaná URL: Větší počet přesměrovaných URL také není ideální. Z prvního souboru se vyfiltrují stránky se Status-Code „301“, případně “302”.
Pokud se na webu objevují další typy chyb (např. chyba serveru 500), mohou se udělat i jejich reporty.
Kontrola webu pomocí Xenu
Analýza reportů
Analýza webu se obvykle dělá nad reportem indexovatelné stránky.
Obsahuje stránky, které jsou na webu potencionálně dostupné pro uživatele a vyhledávače.
Tj. stránky, na které vede odkaz z interní navigace.
Ostatní reporty slouží ke kontrole chybných odkazů.
Kontrola webu pomocí Xenu
Analýza webu
Potencionální duplicitní a podobný obsah
Obsah souboru se seřadí zároveň podle titulku a velikosti.
Je možné si zvýraznit duplicitní záznamy označením sloupců a vybráním Podmíněné formátování > Zvýraznit pravidla buněk > Duplicitní hodnoty na kartě „Domů“.
Porovnáním řádků lze zjistit možné duplicity – stránky se stejným titulkem a shodnou (podobnou ) velikostí.
Obdobně lze zjistit obsahově velmi podobné stránky.
Získaná data je nutné ručně ověřit.
U zjištěných stránek je nutné prověřit, zda nejsou zakázané pro indexaci (robots.txt, meta tag robots).
Kontrola webu pomocí Xenu
Analýza webu
URL adresy
Struktura – klíčová slova, tvar, parametry
Délka (cca do 70 znaků)
Počet odchozích odkazů
Seřazení obsahu souboru sestupně dle Links Out
Maximálně doporučených je cca 100, lepší je méně
Kontrola webu pomocí Xenu
Analýza webu
Velikost kódu
Seřazení obsahu dle Size
Zjištění nadměrně velkých souborů
Struktura webu
Seřazení souboru sestupně dle Links In (počet interních odkazů na danou stránku)
Na obecné stránky ve vyšších patrech by mělo vést více odkazů než na stránky v nižších úrovních hierarchie.
Kontrola webu pomocí Xenu
+420 272 763 111 [email protected] www.h1.cz
Petr Fidler
http://twitter.com/maxell92
http://blog.h1.cz/