tarcsi Ádám, horváth győző:web-mining fogalma és eszközei
Post on 25-Dec-2014
223 Views
Preview:
DESCRIPTION
TRANSCRIPT
WEB-MINING FOGALMA ÉS ESZKÖZEI
Tarcsi Ádám, Horváth Győző
Tematika
Trendek, big data Webes adatbányászat Példák Trendvizsgálat
Internet felhasználók száma
Régió Populáció (2012)Internet
használók száma (2000.dec.31.)
Internet használók száma
(2012.jún.30)Penetráció
Növekedés2000-2012
%
Afrika 1 073 380 925 4 514 400 167 335 676 15,6 % 3 606,7 % 7,0 %
Ázsia 3 922 066 987 114 304 000 1 076 681 059 27,5 % 841,9 % 44,8 %
Európa 820 918 446 105 096 093 518 512 109 63,2 % 393,4 % 21,5 %
Közel-Kelet 223 608 203 3 284 800 90 000 455 40,2 % 2 639,9 % 3,7 %
Észak-Amerika 348 280 154 108 096 800 273 785 413 78,6 % 153,3 % 11,4 %
Közép- és Dél-Amerika 593 688 638 18 068 919 254 915 745 42,9 % 1 310,8 % 10,6 %
Ausztrália és Óceánia 35 903 569 7 620 480 24 287 919 67,6 % 218,7 % 1,0 %
Világ 7 017 846 922 360 985 492 2 405 518 376 34,3 % 566,4 % 100,0 %
Big data statisztikák
Big data statisztikák
571 új weboldal keletkezik naponta minden egyes percben A 247 milliárd naponta elküldött e-mail 80%-a spam A Walmart havonta 45 millió online vásárló kattintási adatait elemezi
azért hogy személyre szabott ajánlatokkal lássa el a látogatókat mellyel közel 15%-al növelték a sikeres vásárlási tranzakciók számát,
1 826 petabyte (1 826 000 terabyte) az az adatmennyiség melyet az internet naponta "megmozgat",
Évente 3 6 terrabájt adatot állítunk elő évente 2015-re a Gartner előrejelzése szerint,
A Cisco számításai szerint 2015-re várhatóan megnégyszereződik a világ teljes internetforgalma és így eléri az éves 966 exabájtot,
A 2014-2015 közötti időszakban önmagában is 200 exabájtos növekedés várható ez több mint a 2010-ben világszerte generált összes internet-forgalom,
Egy exabájt adatmennyiség körülbelül 19 milliárd DVD-lemeznek felel meg és 75-szöröse a 2000-ben generált teljes - vezetékes és mobil - internetes adatforgalomnak,
Egy olajfúró platformon 20,000-40,000 érzékelő (szenzor) található
Big Data statisztikák - Google A Google szerverei évente 1,8 billió (1000
milliárd) keresést dolgoztak fel 2012-ben (22 milliót 2000-ben) 5,1 milliárdot naponta
Kétnaponta annyi információ keletkezik mint amennyi a civilizáció kezdete óta 2003-ig (Eric Schmidt, Google)
A Youtube-ra percenként 100 órányi videót töltünk fel (egy éve ez még 72, még egy évvel korábban pedig még "csak" 48 óra volt)
Big Data - Facebook
699 millió a Facebookot naponta használók száma (2013 június)
Egy átlagos napon 4 5 milliárd lájk keletkezik
Naponta 350 millió képet töltünk fel a Facebookra
Internet of things
Forrás: http://www,bitport,hu/megoldasok/joevokep-mi-az-a-dolgok-internete-infografika
Milyen gyors az Internet?
Milyen gyors az Internet?
A twittet 22 perc alatt 226.000 Twitter felhasználó osztotta tovább.A bejelentés percében 327.452 üzenetet osztottak meg a felhasználók a Twitteren.
A legkedveltebb Facebook fotó
Közel 4 millió felhasználó lájkolta a képet egy nap alatt!
Láthatatlan web az ún. Deep web
Webbányászat területei
W eb t ar t alom- b ányász at W eb s t r ukt úr a- bányász at W eb hasz nálat - b ányász at
W eb b ányász at
Webtartalom-bányászat
Információ keresése elemzése a weben tárolt tartalmakban: szövegekben képekben videókban stb, Nem strukturált adatok: videók, audio-állományok Félig strukturált adatok: blogok, közösségi
megosztások, dokumentumok Strukturált adatok: szenzorok által mért adatok,
adatbázisból származó adatok Web szövegbányászat jellemzően természetes
nyelvfeldolgozási módszerek segítségével, Információ-szűrés és kategorizálás, Web-es kereső rendszerek.
Webstruktúra-bányászat
A honlapot és a webet felépítő hiperlinkekből azok kapcsolataiból nyer ki információt,
Keresőrobotok a kapcsolatok hivatkozások megtalálására elemzésére használják,
Website tervezési eszköz
Webhasználat-bányászat
A látogatók szokásainak magatartásmintáinak tanulmányozása
A látogatók tevékenységének előrejelzése és ösztönzése
A (web)szolgáltatás minőségének javítása webszerver teljesítményének optimalizálása
Webhasználat-bányászat
Webnaplók elemzésén alapul Kérés IP címe Kérés ideje A kért URL cím Honnan jött? Ha keresőből jött milyen keresőszóra talált ide? Milyen böngészőt eszközt használ? Járt-e már nálunk korábban? Hol járt nálunk korábban? Melyik oldalra érkeznek a leggyakrabban a látogatóink? Milyen sorrendben szokták a látogatók olvasni az egyes
oldalakat? Egy átlagos látogatás alatt hány oldalt néztek meg? Mennyi ideig tartózkodnak egy-egy oldalon a látogatók?
18
Statisztika (eXtreme tracking)
http://extremetracking,com
19
Web-es statisztika: Google Analytics
Google Analytics20
A mérési eredményekből kiderül Leglátogatottabb oldalak Honnan jöttek a látogatók? Direkt címzés / melyik
keresőből melyik oldalról Mely keresőszavakra találtak az oldalra? Google AdWords és Analytics együttes
használatával mérhető a marketing kampány sikeressége
Trendek Felhasználói szokások: területi adatok böngészők
típusa felbontás stb, Látogatások folyamata Oldalon belüli elemzés
Látogatók folyamata
Oldalon belüli elemzés…22
Példák
Webáruházak és a web-bányászat „webes kosár”: akik szintén ezt vették, mit
vettek még? bejelentkezett felhasználók múltbéli
cselekedeteinek (vásárlás és keresés) adatai hasonló, vagy kapcsolódó új termékek ajánlata
előzmények: előzőleg meglátogatott (akár más szerveren lévő) lapok adatai
Vásárlók kategorizálása!
Google Trends
Google Trends
Itt nem megkérdezzük a célcsoportot, hanem megfigyeljük azok szokásait, szándékait.
Keresési, egyéb internetes trendek, valamint webes szolgáltatások közötti összehasonlításra (pl.: kuponoldalak), illetve olyan esetekben, amikor a célcsoport aktív webes jelenléte feltételezhető, nagyon jól alkalmazhatóak.
Leginkább az internetezők, az internetes vásárlóközönség mérésére, elemzésére alkalmas.
Példák: Influenza-trendek követése Versenytárselemzés Reklám üzenet, hirdetési kulcsszó kiválasztása Szezonalitás-vizsgálat Új piacok meghódítása
Influenza-trendek
Hochschule Ludwigshafen am RheinProf. Dr. Klaus Freyburger
Sentiment Analysis with SAP HANA
2012-es USA elnökválasztások közösségi elemzése
Alkalmazás készítésének lépései
Érzelmi elemzés
DE!
Torzított minta - Pl. az Egyesült Államok lakosságának kb. 10%-a Twitter felhasználó, a Facebook penetráció pedig 57%-os. Az életkor szerinti eloszlásban is erős eltérések mutatkoznak.
Ismeretlen adatok - Nem tudjuk pontosan hányan láttak egy adott Facebook bejegyzést, csak azt, hogy hányan reagáltak rá.
Túláltalánosított hálózati modellek - A gráfelméleti modellek nem tesznek különbséget a közösségi média kapcsolatai, az internetes hálózatok, vagy a személyes ismertség között.
A nem-hálózati viselkedési faktorok figyelmen kívül hagyása - Az emberi viselkedésnek vannak nem hálózati jellegű vonatkozásai. Ilyenek az ún. mező hatások a csoportviselkedés terén (nagy nemzeti katasztrófák, nagy csoportok viselkedése tüntetések/zavargások idején).
A megfigyelő-paradoxona - A közösségi média felhasználói többé-kevésbé tudatában vannak annak, hogy megfigyelhetőek.
Forrás: http://kereses.blog.hu/2013/08/01/a_big_data_buktatoi
Vége
top related