veri madenciliği ve makine Öğrenmesi konularına giriş
TRANSCRIPT
VeriMadenciliği,Bilimi,(DataMining)
ŞadiEvrenŞEKER
January13,2017 2
Doç. Dr. Şadi Evren ŞEKER Eğitim: Bilg Müh. BSc. , MSc. 7Tepe Ünv.
M.A. İTÜ STS, PhD. Yıldız Teknik Bilg. Müh. , PostDoc UT Dallas Comp. Sci.,
İstanbul Şehir Üniversitesi, Yönetim Bilişim Sistemleri. Smith College, Computer Science
6 Farklı Ülkede 17 Farklı üniversitede ders vermek www.SadiEvrenSEKER.com
YouTube:Bilgisayar Kavramları ©2016 Şadi Evren ŞEKER, bütün hakları saklıdır.
January13,2017 DataMining:ConceptsTechniques 3
www.SadiEvrenSEKER.com
www.BilgisayarKavramlari.com
January13,2017 DataMining:ConceptsandTechniques 4
YouTube:BilgisayarKavramları
January13,2017 DataMining:ConceptsandTechniques 5
HypeCycle2014Gartner
DayanılanDisiplinler
İşZekası(BusinessIntelligence)
VeriOlgunluğu
UygulamaKatmanı
VeriTabanları
ArayüzKatmanları
• VeriCahilliği(olgunluk0.0)• Yöne_minönündeçalışanlar(olgunluk
0.5):Excel,mikrouygulamalar• VeriFarkındalığı(olgunluk1.0):Veri
Tabanı/Dosya• Veriyietkilihalege_rmek(olgunluk1.5):
Viewkullanımı• EtkiliVeriArayışı(olgunluk2.0):Veri
Ambarları• Probleminfarkınavarma(olgunluk2.5)• Bütünveriyaanındaveheramaçiçin
erişim(olgunluk3.0):BüyükVeri
VeriOlgunlukSeviyeleri
• 1.VeriBirVarlıkfr• 2.VeriTabanları(RDBMS)• 2.5.ViewYapıları• 3.VeriAmbarları• 3.5.GelişmişMartlar,VeriKüpleriveOLAPin-memory
• 4.BüyükVeri,NoSQLveBulut
16
BazıUygulamaAlanları
• FinansalVeriAnalizi• ParekendeSektörü• Telekom• BiyolojikVeriler• SaldırganYakalanması• SosyalAğlar
Finans/PazarlamaAlanı
• MüşteridavranışlarıveKrediKarfharcamaları• Borsavediğerfinansalaraçlarınanalizi• Karaparaaklama• Hedeflenmişpazarlama• XRM• CustomerChurnAnalysis• SigortaPirimleri
ParekendeSektörü
• Çokboyutluraporlar(müşteri,ürün,zaman,şubevs.)
• Kampanyaoluşturma/başarısı/Analizi• Ürüntavsiyeleri• Rafanalizleri
TelekomSektörü
• Hileliaramalarınyakalanması• Müşteriprofillemesi• CRM• CustomerChurnAnalysis• Görselleş_rme
Biyoenforma_k
• Proteinveyagendizilimlerininanalizi• Görselleş_rme• Proteinveaygenlerinindekslenmesi,kategorilenmesiveyaaranması
SaldırganlarınYakalanması
• Akanverininanalizi• Davranışanalizi• Monitorvealarmmekanizmaları• Görselleş_rmevesorguaraçları
SosyalAğAnalizi
• Hareketliortamınmodellenmesivetahmini• Yazartanıma• Grupvearkadaşlıkanalizleri• Davranışanalizi(tepkiler)• Argümanvetrendler
NORA
Trendler• Applica_onExplora_on.• Scalableandinterac_vedataminingmethods.• Integra_onofdataminingwithdatabasesystems,datawarehouse
systemsandwebdatabasesystems.• Standardiza_onofdataminingquerylanguage.• Visualdatamining.• Newmethodsforminingcomplextypesofdata.• Biologicaldatamining.• Dataminingandsorwareengineering.• Webmining.• Distributeddatamining.• Real_medatamining.• Mul_databasedatamining.• Privacyprotec_onandinforma_onsecurityindatamining.
Trendler• Applica_onExplora_on.• Scalableandinterac_vedataminingmethods.• Integra_onofdataminingwithdatabasesystems,datawarehouse
systemsandwebdatabasesystems.• Standardiza_onofdataminingquerylanguage.• Visualdatamining.• Newmethodsforminingcomplextypesofdata.• Biologicaldatamining.• Dataminingandsorwareengineering.• Webmining.• Distributeddatamining.• Real_medatamining.• Mul_databasedatamining.• Privacyprotec_onandinforma_onsecurityindatamining.
VeriMadenciliği,Verininolduğuheryerdedir.
29
VeriMadenciliğiveBazıProblemler
• Verininbüyüyenhızıhergeçengündahadayakalanamazolmaktadır.
– Verininbüyüyenhızıönceleribüyükveriyitanımlarkenarfkbüyükveri5Volaraktanımlanmaktadır.
• Veriyitoplamak,saklamakveişlemekiçinotoma_zeedilmişaraçlaraih_yaçartmaktadır
– Geneldeverininbolcabulunduğualanlar• İşDünyası:Web,E-Ticaret,Safş/Banka/Süreçİşlemleri(Transac_ons),Borsa,PAZARLAMA!!!!…
• Bilim:UzaktanAlgılama,Biyoinforma_k,simülasyonlar,…
• ToplumveHalkiçin:Haberler,DijitalKameralar,YouTube,..
• Bolcaveriiçerisindeyüzüyoruzamaçoğuzamanbilgidenyoksunuz.
• Buluşlar ihtiyaçlardan doğar!
Data Warehouse: A Multi-Tiered Architecture
Data Warehouse
(Veri Ambarı)
Extract Transform Load Refresh
OLAP Engine
Analysis Query Reports Data mining
Monitor &
Integrator Metadata
Veri Kaynakları Front-End Tools
Serve
Data Marts
Operational DBs
Other sources
Data Storage
OLAP Server
ETL
Extract(Çıkarım)
PreProcess(Temizleme)
Transform(Dönüşüm)
Load(Yükleme)
VeriTaban(lar)ı
VeriAmbarı
KabulEdilmeyenVeri
Kademe-Sahne(StagingArea)
KabulEdilmeyenVeri
Meslekler–NeredenBaşlamalı?
NoVeriTabanı
NoSQL
DataMining
Visualiza_on(BI)
NoDBA
YazılımGeliş_rmeUzmanı
VeriBilimcisi
Görselleş_rmeGü
venlik
SysO
p/D
evOp/S
ysAdm
in
MaliyetHesabı
VeriSahipliği(governance)
BüyükVeriYöne_mi
ProjeYöne_mi
YazılımProjeYöne_cisi
PazarPaylarıveTeknolojiler
2015BigData
Büyüme
İşRolleri
Web 1.0 Info – Centric Web
• The first generation of the World Wide Web (WWW), characterized by separate static websites.
• It is one-way broadcasting.
• It is invented 1989 by Tim Berners- Lee.
• It was widely used between 1998 and 2001, and it is still used beside Web 2.0 in almost all web sites.
Web2.0PeopleCentricWeb
! TechnologiesandTrends! Socialnetworkingsites:
! Facebook,MySpace,Hi5,…etc.
! TaggingorLabelingContent:! Del.icio.us.
! Wikis:! Wikipedia.
! Community-generatedcontent:! eBay.
! OpenServices:
! Google.! P2P:
! BitTorrent.! NewWebtechnologies:
! XML,RSS,Ajax.! OpenSourceSorware
Web3.0MachineCentricWeb
• Different meanings are intended to describe the evolution of Web usage and interaction between the many possible evolutionary paths.
• The third generation of Web technologies and services that emphasize a machine-facilitated understanding of information on the Web.
Web 3.0 Evolution Paths
• Semantic Web • Intelligent System Planning • Business and Network Applications • … etc.
• Video Web • Web 3D • Ubiquitous and Pervasive Web
Web 3.0 Semantic Web
• It is a group of methods and technologies to allow machines to understand the meaning - or "semantics" - of information on the World Wide Web.
• The semantic web is a vision of information that is understandable by computers, so computers can perform more of the tedious work involved in finding, combining, and acting upon information on the web.
Semantic Web The Technology
• It involves publishing in languages specifically designed for data: Resource Description Framework (RDF), Web Ontology Language (OWL), and Extensible Markup Language (XML):
! HTML describes documents and the links between them.
! RDF, OWL, and XML, by contrast, can describe arbitrary things such as people, meetings, or airplane parts.
Web3.0Web2.0Web1.0
NowBefore Future
Web3.0Web2.0Web1.0
NowBefore Future
Web3.0
VeriMadenciliğiGelişimAşamaları
• Descrip/veAnaly_cs,whichusedataaggrega_onanddataminingtechniquestoprovideinsightintothepastandanswer:“Whathashappened?”:SocialAnaly_cs(SummarizeData)
• Predic/veAnaly_cs,whichusesta_s_calmodelsandforecaststechniquestounderstandthefutureandanswer:“Notonlyfuturealso,Whatcouldhappen?”:Sen_mentalAnalysis,
• Prescrip/veAnaly_cs,whichuseop_miza_onandsimula_onalgorithmstoadviceonpossibleoutcomesandanswer:“Whatshouldwedo?”,RecommenderAlgorithms
January13,2017 DataMining:ConceptsandTechniques 48
January13,2017 DataMining:ConceptsandTechniques 49
Architecture:TypicalDataMiningSystem
data cleaning, integration, and selection
DatabaseorDataWarehouseServer
DataMiningEngine
Pa{ernEvalua_on
GraphicalUserInterface
Knowledge-Base
Database Data Warehouse
World-Wide Web
Other Info Repositories
BüyükVeri?
• Bilgisayarişlemekapasitesi• 5V
BüyükVeriveMap-Reduce
• Büyükveriiçinkri_kşartlar:– Map– Ölçeklenebilirlik(Scalability)– ProbleminDağıflabilirliği
• ParalelProgramlama• DağıfkSistemler
– VeriGeçişi– Reduce
MapReduceNedir?MAP
MapReduceNedir?Reduce
MapReduceNedir?
WordCountÖrneği
NoSQL
• Scalability(Ölçeklenebilirlik)vebüyümeninkontroledilmesi
• Coğrafilimitlerinkalkması• SchemeonRead• LazyUpdate(OLTPsistemideğildir,kesinlikledeğildir!)
• Örneksosyalağlar
NoSQLNeSağlar?
• Yerelverierişimi• Verilerinyapısızolması(unstructured)• Verigüncellemesindegereksizaşamalarınazalflması
• DDOSkoruması
BigDataandDataMiningProblems
• Classifica_on• Clustering• Associa_onRuleMining• Predic_on
OracleBigDataMimarisiÇalışfrma(Execu_on)
Yenilik(Innova_on)
VeriEntegrasyonu
İle_şim
• ŞadiEvrenŞEKER• www.SadiEvrenSEKER.com• www.MISSozluk.com• www.BilgisayarKavramlari.com• www.YBSAnsiklopledi.com• YouTube:BilgisayarKavramları• CurrentAffilia_on:İstanbulŞehirÜniversitesi
Soru-Cevap
• YouTube:bilgisayarkavramları• Mail:[email protected]• Konular:Akademikhayat,bilişimsektörü,büyükveri,işhayaf,verimadenciliği,mahremiyet,sosyalağlar,kariyerplanlaması,öğrencilik,bilgisayarmühendisliği,veritabanları,nosql,yurtdışı(çalışmak/öğrencilik)