veri madenciliğine giriş

39
Veri Madenciliğine Giriş Veri Madenciliğine Giriş Öğr.Gör.Dr. Hüseyin TOROS Öğr.Gör.Dr. Hüseyin TOROS İTÜ Uçak ve Uzay Bilimleri Fakültesi İTÜ Uçak ve Uzay Bilimleri Fakültesi Meteoroloji Mühendisliği Bölümü Meteoroloji Mühendisliği Bölümü http://atlas.cc.itu.edu.tr/~toros http://atlas.cc.itu.edu.tr/~toros

Upload: cassie

Post on 10-Jan-2016

81 views

Category:

Documents


1 download

DESCRIPTION

Veri Madenciliğine Giriş. Öğr.Gör.Dr. Hüseyin TOROS İTÜ Uçak ve Uzay Bilimleri Fakültesi Meteoroloji Mühendisliği Bölümü http://atlas.cc.itu.edu.tr/~toros. Gerekçe. Veri patlaması Son yıllarda ölçüm cihazlarının artmasına paralel olarak veri sayısı ve türleri artmaktadır. - PowerPoint PPT Presentation

TRANSCRIPT

Veri Madenciliğine GirişVeri Madenciliğine GirişÖğr.Gör.Dr. Hüseyin TOROSÖğr.Gör.Dr. Hüseyin TOROS

İTÜ Uçak ve Uzay Bilimleri FakültesiİTÜ Uçak ve Uzay Bilimleri FakültesiMeteoroloji Mühendisliği BölümüMeteoroloji Mühendisliği Bölümü

http://atlas.cc.itu.edu.tr/~toroshttp://atlas.cc.itu.edu.tr/~toros

İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, [email protected] İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, [email protected] 22

GerekçeGerekçe

• Veri patlamasıSon yıllarda ölçüm cihazlarının artmasına

paralel olarak veri sayısı ve türleri artmaktadır.

Veri toplama araçları ve veri tabanı teknolojilerindeki gelişmeler, bilgi depolarında çok miktarda bilginin depolanmasını ve çözümlenmesini gerektirmektedir.

İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, [email protected] İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, [email protected] 33

ÇözümÇözüm

• Veri madenciliği

Bilgisayar teknolojilerindeki gelişmeler veri madenciliği yöntemleri ve programları büyük miktarlardaki verileri etkin ve verimli hale getirmektedir.

Bilgi ve tecrübeyi birleştirmek için veri madenciliği konusunda geliştirilmiş yazılımların kullanılması gerekmektedir.

İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, [email protected] İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, [email protected] 44

•Provides both theoretical and practical coverage of all data mining topics. •Includes extensive number of integrated examples and figures. •Offers instructor resources including solutions for exercises and complete set of lecture slides. •Assumes only a modest statistics or mathematics background, and no database knowledge is needed. •Topics covered include; predictive modeling, association analysis, clustering, anomaly detection, visualization.

Pang-Ning Tan, Michigan State University, Michael Steinbach, University of Minnesota Vipin Kumar, University of Minnesota

İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, [email protected] İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, [email protected] 55

Niçin Veri Madenciliği?Niçin Veri Madenciliği? (Bilimsel)(Bilimsel)

• Hızla artan veri kayıtları (GB/saat).– Otomatik istasyonlar,– Uydu ve uzaktan algılama sistemleri,– Teleskopla uzay taramaları,– Gen teknolojisindeki gelişmeler,– Bilimsel hesaplamalar, benzetimler, modeller

• Geleneksel eski tekniklerin ham verileri işlemede yetersiz kalması.

• Veri madenciliği bilim insanlarına yardım eder.– Veri sınıflandırması ve gruplandırılması,– Hipotezler oluşturma ve karar verme,

İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, [email protected] İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, [email protected] 66

Niçin Veri Madenciliği? Niçin Veri Madenciliği? (Ticari)(Ticari)

• Çok fazla verinin depolanması(veri ambarı=warehouse)

– Web veri, e-ticaret,– Büyük marketler, holdingler, …– Bankalar, kredi kartları, – Etkin ve ucuz bilgisayarların hızla gelişimi,

• Rekabet ve gücün önem arz etmesi, – Asgari maliyetle azami kalitede müşteri

hizmetleri,– Müşteri memnuniyeti,

İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, [email protected] İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, [email protected] 77

Veri Madenciliğine GirişVeri Madenciliğine Giriş• Veri depolanması,Veri depolanması,• Veri seçimi, Veri seçimi, • Veri hazVeri hazırlanması,rlanması,• İşleme ve bütünleştirme,İşleme ve bütünleştirme,• Yorumlama ve bilgiye dönüşüm,Yorumlama ve bilgiye dönüşüm,• Fayda ve verimlilikFayda ve verimlilik..

İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, [email protected] İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, [email protected] 88

Veri Nedir?Veri Nedir?

• Sayılar, metinler, sesler, görüntülerdir,• Rasat parkında kayıt cihazında depolananlardır,• Otomasyonda öğrenci kayıtlarıdır, • Karar vermeye yarayan soyut simge dizileridir,• ….

İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, [email protected] İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, [email protected] 99

Veritabanı Nedir?Veritabanı Nedir?• Birbiriyle ilişkili verilerin toplanması,

depolanmasıdır,• Belli bir amaç için verilerin toplanması ve

tasarımıdır,• Sistematik erişim imkanı olan, yönetilebilir,

güncellenebilir, taşınabilir, birbirleri arasında tanımlı ilişkiler bulunabilen verilerdir,

• Hayatın bir göstergesidir,• ….• Veritabanının büyüklüğü ve

karmaşıklığı değişebilir,

İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, [email protected] İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, [email protected] 1010

Bilgi (Malumat) Nedir?Bilgi (Malumat) Nedir?• Öğrenerek, deneyerek, araştırarak elde edilen her türlü

sonuçlardır,• Önceden belirlenen bir dizi sistematik kural ve işleyişe

uygun bir biçimde elde edilen verilerdir,• Sosyal varlık olan insanlar arasındaki iletişim sırasında

paylaşılan, aktarılan ve yeniden şekillendirilen tecrübelerdir,

• Belirli bir durum, sorun, ilişki, teori veya kurala ait verilerdir,

• İçinde yaşadığımız dünyayı ve olayları yorumlamak ve yönetmek için uyguladığımız bir dizi anlayış, kavrayış ve genellemeler ile bize güçlü bir kavrayış ve bakış açısı kazandıran her türlü zihni faaliyettir,

• Sosyal olaylarda karşımıza çıkan eylem ve olayları anlamamıza yardım eden işaret ve kodlamalardır,

İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, [email protected] İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, [email protected] 1111

0

500.000

1.000.000

1.500.000

2.000.000

2.500.000

3.000.000

3.500.000

4.000.000

1995 1996 1997 1998 1999

Bilgi Nedir?Bilgi Nedir?

İncelenecek veri aralığı

1995 yılından itibaren depolanan veri

Çözümlenen veri değişimi

• Kurumlar terabyte büyüklüğünde veri depolarına sahiptirler• Bunların çok azını amaçlarına uygun çözümleyebiliyorlar

??? Verilerimizin ne kadarını bilgiye dönüştürebiliyoruz ???

To

pla

m B

ilg

i d

epo

su T

B

Kaynak: R. Grossman, C. Kamath, V. Kumar, “Data Mining for Scientific and Engineering Applications”

İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, [email protected] İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, [email protected] 1212

Yorumlar, Değerlendirmeler

Veri MadenciliğiVeri Madenciliği

• Çok büyük veri tabanlarındaki ya da veri ambarlarındaki

veriler arasında bulunan ilişkiler,

değişiklikler, sapma ve eğilimler, belirli yapılar

gibi ilginç bilgilerin ortaya çıkarılması ve

keşfedilmesidir.

•Önceden bilinemeyen, verilerden potansiyel etkin bilgilerin çıkarılmasıdır,

VERİ MADENCİLİĞİ BİLGİSAYAR DESTEKLİ BİLGİ ÇÖZÜMLEME İŞLEMİDİR.

İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, [email protected] İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, [email protected] 1414Veri madenciliği değişik aşamaları

İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, [email protected] İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, [email protected] 1515

Veri Madenciliği Nedir/Ne Değildir?Veri Madenciliği Nedir/Ne Değildir?

Veri Madenciliğidir?

– İstanbul’da hakim rüzgarın kuzey doğulu olduğunun bulunması,

– Meteoroloji öğrencilerinin internetten aynı kelimeyi aramaları, (Kuraklık, asit yağışları)

Veri Madenciliği değildir?

– Yıllıktan iklim değerlerine bakmak

–Telefon defterinden birinin telefonuna bakmak,– Birinin internetten iklim hakkında bilgi alması,

İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, [email protected] İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, [email protected] 1616

Veri Madenciliğine BakışVeri Madenciliğine Bakış

• Veri madenciliğinin üç farklı bakış açısı vardır:

• Veri tabanı bakış açısı,

• Makine öğrenim bakış açısı,

• İstatistiksel bakış açısı.

İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, [email protected] İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, [email protected] 1717

• Eski tekniklerin yetersizliği, – Aşırı veri,– Verilerde çok

boyutluluk,– Ham verilerdeki

heterojen yapı,

Veri Madenciliğinin KaynağıVeri Madenciliğinin Kaynağı

Öğrenen

makineler

/Eğilimleri algılama

İstatistik

Veri madenciliği

Veri tabanları

•Öğrenen makinelerle gidişat algılama, istatistik ve veritabanı sistemleri,

İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, [email protected] İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, [email protected] 1818

Çok disiplinlilikÇok disiplinlilik

Veri madenciliğinin, birçok disiplinleçakışma noktaları vardır.

Öğrenen makine VeriMadenciliği

İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, [email protected] İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, [email protected] 1919

Veri Madenciliğin işlevleriVeri Madenciliğin işlevleri

• Öngörme yöntemleri– Bazı değişkenleri kullanarak, önceden

bilinmeyen değerleri veya değişkenleri tahmin.

• Tanımlayıcı yöntemler– Veriyi tanımlayan uzman görüşleri, yorumları.

Kaynak: [Fayyad, et.al.] Advances in Knowledge Discovery and Data Mining, 1996

İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, [email protected] İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, [email protected] 2020

• Sınıflama

• Gruplama

• Eşleme

• Eğilimler

• İlişkiler

• Sapmalar

Veri Madenciliğin işlevleriVeri Madenciliğin işlevleri

İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, [email protected] İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, [email protected] 2121

SınıflamaSınıflama

• Yeni bir nesnenin, belirli sınıflar içinde hangi sınıfa ait olup olmadığını belirleyecek bir sınıflayıcı oluşturmaktır.

• Daha önceden sınıflandırılmış örnek takımları kullanarak, geniş çaplı olarak eldeki kayıtları sınıflayabilecek bir model geliştirmek yoluyla gerçekleştirilir.

• Bir defa etkin bir sınıflayıcı oluşturulunca, veriler kestirim modunda daha önceden oluşturulan bu sınıflara göre ayırılabilir.

İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, [email protected] İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, [email protected] 2222

SınıflamaSınıflama

Apply

Model

Induction

Deduction

Learn

Model

Model

Tid Attrib1 Attrib2 Attrib3 Class

1 Yes Large 125K No

2 No Medium 100K No

3 No Small 70K No

4 Yes Medium 120K No

5 No Large 95K Yes

6 No Medium 60K No

7 Yes Large 220K No

8 No Small 85K Yes

9 No Medium 75K No

10 No Small 90K Yes 10

Tid Attrib1 Attrib2 Attrib3 Class

11 No Small 55K ?

12 Yes Medium 80K ?

13 Yes Large 110K ?

14 No Small 95K ?

15 No Large 67K ? 10

Test Set

Learningalgorithm

Training Set

İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, [email protected] İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, [email protected] 2323

Tid Refund MaritalStatus

TaxableIncome Cheat

1 Yes Single 125K No

2 No Married 100K No

3 No Single 70K No

4 Yes Married 120K No

5 No Divorced 95K Yes

6 No Married 60K No

7 Yes Divorced 220K No

8 No Single 85K Yes

9 No Married 75K No

10 No Single 90K Yes10

categoric

al

categoric

al

continuous

classMarSt

Refund

TaxInc

YESNO

NO

NO

Yes No

Married Single,

Divorced

< 80K > 80K

There could be more than one tree that fits the same data!

SınıflamaSınıflama

İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, [email protected] İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, [email protected] 2424

SınıflamaSınıflama

• Sky Survey Cataloging– Goal: To predict class (star or galaxy) of sky objects,

especially visually faint ones, based on the telescopic survey images (from Palomar Observatory).

– 3000 images with 23,040 x 23,040 pixels per image.

– Approach:• Segment the image. • Measure image attributes (features) - 40 of them per object.• Model the class based on these features.• Success Story: Could find 16 new high red-shift quasars,

some of the farthest objects that are difficult to find!

From [Fayyad, et.al.] Advances in Knowledge Discovery and Data Mining, 1996

İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, [email protected] İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, [email protected] 2525

SınıflamaSınıflama

Early

Intermediate

Late

Data Size: • 72 million stars, 20 million galaxies• Object Catalog: 9 GB• Image Database: 150 GB

Class: • Stages of

Formation

Attributes:• Image features, • Characteristics of

light waves received, etc.

Courtesy: http://aps.umn.edu

İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, [email protected] İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, [email protected] 2626

GOES Cumulus Cloud Classification: GOES Cumulus Cloud Classification: Sample ResultSample Result

Original GLRL Association Rules GLCM

Expert Labeled Sobel Sobel + Laplacian Laplacian

İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, [email protected] İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, [email protected] 2727

Gruplama, KümelemeGruplama, Kümeleme• Genellikle bölümleme sorunlarını çözmekte

kullanılır.

• Bu yaklaşımla, birçok özellikleriyle varolan veri kayıtları, nispi olarak küçük gruplara ya da kümelere atanır.

• Bu süreç, otomatik olarak veri takımlarının ayırdedici karakteristiklerini tanımlayan ve bu özellikleriyle ortaya çıkan çok boyutlu uzay içinde ince bölmelerle birbirinden ayıran kümeleme algoritmaları ile gerçekleştirilir.

İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, [email protected] İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, [email protected] 2828

GruplamaGruplama

Euclidean Distance Based Clustering in 3-D space.

Intracluster distancesare minimized

Intracluster distancesare minimized

Intercluster distancesare maximized

Intercluster distancesare maximized

İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, [email protected] İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, [email protected] 2929

EşlemeEşleme

• Given a set of records each of which contain some number of items from a given collection;– Produce dependency rules which will predict

occurrence of an item based on occurrences of other items.TID Items

1 Bread, Coke, Milk

2 Fruit juice, Bread

3 Fruit juice, Coke, Diaper, Milk

4 Fruit juice, Bread, Diaper, Milk

5 Coke, Diaper, Milk

Rules Discovered: {Milk} --> {Coke} {Diaper, Milk} --> {Fruit juice}

Rules Discovered: {Milk} --> {Coke} {Diaper, Milk} --> {Fruit juice}

İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, [email protected] İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, [email protected] 3030

EğilimlerEğilimler

• Given is a set of objects, with each object associated with its own timeline of events, find rules that predict strong sequential dependencies among different events.

• Rules are formed by first discovering patterns. • Event occurrences in the patterns are governed by timing constraints.

(A B) (C) (D E)

<= ms

<= xg >ng <= ws

(A B) (C) (D E)

İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, [email protected] İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, [email protected] 3131

İlişkilerİlişkiler

• Bir değişkenin diğer değişkenle olan ilişkisini doğrusal veya doğrusal modelleri kullanarak bulmak.

• Yapar ağ çalışmaları ve istatistik çalışmaları.• Örnekler:

– Yıllara bağlı olarak meteorolojik parametrelerin ilişkisi– Rüzgar hızlarını, sıcaklık, nem ve basınca bağlı

olarak tahmin etmek.– Piyasaya yeni çıkan bir ürünün reklam kampanyası ile

olan ilişkisi.

İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, [email protected] İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, [email protected] 3232

SapmalarSapmalar

Typical network traffic at University level may reach over 100 million connections per day

• Normal davranışlardan olan sapmaları bulmak

• Uygulama:– Afetler– Kredi kartı sahteciliğini tespit– Şebekeye giren korsanları tespit

İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, [email protected] İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, [email protected] 3333

Veri Madenciliğinin BaşarılarıVeri Madenciliğinin Başarıları

• Ölçeklenebilirlik

• Boyutluluk

• Karmaşık ve heterojen veri

• Veri kalitesi

• Veri sahipliği ve dağıtımı

• Veri korumacılığı

• Veri yayımcılığı

İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, [email protected] İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, [email protected] 3434

YazılımlarYazılımlar

Veri madencili

ği konusu

nda bol yazıl

ım va

rdır…

İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, [email protected] İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, [email protected] 3535

Introducti

on to data m

ining

İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, [email protected] İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, [email protected] 3636

İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, [email protected] İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, [email protected] 3737

İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, [email protected] İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, [email protected] 3838

Meteorolojide ve

ri madencili

ği uyg

ulamaları

İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, [email protected] İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, [email protected] 3939

Possibilities for future improvements in meteorologyPossibilities for future improvements in meteorology• With model output approaching observational data (e.g. from

satellite soundings) in resolution, the sheer size of the datasets means that data mining and data management will become equally important considerations in meteorological computing. In light of the decrease in density of surface and rawinsonde observations, new algorithms have to be developed to extract similarly accurate information from satellite data, for example about cloud type and distribution. Data management will become more global in nature, with some central archives storing a large number of numerical experiments from various institutions. These data need to have a sufficient amount of metadata attached and can then be conveniently retrieved by a WWW interface from anywhere.

İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, [email protected] İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, [email protected] 4040

Reasons for Data Mining of Reasons for Data Mining of Earth Science DataEarth Science Data

• Greatly increased data volume due to improvements in data collection/access/availability/storage technology (instruments, computational resources, internet…)– Terra are about 1 terabyte per day - more than can be analyzed by

conventional means

• High variability in data formats and content• Need for high returns on expensive data investments• Need for improved access/availability of data, information and

knowledge • Need for higher level products for the non-specialist and

interdisciplinary/cross-domain researchers • Questions/queries are getting more complex due, in part, to

heterogeneous nature of the data