kemometrİ ders notlari bÖlÜm i deneysel ...hplc.akdeniz.edu.tr/_dinamik/225/80.pdfprof.dr.durmuú...

Prof.Dr.Durmuş ÖZDEMİR

İYTE Fen Fakültesi Kimya Bölümü

İzmir

KEMOMETRİ DERS NOTLARI

BÖLÜM I

DENEYSEL TASARIM VE OPTİMİZASYON

KONULAR

1. Deneysel Tasarımın Önemi

2. Tarama Tasarımları (Screening Designs)

2.1.Ful Faktöriyel Tasarım

2.2. Fraksiyonel faktöriyel tasarım

2.3. Plackett-Burman tasarımı

3. Optimizasyon

3.1. Merkezi Kompozit Tasarım

1. DENEYSEL TASARIMIN ÖNEMİ

Deneysel tasarımın önemi dört maddede açıklanabilir.

Tarama (Screening): Bu tasarımlar deneysel çalışmalarda sonucu etkileyen önemli

faktörleri belirlemek için kullanılır. Bir kimyasal reaksiyonun verimini etkileyen faktörler,

kullanılan reaktif konsantrasyonu, katalizör konsantrasyonu, sıcaklık, pH, reaksiyon süresi,

karıştırma hızı, vb. 10 faktör etkilediği dikkate alındığında bu faktörlerden hangileri

önemlidir, hangileri elimine edilebilir ve hangileri ayrıntılı incelenmelidir? Bu soruların

cevapları “faktöriyel” ve “Plackett-Burman” tasarımları ile verilebilir.

Optimizasyon: Tarama tasarımları ile bulunan önemli faktörlerin optimum değerleri

optimize edilerek reaksiyonun verimi ve kromatografik ayırma iyileştirilebilir. En yaygın

kullanılan optimizasyon yöntemleri “simplex optimizasyonu” ve “merkezi kompozit tasarımı”

dır.

Zaman tasarrufu: Deneysel çalışmalarda faktörlerin ektisi klasik yöntemle bir

faktörün değerini değiştirme diğerlerini ise sabit tutma yöntemi ile de belirlenebilir. Ancak

çok sayıda faktör incelendiğinde bu yöntem zaman alıcı ve maliyetli olmaktadır.

Modelleme: Tarama tasarımı ve optimizasyon sonucu her bir faktörün etkisi

matematiksel modelle ifade edilebilir. Böylece deneysel olarak bulunan sonucun yanında

hesapla tahmini sonuç da bulunmuş olur. Beklenen sonucun deneysel olarak gerçekleştirilip

gerçekleştirilemediği kontrol edilir.

İstatisitksel deneysel tasarım ve optimizasyon yakalşımının sunacağı avantajları

kavrayabilmek için basit bir örnek verebiliriz. Bir çalışmada klasik deneysel tasarım (bütün

faktörleri sabit tutup sadece birinin değerinin değiştirilmesi) yaklaşımı kullanıldığında bir

reaksiyonun verimine etki eden iki faktörden pH ve katalizör konsantrasyonu incelenmiş,

katalizör konsantrasyonu 2.0 mM’da sabit tutulurken pH değiştirilmiş ve reaksiyon verimi

hesaplanmıştır. Şekil 1’den görüldüğü gibi optimum pH 3.4 tür.

Şekil 1. Katalizör konsantrasyonu 2.0 mM da sabit tutularak bulunan optimum pH.

pH=3.4 optimum olarak bulunduktan sonra pH bu değerde sabit tutularak

konsantrasyon değiştirilmiştir. Elde edilen konsantrasyon Şekil 2’te gösterilmiştir. Klasik

yöntemle optimum konsantrasyon 1.4 mM olarak bulunmuştur.

Şekil 2. pH 3.4’te sabit tutularak bulunan optimum konsantrasyon.

Daha sonra anyı deneysel çalışma istatistiksel deneysel tasarım yönetemi ile

gereçekleştirilmiş ve elde edilen sonuçlar Şekil 3’te verilmiştir.

Şekil 3. pH ve katalizör konsantrasyonuna bağlı olarak reaksiyon verimindeki

değişimi.

İstatistiksel deneysel tasarım metodu kullanılarak elde edilen optimum şartlar pH 4.4 ve

konsantrasyon 1.0 mM olarak bulunmuştur. Bu noktada klasik yaklaşımla bulunan optimum

şartlar ile istatistiksel deneysel tasarım metodu ile buılunan sonuçlardan oldukça farklı olduğu

görülmektedir. Bu farkın nedeni pH ve konsantarsyon arasındaki etkileşmedir. Bu nedenle

istatistiksel deneysel tasarım kullanılarak bu etkileşimler göz önünde bulundurulmalı ve

deneysel tasarım yöntemine göre optimum değerler bulunmalıdır. İleriki bölümde benzer bir

örnek uygulamalı şekilde ayrıntılı olarak tekarar incelenecektir.

2. TARAMA TASARIMLARI

2.1 Tam Faktöriyel Tasarım

Tam faktöriyel tasarım sonuç üzerine etki eden faktörlerin hangileri ve ne kadar etkili

olduğunu anlamada kullanılan iki seviyeli bir tarama tasarımıdır. Örneğin, bir kimyasal

reaksiyon pH ve sıcaklığa bağlı olarak değişiyorsa, iki seviyeli iki faktörlü bir deney

tasarlanabilir. Deney sayısı 2k formülü ile hesaplanır. Burada 2, seviye sayısı (-1 ve +1 olarak

kodlanır), k ise faktör sayısıdır (burada 2 faktör var). Faktöriyel tasarımda, 2 faktör için deney

sayısı 4 (22), 3 faktör için deney sayısı 8’dir (2

3). Tam faktöriyel tasarım tablosu hazırlamak

için, her bir faktör için yüksek ve düşük seviyeler belirlenir. Örneğin sıcaklık 30oC ve 60

oC,

pH 4 ve 6. Yüksek (+1) ve düşük (-1) seviyelere göre tasarım tablosu oluşturulur (Çizelge 1).

Çizelge 1. İki seviyeli iki faktörlü tam faktöriyel tasarım

Deney x1 x2

1 -1 -1

2 +1 -1

3 -1 +1

4 +1 +1

Çizelge 2 ve 3’te sırasıyla 3 ve 4 faktörlü iki seviyeli tam faktöriyel tasarımların tabloları

verilmiştir

Çizelge 2. İki seviyeli üç faktörlü tam faktöriyel tasarım

Deney x1 x2 x3

1 -1 -1 -1

2 +1 -1 -1

3 -1 +1 -1

4 +1 +1 -1

5 -1 -1 +1

6 +1 -1 +1

7 -1 +1 +1

8 +1 +1 +1

Çizelge 3. İki seviyeli dört faktörlü tam faktöriyel tasarım

Deney x1 x2 x3 x4

1 -1 -1 -1 -1

2 +1 -1 -1 -1

3 -1 +1 -1 -1

4 +1 +1 -1 -1

5 -1 -1 +1 -1

6 +1 -1 +1 -1

7 -1 +1 +1 -1

8 +1 +1 +1 -1

9 -1 -1 -1 +1

10 +1 -1 -1 +1

11 -1 +1 -1 +1

12 +1 +1 -1 +1

13 -1 -1 +1 +1

14 +1 -1 +1 +1

15 -1 +1 +1 +1

16 +1 +1 +1 +1

Deneysel tasarım tablosu hazırlandıktan sonra kodlanmış değerler yerine faktörlerin

gerçek değerleri yerleştirilerek deneysel çalışma gerçekleştirilir. Örneğin, üç faktörlü iki

seviyeli bir sistemde faktörlerin minimum ve maksimum seviyeleri Çizelge 4’te verilmiştir.

Çizelge 4. Üç faktör iki seviyeli bir sistemde faktörlerin minimum ve maksimum aralıkları

Faktörler (-1) seviye (+1) seviye

Katalizör konsantrasyonu (%) 0.1 0.3

Reaksiyon sıcaklığı (0C) 60 80

Reaksiyon süresi (dk) 20 40

Çizelge 5, iki seviye üzerinden gerçekleşitirilen ve katalizör konsantrasyonu (x1),

reaksiyon sıcaklığı (x2) ve reaksiyon süresi (x3) faktörlerinden oluşan 8 deneye ait her bir

faktörün gerçek skalasındaki değerleri ve bu sistemde elde edilen sonuçlar (y değerleri)

göstermektedir.

Çizelge 5. Deneysel sonuçları da içeren üç faktörlü tasarım

Deney x1 x2 x3 y

1 0.1 60 20 73

2 0.3 60 20 71

3 0.1 80 20 79

4 0.3 80 20 82

5 0.1 60 40 78

6 0.3 60 40 89

7 0.1 80 40 83

8 0.3 80 40 93

Faktörler arasındaki etkileşimler de dikkate alınarak (Çizelge 6) tasarım matrisi hazırlanır ve

analiz edilir. Tasarım matrisi kullanılarak her bir faktör için Microsoft Excel, MINITAB veya

Design Expert gibi hazır programlar kullanılarak katsayılar hesaplanabilir.

Çizelge 6. Üç faktörlü iki seviyeli bir sistemde doğrusal model için tasarım matrisinin

deneysel sonuçlarla bir arada verilmiş hali.

Deney x0 x1 x2 x3 x1x2 x1x3 x2x3 x1x2x3 y

1 +1 -1 -1 -1 +1 +1 +1 -1 73

2 +1 +1 -1 -1 -1 -1 +1 +1 71

3 +1 -1 +1 -1 -1 +1 -1 +1 79

4 +1 +1 +1 -1 +1 -1 -1 -1 82

5 +1 -1 -1 +1 +1 -1 -1 +1 78

6 +1 +1 -1 +1 -1 +1 -1 -1 89

7 +1 -1 +1 +1 -1 -1 +1 -1 83

8 +1 +1 +1 +1 +1 +1 +1 +1 93

Çizelge 6’da verilen bir sistem için, faktörler ile deneysel sonuçlar arasındaki ilişkiyi veren

doğrusal model denklemi eşitlik 1’de verilmiştir.

exxxbxxbxxbxxbxbxbxbby 3211233223311321123322110 (1)

Eşitlik 1’den görüldüğü gibi denklemin 8 parametresi vardır ve toplamda 8 adet deney

yapıldığı için sözkonusu modelin tanımlanması isetenen sisteme uygun olup olmadığının test

edilebilmesi için yeterli serbestlik derecesi kalmamıştır. Öte yandan, sözkonusu deneyler

tarama ammaçlı gerçekleştirildiği düşünüldüğünde, faktörlerin üçlü etkileşimleri dışarıda

ihmal edilerek denklemdeki parametre sayısı bir azaltılarak denklem katsayıları için

istatistiksel değerlendirme yapmak mümkün olacaktır. Eşitlik 2, bu 8 deneyden oluşan bu

sistemin regresyon anlizinden elde edilen model denkleminin göstermektedir. Eşitlik 2’de

verilen denklemin elde edilmesindeki basamaklar aşağıda verilen 2 kaktörlü 3 seviyeli bie

başka uygulamalı örnekte ayrıntılı olarak verilmiştir.

321323121321 8.00.15.25.09.42.38.281 xxxxxxxxxxxxy (2)

2.2 Fraksiyonel faktöriyel tasarım

Full faktöriyel tasarımda her bir faktörün ve etkileşimlerinin deney sonucuna etkileri

incelenir. 2k formülüne göre 7 faktör için 128 deney, 10 faktör için 1024 deney yapılması

gerekir. Buradan görüldüğü gibi faktör sayısı arttıkça deney sayısı da çok fazla arttığı için bu

yöntem pratik olmamaktadır.

Birçok durumda faktörler arasındaki ikili, üçlü ve daha yüksek etkileşimler çok

önemli olmayabilir. Bu durumda örneğin 7 faktör için 128’den daha az deney yaparak

faktörlerin etkileri incelenebilir. Bu ise fraksiyonel faktöriyel tasarım ile gerçekleştirilir. Bu

deney yönteminde deney sayısı 2k-p

formülünden hesaplanır.

Örnek: Enzim aktivasyonu ile ilgili bir çalışmada ZnSO4 derişimi, pH,

disodyumparanitrofenilsülfat, MgSO4, 2-amino-2-metil-1-propanol faktörlerinden hangisinin

daha etkili olduğu incelenmek istenmektedir. Bunun için deney sayısı 25-1

=16 olacaktır. 16

deney için kodlanmış değerler Çizelge 7’de verilmiştir.

Çizelge 7. 25-1

fraksiyonel faktöriyel tasarım

Deney x1 x2 x3 x4 x5 (x1x2x3x4) y

1 -1 -1 -1 -1 +1 106

2 +1 -1 -1 -1 -1 113

3 -1 +1 -1 -1 -1 103

4 +1 +1 -1 -1 +1 115

5 -1 -1 +1 -1 -1 103

6 +1 -1 +1 -1 +1 117

7 -1 +1 +1 -1 +1 105

8 +1 +1 +1 -1 -1 123

9 -1 -1 -1 +1 -1 119

10 +1 -1 -1 +1 +1 128

11 -1 +1 -1 +1 +1 95

12 +1 +1 -1 +1 -1 143

12 -1 -1 +1 +1 +1 99

14 +1 -1 +1 +1 -1 145

15 -1 +1 +1 +1 -1 110

16 +1 +1 +1 +1 +1 132

Fraksiyonel faktöriyel tasarımda deney sayısı azaltılırken bazı faktörler arası

etkileşimler incelenemez. Belirlenen amaca göre full faktöriyel veya fraksiyonel faktöriyel

tasarım kullanılmalıdır. Fraksiyonel faktöriyel tasarımın bir çok avantajları olmakla beraber

bazı eksiklikleri de vardır.

Deneysel tasarım sadece iki seviyeli olduğu için parabolik terimler

incelenememektedir.

Tekarar edilen deneyler olmadığı için hata hesabı yapılamamaktadır.

Deneysel tasarım sadece ikinin katları şeklindedir.

Örnek 1. Deneysel tasarımın önemini anlamak için reaksiyon verimini etkileyen pH ve

katalizör konsantrayonu optimize etmek isteyelim. Böyle bir deneyi her bir faktörü üç farklı

seviyede denediğimizde tam faktöriyel bir deneysel tasarım için en az dokuz (32 = 9) deney

yapmamız gerekir. Çizelge 8, bu deneylerde optimize edilen iki faktörün minimum, orta ve

maksimum seviyelerini göstermektedir.

Çizelge 8. İki faktörlü üç seviyeli deneysel tasarımda faktörlerin minimum, orta ve

maksimum seviyeleri.

Faktör Minimum Orta Maksimum

Kodlanmış -1 0 +1

pH 3 6 9

Katalizör

Konsantrasyonu, M

1 2 3

Çizelge 8’de verilen faktörlerin seviyeleri deneysel tasarım matrisinin oluşturulmasında

genellikle kodlanmış olarak verilir. Bunun nedeni her bir faktörün genellikle oldukça farklı

skalalara sahip olmasıdır ve tasarımının istatistiksel analizinin bu skala farkından etkilenmesi

tercih edilmez. Çizelge 9’de gerçekleştirilen deney elde edilen verimlerle birlikte verilmiştir.

Çizelge 9. İki faktörlü 3 seviyeli tam faktöriyel deneysel tasarım ve elde edilen verimler.

No pH, x1 Katalizör Konsantrasyonu, M, x2 Verimi, y

1 3 1 41

2 3 2 59

3 3 3 60

4 6 1 61

5 6 2 76

6 6 3 71

7 9 1 61

8 9 2 69

9 9 3 59

Çizelge 9’de gerçekleştirilen 9 deneyin verimleri incelendiğinde en yüksek verimin pH 6 ve 2

M katalizör konsantrasyonunda olduğu görülmektedir. Ancak sözkonusu reaksiyonda en

uygun şartların ne olacağı ve ve reaksiyon verimine etki ettiği düşünülen bu iki faktörün

istatistiksel olarak nasıl bir katkı yaptığını görebilmek için deneysel verim değerleri ile bu

faktörler arası ilişkiyi veren bir denklem kurarak inceleyebiliriz. Bu noktada, her iki faktör 3

farklı seviyede çalışıldığı için bu faktörlerin doğrusal etkilerinin yanında ikinci dereceden

etkileri ile birbirleri ile olan etkileşimlerininde incelenmesinde fayda vardır. Eşitlik 3’te iki

faktörlü bir sistemde ikincidereceden model denklemi verilmiştir.

y = b0 + b1x1 + b2x2 + b11x1^2 + b22x2^2 + b12x1x2 + e (3)

Eşitlik 3’ de b0, her bir faktör kodlanmış olarak orta seviyede (sıfır alındığında) tutulduğunda

denklemin alacağı sabit değeri gösterirken, b1 ve b2 katsayıları her bir faktörün doğrusal

katkısını gösterir. Öte yandan b11 ve b22 değerleri ikinci dereceden (doğrusal olmayan)

katkıları gösterirken, b12 degeride her iki faktörün etkileşimlerini temsil etmektedir. Son

olarak, e terimide modellenemyen artıkları göstermektedir. Çizelge 10, eşitlik 3’de verilen

model denklemine göre hazırlanmış deneysel tasarım matrisini oluşturmaktadır.

Çizelge 10. İki faktörlü üç seviyeli tam faktöriyel bir sistemde kullanılan deneysel tasarım

matrisi.

No b0 x1 x2 x1^2 x2^2 x1x2 y

1 1 -1 -1 1 1 1 41

2 1 -1 0 1 0 0 59

3 1 -1 1 1 1 -1 60

4 1 0 -1 0 1 0 61

5 1 0 0 0 0 0 76

6 1 0 1 0 1 0 71

7 1 1 -1 1 1 -1 61

8 1 1 0 1 0 0 69

9 1 1 1 1 1 1 59

Çizelge 10’da verilen tasarım matrisinin ilk sütunu deneylerin sırasını gösterirken son sütün

ise elde edilen deneysel verimleri göstermektedir. Arada kalan 6 adet sütün ise asıl tasarım

matrisini oluşturmaktadır. Böylece matris notasyonunda eşitlik 3 yeniden düzenlenirse, eşitlik

4’te verilen model denklemi elde edilir.

y = D x b + e (4)

Eşitlik 4’den de görüleceği gibi koyu renk küçük harf vektörü temsil ederken koyu renkli

büyük harf matrisi temsil etmektedir. Bu denklemde y ve D bilinmekte olup bilinmeyen

katsayılar vektörünün hesabı enküçük kareler metoduna göre matris notasyonunda eşitlik 5’te

verildiği gibi hesaplanır.

=(D’xD) – 1xD’xy

(5)

Eşitlik 5 kullanılarak elde edilen katsayıları eşitlik 4’de yerine konarak tahmin edilen

değerleri ve daha sonrada deneysel y değerleri ile hesaplanan değerieri arasındaki

farklardan artıklar (eşitlik 6) hesaplanabilir.

e = y - (6)

Bu noktaya kadar verilen bu reaksiyon verimine ilişkin örneğin regresyon, ANOVA ve t-testi

analizleri aşağıda verilen MS Excel sayfalarında adım adım verilmiştir. Öncelikle “Data”

sekmesinden “Data Analysis” seçeneği seçilerek “Regression” seçilmelidir (Resim 1).

Resim 1. Regresyon analizi için verilerin regresyon analizi basamağı.

Aşağıda verilen (Resim 2) resimde görüldüğü gibi ilgili alanlar seçildikten sonra regresyon

analizi gereçekleştirilir.

Resim 2. Regresyon analizinin gereçekleştirilmesi.

Regresyon analizinin sonuçları aşagıda (Çizelge 11, 12, 13, 14 ve 15) verilmiştir. Öncelikle

Çizelge 11’de seçilen ikinci dereceden model denklemi kullanılarak elde edilen modelin

deneysel sonuçları ne kadar iyi tahmin ettiğini gösteren R2 değerinini görmekteyiz. Burada

elde edilen R2

değeri 0.998 gibi oldukça iyi bir sonuç olduğundan seçilen model denkleminin

oldukça başarılı olduğunu görmekteyiz.

Çizelge 11. Regresyon analizinin özeti.

Özet çıktısı Regresyon İstatisitiği

Çoklu R 0.999034 R2 0.998068 ayarlanmış R2 0.994849 Standart hata 0.713624 Gözlem sayısı 9

Çizelge 12’de regresyon analizinin ANOVA sonuçlarını görmekteyiz. Burada elde edilen F-

değerinin 310 gibi büyük bir rakam olamsı faktör seviyelerinin değiştirilmesi ile elde edilen

deneysel verim sonuçlarının %95 güven sınırında istatistiksel olarak anlamlı olduğunu

söyleyebiliriz.

Çizelge 12. Regresyon analizinin ANOVA sonuçları

ANOVA df SS MS F P-değeri

Regresyon 5 789.3611 157.8722 310.0036 0.000287767 Artıklar 3 1.527778 0.509259

Toplam 8 790.8889

Çizelge 13, öngörülen ikinci dereceden model denklemi (eşitlik 3) katsayıları ve bu

katsayıların standart hataları, t-değerleri, P-değerleri ve %95 alt ve üst güven aralığı (GA)

verilmektedir.

Çizelge 13. Öngörülen ikinci dereceden model denklemi katsayıları ve bu katsayıların

standart istatistiksel analiz sonuçları.

Katsayılar Standart Hata t-değeri P-değeri %95 alt GA %95 üst GA b0 75.4444 0.5319 141.8385 0.0000 73.7517 77.1372 b1 4.8333 0.2913 16.5902 0.0005 3.9062 5.7605 b2 4.5000 0.2913 15.4461 0.0006 3.5728 5.4272 b11 -11.1667 0.5046 -22.1294 0.0002 -12.7726 -9.5608 b22 -9.1667 0.5046 -18.1659 0.0004 -10.7726 -7.5608

b12 -5.2500 0.3568 -14.7136 0.0007 -6.3855 -4.1145

Çizelge 13’den görüldüğü gibi her iki faktörün doğrusal (b1 ve b2) etkilerinin P-değerleri 0.05

(=0.05) ten küçük olduğu için sözkonusu terimler %95 günen sınırında istatistiksel olarak

anlamlı terimleridir ve model sdenkleminde buluması gerekir. Ayrıca sözkonusu iki faktörün

ikinci dereceden etkileri (b11 ve b22) ile bu faktörlerin birbirleri ile olan etkileşimi (b12) %95

güven sıınırında istatisitiksel olarak önemlidir. Böylelikle reaksiyon veriminin model

denklemi Eşitlik 7’te verildiği gibidir.

y = 75.44 + 4.83x1 + 4.50x2 – 11.17x1^2 – 9.17b22x2^2 – 5.25x1x2 + e (7)

Çizelge 14’de, eşitlik 7’de verilen model denklemi kullanılarak hesaplanan tahmini verim

değerleri ve artık değerleri standardize edilmiş artık değerleri ile birlikte verilmiştir. Çizelge

15’de normal olasılık çıktıları verilmiştir. Şekil 4’de deneysel verim değerlerinin normal

olasılık grafiği verilmiştir.

Çizelge 14. Tahmin edilen verimler ve artıklar

Artıklar

sıra tahmin y Artıklar Standart artıklar 1 40.5278 0.4722 1.0806

2 59.4444 -0.4444 -1.0170 3 60.0278 -0.0278 -0.0636 4 61.7778 -0.7778 -1.7798 5 75.4444 0.5556 1.2713 6 70.7778 0.2222 0.5085 7 60.6944 0.3056 0.6992 8 69.1111 -0.1111 -0.2543 9 59.1944 -0.1944 -0.4449

Çizelge 15. Normal olasılık çıktısı

Olasılık çıktısı Yüzde y

5.555555556 41 16.66666667 59 27.77777778 59 38.88888889 60

50 61 61.11111111 61 72.22222222 69

83.33333333 71 94.44444444 76

Şekil 4. Normal olasılık grafiği

Şekil 5’de deneysel verim değerleri ile model denklemi kullanılarak hesaplanan verim

değerlerinin korelasyon grafiği verilmiştir. Şekilden de görüleceği gibi oldukça başarılı

tahmin değerleri elde edilmiştir. Şekil 6, artıkların grafiğini göstermektedir.

Şekil 5. Deneysel verim değerlerine karşı hesaplanan verim değerleri.

Şekil 6. Deneysel verim değerlerine karşı elde edilen artıkların grafiği.

Artıkların dağılımı incelendiğinde normal bir dağılım gösterdikleri görünmektedir. Bu

noktada elde edilen model denklemi kullnılarak optimum şartların belirlenmesi uygun

olacaktır. Bu amaçla MS Excel de “solver” kullanılarak (Resim 3) en yüksek verimi elde

edebilmek için en uygun pH ve katalizör konsantrasyonunun belirlenebilir.

Resim 3.a. Optimumşartlar için “solver” uygulaması ilk pencere.

Resim 3.b. Optimumşartlar için “solver” uygulaması ikinci pencere

Resim 3.b’de görüldüğü gibi en yüksek verimin elde edildiği koşullar pH (x1) için kodlanmış

değer olarak 0.2304 ve katalizör konsantrasyonu (x2) için 0.3126 olarak bulunmuştur. Burada

optimum koşulların faktörlerin gerçek skalası için karşı gelen değerler Eşitlik 8 ile hesaplanır.

)()(

ortaüstveyaaltorta

ortaxkod

(8)

Eşitlik 8 kulanılarak pH ve katalizör konsantrasyonu (K.K.) için optimum değerler:

6912.6)36(

62304.0

pH

pH

3126.2..)23(

2..3126.0

KK

KK

Böylece pH 6.6912 ve katalizör konsantrasyonu 2.3126 M olduğunda reaksiyon veriminin

%76.86 olacağını görüyoruz. Bu noktada bulduğumuz optimum şarların dışında başka lokal

optimum bölgelerin olup olamdığını anlamak için faktörlere (x1 ve x2) karşılık reaksiyon

veriminin nasıl değiştiğini görebileceğimiz üç boyutlu yanıt yüzey grafiğinin (şekil 7)

oluşturulması faydalı olacaktır.

1

1.5

2

2.5

3

2

4

6

8

1040

50

60

70

80

Katalizör Konsantrasyonu (M)pH

Veri

m (

y)

45

50

55

60

65

70

75

Şekil 7. Katalizör konsantrasyonu ve pH’a karşılık reaksiyon veriminin değişimini gösteren

yanıt yüzey grafiği.

Şekil 6’dan görüldüğü gibi pH’ın 6 ve katalizör konsantrasyonunun yaklaşık 2 olduğu

bölgede bir plato oluşmakta ve verim en yüksek değerine ulaşmaktadır.

2.3 Plackett-Burman tasarımı

Çok sayıda faktörün etkisi incelenmek istendiğinde full faktöriyel ve fraksiyonel

faktöriyel tasarım yöntemlerin pratik olarak uygulanması zorlaşmaktadır. Sadece faktörlerin

kendi etkileri incelendiği, yani faktörler arasındaki etkileşimlerin önemli olmadığı durumlarda

Plackett-Burman tasarımı pratik olarak uygulanabilir. Bu tasarımda geçerli olan deney sayıs,

faktör sayısı ve üretici Çizelge 16’da gösterilmiştir.

Çizelge 16. Plackett-Burman tasarımı için üreticiler

Deney sayısı Faktörler Üretici

8 7 + + + - + - -

12 11 + + - + + + - - - + -

16 15 + + + + - + - + + - - + - - -

20 19 + + - + + + + - + - + - - - - + + -

24 23 + + + + + - + - + + - - + + - - + - + - - - -

11 faktör ve 12 deneyi içeren Plackett Burman tasarımı Çizelge 17’de

gösterilmektedir.

Çizelge 17. 11 faktör için Plackett Burman tasarımı

Bu tasarımın bazı özellikleri vardır.

Birinci satır aynı seviyeye sahiptir (-1 veya +1).

İkinci satır üretici satırdır. Tablo 3’teki üreticilerden birisi kullanılır. Faktör sayısı her

zaman tek sayı ve deney sayısı faktör sayısından bir fazladır.

Üçüncü satır ikinci satırın bir yana kaydırılması ile elde edilir (Çizelge 17).

Bütün faktörler için yüksek ve düşük seviye sayısı eşittir. Bu da kolonların birbiri ile

ortagonal (kolonlar birbirinden bağımsız) olduğunu gösterir.

Placktett-Burman tasarımda faktör sayısı deney sayısından bir düşüktür. 11 faktör için

12 deney yapmak gerekir. Ancak gerçekte 10 faktör var ise 11. faktör sonuç üzerinde

herhangi bir etkisi olmayan rastgele bir faktör seçilir. Bu faktöre dummy faktör denilir.

Tasarım tablosuna kesim noktası (b0) ilave edildiğinde kare matris elde edilir.

3. OPTİMİZASYON

3.1 Merkezi kompozit tasarım

İki seviyeli faktöriyel tasarımlar her bir faktörün etkilerini genel olarak inceleyen

yöntemlerdir. Önemli faktörler belirlendikten sonra detaylı inceleme yani optimum değerlerin

bulunması gerekebilir. Her bir faktörün optimum koşullarının bulunması merkezi kompozit

tasarım yöntemi ile yapılır. İki nedenle optimizasyona ihtiyaç vardır. Birincisi, deneysel

sonucu etkileyen faktörlerin optimum değerlerini bulmak. Örneğin, organik sentezde

maksimum verimi etkileyen faktörlerin veya kromatografik ayırmada ayırma gücünü

etkileyen faktörlerin optimizasyonu gibi. İkinci neden, her bir faktörün sonuca etkisini

gösteren matematiksel modelin oluşturulması. Örneğin, bir ürünün FTIR spektrumu ile

ürünün özelliği ve üretim prosesi arasındaki ilişki kurulmasına ihtiyaç duyulabilir.

Faktöriyel tasarımlar tekrarlanan deney sayısı ve parabolik etkileri incelemez.

Plackett-Burman ve fraksiyonel faktöriyel tasarımın bazı faktörlerinde, faktörler arasındaki

etkileşimleri incelemek mümkün değildir. Önemli faktörler belirlendikten sonra parabolik

etkiler ve faktörler arasındaki etkileşimler hesaplanır.

Merkezi kompozit tasarımda deney sayısı aşağıdaki formüle göre belirlenir.

Tasarım sayısı 122 kk (k: faktör sayısı)

Formüldeki 2k full faktoriyel veya fraksiyonlu faktoriyel tasarımdaki deney sayılarını,

2k star tasarım deney sayısını ve 1 ise orta seviyedeki deney sayısını gösterir. 2k’daki

seviyeler (-1) ve (+1), 2k’dakiler , 1’deki ise (0) dır. değeri dairesel ve ortagonal

tasarıma göre farklı seviyeler alır.

Dairesel tasarımda aşağıdaki formüle göre hesaplanır.

4 2k

Ortagonal tasarımda ise aşağıdaki formüle göre hesaplanır.

k

Örnek: 3 faktör (k=3) için dairesel tasarımda α= ±1.682, ortagonal tasarımda α=

±1.732 bulunur.

Örnek 2: Petrol rafinasyonunda kükürt (S) uzaklaştırılması işleminde etkin olduğu

belirlenen sıcaklık (T, oC), akış kızı (V, g/sn) ve basınç (P, bar) faktörlerinin optimizasyonu

hedeflenmektedir. Çizelge 18’de faktörlerin 5 ayrı seviyede aldığı değerler kodlanmış ve ham

hallerinde verilmiştir. Bu çalışmanın amacı rafine edilecek olan üründe en düşük kükürt

miktarını elde etmek için optimum sıcaklık, akış hızı ve basıncın belirlenmesidir.

Denemelerden elde edilen sonuçlar ppm S cinsinden hesaplanmıştır.

Çizelge 18. Üç faktörlü merkezi kompozit tasarımda faktörlerin aldığı değerler.

Faktörler - -1 Orta +1 +

Kodlanmış -1.682 -1 0 +1 +1.682

x1, T (oC) 334.18 341 351 361 367.82

x2, V (g/sn) 99.54 120 150 180 200.46

x3, P (bar) 46.64 48 50 52 53.36

Çizelge 18’de verilen ±1.682 kodlanmış seviyesindeki faktörlerin gerçek değerleri aşağıda

verildiği gibi hesaplanabilir. Örneğin, x2 faktörü için:

)150180()120150(

1502

veya

x

46.20030

150682.1

54.9930

150682.1

12

12

xx

xx

Bu değerlere göre tasarım tablosu kodlanmış ve kodlanmamış halde aşağıdaki şekilde

(Çizelge 19) düzenlenir.

Çizelge 19. Merkezi Kompozit Tasarım Tablosu

deney T (oC) V (g/sn) P (bar) x1 x2 x3 y, (ppm S)

1 341 120 48 -1 -1 -1 68

2 341 120 52 -1 -1 1 81

3 341 180 48 -1 1 -1 170

4 341 180 52 -1 1 1 200

5 361 120 48 1 -1 -1 38

6 361 120 52 1 -1 1 55

7 361 180 48 1 1 -1 67

8 361 180 52 1 1 1 62

9 334.18 150 50 -1.6818 0 0 180

10 367.82 150 50 1.6818 0 0 39

11 351 99.54 50 0 -1.6818 0 17

12 351 200.46 50 0 1.6818 0 130

13 351 150 46.64 0 0 -1.6818 44

14 351 150 53.36 0 0 1.6818 55

15 351 150 50 0 0 0 42

16 351 150 50 0 0 0 41

17 351 150 50 0 0 0 43

18 351 150 50 0 0 0 45

19 351 150 50 0 0 0 44

20 351 150 50 0 0 0 43

Çizelge 19’daki tasarımda;

İk 8 deney (23=8) iki seviyeli full faktöriyel tasaqrıma eşdeğer deney sayısını,

Takip eden 7 deney (2*3+1= 7) yıdız noktalarını ve bir adet orta noktadaki deneyleri,

Son 5 deney orta seviyenin tekrar edilen deney sayısı olmak üzere toplam 20 deney

yapılmaktadır.

Bu üç faktörlü tasarımda ikini dereceden matematiksel model aşağıdaki (Eşitlik 9) gibi

gösterilebilir.

y = b0 + b1x1 + b2x2 + b3x3 + b11x12 + b22x2

2 + b33x3

2 + b12x1x2 + b13x1x3 + b23x2x3 +b123x1x2x3

(9)

Bu modelde;

1 kesim noktası (b0),

3 (=k) lineer etkileşimler (b1, b2, b3),

3 (=k) parabolik terimler (b112, b22

2, b33

2),

3 ikili etkileşimler (b12, b13, b23)

terimleri bulunmaktadır.

Çizelge 20’de yukarıda verilen eşitlikteki model denklemine karşı gelen deneysel tasarım

çizelgesi vailmiştir.

Çizelge 20. İkinci dereceden 3 faktörlü merkezi kompozit tasarım tablosu.

deney x1 x2 x3 x1^2 x2^2 x3^2 x1x2 x1x3 x2x3 x1x2x3 y, (ppm S)

1 -1 -1 -1 1 1 1 1 1 1 -1 68

2 -1 -1 1 1 1 1 1 -1 -1 1 81

3 -1 1 -1 1 1 1 -1 1 -1 1 170

4 -1 1 1 1 1 1 -1 -1 1 -1 200

5 1 -1 -1 1 1 1 -1 -1 1 1 38

6 1 -1 1 1 1 1 -1 1 -1 -1 55

7 1 1 -1 1 1 1 1 -1 -1 -1 67

8 1 1 1 1 1 1 1 1 1 1 62

9 -1.682 0 0 2.828 0 0 0 0 0 0 180

10 1.682 0 0 2.828 0 0 0 0 0 0 39

11 0 -1.682 0 0 2.828 0 0 0 0 0 17

12 0 1.682 0 0 2.828 0 0 0 0 0 130

13 0 0 -1.682 0 0 2.828 0 0 0 0 44

14 0 0 1.682 0 0 2.828 0 0 0 0 55

15 0 0 0 0 0 0 0 0 0 0 42

16 0 0 0 0 0 0 0 0 0 0 41

17 0 0 0 0 0 0 0 0 0 0 43

18 0 0 0 0 0 0 0 0 0 0 45

19 0 0 0 0 0 0 0 0 0 0 44

20 0 0 0 0 0 0 0 0 0 0 43

Çizelge 20 yakından incelendiğinde en düşük kükürt değerine sahip deney 11’inci sırada

verilen ve 17 ppm S değerini gösteren denemedir. Bu denemde akış sıcaklık için sıfır

kodlanmış değer, akış hızı için -1.682 ve basınç için sıfır kodlanmış değerler sözkonusudur.

Böylece, bu denemede akış hızının en düşük olduğu, sıcaklık ve basıncın orta seviyede

tutulması ile en düşük kükürt oranına erişildiği görülmektedir. Ancak, sözkonusu 20

denemenin istatistiksel analizleri yapıldığında farklı optimum değerlerde ortaya çıkabilir.

Resim 4, bu örneğin MINITAB ortamındaki veri analizinin adım adım nasıl yapıldığını

göstermektedir.

Resim 4. Örnek 2’nin MINITAB ortamına çözümü.

Resim 4’de gösterildiği gibi, MINITAB çalışma sayfasının ilk sütunu deneylerin sırasını

göstermektedir. Daha sonra 2, 3, 4’üncü sütunlar sırasıyla sıcaklık (x1), akış hızı (x2) ve

basınç (x3) faktörlerinin gerçek skalalarında aldığı değerleri göstermektedir. Takipm eden 3

sütun ise bu faktörlerin kodlanmış hallerini göstermektedir. Sekizinci sütun ise denelerden

elde edilen sonuçların verildiği sütunu göstermektedir. Çizelge 21’de MINITAB analizinden

gelen sonuçlar yer almaktadır. Ayrıca, Resim 5, MINITAB kullanılarak elde edilen modelin

grafik sonuçlarını göstermektedir. Elde edilen bu model kullanılarak oluşturulan optimum

şartlar Resim 6’da verilmiştir. Son olrak, üç boytutlu yanıt yüzey grafikleri Resim 7’de

verilmiştir. Resim 8, kontugrafiklerini göstermektedir.

Çizelge 21. MINITAB programı kullanılarak Örnek 2’nin çözümü. Response Surface Regression: y, (ppm S) versus T (oC), V (g/sn), P (bar) The analysis was done using coded units.

Estimated Regression Coefficients for y, (ppm S)

Term Coef SE Coef T P

Constant 42.575 3.801 11.201 0.000

T (oC) -65.782 4.242 -15.509 0.000

V (g/sn) 55.056 4.242 12.980 0.000

P (bar) 9.047 4.239 2.134 0.059

T (oC)*T (oC) 74.277 6.944 10.697 0.000

V (g/sn)*V (g/sn) 38.277 6.944 5.513 0.000

P (bar)*P (bar) 14.295 6.941 2.060 0.066

T (oC)*V (g/sn) -65.423 9.322 -7.018 0.000

T (oC)*P (bar) -10.950 9.311 -1.176 0.267

V (g/sn)*P (bar) -1.766 9.311 -0.190 0.853

S = 9.31948 PRESS = 6808.55

R-Sq = 98.36% R-Sq(pred) = 87.13% R-Sq(adj) = 96.88%

Analysis of Variance for y, (ppm S)

Source DF Seq SS Adj SS Adj MS F P

Regression 9 52028.7 52028.7 5781.0 66.56 0.000

Linear 3 35919.8 35919.8 11973.3 137.86 0.000

Square 3 11707.5 11707.5 3902.5 44.93 0.000

Interaction 3 4401.4 4401.4 1467.1 16.89 0.000

Residual Error 10 868.5 868.5 86.9

Lack-of-Fit 5 858.5 858.5 171.7 85.85 0.000

Pure Error 5 10.0 10.0 2.0

Total 19 52897.2

Obs StdOrder y, (ppm S) Fit SE Fit Residual St Resid

1 1 68.000 60.791 7.627 7.209 1.35

2 2 81.000 80.562 7.627 0.438 0.08

3 3 170.000 173.756 7.627 -3.756 -0.70

4 4 200.000 191.026 7.627 8.974 1.68

5 5 38.000 36.573 7.627 1.427 0.27

6 6 55.000 40.843 7.627 14.157 2.64 R

7 7 67.000 57.038 7.627 9.962 1.86

8 8 62.000 58.808 7.627 3.192 0.60

9 9 180.000 182.634 7.264 -2.634 -0.45

10 10 39.000 51.071 7.264 -12.071 -2.07 R

11 11 17.000 25.797 7.264 -8.797 -1.51

12 12 130.000 135.909 7.264 -5.909 -1.01

13 13 44.000 47.823 7.259 -3.823 -0.65

14 14 55.000 65.917 7.259 -10.917 -1.87

15 15 42.000 42.575 3.801 -0.575 -0.07

16 16 41.000 42.575 3.801 -1.575 -0.19

17 17 43.000 42.575 3.801 0.425 0.05

18 18 45.000 42.575 3.801 2.425 0.28

19 19 44.000 42.575 3.801 1.425 0.17

20 20 43.000 42.575 3.801 0.425 0.05

R denotes an observation with a large standardized residual.

Estimated Regression Coefficients for y, (ppm S) using data in uncoded units

Term Coef

Constant 29429.8

T (oC) -166.968

V (g/sn) 24.1582

P (bar) -54.3591

T (oC)*T (oC) 0.262546

V (g/sn)*V (g/sn) 0.0150331

P (bar)*P (bar) 1.26620

T (oC)*V (g/sn) -0.0770833

T (oC)*P (bar) -0.193750

V (g/sn)*P (bar) -0.0104167

20100-10-20

99

90

50

10

1

Residual

Pe

rce

nt

20015010050

10

0

-10

Fitted Value

Re

sid

ua

l

151050-5-10

8

6

4

2

0

Residual

Fre

qu

en

cy

2018161412108642

10

0

-10

Observation Order

Re

sid

ua

l

Normal Probability Plot Versus Fits

Histogram Versus Order

Resim 5. MINITAB kullanılarak elde edilen modelin grafik sonuçlarını.

CurHigh

Low0.00000D

New

d = 0.00000

Targ: 17.0

y, (ppm

y = 20.3864

0.00000

Desirability

Composite

46.640

53.360

99.540

200.460

334.180

367.820V (g/sn) P (bar)T (oC)

[351.7966] [116.9115] [48.9596]

Resim 6. Elde edilen bu model kullanılarak oluşturulan optimum şartlar.

200

0

100

150

200

300

340 350 100360

y, (ppm S)

V (g/sn)

T (oC)

520 50

50

100

150

48340 350 360

y, (ppm S)

P (bar)

T (oC)

5250

50

100

100

150

48150

200

y, (ppm S)

P (bar)

V (g/sn)

T (oC) 352

V (g/sn) 117

P (bar) 50

Hold Values

Surface Plots of y, (ppm S)

Resim 7. Üç boytutlu yanıt yüzey grafikleri.

V (g/sn)*T (oC)

360350340

200

175

150

125

100

P (bar)*T (oC)

360350340

52.5

51.0

49.5

48.0

P (bar)*V (g/sn)

200175150125100

52.5

51.0

49.5

48.0

T (oC) 352

V (g/sn) 117

P (bar) 50

Hold Values

>

–

–

–

–

–

< 50

50 100

100 150

150 200

200 250

250 300

300

y, (ppm S)

Contour Plots of y, (ppm S)

Resim 8. kontur grafikleri.

BÖLÜM II

YÖNLENDİRMESİZ SINIFLANDIRMA VE KÜMELEME TEKNİKLERİ

KONULAR

1. Temel Bileşen Analizi (Principal Component Analysis)

1.1. Eigen Değerler

1.2. Verilerin Analize Hazırlanması

a. Merkezileştirme

b. Standartlaştırma

c. Normalizasyon

2. Yönlendirmesiz Kümeleme Teknikleri (Unsupervised Pattern Recognition: Cluster

Analysis)

2.1. Öklit Uzaklığı (Euclidien distance)

2.2. Manhattan uzaklığı (Manhattan distance)

2.3. Mahalanobis uzaklığı (Mahalanobis distance)

1. TEMEL BİLEŞEN ANALİZİ (PRINCIPAL COMPONENT ANALYSIS, PCA)

Çok değişkenli veri analizinde temel bileşen analizi en çok kullanılan tekniklerden

biridir. Temel bileşen analizi örnekler ve değişkenler arasındaki ilişkiyi incelemek için

kullanılan bir keomoetrik yöntemdir. Temel bileşen analizinde X ile gösterilen bir veri

matrisi, T ile gösterilen bir skore matrisi, P ile gösterilen bir loadings matrisi ve E ile

gösterilen bir hata matrisi bulunur. Bu değerlerle ilgili eşitlik (Eşitlik 1) aşağıdaki gibi

verilebilir.

X = TP’ +E (1)

Temel bileşen analizinin uygulanmasında çeşitli algoritmalar kullanılmaktadır. En çok

kullanılan algoritmalar NIPALS (Sürekli olmayan en küçük kareler) ve SVD ( Tek değer

ayrışma)’dır. NIPALS algoritması istenilen sayıda temel bileşen hesaplamak için kullanılır.

SVD algoritması ise temel bileşenlerin tamamını hesaplamaktadır.

PCA için genel eşitlik temel bileşenlerin toplamı olarak eşitlik 2’de aşağıdaki gibi de

yazılabilir.

X = Ept k

K

k

k

'

1

(2)

Eşitlikte k bileşen sayısını belirtmektedir. Veri matrisinin ayrıntılı yapısı şöyledir

Burada görüldüğü gibi ilk olarak t1 skor ve p’1 loadigs’i ile t1 p

’1 çarpımı elde edilir.

Eğer t1 p’1 çarpımını X matrisinden çıkarılırsa E1 hatası hesaplanmış olur. Bu hata bir sonraki

hatayı hesaplamada kullanılır. Bununla ilgili bağıntılar aşağıdadır (Eşitlik 3 ve 4)

E1 = X – t1 p’1

(3)

E2 = E1 – t2 p’2 (4)

k sayıda bileşen için hata hesabına yönelik aşağıdaki eşitlik (Eşitlik 5) kullanılmaktadır.

Ek = Ek-1 - tk p’k (5)

Yukarıdaki eşitlikte p’k simgesiyle gösterilen loadings vektörü şu şekilde hesaplanır (Eşitlik

6).

p’k = t’X / t’ t (6)

Aynı şekilde benzer bir formül ile sckor vektörü tk şöyle hesaplanır (Eşitlik 7).

tk = X pk / p’k pk (7)

Yukarıdaki eşitliklerde verilen loadings (yükleme) ve skor vektörleri her bir bileşen için

hesaplanır ve böylece temel bileşenler elde edilir.

Temel bileşen analizi hem analitik kimya ile ilgili çalışmalarda hem dediğer

uygulamalarda sıkça kullanılan kemometrik yöntemlerden biridir.

Temel bileşenlerin hesaplanmasında kullanılan loadings ve skor değerleri

normalizasyon ve ortagonallik gibi bazı önemli özelliklere sahiptir. Normalizasyon her temel

bileşendeki loadings değerlerinin karelerinin toplamının 1’e eşit olmasıdır (Eşitlik 8).

12

1

kj

J

j

p

(8)

Eşitlikte pkj k’ıncı temel bileşenin j’inci loading’ini ifade etmektedir. Ortagonallik ise

skor veya loadinglerin kolonlarının çarpımlarının sıfıra eşit olmasıdır (Eşitlik 9).

01

il

I

i

ik tt (9)

1.1 Eigen Değerler

Temel bileşen analizinde eigen değerler verideki bileşen sayısının bulunmasında

kullanılır. En yüksek eigen değeri en önemli temel bileşen anlamına gelmektedir. Kemometri

literatüründe eigen değerlerine yönelik bir çok tanım bulunmaktadır. Genel istatistiksel tanımı

bir temel bileşenin değişimidir. Eigen değer genellikle temel bileşen skorlarının karelerinin

toplamının örnek sayısının bir eksiğine bölünmesiyle elde edilir. İfade matemetiksel olarak

şöyle verilmiştir (Eşitlik 10).

gk =1

1

2

I

tI

i

ik

(10)

Bazı araştırmacılar ise eigen değerleri basit bir şekilde temel bileşen skorlarının karelerinin

toplamını örnek sayısına bölerek hesaplamışlardır (Eşitlik 11).

gk = I

tI

i

ik1

2

(11)

1.2. Verilerin Analize Hazırlanması

Kemometrik analizlerde ham veri büyük öneme sahiptir. Yapılan bir deneysel çalışma

sonrasında elde edilen verilerin kemometrik hesaplamalarına geçmeden önce verilerin

özellikleri dikkatle incelenmelidir. Elde edilen veriler arasında birbirinden çok farklı değerler

bulunuyorsa ya da değerler arası büyük dengesizlik varsa, verilerin benzer birimlere

çevrilmeleri veya ortalama değer etrafında toplanması gerekebilir. Bunun gibi durumlarda

verilere merkezileştirme, standartlaştırma ve normalizasyon gibi verilerin analize

hazırlanmasına yönelik işlemler uygulanır.

a) Merkezileştirme

Kemometrik analizde veri matrisinin X simgesiyle ifade edildiği ve bu matrisin

satırlarının i sütunlarının ise j simgeleriyle gösterildiği daha önce belirtilmişti. Buna göre Xij

şeklindeki bir veri matrisinin merkezileştirme işlemi Eşitlik 12 ile şu şekilde yapılmaktadır.

mxij = xij – xj (12)

Eşitlik 12’de mxij merkezileştirme işlemi yapılmış matrisi ifade etmektedir. xij i’inci

satır j’inci sütundaki matris elemanını, xj ise her bir kolonun ortalamasını belirtmektedir.

Eşitlikten de görülebileceği gibi, matristeki her bir kolonun ortalamasının kolon

elemanlarından çıkarılmasıyla matris verisinin merkezileştirme işlemi yapılmış olmaktadır.

Böylece matristeki her bir değer ortalama çevresinde toplanmış olmaktadır.

b) Standartlaştırma

Standartlaştırma işleminde öncelikle her bir kolonun ortalama ve standart sapması

hesaplanır. Daha sonra kolondaki her bir elemandan kolon ortalaması çıkarılır ve kolon

standart sapmasına bölünür. Böylece matris verisi standartlaştırılmış olur (Eşitlik 13).

1

)(1

2

N

xx

xxx

I

i

jij

jij

ij

S

(13)

Eşitlik 13’te ij

S x simgesi standartlaştırma işlemi yapılmış matrisi ifade eder.

c) Normalizasyon

Normalizasyon işlemi verilerin sabit bir değere getirilmesi işlemidir. Matris üzerinde

normalizasyon işlemi yapılırken önce satır elemanları toplanır ve toplam değerler her satır

için ayrı ayrı hesaplanır. Sonra her bir satır toplamı her satırın kendi elemanlarına bölünür ve

normalizasyon işlemi tamamlanmış olur (Eşitlik 14).

I

i

i

ij

ij

N

x

xx

1 (14)

Eşitlik 14’te ij

N x simgesi normalize edilmiş matrisi ifade etmektedir.

Örnek 1. Aşağıda tabloda üç farklı coğrafi bölgede yetişen aynı tür üzümden yapılmış 21 adet

şarap örneğine ait 13 farklı değişkenin incelendiği veriler verilmiştir. Bu çalışmadaki amaç,

bu verileri kullanarak sözkonusu 21 adet örneği PCA analizi kullanarak doğru şekilde ait

olduğu gruplara sınıflandırmaktır.

No X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X11 X12 X13

1 14.83 1.64 2.17 14 97 2.8 2.98 0.29 1.98 5.2 1.08 2.85 1045

2 13.86 1.35 2.27 16 98 2.98 3.15 0.22 1.85 7.22 1.01 3.55 1045

3 14.1 2.16 2.3 18 105 2.95 3.32 0.22 2.38 5.75 1.25 3.17 1510

4 14.12 1.48 2.32 16.8 95 2.2 2.43 0.26 1.57 5 1.17 2.82 1280

5 13.75 1.73 2.41 16 89 2.6 2.76 0.29 1.81 5.6 1.15 2.9 1320

6 14.75 1.73 2.39 11.4 91 3.1 3.69 0.43 2.81 5.4 1.25 2.73 1150

7 14.38 1.87 2.38 12 102 3.3 3.64 0.29 2.96 7.5 1.2 3 1547

8 11.66 1.88 1.92 16 97 1.61 1.57 0.34 1.15 3.8 1.23 2.14 428

9 13.03 0.9 1.71 16 86 1.95 2.03 0.24 1.46 4.6 1.19 2.48 392

10 11.84 2.89 2.23 18 112 1.72 1.32 0.43 0.95 2.65 0.96 2.52 500

11 12.33 0.99 1.95 14.8 136 1.9 1.85 0.35 2.76 3.4 1.06 2.31 750

12 12.7 3.87 2.4 23 101 2.83 2.55 0.43 1.95 2.57 1.19 3.13 463

13 12 0.92 2 19 86 2.42 2.26 0.3 1.43 2.5 1.38 3.12 278

14 12.72 1.81 2.2 18.8 86 2.2 2.53 0.26 1.77 3.9 1.16 3.14 714

15 12.25 3.88 2.2 18.5 112 1.38 0.78 0.29 1.14 8.21 0.65 2 855

16 13.16 3.57 2.15 21 102 1.5 0.55 0.43 1.3 4 0.6 1.68 830

17 13.88 5.04 2.23 20 80 0.98 0.34 0.4 0.68 4.9 0.58 1.33 415

18 12.87 4.61 2.48 21.5 86 1.7 0.65 0.47 0.86 7.65 0.54 1.86 625

19 13.32 3.24 2.38 21.5 92 1.93 0.76 0.45 1.25 8.42 0.55 1.62 650

20 13.08 3.9 2.36 21.5 113 1.41 1.39 0.34 1.14 9.4 0.57 1.33 550

21 13.5 3.12 2.62 24 123 1.4 1.57 0.22 1.25 8.6 0.59 1.3 500

Yukarıda verilen tabloda örnekler satırlarda değişkenler sütunlarda verilmiştir. Bu veri

MINITAB ortamına aktarılarak aşağıda verilen Resimdeki gibi PCA analizi

gerçekleştirilebilir.

Öncelikle ilk iki temel bileşen verideki toplam değişkenliğin %67.77 sini açıkladını aşağıda

verilen çizelgedeb görmekteyiz.

E.V % VarianceC. % Var

6.134532 47.44872 47.44872

2.627051 20.31943 67.76815

Bu noktadan haraketle PCA anlizinden gen ilk iki temel bileşen skor vektörünü birbirine karşı

grafiğe geçirdiğimizde aşağıda verilen PCA skor grafiğini elde etmiş oluruz.

43210-1-2-3-4

3

2

1

0

-1

-2

PC1

PC2

21

2019

18

17

16

15

14

13

12

1110

98

7

6

5

4

3

21

Yukarıda verilen PCA skor grafiğini yakından incelediğimizde ilk 7 örneğin karaktesitik

olarak grafiğin sağ alt tarafından yer aldıklarının ve digger örneklerden net bir şekilde

ayrıldıklarını görmekteyiz. Aynı şekilde sol alt köşede kümelenen 7 örnek diğer bir grubu

gösterirken üste görünen 7 örnekte 8-14 numaralı örnekleri göstermektedir. PCA analizinde,

ayrıca bu örneklerin gruplandırılmasında kullanılan 13 değişkenin yükleme grafiği

oluşturulur. Aşağıdaki şekil PCA analizinden gelen ilk iki yükleme vektörünün birbirine karşı

grafiğini göstermektedir.

0.40.30.20.10.0-0.1-0.2-0.3-0.4

0.3

0.2

0.1

0.0

-0.1

-0.2

-0.3

-0.4

-0.5

-0.6

PC1

PC

2

X13

X12

X11

X10

X9

X8

X7X6

X5X4

X3

X2

X1

Yukarıda verilen yükleme grafiğini incelediğimizde özellikle x1 ve x13 değişkenleri ilk 7

örneğin sınıflandırmasında büyük rol alırken x3 ve x10 değişkelnleri son 7 örneği daha iyi

karakterize etmekte ve son olarak x8 ve x11 değişkenleri 8-14 arasındaki örnekleri daha iyi

sınıflandırmış görünmektedir.

2. YÖNLENDİRMESİZ KÜMELEME ANALİZİ (UNSUPERVISED PATTERN

RECOGNITION: CLUSTER ANALYSIS)

Kümeleme analizi örnekler ya da değişkenler arasındaki benzerliklerin gösterilmesi ve

yorumlanmasına yönelik kimyada sıkça kullanılan kemometrik yöntemlerden birisidir.

Kümeleme analizi ile benzer örnekler aynı grup altında toplanabilmektedir. Kümeleme analizi

yönlendirmesiz (unsupervised pattern recognition) ve yönlendirmeli (supervised pattern

recognition) olmak üzere iki şekilde yapılabilmektedir. Bu bölümde yönlendirmesiz

kümeleme tekniğinden bahsedilecektir.

Yönlendirmesiz kümeleme tekniğinde birinci adım örnekler arasındaki benzerliği

belirlemektir. Tablo 1’de 6 ayrı kan örneğinde kalsiyum ve fosfat analizi sonuçları verilmiştir.

Çizelge 1. Kan örneklerinde kalsiyum ve fosfat değerleri

Örnek Kalsiyum (mg/100mL) Fosfat (mg/100mL)

1 8.0 5.5

2 8.25 5.75

3 8.7 6.3

4 10.0 3.0

5 10.25 4.0

6 9.75 3.5

Kalsiyum ve fosfat içeriğine göre 6 kan örneği arasında benzerlik ilişkisi kurulabilir.

Örnekler arasındaki benzerlik ilişkisini veren ve en çok kullanılan 3 yöntem aşağıda

açıklanmıştır.

2.1. Öklit Uzaklığı (Euclidean distance)

İki örnek (k ve l) arasındaki ilişki aşağıdaki formülle verilir (Eşitlik 15).

2

1

)(

J

jljkjkl xxd

(15)

Burada j, ölçülen değerleri göstermektedir. xij de i örneğinde j ölçümünü, yani x32 3.

örnekteki 2. ölçümü, Tablo 1’deki 6.3 fosfat değerini gösterir. İki örnek arasındaki öklit

uzaklığı küçük ise bu örnekler birbirine benzerdir. Öklit uzaklığı matris formatında aşağıdaki

gibi yazılabilir (Eşitlik 16).

)').(( lklk xxxx kld (16)

Burada Çizelge 1’de gösterilen her bir kolon bir vektördür. Bu formül Excel veya

Matlab’ta kolaylıkla hesaplanabilir.

2.2. Manhattan uzaklığı (Manhattan distance)

Öklit uzaklığından biraz farklıdır. Örnekler arasındaki ilişki benzer şekilde

değerlendirilir. Manhattan uzaklığında matris tablosundaki değerler öklit uzaklığından daha

büyüktür. Manhattan uzaklığı aşağıdaki formülle hesaplanır (Eşitlik 17).

||1

ljkj

J

jkl xxd

(17)

Öklit uzaklığı ile Manhattan uzaklığı arasındaki fark Şekil 1’de gösterilmiştir.

Şekil 1. Öklit ve Manhattan uzaklığı ilişkisi

2.3. Mahalanobis uzaklığı (Mahalanobis distance)

En sık kullanılan kemometrik yöntemleden birisidir ve öklit uzaklığına benzerdir.

Birbiri ile korelasyona sahip değişkenleri dikkate alan bir yöntemdir. k ve l örnekleri

arasındaki ilişkiyi veren uzaklık aşağıdaki matris terimi ile hesaplanabilir (Eşitlik 18).

dkl = (xk - xl). C-1

. (xk - xl)' (18)

Burada C değişkenlerin varyans-kovaryans matrisi gösterir. Değişken sayısı örnek

sayısından fazla olduğunda bu metot kolaylıkla uygulanamaz. Çünkü bu durumda varyans-

kovaryans matrisinin tersi yoktur.

Kümeler arası uzaklıklar farklı yöntemlerle hesaplanabilir (Eşitlikler 19, 20, 21, 22,

23, 24 ve 25).

a. Ortalama link (Average Likage) (Eşitlik 19)

2

BiAi

ki

ddd

(19)

Öklit uzaklığı Manhattan uzaklığı

b. Tekli link (Single Linkage)

Bu eşitlikte kümeler arası en kısa mesafe aşağıdaki gibi hesaplanır (Eşitlik 20).

),min(22

BiAi

BiAiBiAi

ki dddddd

d

(20)

c. Toplam link (Complete Linkage)

Bu metotta küme noktaları arasındaki en geniş mesafe dikkate alınarak öklit uzaklığı

hesaplanmaktadır (Eşitlik 21).

),max(22

BiAi

BiAiBiAi

ki dddddd

d

(21)

d. Ağırlıklı ortalama link (Weighted Average Linkage)

Bu metotta kümeler arası uzaklığın hesaplanmasında bileşen sayısı dikkate alınır

(Eşitlik 22).

BABi

B

Ai

A

ki NNNdN

Nd

N

Nd (22)

e. Merkezi (Centroid)

Bu metotta iki kümenin merkezleri arasındaki mesafe dikkate alınarak öbek uzaklığı

hesaplanmaktadır (Eşitlik 23).

AB

BA

Bi

B

Ai

A

ki dN

NNd

N

Nd

N

Nd

2 (23)

f. Medyan (Median) (Eşitlik 24)

422

ABBiAi

ki

dddd (24)

g. Ward metodu (Ward’s Method) (Eşitlik 25)

AB

i

i

Bi

i

iB

Ai

i

iA

ki dNN

Nd

NN

NNd

NN

NNd

(25)

Yukarıda verilen eşitliklerde (k) ve (i) simgeleri (k) numaralı kolonun (i) numaralı elemanını

ifade eder. A ve B simgeleri ise örnekleri gösterir.

Çizelge 1’deki veriler dikkate alınarak örnek öklit uzaklığı aşağıdaki şekilde hesaplanabilir.

Kalsiyum için 1. ve 2. örnekler arasındaki öklit uzaklığı,

d12 = [(8-8.25)2 + (5.5-5.75)

2]1/2

= 0.354 dir.

Matristeki her örnek için öklit uzaklığı aynı şekilde hesaplandığında aşağıdaki Çizelge 2 elde

edilir.

Çizelge 2. Öklit uzaklığı tablosu

Örnek 1 2 3 4 5 6

1 0

2 0.354 0

3 1.063 0.711 0

4 3.201 3.260 3.347 0

5 2.704 2.658 2.774 1.031 0

6 2.658 2.704 2.990 0.559 0.707 0

Uzaklık matrisinin indirgenmesi örneklerin toplanmasıyla yapılmaktadır. Burada kural

en kısa uzaklığa sahip örneklerin ilk olarak toplanmasıdır. Aşağıda toplama işlemi sırasıyla

gösterilmiştir.

1. İndirgenmiş matris

Tablo 2’de görüldüğü gibi matristeki en kısa uzaklık 1. ve 2. örnekler arasındadır.

Yani d12 = 0.354 olmaktadır. 1. ve 2. örnek 1* ile gösterilen yeni bir bileşen olarak birleştirilir

ve aralarındaki uzaklık sıfıra eşitlenir. Böylece örnekler arasındaki yeni uzaklık değerleri

aşağıdaki gibi hesaplanır.

887.02

711.0063.1

2

2313

3*1

dd

d

231.32

260.3202.3

2

2414

4*1

dd

d

681.22

658.2704.2

2

2515

5*1

dd

d

681.22

704.2658.2

2

2616

6*1

dd

d

1. İndirgenmiş matris aşağıdaki çizelgede (Çizelge 3)gösterilmiştir.

Çizelge 3. İndirgenmiş matris

Örnek 1*

3 4 5 6

1* 0

3 0.887 0

4 3.231 3.347 0

5 2.681 2.774 1.031 0

6 2.681 2.990 0.559 0.707 0


Tablo 3’te görüldüğü gibi matristeki en kısa uzaklık 4. ve 6. örnekler arasındadır. Yani

d46 = 0.559 olmaktadır. 4. ve 6. örnek 4* ile gösterilen yeni bir bileşen olarak birleştirilir ve

aralarındaki uzaklık sıfıra eşitlenir. Böylece örnekler arasındaki yeni uzaklık değerleri

aşağıdaki gibi hesaplanır.

869.02

707.0031.1

2

5654

4*5

dd

d

269.32

990.2547.3

2

6343

3*4

dd

d

956.22

681.2231.3

2

*61*41

*1*4

dd

d

2. İndirgenmiş matris Çizelge 4’te gösterilmiştir.


Örnek 1*

3 4* 5

1* 0

3 0.887 0

4* 2.956 3.269 0

5 2.681 2.774 0.869 0


Tablo 4’te görüldüğü gibi matristeki en kısa uzaklık 5. ve 4*. örnekler arasındadır.

Yani d54* = 0.869 olmaktadır. 5. ve 4*. örnek 5

* ile gösterilen yeni bir bileşen olarak

birleştirilir ve aralarındaki uzaklık sıfıra eşitlenir. Böylece örnekler arasındaki yeni uzaklık

değerleri aşağıdaki gibi hesaplanır.

819.22

956.2681.2

2

*1*451

*5*1

dd

d

813.12

774.2887.0

2

533*4

*35

dd

d

3. İndirgenmiş matris Çizelge 5’te gösterilmiştir.


Örnek 1*

3 5*

1* 0

3 0.887 0

5* 2.819 1.831 0


Çizelge 5’ten görüldüğü gibi matristeki en kısa uzaklık 1*. ve 3. örnekler arasındadır.

Yani d1*3 = 0.887 olmaktadır. Bu veriler örnek 3* ile gösterilen yeni bir bileşen olarak

birleştirildiğinde örnekler arasındaki yeni uzaklık değerleri aşağıdaki gibi hesaplanır.

325.22

274.2831.1

2

3*5*1*5

*5*3

dd

d

4. İndirgenmiş matris Çizelge 6’da gösterilmiştir.


Örnek 3* 5*

3* 0

5* 2.547 0

Sonuç olarak yukarıda hesapladığımız noktaları bir grafik üzerinde gösterirsek

aşağıdaki dendrogramı elde ederiz (Şekil 2).

Şekil 2. Örnekler arasındaki ilişkiyi veren dendrogram.

0

20

40

60

80

100

5 6 4 3 2 1

1*

3*5*

4*

Ben

zerli

k

Örnekler

Bu hesaplamalar karmaşık gibi görünse de konunun anlaşılması açısından yararlıdır.

Kümeleme analizi daha kolay olarak bazı hazır programlarla (Statistica gibi) da

yapılabilmektedir. Şekil 2’de görüldüğü gibi bu örnekte iki temel küme bulunmaktadır. 1,2,3

bir küme 4,5,6 başka bir kümeyi göstermektedir.

Örnek 2. Aşağıda çizelgede farklı coğrafi bölgelerden elde edilmiş 20 adet zeytin yağı

örneğinin yağ asitleri profilini göstermektedir. Bu veriler kullanılarak PCA ve HCA analizleri

yapılacak ve sözkonusu 20 örneğin kaç farklı gruba ayrılacağı belirlenmek istenmektedir.

samples palmitic palmitoleic stearic oleic linoleic eicosanoic linolenic eicosenoic

1 911 49 268 7924 678 51 70 44

2 922 66 264 7990 618 49 56 29

3 1100 61 235 7728 734 39 64 35

4 1082 60 239 7745 709 46 83 33

5 1037 55 213 7944 633 26 52 30

6 1285 129 244 7323 819 57 65 36

7 1248 107 313 7299 840 46 66 33

8 1356 106 236 7209 866 48 75 36

9 1260 102 228 7354 870 49 64 28

10 1261 121 312 7238 877 47 65 25

11 1364 204 225 6929 1084 21 50 14

12 1410 199 216 7130 955 21 48 19

13 1384 178 208 7105 999 29 67 26

14 1412 185 217 6842 1203 34 72 32

15 1410 232 280 6715 1233 32 60 24

16 1136 72 341 7616 661 49 65 32

17 926 41 277 7815 784 45 65 25

18 1105 69 373 7714 532 51 68 37

19 1109 79 305 7576 763 45 64 36

20 1284 93 265 7235 893 43 77 46

Yukarıda verilen veri öncelikle MINITAB ortamına aktarılmış ve PCA ve HCA analizleri ayrı

ayrı gerçekleştirilmiştir. Yukarıda PCA örneği verilirken MINITAB ortamında analizin nasıl

başlatıldığı bir resim ile verilmişti. Bu nedenle burada sadece HCA analizi nasıl başlatılıyor

üzerinde durulacak ve aşağıda verilen resim HCA analizinin şemasını göstermektedir.

Yukarıda MINITAB çalışma sayfasında gösterilen veriler öncelikle PCA analizine tabi

tutulmuş ve sözkonusu 20 örneğin nasıl sınıflandığı aşağıda verilen ilk iki temel bileşen skor

vektörünün birbirine karşı grafiği çizilerek gösterilmiştir.

3210-1-2-3-4

3

2

1

0

-1

-2

PC1

PC

2

20

19

18

17

16

15

14

13

1211

10

9

8

7

6

5

4

3

2

1

PCA analizinden gelen ilk iki skor vektörünün grafiğini incelediğimizde örneklerin genel

olarak üç alt gruba ayrıldığını söyleyebiliriz. Aşağıda verilen çizelgede PCA analizinde ilk iki

temel bileşen vektörünün verideki toplam değişkenliğin %79.42’sini açıkladığını öte yandan

ilk dört temel bileşenin ise %95 civarındaki varyansı kapsadığını görmekteyiz.

Eigenval % VariancC.% Var

4.690292 58.62865 58.62865

1.663256 20.7907 79.41935

0.893089 11.16362 90.58297

0.295994 3.699921 94.28289

0.245336 3.066701 97.34959

0.159076 1.98845 99.33804

0.050536 0.631696 99.96974

0.002421 0.030264 100

8

PCA analizinden sonra yapılan HCA analizinde öncelikle ham veriler kullanılarak

dendrogram oluşturulmuş ve elde edilen dendrogram aşağıdaki şekilde verilmiştir.

1514131211208107961819165317241

19.67

13.11

6.56

0.00

Örnekler

Uza

klı

k

Ward Linkage, Euclidean Distance

Yukarıda verilen dendrogram yakından incelendiğinde 11, 12, 13, 14 ve 15 numaralı

örneklerin bağımsız bir grup olarak sınıflandırıldığı görülmektedir. Öte yandan, geriye kalan

15 örnekten 6, 7, 8, 9, 10 ve 20 numaralı örneklerin bir başka alt grubu oluşturduğu ve son

olarak dendrogramın sol tarafındaki 10 örneğin bir başka alt grubu oluşturduğu

görülmektedir. Daha sonar HCA analizi, ham veriler yerine, PCA analizinden gelen ve veri

setindeki toplam varyansın %95’ini kapsayan ilk 4 temel bileşen skor vektörü kullanılarak

oluşturulmuş ve elde edilen dendrogram aşağıda verilmiştir.

1514131211107209861819165172341

20.10

13.40

6.70

0.00

Örnekler

Uza

klı

kWard Linkage, Euclidean Distance

Yukarıda verilen dendrogram incelendiğinde ham veriler ile elde edilen dendrogramın hemen

hemen aynısının PCA analizinden gelen ilk dört temel bileşen vektörü ile de elde edilebildiği

görülmektedir.

kemometrİ ders notlari bÖlÜm i deneysel ...hplc.akdeniz.edu.tr/_dinamik/225/80.pdfprof.dr.durmuú...

Documents