kemometrİ ders notlari bÖlÜm i deneysel ...hplc.akdeniz.edu.tr/_dinamik/225/80.pdfprof.dr.durmuú...
TRANSCRIPT
Prof.Dr.Durmuş ÖZDEMİR
İYTE Fen Fakültesi Kimya Bölümü
İzmir
KEMOMETRİ DERS NOTLARI
BÖLÜM I
DENEYSEL TASARIM VE OPTİMİZASYON
KONULAR
1. Deneysel Tasarımın Önemi
2. Tarama Tasarımları (Screening Designs)
2.1.Ful Faktöriyel Tasarım
2.2. Fraksiyonel faktöriyel tasarım
2.3. Plackett-Burman tasarımı
3. Optimizasyon
3.1. Merkezi Kompozit Tasarım
1. DENEYSEL TASARIMIN ÖNEMİ
Deneysel tasarımın önemi dört maddede açıklanabilir.
Tarama (Screening): Bu tasarımlar deneysel çalışmalarda sonucu etkileyen önemli
faktörleri belirlemek için kullanılır. Bir kimyasal reaksiyonun verimini etkileyen faktörler,
kullanılan reaktif konsantrasyonu, katalizör konsantrasyonu, sıcaklık, pH, reaksiyon süresi,
karıştırma hızı, vb. 10 faktör etkilediği dikkate alındığında bu faktörlerden hangileri
önemlidir, hangileri elimine edilebilir ve hangileri ayrıntılı incelenmelidir? Bu soruların
cevapları “faktöriyel” ve “Plackett-Burman” tasarımları ile verilebilir.
Optimizasyon: Tarama tasarımları ile bulunan önemli faktörlerin optimum değerleri
optimize edilerek reaksiyonun verimi ve kromatografik ayırma iyileştirilebilir. En yaygın
kullanılan optimizasyon yöntemleri “simplex optimizasyonu” ve “merkezi kompozit tasarımı”
dır.
Zaman tasarrufu: Deneysel çalışmalarda faktörlerin ektisi klasik yöntemle bir
faktörün değerini değiştirme diğerlerini ise sabit tutma yöntemi ile de belirlenebilir. Ancak
çok sayıda faktör incelendiğinde bu yöntem zaman alıcı ve maliyetli olmaktadır.
Modelleme: Tarama tasarımı ve optimizasyon sonucu her bir faktörün etkisi
matematiksel modelle ifade edilebilir. Böylece deneysel olarak bulunan sonucun yanında
hesapla tahmini sonuç da bulunmuş olur. Beklenen sonucun deneysel olarak gerçekleştirilip
gerçekleştirilemediği kontrol edilir.
İstatisitksel deneysel tasarım ve optimizasyon yakalşımının sunacağı avantajları
kavrayabilmek için basit bir örnek verebiliriz. Bir çalışmada klasik deneysel tasarım (bütün
faktörleri sabit tutup sadece birinin değerinin değiştirilmesi) yaklaşımı kullanıldığında bir
reaksiyonun verimine etki eden iki faktörden pH ve katalizör konsantrasyonu incelenmiş,
katalizör konsantrasyonu 2.0 mM’da sabit tutulurken pH değiştirilmiş ve reaksiyon verimi
hesaplanmıştır. Şekil 1’den görüldüğü gibi optimum pH 3.4 tür.
Şekil 1. Katalizör konsantrasyonu 2.0 mM da sabit tutularak bulunan optimum pH.
pH=3.4 optimum olarak bulunduktan sonra pH bu değerde sabit tutularak
konsantrasyon değiştirilmiştir. Elde edilen konsantrasyon Şekil 2’te gösterilmiştir. Klasik
yöntemle optimum konsantrasyon 1.4 mM olarak bulunmuştur.
Şekil 2. pH 3.4’te sabit tutularak bulunan optimum konsantrasyon.
Daha sonra anyı deneysel çalışma istatistiksel deneysel tasarım yönetemi ile
gereçekleştirilmiş ve elde edilen sonuçlar Şekil 3’te verilmiştir.
Şekil 3. pH ve katalizör konsantrasyonuna bağlı olarak reaksiyon verimindeki
değişimi.
İstatistiksel deneysel tasarım metodu kullanılarak elde edilen optimum şartlar pH 4.4 ve
konsantrasyon 1.0 mM olarak bulunmuştur. Bu noktada klasik yaklaşımla bulunan optimum
şartlar ile istatistiksel deneysel tasarım metodu ile buılunan sonuçlardan oldukça farklı olduğu
görülmektedir. Bu farkın nedeni pH ve konsantarsyon arasındaki etkileşmedir. Bu nedenle
istatistiksel deneysel tasarım kullanılarak bu etkileşimler göz önünde bulundurulmalı ve
deneysel tasarım yöntemine göre optimum değerler bulunmalıdır. İleriki bölümde benzer bir
örnek uygulamalı şekilde ayrıntılı olarak tekarar incelenecektir.
2. TARAMA TASARIMLARI
2.1 Tam Faktöriyel Tasarım
Tam faktöriyel tasarım sonuç üzerine etki eden faktörlerin hangileri ve ne kadar etkili
olduğunu anlamada kullanılan iki seviyeli bir tarama tasarımıdır. Örneğin, bir kimyasal
reaksiyon pH ve sıcaklığa bağlı olarak değişiyorsa, iki seviyeli iki faktörlü bir deney
tasarlanabilir. Deney sayısı 2k formülü ile hesaplanır. Burada 2, seviye sayısı (-1 ve +1 olarak
kodlanır), k ise faktör sayısıdır (burada 2 faktör var). Faktöriyel tasarımda, 2 faktör için deney
sayısı 4 (22), 3 faktör için deney sayısı 8’dir (2
3). Tam faktöriyel tasarım tablosu hazırlamak
için, her bir faktör için yüksek ve düşük seviyeler belirlenir. Örneğin sıcaklık 30oC ve 60
oC,
pH 4 ve 6. Yüksek (+1) ve düşük (-1) seviyelere göre tasarım tablosu oluşturulur (Çizelge 1).
Çizelge 1. İki seviyeli iki faktörlü tam faktöriyel tasarım
Deney x1 x2
1 -1 -1
2 +1 -1
3 -1 +1
4 +1 +1
Çizelge 2 ve 3’te sırasıyla 3 ve 4 faktörlü iki seviyeli tam faktöriyel tasarımların tabloları
verilmiştir
Çizelge 2. İki seviyeli üç faktörlü tam faktöriyel tasarım
Deney x1 x2 x3
1 -1 -1 -1
2 +1 -1 -1
3 -1 +1 -1
4 +1 +1 -1
5 -1 -1 +1
6 +1 -1 +1
7 -1 +1 +1
8 +1 +1 +1
Çizelge 3. İki seviyeli dört faktörlü tam faktöriyel tasarım
Deney x1 x2 x3 x4
1 -1 -1 -1 -1
2 +1 -1 -1 -1
3 -1 +1 -1 -1
4 +1 +1 -1 -1
5 -1 -1 +1 -1
6 +1 -1 +1 -1
7 -1 +1 +1 -1
8 +1 +1 +1 -1
9 -1 -1 -1 +1
10 +1 -1 -1 +1
11 -1 +1 -1 +1
12 +1 +1 -1 +1
13 -1 -1 +1 +1
14 +1 -1 +1 +1
15 -1 +1 +1 +1
16 +1 +1 +1 +1
Deneysel tasarım tablosu hazırlandıktan sonra kodlanmış değerler yerine faktörlerin
gerçek değerleri yerleştirilerek deneysel çalışma gerçekleştirilir. Örneğin, üç faktörlü iki
seviyeli bir sistemde faktörlerin minimum ve maksimum seviyeleri Çizelge 4’te verilmiştir.
Çizelge 4. Üç faktör iki seviyeli bir sistemde faktörlerin minimum ve maksimum aralıkları
Faktörler (-1) seviye (+1) seviye
Katalizör konsantrasyonu (%) 0.1 0.3
Reaksiyon sıcaklığı (0C) 60 80
Reaksiyon süresi (dk) 20 40
Çizelge 5, iki seviye üzerinden gerçekleşitirilen ve katalizör konsantrasyonu (x1),
reaksiyon sıcaklığı (x2) ve reaksiyon süresi (x3) faktörlerinden oluşan 8 deneye ait her bir
faktörün gerçek skalasındaki değerleri ve bu sistemde elde edilen sonuçlar (y değerleri)
göstermektedir.
Çizelge 5. Deneysel sonuçları da içeren üç faktörlü tasarım
Deney x1 x2 x3 y
1 0.1 60 20 73
2 0.3 60 20 71
3 0.1 80 20 79
4 0.3 80 20 82
5 0.1 60 40 78
6 0.3 60 40 89
7 0.1 80 40 83
8 0.3 80 40 93
Faktörler arasındaki etkileşimler de dikkate alınarak (Çizelge 6) tasarım matrisi hazırlanır ve
analiz edilir. Tasarım matrisi kullanılarak her bir faktör için Microsoft Excel, MINITAB veya
Design Expert gibi hazır programlar kullanılarak katsayılar hesaplanabilir.
Çizelge 6. Üç faktörlü iki seviyeli bir sistemde doğrusal model için tasarım matrisinin
deneysel sonuçlarla bir arada verilmiş hali.
Deney x0 x1 x2 x3 x1x2 x1x3 x2x3 x1x2x3 y
1 +1 -1 -1 -1 +1 +1 +1 -1 73
2 +1 +1 -1 -1 -1 -1 +1 +1 71
3 +1 -1 +1 -1 -1 +1 -1 +1 79
4 +1 +1 +1 -1 +1 -1 -1 -1 82
5 +1 -1 -1 +1 +1 -1 -1 +1 78
6 +1 +1 -1 +1 -1 +1 -1 -1 89
7 +1 -1 +1 +1 -1 -1 +1 -1 83
8 +1 +1 +1 +1 +1 +1 +1 +1 93
Çizelge 6’da verilen bir sistem için, faktörler ile deneysel sonuçlar arasındaki ilişkiyi veren
doğrusal model denklemi eşitlik 1’de verilmiştir.
exxxbxxbxxbxxbxbxbxbby 3211233223311321123322110 (1)
Eşitlik 1’den görüldüğü gibi denklemin 8 parametresi vardır ve toplamda 8 adet deney
yapıldığı için sözkonusu modelin tanımlanması isetenen sisteme uygun olup olmadığının test
edilebilmesi için yeterli serbestlik derecesi kalmamıştır. Öte yandan, sözkonusu deneyler
tarama ammaçlı gerçekleştirildiği düşünüldüğünde, faktörlerin üçlü etkileşimleri dışarıda
ihmal edilerek denklemdeki parametre sayısı bir azaltılarak denklem katsayıları için
istatistiksel değerlendirme yapmak mümkün olacaktır. Eşitlik 2, bu 8 deneyden oluşan bu
sistemin regresyon anlizinden elde edilen model denkleminin göstermektedir. Eşitlik 2’de
verilen denklemin elde edilmesindeki basamaklar aşağıda verilen 2 kaktörlü 3 seviyeli bie
başka uygulamalı örnekte ayrıntılı olarak verilmiştir.
321323121321 8.00.15.25.09.42.38.281 xxxxxxxxxxxxy (2)
2.2 Fraksiyonel faktöriyel tasarım
Full faktöriyel tasarımda her bir faktörün ve etkileşimlerinin deney sonucuna etkileri
incelenir. 2k formülüne göre 7 faktör için 128 deney, 10 faktör için 1024 deney yapılması
gerekir. Buradan görüldüğü gibi faktör sayısı arttıkça deney sayısı da çok fazla arttığı için bu
yöntem pratik olmamaktadır.
Birçok durumda faktörler arasındaki ikili, üçlü ve daha yüksek etkileşimler çok
önemli olmayabilir. Bu durumda örneğin 7 faktör için 128’den daha az deney yaparak
faktörlerin etkileri incelenebilir. Bu ise fraksiyonel faktöriyel tasarım ile gerçekleştirilir. Bu
deney yönteminde deney sayısı 2k-p
formülünden hesaplanır.
Örnek: Enzim aktivasyonu ile ilgili bir çalışmada ZnSO4 derişimi, pH,
disodyumparanitrofenilsülfat, MgSO4, 2-amino-2-metil-1-propanol faktörlerinden hangisinin
daha etkili olduğu incelenmek istenmektedir. Bunun için deney sayısı 25-1
=16 olacaktır. 16
deney için kodlanmış değerler Çizelge 7’de verilmiştir.
Çizelge 7. 25-1
fraksiyonel faktöriyel tasarım
Deney x1 x2 x3 x4 x5 (x1x2x3x4) y
1 -1 -1 -1 -1 +1 106
2 +1 -1 -1 -1 -1 113
3 -1 +1 -1 -1 -1 103
4 +1 +1 -1 -1 +1 115
5 -1 -1 +1 -1 -1 103
6 +1 -1 +1 -1 +1 117
7 -1 +1 +1 -1 +1 105
8 +1 +1 +1 -1 -1 123
9 -1 -1 -1 +1 -1 119
10 +1 -1 -1 +1 +1 128
11 -1 +1 -1 +1 +1 95
12 +1 +1 -1 +1 -1 143
12 -1 -1 +1 +1 +1 99
14 +1 -1 +1 +1 -1 145
15 -1 +1 +1 +1 -1 110
16 +1 +1 +1 +1 +1 132
Fraksiyonel faktöriyel tasarımda deney sayısı azaltılırken bazı faktörler arası
etkileşimler incelenemez. Belirlenen amaca göre full faktöriyel veya fraksiyonel faktöriyel
tasarım kullanılmalıdır. Fraksiyonel faktöriyel tasarımın bir çok avantajları olmakla beraber
bazı eksiklikleri de vardır.
Deneysel tasarım sadece iki seviyeli olduğu için parabolik terimler
incelenememektedir.
Tekarar edilen deneyler olmadığı için hata hesabı yapılamamaktadır.
Deneysel tasarım sadece ikinin katları şeklindedir.
Örnek 1. Deneysel tasarımın önemini anlamak için reaksiyon verimini etkileyen pH ve
katalizör konsantrayonu optimize etmek isteyelim. Böyle bir deneyi her bir faktörü üç farklı
seviyede denediğimizde tam faktöriyel bir deneysel tasarım için en az dokuz (32 = 9) deney
yapmamız gerekir. Çizelge 8, bu deneylerde optimize edilen iki faktörün minimum, orta ve
maksimum seviyelerini göstermektedir.
Çizelge 8. İki faktörlü üç seviyeli deneysel tasarımda faktörlerin minimum, orta ve
maksimum seviyeleri.
Faktör Minimum Orta Maksimum
Kodlanmış -1 0 +1
pH 3 6 9
Katalizör
Konsantrasyonu, M
1 2 3
Çizelge 8’de verilen faktörlerin seviyeleri deneysel tasarım matrisinin oluşturulmasında
genellikle kodlanmış olarak verilir. Bunun nedeni her bir faktörün genellikle oldukça farklı
skalalara sahip olmasıdır ve tasarımının istatistiksel analizinin bu skala farkından etkilenmesi
tercih edilmez. Çizelge 9’de gerçekleştirilen deney elde edilen verimlerle birlikte verilmiştir.
Çizelge 9. İki faktörlü 3 seviyeli tam faktöriyel deneysel tasarım ve elde edilen verimler.
No pH, x1 Katalizör Konsantrasyonu, M, x2 Verimi, y
1 3 1 41
2 3 2 59
3 3 3 60
4 6 1 61
5 6 2 76
6 6 3 71
7 9 1 61
8 9 2 69
9 9 3 59
Çizelge 9’de gerçekleştirilen 9 deneyin verimleri incelendiğinde en yüksek verimin pH 6 ve 2
M katalizör konsantrasyonunda olduğu görülmektedir. Ancak sözkonusu reaksiyonda en
uygun şartların ne olacağı ve ve reaksiyon verimine etki ettiği düşünülen bu iki faktörün
istatistiksel olarak nasıl bir katkı yaptığını görebilmek için deneysel verim değerleri ile bu
faktörler arası ilişkiyi veren bir denklem kurarak inceleyebiliriz. Bu noktada, her iki faktör 3
farklı seviyede çalışıldığı için bu faktörlerin doğrusal etkilerinin yanında ikinci dereceden
etkileri ile birbirleri ile olan etkileşimlerininde incelenmesinde fayda vardır. Eşitlik 3’te iki
faktörlü bir sistemde ikincidereceden model denklemi verilmiştir.
y = b0 + b1x1 + b2x2 + b11x1^2 + b22x2^2 + b12x1x2 + e (3)
Eşitlik 3’ de b0, her bir faktör kodlanmış olarak orta seviyede (sıfır alındığında) tutulduğunda
denklemin alacağı sabit değeri gösterirken, b1 ve b2 katsayıları her bir faktörün doğrusal
katkısını gösterir. Öte yandan b11 ve b22 değerleri ikinci dereceden (doğrusal olmayan)
katkıları gösterirken, b12 degeride her iki faktörün etkileşimlerini temsil etmektedir. Son
olarak, e terimide modellenemyen artıkları göstermektedir. Çizelge 10, eşitlik 3’de verilen
model denklemine göre hazırlanmış deneysel tasarım matrisini oluşturmaktadır.
Çizelge 10. İki faktörlü üç seviyeli tam faktöriyel bir sistemde kullanılan deneysel tasarım
matrisi.
No b0 x1 x2 x1^2 x2^2 x1x2 y
1 1 -1 -1 1 1 1 41
2 1 -1 0 1 0 0 59
3 1 -1 1 1 1 -1 60
4 1 0 -1 0 1 0 61
5 1 0 0 0 0 0 76
6 1 0 1 0 1 0 71
7 1 1 -1 1 1 -1 61
8 1 1 0 1 0 0 69
9 1 1 1 1 1 1 59
Çizelge 10’da verilen tasarım matrisinin ilk sütunu deneylerin sırasını gösterirken son sütün
ise elde edilen deneysel verimleri göstermektedir. Arada kalan 6 adet sütün ise asıl tasarım
matrisini oluşturmaktadır. Böylece matris notasyonunda eşitlik 3 yeniden düzenlenirse, eşitlik
4’te verilen model denklemi elde edilir.
y = D x b + e (4)
Eşitlik 4’den de görüleceği gibi koyu renk küçük harf vektörü temsil ederken koyu renkli
büyük harf matrisi temsil etmektedir. Bu denklemde y ve D bilinmekte olup bilinmeyen
katsayılar vektörünün hesabı enküçük kareler metoduna göre matris notasyonunda eşitlik 5’te
verildiği gibi hesaplanır.
=(D’xD) – 1xD’xy
(5)
Eşitlik 5 kullanılarak elde edilen katsayıları eşitlik 4’de yerine konarak tahmin edilen
değerleri ve daha sonrada deneysel y değerleri ile hesaplanan değerieri arasındaki
farklardan artıklar (eşitlik 6) hesaplanabilir.
e = y - (6)
Bu noktaya kadar verilen bu reaksiyon verimine ilişkin örneğin regresyon, ANOVA ve t-testi
analizleri aşağıda verilen MS Excel sayfalarında adım adım verilmiştir. Öncelikle “Data”
sekmesinden “Data Analysis” seçeneği seçilerek “Regression” seçilmelidir (Resim 1).
Resim 1. Regresyon analizi için verilerin regresyon analizi basamağı.
Aşağıda verilen (Resim 2) resimde görüldüğü gibi ilgili alanlar seçildikten sonra regresyon
analizi gereçekleştirilir.
Resim 2. Regresyon analizinin gereçekleştirilmesi.
Regresyon analizinin sonuçları aşagıda (Çizelge 11, 12, 13, 14 ve 15) verilmiştir. Öncelikle
Çizelge 11’de seçilen ikinci dereceden model denklemi kullanılarak elde edilen modelin
deneysel sonuçları ne kadar iyi tahmin ettiğini gösteren R2 değerinini görmekteyiz. Burada
elde edilen R2
değeri 0.998 gibi oldukça iyi bir sonuç olduğundan seçilen model denkleminin
oldukça başarılı olduğunu görmekteyiz.
Çizelge 11. Regresyon analizinin özeti.
Özet çıktısı Regresyon İstatisitiği
Çoklu R 0.999034 R2 0.998068 ayarlanmış R2 0.994849 Standart hata 0.713624 Gözlem sayısı 9
Çizelge 12’de regresyon analizinin ANOVA sonuçlarını görmekteyiz. Burada elde edilen F-
değerinin 310 gibi büyük bir rakam olamsı faktör seviyelerinin değiştirilmesi ile elde edilen
deneysel verim sonuçlarının %95 güven sınırında istatistiksel olarak anlamlı olduğunu
söyleyebiliriz.
Çizelge 12. Regresyon analizinin ANOVA sonuçları
ANOVA df SS MS F P-değeri
Regresyon 5 789.3611 157.8722 310.0036 0.000287767 Artıklar 3 1.527778 0.509259
Toplam 8 790.8889
Çizelge 13, öngörülen ikinci dereceden model denklemi (eşitlik 3) katsayıları ve bu
katsayıların standart hataları, t-değerleri, P-değerleri ve %95 alt ve üst güven aralığı (GA)
verilmektedir.
Çizelge 13. Öngörülen ikinci dereceden model denklemi katsayıları ve bu katsayıların
standart istatistiksel analiz sonuçları.
Katsayılar Standart Hata t-değeri P-değeri %95 alt GA %95 üst GA b0 75.4444 0.5319 141.8385 0.0000 73.7517 77.1372 b1 4.8333 0.2913 16.5902 0.0005 3.9062 5.7605 b2 4.5000 0.2913 15.4461 0.0006 3.5728 5.4272 b11 -11.1667 0.5046 -22.1294 0.0002 -12.7726 -9.5608 b22 -9.1667 0.5046 -18.1659 0.0004 -10.7726 -7.5608
b12 -5.2500 0.3568 -14.7136 0.0007 -6.3855 -4.1145
Çizelge 13’den görüldüğü gibi her iki faktörün doğrusal (b1 ve b2) etkilerinin P-değerleri 0.05
(=0.05) ten küçük olduğu için sözkonusu terimler %95 günen sınırında istatistiksel olarak
anlamlı terimleridir ve model sdenkleminde buluması gerekir. Ayrıca sözkonusu iki faktörün
ikinci dereceden etkileri (b11 ve b22) ile bu faktörlerin birbirleri ile olan etkileşimi (b12) %95
güven sıınırında istatisitiksel olarak önemlidir. Böylelikle reaksiyon veriminin model
denklemi Eşitlik 7’te verildiği gibidir.
y = 75.44 + 4.83x1 + 4.50x2 – 11.17x1^2 – 9.17b22x2^2 – 5.25x1x2 + e (7)
Çizelge 14’de, eşitlik 7’de verilen model denklemi kullanılarak hesaplanan tahmini verim
değerleri ve artık değerleri standardize edilmiş artık değerleri ile birlikte verilmiştir. Çizelge
15’de normal olasılık çıktıları verilmiştir. Şekil 4’de deneysel verim değerlerinin normal
olasılık grafiği verilmiştir.
Çizelge 14. Tahmin edilen verimler ve artıklar
Artıklar
sıra tahmin y Artıklar Standart artıklar 1 40.5278 0.4722 1.0806
2 59.4444 -0.4444 -1.0170 3 60.0278 -0.0278 -0.0636 4 61.7778 -0.7778 -1.7798 5 75.4444 0.5556 1.2713 6 70.7778 0.2222 0.5085 7 60.6944 0.3056 0.6992 8 69.1111 -0.1111 -0.2543 9 59.1944 -0.1944 -0.4449
Çizelge 15. Normal olasılık çıktısı
Olasılık çıktısı Yüzde y
5.555555556 41 16.66666667 59 27.77777778 59 38.88888889 60
50 61 61.11111111 61 72.22222222 69
83.33333333 71 94.44444444 76
Şekil 4. Normal olasılık grafiği
Şekil 5’de deneysel verim değerleri ile model denklemi kullanılarak hesaplanan verim
değerlerinin korelasyon grafiği verilmiştir. Şekilden de görüleceği gibi oldukça başarılı
tahmin değerleri elde edilmiştir. Şekil 6, artıkların grafiğini göstermektedir.
Şekil 5. Deneysel verim değerlerine karşı hesaplanan verim değerleri.
Şekil 6. Deneysel verim değerlerine karşı elde edilen artıkların grafiği.
Artıkların dağılımı incelendiğinde normal bir dağılım gösterdikleri görünmektedir. Bu
noktada elde edilen model denklemi kullnılarak optimum şartların belirlenmesi uygun
olacaktır. Bu amaçla MS Excel de “solver” kullanılarak (Resim 3) en yüksek verimi elde
edebilmek için en uygun pH ve katalizör konsantrasyonunun belirlenebilir.
Resim 3.a. Optimumşartlar için “solver” uygulaması ilk pencere.
Resim 3.b. Optimumşartlar için “solver” uygulaması ikinci pencere
Resim 3.b’de görüldüğü gibi en yüksek verimin elde edildiği koşullar pH (x1) için kodlanmış
değer olarak 0.2304 ve katalizör konsantrasyonu (x2) için 0.3126 olarak bulunmuştur. Burada
optimum koşulların faktörlerin gerçek skalası için karşı gelen değerler Eşitlik 8 ile hesaplanır.
)()(
ortaüstveyaaltorta
ortaxkod
(8)
Eşitlik 8 kulanılarak pH ve katalizör konsantrasyonu (K.K.) için optimum değerler:
6912.6)36(
62304.0
pH
pH
3126.2..)23(
2..3126.0
KK
KK
Böylece pH 6.6912 ve katalizör konsantrasyonu 2.3126 M olduğunda reaksiyon veriminin
%76.86 olacağını görüyoruz. Bu noktada bulduğumuz optimum şarların dışında başka lokal
optimum bölgelerin olup olamdığını anlamak için faktörlere (x1 ve x2) karşılık reaksiyon
veriminin nasıl değiştiğini görebileceğimiz üç boyutlu yanıt yüzey grafiğinin (şekil 7)
oluşturulması faydalı olacaktır.
1
1.5
2
2.5
3
2
4
6
8
1040
50
60
70
80
Katalizör Konsantrasyonu (M)pH
Veri
m (
y)
45
50
55
60
65
70
75
Şekil 7. Katalizör konsantrasyonu ve pH’a karşılık reaksiyon veriminin değişimini gösteren
yanıt yüzey grafiği.
Şekil 6’dan görüldüğü gibi pH’ın 6 ve katalizör konsantrasyonunun yaklaşık 2 olduğu
bölgede bir plato oluşmakta ve verim en yüksek değerine ulaşmaktadır.
2.3 Plackett-Burman tasarımı
Çok sayıda faktörün etkisi incelenmek istendiğinde full faktöriyel ve fraksiyonel
faktöriyel tasarım yöntemlerin pratik olarak uygulanması zorlaşmaktadır. Sadece faktörlerin
kendi etkileri incelendiği, yani faktörler arasındaki etkileşimlerin önemli olmadığı durumlarda
Plackett-Burman tasarımı pratik olarak uygulanabilir. Bu tasarımda geçerli olan deney sayıs,
faktör sayısı ve üretici Çizelge 16’da gösterilmiştir.
Çizelge 16. Plackett-Burman tasarımı için üreticiler
Deney sayısı Faktörler Üretici
8 7 + + + - + - -
12 11 + + - + + + - - - + -
16 15 + + + + - + - + + - - + - - -
20 19 + + - + + + + - + - + - - - - + + -
24 23 + + + + + - + - + + - - + + - - + - + - - - -
11 faktör ve 12 deneyi içeren Plackett Burman tasarımı Çizelge 17’de
gösterilmektedir.
Çizelge 17. 11 faktör için Plackett Burman tasarımı
Bu tasarımın bazı özellikleri vardır.
Birinci satır aynı seviyeye sahiptir (-1 veya +1).
İkinci satır üretici satırdır. Tablo 3’teki üreticilerden birisi kullanılır. Faktör sayısı her
zaman tek sayı ve deney sayısı faktör sayısından bir fazladır.
Üçüncü satır ikinci satırın bir yana kaydırılması ile elde edilir (Çizelge 17).
Bütün faktörler için yüksek ve düşük seviye sayısı eşittir. Bu da kolonların birbiri ile
ortagonal (kolonlar birbirinden bağımsız) olduğunu gösterir.
Placktett-Burman tasarımda faktör sayısı deney sayısından bir düşüktür. 11 faktör için
12 deney yapmak gerekir. Ancak gerçekte 10 faktör var ise 11. faktör sonuç üzerinde
herhangi bir etkisi olmayan rastgele bir faktör seçilir. Bu faktöre dummy faktör denilir.
Tasarım tablosuna kesim noktası (b0) ilave edildiğinde kare matris elde edilir.
3. OPTİMİZASYON
3.1 Merkezi kompozit tasarım
İki seviyeli faktöriyel tasarımlar her bir faktörün etkilerini genel olarak inceleyen
yöntemlerdir. Önemli faktörler belirlendikten sonra detaylı inceleme yani optimum değerlerin
bulunması gerekebilir. Her bir faktörün optimum koşullarının bulunması merkezi kompozit
tasarım yöntemi ile yapılır. İki nedenle optimizasyona ihtiyaç vardır. Birincisi, deneysel
sonucu etkileyen faktörlerin optimum değerlerini bulmak. Örneğin, organik sentezde
maksimum verimi etkileyen faktörlerin veya kromatografik ayırmada ayırma gücünü
etkileyen faktörlerin optimizasyonu gibi. İkinci neden, her bir faktörün sonuca etkisini
gösteren matematiksel modelin oluşturulması. Örneğin, bir ürünün FTIR spektrumu ile
ürünün özelliği ve üretim prosesi arasındaki ilişki kurulmasına ihtiyaç duyulabilir.
Faktöriyel tasarımlar tekrarlanan deney sayısı ve parabolik etkileri incelemez.
Plackett-Burman ve fraksiyonel faktöriyel tasarımın bazı faktörlerinde, faktörler arasındaki
etkileşimleri incelemek mümkün değildir. Önemli faktörler belirlendikten sonra parabolik
etkiler ve faktörler arasındaki etkileşimler hesaplanır.
Merkezi kompozit tasarımda deney sayısı aşağıdaki formüle göre belirlenir.
Tasarım sayısı 122 kk (k: faktör sayısı)
Formüldeki 2k full faktoriyel veya fraksiyonlu faktoriyel tasarımdaki deney sayılarını,
2k star tasarım deney sayısını ve 1 ise orta seviyedeki deney sayısını gösterir. 2k’daki
seviyeler (-1) ve (+1), 2k’dakiler , 1’deki ise (0) dır. değeri dairesel ve ortagonal
tasarıma göre farklı seviyeler alır.
Dairesel tasarımda aşağıdaki formüle göre hesaplanır.
4 2k
Ortagonal tasarımda ise aşağıdaki formüle göre hesaplanır.
k
Örnek: 3 faktör (k=3) için dairesel tasarımda α= ±1.682, ortagonal tasarımda α=
±1.732 bulunur.
Örnek 2: Petrol rafinasyonunda kükürt (S) uzaklaştırılması işleminde etkin olduğu
belirlenen sıcaklık (T, oC), akış kızı (V, g/sn) ve basınç (P, bar) faktörlerinin optimizasyonu
hedeflenmektedir. Çizelge 18’de faktörlerin 5 ayrı seviyede aldığı değerler kodlanmış ve ham
hallerinde verilmiştir. Bu çalışmanın amacı rafine edilecek olan üründe en düşük kükürt
miktarını elde etmek için optimum sıcaklık, akış hızı ve basıncın belirlenmesidir.
Denemelerden elde edilen sonuçlar ppm S cinsinden hesaplanmıştır.
Çizelge 18. Üç faktörlü merkezi kompozit tasarımda faktörlerin aldığı değerler.
Faktörler - -1 Orta +1 +
Kodlanmış -1.682 -1 0 +1 +1.682
x1, T (oC) 334.18 341 351 361 367.82
x2, V (g/sn) 99.54 120 150 180 200.46
x3, P (bar) 46.64 48 50 52 53.36
Çizelge 18’de verilen ±1.682 kodlanmış seviyesindeki faktörlerin gerçek değerleri aşağıda
verildiği gibi hesaplanabilir. Örneğin, x2 faktörü için:
)150180()120150(
1502
veya
x
46.20030
150682.1
54.9930
150682.1
12
12
xx
xx
Bu değerlere göre tasarım tablosu kodlanmış ve kodlanmamış halde aşağıdaki şekilde
(Çizelge 19) düzenlenir.
Çizelge 19. Merkezi Kompozit Tasarım Tablosu
deney T (oC) V (g/sn) P (bar) x1 x2 x3 y, (ppm S)
1 341 120 48 -1 -1 -1 68
2 341 120 52 -1 -1 1 81
3 341 180 48 -1 1 -1 170
4 341 180 52 -1 1 1 200
5 361 120 48 1 -1 -1 38
6 361 120 52 1 -1 1 55
7 361 180 48 1 1 -1 67
8 361 180 52 1 1 1 62
9 334.18 150 50 -1.6818 0 0 180
10 367.82 150 50 1.6818 0 0 39
11 351 99.54 50 0 -1.6818 0 17
12 351 200.46 50 0 1.6818 0 130
13 351 150 46.64 0 0 -1.6818 44
14 351 150 53.36 0 0 1.6818 55
15 351 150 50 0 0 0 42
16 351 150 50 0 0 0 41
17 351 150 50 0 0 0 43
18 351 150 50 0 0 0 45
19 351 150 50 0 0 0 44
20 351 150 50 0 0 0 43
Çizelge 19’daki tasarımda;
İk 8 deney (23=8) iki seviyeli full faktöriyel tasaqrıma eşdeğer deney sayısını,
Takip eden 7 deney (2*3+1= 7) yıdız noktalarını ve bir adet orta noktadaki deneyleri,
Son 5 deney orta seviyenin tekrar edilen deney sayısı olmak üzere toplam 20 deney
yapılmaktadır.
Bu üç faktörlü tasarımda ikini dereceden matematiksel model aşağıdaki (Eşitlik 9) gibi
gösterilebilir.
y = b0 + b1x1 + b2x2 + b3x3 + b11x12 + b22x2
2 + b33x3
2 + b12x1x2 + b13x1x3 + b23x2x3 +b123x1x2x3
(9)
Bu modelde;
1 kesim noktası (b0),
3 (=k) lineer etkileşimler (b1, b2, b3),
3 (=k) parabolik terimler (b112, b22
2, b33
2),
3 ikili etkileşimler (b12, b13, b23)
terimleri bulunmaktadır.
Çizelge 20’de yukarıda verilen eşitlikteki model denklemine karşı gelen deneysel tasarım
çizelgesi vailmiştir.
Çizelge 20. İkinci dereceden 3 faktörlü merkezi kompozit tasarım tablosu.
deney x1 x2 x3 x1^2 x2^2 x3^2 x1x2 x1x3 x2x3 x1x2x3 y, (ppm S)
1 -1 -1 -1 1 1 1 1 1 1 -1 68
2 -1 -1 1 1 1 1 1 -1 -1 1 81
3 -1 1 -1 1 1 1 -1 1 -1 1 170
4 -1 1 1 1 1 1 -1 -1 1 -1 200
5 1 -1 -1 1 1 1 -1 -1 1 1 38
6 1 -1 1 1 1 1 -1 1 -1 -1 55
7 1 1 -1 1 1 1 1 -1 -1 -1 67
8 1 1 1 1 1 1 1 1 1 1 62
9 -1.682 0 0 2.828 0 0 0 0 0 0 180
10 1.682 0 0 2.828 0 0 0 0 0 0 39
11 0 -1.682 0 0 2.828 0 0 0 0 0 17
12 0 1.682 0 0 2.828 0 0 0 0 0 130
13 0 0 -1.682 0 0 2.828 0 0 0 0 44
14 0 0 1.682 0 0 2.828 0 0 0 0 55
15 0 0 0 0 0 0 0 0 0 0 42
16 0 0 0 0 0 0 0 0 0 0 41
17 0 0 0 0 0 0 0 0 0 0 43
18 0 0 0 0 0 0 0 0 0 0 45
19 0 0 0 0 0 0 0 0 0 0 44
20 0 0 0 0 0 0 0 0 0 0 43
Çizelge 20 yakından incelendiğinde en düşük kükürt değerine sahip deney 11’inci sırada
verilen ve 17 ppm S değerini gösteren denemedir. Bu denemde akış sıcaklık için sıfır
kodlanmış değer, akış hızı için -1.682 ve basınç için sıfır kodlanmış değerler sözkonusudur.
Böylece, bu denemede akış hızının en düşük olduğu, sıcaklık ve basıncın orta seviyede
tutulması ile en düşük kükürt oranına erişildiği görülmektedir. Ancak, sözkonusu 20
denemenin istatistiksel analizleri yapıldığında farklı optimum değerlerde ortaya çıkabilir.
Resim 4, bu örneğin MINITAB ortamındaki veri analizinin adım adım nasıl yapıldığını
göstermektedir.
Resim 4. Örnek 2’nin MINITAB ortamına çözümü.
Resim 4’de gösterildiği gibi, MINITAB çalışma sayfasının ilk sütunu deneylerin sırasını
göstermektedir. Daha sonra 2, 3, 4’üncü sütunlar sırasıyla sıcaklık (x1), akış hızı (x2) ve
basınç (x3) faktörlerinin gerçek skalalarında aldığı değerleri göstermektedir. Takipm eden 3
sütun ise bu faktörlerin kodlanmış hallerini göstermektedir. Sekizinci sütun ise denelerden
elde edilen sonuçların verildiği sütunu göstermektedir. Çizelge 21’de MINITAB analizinden
gelen sonuçlar yer almaktadır. Ayrıca, Resim 5, MINITAB kullanılarak elde edilen modelin
grafik sonuçlarını göstermektedir. Elde edilen bu model kullanılarak oluşturulan optimum
şartlar Resim 6’da verilmiştir. Son olrak, üç boytutlu yanıt yüzey grafikleri Resim 7’de
verilmiştir. Resim 8, kontugrafiklerini göstermektedir.
Çizelge 21. MINITAB programı kullanılarak Örnek 2’nin çözümü. Response Surface Regression: y, (ppm S) versus T (oC), V (g/sn), P (bar) The analysis was done using coded units.
Estimated Regression Coefficients for y, (ppm S)
Term Coef SE Coef T P
Constant 42.575 3.801 11.201 0.000
T (oC) -65.782 4.242 -15.509 0.000
V (g/sn) 55.056 4.242 12.980 0.000
P (bar) 9.047 4.239 2.134 0.059
T (oC)*T (oC) 74.277 6.944 10.697 0.000
V (g/sn)*V (g/sn) 38.277 6.944 5.513 0.000
P (bar)*P (bar) 14.295 6.941 2.060 0.066
T (oC)*V (g/sn) -65.423 9.322 -7.018 0.000
T (oC)*P (bar) -10.950 9.311 -1.176 0.267
V (g/sn)*P (bar) -1.766 9.311 -0.190 0.853
S = 9.31948 PRESS = 6808.55
R-Sq = 98.36% R-Sq(pred) = 87.13% R-Sq(adj) = 96.88%
Analysis of Variance for y, (ppm S)
Source DF Seq SS Adj SS Adj MS F P
Regression 9 52028.7 52028.7 5781.0 66.56 0.000
Linear 3 35919.8 35919.8 11973.3 137.86 0.000
Square 3 11707.5 11707.5 3902.5 44.93 0.000
Interaction 3 4401.4 4401.4 1467.1 16.89 0.000
Residual Error 10 868.5 868.5 86.9
Lack-of-Fit 5 858.5 858.5 171.7 85.85 0.000
Pure Error 5 10.0 10.0 2.0
Total 19 52897.2
Obs StdOrder y, (ppm S) Fit SE Fit Residual St Resid
1 1 68.000 60.791 7.627 7.209 1.35
2 2 81.000 80.562 7.627 0.438 0.08
3 3 170.000 173.756 7.627 -3.756 -0.70
4 4 200.000 191.026 7.627 8.974 1.68
5 5 38.000 36.573 7.627 1.427 0.27
6 6 55.000 40.843 7.627 14.157 2.64 R
7 7 67.000 57.038 7.627 9.962 1.86
8 8 62.000 58.808 7.627 3.192 0.60
9 9 180.000 182.634 7.264 -2.634 -0.45
10 10 39.000 51.071 7.264 -12.071 -2.07 R
11 11 17.000 25.797 7.264 -8.797 -1.51
12 12 130.000 135.909 7.264 -5.909 -1.01
13 13 44.000 47.823 7.259 -3.823 -0.65
14 14 55.000 65.917 7.259 -10.917 -1.87
15 15 42.000 42.575 3.801 -0.575 -0.07
16 16 41.000 42.575 3.801 -1.575 -0.19
17 17 43.000 42.575 3.801 0.425 0.05
18 18 45.000 42.575 3.801 2.425 0.28
19 19 44.000 42.575 3.801 1.425 0.17
20 20 43.000 42.575 3.801 0.425 0.05
R denotes an observation with a large standardized residual.
Estimated Regression Coefficients for y, (ppm S) using data in uncoded units
Term Coef
Constant 29429.8
T (oC) -166.968
V (g/sn) 24.1582
P (bar) -54.3591
T (oC)*T (oC) 0.262546
V (g/sn)*V (g/sn) 0.0150331
P (bar)*P (bar) 1.26620
T (oC)*V (g/sn) -0.0770833
T (oC)*P (bar) -0.193750
V (g/sn)*P (bar) -0.0104167
20100-10-20
99
90
50
10
1
Residual
Pe
rce
nt
20015010050
10
0
-10
Fitted Value
Re
sid
ua
l
151050-5-10
8
6
4
2
0
Residual
Fre
qu
en
cy
2018161412108642
10
0
-10
Observation Order
Re
sid
ua
l
Normal Probability Plot Versus Fits
Histogram Versus Order
Resim 5. MINITAB kullanılarak elde edilen modelin grafik sonuçlarını.
CurHigh
Low0.00000D
New
d = 0.00000
Targ: 17.0
y, (ppm
y = 20.3864
0.00000
Desirability
Composite
46.640
53.360
99.540
200.460
334.180
367.820V (g/sn) P (bar)T (oC)
[351.7966] [116.9115] [48.9596]
Resim 6. Elde edilen bu model kullanılarak oluşturulan optimum şartlar.
200
0
100
150
200
300
340 350 100360
y, (ppm S)
V (g/sn)
T (oC)
520 50
50
100
150
48340 350 360
y, (ppm S)
P (bar)
T (oC)
5250
50
100
100
150
48150
200
y, (ppm S)
P (bar)
V (g/sn)
T (oC) 352
V (g/sn) 117
P (bar) 50
Hold Values
Surface Plots of y, (ppm S)
Resim 7. Üç boytutlu yanıt yüzey grafikleri.
V (g/sn)*T (oC)
360350340
200
175
150
125
100
P (bar)*T (oC)
360350340
52.5
51.0
49.5
48.0
P (bar)*V (g/sn)
200175150125100
52.5
51.0
49.5
48.0
T (oC) 352
V (g/sn) 117
P (bar) 50
Hold Values
>
–
–
–
–
–
< 50
50 100
100 150
150 200
200 250
250 300
300
y, (ppm S)
Contour Plots of y, (ppm S)
Resim 8. kontur grafikleri.
BÖLÜM II
YÖNLENDİRMESİZ SINIFLANDIRMA VE KÜMELEME TEKNİKLERİ
KONULAR
1. Temel Bileşen Analizi (Principal Component Analysis)
1.1. Eigen Değerler
1.2. Verilerin Analize Hazırlanması
a. Merkezileştirme
b. Standartlaştırma
c. Normalizasyon
2. Yönlendirmesiz Kümeleme Teknikleri (Unsupervised Pattern Recognition: Cluster
Analysis)
2.1. Öklit Uzaklığı (Euclidien distance)
2.2. Manhattan uzaklığı (Manhattan distance)
2.3. Mahalanobis uzaklığı (Mahalanobis distance)
1. TEMEL BİLEŞEN ANALİZİ (PRINCIPAL COMPONENT ANALYSIS, PCA)
Çok değişkenli veri analizinde temel bileşen analizi en çok kullanılan tekniklerden
biridir. Temel bileşen analizi örnekler ve değişkenler arasındaki ilişkiyi incelemek için
kullanılan bir keomoetrik yöntemdir. Temel bileşen analizinde X ile gösterilen bir veri
matrisi, T ile gösterilen bir skore matrisi, P ile gösterilen bir loadings matrisi ve E ile
gösterilen bir hata matrisi bulunur. Bu değerlerle ilgili eşitlik (Eşitlik 1) aşağıdaki gibi
verilebilir.
X = TP’ +E (1)
Temel bileşen analizinin uygulanmasında çeşitli algoritmalar kullanılmaktadır. En çok
kullanılan algoritmalar NIPALS (Sürekli olmayan en küçük kareler) ve SVD ( Tek değer
ayrışma)’dır. NIPALS algoritması istenilen sayıda temel bileşen hesaplamak için kullanılır.
SVD algoritması ise temel bileşenlerin tamamını hesaplamaktadır.
PCA için genel eşitlik temel bileşenlerin toplamı olarak eşitlik 2’de aşağıdaki gibi de
yazılabilir.
X = Ept k
K
k
k
'
1
(2)
Eşitlikte k bileşen sayısını belirtmektedir. Veri matrisinin ayrıntılı yapısı şöyledir
Burada görüldüğü gibi ilk olarak t1 skor ve p’1 loadigs’i ile t1 p
’1 çarpımı elde edilir.
Eğer t1 p’1 çarpımını X matrisinden çıkarılırsa E1 hatası hesaplanmış olur. Bu hata bir sonraki
hatayı hesaplamada kullanılır. Bununla ilgili bağıntılar aşağıdadır (Eşitlik 3 ve 4)
E1 = X – t1 p’1
(3)
E2 = E1 – t2 p’2 (4)
k sayıda bileşen için hata hesabına yönelik aşağıdaki eşitlik (Eşitlik 5) kullanılmaktadır.
Ek = Ek-1 - tk p’k (5)
Yukarıdaki eşitlikte p’k simgesiyle gösterilen loadings vektörü şu şekilde hesaplanır (Eşitlik
6).
p’k = t’X / t’ t (6)
Aynı şekilde benzer bir formül ile sckor vektörü tk şöyle hesaplanır (Eşitlik 7).
tk = X pk / p’k pk (7)
Yukarıdaki eşitliklerde verilen loadings (yükleme) ve skor vektörleri her bir bileşen için
hesaplanır ve böylece temel bileşenler elde edilir.
Temel bileşen analizi hem analitik kimya ile ilgili çalışmalarda hem dediğer
uygulamalarda sıkça kullanılan kemometrik yöntemlerden biridir.
Temel bileşenlerin hesaplanmasında kullanılan loadings ve skor değerleri
normalizasyon ve ortagonallik gibi bazı önemli özelliklere sahiptir. Normalizasyon her temel
bileşendeki loadings değerlerinin karelerinin toplamının 1’e eşit olmasıdır (Eşitlik 8).
12
1
kj
J
j
p
(8)
Eşitlikte pkj k’ıncı temel bileşenin j’inci loading’ini ifade etmektedir. Ortagonallik ise
skor veya loadinglerin kolonlarının çarpımlarının sıfıra eşit olmasıdır (Eşitlik 9).
01
il
I
i
ik tt (9)
1.1 Eigen Değerler
Temel bileşen analizinde eigen değerler verideki bileşen sayısının bulunmasında
kullanılır. En yüksek eigen değeri en önemli temel bileşen anlamına gelmektedir. Kemometri
literatüründe eigen değerlerine yönelik bir çok tanım bulunmaktadır. Genel istatistiksel tanımı
bir temel bileşenin değişimidir. Eigen değer genellikle temel bileşen skorlarının karelerinin
toplamının örnek sayısının bir eksiğine bölünmesiyle elde edilir. İfade matemetiksel olarak
şöyle verilmiştir (Eşitlik 10).
gk =1
1
2
I
tI
i
ik
(10)
Bazı araştırmacılar ise eigen değerleri basit bir şekilde temel bileşen skorlarının karelerinin
toplamını örnek sayısına bölerek hesaplamışlardır (Eşitlik 11).
gk = I
tI
i
ik1
2
(11)
1.2. Verilerin Analize Hazırlanması
Kemometrik analizlerde ham veri büyük öneme sahiptir. Yapılan bir deneysel çalışma
sonrasında elde edilen verilerin kemometrik hesaplamalarına geçmeden önce verilerin
özellikleri dikkatle incelenmelidir. Elde edilen veriler arasında birbirinden çok farklı değerler
bulunuyorsa ya da değerler arası büyük dengesizlik varsa, verilerin benzer birimlere
çevrilmeleri veya ortalama değer etrafında toplanması gerekebilir. Bunun gibi durumlarda
verilere merkezileştirme, standartlaştırma ve normalizasyon gibi verilerin analize
hazırlanmasına yönelik işlemler uygulanır.
a) Merkezileştirme
Kemometrik analizde veri matrisinin X simgesiyle ifade edildiği ve bu matrisin
satırlarının i sütunlarının ise j simgeleriyle gösterildiği daha önce belirtilmişti. Buna göre Xij
şeklindeki bir veri matrisinin merkezileştirme işlemi Eşitlik 12 ile şu şekilde yapılmaktadır.
mxij = xij – xj (12)
Eşitlik 12’de mxij merkezileştirme işlemi yapılmış matrisi ifade etmektedir. xij i’inci
satır j’inci sütundaki matris elemanını, xj ise her bir kolonun ortalamasını belirtmektedir.
Eşitlikten de görülebileceği gibi, matristeki her bir kolonun ortalamasının kolon
elemanlarından çıkarılmasıyla matris verisinin merkezileştirme işlemi yapılmış olmaktadır.
Böylece matristeki her bir değer ortalama çevresinde toplanmış olmaktadır.
b) Standartlaştırma
Standartlaştırma işleminde öncelikle her bir kolonun ortalama ve standart sapması
hesaplanır. Daha sonra kolondaki her bir elemandan kolon ortalaması çıkarılır ve kolon
standart sapmasına bölünür. Böylece matris verisi standartlaştırılmış olur (Eşitlik 13).
1
)(1
2
N
xx
xxx
I
i
jij
jij
ij
S
(13)
Eşitlik 13’te ij
S x simgesi standartlaştırma işlemi yapılmış matrisi ifade eder.
c) Normalizasyon
Normalizasyon işlemi verilerin sabit bir değere getirilmesi işlemidir. Matris üzerinde
normalizasyon işlemi yapılırken önce satır elemanları toplanır ve toplam değerler her satır
için ayrı ayrı hesaplanır. Sonra her bir satır toplamı her satırın kendi elemanlarına bölünür ve
normalizasyon işlemi tamamlanmış olur (Eşitlik 14).
I
i
i
ij
ij
N
x
xx
1 (14)
Eşitlik 14’te ij
N x simgesi normalize edilmiş matrisi ifade etmektedir.
Örnek 1. Aşağıda tabloda üç farklı coğrafi bölgede yetişen aynı tür üzümden yapılmış 21 adet
şarap örneğine ait 13 farklı değişkenin incelendiği veriler verilmiştir. Bu çalışmadaki amaç,
bu verileri kullanarak sözkonusu 21 adet örneği PCA analizi kullanarak doğru şekilde ait
olduğu gruplara sınıflandırmaktır.
No X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X11 X12 X13
1 14.83 1.64 2.17 14 97 2.8 2.98 0.29 1.98 5.2 1.08 2.85 1045
2 13.86 1.35 2.27 16 98 2.98 3.15 0.22 1.85 7.22 1.01 3.55 1045
3 14.1 2.16 2.3 18 105 2.95 3.32 0.22 2.38 5.75 1.25 3.17 1510
4 14.12 1.48 2.32 16.8 95 2.2 2.43 0.26 1.57 5 1.17 2.82 1280
5 13.75 1.73 2.41 16 89 2.6 2.76 0.29 1.81 5.6 1.15 2.9 1320
6 14.75 1.73 2.39 11.4 91 3.1 3.69 0.43 2.81 5.4 1.25 2.73 1150
7 14.38 1.87 2.38 12 102 3.3 3.64 0.29 2.96 7.5 1.2 3 1547
8 11.66 1.88 1.92 16 97 1.61 1.57 0.34 1.15 3.8 1.23 2.14 428
9 13.03 0.9 1.71 16 86 1.95 2.03 0.24 1.46 4.6 1.19 2.48 392
10 11.84 2.89 2.23 18 112 1.72 1.32 0.43 0.95 2.65 0.96 2.52 500
11 12.33 0.99 1.95 14.8 136 1.9 1.85 0.35 2.76 3.4 1.06 2.31 750
12 12.7 3.87 2.4 23 101 2.83 2.55 0.43 1.95 2.57 1.19 3.13 463
13 12 0.92 2 19 86 2.42 2.26 0.3 1.43 2.5 1.38 3.12 278
14 12.72 1.81 2.2 18.8 86 2.2 2.53 0.26 1.77 3.9 1.16 3.14 714
15 12.25 3.88 2.2 18.5 112 1.38 0.78 0.29 1.14 8.21 0.65 2 855
16 13.16 3.57 2.15 21 102 1.5 0.55 0.43 1.3 4 0.6 1.68 830
17 13.88 5.04 2.23 20 80 0.98 0.34 0.4 0.68 4.9 0.58 1.33 415
18 12.87 4.61 2.48 21.5 86 1.7 0.65 0.47 0.86 7.65 0.54 1.86 625
19 13.32 3.24 2.38 21.5 92 1.93 0.76 0.45 1.25 8.42 0.55 1.62 650
20 13.08 3.9 2.36 21.5 113 1.41 1.39 0.34 1.14 9.4 0.57 1.33 550
21 13.5 3.12 2.62 24 123 1.4 1.57 0.22 1.25 8.6 0.59 1.3 500
Yukarıda verilen tabloda örnekler satırlarda değişkenler sütunlarda verilmiştir. Bu veri
MINITAB ortamına aktarılarak aşağıda verilen Resimdeki gibi PCA analizi
gerçekleştirilebilir.
Öncelikle ilk iki temel bileşen verideki toplam değişkenliğin %67.77 sini açıkladını aşağıda
verilen çizelgedeb görmekteyiz.
E.V % VarianceC. % Var
6.134532 47.44872 47.44872
2.627051 20.31943 67.76815
Bu noktadan haraketle PCA anlizinden gen ilk iki temel bileşen skor vektörünü birbirine karşı
grafiğe geçirdiğimizde aşağıda verilen PCA skor grafiğini elde etmiş oluruz.
43210-1-2-3-4
3
2
1
0
-1
-2
PC1
PC2
21
2019
18
17
16
15
14
13
12
1110
98
7
6
5
4
3
21
Yukarıda verilen PCA skor grafiğini yakından incelediğimizde ilk 7 örneğin karaktesitik
olarak grafiğin sağ alt tarafından yer aldıklarının ve digger örneklerden net bir şekilde
ayrıldıklarını görmekteyiz. Aynı şekilde sol alt köşede kümelenen 7 örnek diğer bir grubu
gösterirken üste görünen 7 örnekte 8-14 numaralı örnekleri göstermektedir. PCA analizinde,
ayrıca bu örneklerin gruplandırılmasında kullanılan 13 değişkenin yükleme grafiği
oluşturulur. Aşağıdaki şekil PCA analizinden gelen ilk iki yükleme vektörünün birbirine karşı
grafiğini göstermektedir.
0.40.30.20.10.0-0.1-0.2-0.3-0.4
0.3
0.2
0.1
0.0
-0.1
-0.2
-0.3
-0.4
-0.5
-0.6
PC1
PC
2
X13
X12
X11
X10
X9
X8
X7X6
X5X4
X3
X2
X1
Yukarıda verilen yükleme grafiğini incelediğimizde özellikle x1 ve x13 değişkenleri ilk 7
örneğin sınıflandırmasında büyük rol alırken x3 ve x10 değişkelnleri son 7 örneği daha iyi
karakterize etmekte ve son olarak x8 ve x11 değişkenleri 8-14 arasındaki örnekleri daha iyi
sınıflandırmış görünmektedir.
2. YÖNLENDİRMESİZ KÜMELEME ANALİZİ (UNSUPERVISED PATTERN
RECOGNITION: CLUSTER ANALYSIS)
Kümeleme analizi örnekler ya da değişkenler arasındaki benzerliklerin gösterilmesi ve
yorumlanmasına yönelik kimyada sıkça kullanılan kemometrik yöntemlerden birisidir.
Kümeleme analizi ile benzer örnekler aynı grup altında toplanabilmektedir. Kümeleme analizi
yönlendirmesiz (unsupervised pattern recognition) ve yönlendirmeli (supervised pattern
recognition) olmak üzere iki şekilde yapılabilmektedir. Bu bölümde yönlendirmesiz
kümeleme tekniğinden bahsedilecektir.
Yönlendirmesiz kümeleme tekniğinde birinci adım örnekler arasındaki benzerliği
belirlemektir. Tablo 1’de 6 ayrı kan örneğinde kalsiyum ve fosfat analizi sonuçları verilmiştir.
Çizelge 1. Kan örneklerinde kalsiyum ve fosfat değerleri
Örnek Kalsiyum (mg/100mL) Fosfat (mg/100mL)
1 8.0 5.5
2 8.25 5.75
3 8.7 6.3
4 10.0 3.0
5 10.25 4.0
6 9.75 3.5
Kalsiyum ve fosfat içeriğine göre 6 kan örneği arasında benzerlik ilişkisi kurulabilir.
Örnekler arasındaki benzerlik ilişkisini veren ve en çok kullanılan 3 yöntem aşağıda
açıklanmıştır.
2.1. Öklit Uzaklığı (Euclidean distance)
İki örnek (k ve l) arasındaki ilişki aşağıdaki formülle verilir (Eşitlik 15).
2
1
)(
J
jljkjkl xxd
(15)
Burada j, ölçülen değerleri göstermektedir. xij de i örneğinde j ölçümünü, yani x32 3.
örnekteki 2. ölçümü, Tablo 1’deki 6.3 fosfat değerini gösterir. İki örnek arasındaki öklit
uzaklığı küçük ise bu örnekler birbirine benzerdir. Öklit uzaklığı matris formatında aşağıdaki
gibi yazılabilir (Eşitlik 16).
)').(( lklk xxxx kld (16)
Burada Çizelge 1’de gösterilen her bir kolon bir vektördür. Bu formül Excel veya
Matlab’ta kolaylıkla hesaplanabilir.
2.2. Manhattan uzaklığı (Manhattan distance)
Öklit uzaklığından biraz farklıdır. Örnekler arasındaki ilişki benzer şekilde
değerlendirilir. Manhattan uzaklığında matris tablosundaki değerler öklit uzaklığından daha
büyüktür. Manhattan uzaklığı aşağıdaki formülle hesaplanır (Eşitlik 17).
||1
ljkj
J
jkl xxd
(17)
Öklit uzaklığı ile Manhattan uzaklığı arasındaki fark Şekil 1’de gösterilmiştir.
Şekil 1. Öklit ve Manhattan uzaklığı ilişkisi
2.3. Mahalanobis uzaklığı (Mahalanobis distance)
En sık kullanılan kemometrik yöntemleden birisidir ve öklit uzaklığına benzerdir.
Birbiri ile korelasyona sahip değişkenleri dikkate alan bir yöntemdir. k ve l örnekleri
arasındaki ilişkiyi veren uzaklık aşağıdaki matris terimi ile hesaplanabilir (Eşitlik 18).
dkl = (xk - xl). C-1
. (xk - xl)' (18)
Burada C değişkenlerin varyans-kovaryans matrisi gösterir. Değişken sayısı örnek
sayısından fazla olduğunda bu metot kolaylıkla uygulanamaz. Çünkü bu durumda varyans-
kovaryans matrisinin tersi yoktur.
Kümeler arası uzaklıklar farklı yöntemlerle hesaplanabilir (Eşitlikler 19, 20, 21, 22,
23, 24 ve 25).
a. Ortalama link (Average Likage) (Eşitlik 19)
2
BiAi
ki
ddd
(19)
Öklit uzaklığı Manhattan uzaklığı
b. Tekli link (Single Linkage)
Bu eşitlikte kümeler arası en kısa mesafe aşağıdaki gibi hesaplanır (Eşitlik 20).
),min(22
BiAi
BiAiBiAi
ki dddddd
d
(20)
c. Toplam link (Complete Linkage)
Bu metotta küme noktaları arasındaki en geniş mesafe dikkate alınarak öklit uzaklığı
hesaplanmaktadır (Eşitlik 21).
),max(22
BiAi
BiAiBiAi
ki dddddd
d
(21)
d. Ağırlıklı ortalama link (Weighted Average Linkage)
Bu metotta kümeler arası uzaklığın hesaplanmasında bileşen sayısı dikkate alınır
(Eşitlik 22).
BABi
B
Ai
A
ki NNNdN
Nd
N
Nd (22)
e. Merkezi (Centroid)
Bu metotta iki kümenin merkezleri arasındaki mesafe dikkate alınarak öbek uzaklığı
hesaplanmaktadır (Eşitlik 23).
AB
BA
Bi
B
Ai
A
ki dN
NNd
N
Nd
N
Nd
2 (23)
f. Medyan (Median) (Eşitlik 24)
422
ABBiAi
ki
dddd (24)
g. Ward metodu (Ward’s Method) (Eşitlik 25)
AB
i
i
Bi
i
iB
Ai
i
iA
ki dNN
Nd
NN
NNd
NN
NNd
(25)
Yukarıda verilen eşitliklerde (k) ve (i) simgeleri (k) numaralı kolonun (i) numaralı elemanını
ifade eder. A ve B simgeleri ise örnekleri gösterir.
Çizelge 1’deki veriler dikkate alınarak örnek öklit uzaklığı aşağıdaki şekilde hesaplanabilir.
Kalsiyum için 1. ve 2. örnekler arasındaki öklit uzaklığı,
d12 = [(8-8.25)2 + (5.5-5.75)
2]1/2
= 0.354 dir.
Matristeki her örnek için öklit uzaklığı aynı şekilde hesaplandığında aşağıdaki Çizelge 2 elde
edilir.
Çizelge 2. Öklit uzaklığı tablosu
Örnek 1 2 3 4 5 6
1 0
2 0.354 0
3 1.063 0.711 0
4 3.201 3.260 3.347 0
5 2.704 2.658 2.774 1.031 0
6 2.658 2.704 2.990 0.559 0.707 0
Uzaklık matrisinin indirgenmesi örneklerin toplanmasıyla yapılmaktadır. Burada kural
en kısa uzaklığa sahip örneklerin ilk olarak toplanmasıdır. Aşağıda toplama işlemi sırasıyla
gösterilmiştir.
1. İndirgenmiş matris
Tablo 2’de görüldüğü gibi matristeki en kısa uzaklık 1. ve 2. örnekler arasındadır.
Yani d12 = 0.354 olmaktadır. 1. ve 2. örnek 1* ile gösterilen yeni bir bileşen olarak birleştirilir
ve aralarındaki uzaklık sıfıra eşitlenir. Böylece örnekler arasındaki yeni uzaklık değerleri
aşağıdaki gibi hesaplanır.
887.02
711.0063.1
2
2313
3*1
dd
d
231.32
260.3202.3
2
2414
4*1
dd
d
681.22
658.2704.2
2
2515
5*1
dd
d
681.22
704.2658.2
2
2616
6*1
dd
d
1. İndirgenmiş matris aşağıdaki çizelgede (Çizelge 3)gösterilmiştir.
Çizelge 3. İndirgenmiş matris
Örnek 1*
3 4 5 6
1* 0
3 0.887 0
4 3.231 3.347 0
5 2.681 2.774 1.031 0
6 2.681 2.990 0.559 0.707 0
2. İndirgenmiş matris
Tablo 3’te görüldüğü gibi matristeki en kısa uzaklık 4. ve 6. örnekler arasındadır. Yani
d46 = 0.559 olmaktadır. 4. ve 6. örnek 4* ile gösterilen yeni bir bileşen olarak birleştirilir ve
aralarındaki uzaklık sıfıra eşitlenir. Böylece örnekler arasındaki yeni uzaklık değerleri
aşağıdaki gibi hesaplanır.
869.02
707.0031.1
2
5654
4*5
dd
d
269.32
990.2547.3
2
6343
3*4
dd
d
956.22
681.2231.3
2
*61*41
*1*4
dd
d
2. İndirgenmiş matris Çizelge 4’te gösterilmiştir.
Çizelge 4. İndirgenmiş matris
Örnek 1*
3 4* 5
1* 0
3 0.887 0
4* 2.956 3.269 0
5 2.681 2.774 0.869 0
3. İndirgenmiş matris
Tablo 4’te görüldüğü gibi matristeki en kısa uzaklık 5. ve 4*. örnekler arasındadır.
Yani d54* = 0.869 olmaktadır. 5. ve 4*. örnek 5
* ile gösterilen yeni bir bileşen olarak
birleştirilir ve aralarındaki uzaklık sıfıra eşitlenir. Böylece örnekler arasındaki yeni uzaklık
değerleri aşağıdaki gibi hesaplanır.
819.22
956.2681.2
2
*1*451
*5*1
dd
d
813.12
774.2887.0
2
533*4
*35
dd
d
3. İndirgenmiş matris Çizelge 5’te gösterilmiştir.
Çizelge 5. İndirgenmiş matris
Örnek 1*
3 5*
1* 0
3 0.887 0
5* 2.819 1.831 0
4. İndirgenmiş matris
Çizelge 5’ten görüldüğü gibi matristeki en kısa uzaklık 1*. ve 3. örnekler arasındadır.
Yani d1*3 = 0.887 olmaktadır. Bu veriler örnek 3* ile gösterilen yeni bir bileşen olarak
birleştirildiğinde örnekler arasındaki yeni uzaklık değerleri aşağıdaki gibi hesaplanır.
325.22
274.2831.1
2
3*5*1*5
*5*3
dd
d
4. İndirgenmiş matris Çizelge 6’da gösterilmiştir.
Çizelge 6. İndirgenmiş matris
Örnek 3* 5*
3* 0
5* 2.547 0
Sonuç olarak yukarıda hesapladığımız noktaları bir grafik üzerinde gösterirsek
aşağıdaki dendrogramı elde ederiz (Şekil 2).
Şekil 2. Örnekler arasındaki ilişkiyi veren dendrogram.
0
20
40
60
80
100
5 6 4 3 2 1
1*
3*5*
4*
Ben
zerli
k
Örnekler
Bu hesaplamalar karmaşık gibi görünse de konunun anlaşılması açısından yararlıdır.
Kümeleme analizi daha kolay olarak bazı hazır programlarla (Statistica gibi) da
yapılabilmektedir. Şekil 2’de görüldüğü gibi bu örnekte iki temel küme bulunmaktadır. 1,2,3
bir küme 4,5,6 başka bir kümeyi göstermektedir.
Örnek 2. Aşağıda çizelgede farklı coğrafi bölgelerden elde edilmiş 20 adet zeytin yağı
örneğinin yağ asitleri profilini göstermektedir. Bu veriler kullanılarak PCA ve HCA analizleri
yapılacak ve sözkonusu 20 örneğin kaç farklı gruba ayrılacağı belirlenmek istenmektedir.
samples palmitic palmitoleic stearic oleic linoleic eicosanoic linolenic eicosenoic
1 911 49 268 7924 678 51 70 44
2 922 66 264 7990 618 49 56 29
3 1100 61 235 7728 734 39 64 35
4 1082 60 239 7745 709 46 83 33
5 1037 55 213 7944 633 26 52 30
6 1285 129 244 7323 819 57 65 36
7 1248 107 313 7299 840 46 66 33
8 1356 106 236 7209 866 48 75 36
9 1260 102 228 7354 870 49 64 28
10 1261 121 312 7238 877 47 65 25
11 1364 204 225 6929 1084 21 50 14
12 1410 199 216 7130 955 21 48 19
13 1384 178 208 7105 999 29 67 26
14 1412 185 217 6842 1203 34 72 32
15 1410 232 280 6715 1233 32 60 24
16 1136 72 341 7616 661 49 65 32
17 926 41 277 7815 784 45 65 25
18 1105 69 373 7714 532 51 68 37
19 1109 79 305 7576 763 45 64 36
20 1284 93 265 7235 893 43 77 46
Yukarıda verilen veri öncelikle MINITAB ortamına aktarılmış ve PCA ve HCA analizleri ayrı
ayrı gerçekleştirilmiştir. Yukarıda PCA örneği verilirken MINITAB ortamında analizin nasıl
başlatıldığı bir resim ile verilmişti. Bu nedenle burada sadece HCA analizi nasıl başlatılıyor
üzerinde durulacak ve aşağıda verilen resim HCA analizinin şemasını göstermektedir.
Yukarıda MINITAB çalışma sayfasında gösterilen veriler öncelikle PCA analizine tabi
tutulmuş ve sözkonusu 20 örneğin nasıl sınıflandığı aşağıda verilen ilk iki temel bileşen skor
vektörünün birbirine karşı grafiği çizilerek gösterilmiştir.
3210-1-2-3-4
3
2
1
0
-1
-2
PC1
PC
2
20
19
18
17
16
15
14
13
1211
10
9
8
7
6
5
4
3
2
1
PCA analizinden gelen ilk iki skor vektörünün grafiğini incelediğimizde örneklerin genel
olarak üç alt gruba ayrıldığını söyleyebiliriz. Aşağıda verilen çizelgede PCA analizinde ilk iki
temel bileşen vektörünün verideki toplam değişkenliğin %79.42’sini açıkladığını öte yandan
ilk dört temel bileşenin ise %95 civarındaki varyansı kapsadığını görmekteyiz.
Eigenval % VariancC.% Var
4.690292 58.62865 58.62865
1.663256 20.7907 79.41935
0.893089 11.16362 90.58297
0.295994 3.699921 94.28289
0.245336 3.066701 97.34959
0.159076 1.98845 99.33804
0.050536 0.631696 99.96974
0.002421 0.030264 100
8
PCA analizinden sonra yapılan HCA analizinde öncelikle ham veriler kullanılarak
dendrogram oluşturulmuş ve elde edilen dendrogram aşağıdaki şekilde verilmiştir.
1514131211208107961819165317241
19.67
13.11
6.56
0.00
Örnekler
Uza
klı
k
Ward Linkage, Euclidean Distance
Yukarıda verilen dendrogram yakından incelendiğinde 11, 12, 13, 14 ve 15 numaralı
örneklerin bağımsız bir grup olarak sınıflandırıldığı görülmektedir. Öte yandan, geriye kalan
15 örnekten 6, 7, 8, 9, 10 ve 20 numaralı örneklerin bir başka alt grubu oluşturduğu ve son
olarak dendrogramın sol tarafındaki 10 örneğin bir başka alt grubu oluşturduğu
görülmektedir. Daha sonar HCA analizi, ham veriler yerine, PCA analizinden gelen ve veri
setindeki toplam varyansın %95’ini kapsayan ilk 4 temel bileşen skor vektörü kullanılarak
oluşturulmuş ve elde edilen dendrogram aşağıda verilmiştir.
1514131211107209861819165172341
20.10
13.40
6.70
0.00
Örnekler
Uza
klı
kWard Linkage, Euclidean Distance
Yukarıda verilen dendrogram incelendiğinde ham veriler ile elde edilen dendrogramın hemen
hemen aynısının PCA analizinden gelen ilk dört temel bileşen vektörü ile de elde edilebildiği
görülmektedir.