template

23
ه وش خ دي ن ب ي ب ي ک ر ت ي ب ي ن م ر ت وعه م ج م ر ت ز اي از ه وش خ هاي ه ي ل او$ ن سي ح اده، ز لي ع$ ن س ح م، ي ک س م د ن م ح$ ن یرو6 ت و روز ه ب ي ي ا ن مي ي گل د ن@ ب کده س ن دا ي س د ن ه م ر ت و يG مي کا، گاه ش ن دا م عل و ت ع ن ص$ ران ت ا ده ن ک6 چ ز يTTTT ک ا اتTTTT ع ل مطا ز ي TTTT خ ا دز ه وزTTTT خ ه وش خ دي ن ب ي ب TTTT کي ر ت ي عTTTT س د کي ي م دا TTTT ن ب ا ديهاي ن ب ه TTTT وش خ هاي ي ل او د ن ل و ت د کي که ا ت چد$ ن مک م دازاي ي گ د TTTTT ن کرا6 ت د، ن TTTTT ش ا ت س6 پTTTTT س ا تالTTTTT م ع اn ک TTTTT ی ع ب ا TTTTT ت ي ق ف وا TTTTT ت مه ه$ ن ی ا$ ج ی ا TTTTT ن^ ب زا ا ت م ه ت ی ک ر TTTTT ت.دز د TTTTT کي ي م$ ن ی ا اله ق مn ک TTTTT ی زوش د دت چ ه وش خ دي ن ب ي ب TT کي ر ت ازا TT ی ه ده TTT س تTT ش ا که دز$ ن ا ه ب اي TTT چ اده ق نTT ش ا ازامTTT م ت$ ج ی ا TT ن^ ب ه، TT ي ل او ها ن ب ازوعهTTT م ج مر ت ز اي از ه وش خ هاي ه ي ل او اده ق نTTT ش ا ي م و س د. ده TTT ات ي لTTT ص ا دز$ ن ی ا زوش اده ق نTTT ش ا از ه وش خ هاي داز TTT ات6 ت دز ت ی ک ر TTT ت ي ياTTT ه ب راي TTT ت. تTTT ش ا ت ی ک ر TTT ت ه وش خ هاي، ي ي ا TT خ ت ب ا از ع ب ا T ت ي ق ف وا T ت ي ب TT ي ن مر ت س ن ر تاT م ي گ نT س مپ ه اده ق نT ش ا ده T س . از تT ش ا$ ن ا ي ي ا TT چ که ت حاTT س س ن ر تاT م ي گ نTT س مپ ه ا ت دز زش يTT ش د$ ودن TTTT ت ها ن ب اديدTTTTT ع ت از ه وش خ ها، ا ت زوش ايTTTTT ه ود TTTTT خ و م$ کان امر ت د6 TTTT ت ي م ت د، TTTT اس ت دز$ ن ی ا اله ق مn ک TTTT ی زوش د دت چ ه ب ام TTTT ت ه وش خ دي ن ب ت ش ا ن ب اn مدازک وسعه ت ه ي ف ا ت، راي ت ت ح سا س ن ر ت ما ي گ ن س مپ ه ازT وعهT م ج مر ت ز اي از ه وش خ ها هاد ن T س پG ی ده T س راي T ت. تT ش ا ي ي ا T ت ازز ه وش خ ها، از دازي ات6 ت ي ب ي ن مر ت عات لا ط ا ل ی ا ق ن م اده ق ن ش ا ده س$ ج ی ا ن^ ب. ت ش ا ي ير ج ی زوي$ ن ی د ن6 ح وعه م ج م دادهازد د ات ن ش ا$ ان TT س ن ي مهد د که زوش هادي ن س پG ی ه بوزT ط ري توT م$ ج ی ا T ن^ ب ه وش خ دي ن ب هاي ه ي ل او زا ود T ي ه ب ي مد.T ده،$ ن ي ن6 T ح م هسه ن ا ق م$ ج ی ا T ن^ ب دزسه ن ا ق م ا تر تاT س زوش هاي ه وش خ دي ن ب ي ب کي ر ت$ ان س ن از ي يزا کا لاي ا ت زوش هادي ن س پG ی دازد. ه دواز ن کل ها: ه وش خ دي ن ب، ي ب کي ر ت دازي ات6 ت ه، وش خ عات لا ط ا ل، ی ا ق ن م س ن ر ت ما. ي گ ن س مپ ه

Upload: mahram2008

Post on 15-Dec-2015

221 views

Category:

Documents


7 download

DESCRIPTION

t

TRANSCRIPT

Page 1: Template

‌اي‌زيرمجموعه‌بر‌مبتني‌ترکيبي‌بندي‌خوشهاوليه‌‌هايخوشه‌از

بيدگلي‌مينايي‌بهروز‌و‌پروین‌حمید‌مشکي،‌محسن‌عليزاده،‌حسينايران‌صنعت‌و‌علم‌دانشگاه‌،کامپيوتر‌مهندسي‌دانشکده

چکيده‌ابت777دا‌می‌کنن777د‌س777عی‌ترکی777بی‌بندي‌خوش777ه‌ح777وزه‌در‌اخ777یر‌مطالع777ات‌اک777ثر

‌ب77ا‌سپس‌باشند،‌پراکندگی‌دارای‌ممکن‌حد‌تا‌که‌کنند‌تولید‌اولیه‌ای‌خوشه‌بندی‌های‌ي77ک‌مقال77ه‌اين‌می‌کنن77د.‌در‌ت77رکیب‌هم‌ب77ا‌را‌نتایج‌این‌همه‌توافقی‌تابع‌یک‌اعمال‌تم77ام‌از‌اس77تفاده‌ج77ای‌به‌آن‌در‌که‌است‌شده‌هئارا‌ترکيبي‌بندي‌خوشه‌جديد‌روش‌اصلي‌ايدهد.‌شو‌مي‌استفاده‌اوليه‌‌هايخوشه‌از‌اي‌زيرمجموعه‌از‌تنها‌اولیه،‌نتایج‌ت77رکیب‌اس77ت.‌ب77راي‌نه77ايي‌ت77رکيب‌در‌پاي77دار‌هاي‌خوش77ه‌از‌استفاده‌روش‌اين‌در

‌ش7ده‌اس7تفاده‌همبس7تگي‌م7اتريس‌ب7ر‌مبت7ني‌توافقي‌تابع‌از‌انتخابي،‌‌هايخوشه‌از‌تع77دادي‌تنها‌بودن‌دسترس‌در‌با‌همبستگي‌ماتريس‌ساخت‌که‌جايي‌آن‌است.‌از‌ب77ه‌جديد‌روش‌يک‌مقاله‌اين‌در‌‌باشد،نمي‌پذير‌امکان‌موجود‌هاي‌روش‌با‌ها،‌خوشه

‌از‌همبس7تگي‌م7اتريس‌س7اخت‌ب7راي‌،يافت7ه‌توسعه‌مدارک‌انباشت‌بندي‌خوشه‌نام‌پاي77داري‌از‌ها،‌خوش77ه‌ارزيابي‌است.‌براي‌شده‌پيشنهاد‌‌هاخوشه‌از‌اي‌زيرمجموعه

‌مجموع77ه‌چن77دين‌روي‌تجربي‌است.‌نتايج‌شده‌استفاده‌متقابل‌اطالعات‌بر‌مبتني‌نت777ايج‌م777وثري‌ط777ور‌ب777ه‌پيش777نهادي‌روش‌ک777ه‌ده777د‌مي‌نش777ان‌اس777تاندارد‌داده

‌س7اير‌ب7ا‌مقايسه‌در‌نتايج‌مقايسه‌همچنين،دهد.‌‌مي‌بهبود‌را‌اوليه‌‌هايبندي‌خوشهدارد.‌پيشنهادي‌روش‌باالي‌کارايي‌از‌نشان‌ترکيبي‌بندي‌خوشه‌هاي‌روش

‌ماتريس‌متقابل،‌اطالعات‌خوشه،‌پايداري‌ترکيبي،‌بندي‌خوشهها:‌‌کليدواژههمبستگي.

Page 2: Template

.‌مقدمه1

‌جداكردن اطالعات، خوشه‌بندي اصلي ايده‌ي‌هاگروه در آنها دادن قرار و يكديگر از نمونه‌ها‌نمونه‌هاي كه معني اين به‌.مي‌باشد هم به شبيه‌با و بگيرند قرار گروه يك در بايد هم به شبيه

‌دارا را تفاوت حداکثر ديگر گروه‌هاي نمونه‌هاي‌يروش‌ها اکثر که آنجا از‌[.1،2] باشند

‌داده‌ها از يخاص يجنبه‌ها يرو هيپا يخوشه‌بند‌يداده‌ها مجموعه يرو جهينت در کنند، مي ديتاک

‌به نياز دليل، همين به‌.‌باشندي‌م کارآمد يخاص‌ترکيب از استفاده با بتواند که است روش‌هايي

‌نتايج يک، هر قوت نقاط گرفتن و الگوريتم‌ها اين‌اصلي هدف واقع کند.‌در توليد را بهينه‌تري

‌و بهتر نتايج جستجوي ترکيبي خوشه‌بندي‌و اطالعات ترکيب از استفاده با تر، مستحکم

] است اوليه بندي خوشه چندين از حاصل نتايج‌نشان زمينه اين در اخير تحقيقات[.‌3،4،5‌طور به تواندي‌م داده‌ها يخوشه‌بند که اند داده

‌سود داده افراز نيچند بيترک از يريچشمگ‌يجواب‌ها تواندي‌م يبيترک يببرد.‌خوشه‌بند

‌و iiiپايداري ،iiبودن نو ،iاستحکام نظر از يبهتر‌هيارا پايه هاي روش به نسبت ivانعطاف‌پذيري

[.3،5،6،7دهد]

‌خوش7777ه‌بندي‌در‌پراکن7777دگي‌‌ايج7777اد1-1ترکيبي‌شامل ترکيبي خوشه‌بندي خالصه طور به

‌و اوليه نتايج توليدالف( اصلي مرحله دو‌نهايي هاي خوشه استخراج براي نتايج ب(ترکيب

‌خوشه‌بندي تعدادي اول مرحله [.‌در3] ‌باشدمي‌خاصي ويژگي بر کدام هر که می‌شود ایجاد اوليه

‌روش ساده‌ترين و ‌اولين.دارند تاکيد داده‌ها از‌مجموعه يک از پراکنده و مختلف نتايج ايجاد براي‌مختلف الگوريتم‌هاي از استفاده داده،

‌الگوريتم هر اینکه به توجه است.‌با خوشه‌بندي‌نگاه مسئله به خاصي جنبه يک از خوشه‌بندي

‌روش‌هاي در موجود خطاهاي بنابراين مي‌کند،‌امر باشد.‌اين متفاوت هم با مي‌تواند مختلف،‌نتايج در پراکندگي ايجاد موجب مي‌تواند

‌جمله گردد.‌از خوشه‌بندي پايه الگوريتم‌هاي‌معموال که پايه خوشه‌بندي الگوريتم‌هاي مهم‌ترين

‌شامل مي‌شوند استفاده ترکيبي خوشه‌بندي در‌v [1،7،8]سلسله‌مراتبي خوشه‌بندي الگوريتم‌هاي

vi [8،9،10،1افرازبندي خوشه‌بندي الگوريتم‌هاي و‌دليل به ،K-means ‌الگوريتمباشند. [‌مي1

‌معموال خوشه‌بندي، در مناسب توانايي و سادگي‌عنوان به ترکيبي خوشه‌بندي روش‌هاي بيشتر در

مي‌شود] استفاده پايه، خوشه‌بندي الگوريتم12،13،14.]

‌به پراکندگي، ايجاد براي ديگر رويکرد‌الگوريتم يک از متنوع نتايج آوردن دست

‌روش‌هاي از يکي از استفاده با پايه خوشه‌بنديباشد. مي زير

اوليه مقادير تغييرvii خوشه‌بندي الگوريتم‌[4] شده انتخاب

انتخاب خوشه‌بندي الگوريتم پارامترهاي تغيير‌[15] شده

از مختلف زيرمجموعه‌هاي از استفاده‌viii [3،5]ويژگي‌ها

ديگر ويژگي فضاهاي به داده‌ها نگاشت [5،16]

زير به اصلي داده‌هاي تقسيم‌بندي‌‌مجزا و متفاوت مجموعه‌هايي

[3،12،17(‌]ixبرداري )بازنمونه‌دست به يروش‌ها ترين مهم بندي طبقه

‌(1) شکل در اوليه، نتايج در يپراکندگ آوردناست. شده ارايه

‌در‌يپراکندگ‌ايجاد‌يروش‌ها‌يطبقه‌بند‌:‌1شکليبيترک‌يخوشه‌بند

‌روش چندين از استفاده با مقاله اين در‌شده اوليه ‌هايبندي خوشه در تنوع ايجاد در سعي

‌هاي زيرمجموعه ايجاد و برداري است.‌بازنمونه‌و مختلف هاي الگوريتم ‌ها،داده از متفاوت

‌*2188839894فاکس:‌ ،09112224341مسئول:‌تلفن:‌ نويسنده، Email: [email protected]

روش‌هاي‌ايجاد‌پراکندگي‌در‌

خوشه‌بندي‌ترکيبي

استفاده‌از‌يک‌

الگوريتم

ها‌الگوريتمي‌مختلف

مقداردهي‌اوليه‌مختلف

پارامترهاي‌مختلف

هاي‌مختلف‌از‌‌زيرمجموعهها‌ويژگي

‌ها‌به‌فضاي‌تصوير‌دادههاي‌جديد‌ويژگي

هاي‌مختلف‌‌زيرمجموعهها‌از‌داده

روش‌قطعي

بردا‌بازنمونهري

الگوريتم‌هاي‌

سلسله‌مراتبي

ها‌الگوريتمي‌

افرازبندي

اتصال‌منفرد

اتصال‌کامل

اتصال‌ميانگين

Forgy

K-means

Isodata

Page 3: Template

‌مورد هاي روش جمله از مختلف پارامترهاي‌الزم پراکندگي ايجاد براي مقاله اين در استفاده

باشد. مي اوليه نتايج در

توافقي‌‌تابع1-2‌تا که شدند توليد اوليه‌‌ای نتايج اينکه از پس

‌يک از استفاه با معموال بودند، پراکنده ممکن حد‌يکيشوند.‌ مي ترکيب نتايج اين کننده ترکيب تابع‌از استفاده نتايج ترکيب ‌هايروش ترين متداول از

‌بعدي هاي بخش در که است همبستگي ماتريس‌روششد.‌ خواهد تشريح مفصل طور به

‌(‌کهEACx) مدارک انباشت ترکيبي بندي خوشه‌بار اولين است همبستگي ماتريس بر مبتني‌خيلي و شد [‌مطرح4] در جين و فرد توسط

‌درآمد.‌امروزه متداول روش يک صورت به زود‌همبستگي ماتريس بر مبتني نيز ديگري هاي روش[.6] ‌اندشده ارايه‌ماتريس بر مبتني روش يک از مقاله اين در

‌است. شده استفاده نتايج ترکيب براي همبستگي‌از تعدادي پيشنهادي روش در که جايي آن از

‌دست به را الزم پايداري که اوليه هاي خوشه‌روش شوند، مي حذف فرآيند اين در اند، نياورده‌به ‌تواندنمي همبستگي ماتريس ساخت معمول‌دهد.‌در تشکيل را همبستگي ماتريس درستي‌ماتريس ساخت براي جديد روش يک اينجا

‌اوليه ‌هايخوشه از اي زيرمجموعه از همبستگي‌الگوريتم يک از نهايت است.‌در شده پيشنهاد‌ماتريس از نتايج استخراج براي مراتبي سلسله

.شود مي استفاده همبستگي

مرتبط‌.‌کارهاي2‌سعي ترکيبي بندي خوشه هاي روش

‌توليد مختلف xiافرازهاي ترکيب با تا ‌کنندمي‌افراز يک پايه، ‌بنديخوشه هاي روش از شده

،3،18،19] کنند توليد را ها داده از xiiمستحکم‌وزن با افرازها همه اخير، مطالعات اکثر [.‌‌در20

‌همه و شوند مي حاضر نهايي ترکيب در برابر‌وزن با نيز هاافراز همه در موجود هاي خوشه‌[.21] دکنن مي شرکت نهايي ترکيب در برابر

‌از انتخاب براي معيار [‌يک3] در گاش و استرل‌بر مبتني که اند کرده ارايه ممکن ترکيبات ميان

‌کار، اين براياست.‌ بندي خوشه يک کلي کيفيت‌افرازهاي و ترکيبي افراز بين ثبات ميزان آنها‌يک از استفاده با و اند گرفته نظر در را پايه

‌به دو شباهت معيار يک ثابت، ترکيبي قاعده

‌کار به -بعديd هاي ويژگي فضاي روي را xiiiدو.اند برده

‌بندي خوشه براي پايه هاي الگوريتم اکثر در‌شود. مي استفاده ‌هاداده برداري نمونه از ترکيبي‌ارزيابي چگونگي ها روش اين در اصلي مسئله‌و ‌بامگارتنر(‌است.افراز) بندي خوشه و خوشه

‌بر مبتني روش [‌يک22] در همکاران‌اعتبارسنجي بررسي براي را برداري بازنمونه

‌چند دراند.‌ کرده ارايه فازي ‌بنديخوشه نتايج‌معيار يک عنوان به خوشه پايداري ،اخير سال

‌گرفته قرار زيادي توجه مورد خوشه ارزيابي‌براي اوليه هاي [.‌ايده21،23،24،25است]

‌برداري بازنمونه از استفاده با خوشه اعتبارسنجي‌تر [‌کامل27،28] در بعدها و شده [‌ارايه26] در

‌[‌يک29،30] در نيز همکاران و ‌راساست. شده‌براي برداري بازنمونه بر مبتني روش

‌اصلي ‌اند.‌عنصرکرده ارايه خوشه اعتبارسنجي‌هاي روش ‌يشده کامل واقع در که روش، اين در

‌است.‌معيار خوشه پايداري ،باشد مي پيشين‌دست به افرازهاي همبستگي ميزان پايداري،

‌داده مجموعه از مستقل برداري نمونه دو از آمده‌پايداري ميزان چه ‌هرکند. مي ‌گيرياندازه را

‌معني اين به باشد، بيشتر بندي خوشه يک براي‌مرتبه چندين ‌بنديخوشه الگوريتم اگر که است‌يمشابه نتايج رود، کار به ها نمونه آن روي ديگر

‌النژ و راس ‌همچنين،.[31،32] شود مي حاصل‌بندي خوشه براي جديد الگوريتم [‌يک33] در

‌ويژگي انتخاب بر مبتني که ‌اندکرده ارايه‌بر مبتني پايداري معيار از روش اين درباشد.‌ مي

‌پارامترهاي انتخاب براي ها، داده برداري بازنمونه‌است.‌چندين شده استفاده ‌بنديخوشه الگوريتم

‌استفاده ايده بر مبتني xivخوشه اعتبارسنجي روش‌و هور [.‌بن34] است شده پيشنهاد پايداري از

‌محاسبه براي [‌روشي35] در نيز همکاران‌بين شباهت مبناي بر که اند کرده ارايه پايداري‌‌کند.مي عمل متفاوت هاي ‌بنديخوشه در ها نمونه

‌از استفاده با همبستگي ماتريس ابتدا روش، اين در‌.‌سپسآيد مي دست به برداري بازنمونه روش‌بر پايداري معيار عنوان به xvجاکارد ضريب‌‌همچنين،شود. مي محاسبه ماتريس اين اساس‌ارزيابي براي [‌روشي36] در يانگ و کاسترو

‌که اند کرده يهاار بندي خوشه نهايي افرازهاي‌‌اينکند. مي استفاده xviپشتيبان بردار ماشين از

‌xviiدورافتاده هاي داده و نويزها شناسايي با روش

‌يافته دست استحکام داراي بندي خوشه نتايج به‌برداري بازنمونه [‌از37] در رادک و است.‌مولر

Page 4: Template

‌اعتبارسنجي (‌برايNNRxviii) همسايه ‌تريننزديک‌روش ‌ايناند. کرده استفاده بندي خوشه نتايج

‌هاي سري تحليل در بار اولين برداري بازنمونه‌و [.‌اينوکوچي38] است رفته کار به زماني

هسته- اعتبارسنجي [‌معيار39] در همکاران‌روش اين در د.‌هستهان کرده پيشنهاد xixمحور

‌ماشين در شده استفاده مرکزي تابع معني به‌دو روش، اين ‌درباشد. مي پشتيبان بردار

‌است:‌اولي گرفته قرار توجه مورد شاخص‌هاست خوشه داخل فازي کواريانس مقادير مجموع

‌[.‌در40] ژي-بن هسته بر مبتني شاخص دومي و‌نتايج ارزيابي براي شاخص دو اين از روش اين

‌ها خوشه تعداد تعيين همچنين، و بندي خوشه‌و ‌داس.است شده استفاده خطي غير مرزهاي با

‌تعداد تعيين براي [‌روشي41] در سيل‌اعتبارسنجي از که ‌اندکرده ارايه ها خوشه‌بهره آنها ادغام و تقسيم براي ها خوشه

‌براي [‌روشي42] در لين و .‌فرنبرد مي‌از که اند کرده پيشنهاد ترکيبي بندي خوشه

‌در اوليه افرازهاي از موثرتري ‌يزيرمجموعه‌چه اگر روش اين ‌درکند. مي استفاده نهايي ترکيب‌نهايي ترکيب در کننده شرکت اعضاي تعداد‌است، xxکامل ترکيبي بندي خوشه يک از کمتر‌نتايج باالتر، کارايي با افرازهاي انتخاب دليل به

‌اين در که پارامترهايييابند.‌ مي بهبود نهايي‌:از عبارتند ،اند گرفته قرار توجه مورد روش‌تا کند مي سعي روش پراکندگي.‌اين و کيفيت

‌وارد را اوليه نتايج از افرازهايي از اي زيرمجموعه‌کيفيت ميزان باالترين از که کند نهايي ترکيب

‌هم به نسبت حال عين در و بوده برخوردار‌روش اين باشند.‌در دارا را پراکندگي بيشترين

‌شده هنجارسازی متقابل اطالعات مجموع معيار از(SNMIxxi)با مقايسه در افراز يک ‌)براي‌

‌کيفيت گيري اندازه ترکيب(‌براي ديگر افرازهاي‌معيار است.‌همچنين، شده استفاده افراز يک

‌‌)بين(NMIxxii) شده هنجارسازی متقابل اطالعات‌ترکيب(‌براي در موجود افرازهاي تمام

‌به ترکيب براي الزم پراکندگي گيري اندازه‌[‌نشان42] در لين و ‌فرناست. رفته کار‌بندي خوشه به نسبت آنها روش که دنده مي

‌کارايي از تصادفي انتخاب روش يا و کامل ترکيبي‌[‌يک23] در بقيه و است.‌الو برخوردار يبهتر

‌اند کرده ارايه xxiiiيچندهدف بندي خوشه روش‌شده توليد اوليه هاي خوشه انتخاب بر مبتني که

‌طي در ‌بندي،خوشه مختلف هاي الگوريتم توسط‌روش، اين .‌درباشد مي ‌سازيبهينه روال يک

‌هاي بخش براي هدف توابع از مجموعه بهترين‌‌فرد.است شده انتخاب ويژگي فضاي از مختلف

‌ترکيبي بندي خوشه روش [‌يک21] در جين و‌معيار از استفاده با آن در که اند کرده ارايه

‌داده آموزش دو به دو شباهت ،خوشه پايداري‌از استفاده جاي به روش، اين ‌درشود. مي

‌نهايي، افراز بر مبتني ارزيابي معيارهاي‌نواحي در پايه هاي الگوريتم از حاصل افرازهاي‌ارزيابي مورد -بعديd ويژگي فضاي از مختلف.است گرفته قرار

پيشنهادي‌.‌روش3‌از استفاده روش اين در اصلي ايده

‌کل جاي به اوليه خوشه‌هاي از زيرمجموعه‌اي‌آن است.‌از ترکيبي خوشه‌بندي در خوشه‌ها

‌حاصل خوشه‌هاي تمام مي‌رسد نظر به که جايي‌پايداري از اوليه خوشه‌بندي الگوريتم‌هاي از

‌از تنها روش اين در نباشند، برخوردار بااليي‌ماتريس در باال پايداري مقدار با خوشه‌هاي‌استفاده نهايي ترکيب در نتيجه در و همبستگي

‌معيار اساس بر خوشه‌ها است.‌انتخاب شده‌متقابل اطالعات بر مبتني خوشه پايداري

‌مي‌گيرد.‌نماي (‌صورتNMI) شده هنجارسازی‌داده (‌نشان2) شکل در پيشنهادي روش از کلياست. شده

‌روش‌هاي از استفاده با ابتدا روش اين در‌انجام اوليه ‌خوشه‌بنديB تعداد پراکندگي ايجاد

‌از استفاده با مي‌تواند کار مي‌شود.‌اين‌الگوريتم‌هاي از استفاده داده‌ها، از نمونه‌برداري

‌زيرمجموعه‌اي از استفاده خوشه‌بندي، مختلف‌براي مختلف پارامترهاي انتخاب يا و ويژگي‌ها از‌از اينجا شود.‌در انجام خوشه‌بندي الگوريتم يک

‌مراتبي‌سلسله هاي الگوريتم ‌وK-means الگوريتم‌است. شده استفاده اوليه نتايج توليد رايب

-K الگوريتم براي اوليه نتايج در الزم پراکندگيmeans،مراکز اوليه نقاط تصادفي انتخاب با ‌نيز‌

‌شده فراهم برداري نمونه با همچنين و خوشه‌هااست.

‌م{{ورد آم{{ده دس{{ت ب{{ه خوش{{ه‌هاي بعد مرحله در‌خوش{{ه ه{{ر کيفيت ت{{ا مي‌گيرن{{د ق{{رار ارزي{{ابي‌معي{{ار از خوش{{ه ارزي{{ابي ش{{ود.‌ب{{راي مش{{خص‌اس{{ت.‌چگ{{ونگي ش{{ده اس{{تفاده خوش{{ه پايداري‌مفص{{ل ط{{ور به بعدي بخش در خوشه‌ها ارزيابي‌ه{{ر پاي{{داري اينک{{ه از اس{{ت.‌پس ش{{ده تش{{ريح‌انتخ{{اب عم{{ل بع{د، گ{{ام در ش{د، محاسبه خوشه

‌انج{{ام خوش{{ه پاي{{داري مقدار به توجه با خوشه‌ها

Page 5: Template

‌مق{{دار از ک{{ه خوش{{ه‌هايي کار اين د.‌برايشو مي‌در ش{{{رکت ب{{{راي باش{{{ند ‌فرات{{{رth آس{{{تانه

‌بعدي گام مي‌شوند.‌در انتخاب نهايي خوشه‌بندي‌و ش{{ده ت{{رکيب هم ب{{ا ش{{ده انتخ{{اب خوش{{ه‌هاي‌آي{{د. مي دس{{ت ب{{ه آنه{{ا از نه{{ايي خوش{{ه‌هاي‌خوش{{ه‌بندي‌هاي ت{{رکيب براي مختلفي روش‌هاي

‌وج{{ود نه{{ايي خوش{{ه‌هاي آوردن دس{{ت به و اوليه‌ک{{ه است اين دارد وجود اينجا در که دارد.‌تفاوتي

‌خوش{{ه‌بندي ه{{ر از ک{{ه است ممکن روش اين در‌باش{{ند.‌از موج{{ود خوش{{ه‌ها از تعدادي تنها اوليه،

) م{{دارک انباش{{ت روش از اس{{تفاده که جايي آنEACدر را ‌ه{{انمونه جفت بين شباهت تواند (‌نمي‌

‌درس{{تي ب{{ه ها خوش{{ه از تع{{دادي تنه{{ا حض{{ور‌ب{{راي جديد روش يک مقاله اين در دهد، صتشخي‌انباشت را آن که است شده پيشنهاد نتايج ترکيب توسعه مدارک

ترکيبي‌خوشه‌بندي‌براي‌پيشنهادي‌الگوريتم‌:‌روال‌2شکل

‌ک{{{ه روش ايم.‌اين (‌نامي{{{دهEEACxxiv) يافت{{{ه‌ب{{{راي همبس{{{تگي م{{{اتريس اس{{{تخراج توان{{{ايي

‌از تع{{دادي تنه{{ا ک{{ه ش{{رايطي -در ه{{ا نمونه‌ه{{اي بخش در دارد، -‌راهس{{تند موج{{ود ها خوش{{ه‌س{{اخت از اس{{ت.‌پس ش{{ده تش{{ريح بع{{دي

‌از يکي از استفاده با توان مي همبستگي، ماتريس‌نف{{ردم اتص{{ال نظ{{ير مراتبي سلسله ‌هايالگوريتم

‌اس{{تخراج را نه{{ايي هاي خوشه ،xxvميانگين اتصال ياکرد.

خوشه‌يابيارز‌‌3-1‌يک xxviبرازندگي ميزان که جايي آن از‌تابع است، معني‌دار داده نقاط کل ميان در خوشه

‌پارامتر بر ‌عالوهgj(Ci,D) يعني خوشه برازندگي‌‌نيزD داده مجموعه ‌بهCi خوشه يعني خود اول

‌خصوصيات بايد برازندگي تابع است.‌يک وابسته[:23] باشد داشته را زير

تابع با بايد fjخوشه‌بندي الگوريتم توسط ‌که‌‌داشته منطقي ارتباط مي‌شود، ‌بهينهAj خاص

gj(Ci براي بيشتر مقدار ديگر، عبارت باشد.‌به

,D)خوشه که باشد معني اين ‌به Ciبه نسبت‌‌‌الگوريتم به نسبت متناظرا ‌وfj تابع

‌)بهينه‌تر( برازنده‌تر ،‌Aj خاص خوشه‌بندياست.

قابل مختلف خوشه‌بندي توابع به نسبت بايد‌ <gj(Ci,D) اگر ديگر، عبارت باشد.‌به مقايسه

Dataset

Clustering 1

11c...1kc

Clustering 2

21c...2kc

Primary Results

Clustering M

Bc1...

Bkc

Evaluating‌the‌Stability‌

of‌the‌Individual‌Clusters

),( 11

11 stabc

...

),( 11kk stabc

),( 21

21 stabc

...

),( 22kk stabc

),( 11BB stabc

...

),( Bk

Bk stabc

),( 11

11 stabc

...

),( 11kk stabc

),( 11HH stabc

...

),( Hk

Hk stabc

… MC Consensus Function

1c

kc

...

Final Results

Cluster‌Selection(Stability

Thresholding)

Constructing‌the‌Co-association‌

Matrix‌by‌EEAC

Page 6: Template

gl(Ci,D)، کيفيت که گرفت نتيجه بايد آنگاه‌‌است. ‌بهترfl تابع ‌ازfj تابع به توجه ‌باCi خوشه‌از -امj خوشه‌بندي ‌درCi خوشه کيفيت يعني

‌بهتر -امl خوشه‌بندي ‌درCi خوشه کيفيتمي‌باشد.

بايد خوشه برازندگي تابع مقدار نهايت در‌‌مقايسه قابل مختلف خوشه‌هاي به نسبت

‌بايد ،gj(Ci,D) = gj(Cl,D) ديگر، عبارت باشد.‌به‌به ‌نسبتCl ‌وCi خوشه‌هاي که بدهد نتيجه‌دارند.‌يعني برابري برازندگي ‌ميزانfj تابع‌کيفيت از -امj خوشه‌بندي در خوشه دو اين

برخوردارند. برابري‌عنوان به مي‌تواند که معيارهايي از يکي

‌معيار شود، گرفته نظر در خوشه برازندگي تابع‌خوشه,‌اثر [‌است.‌پايداري25] خوشه پايداري‌را مختلف خوشه‌بندي‌هاي نتايج در xxviiآشفتگي‌ايجاد روش‌هاي مهم‌ترين از مي‌دهد.‌يکي انعکاس‌از استفاده خوشه‌بندي در آشفتگي

‌شکل دو به مي‌تواند که است بازنمونه‌برداريشود. انجام جايگذاري بدون يا و جايگذاري با رايج

‌در‌اين‌روش‌خوشه‌هاي‌پايدارتر‌از‌خوشه‌بندي‌هاي‌اوليه‌شناسايي‌مي‌شوند‌و

‌ماتريس‌همبستگي‌نهايي،‌تنها‌از‌اين‌خوشه‌هاي‌پايدار‌تشکيل‌مي‌شود.‌يک‌خوشه‌پايدار،

‌خوشه‌اي‌است‌که‌اگر‌آن‌روش‌خوشه‌بندي‌را‌چند‌بار‌ديگر‌هم،‌روي‌آن‌مجموعه‌داده‌)يا

‌روي‌مجموعه‌هاي‌مختلف‌حاصل‌از‌نمونه‌برداري‌از‌آن‌مجموعه‌داده(‌اجرا‌کنيم،‌با‌احتمال‌زياد‌اين‌خوشه‌باز‌هم‌ديده‌خواهد‌شد.‌به‌عبارت‌ديگر،‌خوشه‌هاي‌پايدار‌به‌خوشه‌هايي‌اطالق‌مي‌شود‌که‌در‌خوشه‌بندي‌هاي‌مختلف

‌روي‌زيرمجموعه‌هاي‌به‌دست‌آمده‌از‌نمونه‌برداري‌هاي‌مختلف‌بيشترين‌تکرار‌را

‌داشته‌باشند.‌يعني‌با‌تغييرات‌جزيي‌در‌مجموعه‌داده،‌آن‌خوشه‌ها‌باز‌هم‌تکرار‌شوند.

‌براي‌شناسايي‌خوشه‌هاي‌پايدارتر‌نياز‌به‌مکانيزمي‌است‌تا‌بتواند‌پايداري‌را‌براي‌هر

‌خوشه‌از‌يک‌خوشه‌بندي،‌مستقل‌از‌خوشه‌هاي‌ديگر‌به‌دست‌آمده‌از‌آن‌خوشه‌بندي،‌حساب‌کند.‌براي‌اين‌کار،‌فرض‌کنيد‌که‌مي‌خواهيم

‌‌را‌محاسبه‌کنيم.‌در‌اين‌روشCiپايداري‌خوشه‌‌ابتدا‌با‌نمونه‌برداري‌مجموعه‌داده‌هاي‌جديدي

‌درست‌مي‌شود‌و‌خوشه‌بندي‌هاي‌مختلفي‌روي‌آن‌صورت‌مي‌گيرد.‌سپس،‌سعي‌مي‌شود‌تا‌به

‌اين‌سوال‌که‌”آيا‌اين‌خوشه،‌در‌اين‌خوشه‌بندي‌ها‌هم‌ظاهر‌شده‌است‌يا‌نه؟”

‌پاسخ‌داده‌شود.‌براي‌اين‌کار‌يک‌معيار‌شباهت‌(P(D))‌و‌خوشه‌بندي‌اوليه‌(Ci)بين‌آن‌خوشه‌

‌‌نشان‌دادهsim(Ci,P(D))پيشنهاد‌مي‌شود‌که‌با‌‌مي‌شود.‌با‌استفاده‌از‌اين‌معيار،‌شباهت‌آن‌خوشه‌را‌با‌خوشه‌بندي‌هاي‌مختلف‌حاصل‌از‌نمونه‌برداري‌محاسبه‌مي‌شود.‌سپس‌ميانگين‌اين‌معيارهاي‌شباهت،‌به‌عنوان‌ميزان‌پايداري

‌‌بر‌گردانده‌مي‌شود.‌در‌واقعgi(Ci,D)اين‌خوشه‌sim(Ci,P(D))ميزان‌اعتبار‌خوشه‌‌Ciرا‌‌

‌‌مشخص‌Dروي‌مجموعه‌داده‌Pدرخوشه‌بندي‌‌(‌نشان3مي‌کند.‌الگوريتم‌اين‌روال‌در‌شکل‌)

داده‌شده‌است.

For l:=1 to M doResample D to obtain the perturbed data set D';Run k-means over D' to obtain P(D');Re-labeling P(D') to P(D);Compute score[l] = sim(Ci,P(D));

Endgj(Ci,D) := average of score[l];

‌‌به‌Ciخوشه‌پايداري‌محاسبه‌:‌الگوريتم‌3شکلبرازندگي‌تابع‌عنوان

‌ميزان ‌کهsim(Ci,P(D)) محاسبه براي P(D) خوشه‌بندي نتيجه ‌وCi خوشه بين شباهت

‌تمام مي‌شود.‌ابتدا عمل زير صورت به است،‌در ‌کهD داده مجموعه به متعلق ديگر نمونه‌هاي

‌خوشه يک صورت به ندارند، ‌قرارCi خوشه‌يک مي‌شود.‌حال داده ‌نمايشD/Ci مستقل

‌شده ‌ايجادD/Ci ‌وCi خوشه دو شامل خوشه‌بندي‌.‌اکنونP1={Ci ,D/Ci } ‌مي‌ناميمP1 را آن که است

‌نمونه‌برداري داده‌هاي روي ‌کهP(D) خوشه‌بندي‌دو صورت به بايد نيز است، شده اعمال شده

‌از حاصل نتايج نهايت در تا شود ارايه خوشه‌اي‌منطبق هم با فرآيندي طي خوشه‌بندي دو اين

‌‌بهP(D) در خوشه‌ها همه منظور اين شوند.‌براي‌*C مي‌شوند.‌خوشه ‌تقسيم*D/C ‌و*C خوشه دو

‌%‌از50 از بيش که خوشه‌هايي همه اجتماع از‌تشکيل دارند، ‌وجودCi خوشه در نمونه‌هايشان

‌*D/C خوشه در نيز خوشه‌ها مابقي و مي‌شود

=‌P2مي‌ناميمP2 را خوشه‌بندي مي‌گيرند.‌اين قرار

{C* ,D/C*}متقابل اطالعات از .‌حال‌xxviii هنجارسازی‌‌براي متداول معيار [‌که3،4،17(‌]NMI) شده

‌خوشه‌بندي( )نتيجه افراز دو بين شباهت ارزيابي‌دو بين شباهت اندازه‌گيري براي است،

‌جايي آن مي‌شود.‌از ‌استفادهP2 و‌P1 خوشه‌بندي) نشده هنجارسازی متقابل اطالعات معيار که

Page 7: Template

MI،) از معموال خوشه‌هاست، اندازه به وابسته‌‌دو ‌بينNMI مي‌شود.‌رابطه ‌استفادهNMI معيار

‌محاسبه زير صورت ‌بهP2 و‌P1 خوشه‌بنديمي‌شود.

(1)‌

‌(2) رابطه ‌ازMI(P1,P2) متقابل، اطالعات کهمي‌آيد. دست به(2)‌

‌تعداد ‌نشان‌دهندهp11 رابطه، اين در که ‌p10است.‌Ci ‌و*C در موجود مشترک نمونه‌هاي

‌در موجود مشترک نمونه‌هاي تعداد نشان‌دهندهD/C*و‌ Ci‌.است‌p01نمونه‌هاي تعداد ‌نشان‌دهنده‌

‌p00است.‌D/Ci ‌و*C در موجود مشترک

‌در موجود مشترک نمونه‌هاي تعداد نشان‌دهندهD/C*و‌ D/Ciاست.‌همچنين‌ mکل ‌تعداد‌

‌کل بيانگر ترتيب ‌بهp.j و‌.pi واقع نمونه‌هاست.‌در‌(4) ‌هستند.‌شکل*C ‌وCi در موجود نمونه‌هاي

‌را خوشه پايداري محاسبه روش اين از کلي نمايمي‌دهد. نشان

‌‌‌نشان‌دهندهNMIi (،4) شکل به توجه با‌‌مي‌باشد.P2 ‌وP1 خوشه‌بندي شباهت ميزان

‌‌درCi خوشه پايداري ميزان بيانگر همچنين‌توجه با مقدار مي‌باشد.‌اين نيز -امi خوشه‌بندي

‌در سپس ‌وsim(Ci,P(D)) (‌در3) شکل الگوريتم بهscore[i]ميانگين از کل مي‌گردد.‌پايداري ‌ذخيره‌

مي‌شود. تشکيل پايداري‌ها اين کل

‌مبتني‌روش‌‌با‌Ciخوشه‌پايداري‌:‌محاسبه‌4شکل‌NMIبر

(3)‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌

‌مجموعه در ‌هابندي خوشه ‌تعدادM که‌خوشه‌هايي واقع در روش، ‌اينباشد. مي مرجع

‌خوشه‌بندي‌هاي در را تکرار بيشترين که را‌پايدارتر خوشه‌هاي عنوان به دارند، مختلف‌با خوشه‌هاي مرحله اين از مي‌کند.‌پس معرفي‌وارد و شده انتخاب پايداري مقدار باالترين‌شکل را نهايي خوشه‌بندي تا مي‌شوند بعد مرحله

‌مشخص را آستانه مقدار ‌اينth دهند.‌پارامترمي‌کند.

‌انباش77ت‌روش‌ب77ا‌اوليه‌نتايج‌‌‌ترکيب3-2يافته‌توسعه‌مدارک‌ش{{ده انتخ{{اب خوش{{ه‌هاي مرحل{{ه، اين در‌روش مي‌دهن{{د.‌در تشکيل را همبستگي ماتريس‌روي ‌خوش{{ه‌بنديm (‌نت{{ايجEAC) م{{دارک انباشت

‌م{{{{اتريس در ش{{{{ده نم{{{{ونه‌برداري داده‌ه{{{{اي‌ورودي داده مي‌شوند.‌ه{{ر ‌ذخيرهn×n همبستگي

‌(،EAC) م{{دارک انباش{{ت روش در ماتريس اين ازمي‌شود. (‌محاسبه4) رابطه صورت به(4)‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌

‌جفت ک{{{ه اس{{{ت دفع{{{اتي ‌تع{{{دادni,j ک{{{ه‌گروه‌بن{{دي خوش{{ه ي{{ک در هم ‌ب{{اj ‌وi نمونه‌ه{{اي

‌ک{ه اس{ت نمونه‌برداري‌ه{ايي ‌تع{دادmi,j و شده‌اند‌آن در همزمان طور به نمونه‌ها جفت اين دوي هر

شده‌اند. ظاهر‌روش در آستانه‌گيري از پس که جايي آن از

‌در اولي{{ه خوش{{ه‌هاي از تع{{دادي تنه{{ا پيش{{نهادي،‌رواب{{ط توان{{د ‌نميEAC روش مي‌باشند، دسترس

‌ب{{راي دهد.‌بنابراين تشخيص را ها ‌نمونهجفت بين‌همبس{{تگي م{{اتريس از اس{{تفاده ب{{ا نت{{ايج ترکيب‌همبس{{تگي نش{{ان‌دادن ب{{راي معي{{اري ي{{ک باي{{د

‌بين ش{{باهت بتوان{{د ک{{ه ش{{ود تعري{{ف نمونه‌ه{{ا‌از ‌ايزيرمجم{{{وعه تنه{{{ا حض{{{ور ب{{{ا را ه{{{ا نمونه‌محاس{{به و اس{{تخراج درستي به اوليه هاي خوشه

‌م{{اتريس س{{اخت ب{{راي را خ{{ود روش کن{{د.‌م{{ا‌خوش{{ه‌ها از تع{{دادي ک{{ه ش{{رايطي در همبستگي

) يافت{{ه توس{{عه م{{دارک انباش{{ت اند، ش{{ده حذفEEACم{{{اتريس از ورودي داده (‌مي‌ن{{{اميم.‌ه{{{ر‌

‌(5) رابط{{ه ص{{ورت ‌بهEEAC روش در همبستگيمي‌شود. تعريف

C*

D/C*

Ci

D/Ci

C*

D/C*

C*

D/C*

NMI1

NMI2 NMIM

.....

.....

Page 8: Template

(5)‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌

niنمون{{{ه ک{{{ه اس{{{ت دفع{{{اتي ‌تع{{{داد iدر‌‌‌اس{{ت.‌ب{{ه ش{{ده ظ{{اهر ش{{ده انتخاب خوشه‌هاي

j نمونه که است دفعاتي تعداد ‌نيز،nj مشابه طور‌اس{{ت. ش{{ده ظ{{اهر ش{{ده انتخ{{اب خوشه‌هاي در

‌جفت ک{{{ه اس{{{ت دفع{{{اتي ‌تع{{{دادni,j همچ{{{نين،‌خوش{{ه‌هاي از خوش{{ه يک در هم ‌باj ‌وi نمونه‌هاي‌در با که است شده‌اند.‌بديهي ظاهر شده انتخاب‌در ث{{{{ابت خوش{{{{ه‌هاي تع{{{{داد گ{{{{رفتن نظ{{{{ر

‌تعداد از ‌کمترnj ‌وni همواره اوليه خوشه‌بندي‌هاي‌ک{{{ل تع{{{داد همچ{{{نين، و اولي{{{ه افرازه{{{اي ک{{{ل

‌مي‌باش{{{{{{{{د.‌يع{{{{{{{{ني ممکن خوش{{{{{{{{ه‌هاي.

‌در را زير مثال بحث، شدن تر روشن براي ‌5 ش{{کل مطابق ‌نمونه5 کنيد بگيريد.‌فرض نظر

‌بندي خوش{{ه چه{{ار ک{{ه دارن{{د (‌وج{{ودA )قس{{مت‌روي اولي{{ه هاي ‌بندي خوشه عنوان ‌بهP4 ‌تاP1 اوليه‌.(B ‌قس{{مت5 )ش{{کل اس{{ت گرفت{{ه ص{{ورت آن

‌پاي{{{داري مق{{{ادير ک{{{ه کني{{{د ف{{{رض همچ{{{نين،باشند: زير صورت به شده توليد هاي خوشه

1)()( 32

12 cStabilitycStability

‌ها خوش{ه انتخ{{اب ب{راي آس{تانه مق{دار اگر‌افرازه{{اي از اول خوش{{ه‌هاي ‌باش{{د،0.8 با برابر‌م{{اتريس ‌اکن{{ونش{{وند. مي ح{{ذف س{{وم و اول

‌ها خوش{{ه بقي{{ه از اس{{تفاده ب{{ا باي{{د همبس{{تگي.C ‌قسمت5 شکل شود.‌يعني درست

‌EEACروش‌با‌همبستگي‌ماتريس‌:‌ساخت‌5شکلAنمونه،‌5شامل‌داده‌(‌مجموعه‌‌Bچهار‌(‌نتايج‌

‌از‌پس‌باقيمانده‌هاي‌(‌خوشه‌Cاوليه‌بندي‌خوشهگيري‌آستانه

‌از بع{{{{د و قب{{{{ل همبس{{{{تگي م{{{{اتريس) (‌و6) رواب{{ط ص{{ورت به ترتيب، به گيري آستانه

بود: ‌خواهد(7(6)‌

‌ب{{ا توان{{د مي س{{وم نمون{{ه م{{اتريس اين در‌بچس{{بد. خوش{ه دو از ک{{دام ه{{ر %‌به50 احتمال

‌م{{اتريس اين ب{{ه تري اض{{افه اطالع{{ات بتوان اگر‌داراي پاي{{دارتر خوش{{ه که ‌ايگونه به کرد، اضافه‌بين همبس{{{{{تگي مق{{{{{ادير در بيش{{{{{تري وزن‌به{{تر عملک{{رد ب{{ه ‌ت{{وانمي ش{{ود، ه{{ايش نمونهبود. اميدوار ترکيبي بندي خوشه

12

34

5

P1 P2

P3 P4

11c 1

2c 21c

31c

41c 4

2c32c

(A)

(B)

P1P2

P3 P4

12c 2

1c

41c 4

2c32c

(C)

th=0.8

22c

22c

Page 9: Template

(7)‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌

‌ت{{{وان مي م{{{اتريس دو اين مش{{{اهده ب{{{ا‌ناپاي{{دار ‌هايخوش{{ه ح{{ذف چگون{{ه ک{{ه دري{{افت

‌شود.‌از همبستگي ماتريس بهبود باعث تواند مي} ه{{اي نمونه ب{{ه مرب{{وط خوش{{ه ک{{ه ج{{ايي آن

‌باش{{ند، مي پ{{اييني پاي{{داري مقدار ‌داراي{1،2،3‌م{{اتريس ش{{دن ‌ترروش{{ن م{{وجب آنه{{ا ح{{ذف

‌الگ{{{وريتم ي{{{ک ‌اکن{{{ونش{{{ود. مي همبس{{{تگي‌هاي خوش{{ه ‌توان{{دمي ن{{يز س{{اده مراتبي سلس{{له‌انتخ{{اب(‌را از )بعد همبستگي ماتريس در موجود

کند. استخراج‌روش ب{{ا همبس{{تگي م{{اتريس اينکه از پس

EEACت{{ابع ي{{ک از بع{{د مرحل{{ه در ش{{د، ‌س{{اخته‌‌اين از نه{{ايي خوش{{ه‌هاي اس{{تخراج براي توافقي

‌از يکي از مي‌ش{{ود.‌معم{{وال اس{{تفاده م{{اتريس‌اس{{تخراج ب{{راي سلس{{له‌مراتبي الگوريتم‌ه{{اي

‌اس{{تفاده همبستگي ماتريس از نهايي خوشه‌هاي‌الگ{{{{{{{وريتم از مقال{{{{{{{ه اين مي‌ش{{{{{{{ود.‌در‌ش{{ده اس{{تفاده xxixمنف{{رد اتص{{ال سلس{{له‌مراتبي

است.

تجربي‌.‌نتايج4‌روش ک{{{{ارگيري ب{{{{ه نت{{{{ايج بخش اين در

‌و مختل{{{ف ه{{{اي داده مجموع{{{ه روي پيش{{{نهادياست. شده گزارش استفاده مورد پارامترهاي

ها‌داده‌‌مجموعه4-1‌داده ‌مجموع{{ه5 روي ب{{ر پيش{{نهادي روش‌است.‌ب{{راي گرفته قرار آزمايش مورد استاندارد

‌مجموع{ه ت{{ا اس{ت ش{ده س{عي آزمايش‌ها انجام‌و ه{{ا ويژگي تع{{داد ‌ها،کالس تعداد لحاظ از ها داده

‌برخ{{وردار تن{{وع حداکثر از ها نمونه تعداد همچنين‌داراي ممکن ح{{د ت{{ا ه{{ا آزمايش نت{{ايج ت{{ا باش{{ند

‌(1) ‌ج{{{دولباش{{{د. تعميم قاب{{{ل و اس{{{تحکام‌در ه{{ا داده مجموع{{ه اين از مختص{{ري اطالع{{ات

‌م{{ورد در بيش{{تر اطالعات ‌گذارد.‌برايمي اختيار‌[43] به ‌توانمي ها داده مجموعه اين از کدام هر

کرد. رجوع

ها‌داده‌مجموعه:‌‌1جدول

ClassFeaturesSamplesGlass69214

Breast-C29683Wine313178Bupa26345Yeast1081484

‌ه{{{اي ويژگي روي ب{{{ر آزمايش‌ه{{{ا نت{{{ايج‌گزارش ‌هاداده مجموعه اين از شده هنجارسازی

‌از ک{{دام ه{{ر ديگ{{ر عب{{ارت اس{{ت.‌ب{{ه ش{{ده‌و صفر ميانگين با ‌هاداده مجموعه اين هاي ويژگي

اند. شده هنجارسازی ،N(0,1) يک، واريانس

آزمايش‌ها‌‌نتايج4-2 MATLAB (ver 7.1) محيط در پيشنهادي روش

‌اس{{ت. گرفت{{ه ق{{رار آزم{{ايش مورد و سازي پياده‌اج{{راي ‌ب{{ار10 مي{{انگين روي آزمايش‌ه{{ا نت{{ايج

‌اس{{ت.‌عملک{{رد ش{{ده گ{{زارش برنام{{ه مس{{تقل‌از اس{{تفاده ب{{ا بندي خوش{{ه مختل{{ف ه{{اي روش‌ب{{ه هاي خوش{{ه بين xxxگذاري بازبرچس{{ب فرايند‌آنه{{ا مقايس{{ه و واقعي ‌ه{{ايکالس و آم{{ده دس{{ت‌ه{{اي روش (‌عملک{{رد2) ‌ج{{دول.است شده محاسبه‌نش{{ان پيش{{نهادي روش ب{{ا مقايسه در را مختلف

‌درص{{{د ج{{{دول اين در موج{{{ود ‌مق{{{اديرده{{{د. مي‌‌چهارکند. مي بيان را ‌هانمونه درست بندي خوشه‌ه{{اي الگوريتم عملک{{رد نتايج جدول اين از اول سطر‌اس{{ت. آم{{ده مختل{{ف ه{{اي داده مجموع{{ه روي پاي{{ه‌ه{ر اگرچ{ه ک{ه دهن{د مي نش{ان آزمايش‌ه{ا نت{ايج‌مجموع{{ه روي ‌توانن{{دمي ه{{ا الگوريتم اين از ک{{دام‌روي ولي کنن{{د، اراي{{ه قبولي قابل نتايج خاصي داده

‌خ{{ود از پ{{اييني ک{{ارايي ديگ{{ر ه{{اي داده مجموع{{ه Kmeans الگ{{وريتم مث{{ال، عن{{وان ‌دهند.‌ب{{همي نشان

‌ب{{ه نسبت خوبي نسبتا ‌نتيجهWine مجموعه روي‌دست (‌بهLinkage) اتصالي مراتبي سلسله هاي روش‌بقي{{ه ‌ازBupa ه{{اي داده مجموع{{ه روي .‌اماآورد مي

‌کام{{ل اتصال روش ‌کند.‌همچنين،مي عمل تر ضعيف(Complete-Linkageروي‌) داده مجموع{{{{{{{{ه Breast-

Cancerکند. مي عمل شکل همين به ‌نيز‌یکی‌از‌دالی{{ل‌این‌ام{{ر‌ش{{کل‌های‌متن{{وع‌مجموعه‌های‌داده‌‌است‌که‌با‌توجه‌به‌اینکه‌ه{{ر‌ک{{{دام‌از‌روش‌ه{{{ای‌خوش{{{ه‌بندی‌پای{{{ه‌ب{{{رای‌ش{{کل‌های‌خاص{{ی‌از‌داده‌ه{{ا‌ط{{راحی‌ش{{ده‌اند،‌کارایی‌آنها‌ن{{یز‌روی‌داده‌ه{{ای‌مختل{{ف‌متف{{اوت

‌‌رویKmeansاس{{ت.‌ب{{ه‌عن{{وان‌مث{{ال‌الگ{{وریتم‌‌‌ب{{{ه‌خ{{{وبی‌عم{{{لBreast-Cancerمجموع{{{ه‌داده‌

‌‌ک{{اراییBupaمی‌کن{{د،‌ام{{ا‌روی‌مجموع{{ه‌داده‌‌ضعیف‌تری‌از‌خود‌نشان‌می‌دهد‌)س{{طر‌اول‌از

Page 10: Template

‌(‌که‌این‌نتایج‌نشان‌می‌دهند‌ک{{ه‌ش{{کل2جدول‌‌‌نسبتا‌کروی‌اس{{ت‌در‌ح{{الیBreast-Cancerداده‌ها‌‌‌ب{{ا‌داده‌ه{{ای‌غ{{یر‌ک{{روی‌مواج{{هBupaک{{ه‌در‌

‌‌روی‌اینLinkageهس{{{تیم.‌نت{{{ایج‌االگوریتم‌ه{{{ای‌‌(2مجموعه‌داده‌ها‌)سطرهای‌دوم‌و‌سوم‌از‌جدول‌

می‌کند.نیز‌صحت‌این‌گفته‌را‌تایید‌

‌‌بار‌10ميانگين‌روي‌آزمايش‌ها‌:‌نتايج‌2جدولمستقل‌اجراي

Glass%

Breast-C %

Wine%

Bupa%

Yeast%

Simple Methods

[1,7,8,9,10,11]

Kmeans45.6595.1396.6354.5540.20

Single Linkage36.4565.1537.6457.6834.38

Average Linkage37.8570.1338.7657.1035.11

Complete Linkage40.6594.7383.7155.9438.91

Ensemble Methods

EAC[4,19]

Kmeans Ensemble

47.7695.4696.6354.4945.46

Full Ensemble

47.8395.1097.0856.7847.17

EEACProposed‌Ensemble

48.8898.3398.3158.3947.17

Page 11: Template

‌(‌عملک{{رد2) ج{{دول از آخ{{ر س{{طر س{{ه‌ه{{اي داده مجموع{{ه برابر در را ترکيبي هاي روش

‌نت{{ايج ب{{ه کلي نگ{{اه ي{{ک ‌دهد.‌بامي نشان مختلف‌ب{{ر فوق، سطر چهار با مقايسه در سطر سه اين‌تولي{{د ب{{ه منج{{ر ترکي{{بي ه{{اي "روش که ادعا اين

‌غ{{ير ه{{اي روش ب{{ه نس{{بت يتر مس{{تحکم نت{{ايج‌اولين .‌درگ{{ذارد مي ‌ش{{وند"‌ص{{حهمي ترکي{{بي‌100 ت{{رکيب نتيج{{ه ترکي{{بي، ه{{اي روش از سطر‌‌گ{{زارشEAC روش از اس{{تفاده ‌ب{{اK-means ب{{ار‌اولي{{ه نت{{ايج در پراکن{{دگي ايجاد است.‌براي شده‌90 برداري نم{{{ونه از ترکي{{{بي، روش اين ‌از%‌)ب{{دون xxxiبرداري زيرنم{{ونه روش ب{{ه ‌ه{{اداده

‌اس{تفاده تص{ادفي اولي{ه مق{داردهي جايگ{ذاري(‌و SL منف{{رد اتص{{ال الگ{{وريتم اس{{ت.‌همچ{{نين، ش{{ده

‌آوردن دس{{ت ب{{ه ب{{راي ت{{وافقي ت{{ابع عنوان به‌ک{{ار ب{{ه همبس{{تگي م{{اتريس از نه{{ايي هاي خوشهاست. رفته

‌ترکي{{{{{{بي، ه{{{{{{اي روش از دوم س{{{{{طر‌از آن در ک{{ه اس{{ت کام{{ل ‌ترکي{{بي خوش{{ه‌بندي

‌پاي{{ه الگ{{وريتم عن{{وان ب{{ه مختلفي ه{{اي الگوريتم‌اعض{{اي تع{{داد روش اين دراست.‌ شده استفاده

‌در نتيجه در و همبستگي ماتريس در شرکت‌کننده‌ج{{ايي آن ‌ازباشد. ‌مي100 با برابر نهايي ترکيب

‌ک{{روي ‌هايخوش{{ه م{{ورد ‌درK-means الگوريتم که‌غ{{ير ‌هايخوش{{ه براب{{ر در و کن{{د مي عم{{ل خ{{وب‌تع{{داد روش اين در دارد، پ{{اييني عملک{{رد ک{{روي

‌مس{{تقل اجراه{{اي از حاص{{ل اولي{{ه نتايج از ‌تا70‌شده( ذکر پارامترهاي همان ‌)باK-means الگوريتم‌هاي الگوريتم اجراي از باقيمانده ‌نتيجه30است.‌‌ج{{ايي آن ازاست.‌ آمده دست به مراتبي سلسله‌ه{{{اي الگوريتم اج{{{راي از حاص{{{ل نت{{{ايج ک{{{ه

‌ب{{ه هم{{واره ث{{ابت ش{{رايط تحت مراتبي سلس{{له‌اين از ش{{ود، مي منج{{ر مش{{ابهي کامال ‌هايجواب

‌تولي{{د در ت{{وان مي مح{{دودي تع{{داد به ها الگوريتم‌از ه{{ا آزمايش اين درک{{رد.‌ اس{{تفاده اولي{{ه نت{{ايج

‌در پراکن{دگي ايج{اد ب{راي ‌هاخوش{ه تعداد پارامتر‌تع{{داد ک{{ار، اين اس{{ت.‌ب{{راي شده استفاده نتايج

‌‌هايالگوريتم براي شده تعيين پيش از هاي خوشه‌‌انتخابk±2 با برابر استفاده مورد مراتبي سلسله‌باش{{د. مي ها خوشه واقعي ‌تعدادk که است شده

‌بندي خوش{{ه ب{{راي اس{{تفاده م{{ورد ه{{اي الگوريتم‌اس{{تفاده م{{ورد فاص{{له و اولي{{ه مراتبي سلس{{له‌(3) ج{{دول در ه{{ا الگوريتم اين از کدام هر توسط[.8] است آمده

‌روش (‌نت{{{ايج2) ج{{{دول از آخ{{{ر س{{{طر‌نش{{ان ه{{ا داده مجموع{{ه اين روي را پيش{{نهادي

Page 12: Template

‌دقيق{ا پيش{{نهادي روش ب{{راي اوليه ‌دهد.‌نتايجمي‌از دوم )س{{طر کام{{ل ت{{رکيب روش نت{{ايج هم{{ان‌روش تف{{{اوتباش{{{د.‌ (‌ميترکي{{{بي ه{{{اي روش

‌تع{{{داد در کام{{{ل ت{{{رکيب روش ب{{{ا پيش{{{نهادي‌نه{{ايي ت{{رکيب در ک{{ه اس{{ت اي اوليه ‌هايخوش{{ه‌تنه{{ا پيشنهادي روش در واقع ‌کنند.‌درمي شرکت‌م{{اتريس در ب{{اال پاي{{داري مق{{دار ب{{ا هاي خوش{{ه

‌ظ{{اهر نه{{ايي ت{{رکيب در نتيج{{ه در و همبس{{تگي‌حضور عدم يا حضور براي آستانه ‌مقداراند. شده‌ص{{{ورت ب{{{ه نه{{{ايي ت{{{رکيب در خوش{{{ه ي{{{ک

‌ک{{ه مع{ني اين اس{ت.‌ب{{ه ش{ده انتخاب xxxiiتطبيقي‌انتخ{{اب اولي{{ه مق{{دار عن{{وان ‌به0.95 مقدار ابتدا‌اين ب{{ا ش{{ده انتخ{{اب هاي خوش{{ه اس{{ت.‌اگ{{ر شده‌ش{{امل را ‌ه{{ا%‌داده90 از کم{{تر آستانه، مقدار‌%‌ک{{اهش0.05 اندازه به آستانه مقدار شوند،

‌بيش ک{{ه يابد مي ادامه جايي تا کار ‌اينيابد. مي‌انتخ{{{اب هاي خوش{{ه توس{{ط ‌ه{{اداده %‌از90 از

‌‌نت{{{ايجباش{{{ند. ش{{{ده بندي خوش{{{ه ش{{{ده‌پيش{{نهادي روش ک{{ارايي نش{{ان‌دهنده آزمايش‌ه{{ا

‌ترکي{{بي همچنين و پايه هاي روش ساير به نسبتاست.‌

‌مورد‌يسلسله‌مراتب‌يها‌تميالگور:‌‌3جدولاستفاده

Linkage MethodsUsed Distance MeasureSingle Linkageنمونه‌ها بين فاصله كمترين

Average Linkageنمونه‌ها بين فاصله بيشترين

Complete Linkage‌جفت همه بين فاصله ميانگين

خوشه دو در نمونه‌هاWeighted Linkageوزن‌دار فاصله ميانگين

Ward Linkage‌به مربعات افزايشي مجموعخوشه دو اتصال نتيجه عنوان

‌درص{{د يرو را آستانه مقدار اثر‌(6) شکل‌‌وWine داده مجموع{{ه دو در يانتخ{{اب يخوش{{ه‌ها

Breast-Cancerش{{کل اين به توجه ‌بادهد. مي ‌نشان‌‌مي{{انگين ياب{{د، اف{{زايش برداري نمونه نرخ چه هر

‌اف{زايش ن{يز آم{ده دس{ت ب{ه هاي خوشه پايداري‌داده مجموع{{ه در مث{{ال عن{{وان ‌ب{{هيافت. خواهد

Breast-Cancer8 حدود تنها ،0.4 آستانه مقدار ‌با%‌

‌%‌انتخ{{اب70 ‌بردارينم{{ونه نرخ با هاي خوشه از‌هاي خوش{{ه %‌از82 حدود که حالي در د؛شون مي‌آستانه مقدار همين با %،90 ‌بردارينمونه نرخ با

‌را آستانه مقدار اثر‌(7) شکل‌شوند. مي انتخاب‌داده مجموعه دو در يشنهاديپ روش ييکارا يرو

Wineو‌ Breast-Cancerک{{ه .‌وق{{تيده{{د مي ‌نش{{ان‌‌ها خوشه پايداري مقدار ماکزيمم از آستانه مقدار‌و ش{{ود نمي انتخ{{اب ‌ايخوش{{ه هيچ باش{{د، بيشتر

‌براب{{ر همبستگي ماتريس هاي درايه تمام بنابراين SL الگ{{وريتم ح{{التي چنين در شد، خواهند صفر با

‌روي از را نه{{ايي هاي خوش{{ه استخراج وظيفه که‌ط{{ور ب{{ه دارد، عه{{ده ب{{ر همبس{{تگي م{{اتريس‌‌خوش{هk-1 از ي{{ک ه{{ر ب{{ه را نمون{{ه ي{{ک تص{{ادفي-k خوش{{ه ب{{ه را ها نمونه بقيه و دهد مي اختصاص

‌فرآين{{{{{{{{د طيده{{{{{{{{د.‌ مي تخص{{{{{{{{يص ام‌بزرگ{{ترين ب{{ه -امk خوش{{ه گذاري، بازبرچس{{ب

‌در دلي{{ل همين ب{{هشود.‌ مي داده اختصاص کالس‌،نش{{ود انتخ{{اب اي خوش{ه هيچ وق{{تي (،7) شکل‌.‌نتيج{{هش{{ود نمي ‌کم{{ترk/1 از يبند خوش{{ه ن{{رخ

‌ب{{ا ک{{ه است اين آيد (‌برمي7) شکل از که ديگري‌در تنه{{ا ت{{وان مي پيش{{نهادي روش از اس{{تفاده

‌اولي{{ه هاي خوش{{ه از ک{{وچکي زيرمجموعه حضور‌دس{{ت کام{{ل ت{{رکيب روش از ب{{االتري ج{{واب به

‌برداري نمونه روش (‌با7) شکل به توجه يافت.‌با‌نظ{ر ‌در0.6 ب{ا براب{ر آس{تانه مق{دار اگر ،90%

‌مجموع{{ه دو ه{{ر در پيشنهادي روش شود، گرفته‌‌ياب{{د.‌اگ{{رمي دس{{ت اي بهينه نسبتا جواب به داده‌ق{{رار توج{{ه (‌مورد6) شکل در آستانه مقدار اين

‌مجموع{{ه دو ه{{ر در ک{{ه ش{{ود مي مش{{اهده گيرد،‌ب{{راي اولي{{ه هاي خوش{{ه ک{{ل %‌از35 تنه{{ا داده،

‌گيرند.مي قرار استفاده مورد نهايي ترکيب‌می‌توان{{د پیشنهادی روش است ذکر شایان

‌کوچ{{ک ی{{ا ب{{زرگ داده‌ه{{ای مجموع{{ه ان{{واع روی‌روش اینک{{ه ب{{ه توجه گیرد.‌با قرار استفاده مورد

‌ب{{ه را اولی{{ه خوش{{ه‌های مجم{{ع ان{{دازه پیشنهادی‌آن از اس{{تفاده می‌ده{{د، ک{{اهش چشمگیری طور‌بهب{ود ب{ه می‌توان{د بزرگ داده‌های مجموعه برای

کند. کمک مسئله باالتر سرعت و زمانی پیچیدگی

Page 13: Template

eniW

0

1.0

2.0

3.0

4.0

5.0

6.0

7.0

8.0

9.0

1

0 2.0 4.0 6.0 8.0 1

dlohserhTsre

tsu

lC d

etc

ele

S f

o %

%05‌gnilpmaS

%06‌gnilpmaS

%07‌gnilpmaS

%08‌gnilpmaS

%09‌gnilpmaS

recnaC-tsaerB

0

1.0

2.0

3.0

4.0

5.0

6.0

7.0

8.0

9.0

1

0 2.0 4.0 6.0 8.0 1

dlohserhT

sre

tsu

lC d

etc

eleS

fo

%

%09‌gnilpmaS

%08‌gnilpmaS

%07‌gnilpmaS

(A(‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌)B)

A)‌Wine‌‌‌‌B)Breast-Cancer:‌هاي‌داده‌مجموعه‌در‌انتخابي‌هاي‌خوشه‌درصد‌روي‌آستانه‌مقدار‌:‌اثر‌6شکل

i Robustnessii Noveltyiii Stabilityiv ّFlexibilityv Hierarchicalvi Partitionalvii Initializationviii Featuresix Resamplingx Evidence Accumulation Clusteringxi Partitionsxii Robustxiii Pairwisexiv Cluster Validityxv Jaccard Coefficientxvi Support Vector Machinexvii Outliersxviii Nearest Neighbor Resamplingxix Kernelized Validity Measurexx Full Ensemblexxi Sum of Normalized Mutual Informationxxii Normalized Mutual Informationxxiii Multiobjectivexxiv Extended EAC (EEAC)xxv Single Linkage(SL) or Average Linkage(AL)xxvi Goodnessxxvii Perturbationxxviii Mutual Information (MI)xxix Single Linkagexxx Relablingxxxi Subsamplingxxxii Adaptive

Page 14: Template

eniW

2.0

3.0

4.0

5.0

6.0

7.0

8.0

9.0

1

0 2.0 4.0 6.0 8.0 1

dlohserhT

ecn

am

rofr

eP

%07‌gnilpmaS

%08‌gnilpmaS

%09‌gnilpmaS

recnaC-tsaerB

6.0

56.0

7.0

57.0

8.0

58.0

9.0

59.0

1

0 2.0 4.0 6.0 8.0 1

dlohserhT

ecn

am

rofr

eP

%09‌gnilpmaS

%08‌gnilpmaS

%07‌gnilpmaS

(A(‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌)B)A)‌Wine‌‌‌‌B)Breast-Cancer:‌هاي‌داده‌مجموعه‌در‌پيشنهادي‌روش‌کارايي‌روي‌آستانه‌مقدار‌:‌اثر‌7شکل

Page 15: Template

گيري‌.‌نتيجه5‌ب{{{{راي جدي{{{{د روش ي{{{{ک مقال{{{{ه اين در‌مبت{{ني که است شده پيشنهاد ترکيبي بندي خوشه

‌ازباشد.‌ مي اوليه ‌هايخوشه از اي زيرمجموعه بر‌از حاص{{{{ل هاي خوش{{{{ه کيفيت ک{{{{ه ج{{{{ايي آن

‌حض{{ور ح{{تي و نيس{{ت براب{{ر پاي{{ه ه{{اي الگوريتم‌نتيج{{ه ش{{دن بدتر به منجر تواند مي آنها از تعدادي‌روش{{ي مقال{{ه اين در ش{{ود، ترکي{{بي بندي خوش{{ه‌از م{{وثرتر و ت{{ر بهينه زيرمجموع{{ه انتخ{{اب ب{{راي‌نه{{ايي ت{{رکيب در ش{{رکت ب{{راي اوليه هاي خوشه‌پيش{{ين ه{{اي روش که اين به توجه شد.‌با پيشنهاد‌نت{{ايج ت{{رکيب ب{{راي همبس{{تگي ماتريس بر مبتني‌هاي خوش{{ه اس{{تخراج ب{{راي الزم توان{{ايي ،اولي{{ه‌را اولي{{ه هاي خوش{{ه زا اي زيرمجم{{وعه از نه{{ايي‌انباشت براي جديد روش يک مقاله اين در ندارند،‌ش{{ده پيش{{نهاد ن{{يز همبس{{تگي م{{اتريس در نت{{ايج

‌يافته توسعه مدارک انباشت روش را آن که است‌پيش{{{{نهادي روش تج{{{{ربي ‌نت{{{{ايجايم. نامي{{{{ده‌داده مجموع{{ه پنج روي ب{{ر ترکي{{بي بندي خوش{{ه‌روش اين ک{{ه ده{{د مي نش{{ان متن{{وع و مختل{{ف‌س{{اير همچ{{نين و مت{{داول ‌ه{{ايروش ب{{ه نس{{بت‌دارد. ‌ايمالحظه قاب{ل برت{ري ترکي{بي ه{اي روش‌ب{{ه از اس{{تفاده که دهند مي نشان آزمايش‌ها نتايج‌‌توان{{دمي اولي{{ه هاي خوشه %‌از35 متوسط طور‌بهب{{ود م{{وثري طور به را ترکيبي بندي خوشه نتايج

‌ک{ه دن{ده مي نش{ان ها بررس{ي بخش{د.‌همچ{نين،‌از کوچکي زيرمجموعه از پيشنهادي روش اگرچه‌خ{{اطر ب{{ه ‌کند،مي استفاده اوليه هاي خوشه نتايج‌ح{{ذف همچ{{نين، و زيرمجموع{{ه، اين ب{{ودن م{{وثر

‌روي منفي ت{{اثير ک{{ه پ{{ايين کيفيت ب{{ا هاي خوش{{ه‌نتايج گذارند، مي ‌هانمونه واقعي همبستگي ميزان‌شود. مي بهتر هم کامل ترکيب از حتي نهايي

مراجع1-JainA., Murty M. N., and Flynn P. (1999), Data clustering: A review. ACM Computing Surveys, 31(3):264–323.2 - Faceli K., Marcilio C.P. Souto d. (2006), Multi-objective Clustering Ensemble, Proceedings of the Sixth International Conference on Hybrid Intelligent Systems (HIS'06).3 - Strehl A. and Ghosh J. (2002), Cluster ensembles - a knowledge reuse framework for combining multiple partitions. Journal of Machine Learning Research, 3(Dec):583–617.4 - Fred, A.L.N. and Jain, A. K. (2002). “Data Clustering Using Evidence Accumulation”, Proc. of the 16th Intl. Conf. on Pattern Recognition, ICPR02, Quebec City, pp. 276 – 280.5 - Fred A. and Lourenco A. (2008), Cluster Ensemble Methods: from Single Clusterings to Combined Solutions, Studies in Computational Intelligence (SCI), 126, 3–30.6 - Ayad H.G. and Kamel M.S. (2008), Cumulative Voting Consensus Method for Partitions with a Variable Number of Clusters, IEEE Trans. on Pattern Analysis and Machine Intelligence, VOL. 30, NO. 1, 160-173.7 - Topchy, A., Jain, A.K. and Punch, W.F. (2003), “Combining Multiple Weak Clusterings”, Proc. 3d IEEE Intl. Conf. on Data Mining, pp. 331-338.8 - Duda R.O., Hart P.E., and Stork D.G. (2001), Pattern Classification, second ed. Wiley, 2001. 9 - Jain A.K. and Dubes R.C. (1988), Algorithms for Clustering Data. Prentice Hall.10 - Kaufman L. and Rosseeuw P.J. (1990), Finding Groups in Data: An Introduction to Cluster Analysis. John Wiley & Sons, Inc.

11 - Man Y. and Gath I. (1994), “Detection and Separation of Ring-Shaped Clusters Using Fuzzy Clusters” IEEE Trans. Pattern Analysis and Machine Intelligence, vol. 16, no. 8, pp. 855-861.12 - Minaei-Bidgoli B., Topchy A. and Punch W.F. (2004), “Ensembles of Partitions via Data Resampling”, in Proc. Intl. Conf. on Information Technology, ITCC 04, Las Vegas.13 - Alizadeh H., Amirgholipour S.K., Seyedaghaee N.R. and Minaei-Bidgoli B. (2009), Nearest Cluster Ensemble (NCE): Clustering Ensemble Based Approach for Improving the performance of K-Nearest Neighbor Algorithm, 11th Conf. of the International Federation of Classification Societies, IFCS09, March 13–18. (in press).14 - Mohammadi M., Alizadeh H. and Minaei-Bidgoli B. (2008), “Neural Network Ensembles using Clustering Ensemble and Genetic Algorithm”, 2008 Intl. Conf. on Convergence and hybrid Information Technology, ICCIT08, Nov. 11-13, IEEE CS, Korea.15 - Barthelemy J.-P. and Leclerc, B. (1995). The median procedure for partition, In Partitioning Data Sets, AMS DIMACS Series in Discrete Mathematics, Cox, I. J. et al eds., 19, pp. 3-34.16 - Fern, X. and Brodley, C. E. (2003). Random Projection for High Dimensional Data Clustering: A Cluster Ensemble Approach, In Proc. 20th Int. conf. on Machine Learning, ICML 2003.17 - Dudoit S. and Fridlyand, J. (2003), “Bagging to improve the accuracy of a clustering procedure”, Bioinformatics, 19 (9), pp. 1090-1099.18 - Ayad H. and Kamel M. (2005), Cluster-based cumulative ensembles. In N. Oza and R. Polikar, editors,

Page 16: Template

Proc. the 6th Intl. Workshop on Multiple Classifier Systems, pages 236–245. LCNS 3541.19 - Fred A.L. and Jain A.K. (2005). Combining Multiple Clusterings Using Evidence Accumulation. IEEE Trans. on Pattern Analysis and Machine Intelligence, 27(6):835–850.20 - Kuncheva L.I. and Hadjitodorov S. (2004). Using diversity in cluster ensembles. In Proc. of IEEE Intl. Conference on Systems, Man and Cybernetics, pages 1214–1219.21 - Fred A.L., Jain A.K. (2006), Learning Pairwise Similarity for Data Clustering, In Proc. of the 18th Int. Conf. on Pattern Recognition (ICPR'06).22 - Baumgartner R., Somorjai R., Summers R., Richter W., Ryner L., and Jarmasz M. (2000), Resampling as a Cluster Validation Technique in fMRI, JOURNAL OF MAGNETIC RESONANCE IMAGING 11: pp. 228–231.23 - Law M.H.C., Topchy A.P., and Jain A.K. (2004). Multiobjective data clustering. In Proc. of IEEE Conference on Computer Vision and Pattern Recognition, volume 2, pages 424–430, Washington D.C.24 - Shamiry O., Tishby N. (2007), Cluster Stability for Finite Samples, 21st Annual Conference on Neural Information Processing Systems (NIPS07).25 - Lange T., Braun M.L., Roth V., and Buhmann J.M. (2003). Stability-based model selection. In Advances in Neural Information Processing Systems 15. MIT Press.26 - Breckenridge J. (1989), Replicating cluster analysis: Method, consistency and validity, Multivariate Behavioral research.27 - Fridlyand J. and Dudoit S. (2001). Applications of resampling methods to estimate the number of clusters and to improve the accuracy of a clustering method. Stat. Berkeley Tech Report. No. 600.28 - Levine E., Domany E. (2001), Resampling Method for Unsupervised Estimation of Cluster Validity. Neural Computation 13: 2573-2593.29 - Roth V., Lange T., Braun M., and Buhmann J. (2002), A Resampling Approach to Cluster Validation, Intl. Conf. on Computational Statistics, COMPSTAT.30 - Roth V., Braun M.L., Lange T., and Buhmann J.M. (2002), Stability-Based Model Order Selection in Clustering with Applications to Gene Expression Data, ICANN 2002, LNCS 2415, pp. 607–612.

31 - Rakhlin A. and Caponnetto A. (2007), Stability of k-means clustering, In Advances in Neural Information Processing Systems 19, MIT Press, Cambridge, MA.32 - Luxburg U.V. and Ben-David S. (2005), Towards a statistical theory of clustering, Technical report, PASCAL workshop on clustering, London.33 - Roth V. and Lange T. (2004), Feature Selection in Clustering Problems, In Advances in Neural Information Processing Systems, NIPS04.34 - Lange T., Roth V., Braun M.L., and Buhmann J.M. (2004). Stability-based validation of clustering solutions. Neural Computation, 16(6):1299–1323.35 - Ben-Hur A., Elisseeff A. and Guyon I. (2002), A stability based method for discovering structure in clustered data, in Pasific Symposium on Biocomputing, vol. 7, pp. 6-17.36 - Estivill-Castro V. and Yang J. (2003), Cluster Validity Using Support Vector Machines, DaWaK 2003, LNCS 2737, pp. 244–256.37 - Moller U., Radke D. (2006), A Cluster Validity Approach based on Nearest-Neighbor Resampling, In Proc. of the 18th Int. Conf. on Pattern Recognition (ICPR'06).38 - Brandsma T. and Buishand T.A. (1998), “Simulation of extreme precipitation in the Rhine basin by nearest-neighbour resampling”, Hydrology and Earth System Sciences 2, pp. 195-209.39 - Inokuchi R., Nakamura T. and Miyamoto S. (2006), Kernelized Cluster Validity Measures and Application to Evaluation of Different Clustering Algorithms, in proc. of the IEEE Int. Conf. on Fuzzy Systems, Canada, July 16-21.40 - Xie X.L., Beni G. (1991), A Validity measure for Fuzzy Clustering, IEEE Trans. on Pattern Analysis and Machine Intelligence, Vol.13, No.4, pp. 841–846.41 - Das A.K. and Sil J. (2007), Cluster Validation using Splitting and Merging Technique, in proc. of Int. Conf. on Computational Intelligence and Multimedia Applications, ICCIMA.42 - Fern X.Z. and Lin W. (2008), Cluster Ensemble Selection, SIAM International Conference on Data Mining (SDM08).43 - Newman C.B.D.J., Hettich S. and Merz C. (1998), UCI repository of machine learning databases, http://www.ics.uci.edu/˜mlearn/MLSummary.html

Page 17: Template

Abstract: Most of the recent studies have tried to create diversity in primary results and then applied a consensus function over all the obtained results to combine the weak partitions. In this paper a clustering ensemble method is proposed which is based on a subset of primary clusters. The main idea behind this method is using more stable clusters in the ensemble. The stability is applied as a goodness measure of the clusters. The clusters which satisfy a threshold of this measure are selected to participate in the ensemble. For combining the chosen clusters, a co-association based consensus function is applied. A new EAC based method which is called Extended Evidence Accumulation Clustering, EEAC, is proposed for constructing the Co-association Matrix from the subset of clusters. The proposed method is evaluated on five different UCI repository data sets. The empirical studies show the significant improvement of the proposed method in comparison with other ones.Key‌words:‌‌Clustering Ensemble, Cluster Stability, Mutual Information, Co-association Matrix

متن‌در‌استفاده‌ترتيب‌به‌انگليسي‌هاي‌واژه