template
DESCRIPTION
tTRANSCRIPT
![Page 1: Template](https://reader035.vdocuments.net/reader035/viewer/2022062407/563dbb84550346aa9aaddd5a/html5/thumbnails/1.jpg)
ايزيرمجموعهبرمبتنيترکيبيبنديخوشهاوليههايخوشهاز
بيدگليميناييبهروزوپروینحمیدمشکي،محسنعليزاده،حسينايرانصنعتوعلمدانشگاه،کامپيوترمهندسيدانشکده
چکيدهابت777دامیکنن777دس777عیترکی777بیبنديخوش777هح777وزهدراخ777یرمطالع777اتاک777ثر
ب77اسپسباشند،پراکندگیدارایممکنحدتاکهکنندتولیداولیهایخوشهبندیهایي77کمقال77هاينمیکنن77د.درت77رکیبهمب77ارانتایجاینهمهتوافقیتابعیکاعمالتم77امازاس77تفادهج77ایبهآندرکهاستشدههئاراترکيبيبنديخوشهجديدروشاصليايدهد.شومياستفادهاوليههايخوشهازايزيرمجموعهازتنهااولیه،نتایجت77رکیباس77ت.ب77راينه77اييت77رکيبدرپاي77دارهايخوش77هازاستفادهروشايندر
ش7دهاس7تفادههمبس7تگيم7اتريسب7رمبت7نيتوافقيتابعازانتخابي،هايخوشهازتع77داديتنهابودندسترسدرباهمبستگيماتريسساختکهجاييآناست.ازب77هجديدروشيکمقالهايندرباشد،نميپذيرامکانموجودهايروشباها،خوشه
ازهمبس7تگيم7اتريسس7اختب7راي،يافت7هتوسعهمدارکانباشتبنديخوشهنامپاي77داريازها،خوش77هارزيابياست.برايشدهپيشنهادهاخوشهازايزيرمجموعه
مجموع77هچن77دينرويتجربياست.نتايجشدهاستفادهمتقابلاطالعاتبرمبتنينت777ايجم777وثريط777ورب777هپيش777نهاديروشک777هده777دمينش777اناس777تانداردداده
س7ايرب7امقايسهدرنتايجمقايسههمچنين،دهد.ميبهبودرااوليههايبنديخوشهدارد.پيشنهاديروشبااليکاراييازنشانترکيبيبنديخوشههايروش
ماتريسمتقابل،اطالعاتخوشه،پايداريترکيبي،بنديخوشهها:کليدواژههمبستگي.
![Page 2: Template](https://reader035.vdocuments.net/reader035/viewer/2022062407/563dbb84550346aa9aaddd5a/html5/thumbnails/2.jpg)
.مقدمه1
جداكردن اطالعات، خوشهبندي اصلي ايدهيهاگروه در آنها دادن قرار و يكديگر از نمونههانمونههاي كه معني اين به.ميباشد هم به شبيهبا و بگيرند قرار گروه يك در بايد هم به شبيه
دارا را تفاوت حداکثر ديگر گروههاي نمونههاييروشها اکثر که آنجا از[.1،2] باشند
دادهها از يخاص يجنبهها يرو هيپا يخوشهبنديدادهها مجموعه يرو جهينت در کنند، مي ديتاک
به نياز دليل، همين به.باشنديم کارآمد يخاصترکيب از استفاده با بتواند که است روشهايي
نتايج يک، هر قوت نقاط گرفتن و الگوريتمها ايناصلي هدف واقع کند.در توليد را بهينهتري
و بهتر نتايج جستجوي ترکيبي خوشهبنديو اطالعات ترکيب از استفاده با تر، مستحکم
] است اوليه بندي خوشه چندين از حاصل نتايجنشان زمينه اين در اخير تحقيقات[.3،4،5طور به توانديم دادهها يخوشهبند که اند داده
سود داده افراز نيچند بيترک از يريچشمگيجوابها توانديم يبيترک يببرد.خوشهبند
و iiiپايداري ،iiبودن نو ،iاستحکام نظر از يبهترهيارا پايه هاي روش به نسبت ivانعطافپذيري
[.3،5،6،7دهد]
خوش7777هبنديدرپراکن7777دگيايج7777اد1-1ترکيبيشامل ترکيبي خوشهبندي خالصه طور به
و اوليه نتايج توليدالف( اصلي مرحله دونهايي هاي خوشه استخراج براي نتايج ب(ترکيب
خوشهبندي تعدادي اول مرحله [.در3] باشدميخاصي ويژگي بر کدام هر که میشود ایجاد اوليه
روش سادهترين و اولين.دارند تاکيد دادهها ازمجموعه يک از پراکنده و مختلف نتايج ايجاد برايمختلف الگوريتمهاي از استفاده داده،
الگوريتم هر اینکه به توجه است.با خوشهبندينگاه مسئله به خاصي جنبه يک از خوشهبندي
روشهاي در موجود خطاهاي بنابراين ميکند،امر باشد.اين متفاوت هم با ميتواند مختلف،نتايج در پراکندگي ايجاد موجب ميتواند
جمله گردد.از خوشهبندي پايه الگوريتمهايمعموال که پايه خوشهبندي الگوريتمهاي مهمترين
شامل ميشوند استفاده ترکيبي خوشهبندي درv [1،7،8]سلسلهمراتبي خوشهبندي الگوريتمهاي
vi [8،9،10،1افرازبندي خوشهبندي الگوريتمهاي ودليل به ،K-means الگوريتمباشند. [مي1
معموال خوشهبندي، در مناسب توانايي و سادگيعنوان به ترکيبي خوشهبندي روشهاي بيشتر در
ميشود] استفاده پايه، خوشهبندي الگوريتم12،13،14.]
به پراکندگي، ايجاد براي ديگر رويکردالگوريتم يک از متنوع نتايج آوردن دست
روشهاي از يکي از استفاده با پايه خوشهبنديباشد. مي زير
اوليه مقادير تغييرvii خوشهبندي الگوريتم[4] شده انتخاب
انتخاب خوشهبندي الگوريتم پارامترهاي تغيير[15] شده
از مختلف زيرمجموعههاي از استفادهviii [3،5]ويژگيها
ديگر ويژگي فضاهاي به دادهها نگاشت [5،16]
زير به اصلي دادههاي تقسيمبنديمجزا و متفاوت مجموعههايي
[3،12،17(]ixبرداري )بازنمونهدست به يروشها ترين مهم بندي طبقه
(1) شکل در اوليه، نتايج در يپراکندگ آوردناست. شده ارايه
دريپراکندگايجاديروشهايطبقهبند:1شکليبيترکيخوشهبند
روش چندين از استفاده با مقاله اين درشده اوليه هايبندي خوشه در تنوع ايجاد در سعي
هاي زيرمجموعه ايجاد و برداري است.بازنمونهو مختلف هاي الگوريتم ها،داده از متفاوت
*2188839894فاکس: ،09112224341مسئول:تلفن: نويسنده، Email: [email protected]
روشهايايجادپراکندگيدر
خوشهبنديترکيبي
استفادهازيک
الگوريتم
هاالگوريتميمختلف
مقداردهياوليهمختلف
پارامترهايمختلف
هايمختلفاززيرمجموعههاويژگي
هابهفضايتصويردادههايجديدويژگي
هايمختلفزيرمجموعههاازداده
روشقطعي
بردابازنمونهري
الگوريتمهاي
سلسلهمراتبي
هاالگوريتمي
افرازبندي
اتصالمنفرد
اتصالکامل
اتصالميانگين
Forgy
K-means
Isodata
![Page 3: Template](https://reader035.vdocuments.net/reader035/viewer/2022062407/563dbb84550346aa9aaddd5a/html5/thumbnails/3.jpg)
مورد هاي روش جمله از مختلف پارامترهايالزم پراکندگي ايجاد براي مقاله اين در استفاده
باشد. مي اوليه نتايج در
توافقيتابع1-2تا که شدند توليد اوليهای نتايج اينکه از پس
يک از استفاه با معموال بودند، پراکنده ممکن حديکيشوند. مي ترکيب نتايج اين کننده ترکيب تابعاز استفاده نتايج ترکيب هايروش ترين متداول از
بعدي هاي بخش در که است همبستگي ماتريسروششد. خواهد تشريح مفصل طور به
(کهEACx) مدارک انباشت ترکيبي بندي خوشهبار اولين است همبستگي ماتريس بر مبتنيخيلي و شد [مطرح4] در جين و فرد توسط
درآمد.امروزه متداول روش يک صورت به زودهمبستگي ماتريس بر مبتني نيز ديگري هاي روش[.6] اندشده ارايهماتريس بر مبتني روش يک از مقاله اين در
است. شده استفاده نتايج ترکيب براي همبستگياز تعدادي پيشنهادي روش در که جايي آن از
دست به را الزم پايداري که اوليه هاي خوشهروش شوند، مي حذف فرآيند اين در اند، نياوردهبه تواندنمي همبستگي ماتريس ساخت معمولدهد.در تشکيل را همبستگي ماتريس درستيماتريس ساخت براي جديد روش يک اينجا
اوليه هايخوشه از اي زيرمجموعه از همبستگيالگوريتم يک از نهايت است.در شده پيشنهادماتريس از نتايج استخراج براي مراتبي سلسله
.شود مي استفاده همبستگي
مرتبط.کارهاي2سعي ترکيبي بندي خوشه هاي روش
توليد مختلف xiافرازهاي ترکيب با تا کنندميافراز يک پايه، بنديخوشه هاي روش از شده
،3،18،19] کنند توليد را ها داده از xiiمستحکموزن با افرازها همه اخير، مطالعات اکثر [.در20
همه و شوند مي حاضر نهايي ترکيب در برابروزن با نيز هاافراز همه در موجود هاي خوشه[.21] دکنن مي شرکت نهايي ترکيب در برابر
از انتخاب براي معيار [يک3] در گاش و استرلبر مبتني که اند کرده ارايه ممکن ترکيبات ميان
کار، اين براياست. بندي خوشه يک کلي کيفيتافرازهاي و ترکيبي افراز بين ثبات ميزان آنهايک از استفاده با و اند گرفته نظر در را پايه
به دو شباهت معيار يک ثابت، ترکيبي قاعده
کار به -بعديd هاي ويژگي فضاي روي را xiiiدو.اند برده
بندي خوشه براي پايه هاي الگوريتم اکثر درشود. مي استفاده هاداده برداري نمونه از ترکيبيارزيابي چگونگي ها روش اين در اصلي مسئلهو بامگارتنر(است.افراز) بندي خوشه و خوشه
بر مبتني روش [يک22] در همکاراناعتبارسنجي بررسي براي را برداري بازنمونه
چند دراند. کرده ارايه فازي بنديخوشه نتايجمعيار يک عنوان به خوشه پايداري ،اخير سال
گرفته قرار زيادي توجه مورد خوشه ارزيابيبراي اوليه هاي [.ايده21،23،24،25است]
برداري بازنمونه از استفاده با خوشه اعتبارسنجيتر [کامل27،28] در بعدها و شده [ارايه26] در
[يک29،30] در نيز همکاران و راساست. شدهبراي برداري بازنمونه بر مبتني روش
اصلي اند.عنصرکرده ارايه خوشه اعتبارسنجيهاي روش يشده کامل واقع در که روش، اين در
است.معيار خوشه پايداري ،باشد مي پيشيندست به افرازهاي همبستگي ميزان پايداري،
داده مجموعه از مستقل برداري نمونه دو از آمدهپايداري ميزان چه هرکند. مي گيرياندازه را
معني اين به باشد، بيشتر بندي خوشه يک برايمرتبه چندين بنديخوشه الگوريتم اگر که استيمشابه نتايج رود، کار به ها نمونه آن روي ديگر
النژ و راس همچنين،.[31،32] شود مي حاصلبندي خوشه براي جديد الگوريتم [يک33] در
ويژگي انتخاب بر مبتني که اندکرده ارايهبر مبتني پايداري معيار از روش اين درباشد. مي
پارامترهاي انتخاب براي ها، داده برداري بازنمونهاست.چندين شده استفاده بنديخوشه الگوريتم
استفاده ايده بر مبتني xivخوشه اعتبارسنجي روشو هور [.بن34] است شده پيشنهاد پايداري از
محاسبه براي [روشي35] در نيز همکارانبين شباهت مبناي بر که اند کرده ارايه پايداريکند.مي عمل متفاوت هاي بنديخوشه در ها نمونه
از استفاده با همبستگي ماتريس ابتدا روش، اين در.سپسآيد مي دست به برداري بازنمونه روشبر پايداري معيار عنوان به xvجاکارد ضريبهمچنين،شود. مي محاسبه ماتريس اين اساسارزيابي براي [روشي36] در يانگ و کاسترو
که اند کرده يهاار بندي خوشه نهايي افرازهاياينکند. مي استفاده xviپشتيبان بردار ماشين از
xviiدورافتاده هاي داده و نويزها شناسايي با روش
يافته دست استحکام داراي بندي خوشه نتايج بهبرداري بازنمونه [از37] در رادک و است.مولر
![Page 4: Template](https://reader035.vdocuments.net/reader035/viewer/2022062407/563dbb84550346aa9aaddd5a/html5/thumbnails/4.jpg)
اعتبارسنجي (برايNNRxviii) همسايه تريننزديکروش ايناند. کرده استفاده بندي خوشه نتايج
هاي سري تحليل در بار اولين برداري بازنمونهو [.اينوکوچي38] است رفته کار به زماني
هسته- اعتبارسنجي [معيار39] در همکارانروش اين در د.هستهان کرده پيشنهاد xixمحور
ماشين در شده استفاده مرکزي تابع معني بهدو روش، اين درباشد. مي پشتيبان بردار
است:اولي گرفته قرار توجه مورد شاخصهاست خوشه داخل فازي کواريانس مقادير مجموع
[.در40] ژي-بن هسته بر مبتني شاخص دومي ونتايج ارزيابي براي شاخص دو اين از روش اين
ها خوشه تعداد تعيين همچنين، و بندي خوشهو داس.است شده استفاده خطي غير مرزهاي با
تعداد تعيين براي [روشي41] در سيلاعتبارسنجي از که اندکرده ارايه ها خوشهبهره آنها ادغام و تقسيم براي ها خوشه
براي [روشي42] در لين و .فرنبرد مياز که اند کرده پيشنهاد ترکيبي بندي خوشه
در اوليه افرازهاي از موثرتري يزيرمجموعهچه اگر روش اين درکند. مي استفاده نهايي ترکيبنهايي ترکيب در کننده شرکت اعضاي تعداداست، xxکامل ترکيبي بندي خوشه يک از کمترنتايج باالتر، کارايي با افرازهاي انتخاب دليل به
اين در که پارامترهايييابند. مي بهبود نهايي:از عبارتند ،اند گرفته قرار توجه مورد روشتا کند مي سعي روش پراکندگي.اين و کيفيت
وارد را اوليه نتايج از افرازهايي از اي زيرمجموعهکيفيت ميزان باالترين از که کند نهايي ترکيب
هم به نسبت حال عين در و بوده برخوردارروش اين باشند.در دارا را پراکندگي بيشترين
شده هنجارسازی متقابل اطالعات مجموع معيار از(SNMIxxi)با مقايسه در افراز يک )براي
کيفيت گيري اندازه ترکيب(براي ديگر افرازهايمعيار است.همچنين، شده استفاده افراز يک
)بين(NMIxxii) شده هنجارسازی متقابل اطالعاتترکيب(براي در موجود افرازهاي تمام
به ترکيب براي الزم پراکندگي گيري اندازه[نشان42] در لين و فرناست. رفته کاربندي خوشه به نسبت آنها روش که دنده مي
کارايي از تصادفي انتخاب روش يا و کامل ترکيبي[يک23] در بقيه و است.الو برخوردار يبهتر
اند کرده ارايه xxiiiيچندهدف بندي خوشه روششده توليد اوليه هاي خوشه انتخاب بر مبتني که
طي در بندي،خوشه مختلف هاي الگوريتم توسطروش، اين .درباشد مي سازيبهينه روال يک
هاي بخش براي هدف توابع از مجموعه بهترينفرد.است شده انتخاب ويژگي فضاي از مختلف
ترکيبي بندي خوشه روش [يک21] در جين ومعيار از استفاده با آن در که اند کرده ارايه
داده آموزش دو به دو شباهت ،خوشه پايدارياز استفاده جاي به روش، اين درشود. مي
نهايي، افراز بر مبتني ارزيابي معيارهاينواحي در پايه هاي الگوريتم از حاصل افرازهايارزيابي مورد -بعديd ويژگي فضاي از مختلف.است گرفته قرار
پيشنهادي.روش3از استفاده روش اين در اصلي ايده
کل جاي به اوليه خوشههاي از زيرمجموعهايآن است.از ترکيبي خوشهبندي در خوشهها
حاصل خوشههاي تمام ميرسد نظر به که جاييپايداري از اوليه خوشهبندي الگوريتمهاي از
از تنها روش اين در نباشند، برخوردار باالييماتريس در باال پايداري مقدار با خوشههاياستفاده نهايي ترکيب در نتيجه در و همبستگي
معيار اساس بر خوشهها است.انتخاب شدهمتقابل اطالعات بر مبتني خوشه پايداري
ميگيرد.نماي (صورتNMI) شده هنجارسازیداده (نشان2) شکل در پيشنهادي روش از کلياست. شده
روشهاي از استفاده با ابتدا روش اين درانجام اوليه خوشهبنديB تعداد پراکندگي ايجاد
از استفاده با ميتواند کار ميشود.اينالگوريتمهاي از استفاده دادهها، از نمونهبرداري
زيرمجموعهاي از استفاده خوشهبندي، مختلفبراي مختلف پارامترهاي انتخاب يا و ويژگيها ازاز اينجا شود.در انجام خوشهبندي الگوريتم يک
مراتبيسلسله هاي الگوريتم وK-means الگوريتماست. شده استفاده اوليه نتايج توليد رايب
-K الگوريتم براي اوليه نتايج در الزم پراکندگيmeans،مراکز اوليه نقاط تصادفي انتخاب با نيز
شده فراهم برداري نمونه با همچنين و خوشههااست.
م{{ورد آم{{ده دس{{ت ب{{ه خوش{{ههاي بعد مرحله درخوش{{ه ه{{ر کيفيت ت{{ا ميگيرن{{د ق{{رار ارزي{{ابيمعي{{ار از خوش{{ه ارزي{{ابي ش{{ود.ب{{راي مش{{خصاس{{ت.چگ{{ونگي ش{{ده اس{{تفاده خوش{{ه پايداريمفص{{ل ط{{ور به بعدي بخش در خوشهها ارزيابيه{{ر پاي{{داري اينک{{ه از اس{{ت.پس ش{{ده تش{{ريحانتخ{{اب عم{{ل بع{د، گ{{ام در ش{د، محاسبه خوشه
انج{{ام خوش{{ه پاي{{داري مقدار به توجه با خوشهها
![Page 5: Template](https://reader035.vdocuments.net/reader035/viewer/2022062407/563dbb84550346aa9aaddd5a/html5/thumbnails/5.jpg)
مق{{دار از ک{{ه خوش{{ههايي کار اين د.برايشو ميدر ش{{{رکت ب{{{راي باش{{{ند فرات{{{رth آس{{{تانه
بعدي گام ميشوند.در انتخاب نهايي خوشهبنديو ش{{ده ت{{رکيب هم ب{{ا ش{{ده انتخ{{اب خوش{{ههايآي{{د. مي دس{{ت ب{{ه آنه{{ا از نه{{ايي خوش{{ههايخوش{{هبنديهاي ت{{رکيب براي مختلفي روشهاي
وج{{ود نه{{ايي خوش{{ههاي آوردن دس{{ت به و اوليهک{{ه است اين دارد وجود اينجا در که دارد.تفاوتي
خوش{{هبندي ه{{ر از ک{{ه است ممکن روش اين درباش{{ند.از موج{{ود خوش{{هها از تعدادي تنها اوليه،
) م{{دارک انباش{{ت روش از اس{{تفاده که جايي آنEACدر را ه{{انمونه جفت بين شباهت تواند (نمي
درس{{تي ب{{ه ها خوش{{ه از تع{{دادي تنه{{ا حض{{ورب{{راي جديد روش يک مقاله اين در دهد، صتشخيانباشت را آن که است شده پيشنهاد نتايج ترکيب توسعه مدارک
ترکيبيخوشهبنديبرايپيشنهاديالگوريتم:روال2شکل
ک{{{ه روش ايم.اين (نامي{{{دهEEACxxiv) يافت{{{هب{{{راي همبس{{{تگي م{{{اتريس اس{{{تخراج توان{{{ايي
از تع{{دادي تنه{{ا ک{{ه ش{{رايطي -در ه{{ا نمونهه{{اي بخش در دارد، -راهس{{تند موج{{ود ها خوش{{هس{{اخت از اس{{ت.پس ش{{ده تش{{ريح بع{{دي
از يکي از استفاده با توان مي همبستگي، ماتريسنف{{ردم اتص{{ال نظ{{ير مراتبي سلسله هايالگوريتم
اس{{تخراج را نه{{ايي هاي خوشه ،xxvميانگين اتصال ياکرد.
خوشهيابيارز3-1يک xxviبرازندگي ميزان که جايي آن ازتابع است، معنيدار داده نقاط کل ميان در خوشه
پارامتر بر عالوهgj(Ci,D) يعني خوشه برازندگينيزD داده مجموعه بهCi خوشه يعني خود اول
خصوصيات بايد برازندگي تابع است.يک وابسته[:23] باشد داشته را زير
تابع با بايد fjخوشهبندي الگوريتم توسط کهداشته منطقي ارتباط ميشود، بهينهAj خاص
gj(Ci براي بيشتر مقدار ديگر، عبارت باشد.به
,D)خوشه که باشد معني اين به Ciبه نسبتالگوريتم به نسبت متناظرا وfj تابع
)بهينهتر( برازندهتر ،Aj خاص خوشهبندياست.
قابل مختلف خوشهبندي توابع به نسبت بايد <gj(Ci,D) اگر ديگر، عبارت باشد.به مقايسه
Dataset
Clustering 1
11c...1kc
Clustering 2
21c...2kc
Primary Results
Clustering M
Bc1...
Bkc
…
EvaluatingtheStability
oftheIndividualClusters
),( 11
11 stabc
...
),( 11kk stabc
),( 21
21 stabc
...
),( 22kk stabc
),( 11BB stabc
...
),( Bk
Bk stabc
),( 11
11 stabc
...
),( 11kk stabc
),( 11HH stabc
...
),( Hk
Hk stabc
… MC Consensus Function
1c
kc
...
Final Results
ClusterSelection(Stability
Thresholding)
ConstructingtheCo-association
MatrixbyEEAC
![Page 6: Template](https://reader035.vdocuments.net/reader035/viewer/2022062407/563dbb84550346aa9aaddd5a/html5/thumbnails/6.jpg)
gl(Ci,D)، کيفيت که گرفت نتيجه بايد آنگاهاست. بهترfl تابع ازfj تابع به توجه باCi خوشهاز -امj خوشهبندي درCi خوشه کيفيت يعني
بهتر -امl خوشهبندي درCi خوشه کيفيتميباشد.
بايد خوشه برازندگي تابع مقدار نهايت درمقايسه قابل مختلف خوشههاي به نسبت
بايد ،gj(Ci,D) = gj(Cl,D) ديگر، عبارت باشد.بهبه نسبتCl وCi خوشههاي که بدهد نتيجهدارند.يعني برابري برازندگي ميزانfj تابعکيفيت از -امj خوشهبندي در خوشه دو اين
برخوردارند. برابريعنوان به ميتواند که معيارهايي از يکي
معيار شود، گرفته نظر در خوشه برازندگي تابعخوشه,اثر [است.پايداري25] خوشه پايداريرا مختلف خوشهبنديهاي نتايج در xxviiآشفتگيايجاد روشهاي مهمترين از ميدهد.يکي انعکاساز استفاده خوشهبندي در آشفتگي
شکل دو به ميتواند که است بازنمونهبرداريشود. انجام جايگذاري بدون يا و جايگذاري با رايج
دراينروشخوشههايپايدارترازخوشهبنديهاياوليهشناساييميشوندو
ماتريسهمبستگينهايي،تنهاازاينخوشههايپايدارتشکيلميشود.يکخوشهپايدار،
خوشهاياستکهاگرآنروشخوشهبنديراچندبارديگرهم،رويآنمجموعهداده)يا
رويمجموعههايمختلفحاصلازنمونهبرداريازآنمجموعهداده(اجراکنيم،بااحتمالزياداينخوشهبازهمديدهخواهدشد.بهعبارتديگر،خوشههايپايداربهخوشههايياطالقميشودکهدرخوشهبنديهايمختلف
رويزيرمجموعههايبهدستآمدهازنمونهبرداريهايمختلفبيشترينتکراررا
داشتهباشند.يعنيباتغييراتجزييدرمجموعهداده،آنخوشههابازهمتکرارشوند.
برايشناساييخوشههايپايدارترنيازبهمکانيزمياستتابتواندپايداريرابرايهر
خوشهازيکخوشهبندي،مستقلازخوشههايديگربهدستآمدهازآنخوشهبندي،حسابکند.براياينکار،فرضکنيدکهميخواهيم
رامحاسبهکنيم.دراينروشCiپايداريخوشهابتدابانمونهبرداريمجموعهدادههايجديدي
درستميشودوخوشهبنديهايمختلفيرويآنصورتميگيرد.سپس،سعيميشودتابه
اينسوالکه”آيااينخوشه،دراينخوشهبنديهاهمظاهرشدهاستيانه؟”
پاسخدادهشود.براياينکاريکمعيارشباهت(P(D))وخوشهبندياوليه(Ci)بينآنخوشه
نشاندادهsim(Ci,P(D))پيشنهادميشودکهباميشود.بااستفادهازاينمعيار،شباهتآنخوشهراباخوشهبنديهايمختلفحاصلازنمونهبرداريمحاسبهميشود.سپسميانگيناينمعيارهايشباهت،بهعنوانميزانپايداري
برگرداندهميشود.درواقعgi(Ci,D)اينخوشهsim(Ci,P(D))ميزاناعتبارخوشهCiرا
مشخصDرويمجموعهدادهPدرخوشهبندي(نشان3ميکند.الگوريتماينروالدرشکل)
دادهشدهاست.
For l:=1 to M doResample D to obtain the perturbed data set D';Run k-means over D' to obtain P(D');Re-labeling P(D') to P(D);Compute score[l] = sim(Ci,P(D));
Endgj(Ci,D) := average of score[l];
بهCiخوشهپايداريمحاسبه:الگوريتم3شکلبرازندگيتابععنوان
ميزان کهsim(Ci,P(D)) محاسبه براي P(D) خوشهبندي نتيجه وCi خوشه بين شباهت
تمام ميشود.ابتدا عمل زير صورت به است،در کهD داده مجموعه به متعلق ديگر نمونههاي
خوشه يک صورت به ندارند، قرارCi خوشهيک ميشود.حال داده نمايشD/Ci مستقل
شده ايجادD/Ci وCi خوشه دو شامل خوشهبندي.اکنونP1={Ci ,D/Ci } ميناميمP1 را آن که است
نمونهبرداري دادههاي روي کهP(D) خوشهبنديدو صورت به بايد نيز است، شده اعمال شده
از حاصل نتايج نهايت در تا شود ارايه خوشهايمنطبق هم با فرآيندي طي خوشهبندي دو اين
بهP(D) در خوشهها همه منظور اين شوند.براي*C ميشوند.خوشه تقسيم*D/C و*C خوشه دو
%از50 از بيش که خوشههايي همه اجتماع ازتشکيل دارند، وجودCi خوشه در نمونههايشان
*D/C خوشه در نيز خوشهها مابقي و ميشود
=P2ميناميمP2 را خوشهبندي ميگيرند.اين قرار
{C* ,D/C*}متقابل اطالعات از .حالxxviii هنجارسازیبراي متداول معيار [که3،4،17(]NMI) شده
خوشهبندي( )نتيجه افراز دو بين شباهت ارزيابيدو بين شباهت اندازهگيري براي است،
جايي آن ميشود.از استفادهP2 وP1 خوشهبندي) نشده هنجارسازی متقابل اطالعات معيار که
![Page 7: Template](https://reader035.vdocuments.net/reader035/viewer/2022062407/563dbb84550346aa9aaddd5a/html5/thumbnails/7.jpg)
MI،) از معموال خوشههاست، اندازه به وابستهدو بينNMI ميشود.رابطه استفادهNMI معيار
محاسبه زير صورت بهP2 وP1 خوشهبنديميشود.
(1)
(2) رابطه ازMI(P1,P2) متقابل، اطالعات کهميآيد. دست به(2)
تعداد نشاندهندهp11 رابطه، اين در که p10است.Ci و*C در موجود مشترک نمونههاي
در موجود مشترک نمونههاي تعداد نشاندهندهD/C*و Ci.استp01نمونههاي تعداد نشاندهنده
p00است.D/Ci و*C در موجود مشترک
در موجود مشترک نمونههاي تعداد نشاندهندهD/C*و D/Ciاست.همچنين mکل تعداد
کل بيانگر ترتيب بهp.j و.pi واقع نمونههاست.در(4) هستند.شکل*C وCi در موجود نمونههاي
را خوشه پايداري محاسبه روش اين از کلي نمايميدهد. نشان
نشاندهندهNMIi (،4) شکل به توجه باميباشد.P2 وP1 خوشهبندي شباهت ميزان
درCi خوشه پايداري ميزان بيانگر همچنينتوجه با مقدار ميباشد.اين نيز -امi خوشهبندي
در سپس وsim(Ci,P(D)) (در3) شکل الگوريتم بهscore[i]ميانگين از کل ميگردد.پايداري ذخيره
ميشود. تشکيل پايداريها اين کل
مبتنيروشباCiخوشهپايداري:محاسبه4شکلNMIبر
(3)
مجموعه در هابندي خوشه تعدادM کهخوشههايي واقع در روش، اينباشد. مي مرجع
خوشهبنديهاي در را تکرار بيشترين که راپايدارتر خوشههاي عنوان به دارند، مختلفبا خوشههاي مرحله اين از ميکند.پس معرفيوارد و شده انتخاب پايداري مقدار باالترينشکل را نهايي خوشهبندي تا ميشوند بعد مرحله
مشخص را آستانه مقدار اينth دهند.پارامترميکند.
انباش77تروشب77ااوليهنتايجترکيب3-2يافتهتوسعهمدارکش{{ده انتخ{{اب خوش{{ههاي مرحل{{ه، اين درروش ميدهن{{د.در تشکيل را همبستگي ماتريسروي خوش{{هبنديm (نت{{ايجEAC) م{{دارک انباشت
م{{{{اتريس در ش{{{{ده نم{{{{ونهبرداري دادهه{{{{ايورودي داده ميشوند.ه{{ر ذخيرهn×n همبستگي
(،EAC) م{{دارک انباش{{ت روش در ماتريس اين ازميشود. (محاسبه4) رابطه صورت به(4)
جفت ک{{{ه اس{{{ت دفع{{{اتي تع{{{دادni,j ک{{{هگروهبن{{دي خوش{{ه ي{{ک در هم ب{{اj وi نمونهه{{اي
ک{ه اس{ت نمونهبرداريه{ايي تع{دادmi,j و شدهاندآن در همزمان طور به نمونهها جفت اين دوي هر
شدهاند. ظاهرروش در آستانهگيري از پس که جايي آن از
در اولي{{ه خوش{{ههاي از تع{{دادي تنه{{ا پيش{{نهادي،رواب{{ط توان{{د نميEAC روش ميباشند، دسترس
ب{{راي دهد.بنابراين تشخيص را ها نمونهجفت بينهمبس{{تگي م{{اتريس از اس{{تفاده ب{{ا نت{{ايج ترکيبهمبس{{تگي نش{{اندادن ب{{راي معي{{اري ي{{ک باي{{د
بين ش{{باهت بتوان{{د ک{{ه ش{{ود تعري{{ف نمونهه{{ااز ايزيرمجم{{{وعه تنه{{{ا حض{{{ور ب{{{ا را ه{{{ا نمونهمحاس{{به و اس{{تخراج درستي به اوليه هاي خوشه
م{{اتريس س{{اخت ب{{راي را خ{{ود روش کن{{د.م{{اخوش{{هها از تع{{دادي ک{{ه ش{{رايطي در همبستگي
) يافت{{ه توس{{عه م{{دارک انباش{{ت اند، ش{{ده حذفEEACم{{{اتريس از ورودي داده (مين{{{اميم.ه{{{ر
(5) رابط{{ه ص{{ورت بهEEAC روش در همبستگيميشود. تعريف
C*
D/C*
Ci
D/Ci
C*
D/C*
C*
D/C*
NMI1
NMI2 NMIM
.....
.....
![Page 8: Template](https://reader035.vdocuments.net/reader035/viewer/2022062407/563dbb84550346aa9aaddd5a/html5/thumbnails/8.jpg)
(5)
niنمون{{{ه ک{{{ه اس{{{ت دفع{{{اتي تع{{{داد iدراس{{ت.ب{{ه ش{{ده ظ{{اهر ش{{ده انتخاب خوشههاي
j نمونه که است دفعاتي تعداد نيز،nj مشابه طوراس{{ت. ش{{ده ظ{{اهر ش{{ده انتخ{{اب خوشههاي در
جفت ک{{{ه اس{{{ت دفع{{{اتي تع{{{دادni,j همچ{{{نين،خوش{{ههاي از خوش{{ه يک در هم باj وi نمونههايدر با که است شدهاند.بديهي ظاهر شده انتخابدر ث{{{{ابت خوش{{{{ههاي تع{{{{داد گ{{{{رفتن نظ{{{{ر
تعداد از کمترnj وni همواره اوليه خوشهبنديهايک{{{ل تع{{{داد همچ{{{نين، و اولي{{{ه افرازه{{{اي ک{{{ل
ميباش{{{{{{{{د.يع{{{{{{{{ني ممکن خوش{{{{{{{{ههاي.
در را زير مثال بحث، شدن تر روشن براي 5 ش{{کل مطابق نمونه5 کنيد بگيريد.فرض نظر
بندي خوش{{ه چه{{ار ک{{ه دارن{{د (وج{{ودA )قس{{متروي اولي{{ه هاي بندي خوشه عنوان بهP4 تاP1 اوليه.(B قس{{مت5 )ش{{کل اس{{ت گرفت{{ه ص{{ورت آن
پاي{{{داري مق{{{ادير ک{{{ه کني{{{د ف{{{رض همچ{{{نين،باشند: زير صورت به شده توليد هاي خوشه
1)()( 32
12 cStabilitycStability
ها خوش{ه انتخ{{اب ب{راي آس{تانه مق{دار اگرافرازه{{اي از اول خوش{{ههاي باش{{د،0.8 با برابرم{{اتريس اکن{{ونش{{وند. مي ح{{ذف س{{وم و اول
ها خوش{{ه بقي{{ه از اس{{تفاده ب{{ا باي{{د همبس{{تگي.C قسمت5 شکل شود.يعني درست
EEACروشباهمبستگيماتريس:ساخت5شکلAنمونه،5شاملداده(مجموعهBچهار(نتايج
ازپسباقيماندههاي(خوشهCاوليهبنديخوشهگيريآستانه
از بع{{{{د و قب{{{{ل همبس{{{{تگي م{{{{اتريس) (و6) رواب{{ط ص{{ورت به ترتيب، به گيري آستانه
بود: خواهد(7(6)
ب{{ا توان{{د مي س{{وم نمون{{ه م{{اتريس اين دربچس{{بد. خوش{ه دو از ک{{دام ه{{ر %به50 احتمال
م{{اتريس اين ب{{ه تري اض{{افه اطالع{{ات بتوان اگرداراي پاي{{دارتر خوش{{ه که ايگونه به کرد، اضافهبين همبس{{{{{تگي مق{{{{{ادير در بيش{{{{{تري وزنبه{{تر عملک{{رد ب{{ه ت{{وانمي ش{{ود، ه{{ايش نمونهبود. اميدوار ترکيبي بندي خوشه
12
34
5
P1 P2
P3 P4
11c 1
2c 21c
31c
41c 4
2c32c
(A)
(B)
P1P2
P3 P4
12c 2
1c
41c 4
2c32c
(C)
th=0.8
22c
22c
![Page 9: Template](https://reader035.vdocuments.net/reader035/viewer/2022062407/563dbb84550346aa9aaddd5a/html5/thumbnails/9.jpg)
(7)
ت{{{وان مي م{{{اتريس دو اين مش{{{اهده ب{{{اناپاي{{دار هايخوش{{ه ح{{ذف چگون{{ه ک{{ه دري{{افت
شود.از همبستگي ماتريس بهبود باعث تواند مي} ه{{اي نمونه ب{{ه مرب{{وط خوش{{ه ک{{ه ج{{ايي آن
باش{{ند، مي پ{{اييني پاي{{داري مقدار داراي{1،2،3م{{اتريس ش{{دن ترروش{{ن م{{وجب آنه{{ا ح{{ذف
الگ{{{وريتم ي{{{ک اکن{{{ونش{{{ود. مي همبس{{{تگيهاي خوش{{ه توان{{دمي ن{{يز س{{اده مراتبي سلس{{لهانتخ{{اب(را از )بعد همبستگي ماتريس در موجود
کند. استخراجروش ب{{ا همبس{{تگي م{{اتريس اينکه از پس
EEACت{{ابع ي{{ک از بع{{د مرحل{{ه در ش{{د، س{{اختهاين از نه{{ايي خوش{{ههاي اس{{تخراج براي توافقي
از يکي از ميش{{ود.معم{{وال اس{{تفاده م{{اتريساس{{تخراج ب{{راي سلس{{لهمراتبي الگوريتمه{{اي
اس{{تفاده همبستگي ماتريس از نهايي خوشههايالگ{{{{{{{وريتم از مقال{{{{{{{ه اين ميش{{{{{{{ود.درش{{ده اس{{تفاده xxixمنف{{رد اتص{{ال سلس{{لهمراتبي
است.
تجربي.نتايج4روش ک{{{{ارگيري ب{{{{ه نت{{{{ايج بخش اين در
و مختل{{{ف ه{{{اي داده مجموع{{{ه روي پيش{{{نهادياست. شده گزارش استفاده مورد پارامترهاي
هادادهمجموعه4-1داده مجموع{{ه5 روي ب{{ر پيش{{نهادي روشاست.ب{{راي گرفته قرار آزمايش مورد استاندارد
مجموع{ه ت{{ا اس{ت ش{ده س{عي آزمايشها انجامو ه{{ا ويژگي تع{{داد ها،کالس تعداد لحاظ از ها داده
برخ{{وردار تن{{وع حداکثر از ها نمونه تعداد همچنينداراي ممکن ح{{د ت{{ا ه{{ا آزمايش نت{{ايج ت{{ا باش{{ند
(1) ج{{{دولباش{{{د. تعميم قاب{{{ل و اس{{{تحکامدر ه{{ا داده مجموع{{ه اين از مختص{{ري اطالع{{ات
م{{ورد در بيش{{تر اطالعات گذارد.برايمي اختيار[43] به توانمي ها داده مجموعه اين از کدام هر
کرد. رجوع
هادادهمجموعه:1جدول
ClassFeaturesSamplesGlass69214
Breast-C29683Wine313178Bupa26345Yeast1081484
ه{{{اي ويژگي روي ب{{{ر آزمايشه{{{ا نت{{{ايجگزارش هاداده مجموعه اين از شده هنجارسازی
از ک{{دام ه{{ر ديگ{{ر عب{{ارت اس{{ت.ب{{ه ش{{دهو صفر ميانگين با هاداده مجموعه اين هاي ويژگي
اند. شده هنجارسازی ،N(0,1) يک، واريانس
آزمايشهانتايج4-2 MATLAB (ver 7.1) محيط در پيشنهادي روش
اس{{ت. گرفت{{ه ق{{رار آزم{{ايش مورد و سازي پيادهاج{{راي ب{{ار10 مي{{انگين روي آزمايشه{{ا نت{{ايج
اس{{ت.عملک{{رد ش{{ده گ{{زارش برنام{{ه مس{{تقلاز اس{{تفاده ب{{ا بندي خوش{{ه مختل{{ف ه{{اي روشب{{ه هاي خوش{{ه بين xxxگذاري بازبرچس{{ب فرايندآنه{{ا مقايس{{ه و واقعي ه{{ايکالس و آم{{ده دس{{ته{{اي روش (عملک{{رد2) ج{{دول.است شده محاسبهنش{{ان پيش{{نهادي روش ب{{ا مقايسه در را مختلف
درص{{{د ج{{{دول اين در موج{{{ود مق{{{اديرده{{{د. ميچهارکند. مي بيان را هانمونه درست بندي خوشهه{{اي الگوريتم عملک{{رد نتايج جدول اين از اول سطراس{{ت. آم{{ده مختل{{ف ه{{اي داده مجموع{{ه روي پاي{{هه{ر اگرچ{ه ک{ه دهن{د مي نش{ان آزمايشه{ا نت{ايجمجموع{{ه روي توانن{{دمي ه{{ا الگوريتم اين از ک{{دامروي ولي کنن{{د، اراي{{ه قبولي قابل نتايج خاصي داده
خ{{ود از پ{{اييني ک{{ارايي ديگ{{ر ه{{اي داده مجموع{{ه Kmeans الگ{{وريتم مث{{ال، عن{{وان دهند.ب{{همي نشان
ب{{ه نسبت خوبي نسبتا نتيجهWine مجموعه رويدست (بهLinkage) اتصالي مراتبي سلسله هاي روشبقي{{ه ازBupa ه{{اي داده مجموع{{ه روي .اماآورد مي
کام{{ل اتصال روش کند.همچنين،مي عمل تر ضعيف(Complete-Linkageروي) داده مجموع{{{{{{{{ه Breast-
Cancerکند. مي عمل شکل همين به نيزیکیازدالی{{لاینام{{رش{{کلهایمتن{{وعمجموعههایدادهاستکهباتوجهبهاینکهه{{رک{{{دامازروشه{{{ایخوش{{{هبندیپای{{{هب{{{رایش{{کلهایخاص{{یازدادهه{{اط{{راحیش{{دهاند،کاراییآنهان{{یزرویدادهه{{ایمختل{{فمتف{{اوت
رویKmeansاس{{ت.ب{{هعن{{وانمث{{الالگ{{وریتمب{{{هخ{{{وبیعم{{{لBreast-Cancerمجموع{{{هداده
ک{{اراییBupaمیکن{{د،ام{{ارویمجموع{{هدادهضعیفتریازخودنشانمیدهد)س{{طراولاز
![Page 10: Template](https://reader035.vdocuments.net/reader035/viewer/2022062407/563dbb84550346aa9aaddd5a/html5/thumbnails/10.jpg)
(کهایننتایجنشانمیدهندک{{هش{{کل2جدولنسبتاکرویاس{{تدرح{{الیBreast-Cancerدادههاب{{ادادهه{{ایغ{{یرک{{رویمواج{{هBupaک{{هدر
رویاینLinkageهس{{{تیم.نت{{{ایجاالگوریتمه{{{ای(2مجموعهدادهها)سطرهایدوموسومازجدول
میکند.نیزصحتاینگفتهراتایید
بار10ميانگينرويآزمايشها:نتايج2جدولمستقلاجراي
Glass%
Breast-C %
Wine%
Bupa%
Yeast%
Simple Methods
[1,7,8,9,10,11]
Kmeans45.6595.1396.6354.5540.20
Single Linkage36.4565.1537.6457.6834.38
Average Linkage37.8570.1338.7657.1035.11
Complete Linkage40.6594.7383.7155.9438.91
Ensemble Methods
EAC[4,19]
Kmeans Ensemble
47.7695.4696.6354.4945.46
Full Ensemble
47.8395.1097.0856.7847.17
EEACProposedEnsemble
48.8898.3398.3158.3947.17
![Page 11: Template](https://reader035.vdocuments.net/reader035/viewer/2022062407/563dbb84550346aa9aaddd5a/html5/thumbnails/11.jpg)
(عملک{{رد2) ج{{دول از آخ{{ر س{{طر س{{هه{{اي داده مجموع{{ه برابر در را ترکيبي هاي روش
نت{{ايج ب{{ه کلي نگ{{اه ي{{ک دهد.بامي نشان مختلفب{{ر فوق، سطر چهار با مقايسه در سطر سه اينتولي{{د ب{{ه منج{{ر ترکي{{بي ه{{اي "روش که ادعا اين
غ{{ير ه{{اي روش ب{{ه نس{{بت يتر مس{{تحکم نت{{ايجاولين .درگ{{ذارد مي ش{{وند"ص{{حهمي ترکي{{بي100 ت{{رکيب نتيج{{ه ترکي{{بي، ه{{اي روش از سطرگ{{زارشEAC روش از اس{{تفاده ب{{اK-means ب{{اراولي{{ه نت{{ايج در پراکن{{دگي ايجاد است.براي شده90 برداري نم{{{ونه از ترکي{{{بي، روش اين از%)ب{{دون xxxiبرداري زيرنم{{ونه روش ب{{ه ه{{اداده
اس{تفاده تص{ادفي اولي{ه مق{داردهي جايگ{ذاري(و SL منف{{رد اتص{{ال الگ{{وريتم اس{{ت.همچ{{نين، ش{{ده
آوردن دس{{ت ب{{ه ب{{راي ت{{وافقي ت{{ابع عنوان بهک{{ار ب{{ه همبس{{تگي م{{اتريس از نه{{ايي هاي خوشهاست. رفته
ترکي{{{{{{بي، ه{{{{{{اي روش از دوم س{{{{{طراز آن در ک{{ه اس{{ت کام{{ل ترکي{{بي خوش{{هبندي
پاي{{ه الگ{{وريتم عن{{وان ب{{ه مختلفي ه{{اي الگوريتماعض{{اي تع{{داد روش اين دراست. شده استفاده
در نتيجه در و همبستگي ماتريس در شرکتکنندهج{{ايي آن ازباشد. مي100 با برابر نهايي ترکيب
ک{{روي هايخوش{{ه م{{ورد درK-means الگوريتم کهغ{{ير هايخوش{{ه براب{{ر در و کن{{د مي عم{{ل خ{{وبتع{{داد روش اين در دارد، پ{{اييني عملک{{رد ک{{روي
مس{{تقل اجراه{{اي از حاص{{ل اولي{{ه نتايج از تا70شده( ذکر پارامترهاي همان )باK-means الگوريتمهاي الگوريتم اجراي از باقيمانده نتيجه30است.ج{{ايي آن ازاست. آمده دست به مراتبي سلسلهه{{{اي الگوريتم اج{{{راي از حاص{{{ل نت{{{ايج ک{{{ه
ب{{ه هم{{واره ث{{ابت ش{{رايط تحت مراتبي سلس{{لهاين از ش{{ود، مي منج{{ر مش{{ابهي کامال هايجواب
تولي{{د در ت{{وان مي مح{{دودي تع{{داد به ها الگوريتماز ه{{ا آزمايش اين درک{{رد. اس{{تفاده اولي{{ه نت{{ايج
در پراکن{دگي ايج{اد ب{راي هاخوش{ه تعداد پارامترتع{{داد ک{{ار، اين اس{{ت.ب{{راي شده استفاده نتايج
هايالگوريتم براي شده تعيين پيش از هاي خوشهانتخابk±2 با برابر استفاده مورد مراتبي سلسلهباش{{د. مي ها خوشه واقعي تعدادk که است شده
بندي خوش{{ه ب{{راي اس{{تفاده م{{ورد ه{{اي الگوريتماس{{تفاده م{{ورد فاص{{له و اولي{{ه مراتبي سلس{{له(3) ج{{دول در ه{{ا الگوريتم اين از کدام هر توسط[.8] است آمده
روش (نت{{{ايج2) ج{{{دول از آخ{{{ر س{{{طرنش{{ان ه{{ا داده مجموع{{ه اين روي را پيش{{نهادي
![Page 12: Template](https://reader035.vdocuments.net/reader035/viewer/2022062407/563dbb84550346aa9aaddd5a/html5/thumbnails/12.jpg)
دقيق{ا پيش{{نهادي روش ب{{راي اوليه دهد.نتايجمياز دوم )س{{طر کام{{ل ت{{رکيب روش نت{{ايج هم{{انروش تف{{{اوتباش{{{د. (ميترکي{{{بي ه{{{اي روش
تع{{{داد در کام{{{ل ت{{{رکيب روش ب{{{ا پيش{{{نهادينه{{ايي ت{{رکيب در ک{{ه اس{{ت اي اوليه هايخوش{{هتنه{{ا پيشنهادي روش در واقع کنند.درمي شرکتم{{اتريس در ب{{اال پاي{{داري مق{{دار ب{{ا هاي خوش{{ه
ظ{{اهر نه{{ايي ت{{رکيب در نتيج{{ه در و همبس{{تگيحضور عدم يا حضور براي آستانه مقداراند. شدهص{{{ورت ب{{{ه نه{{{ايي ت{{{رکيب در خوش{{{ه ي{{{ک
ک{{ه مع{ني اين اس{ت.ب{{ه ش{ده انتخاب xxxiiتطبيقيانتخ{{اب اولي{{ه مق{{دار عن{{وان به0.95 مقدار ابتدااين ب{{ا ش{{ده انتخ{{اب هاي خوش{{ه اس{{ت.اگ{{ر شدهش{{امل را ه{{ا%داده90 از کم{{تر آستانه، مقدار%ک{{اهش0.05 اندازه به آستانه مقدار شوند،
بيش ک{{ه يابد مي ادامه جايي تا کار اينيابد. ميانتخ{{{اب هاي خوش{{ه توس{{ط ه{{اداده %از90 از
نت{{{ايجباش{{{ند. ش{{{ده بندي خوش{{{ه ش{{{دهپيش{{نهادي روش ک{{ارايي نش{{اندهنده آزمايشه{{ا
ترکي{{بي همچنين و پايه هاي روش ساير به نسبتاست.
مورديسلسلهمراتبيهاتميالگور:3جدولاستفاده
Linkage MethodsUsed Distance MeasureSingle Linkageنمونهها بين فاصله كمترين
Average Linkageنمونهها بين فاصله بيشترين
Complete Linkageجفت همه بين فاصله ميانگين
خوشه دو در نمونههاWeighted Linkageوزندار فاصله ميانگين
Ward Linkageبه مربعات افزايشي مجموعخوشه دو اتصال نتيجه عنوان
درص{{د يرو را آستانه مقدار اثر(6) شکلوWine داده مجموع{{ه دو در يانتخ{{اب يخوش{{هها
Breast-Cancerش{{کل اين به توجه بادهد. مي نشانمي{{انگين ياب{{د، اف{{زايش برداري نمونه نرخ چه هر
اف{زايش ن{يز آم{ده دس{ت ب{ه هاي خوشه پايداريداده مجموع{{ه در مث{{ال عن{{وان ب{{هيافت. خواهد
Breast-Cancer8 حدود تنها ،0.4 آستانه مقدار با%
%انتخ{{اب70 بردارينم{{ونه نرخ با هاي خوشه ازهاي خوش{{ه %از82 حدود که حالي در د؛شون ميآستانه مقدار همين با %،90 بردارينمونه نرخ با
را آستانه مقدار اثر(7) شکلشوند. مي انتخابداده مجموعه دو در يشنهاديپ روش ييکارا يرو
Wineو Breast-Cancerک{{ه .وق{{تيده{{د مي نش{{انها خوشه پايداري مقدار ماکزيمم از آستانه مقدارو ش{{ود نمي انتخ{{اب ايخوش{{ه هيچ باش{{د، بيشتر
براب{{ر همبستگي ماتريس هاي درايه تمام بنابراين SL الگ{{وريتم ح{{التي چنين در شد، خواهند صفر با
روي از را نه{{ايي هاي خوش{{ه استخراج وظيفه کهط{{ور ب{{ه دارد، عه{{ده ب{{ر همبس{{تگي م{{اتريسخوش{هk-1 از ي{{ک ه{{ر ب{{ه را نمون{{ه ي{{ک تص{{ادفي-k خوش{{ه ب{{ه را ها نمونه بقيه و دهد مي اختصاص
فرآين{{{{{{{{د طيده{{{{{{{{د. مي تخص{{{{{{{{يص امبزرگ{{ترين ب{{ه -امk خوش{{ه گذاري، بازبرچس{{ب
در دلي{{ل همين ب{{هشود. مي داده اختصاص کالس،نش{{ود انتخ{{اب اي خوش{ه هيچ وق{{تي (،7) شکل.نتيج{{هش{{ود نمي کم{{ترk/1 از يبند خوش{{ه ن{{رخ
ب{{ا ک{{ه است اين آيد (برمي7) شکل از که ديگريدر تنه{{ا ت{{وان مي پيش{{نهادي روش از اس{{تفاده
اولي{{ه هاي خوش{{ه از ک{{وچکي زيرمجموعه حضوردس{{ت کام{{ل ت{{رکيب روش از ب{{االتري ج{{واب به
برداري نمونه روش (با7) شکل به توجه يافت.بانظ{ر در0.6 ب{ا براب{ر آس{تانه مق{دار اگر ،90%
مجموع{{ه دو ه{{ر در پيشنهادي روش شود، گرفتهياب{{د.اگ{{رمي دس{{ت اي بهينه نسبتا جواب به دادهق{{رار توج{{ه (مورد6) شکل در آستانه مقدار اين
مجموع{{ه دو ه{{ر در ک{{ه ش{{ود مي مش{{اهده گيرد،ب{{راي اولي{{ه هاي خوش{{ه ک{{ل %از35 تنه{{ا داده،
گيرند.مي قرار استفاده مورد نهايي ترکيبمیتوان{{د پیشنهادی روش است ذکر شایان
کوچ{{ک ی{{ا ب{{زرگ دادهه{{ای مجموع{{ه ان{{واع رویروش اینک{{ه ب{{ه توجه گیرد.با قرار استفاده مورد
ب{{ه را اولی{{ه خوش{{ههای مجم{{ع ان{{دازه پیشنهادیآن از اس{{تفاده میده{{د، ک{{اهش چشمگیری طوربهب{ود ب{ه میتوان{د بزرگ دادههای مجموعه برای
کند. کمک مسئله باالتر سرعت و زمانی پیچیدگی
![Page 13: Template](https://reader035.vdocuments.net/reader035/viewer/2022062407/563dbb84550346aa9aaddd5a/html5/thumbnails/13.jpg)
eniW
0
1.0
2.0
3.0
4.0
5.0
6.0
7.0
8.0
9.0
1
0 2.0 4.0 6.0 8.0 1
dlohserhTsre
tsu
lC d
etc
ele
S f
o %
%05gnilpmaS
%06gnilpmaS
%07gnilpmaS
%08gnilpmaS
%09gnilpmaS
recnaC-tsaerB
0
1.0
2.0
3.0
4.0
5.0
6.0
7.0
8.0
9.0
1
0 2.0 4.0 6.0 8.0 1
dlohserhT
sre
tsu
lC d
etc
eleS
fo
%
%09gnilpmaS
%08gnilpmaS
%07gnilpmaS
(A()B)
A)WineB)Breast-Cancer:هايدادهمجموعهدرانتخابيهايخوشهدرصدرويآستانهمقدار:اثر6شکل
i Robustnessii Noveltyiii Stabilityiv ّFlexibilityv Hierarchicalvi Partitionalvii Initializationviii Featuresix Resamplingx Evidence Accumulation Clusteringxi Partitionsxii Robustxiii Pairwisexiv Cluster Validityxv Jaccard Coefficientxvi Support Vector Machinexvii Outliersxviii Nearest Neighbor Resamplingxix Kernelized Validity Measurexx Full Ensemblexxi Sum of Normalized Mutual Informationxxii Normalized Mutual Informationxxiii Multiobjectivexxiv Extended EAC (EEAC)xxv Single Linkage(SL) or Average Linkage(AL)xxvi Goodnessxxvii Perturbationxxviii Mutual Information (MI)xxix Single Linkagexxx Relablingxxxi Subsamplingxxxii Adaptive
![Page 14: Template](https://reader035.vdocuments.net/reader035/viewer/2022062407/563dbb84550346aa9aaddd5a/html5/thumbnails/14.jpg)
eniW
2.0
3.0
4.0
5.0
6.0
7.0
8.0
9.0
1
0 2.0 4.0 6.0 8.0 1
dlohserhT
ecn
am
rofr
eP
%07gnilpmaS
%08gnilpmaS
%09gnilpmaS
recnaC-tsaerB
6.0
56.0
7.0
57.0
8.0
58.0
9.0
59.0
1
0 2.0 4.0 6.0 8.0 1
dlohserhT
ecn
am
rofr
eP
%09gnilpmaS
%08gnilpmaS
%07gnilpmaS
(A()B)A)WineB)Breast-Cancer:هايدادهمجموعهدرپيشنهاديروشکاراييرويآستانهمقدار:اثر7شکل
![Page 15: Template](https://reader035.vdocuments.net/reader035/viewer/2022062407/563dbb84550346aa9aaddd5a/html5/thumbnails/15.jpg)
گيري.نتيجه5ب{{{{راي جدي{{{{د روش ي{{{{ک مقال{{{{ه اين درمبت{{ني که است شده پيشنهاد ترکيبي بندي خوشه
ازباشد. مي اوليه هايخوشه از اي زيرمجموعه براز حاص{{{{ل هاي خوش{{{{ه کيفيت ک{{{{ه ج{{{{ايي آن
حض{{ور ح{{تي و نيس{{ت براب{{ر پاي{{ه ه{{اي الگوريتمنتيج{{ه ش{{دن بدتر به منجر تواند مي آنها از تعداديروش{{ي مقال{{ه اين در ش{{ود، ترکي{{بي بندي خوش{{هاز م{{وثرتر و ت{{ر بهينه زيرمجموع{{ه انتخ{{اب ب{{راينه{{ايي ت{{رکيب در ش{{رکت ب{{راي اوليه هاي خوشهپيش{{ين ه{{اي روش که اين به توجه شد.با پيشنهادنت{{ايج ت{{رکيب ب{{راي همبس{{تگي ماتريس بر مبتنيهاي خوش{{ه اس{{تخراج ب{{راي الزم توان{{ايي ،اولي{{هرا اولي{{ه هاي خوش{{ه زا اي زيرمجم{{وعه از نه{{اييانباشت براي جديد روش يک مقاله اين در ندارند،ش{{ده پيش{{نهاد ن{{يز همبس{{تگي م{{اتريس در نت{{ايج
يافته توسعه مدارک انباشت روش را آن که استپيش{{{{نهادي روش تج{{{{ربي نت{{{{ايجايم. نامي{{{{دهداده مجموع{{ه پنج روي ب{{ر ترکي{{بي بندي خوش{{هروش اين ک{{ه ده{{د مي نش{{ان متن{{وع و مختل{{فس{{اير همچ{{نين و مت{{داول ه{{ايروش ب{{ه نس{{بتدارد. ايمالحظه قاب{ل برت{ري ترکي{بي ه{اي روشب{{ه از اس{{تفاده که دهند مي نشان آزمايشها نتايجتوان{{دمي اولي{{ه هاي خوشه %از35 متوسط طوربهب{{ود م{{وثري طور به را ترکيبي بندي خوشه نتايج
ک{ه دن{ده مي نش{ان ها بررس{ي بخش{د.همچ{نين،از کوچکي زيرمجموعه از پيشنهادي روش اگرچهخ{{اطر ب{{ه کند،مي استفاده اوليه هاي خوشه نتايجح{{ذف همچ{{نين، و زيرمجموع{{ه، اين ب{{ودن م{{وثر
روي منفي ت{{اثير ک{{ه پ{{ايين کيفيت ب{{ا هاي خوش{{هنتايج گذارند، مي هانمونه واقعي همبستگي ميزانشود. مي بهتر هم کامل ترکيب از حتي نهايي
مراجع1-JainA., Murty M. N., and Flynn P. (1999), Data clustering: A review. ACM Computing Surveys, 31(3):264–323.2 - Faceli K., Marcilio C.P. Souto d. (2006), Multi-objective Clustering Ensemble, Proceedings of the Sixth International Conference on Hybrid Intelligent Systems (HIS'06).3 - Strehl A. and Ghosh J. (2002), Cluster ensembles - a knowledge reuse framework for combining multiple partitions. Journal of Machine Learning Research, 3(Dec):583–617.4 - Fred, A.L.N. and Jain, A. K. (2002). “Data Clustering Using Evidence Accumulation”, Proc. of the 16th Intl. Conf. on Pattern Recognition, ICPR02, Quebec City, pp. 276 – 280.5 - Fred A. and Lourenco A. (2008), Cluster Ensemble Methods: from Single Clusterings to Combined Solutions, Studies in Computational Intelligence (SCI), 126, 3–30.6 - Ayad H.G. and Kamel M.S. (2008), Cumulative Voting Consensus Method for Partitions with a Variable Number of Clusters, IEEE Trans. on Pattern Analysis and Machine Intelligence, VOL. 30, NO. 1, 160-173.7 - Topchy, A., Jain, A.K. and Punch, W.F. (2003), “Combining Multiple Weak Clusterings”, Proc. 3d IEEE Intl. Conf. on Data Mining, pp. 331-338.8 - Duda R.O., Hart P.E., and Stork D.G. (2001), Pattern Classification, second ed. Wiley, 2001. 9 - Jain A.K. and Dubes R.C. (1988), Algorithms for Clustering Data. Prentice Hall.10 - Kaufman L. and Rosseeuw P.J. (1990), Finding Groups in Data: An Introduction to Cluster Analysis. John Wiley & Sons, Inc.
11 - Man Y. and Gath I. (1994), “Detection and Separation of Ring-Shaped Clusters Using Fuzzy Clusters” IEEE Trans. Pattern Analysis and Machine Intelligence, vol. 16, no. 8, pp. 855-861.12 - Minaei-Bidgoli B., Topchy A. and Punch W.F. (2004), “Ensembles of Partitions via Data Resampling”, in Proc. Intl. Conf. on Information Technology, ITCC 04, Las Vegas.13 - Alizadeh H., Amirgholipour S.K., Seyedaghaee N.R. and Minaei-Bidgoli B. (2009), Nearest Cluster Ensemble (NCE): Clustering Ensemble Based Approach for Improving the performance of K-Nearest Neighbor Algorithm, 11th Conf. of the International Federation of Classification Societies, IFCS09, March 13–18. (in press).14 - Mohammadi M., Alizadeh H. and Minaei-Bidgoli B. (2008), “Neural Network Ensembles using Clustering Ensemble and Genetic Algorithm”, 2008 Intl. Conf. on Convergence and hybrid Information Technology, ICCIT08, Nov. 11-13, IEEE CS, Korea.15 - Barthelemy J.-P. and Leclerc, B. (1995). The median procedure for partition, In Partitioning Data Sets, AMS DIMACS Series in Discrete Mathematics, Cox, I. J. et al eds., 19, pp. 3-34.16 - Fern, X. and Brodley, C. E. (2003). Random Projection for High Dimensional Data Clustering: A Cluster Ensemble Approach, In Proc. 20th Int. conf. on Machine Learning, ICML 2003.17 - Dudoit S. and Fridlyand, J. (2003), “Bagging to improve the accuracy of a clustering procedure”, Bioinformatics, 19 (9), pp. 1090-1099.18 - Ayad H. and Kamel M. (2005), Cluster-based cumulative ensembles. In N. Oza and R. Polikar, editors,
![Page 16: Template](https://reader035.vdocuments.net/reader035/viewer/2022062407/563dbb84550346aa9aaddd5a/html5/thumbnails/16.jpg)
Proc. the 6th Intl. Workshop on Multiple Classifier Systems, pages 236–245. LCNS 3541.19 - Fred A.L. and Jain A.K. (2005). Combining Multiple Clusterings Using Evidence Accumulation. IEEE Trans. on Pattern Analysis and Machine Intelligence, 27(6):835–850.20 - Kuncheva L.I. and Hadjitodorov S. (2004). Using diversity in cluster ensembles. In Proc. of IEEE Intl. Conference on Systems, Man and Cybernetics, pages 1214–1219.21 - Fred A.L., Jain A.K. (2006), Learning Pairwise Similarity for Data Clustering, In Proc. of the 18th Int. Conf. on Pattern Recognition (ICPR'06).22 - Baumgartner R., Somorjai R., Summers R., Richter W., Ryner L., and Jarmasz M. (2000), Resampling as a Cluster Validation Technique in fMRI, JOURNAL OF MAGNETIC RESONANCE IMAGING 11: pp. 228–231.23 - Law M.H.C., Topchy A.P., and Jain A.K. (2004). Multiobjective data clustering. In Proc. of IEEE Conference on Computer Vision and Pattern Recognition, volume 2, pages 424–430, Washington D.C.24 - Shamiry O., Tishby N. (2007), Cluster Stability for Finite Samples, 21st Annual Conference on Neural Information Processing Systems (NIPS07).25 - Lange T., Braun M.L., Roth V., and Buhmann J.M. (2003). Stability-based model selection. In Advances in Neural Information Processing Systems 15. MIT Press.26 - Breckenridge J. (1989), Replicating cluster analysis: Method, consistency and validity, Multivariate Behavioral research.27 - Fridlyand J. and Dudoit S. (2001). Applications of resampling methods to estimate the number of clusters and to improve the accuracy of a clustering method. Stat. Berkeley Tech Report. No. 600.28 - Levine E., Domany E. (2001), Resampling Method for Unsupervised Estimation of Cluster Validity. Neural Computation 13: 2573-2593.29 - Roth V., Lange T., Braun M., and Buhmann J. (2002), A Resampling Approach to Cluster Validation, Intl. Conf. on Computational Statistics, COMPSTAT.30 - Roth V., Braun M.L., Lange T., and Buhmann J.M. (2002), Stability-Based Model Order Selection in Clustering with Applications to Gene Expression Data, ICANN 2002, LNCS 2415, pp. 607–612.
31 - Rakhlin A. and Caponnetto A. (2007), Stability of k-means clustering, In Advances in Neural Information Processing Systems 19, MIT Press, Cambridge, MA.32 - Luxburg U.V. and Ben-David S. (2005), Towards a statistical theory of clustering, Technical report, PASCAL workshop on clustering, London.33 - Roth V. and Lange T. (2004), Feature Selection in Clustering Problems, In Advances in Neural Information Processing Systems, NIPS04.34 - Lange T., Roth V., Braun M.L., and Buhmann J.M. (2004). Stability-based validation of clustering solutions. Neural Computation, 16(6):1299–1323.35 - Ben-Hur A., Elisseeff A. and Guyon I. (2002), A stability based method for discovering structure in clustered data, in Pasific Symposium on Biocomputing, vol. 7, pp. 6-17.36 - Estivill-Castro V. and Yang J. (2003), Cluster Validity Using Support Vector Machines, DaWaK 2003, LNCS 2737, pp. 244–256.37 - Moller U., Radke D. (2006), A Cluster Validity Approach based on Nearest-Neighbor Resampling, In Proc. of the 18th Int. Conf. on Pattern Recognition (ICPR'06).38 - Brandsma T. and Buishand T.A. (1998), “Simulation of extreme precipitation in the Rhine basin by nearest-neighbour resampling”, Hydrology and Earth System Sciences 2, pp. 195-209.39 - Inokuchi R., Nakamura T. and Miyamoto S. (2006), Kernelized Cluster Validity Measures and Application to Evaluation of Different Clustering Algorithms, in proc. of the IEEE Int. Conf. on Fuzzy Systems, Canada, July 16-21.40 - Xie X.L., Beni G. (1991), A Validity measure for Fuzzy Clustering, IEEE Trans. on Pattern Analysis and Machine Intelligence, Vol.13, No.4, pp. 841–846.41 - Das A.K. and Sil J. (2007), Cluster Validation using Splitting and Merging Technique, in proc. of Int. Conf. on Computational Intelligence and Multimedia Applications, ICCIMA.42 - Fern X.Z. and Lin W. (2008), Cluster Ensemble Selection, SIAM International Conference on Data Mining (SDM08).43 - Newman C.B.D.J., Hettich S. and Merz C. (1998), UCI repository of machine learning databases, http://www.ics.uci.edu/˜mlearn/MLSummary.html
![Page 17: Template](https://reader035.vdocuments.net/reader035/viewer/2022062407/563dbb84550346aa9aaddd5a/html5/thumbnails/17.jpg)
Abstract: Most of the recent studies have tried to create diversity in primary results and then applied a consensus function over all the obtained results to combine the weak partitions. In this paper a clustering ensemble method is proposed which is based on a subset of primary clusters. The main idea behind this method is using more stable clusters in the ensemble. The stability is applied as a goodness measure of the clusters. The clusters which satisfy a threshold of this measure are selected to participate in the ensemble. For combining the chosen clusters, a co-association based consensus function is applied. A new EAC based method which is called Extended Evidence Accumulation Clustering, EEAC, is proposed for constructing the Co-association Matrix from the subset of clusters. The proposed method is evaluated on five different UCI repository data sets. The empirical studies show the significant improvement of the proposed method in comparison with other ones.Keywords:Clustering Ensemble, Cluster Stability, Mutual Information, Co-association Matrix
متندراستفادهترتيببهانگليسيهايواژه