شکل ۲- ۱۷: تنظیم مرزهای دسته‌بندی با بهره گرفتن از درجه قطعیت [۸۲]
همان‌طور که در بخش قبلی توضیح داده شد، دسته نتیجه هر قانون فازی توسط الگوهای آموزشی و به کمک رابطه (۲-۳۱) مشخص می‌شود. یعنی دسته نتیجه به عنوان دسته غالب در فضای فازی متناظر با جزء مقدم تعیین می‌شود.

شکل ۲- ۱۸: تعیین دسته نتیجه و درجه قطعیت [۸۲]
برای تعیین درجه قطعیت باید گام‌های زیر را طی کرد [۸۲]:

گام ۱: تعیین درجه سازگاری هر نمونه ورودی بر اساس رابطه (۲-۳۰).
گام ۲: برای هر کلاس مجموعه درجات سازگاری را به ازای قانون Rj محاسبه کن:
(۲-۳۲)
که مجموع درجات سازگاری نمونه‌های آموزشی کلاس Classh برای Rj می‌باشد و NClassh تعداد نمونه‌های آموزشی می‌باشد که کلاس متناظر آن‌ها h می‌باشد.
گام ۳: با بهره گرفتن از رابطه‌ی زیر درجه‌ی قطعیت CFj را حساب کن:
(۲-۳۳)
که با بهره گرفتن از رابطه‌ی (۲-۳۴) محاسبه می‌شود.
(۲-۳۴)
اکنون می‌توان کلاس هر نمونه ورودی را بر اساس درجه قطعیت و درجه سازگاری مشخص کرد.

۲-۶-۴- استنتاج فازی

فرض کنیم که S مجموعه قوانین فازی هستند به طوری که |S|=s به صورت زیر باشد:
R1: If <condition1> then Ci with CF=CF1
R2: If <condition2> then Ci with CF=CF2

R: If <conditions> then Ci with CF=CFs
→Input pattern: if <Condition>
Target class: C
چندین قانون می‌توانند کلاس یک نمونه مانند xp=(xp1,xp2,…,xpn) را با درجه قطعیت و سازگاری متفاوت پیش‌بینی کنند. بنابراین الگوریتم دسته‌بند نیازمند یک روش استنتاج برای انتخاب یکی از قوانین فازی کاندید می‌باشد. یک روش استنتاج مناسب، روشی است که بتواند با درصد اطمینان بالایی کلاس نمونه ورودی را پیش‌بینی کند حتی اگر هیچ کدام از قوانین ورودی کامل ارضا[۷۵] نشوند.
تک قانون قالب[۷۶] و روش استنتاج مبتنی بر رای گیری[۷۷] دو روش مهمی هستند که Ishibuchi و همکارانش ارائه کرده‌اند. در روش تک قانون قالب [۸۳]، قانونی می‌تواند نمونه ورودی را دسته‌بندی کند که دارای بیشترین مقدار حاصل‌ضرب میزان سازگاری و درجه قطعیت باشد.
(۲-۳۵)
مهم‌ترین مشکل این روش هنگامی آشکار می‌شود که چندین قانون با میزان تطبیق مساوی، می‌توانند نمونه ورودی را دسته‌بندی کنند. در این شرایط روش تک قالب نمی‌تواند کلاس نمونه ورودی را پیش بینی کند. این وضعیت هنگامی پیش می‌آید که یک نمونه ورودی دقیقاً روی مرز دو یا چند کلاس باشد. در چنین وقتی که میزان تطبیق چندین قانون با نمونه ورودی تقریباً نزدیک به یکدیگر باشد، روش ممکن دچار مشکل شود. چرا که در این شرایط، روش تک قانون قالب فقط یکی از آن‌ها را انتخاب می‌کند و مابقی قوانین را نادیده می‌گیرد. در صورتی که قوانین حذف شده، ممکن است به صورت گروهی بر روی یک کلاس اتفاق نظر داشته باشند. به عبارت دیگر این روش برای تصمیم‌گیری نهایی از انعطاف فازی بودن قوانین سودی نمی‌برد و به سمت تصمیم‌گیری قطعی میل می‌کند.
ایشیبوچی[۷۸] و همکاران [۸۴] برای حل مشکلات مطرح شده برای روش تک قانون قالب، روش استنتاج مبتنی بر رای گیری را ارائه کردند. در این روش تمامی قوانینی که دارای میزان تطبیق بزرگ‌تر از صفر هستند در تعیین کلاس نمونه ورودی نقش دارند. برای هر کلاس میزان تطبیق (رای) کلیه‌ی قوانین با هم جمع می‌شود و کلاسی که دارای بیشترین میزان تطبیق باشد به عنوان کلاس خروجی نمونه ورودی برگزیده می‌شود. برای این منظور از رابطه‌ی زیر استفاده می‌شود:
(۲-۳۶)
این روش مشکلاتی را که برای روش تک قانون قالب ذکر شد، بر طرف می‌کند. چرا که از چندین قانون برای دسته‌بندی نمونه‌ها استفاده می‌کند. اما از طرفی دیگر مشکلی جدید را مطرح می‌کند. فرض کنیم تعداد کمی قانون با میزان تطبیق بالا کلاس A را به عنوان متغیر هدف نمونه ورودی انتخاب کنند و تعداد بسیار زیادی قانون B را با میزان تطبیق پایین به عنوان متغیر هدف انتخاب کنند و مجموع میزان تطبیق قوانینی که کلاس B را انتخاب کرده‌اند، بیشتر باشد. در این صورت کلاس B به عنوان کلاس خروجی نمونه ورودی انتخاب می‌شود. یعنی در حالی که قوانینی که کلاس A را انتخاب کرده بودند دارای قاطعیت بیشتری هستند، ولی نادیده گرفته می‌شوند و به نوعی عدالت در رای گیری رعایت نشده است. این مشکل وقتی بیشتر مشهود می‌شود که مجموعه داده ورودی نامتوازن[۷۹] (تعداد نمونه‌های کلاس‌های مختلف با هم اختلاف زیادی دارد) باشد. این به آن علت است که برای کلاس با نمونه‌های بیشتر قوانین بیشتری استخراج می‌شود و رویه استنتاج به نوعی دارای سمت‌گیری به سوی کلاس با نمونه‌های بیشتر می‌شود.

۲-۷- معیار‌های ارزیابی دسته‌بند‌ها

معیارهای زیادی برای ارزیابی کارایی الگوریتم‌های دسته‌بندی ارائه می‌شود که مهم‌ترین این معیارها عبارتند از: نرخ صحت[۸۰] دسته‌بندی، سرعت یادگیری در مرحله آموزش و دسته‌بندی، سادگی و شفافیت مدل، پایداری (توانایی مدل در مواجهه با داده‌های غیر معمول یا مقادیر مفقوده)، نحوه برخورد الگوریتم با صفت‌ها با دامنه مقادیر مختلف (پیوسته گسسته و دودویی) و قابلیت تفسیر.
همان‌طور که اشاره شد روش‌های مختلفی برای دسته‌بندی به کار می‌روند و این روش‌ها در شرایط مختلف، رفتارهای متفاوتی را بروز می‌دهند. میزان صحت یک روش دسته‌بندی بر روی مجموعه داده‌های آموزشی، درصد مشاهداتی از مجموعه آموزشی است که به درستی توسط روش مورد نظر دسته‌بندی شده‌اند. اگر میزان صحت یک روش دسته‌بندی را با Acc() نمایش دهیم، میزان خطای آن برابر با ۱-Acc() خواهد بود [۸۵].
ماتریس اغتشاش[۸۱] ابزاری مفید برای تحلیل چگونگی عملکرد روش دسته‌بندی در تشخیص داده‌ها یا مشاهدات دسته‌ه ای مختلف است. اگر داده‌ها در m دسته قرار گیرند، یک ماتریس دسته‌بندی، جدولی با حداقل اندازه m*m است. عنصر Cij در i امین سطر و j امین ستون، نشان دهنده تعداد مشاهداتی از دسته i است که توسط دسته‌بند به عنوان دسته j تشخیص داده شده است. حالت ایده‌آل این ماتریس که نشان دهنده صحت بالای روش دسته‌بندی است آن است که داده‌های غیر از قطر اصلی ماتریس صفر یا نزدیک به صفر باشند.
در حالت دسته‌بندی دودویی ماتریس اغتشاش به صورت جدول (۲-۴) در می‌آید که در آن [۸۲]TP به مشاهداتی از دسته c1 دلالت دارد که توسط روش دسته‌بندی به درستی تشخیص داده شده‌اند. TN[83] به مشاهداتی از دسته c2 دلالت دارد که توسط روش دسته‌بندی به درستی تشخیص داده شده است. به طور مشابه FP[84] تعداد مشاهداتی از دسته c2 که به اشتباه در دسته c1 قرار گرفته و FN[85] تعداد مشاهداتی از دسته c1 که به اشتباه در دسته c2 قرار گرفته‌اند.
جدول ۲-۴: ماتریس اغتشاش دودویی [۱]

C2

C1

FN

TP

C1

موضوعات: بدون موضوع  لینک ثابت


فرم در حال بارگذاری ...