1-3 اهداف تحقیق

هدف از این تحقیق ارائه راهکاری به منظور افزایش دقت متعادل سازی داده و غلبه بر مشکل عدم توازن کلاس است.سعی کرده ایم تا متعادل سازی داده که در مرحله پیش پردازش داده صورت می­گیرد باعث بهبود نتایج طبقه بندی نمونه ها شود.بدین منظور اثربخشی و کارایی روش ارائه شده با سایر روش های موجود مورد مقایسه و ارزیابی قرار می­گیرد.امید است که نتایج الگوریتم نهایی امیدوار کننده باشد و نشان دهنده پیشرفت الگوریتم باشد.این تحقیق بر اساس نیاز به دسته بندی دقیق داده ها و استفاده از تحلیل نتایج داده ها در بهبود شرایط مرجع مورد استفاده کننده داده ها شکل گرفته است.

1-4 پرسش های اصلی تحقیق

تحقیقات انجام شده در این پروژه سعی در پاسخگویی به سوالات زیر را دارد :

    • معیارهای اندازه گیری کارایی روش های متعادل سازی چیست؟
    • روش های کنونی متعادل سازی چیست؟
    • چگونه می توان مشکل عدم توازن کلاس را حل کرد؟
    • چگونه می توان مشکل نویز در طبقه بندی را حل کرد؟

1-5فرضیه های تحقیق

    • کارایی روش ارائه شده در مقایسه با سایر روش ها بهتر است.
    • استفاده از این روش باعث بهبود نتایج طبقه بندی داده ها در حضور داده های پرت و نویز میشود.
    • استفاده از الگوریتم پیشنهادی باعث کاهش حساسیت به عدم توازن کلاس میشود.

1-6 نوآوری تحقیق

می توان نوآوری را به صورت استفاده از تکنیک حداقل مربعات با بهره گرفتن از مفاهیم فازی برای استفاده در ماشین بردار پشتیبان در جهت پیش پردازش داده های نامتوازن بیان کرد.

(( اینجا فقط تکه ای از متن درج شده است. برای خرید متن کامل فایل پایان نامه با فرمت ورد می توانید به سایت feko.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. ))

1-7 تعریف واژگان کلیدی

    • پیش پردازش داده

با توجه به حجم عظيم داده هاي موسسات جهت تحليل اطلاعات و كشف دانش نهفته در اين داده ها به مساله مهمی تبديل شده است . براي كشف دانش نهفته در اين داده ها به كارگيري تكنيك هاي داده كاوي امري بديهي است.وجود مسائلي نظير ناقص بودن داده ها، ناسازگاري آنها و وجود ناخالصي هايي همچون خطاها، مقادير تقريبي و مقادير خارج از محدوده نرمال در پايگاه داده هاي واقعي، باعث كاهش كيفيت داده كاوي مي­شود. براي دستيابي به نتايج مطلوب تر، نياز به داده هاي با كيفيت بالاتر وجود دارد. پيش پردازش، گامي مهم در راستاي داده كاوي موفقيت آميز است. اعمالي كه در پيش پردازش انجام مي شوند عبارتند از حذف ناخالصي­ها و اصلاح داده هاي نادرست، يكپارچه­سازي داده ها، تغيير داده ها و كاهش داده ها. بر اساس نوع كاربردي كه عمل داده كاوي بايد روي آن انجام شود، تكنيك هاي مختلفي براي هر يك از اين اعمال وجود دارد]4[.

    • داده های نامتوازن

اصطلاح “مجموعه داده نامتوازن” عموما به مجموعه داده‌ای گفته می‌شود که در آن تعداد نمونه‌هایی که نمایانگر یک کلاس هستند از نمونه‌های دیگر در کلاس‌های متفاوت کمتر است.در واقع مشکل عدم توازن کلاس زمانی رخ می­دهد که برای کلاس های با اهمیت، نمونه های کم و یا بسیار کمی در حوزه های کاربردی جهان واقعی در دسترس باشد. این حالت در کلاسه بندی زمانی مشکل‌ساز می‌شوند که یک کلاس که عموما کلاس مطلق یا اقلیت(Minority Class) می‌باشد در مجموعه داده‌ها نشان داده‌ نمی‌شود و به بیان دیگر تعداد مشاهدات اشتباه از مشاهدات درست در یک کلاس بیشتر می‌شود.مثلا در حوزه هایی مانند ارتباط از راه دور، تشخیص غنائم نفت در تصاویر راداری ماهواره ای، طبقه بندی متن، تشخیص پزشکی،تشخیص نفوذ و کشف تقلب. در این موارد الگوریتم استاندارد کلاسه بندی کننده تمایل بیشتری به کلاس‌های اکثریت (MajorityClass)دارد، زیرا قوانینی که این نمونه‌ها را به درستی پیش‌بینی می‌کنند به درستی وزن‌دهی شده اند در حالی که قوانین خاصی که نمونه‌های کلاس اقلیت را پیش‌بینی می‌کنند عموما نادیده گرفته می‌شوند و در واقع به صورت نویز با آنها برخورد می‌شود و در نتیجه نمونه‌های کلاس اقلیت به اشتباه کلاسه‌بندی خواهند شد[15].
برای غلبه بر این مشکل، از طبقه بندی مجموعه داده های نامتوازن استفاده میشود. یکی از مشکلات کلیدی در هنگام یادگیری با مجموعه داده نامتوازن، فقدان داده است که در آن تعداد نمونه های کمی در دسترس است و یا هیچ نمونه ای برای یک کلاس خاص در دسترس نیست روش های مقابله با مشکل عدم توازن عبارتند از : تغییر اندازه مجموعه آموزشی( که شامل بیش نمونه گیری از نمونه های کلاس اقلیت و کوچک سازی نمونه های کلاس اکثریت)، تنظیم هزینه های طبقه بندی نادرست و تشخیص مبتنی بر یادگیری]14[.

    • تکنیک های مواجهه با مجموعه داده های نامتوازن

به منظور رسیدگی به مسائل مربوط به مجموعه داده‌های نامتوازن تکنیک‌های متعددی معرفی شده اند که در سه دسته زیر طبقه بندی می‌شوند:

    1. رویکردهایی در سطح الگوریتم[1]

این رویکرد به الگوریتم‌های یادگیری کلاسه بند کمک می‌کند تا فرایند یادگیری را به سمت کلاس اقلیت سوق دهد.

    1. رویکردهایی در سطح داده[2]

این رویکرد با باز­ نمونه گیری از فضای داده باعث تغییر توزیع داده‌ها می‌شود به طوری که تغییری در الگوریتم یادگیری ایجاد نمی‌شود و تلاش می‌کند در مرحله پیش پردازش تأثیرات ناشی از عدم توازن را برطرف کند.

    1. چارچوب یادگیری حساس به هزینه[3]

این رویکرد مابین رویکرد الگوریتمی و داده‌ای قرار دارد. به طوری که هم در سطح داده و هم در سطح الگوریتم تغییر ایجاد خواهد کرد. مهمترین نقطه ضعف این رویکرد تعریف هزینه‌ی رده بندی نادرست می‌باشد که عموما در مجموعه داده وجود ندارند[15].

  • ماشین بردار پشتیبان[4]
موضوعات: بدون موضوع  لینک ثابت


فرم در حال بارگذاری ...