رابطه ۱- ۶:

و بر این اساس برآورد اعتباربخشی با زیرمجموعه‌های نمونه از رابطه زیر محاسبه می­گردد.

رابطه ۱- ۷:

به عبارت دیگر V بار قسمت به­عنوان نمونه آموزشی و یک قسمت به­عنوان آزمون به­ طور تصادفی تشکیل گردیده و متعاقباً با جایگزین شدن یکی از آن‌ها به‌عنوان نمونه آموزشــی و دیگری به‌عنوان آزمون انتخاب می­ شود و این کار تکرار می­گردد و بر این اساس برآورد آزمون صورت خواهد گرفت. سپس میانگین برآوردهای آزمون در این‌روش به‌عنوان برآورد اعتباربخشی با زیرمجموعه‌های نمونه مورد استفاده قرار خواهد گرفت. این‌روش برای نمونه­های کوچک مناسب هست. در مورد تعداد زیرمجموعه­ها یا V در منابع مختلف اعداد متفاوت ذکر شده است. تعداد زیرمجموعه­ها می‌تواند به تعداد ۱۰ (برایمن و همکاران، ۱۹۸۴) و در منبع دیگر به تعداد ۳ (۲۰۰۵، StatSoft Inc) باشد.

(( اینجا فقط تکه ای از متن درج شده است. برای خرید متن کامل فایل پایان نامه با فرمت ورد می توانید به سایت feko.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. ))

در مواردی که پیامد، متغیر طبقه ­بندی باشد (مدل طبقه ­بندی درختی)، لازم است احتمال پیشین[۵۸] وقوع هر سطح از پیامد مشخص گردد. معمولاً سه گزینه احتمال پیشین برآورد شده[۵۹]، برابر[۶۰] و قابل تعریف[۶۱] وجود دارد. چنانچه نمونه­ها به‌صورت تصادفی از جامعه مورد بررسی انتخاب شده باشد و سوگرایی انتخاب نیز در حداقل میزان ممکن باشد، می‌توان از گزینه­ اول برای احتمال پیشین استفاده کرد.
۲- شاخه­بندی طبقه ­بندی درختی: انتخاب شاخه­ های ساختار طبقه ­بندی درختی باید به­گونه ­ای باشد که یکنواختی[۶۲] نمونه­ها در تمامی گره­های پایانی به میزان حداکثر میزان ممکن برسد. این یکنواختی با بهره گرفتن از معیار عدم خلوص[۶۳] اندازه ­گیری می­ شود. مهمترین و پرکاربردترین اندازه عدم خلوص، شاخص جینی[۶۴] است. چنانچه پیامد طبقه ­بندی شده دارای دو وضعیت یا ارزش j و i باشد، (P(j/t نشان­دهنده سهمی از موارد در گروه t است که متعلق به طبقه j است. بنابراین اندازه عدم خلوص جینی یا (t)i از رابطه زیر به دست می ­آید:

رابطه ۱- ۸:

چنانچه در طبقه پایانی کلیه موارد متعلق به یک طبقه خاص باشند، اندازه شاخص جینی برابر با صفر است که به معنی خلوص کامل در گره است. در طبقه ­بندی درختی، گروه t می‌تواند گزینه­ های متعدد و متفاوتی برای شاخه­بندی (s) داشته باشد. دو گروه tL و tR از گروه t حاصل شده که به ترتیب دارای سهم pL و pR از کل نمونه گره اولیه می­باشند. بهترین و مناسب­ترین شاخه­بندی وقتی است که بیشترین کاهش در عدم خلوص حاصل شود که این کاهش عدم خلوص از رابطه زیر به دست می ­آید:

رابطه ۱- ۹:

i(s,t) = i(t) – pLi(tL)-pRi(tR)∆

بنابراین چنانچه بهترین گزینه موجود در شاخه­بندی را s* بنامیم، براساس شاخص عدم خلوص جینی، شاخه­بندی که بیشترین کاهش در عدم خلوص را موجب گردد انتخاب خواهد گردید به عبارت دیگر:

رابطه ۱- ۱۰:

i (s*, t) = max ∆i (s, t)∆

۳ – تعیین زمانی که شاخه­بندی باید متوقف گردد: با توجه به مواردی که گفته شد، ایده­آل این است که شاخه­بندی تا زمانی که گره­ها خالص و هموژن شوند باید ادامه یابد، لیکن این وضعیت بخصوص در مواردی­که با تعداد زیادی متغیر پیش ­بینی کننده روبه­رو باشیم، موجب پیچیده شدن مدل خواهد گردید. بنابراین باید از قواعد توقف شاخه­بندی[۶۵] به‌منظور رســیدن به مدل منــاسب استفاده گردد. در روش طبقه ­بندی درختی و رگرسیونی دو گزینه مختلف برای این ­منظور وجود دارد:
الف: روش حداقل تعداد[۶۶]: در این‌روش در عمل اجازه می­دهیم ساختار درختی تا زمانی ادامه یابد که همه گره‌های پایانی خالص[۶۷] شده یا اینکه در گره پایانی شامل حداقل تعداد معینی نمونه باشد.
ب: روش خالص­سازی موارد:[۶۸] در این‌روش نیز یا باید هر گره پایانی خالص شود یا اینکه هر گره پایانی بیش از سهم معینی از یک گروه یا طبقه نباشد.
۱-۴-۱۵- پس­پردازش داده ­ها[۶۹]
بعد از انجام پردازش و طبقه ­بندی داده ­های ماهواره­ای، یکسری عملیات ویژه بر روی نتایج صورت می­گیرد که انجام این عملیات به منظور ارزیابی صحت و ساماندهی نتایج حاصله هست.
۱-۴-۱۵-۱- تعیین صحت طبقه ­بندی

موضوعات: بدون موضوع  لینک ثابت


فرم در حال بارگذاری ...