سیستم عامل: ویندوز ۷ ویرایش تجاری.
چارچوب دات‌نت فریم‌ورک نسخه ۳٫
زبان برنامه‌نویسی سی‌شارپ ۲۰۱۰٫
محیط شبیه‌سازی متلب نسخه ۲۰۱۱٫
جهت پیاده‌سازی روش پیشنهادی، ماژول‌های زیر تعریف گردید:
۱) ماژول بارگذاری و تفسیر داده‌ها: در این ماژول، داده‌ها از فایل با فرمت PCAP در حافظه بارگذاری و سپس رکورد به رکورد ، خوانده شدند . به دلیل حجم بالای فایل بسته‌های شبکه ، امکان بارگذاری یک جا در حافظه با توجه به محدودیت‌های RAM سیستم وجود ندارد. به همین دلیل زبان سی‌شارپ به دلیل قابلیت خواندن جریانی داده‌ها از RAM و سرعت بالا در مدیریت رکوردها ، انتخاب شد . در این ماژول ، رکوردها به صورت متوالی خوانده شده و سپس به ماژول بعدی تحویل می‌شوند.
۲) ماژول چکیده‌گیری از اطلاعات: در این ماژول، هر رکورد خوانده شده از ماژول قبلی ، تفسیر شده و بر اساس هاست مبدا و مقصد ، اطلاعات ذخیره‌شده در داخل ساختار هاست‌ها بروز می‌شوند. در ساختار ایجاد شده ، کلید اصلی همان هاست بوده که در آن اطلاعات بایت‌های دریافتی و ارسالی، تعداد بسته‌های دریافتی و ارسالی و … نگهداری می‌شود. به ازای ورود یک رکورد جدید ، ابتدا هاست مبدا و مقصد جداگانه استخراج شده ، و در صورت وجود هاست ، اطلاعات بروز شده و در غیراین صورت ، مدخل جدیدی در ساختار، ایجاد شده و هاست جدید به آن اضافه می‌شود. این ماژول نیز تحت زبان سی‌شارپ نگارش شده‌است. خروجی این ماژول ، داده‌ها تفسیر شده در قالب جدول می‌باشد .
۳) ماژول فیلتراسیون داده‌ها (رکوردها وستون‌ها): این ماژول در محیط اکسل و به صورت دستی پیاده‌سازی شده‌است . برای این منظور ، ساختار داده‌های خروجی ماژول قبل ، انتخاب و در برنامه اکسل اقدام به پردازش می‌شود. همان‌طور که در فصل قبل بیان شد ، جهت فیلتراسیون رکوردها از قوانین از قبل تعیین ‌شده‌ای جهت اندازه بایت ارسالی و بایت دریافتی و همچنین نوع پروتکل استفاده شده‌است. هدف از این ماژول ، کوچکتر نمودن فضای جستجو با حذف رکوردهایی است که احتمال بات بودن آن‌ها پایین است. همان‌طور که گفته‌شد ، بات‌ها حجم تبادل داده‌‌ای بالایی دارند. همچنین دو پروتکل TCP و UDP به عنوان دو پروتکل مهم در تبادلات مد نظر قرار گرفت.

( اینجا فقط تکه ای از متن فایل پایان نامه درج شده است. برای خرید متن کامل پایان نامه با فرمت ورد می توانید به سایت feko.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. )

۴) ماژول انتخاب ویژگی: انتخاب ویژگی‌های پرارزش و حذف ویژگی‌های نامرتبط ، تاثیر بسزایی در کارایی روش یادگیری ماشین دارد. از طرفی دیگر ، این امر موجب کاهش ابعاد مجموعه‌داده و افزایش سرعت می‌شود .
در مقالات پایه، از روش‌های مختلفی نظیر Information Gain استفاده شده‌است در این کار از الگوریتم RELIEF استفاده شده‌است . این روش ، از مجموعه روش‌های حریصانه بوده که دارای هزینه زمانی خطی می‌باشد . این روش همچنین نسبت به نویز مقاوم است.
۵) ماژول خوشه‌بندی: روش خوشه بندی انتخابی ، بر اساس روش K-Means از رده روش‌های مبتنی بر مرکز ثقل می‌باشد. در این روش، از وزن‌دهی به متغیرها و همچنین وفق‌پذیری برای خوشه‌های غیرمتعارف استفاده شده‌است.
۶) ماژول تعیین وضعیت هاست جدید: با ورود هاست جدید و تبادل اطلاعات، ابتدا بعد از گذشت مدت زمانی، اطلاعات آماری تبادل داده‌ها برای هاست جدید استخراج می‌شود . سپس، رکورد هاست جدید ، با سیار مراکز ثقل‌ها مقایسه می‌شود. در نهایت خوشه‌ای که مرکز ثقل آن دارای کمترین فاصله می‌باشد ، به عنوان خوشه معرف هاست جدید معرفی می‌شود.

۴-۲- نتایج روش پیشنهادی

در این بخش به بررسی نتایج بدست آمده و تحلیل آن پرداخته می‌شود. ابتدا ، نتایج روش پیشنهادی ، ترسیم شده و سپس تاثیر پارامتر K بر روی نتایج بررسی می‌شود. در ادامه، نتایج با روش پایه k-Means مقایسه شده و در آخر ، هاست جدید تعیین وضعیت می‌شود.
بعد از تفسیر بسته‌ها ، ۱۴ متغیر زیر برای هر هاست، از روی اطلاعات آماری تحلیل بسته‌ها آمد:
IP, LargestByteRecieve, LargestByteSend, MeanByteRecieve, MeanByteSend, ProtocolType, SmallestByteRecieve,SmallestByteSend, TotalByteRecieve, TotalByteSend, TotalRecievePacket, TotalSendPacket, TTL, Class
از میان ویژگی‌های بالا، متغیر کلاس، در الگوریتم‌های خوشه‌بندی به کار نمی‌روند. همچنین متغیر اول نیز حاوی آدرس هاست است که دارای ارزش اطلاعاتی در مرحله یادگیری ماشین نمی‌باشد . پس در نهایت ۱۲ متغیر باقی ماندند . در شکل ۴-۱، وزن هریک از ویژگی‌ها بعد از مرحله تعیین ویژگی‌ها مشاهده می‌شود.
با توجه به شکل ۴-۱، ویژگی‌های که اهمیت آنها از ۰٫۰۵ بیشتر است به عنوان ویژگی‌های نهایی انتخاب می‌شوند. در الگوریتم RELIEF از روش KNN جهت یافتن بهترین متغیرها استفاده می‌شود. جهت اجرای این الگوریتم به طور پیش‌فرض مقدار K=10 انتخاب شده‌است. انتخاب مرز ۰٫۰۵ نیز می‌تواند متغیر باشد. این مرز به دلیل محدود کردن متغیرها و دستیابی به دقت بالاتر انتخاب شده‌است.
همان‌طور که قبلا گفته‌شد، برخی از متغیرها نظیر IP هاست، به دلیل اطمینان از عدم اهمیت، در مرحله فیلتر دستی داده‌ها، حذف شدند.
شکل ۴-۱: نمودار اهمیت هر یک از ویژگی‌ها
با توجه به متغیرهای بدست آمده و فیلتر دستی مرحله قبل، مجموعه‌داده ما بدست آمده است. حال، الگوریتم خوشه‌بندی برای داده‌ها با مقدار اولیه K=5 اجرا می‌شود. در جدول ۴-۱، نتایج خوشه‌بندی، به ازای هر هاست مشخص شده‌است.
جدول ۴-۱: نتایج حاصل از خوشه‌بندی

IP

Cluster

Bot?

۱۷۲٫۱۶٫۲٫۲

۱

Yes

۱۷۲٫۱۶٫۰٫۱۲

۵

Yes

۱۷۲٫۱۶٫۲٫۱۱

۴

Yes

موضوعات: بدون موضوع  لینک ثابت


فرم در حال بارگذاری ...