روش استفاده از Weka [بایگانی] - باشگاه دانشجویان دانشگاه پیام نور

توجه ! این یک نسخه آرشیو شده می باشد و در این حالت شما عکسی را مشاهده نمی کنید برای مشاهده کامل متن و عکسها بر روی لینک مقابل کلیک کنید : روش استفاده از Weka

donya88

03-03-2011, 09:18 AM

روش استفاده از Weka
شکل 1،‌ راههای انتخاب واسطهای مختلف Weka را نشان ميدهد.
آسانترين راه استفاده از Weka ، از طريق واسطی گرافيکی است که Explorer خوانده مي‏شود. اين واسط گرافيکی، به وسيله انتخاب منوها و پر کردن فرم‏های مربوطه، دسترسی به همه امکانات را فراهم کرده است. برای مثال، مي‏توان به سرعت يک مجموعه داده را از يک فايل ARFF خواند و درخت تصميم‏گيری آن را توليد نمود. امادرخت‏های تصميم‏گيری يادگيرنده صرفاً ابتدای کار هستند. الگوريتم‏های بسيار ديگری برای جستجو وجود دارند. واسط Explorer کمک مي‏کند تا الگوريتم‏های ديگر نيز آزمايش شوند.

http://pnu-club.com/imported/2011/03/509.jpg
شکل 1. Weka در وضعيت انتخاب واسط
اين واسط با در اختيار گذاشتن گزينه‏ها به صورت منو، با وادار کردن کاربر به اجرای کارها با ترتيب صحيح، به وسيله خاکستری نمودن گزينه‏ها تا زمان صحيح به کارگيری آنها، و با در اختيار گذاشتن گزينه‏هايی به صورت فرم‏های پرشدنی، کاربر را هدايت مي‏کند. راهنمای ابزار مفيدی، حين عبور ماوس از روی گزينه‏ها، ظاهر شده و اعمال لازم مربوطه را شرح مي‏دهد. پيشفرض‏های معقول قرار داده شده، کاربر را قادر مي‏سازند تا با کمترين تلاشی، به نتيجه برسد. اما کاربر بايد برای درک معنی نتايج حاصله، راجع به کارهايی که انجام مي‏دهد، بينديشد.
Weka دو واسط گرافيکی ديگر نيز دارد. واسط knowledge flow به کاربر امکان مي‏دهد تا چنيش‏هايی برای پردازش داده‏های در جريان، طراحی کند. يک عيب پايهای Explorer . نگهداری هر چيزی در حافظه اصلی آن است. (زمانی که يک مجموعه داده را باز مي‏کنيم، Explorer ، کل آن را، در حافظ باز مي‏کند) نشان مي‏دهد که Explorer ، صرفاً برای مسايل با اندازه‏های کوچک تا متوسط، قابل اعمال است. با وجود بر اين Weka شامل تعدادی الگوريتم‏های افزايشی است که مي‏تواند برای پردازش مجموعه های داده بسيار بزرگ مورد استفاده قرار گيرد. واسط knowledge flow امکان مي‏دهد تا جعبه [15] ‏های نمايانگر الگوريتم‏های يادگيری و منابع داده‏ها را به درون صفحه بکشيم و با اتصال آنها به يکديگر، ترکيب و چينش دلخواه خود را بسازيم. اين واسط اجازه مي‏دهد تا جريان دادهای از مؤلفه‏های به هم متصل که بيانگر منابع داده، ابزارهای پيش پردازش، روش‏های ارزيابی و واحدهای مصوّر سازی هستند تعريف شود. اگر فيلترها و الگوريتمهای يادگيری، قابليت يادگيری افزايشی را داشته باشند، داده‏ها به صورت افزايشی بار شده و پردازش خواهند شد.
سومين واسط Weka ، که Experimenter خوانده مي‏شود، کمک مي‏کند تا به اين سؤال عملی و پايهای کاربر حين استفاده از تکنيک‏های رده‏بندی و رگرسيون، پاسخ دهد: "چه روش‏ها و پارامترهايی برای مسأله داده شده، بهتر عمل مي‏کنند؟"
عموماً راهی برای پاسخگويی مقدماتی به اين سؤال وجود ندارد و يکی از دلايل توسعه Weka ، فراهم نمودن محيطی است که کاربران Weka را قادر به مقايسه تکنيک‏های گوناگون يادگيری بنمايد. اين کار، مي‏تواند به صورت تعاملی در Explorer انجام شود. با اين وجود، Experimenter با ساده کردن اجرای رده‏بندی کننده‏ها و فيلترها با پارامترهای گوناگون روی تعدادی از مجموعه‏های داده، جمعآوری آمار کارآيی و انجام آزمايش‏های معنا، پردازش را خودکار مي‏کند. کاربرهای پيشرفته، مي‏توانند از Experimenter برای توزيع بار محاسباتی بين چندين ماشين، استفاده کنند. در اين روش، مي‏توان آزمايش‏های آماری بزرگی را راهاندازی نموده و آنها را برای اجرا، رها نمود.
ورای اين واسط‏های تعاملی، عملکرد پايهای Weka قرار دارد. توابع پايهای Weka ، از طريق خط فرمان [16] ‏های متنی قابل دسترسی هستند. زمانی که Weka ، فعال مي‏شود، امکان انتخاب بين چهار واسط کاربری وجود دارد: Explorer ، knowledge ، Experimenter و واسط خط فرمان.
اکثر کاربران، حداقل در ابتدای کار Explorer را به عنوان واسط کاربری انتخاب مي‏کنند.
3. قابليتهای Weka
مستندسازی در لحظه، که به صورت خودکار از کد اصلی توليد مي‏شود و دقيقاً ساختار آن را بيان مي‏کند، قابليت مهمی است که حين استفاده از Weka وجوددارد.
نحوه استفاده از اين مستندات و چگونگی تعيين پايه‏های ساختمانی اصلی Weka ، مشخص کردن بخش‏هايی که از روش‏های يادگيری با سرپرست استفاده مي‏کند، ابزاری برای پيش پردازش داده‏ها بکار مي‏رود و اينکه چه روش‏هايی برای ساير برنامه‏های يادگيری وجود دارد، در ادامه تشريح خواهد شد. تنها به ليست کاملی از الگوريتم‏های موجود اکتفا مي‏شود زيرا Weka به طور پيوسته تکميل مي‏شود و به طور خودکار از کد اصلی توليد مي‏شود. مستندات در لحظه هميشه به هنگام شده مي‏باشد. اگر ادامه دادن به مراحل بعدی و دسترسی به کتابخانه از برنامه جاوا شخصی يا نوشتن و آزمايش کردن برنامه‏های يادگيری شخصی مورد نياز باشد، اين ويژگی بسيار حياتی خواهد بود.
در اغلب برنامه‏های کاربردی داده کاوی، جزء يادگيری ماشينی، بخش کوچکی از سيستم نرمافزاری نسبتاً بزرگی را شامل مي‏شود. در صورتی که نوشتن برنامه کاربردی داده کاوی مد نظر باشد، مي‏توان با برنامهنويسی اندکی به برنامه‏های Weka از داخل کد شخصی دسترسی داشت. اگر پيدا کردن مهارت در الگوريتم‏های يادگيری ماشينی مدنظر باشد، اجرای الگوريتم‏های شخصی بدون درگير جزييات دست و پا گير شدن مثل خواندن اطلاعات از يک فايل، اجرای الگوريتم‏های فيلترينگ يا تهيه کد برای ارزيابی نتايج يکی از خواسته‏ها مي‏باشد. Weka دارای همه اين مزيت‏ها است. برای استفاده کامل از اين ويژگی، بايد با ساختارهای پايهای داده‏ها آشنا شد.
4. دريافت Weka
نرم افزار Weka ، در آدرس http://www.cs.waikato.ac.nz/me/weka (http://www.cs.waikato.ac.nz/me/weka)، در دسترس است. از اين طريق مي‏توان نصب کننده [17] متناسب با يک پلت فرم معين، يا يک فايل Java jar را که در صورت نصب بودن جاوا به راحتی قابل اجرا است، دانلود [18] نمود.
5. مروری بر Explorer
واسط گرافيکی اصلی برای کاربران،‌ Explorer است که امکان دسترسی به همه امکانات Weka را از طريق انتخاب منوها و پر کردن فرمها فراهم ميآورد. شکل 2،‌ نمای Explorer ‌ را نشان ميدهد. در اين واسط، شش پانل [19] مختلف وجود دارد که از طريق نوار [20] بالای صفحه قابل انتخاب هستند و با وظايف [21] داده کاوی پشتيبانی شده توسط Weka ‌ متناظر ميباشند.

http://pnu-club.com/imported/2011/03/510.jpg
شکل 2. واسط گرافيکی Explorer
دو گزينه از شش گزينه بالای پنجره Explorer در شکل های 3 و 4 به طور خلاصه تشريح شده است.
به طور خلاصه، کارکرد تمام گزينه‏ها به شرح ذيل است.
Preprocess : انتخاب مجموعه داده و اصلاح [22] آن از راه‏های گوناگون
Classify : آموزش [23] برنامه‏های يادگيری که رده‏بندی يا رگرسيون انجام مي‏دهند و ارزيابی آنها.
Cluster : يادگيری خوشه‏ها برای مجموعه های داده
Associate : يادگيری قواعد انجمنی برای داده‏ها و ارزيابی آنها
Select attributes : انتخاب مرتبطترين جنبه [24] ها در مجموعه های داده
Visualize : مشاهده نمودارهای مختلف دوبعدی داده‏ها و تعامل با آنها

http://pnu-club.com/imported/2011/03/511.jpg
شکل 3. خواندن فايل داده های آب و هوا
Weka Exphorer امکان رده بندی دارد، چنانچه به کاربران اجازه مي‏دهد به صورت تعاملی اقدام به ساخت درخت تصميم‏گيری کنند. Weka نمودار پراکندگی داده‏ها را نسبت به دو ويژگی انتخاب شده، فراهم مي‏آورد. وقتی زوج ويژگيای که رده‏ها را به خوبی جدا مي‏کند، پيدا شد، امکان ايجاد دو شاخه با کشيدن چند ضلعی اطراف نقاط داده‏ها بر نمودار پراکندگی وجود دارد.

http://pnu-club.com/imported/2011/03/512.jpg
شکل 4. نوار Classify
هر نوار، دسترسی به دامنه کاملی از امکانات را فراهم ميکند. در پايين هر پانل، جعبه status و دکمه log قرار دارد. جعبه status پيغام‏هايی است که نشان مي‏دهد چه عملياتی در حال انجام داده شدن است. مثلاً اگر Explores مشغول خواندن يک فايل باشد، جعبه status آن را گزارش مي‏دهد. کليک راست در هر جا داخل اين جعبه يک منو کوچک با دو گزينه مي‏آورد، نمايش ميزان حافظه در دسترس Weka و اجرای Java garbage collector ..
لازم است توجه شود که garbage collector به طور ثابت به عنوان يک عمل پيش زمينه [25] در هر حال اجرا مي‏شود کليک دکمه log ، گزارش عملکرد متنی کارهايی که Weka تاکنون در اين بخش انجام داده است با برچسب زمانی ارايه مي‏کند.
زمانيکه Weka در حال عمليات است، پرنده کوچکی که در پايين سمت راست پنجره است، بالا و پايين مي‏پرد. عدد پشت × نشان مي‏دهد که به طور همزمان چند عمليات در حال انجام است. اگر پرنده بايستد در حاليکه حرکت نمي‏کند، او مريض است! اشتباه رخ داده است و بايد Explorer از نو اجرا شود.
1. خواندن و فيلتر کردن فايل‏ها
در بالای پانل Preprocess در شکل 3، دکمه‏هايی برای باز کردن فايل، URL ‏ها و پايگاه های داده‏ وجود دارد. در ابتدا تنها فايل‏های با پسوند arff . در browser فايل نمايش داده مي‏شود. برای ديدن ساير فايل‏ها يايد گزينه [26] Format در جعبه انتخاب فايل تغيير داده شود.
2. تبديل فايل‏ها به فرمت ARFF
نرم افزار Weka دارای سه مبدل فرمت فايل [27] مي‏باشد، برای فايل‏های صفحه گسترده [28] با پسوند CSV ، با فرمت فايل C4.5 با پسوند names . و data و برای نمونه‏های سری با پسوند bsi .
اگر Weka قادر به خواندن داده‏ها نباشد، سعی مي‏کند آن را به صورت ARFF تفسير کند. اگر نتواند جعبه نشان داده شده در شکل 5 (الف) ظاهر مي‏شود.

http://pnu-club.com/imported/2011/03/513.jpg
(الف)
http://pnu-club.com/imported/2011/03/514.jpg
(ب)
http://pnu-club.com/imported/2011/03/515.jpg
(ج)
شکل 5. ويرايشگر عمومی اشياء (الف) ويرايشگر (ب) اطلاعات بيشتر (فشردن دگمه More ) (ج) انتخاب يک مبدل
اين، يک ويرايشگر عمومی [29] اشياء است که در Weka برای انتخاب و تنظيم اشيا بکار مي‏رود. به عنوان مثال وقتی پارامتری برای Classifier تنظيم مي‏شود، جعبهای با نوع مشابه بکار برده مي‏شود. CSV Loader برای فايل‏های با پسوند CSV . به طور پيش فرض انتخاب مي‏شود. دکمه More اطلاعات بيشتری در مورد آن مي‏دهد که در شکل 5 (ب) نشان داده شده است.
هميشه مطالعه مستندات [30] ارزشمنداست! در اين حالت نشان مي‏دهد که رديف نخست صفحه گسترده، نام ويژگی را تعيين مي‏کند. برای استفاده از اين مبدل بايد بر Ok کليک شود. برای مورد مختلف لازم است بر choose کليک شود تا از ليست شکل 5 (ج) انتخاب انجام شود.
گزينه اول، Arffloader است و فقط به دليل ناموفق بودن به اين نقطه مي‏رسيم. CSVLoader پيش فرض است و در صورت نياز به فرض ديگر، choose کليک مي‏شود. سومين گزينه، مربوط به فرمت C4.5 است که دو فايل برای مجموعه داده وجود دارد يکی اسم‏ها و ديگـری داده‏های واقعـی مي‏باشد. چهارمين برای نمونه‏های سريالی [31] ، برای بازخوانی [32] مجموعه دادهای است که به صورت شيئ سريالی شده جاوا ذخيره شده است. هر شيء در جاوا مي‏تواند در اين شکل ذخيره و بازخوانی شود. به عنوان يک فرمت بومی جاوا [33] ، سريعتر از فايل ARFF خوانده مي‏شود چرا که فايل ARFF بايد تجزيه [34] و کنترل شود. وقتی يک مجموعه داده بزرگ مکررا بازخوانی مي‏شود، ذخيره آن در اين شکل سودمند است.
ويژگي‏های ديگر ويرايشگر عمومی اشيا در شکل 5 (الف)، save و open است که به ترتيب برای ذخيره اشيای تنظيم شده و بازکردن شيئی که پيش از اين ذخيره شده است، به کار ميرود. اينها برای اين نوع خاص شيئ مفيد نيستند. لکن پانل‏های ديگر ويرايشگر عمومی اشياء، خواص قابل ويرايش زيادی دارند. به دليل مشکلاتی که ممکن است حين تنظيم مجدد آنها رخ دهد، مي‏توان ترکيب اشياء ايجاد شده را برای استفاده‏های بعدی، ذخيره کرد.
تنها منبع [35] مجموعه‏های داده برای Weka ، فايل‏های موجود روی کامپيوتر نيستند. مي‏توان يک URL را باز کرد تا Weka از پروتکل HTTP برای دانلود کردن يک فايل Arff از شبکه استفاده کند. همچنين مي‏توان يک پايگاه داده‏ها را باز نمود ( open DB ـ هر پايگاه دادهای که درايور اتصال به مجموعه های داده به زبان جاوا JDBC را دارد.) و به وسيله دستور select زبان SQL ، نمونه‏‏ها را بازيابی نمود. داده‏ها مي‏توانند به کمک دگمه save به همه فرمت‏های ذکر شده، ذخيره شوند. جدای از بحث بارگذاری و ذخيره مجموعه‏های داده، پانل preprocess به کاربر اجازه فيلتر کردن داده‏ها را مي‏دهد. فيلترها، اجزای مهم Weka هستند.
3. بکارگيری فيلترها
با کليک دگمه choose (گوشه بالا و سمت چپ) در شکل 3 مي‏توان به ليستی از فيلترها دست يافت. مي‏توان از فيلترها برای حذف ويژگي‏های مورد نظری از يک مجموعه داده و انتخاب دستی ويژگي‏‏ها استفاده نمود. مشابه اين نتيجه را مي‏توان به کمک انتخاب ويژگي‏های مورد نظر با تيک زدن آنها و فشار دادن کليه Remove به دست آورد.
4. الگوريتم‏های يادگيری
زمانی که يک الگوريتم يادگيری با استفاده از دگمه choose در پانل classify انتخاب مي‏شود، نسخه خط فرمانی رده بند در سطری نزديک به دگمه ظاهر مي‏گردد. اين خط فرمان شامل پارامترهای الگوريتم است که با خط تيره مشخص مي‏شوند. برای تغيير آنها مي‏توان روی آن خط کليک نمود تا ويرايشگر مناسب شيء، باز شود. جدول شکل 6، ليست اسامی رده بندهای Weka را نمايش مي‏دهد. اين الگوريتم‏ها به رده بندهای Bayesian ، trees ، functions rules ، lazy و دسته نهايی شامل روش‏های متفرقه تقسيم شدهاند.
4-1. Trees
Decision stump که برای استفاده توسط روش‏های boosting طراحی شده است، برای مجموعه‏های داده عددی يا ردهای، درخت تصميم‏گيری يک سطحی مي‏سازد. اين الگوريتم، با مقادير از دست رفته، به صورت مقادير مجزا برخورد کرده و شاخه سومی از درخت توسعه مي‏دهد.
4-2. Rules
Decision Table يک رده بند بر اساس اکثريت جدول تصميم‏گيری مي‏سازد. اين الگوريتم، با استفاده از جستجوی اولين بهترين، زير دسته‏های ويژگي‏‏ها را ارزيابی مي‏کند و مي‏تواند از اعتبارسنجی تقاطعی برای ارزيابی بهره ببرد (1995، Kohavi ).
يک امکان اين است که به جای استفاده از اکثريت جدول تصميم‏گيری که بر اساس دسته ويژگي‏های مشابه عمل مي‏کند، از روش نزديکترين همسايه برای تعيين رده هر يک از نمونه‏ها که توسط مدخل [36] جدول تصميم‏گيری پوشش داده نشدهاند، استفاده شود.
Conjunctive Rule قاعدهای را ياد مي‏گيرد که مقادير رده‏های عددی را ردهای را پيش‏بينی مي‏کند. نمونه‏های آزمايشی به مقادير پيش فرض رده نمونه‏های آموزشی، منسوب مي‏شوند. سپس تقويت اطلاعات (برای رده‏های رسمی)، يا کاهش واريانس (برای ردههای عددی) مربوط به هر والد محاسبه شده و به روش هرس کردن با خطای کاهش يافته [37] ، قواعد هرس مي‏شوند.
ZeroR برای رده‏های اسمی، اکثريت داده‏های مورد آزمايش و برای رده‏های عددی، ميانگين آنها را پيش‏بينی مي‏کند. اين الگوريتم بسيار ساده است.
M5Rules ، به کمک M5 از روی درخت‏های مدل، قواعد رگرسيون استخراج مي‏کند.

http://pnu-club.com/imported/2011/03/516.jpg
شکل 6.الف. الگوريتمهای رده بندی در Weka
http://pnu-club.com/imported/2011/03/517.jpg
شکل 6.ب. الگوريتمهای رده بندی در Weka
در اين بخش به شرح مختصری برخی از اين الگوريتمها و پارامترهايشان که قابليت کار با ويژگی های عددی را دارند، پرداخته مي‏شود.
4-3. Functions
Simple Linear Regresion مدل رگرسيون خطی يک ويژگی مشخص را ياد مي‏گيرد. آنگاه مدل با کمترين خطای مربعات را انتخاب مي‏کند. در اين الگوريتم، مقادير از دست رفته و مقادير غيرعددی مجاز نيستند [38] .
Linear Regression رگرسيون خطی استاندارد کمترين خطای مربعات را انجام مي‏دهد مي‏تواند به طور اختياری به انتخاب ويژگی بپردازد، اين کار مي‏تواند به صورت حريصانه [39] با حذف عقب رونده [40] انجام شود، يا با ساختن يک مدل کامل از همه ويژگي‏‏ها و حذف يکی يکی جمله‏ها با ترتيب نزولی ضرايب استاندارد شده آنها، تا رسيدن به شرط توقف مطلوب انجام گيرد.
Least Med sq يک روش رگرسيون خطی مقاوم است که ميانه [41] (به جای ميانگين [42] ) مربعات انحراف از خط رگرسيون را کمينه مي‏کند. اين روش به طور مکرر رگرسيون خطی استاندارد را به زيرمجموعه‏هايی از نمونه‏ها اعمال مي‏کند و نتايجی را بيرون مي‏دهد که کمترين خطای مربع ميانه را دارند.
SMO teg الگوريتم بهينه سازی حداقل ترتيبی را روی مسايل رگرسيون اعمال مي‏کند. ( Scholkopf, 1998 ، Smola )
Pace Regression ، با استفاده از تکنيک رگرسيون pace ، مدل‏های رگرسيون خطی توليد مي‏کند (2002 ، Wang و Witten ). رگرسيون pace ، زمانی که تعداد ويژگي‏‏ها خيلی زياد است، به طور ويژهای در تعيين ويژگي‏‏هايی که بايد صرف‏نظر شوند، خوب عمل مي‏کند. در واقع در صورت وجود نظم و ترتيب خاصی، ثابت مي‏شود که با بينهايت شدن تعداد ويژگي‏‏ها، الگوريتم بهينه عمل مي‏کند.
RBF Network ، يک شبکه با تابع پايهای گوسی شعاعی را پياده سازی مي‏کند. مراکز و عرض‏های واحدهای مخفی به وسيله روش ميانگين K [43] تعيين مي‏شود. سپس خروجي‏های فراهم شده از لايه‏های مخفی [44] ، با استفاده از رگرسيون منطقی در مورد رده‏های اسمی و رگرسيون خطی در مورد رده‏های عددی، با يکديگر ترکيب مي‏شوند. فعال سازي‏های توابع پايه پيش از ورود به مدل‏های خطی، با جمع شدن با عدد يک، نرماليزه مي‏شوند. در اين الگوريتم مي‏توان، K تعداد خوشه‏ها، بيشترين تعداد تکرارهای رگرسيون‏های منطقی برای مسأله‏های رده‏های رسمی، حداقل انحراف معيار خوشه‏ها، و مقدار بيشينه رگرسيون را تعيين نمود. اگر رده‏ها رسمی باشد، ميانگين K به طور جداگانه به هر رده اعمال مي‏شود تا K خوشه مورد نظر برای هر رده استخراج گردد.
4-4. رده بندهای Lazy
ياديگرنده‏های lazy نمونه‏های آموزشی را ذخيره مي‏کنند و تا زمان رده بندی هيچ کار واقعی انجام نمي‏دهند.
IB1 يک يادگيرنده ابتدايی بر پايه نمونه است که نزديکترين نمونه‏های آموزشی به نمونه‏های آزمايشی داده شده را از نظر فاصله اقليدسی پيدا کرده و نزديکترين ردهای مشابه رده همان نمونه‏های آموزشی را تخمين مي‏زند.
IBK يک رده بند با K همسايه نزديک است که معيار فاصله ذکر شده را استفاده مي‏کند. تعداد نزديکترين فاصله‏ها (پيش فرض 1= K ) مي‏تواند به طور صريح در ويرايشگر شيء تعيف شود. پيش‏بيني‏های متعلق به پيش از يک همسايه مي‏تواند بر اساس فاصله آنها تا نمونه‏های آزمايشی، وزندار گردد.
دو فرمول متفاوت برای تبديل فاصله به وزن، پياده سازی شدهاند. تعداد نمونههای آموزشی که به وسيله رده بند نگهداری مي‏شود، مي‏تواند با تنظيم گزينه اندازه پنجره محدود گردد. زمانی که نمونه‏های جديد اضافه مي‏شوند، نمونه‏های قديمی حذف شده تا تعداد کل نمونه‏های آموزشی در اندازه تعيين شده باقی بماند.
Kstar ، يک روش نزديکترين همسايه است که از تابع فاصلهای عمومی شده بر اساس تبديلات استفاده مي‏کند.
LWL يک الگوريتم کلی برای يادگيری وزن دار شده به صورت محلی است. اين الگوريتم با استفاده از يک روش بر پايه نمونه، وزن‏ها را نسبت مي‏دهد و از روی نمونه‏های وزندار شده، رده بند را مي‏سازد. رده بند در ويرايشگر شيء LWL انتخاب مي‏شود. Nave Bayes برای مسايل رده بندی و رگرسيون خطی برای مسايل رگرسيون، انتخاب‏های خوبی هستند. مي‏توان در اين الگوريتم، تعداد همسايه‏های مورد استفاده را که پهنای باند هسته و شکل هسته مورد استفاده برای وزن دار کردن را (خطی، معکوس، يا گوسی) مشخص مي‏کند، تعيين نمود. نرمال سازی ويژگي‏‏ها به طور پيش فرض فعال است[ Data Mining, witten et Al. 2005 ].