PDA

توجه ! این یک نسخه آرشیو شده می باشد و در این حالت شما عکسی را مشاهده نمی کنید برای مشاهده کامل متن و عکسها بر روی لینک مقابل کلیک کنید : روش استفاده از Weka



donya88
03-03-2011, 09:18 AM
روش استفاده از Weka
شکل 1،‌ راههای انتخاب واسط­های مختلف Weka را نشان مي­دهد.
آسان­ترين راه استفاده از Weka ، از طريق واسطی گرافيکی است که Explorer خوانده مي‏شود. اين واسط گرافيکی، به وسيله انتخاب منوها و پر کردن فرم­‏های مربوطه، دسترسی به همه امکانات را فراهم کرده است. برای مثال، مي‏­توان به سرعت يک مجموعه داده را از يک فايل ARFF خواند و درخت تصميم‏گيری آن را توليد نمود. امادرخت­‏های تصميم‏گيری يادگيرنده صرفاً ابتدای کار هستند. الگوريتم­‏های بسيار ديگری برای جستجو وجود دارند. واسط Explorer کمک مي‏­کند تا الگوريتم­‏های ديگر نيز آزمايش شوند.


http://pnu-club.com/imported/2011/03/509.jpg
شکل 1. Weka در وضعيت انتخاب واسط
اين واسط با در اختيار گذاشتن گزينه­‏ها به صورت منو، با وادار کردن کاربر به اجرای کارها با ترتيب صحيح، به وسيله خاکستری نمودن گزينه­‏ها تا زمان صحيح به کارگيری آنها، و با در اختيار گذاشتن گزينه­‏هايی به صورت فرم­‏های پرشدنی، کاربر را هدايت مي‏­کند. راهنمای ابزار مفيدی، حين عبور ماوس از روی گزينه­‏ها، ظاهر شده و اعمال لازم مربوطه را شرح مي‏­دهد. پيش­فرض­‏های معقول قرار داده شده، کاربر را قادر مي‏­سازند تا با کمترين تلاشی، به نتيجه برسد. اما کاربر بايد برای درک معنی نتايج حاصله، راجع به کارهايی که انجام مي‏­دهد، بينديشد.
Weka دو واسط گرافيکی ديگر نيز دارد. واسط knowledge flow به کاربر امکان مي‏­دهد تا چنيش­‏هايی برای پردازش داده­‏های در جريان، طراحی کند. يک عيب پايه­ای Explorer . نگهداری هر چيزی در حافظه اصلی آن است. (زمانی که يک مجموعه داده را باز مي‏­کنيم، Explorer ، کل آن را، در حافظ باز مي‏­کند) نشان مي‏­دهد که Explorer ، صرفاً برای مسايل با اندازه­‏های کوچک تا متوسط، قابل اعمال است. با وجود بر اين Weka شامل تعدادی الگوريتم­‏های افزايشی است که مي‏­تواند برای پردازش مجموعه های داده بسيار بزرگ مورد استفاده قرار گيرد. واسط knowledge flow امکان مي‏­دهد تا جعبه [15] ­‏های نمايانگر الگوريتم­‏های يادگيری و منابع داده­‏ها را به درون صفحه بکشيم و با اتصال آنها به يکديگر، ترکيب و چينش دلخواه خود را بسازيم. اين واسط اجازه مي‏­دهد تا جريان داده­ای از مؤلفه­‏های به هم متصل که بيانگر منابع داده، ابزارهای پيش پردازش، روش­‏های ارزيابی و واحدهای مصوّر سازی هستند تعريف شود. اگر فيلترها و الگوريتم­های يادگيری، قابليت يادگيری افزايشی را داشته باشند، داده­‏ها به صورت افزايشی بار شده و پردازش خواهند شد.
سومين واسط Weka ، که Experimenter خوانده مي‏­شود، کمک مي‏­کند تا به اين سؤال عملی و پايه­ای کاربر حين استفاده از تکنيک­‏های رده‏بندی و رگرسيون، پاسخ دهد: "چه روش­‏ها و پارامترهايی برای مسأله داده شده، بهتر عمل مي‏­کنند؟"
عموماً راهی برای پاسخگويی مقدماتی به اين سؤال وجود ندارد و يکی از دلايل توسعه Weka ، فراهم نمودن محيطی است که کاربران Weka را قادر به مقايسه تکنيک­‏های گوناگون يادگيری بنمايد. اين کار، مي‏­تواند به صورت تعاملی در Explorer انجام شود. با اين وجود، Experimenter با ساده کردن اجرای رده‏بندی کننده­‏ها و فيلترها با پارامترهای گوناگون روی تعدادی از مجموعه­‏های داده، جمع­آوری آمار کارآيی و انجام آزمايش­‏های معنا، پردازش را خودکار مي‏­کند. کاربرهای پيشرفته، مي‏­توانند از Experimenter برای توزيع بار محاسباتی بين چندين ماشين، استفاده کنند. در اين روش، مي‏­توان آزمايش­‏های آماری بزرگی را راه­اندازی نموده و آنها را برای اجرا، رها نمود.
ورای اين واسط­‏های تعاملی، عملکرد پايه­ای Weka قرار دارد. توابع پايه­ای Weka ، از طريق خط فرمان [16] ­‏های متنی قابل دسترسی هستند. زمانی که Weka ، فعال مي‏­شود، امکان انتخاب بين چهار واسط کاربری وجود دارد: Explorer ، knowledge ، Experimenter و واسط خط فرمان.
اکثر کاربران، حداقل در ابتدای کار Explorer را به عنوان واسط کاربری انتخاب مي‏­کنند.
3. قابليتهای Weka
مستندسازی در لحظه، که به صورت خودکار از کد اصلی توليد مي‏­شود و دقيقاً ساختار آن را بيان مي‏­کند، قابليت مهمی است که حين استفاده از Weka وجوددارد.
نحوه استفاده از اين مستندات و چگونگی تعيين پايه­‏های ساختمانی اصلی Weka ، مشخص کردن بخش­‏هايی که از روش­‏های يادگيری با سرپرست استفاده مي‏­کند، ابزاری برای پيش پردازش داده­‏ها بکار مي‏­رود و اينکه چه روش­‏هايی برای ساير برنامه­‏های يادگيری وجود دارد، در ادامه تشريح خواهد شد. تنها به ليست کاملی از الگوريتم­‏های موجود اکتفا مي‏­شود زيرا Weka به طور پيوسته تکميل مي‏­شود و به طور خودکار از کد اصلی توليد مي‏­شود. مستندات در لحظه هميشه به هنگام شده مي‏­باشد. اگر ادامه دادن به مراحل بعدی و دسترسی به کتابخانه از برنامه جاوا شخصی يا نوشتن و آزمايش کردن برنامه­‏های يادگيری شخصی مورد نياز باشد، اين ويژگی بسيار حياتی خواهد بود.
در اغلب برنامه­‏های کاربردی داده کاوی، جزء يادگيری ماشينی، بخش کوچکی از سيستم نرم­افزاری نسبتاً بزرگی را شامل مي‏­شود. در صورتی که نوشتن برنامه کاربردی داده کاوی مد نظر باشد، مي‏­توان با برنامه­نويسی اندکی به برنامه­‏های Weka از داخل کد شخصی دسترسی داشت. اگر پيدا کردن مهارت در الگوريتم­‏های يادگيری ماشينی مدنظر باشد، اجرای الگوريتم­‏های شخصی بدون درگير جزييات دست و پا گير شدن مثل خواندن اطلاعات از يک فايل، اجرای الگوريتم­‏های فيلترينگ يا تهيه کد برای ارزيابی نتايج يکی از خواسته­‏ها مي‏­باشد. Weka دارای همه اين مزيت­‏ها است. برای استفاده کامل از اين ويژگی، بايد با ساختارهای پايه­ای داده­‏ها آشنا شد.
4. دريافت Weka
نرم افزار Weka ، در آدرس http://www.cs.waikato.ac.nz/me/weka (http://www.cs.waikato.ac.nz/me/weka)، در دسترس است. از اين طريق مي‏­توان نصب کننده [17] متناسب با يک پلت فرم معين، يا يک فايل Java jar را که در صورت نصب بودن جاوا به راحتی قابل اجرا است، دانلود [18] نمود.
5. مروری بر Explorer
واسط گرافيکی اصلی برای کاربران،‌ Explorer است که امکان دسترسی به همه امکانات Weka را از طريق انتخاب منوها و پر کردن فرمها فراهم مي­آورد. شکل 2،‌ نمای Explorer ‌ را نشان مي­دهد. در اين واسط، شش پانل [19] مختلف وجود دارد که از طريق نوار [20] بالای صفحه قابل انتخاب هستند و با وظايف [21] داده کاوی پشتيبانی شده توسط Weka ‌ متناظر مي­باشند.

http://pnu-club.com/imported/2011/03/510.jpg
شکل 2. واسط گرافيکی Explorer
دو گزينه از شش گزينه بالای پنجره Explorer در شکل های 3 و 4 به طور خلاصه تشريح شده است.
به طور خلاصه، کارکرد تمام گزينه­‏ها به شرح ذيل است.
Preprocess : انتخاب مجموعه داده و اصلاح [22] آن از راه­‏های گوناگون
Classify : آموزش [23] برنامه­‏های يادگيری که رده‏بندی يا رگرسيون انجام مي‏­دهند و ارزيابی آنها.
Cluster : يادگيری خوشه­‏ها برای مجموعه های داده
Associate : يادگيری قواعد انجمنی برای داده­‏ها و ارزيابی آنها
Select attributes : انتخاب مرتبط­ترين جنبه [24] ها در مجموعه های داده
Visualize : مشاهده نمودارهای مختلف دوبعدی داده­‏ها و تعامل با آنها

http://pnu-club.com/imported/2011/03/511.jpg
شکل 3. خواندن فايل داده های آب و هوا
Weka Exphorer امکان رده بندی دارد، چنانچه به کاربران اجازه مي‏­دهد به صورت تعاملی اقدام به ساخت درخت تصميم‏گيری کنند. Weka نمودار پراکندگی داده­‏ها را نسبت به دو ويژگی انتخاب شده، فراهم مي‏­آورد. وقتی زوج ويژگي­ای که رده­‏ها را به خوبی جدا مي‏­کند، پيدا شد، امکان ايجاد دو شاخه با کشيدن چند ضلعی اطراف نقاط داده­‏ها بر نمودار پراکندگی وجود دارد.


http://pnu-club.com/imported/2011/03/512.jpg
شکل 4. نوار Classify
هر نوار، دسترسی به دامنه کاملی از امکانات را فراهم مي­کند. در پايين هر پانل، جعبه status و دکمه log قرار دارد. جعبه status پيغام­‏هايی است که نشان مي‏­دهد چه عملياتی در حال انجام داده شدن است. مثلاً اگر Explores مشغول خواندن يک فايل باشد، جعبه status آن را گزارش مي‏­دهد. کليک راست در هر جا داخل اين جعبه يک منو کوچک با دو گزينه مي‏­آورد، نمايش ميزان حافظه در دسترس Weka و اجرای Java garbage collector ..
لازم است توجه شود که garbage collector به طور ثابت به عنوان يک عمل پيش زمينه [25] در هر حال اجرا مي‏­شود کليک دکمه log ، گزارش عملکرد متنی کارهايی که Weka تاکنون در اين بخش انجام داده است با برچسب زمانی ارايه مي‏­کند.
زمانيکه Weka در حال عمليات است، پرنده کوچکی که در پايين سمت راست پنجره است، بالا و پايين مي‏­پرد. عدد پشت × نشان مي‏­دهد که به طور همزمان چند عمليات در حال انجام است. اگر پرنده بايستد در حاليکه حرکت نمي‏­کند، او مريض است! اشتباه رخ داده است و بايد Explorer از نو اجرا شود.
1. خواندن و فيلتر کردن فايل­‏ها
در بالای پانل Preprocess در شکل 3، دکمه­‏هايی برای باز کردن فايل، URL ‏ها و پايگاه های داده­‏ وجود دارد. در ابتدا تنها فايل­‏های با پسوند arff . در browser فايل نمايش داده مي‏­شود. برای ديدن ساير فايل­‏ها يايد گزينه [26] Format در جعبه انتخاب فايل تغيير داده شود.
2. تبديل فايل­‏ها به فرمت ARFF
نرم افزار Weka دارای سه مبدل فرمت فايل [27] مي‏­باشد، برای فايل­‏های صفحه گسترده [28] با پسوند CSV ، با فرمت فايل C4.5 با پسوند names . و data و برای نمونه­‏های سری با پسوند bsi .
اگر Weka قادر به خواندن داده­‏ها نباشد، سعی مي‏­کند آن را به صورت ARFF تفسير کند. اگر نتواند جعبه نشان داده شده در شکل 5 (الف) ظاهر مي‏­شود.

http://pnu-club.com/imported/2011/03/513.jpg
(الف)
http://pnu-club.com/imported/2011/03/514.jpg
(ب)
http://pnu-club.com/imported/2011/03/515.jpg
(ج)
شکل 5. ويرايشگر عمومی اشياء (الف) ويرايشگر (ب) اطلاعات بيشتر (فشردن دگمه More ) (ج) انتخاب يک مبدل
اين، يک ويرايشگر عمومی [29] اشياء است که در Weka برای انتخاب و تنظيم اشيا بکار مي‏­رود. به عنوان مثال وقتی پارامتری برای Classifier تنظيم مي‏­شود، جعبه­ای با نوع مشابه بکار برده مي‏­شود. CSV Loader برای فايل­‏های با پسوند CSV . به طور پيش فرض انتخاب مي‏­شود. دکمه More اطلاعات بيشتری در مورد آن مي‏­دهد که در شکل 5 (ب) نشان داده شده است.
هميشه مطالعه مستندات [30] ارزشمنداست! در اين حالت نشان مي‏­دهد که رديف نخست صفحه گسترده، نام ويژگی را تعيين مي‏­کند. برای استفاده از اين مبدل بايد بر Ok کليک شود. برای مورد مختلف لازم است بر choose کليک شود تا از ليست شکل 5 (ج) انتخاب انجام شود.
گزينه اول، Arffloader است و فقط به دليل ناموفق بودن به اين نقطه مي‏­رسيم. CSVLoader پيش فرض است و در صورت نياز به فرض ديگر، choose کليک مي‏­شود. سومين گزينه، مربوط به فرمت C4.5 است که دو فايل برای مجموعه داده وجود دارد يکی اسم­‏ها و ديگـری داده­‏های واقعـی مي‏­باشد. چهارمين برای نمونه­‏های سريالی [31] ، برای بازخوانی [32] مجموعه داده­ای است که به صورت شيئ سريالی شده جاوا ذخيره شده است. هر شيء در جاوا مي‏­تواند در اين شکل ذخيره و بازخوانی شود. به عنوان يک فرمت بومی جاوا [33] ، سريع­تر از فايل ARFF خوانده مي‏­شود چرا که فايل ARFF بايد تجزيه [34] و کنترل شود. وقتی يک مجموعه داده بزرگ مکررا بازخوانی مي‏­شود، ذخيره آن در اين شکل سودمند است.
ويژگي‏های ديگر ويرايشگر عمومی اشيا در شکل 5 (الف)، save و open است که به ترتيب برای ذخيره اشيای تنظيم شده و بازکردن شيئی که پيش از اين ذخيره شده است، به کار مي­رود. اينها برای اين نوع خاص شيئ مفيد نيستند. لکن پانل­‏های ديگر ويرايشگر عمومی اشياء، خواص قابل ويرايش زيادی دارند. به دليل مشکلاتی که ممکن است حين تنظيم مجدد آنها رخ دهد، مي‏­توان ترکيب اشياء ايجاد شده را برای استفاده­‏های بعدی، ذخيره کرد.
تنها منبع [35] مجموعه­‏های داده برای Weka ، فايل­‏های موجود روی کامپيوتر نيستند. مي‏­توان يک URL را باز کرد تا Weka از پروتکل HTTP برای دانلود کردن يک فايل Arff از شبکه استفاده کند. همچنين مي‏توان يک پايگاه داده­‏ها را باز نمود ( open DB ـ هر پايگاه داده­ای که درايور اتصال به مجموعه های داده به زبان جاوا JDBC را دارد.) و به وسيله دستور select زبان SQL ، نمونه­‏‏ها را بازيابی نمود. داده­‏ها مي‏­توانند به کمک دگمه save به همه فرمت­‏های ذکر شده، ذخيره شوند. جدای از بحث بارگذاری و ذخيره مجموعه­‏های داده، پانل preprocess به کاربر اجازه فيلتر کردن داده­‏ها را مي‏­دهد. فيلترها، اجزای مهم Weka هستند.
3. بکارگيری فيلترها
با کليک دگمه choose (گوشه بالا و سمت چپ) در شکل 3 مي‏­توان به ليستی از فيلترها دست يافت. مي‏­توان از فيلترها برای حذف ويژگي‏های مورد نظری از يک مجموعه داده و انتخاب دستی ويژگي‏‏ها استفاده نمود. مشابه اين نتيجه را مي‏­توان به کمک انتخاب ويژگي‏های مورد نظر با تيک زدن آنها و فشار دادن کليه Remove به دست آورد.
4. الگوريتم­‏های يادگيری
زمانی که يک الگوريتم يادگيری با استفاده از دگمه choose در پانل classify انتخاب مي‏­شود، نسخه خط فرمانی رده بند در سطری نزديک به دگمه ظاهر مي‏­گردد. اين خط فرمان شامل پارامترهای الگوريتم است که با خط تيره مشخص مي‏­شوند. برای تغيير آنها مي‏­توان روی آن خط کليک نمود تا ويرايشگر مناسب شيء، باز شود. جدول شکل 6، ليست اسامی رده بندهای Weka را نمايش مي‏­دهد. اين الگوريتم­‏ها به رده بندهای Bayesian ، trees ، functions rules ، lazy و دسته نهايی شامل روش­‏های متفرقه تقسيم شده­اند.
4-1. Trees
Decision stump که برای استفاده توسط روش­‏های boosting طراحی شده است، برای مجموعه­‏های داده عددی يا رده­ای، درخت تصميم‏گيری يک سطحی مي‏­سازد. اين الگوريتم، با مقادير از دست رفته، به صورت مقادير مجزا برخورد کرده و شاخه سومی از درخت توسعه مي‏­دهد.
4-2. Rules
Decision Table يک رده بند بر اساس اکثريت جدول تصميم‏گيری مي‏­سازد. اين الگوريتم، با استفاده از جستجوی اولين بهترين، زير دسته­‏های ويژگي‏‏ها را ارزيابی مي‏­کند و مي‏­تواند از اعتبارسنجی تقاطعی برای ارزيابی بهره ببرد (1995، Kohavi ).
يک امکان اين است که به جای استفاده از اکثريت جدول تصميم‏گيری که بر اساس دسته ويژگي‏های مشابه عمل مي‏­کند، از روش نزديکترين همسايه برای تعيين رده هر يک از نمونه­‏ها که توسط مدخل [36] جدول تصميم‏گيری پوشش داده نشده­اند، استفاده شود.
Conjunctive Rule قاعده­ای را ياد مي‏­گيرد که مقادير رده­‏های عددی را رده­ای را پيش‏بينی مي‏­کند. نمونه­‏های آزمايشی به مقادير پيش فرض رده نمونه­‏های آموزشی، منسوب مي‏­شوند. سپس تقويت اطلاعات (برای رده­‏های رسمی)، يا کاهش واريانس (برای رده­های عددی) مربوط به هر والد محاسبه شده و به روش هرس کردن با خطای کاهش يافته [37] ، قواعد هرس مي‏­شوند.
ZeroR برای رده­‏های اسمی، اکثريت داده­‏های مورد آزمايش و برای رده­‏های عددی، ميانگين آنها را پيش‏بينی مي‏­کند. اين الگوريتم بسيار ساده است.
M5Rules ، به کمک M5 از روی درخت­‏های مدل، قواعد رگرسيون استخراج مي‏­کند.

http://pnu-club.com/imported/2011/03/516.jpg
شکل 6.الف. الگوريتمهای رده بندی در Weka
http://pnu-club.com/imported/2011/03/517.jpg
شکل 6.ب. الگوريتمهای رده بندی در Weka
در اين بخش به شرح مختصری برخی از اين الگوريتمها و پارامترهايشان که قابليت کار با ويژگی های عددی را دارند، پرداخته مي‏­شود.
4-3. Functions
Simple Linear Regresion مدل رگرسيون خطی يک ويژگی مشخص را ياد مي‏­گيرد. آنگاه مدل با کمترين خطای مربعات را انتخاب مي‏­کند. در اين الگوريتم، مقادير از دست رفته و مقادير غيرعددی مجاز نيستند [38] .
Linear Regression رگرسيون خطی استاندارد کمترين خطای مربعات را انجام مي‏­دهد مي‏تواند به طور اختياری به انتخاب ويژگی بپردازد، اين کار مي‏­تواند به صورت حريصانه [39] با حذف عقب رونده [40] انجام شود، يا با ساختن يک مدل کامل از همه ويژگي‏‏ها و حذف يکی يکی جمله­‏ها با ترتيب نزولی ضرايب استاندارد شده آنها، تا رسيدن به شرط توقف مطلوب انجام گيرد.
Least Med sq يک روش رگرسيون خطی مقاوم است که ميانه [41] (به جای ميانگين [42] ) مربعات انحراف از خط رگرسيون را کمينه مي‏­کند. اين روش به طور مکرر رگرسيون خطی استاندارد را به زيرمجموعه­‏هايی از نمونه­‏ها اعمال مي‏­کند و نتايجی را بيرون مي‏­دهد که کمترين خطای مربع ميانه را دارند.
SMO teg الگوريتم بهينه سازی حداقل ترتيبی را روی مسايل رگرسيون اعمال مي‏­کند. ( Scholkopf, 1998 ، Smola )
Pace Regression ، با استفاده از تکنيک رگرسيون pace ، مدل­‏های رگرسيون خطی توليد مي‏­کند (2002 ، Wang و Witten ). رگرسيون pace ، زمانی که تعداد ويژگي‏‏ها خيلی زياد است، به طور ويژه­ای در تعيين ويژگي‏‏هايی که بايد صرف‏نظر شوند، خوب عمل مي‏­کند. در واقع در صورت وجود نظم و ترتيب خاصی، ثابت مي‏­شود که با بي­نهايت شدن تعداد ويژگي‏‏ها، الگوريتم بهينه عمل مي‏­کند.
RBF Network ، يک شبکه با تابع پايه­ای گوسی شعاعی را پياده سازی مي‏­کند. مراکز و عرض­‏های واحدهای مخفی به وسيله روش ميانگين K [43] تعيين مي‏­شود. سپس خروجي­‏های فراهم شده از لايه­‏های مخفی [44] ، با استفاده از رگرسيون منطقی در مورد رده­‏های اسمی و رگرسيون خطی در مورد رده­‏های عددی، با يکديگر ترکيب مي‏­شوند. فعال سازي­‏های توابع پايه پيش از ورود به مدل­‏های خطی، با جمع شدن با عدد يک، نرماليزه مي‏­شوند. در اين الگوريتم مي‏­توان، K تعداد خوشه­‏ها، بيشترين تعداد تکرارهای رگرسيون­‏های منطقی برای مسأله­‏های رده­‏های رسمی، حداقل انحراف معيار خوشه­‏ها، و مقدار بيشينه رگرسيون را تعيين نمود. اگر رده­‏ها رسمی باشد، ميانگين K به طور جداگانه به هر رده اعمال مي‏­شود تا K خوشه مورد نظر برای هر رده استخراج گردد.
4-4. رده بندهای Lazy
ياديگرنده­‏های lazy نمونه­‏های آموزشی را ذخيره مي‏­کنند و تا زمان رده بندی هيچ کار واقعی انجام نمي‏­دهند.
IB1 يک يادگيرنده ابتدايی بر پايه نمونه است که نزديک­ترين نمونه­‏های آموزشی به نمونه­‏های آزمايشی داده شده را از نظر فاصله اقليدسی پيدا کرده و نزديکترين رده­ای مشابه رده همان نمونه­‏های آموزشی را تخمين مي‏­زند.
IBK يک رده بند با K همسايه نزديک است که معيار فاصله ذکر شده را استفاده مي‏­کند. تعداد نزديکترين فاصله­‏ها (پيش فرض 1= K ) مي‏­تواند به طور صريح در ويرايشگر شيء تعيف شود. پيش‏بيني­‏های متعلق به پيش از يک همسايه مي‏­تواند بر اساس فاصله آنها تا نمونه­‏های آزمايشی، وزن­دار گردد.
دو فرمول متفاوت برای تبديل فاصله به وزن، پياده سازی شده­اند. تعداد نمونه­های آموزشی که به وسيله رده بند نگهداری مي‏­شود، مي‏­تواند با تنظيم گزينه اندازه پنجره محدود گردد. زمانی که نمونه­‏های جديد اضافه مي‏­شوند، نمونه­‏های قديمی حذف شده تا تعداد کل نمونه­‏های آموزشی در اندازه تعيين شده باقی بماند.
Kstar ، يک روش نزديکترين همسايه است که از تابع فاصله­ای عمومی شده بر اساس تبديلات استفاده مي‏­کند.
LWL يک الگوريتم کلی برای يادگيری وزن دار شده به صورت محلی است. اين الگوريتم با استفاده از يک روش بر پايه نمونه، وزن­‏ها را نسبت مي‏­دهد و از روی نمونه­‏های وزن­دار شده، رده بند را مي‏­سازد. رده بند در ويرايشگر شيء LWL انتخاب مي‏­شود. Nave Bayes برای مسايل رده بندی و رگرسيون خطی برای مسايل رگرسيون، انتخاب­‏های خوبی هستند. مي‏­توان در اين الگوريتم، تعداد همسايه­‏های مورد استفاده را که پهنای باند هسته و شکل هسته مورد استفاده برای وزن دار کردن را (خطی، معکوس، يا گوسی) مشخص مي‏­کند، تعيين نمود. نرمال سازی ويژگي‏‏ها به طور پيش فرض فعال است[ Data Mining, witten et Al. 2005 ].

talebi
04-01-2011, 12:18 PM
ممنون از مطالب خوبتون این دستوری که در cmd بعد نصب مینویسیم برای چیه؟میشه راجبش توضیح بدین؟