نحوه تولید داه برای weka [بایگانی] - باشگاه دانشجویان دانشگاه پیام نور

PDA

توجه ! این یک نسخه آرشیو شده می باشد و در این حالت شما عکسی را مشاهده نمی کنید برای مشاهده کامل متن و عکسها بر روی لینک مقابل کلیک کنید : نحوه تولید داه برای weka

ikaroos

03-05-2011, 09:40 AM

سلام دوستان
من یک فایل اکسل از یک سری داده دارم می خواهم آنها را تبدیل به فرمت Arffمورد نیاز weka بکنم نمدونم چه باید انجام بدم لطفاً من و راهنمای کنید
با تشکر

Borna66

03-06-2011, 12:40 AM

داده کاوی چیست؟
بنابر اعلام دانشگاه MIT دانش نوین داده کاوی (Data mining ) یکی از ده دانش در حال توسعه ای است که دهه آینده را با انقلاب تکنولوژیکی مواجه می سازد. این تکنولوژی امروزه دارای کاربرد بسیار وسیعی در حوزه های مختلف است به گونه ای که امروزه حد و مرزی برای کاربرد این دانش در نظر نگرفته و زمینه های کاری این دانش را از ذرات کف اقیانوسها تا اعماق فضا می دانند . امروزه، بیشترین کاربرد داده کاوی در بانکها، مراکز صنعتی و کارخانجات بزرگ، مراکز درمانی و بیمارستانها، مراکز تحقیقاتی، بازاریابی هوشمندو .... میباشد.
داده کاوی پل ارتباطی میان علم آمار ، علم کامپیوتر ، هوش مصنوعی ، الگوشناسی ، فراگیری ماشین و بازنمایی بصری داده می باشد. داده کاوی فرآیندی پیچیده جهت شناسایی الگوها و مدل های صحیح، جدید و به صورت بالقوه مفید، در حجم وسیعی از داده بوده به طریقی که این الگوها و مدلها برای انسانها قابل درک باشند. داده کاوی به صورت یک محصول قابل خریداری نمی باشد، بلکه یک رشته علمی و فرآیندی است که بایستی به صورت یک پروژه پیاده سازی شود.
کاوش داد ه ها به معني کنکاش داده هاي موجود در پايگاه داده و انجام تحليل هاي مختلف بر روي آن به منظور استخراج اطلاعات مي باشد. داده كاوی فرایندی تحلیلی است كه برای كاوش داده ها ( معمولا حجم عظیمی از داده ها - در زمینه های كسب وكار و بازار) صورت می‌گیرد و یافته‌ها‌با‌به‌كارگیری الگوهایی‌،‌احراز اعتبار می‌شوند . هدف اصلی داده كاوی پیش بینی است. و به صورت دقیق تر میتوان گفت :کاوش داده ها شناسايي الگوهاي صحيح، بديع، سودمند و قابل درک از داده هاي موجود در يک پايگاه داده است که با استفاده از پرداز شهاي معمول قابل دستيابي نيستند. ‌فرایند داده ‌كاوی شامل سه مرحله می باشد :
1. كاوش اولیه
2. ساخت مدل یا شناسایی الگو با كمك احراز اعتبار/ تایید
3. بهره برداری.
گام1 : كاوش
معمولا‌این‌مرحله با آماده سازی داده ها صورت می گیرد كه ممكن است شامل پاك سازی داده ها ،‌تبدیل داده ها‌و‌انتخاب زیرمجموعه‌هايي‌‌ از ركوردها‌با‌حجم‌عظیمی‌از ‌متغييرها( فیلدها ) باشد . سپس با توجه‌به‌ماهیت‌مساله تحلیلی‌، این‌مرحله‌به‌مدل‌هاي‌‌ ‌پیش بیني ساده یا مدل‌های‌آماری‌و‌گرافیكی برای شناسایی متغیرهاي مورد نظر و مرحله 2:ساخت و احراز اعتبار مدل
این‌مرحله‌به‍ بررسی‌مدل‌هاي مختلف و گزینش بهترین مدل با توجه به كارآیی پيش‌بيني آن می پردازد. شاید این مرحله ساده به نظر برسد، اما اينطورنیست. تكنیك‌های‌متعددی‌برای‌ر سیدن‌به‌این‌هدف توسعه یافتند.و " ارزیابی رقابتی مدل ها"‌نام گرفتند. بدین منظور مدل‌های مختلف برای مجموعه داده‌های یكسان‌‌به‌كار‌می‌روند‌ تا‌كارآیی‌شان‌با‌هم مقایسه‌شود ،‌سپس مدلی كه‌بهترین كارآیی راداشته باشد‌، انتخاب می‌شود.‌این‌تكنیك‌ها عبارتند از : Bagging,Boosting ,Stacking و Meta-learning

مرحله 3 : بهره برداری
آخرین‌مرحله‌مدلی‌راكه‌د رمرحله قبل‌انتخاب‌شده است، در داده‌های‌جدیدبه كار‌می‌گیردتا پیش‌بینی‌هاي‌خروجی‌های مورد انتظاررا تولید نماید.داده كاوی‌به‌عنوان‌ابزار‌مدی ریت‌اطلاعات‌برای‌تصمیم گیری‌،‌عمومیت‌یافته‌است . اخیرا‌،‌توسعه تكنیك های تحلیلی جدید در این زمینه مورد توجه قرار گرفته است (مثلا Classification Trees)،اما هنوز داده كاوی مبتنی بر اصول آماری نظیر(Exploratory Data Analysis (EDA)می باشد.تعیین پیچیدگی مدل‌ها برای استفاده در مرحله بعدی نیاز دارد .
مفاهیم اساسی در داده كاوی
Bagging:
این مفهوم برای تركیب رده بندی های پیش بینی شده از چند مدل به كار می رود.فرض كنیدكه قصدداریدمدلی برای رده بندی پیش بيني بسازیدو مجموعه داده های مورد نظرتان كوچك است.شمامی توانید نمونه هایی( با جایگزینی) را از مجموعه داده ها انتخاب و برای نمونه های حاصل ازدرخت رده بندی (مثلا C&RT وCHAID )استفاده نمایید.به طوركلی برای نمونه های مختلف به درخت های متفاوتی خواهید رسید.سپس برای پیش بینی با كمك درخت های متفاوت به دست آمده از نمونه ها ،‌یك رای گیری ساده انجام دهید.رده بندی نهایی ، رده بندی ای‌خواهد بود كه درخت های مختلف آنرا پیش بینی كرده اند .
Boosting:
این مفهوم برای تولید مدل‌های چندگانه (برای پیش بینی یا رده بندی)به كار می‌رود. Boosting نیزاز روش C&RT یا CHAID استفاده وترتیبی از classifier ها را تولید خواهد كرد .
Meta-Learning :
این مفهوم برای تركیب پیش بینی‌های حاصل از چند مدل به كار می‌رود.و هنگامی كه انواع مدل‌های موجود در پروژه خیلی متفاوت هستند، كاربرد دارد. فرض كنید كه پروژه داده كاوی شما شامل Tree classifierها نظیر C&RTو CHAID، تحلیل خطی و شبكه های عصبی است.هر یك از كامپیوترها،رده بندی هایی رابرای نمونه ها‌پیش بینی كرده اند.تجربه نشان می‌دهدكه تركیب پیش بینی های چند روش دقیق تراز پیش بینی های هریك از روشهاست.پیش بینی های حاصل از چند classifier را می توان به عنوان ورودی meta-linear مورد استفاده قرار داد. meta-linear پیش بینی هارا تركیب می كند تا بهترین رده بندی پیش بینی شده حاصل شود.
با تشکر از گرداورندگان این مقاله . متاسفانه منبع رو یادم نمیاد.

Borna66

03-06-2011, 12:40 AM

نرم افزار داده كاوي Weka

1-مقدمه

تا به امروز نرم افزار هاي تجاري و آموزشي فراواني براي داده كاوي در حوزه هاي مختلف داده ها به دنياي علم و فناوري عرضه شدهاند. هريك از آنها با توجه به نوع اصلي داده هايي كه مورد كاوش قرار ميدهند، روي الگوريتمهاي خاصي متمركز شدهاند. مقايسه دقيق و علمي اين ابزارها بايد از جنبه هاي متفاوت و متعددي مانند تنوع انواع و فرمت داده هاي ورودي، حجم ممكن براي پردازش داده ها، الگوريتمها پياده سازي شده، روشهاي ارزيابي نتايج، روشهاي مصور سازي ، روشهاي پيش پردازش داده ها، واسطهاي كاربر پسند ، پلت فرم هاي سازگار براي اجرا،‌ قيمت و در دسترس بودن نرم افزار صورت گيرد. از آن ميان، ‌نرم افزار Weka با داشتن امكانات بسيار گسترده،‌ امكان مقايسه خروجي روشهاي مختلف با هم، راهنماي خوب، واسط گرافيگي كارآ، سازگاري با ساير برنامههاي ويندوزي، و از همه مهمتر وجود كتابي بسيار جامع و مرتبط با آن [ Data Mining, witten et Al. 2005 ] ، معرفي ميشود.

ميزكار Weka ، مجموعهاي از الگوريتم‏هاي روز يادگيري ماشيني و ابزارهاي پيش پردازش داده‏ها مي‏باشد. اين نرمافزار به گونهاي طراحي شده است كه مي‏توان به سرعت، روش‏هاي موجود را به صورت انعطافپذيري روي مجموعه‏هاي جديد داده، آزمايش نمود. اين نرمافزار، پشتيباني‏‏هاي ارزشمندي را براي كل فرآيند داده كاوي ‏هاي تجربي فراهم مي‏كند. اين پشتيباني‏ها، آماده سازي داده‏هاي ورودي، ارزيابي آماري چارچوب‏هاي يادگيري و نمايش گرافيكي داده‏هاي ورودي و نتايج يادگيري را در بر ميگيرند. همچنين، هماهنگ با دامنه وسيع الگوريتم‏هاي يادگيري، اين نرمافزار شامل ابزارهاي متنوع پيش پردازش دادههاست. اين جعبه ابزار متنوع و جامع، از طريق يك واسط متداول در دسترس است، به نحوي كه كاربر مي‏تواند روش‏هاي متفاوت را در آن با يكديگر مقايسه كند و روش‏هايي را كه براي مسايل مدنظر مناسبتر هستند، تشخيص دهد.

نرمافزار Weka در دانشگاه Waikato واقع در نيوزلند توسعه يافته است و اسم آن از عبارت "Waikato Environment for knowledge Analysis" استخراج گشته است. همچنين Weka ، نام پرندهاي با طبيعت جستجوگر است كه پرواز نمي‏كند و در نيوزلند، يافت مي‏شود. اين سيستم به زبان جاوا نوشته شده و بر اساس ليسانس عمومي و فراگير GNU انتشار يافته است. Weka تقريباً روي هر پلت فرمي اجرا مي‏شود و نيز تحت سيستم عامل‏هاي لينوكس، ويندوز، و مكينتاش، و حتي روي يك منشي ديجيتالي شخصي ، آزمايش شده است.

اين نرمافزار، يك واسط همگون براي بسياري از الگوريتم‏هاي يادگيري متفاوت، فراهم كرده است كه از طريق آن روش‏هاي پيش پردازش، پس از پردازش و ارزيابي نتايج طرح هاي يادگيري روي همه مجموعه هاي داده‏ موجود، قابل اعمال است.

نرم افزار Weka ، پياده سازي الگوريتم‏هاي مختلف يادگيري را فراهم مي‏كند و به آساني مي‏توان آنها را به مجموعه هاي داده خود اعمال كرد.

همچنين، اين نرمافزار شامل مجموعه متنوعي از ابزارهاي تبديل مجموعه‏ هاي داده‏ها، همانند الگوريتم‏هاي گسسته سازي مي‏باشد. در اين محيط مي‏توان يك مجموعه داده را پيش پردازش كرد، آن را به يك طرح يادگيري وارد نمود، و دستهبندي حاصله و كارآيياش را مورد تحليل قرار داد. (همه اين كارها، بدون نياز به نوشتن هيچ قطعه برنامهاي ميسر است.)

اين محيط، شامل روش‏هايي براي همه مسايل استاندارد داده كاوي مانند رگرسيون، رده‏بندي، خوشهبندي، كاوش قواعد انجمني و انتخاب ويژگي مي‏باشد. با در نظر گرفتن اينكه، داده‏ها بخش مكمل كار هستند، بسياري از ابزارهاي پيش پردازش داده‏ها و مصورسازي آنها فراهم گشته است. همه الگوريتم‏ها، ورودي‏هاي خود را به صورت يك جدول رابطهاي به فرمت ARFF دريافت مي‏كنند. اين فرمت داده‏ها، مي‏تواند از يك فايل خوانده شده يا به وسيله يك درخواست از پايگاه دادهاي توليد گردد.

يكي از راه‏هاي به كارگيري Weka ، اعمال يك روش يادگيري به يك مجموعه داده و تحليل خروجي آن براي شناخت چيزهاي بيشتري راجع به آن اطلاعات مي‏باشد. راه ديگر استفاده از مدل يادگيري شده براي توليد پيش‏بيني‏هايي در مورد نمونه‏هاي جديد است. سومين راه، اعمال يادگيرنده‏هاي مختلف و مقايسه كارآيي آنها به منظور انتخاب يكي از آنها براي تخمين مي‏باشد. روش‏هاي يادگيري Classifier ناميده مي‏شوند و در واسط تعاملي Weka ، مي‏توان هر يك از آنها را از منو انتخاب نمود. بسياري از classifier ‏ها پارامترهاي قابل تنظيم دارند كه مي‏توان از طريق صفحه ويژگي‏‏ها يا object editor به آنها دسترسي داشت. يك واحد ارزيابي مشترك، براي اندازه‏گيري كارآيي همه classifier به كار مي‏رود.

پياده سازي‏هاي چارچوب‏هاي يادگيري واقعي، منابع بسيار ارزشمندي هستند كه Weka فراهم مي‏كند. ابزارهايي كه براي پيش پردازش داده‏ها استفاده مي‏شوند. filter ناميده مي‏شوند. همانند classifier ‏ها، مي‏توان filter ‏ها را از منوي مربوطه انتخاب كرده و آنها را با نيازمندي‏هاي خود، سازگار نمود. در ادامه، به روش به كارگيري فيلترها اشاره مي‏شود.

علاوه بر موارد فوق، Weka شامل پياده سازي الگوريتم‏هايي براي يادگيري قواعد انجمني، خوشهبندي داده‏ها در جايي كه هيچ دستهاي تعريف نشده است، و انتخاب ويژگي‏هاي مرتبط در داده‏ها مي‏شود.

2- روش استفاده از Weka

شكل 1،‌ راههاي انتخاب واسطهاي مختلف Weka را نشان ميدهد.

آسانترين راه استفاده از Weka ، از طريق واسطي گرافيكي است كه Explorer خوانده مي‏شود. اين واسط گرافيكي، به وسيله انتخاب منوها و پر كردن فرم‏هاي مربوطه، دسترسي به همه امكانات را فراهم كرده است. براي مثال، مي‏توان به سرعت يك مجموعه داده را از يك فايل ARFF خواند و درخت تصميم‏گيري آن را توليد نمود. امادرخت‏هاي تصميم‏گيري يادگيرنده صرفاً ابتداي كار هستند. الگوريتم‏هاي بسيار ديگري براي جستجو وجود دارند. واسط Explorer كمك مي‏كند تا الگوريتم‏هاي ديگر نيز آزمايش شوند.

http://pnu-club.com/imported/mising.jpg
شكل 1. Weka در وضعيت انتخاب واسط

اين واسط با در اختيار گذاشتن گزينه‏ها به صورت منو، با وادار كردن كاربر به اجراي كارها با ترتيب صحيح، به وسيله خاكستري نمودن گزينه‏ها تا زمان صحيح به كارگيري آنها، و با در اختيار گذاشتن گزينه‏هايي به صورت فرم‏هاي پرشدني، كاربر را هدايت مي‏كند. راهنماي ابزار مفيدي، حين عبور ماوس از روي گزينه‏ها، ظاهر شده و اعمال لازم مربوطه را شرح مي‏دهد. پيشفرض‏هاي معقول قرار داده شده، كاربر را قادر مي‏سازند تا با كمترين تلاشي، به نتيجه برسد. اما كاربر بايد براي درك معني نتايج حاصله، راجع به كارهايي كه انجام مي‏دهد، بينديشد.

Weka دو واسط گرافيكي ديگر نيز دارد. واسط knowledge flow به كاربر امكان مي‏دهد تا چنيش‏هايي براي پردازش داده‏هاي در جريان، طراحي كند. يك عيب پايهاي Explorer . نگهداري هر چيزي در حافظه اصلي آن است. (زماني كه يك مجموعه داده را باز مي‏كنيم، Explorer ، كل آن را، در حافظ باز مي‏كند) نشان مي‏دهد كه Explorer ، صرفاً براي مسايل با اندازه‏هاي كوچك تا متوسط، قابل اعمال است. با وجود بر اين Weka شامل تعدادي الگوريتم‏هاي افزايشي است كه مي‏تواند براي پردازش مجموعه هاي داده بسيار بزرگ مورد استفاده قرار گيرد. واسط knowledge flow امكان مي‏دهد تا جعبه ‏هاي نمايانگر الگوريتم‏هاي يادگيري و منابع داده‏ها را به درون صفحه بكشيم و با اتصال آنها به يكديگر، تركيب و چينش دلخواه خود را بسازيم. اين واسط اجازه مي‏دهد تا جريان دادهاي از مؤلفه‏هاي به هم متصل كه بيانگر منابع داده، ابزارهاي پيش پردازش، روش‏هاي ارزيابي و واحدهاي مصوّر سازي هستند تعريف شود. اگر فيلترها و الگوريتمهاي يادگيري، قابليت يادگيري افزايشي را داشته باشند، داده‏ها به صورت افزايشي بار شده و پردازش خواهند شد.

سومين واسط Weka ، كه Experimenter خوانده مي‏شود، كمك مي‏كند تا به اين سؤال عملي و پايهاي كاربر حين استفاده از تكنيك‏هاي رده‏بندي و رگرسيون، پاسخ دهد: "چه روش‏ها و پارامترهايي براي مسأله داده شده، بهتر عمل مي‏كنند؟"

عموماً راهي براي پاسخگويي مقدماتي به اين سؤال وجود ندارد و يكي از دلايل توسعه Weka ، فراهم نمودن محيطي است كه كاربران Weka را قادر به مقايسه تكنيك‏هاي گوناگون يادگيري بنمايد. اين كار، مي‏تواند به صورت تعاملي در Explorer انجام شود. با اين وجود، Experimenter با ساده كردن اجراي رده‏بندي كننده‏ها و فيلترها با پارامترهاي گوناگون روي تعدادي از مجموعه‏هاي داده، جمعآوري آمار كارآيي و انجام آزمايش‏هاي معنا، پردازش را خودكار مي‏كند. كاربرهاي پيشرفته، مي‏توانند از Experimenter براي توزيع بار محاسباتي بين چندين ماشين، استفاده كنند. در اين روش، مي‏توان آزمايش‏هاي آماري بزرگي را راهاندازي نموده و آنها را براي اجرا، رها نمود.

وراي اين واسط‏هاي تعاملي، عملكرد پايهاي Weka قرار دارد. توابع پايهاي Weka ، از طريق خط فرمان ‏هاي متني قابل دسترسي هستند. زماني كه Weka ، فعال مي‏شود، امكان انتخاب بين چهار واسط كاربري وجود دارد: Explorer ، knowledge ، Experimenter و واسط خط فرمان.

اكثر كاربران، حداقل در ابتداي كار Explorer را به عنوان واسط كاربري انتخاب مي‏كنند.

3. قابليتهاي Weka

مستندسازي در لحظه، كه به صورت خودكار از كد اصلي توليد مي‏شود و دقيقاً ساختار آن را بيان مي‏كند، قابليت مهمي است كه حين استفاده از Weka وجوددارد.

نحوه استفاده از اين مستندات و چگونگي تعيين پايه‏هاي ساختماني اصلي Weka ، مشخص كردن بخش‏هايي كه از روش‏هاي يادگيري با سرپرست استفاده مي‏كند، ابزاري براي پيش پردازش داده‏ها بكار مي‏رود و اينكه چه روش‏هايي براي ساير برنامه‏هاي يادگيري وجود دارد، در ادامه تشريح خواهد شد. تنها به ليست كاملي از الگوريتم‏هاي موجود اكتفا مي‏شود زيرا Weka به طور پيوسته تكميل مي‏شود و به طور خودكار از كد اصلي توليد مي‏شود. مستندات در لحظه هميشه به هنگام شده مي‏باشد. اگر ادامه دادن به مراحل بعدي و دسترسي به كتابخانه از برنامه جاوا شخصي يا نوشتن و آزمايش كردن برنامه‏هاي يادگيري شخصي مورد نياز باشد، اين ويژگي بسيار حياتي خواهد بود.

در اغلب برنامه‏هاي كاربردي داده كاوي، جزء يادگيري ماشيني، بخش كوچكي از سيستم نرمافزاري نسبتاً بزرگي را شامل مي‏شود. در صورتي كه نوشتن برنامه كاربردي داده كاوي مد نظر باشد، مي‏توان با برنامهنويسي اندكي به برنامه‏هاي Weka از داخل كد شخصي دسترسي داشت. اگر پيدا كردن مهارت در الگوريتم‏هاي يادگيري ماشيني مدنظر باشد، اجراي الگوريتم‏هاي شخصي بدون درگير جزييات دست و پا گير شدن مثل خواندن اطلاعات از يك فايل، اجراي الگوريتم‏هاي فيلترينگ يا تهيه كد براي ارزيابي نتايج يكي از خواسته‏ها مي‏باشد. Weka داراي همه اين مزيت‏ها است. براي استفاده كامل از اين ويژگي، بايد با ساختارهاي پايهاي داده‏ها آشنا شد.

4. دريافت Weka

نرم افزار Weka ، در آدرس http://www.cs.waikato.ac.nz/me/weka ، در دسترس است. از اين طريق مي‏توان نصب كننده متناسب با يك پلت فرم معين، يا يك فايل Java jar را كه در صورت نصب بودن جاوا به راحتي قابل اجرا است، دانلود نمود.

5. مروري بر Explorer

واسط گرافيكي اصلي براي كاربران،‌ Explorer است كه امكان دسترسي به همه امكانات Weka را از طريق انتخاب منوها و پر كردن فرمها فراهم ميآورد. شكل 2،‌ نماي Explorer ‌ را نشان ميدهد. در اين واسط، شش پانل مختلف وجود دارد كه از طريق نوار بالاي صفحه قابل انتخاب هستند و با وظايف داده كاوي پشتيباني شده توسط Weka ‌ متناظر ميباشند.

http://pnu-club.com/imported/2011/03/900.jpg
دو گزينه از شش گزينه بالاي پنجره Explorer در شكل هاي 3 و 4 به طور خلاصه تشريح شده است.

به طور خلاصه، كاركرد تمام گزينه‏ها به شرح ذيل است.

Preprocess : انتخاب مجموعه داده و اصلاح آن از راه‏هاي گوناگون

Classify : آموزش برنامه‏هاي يادگيري كه رده‏بندي يا رگرسيون انجام مي‏دهند و ارزيابي آنها.

Cluster : يادگيري خوشه‏ها براي مجموعه هاي داده

Associate : يادگيري قواعد انجمني براي داده‏ها و ارزيابي آنها

Select attributes : انتخاب مرتبطترين جنبه ها در مجموعه هاي داده

Visualize : مشاهده نمودارهاي مختلف دوبعدي داده ‏ها و تعامل با آنها

http://pnu-club.com/imported/2011/03/901.jpg
شكل 3. خواندن فايل داده هاي آب و هوا

Weka Exphorer امكان رده بندي دارد، چنانچه به كاربران اجازه مي‏دهد به صورت تعاملي اقدام به ساخت درخت تصميم‏گيري كنند. Weka نمودار پراكندگي داده‏ها را نسبت به دو ويژگي انتخاب شده، فراهم مي‏آورد. وقتي زوج ويژگياي كه رده‏ها را به خوبي جدا مي‏كند، پيدا شد، امكان ايجاد دو شاخه با كشيدن چند ضلعي اطراف نقاط داده‏ها بر نمودار پراكندگي وجود دارد.

http://pnu-club.com/imported/2011/03/902.jpg
شكل 4. نوار Classify

هر نوار، دسترسي به دامنه كاملي از امكانات را فراهم ميكند. در پايين هر پانل، جعبه status و دكمه log قرار دارد. جعبه status پيغام‏هايي است كه نشان مي‏دهد چه عملياتي در حال انجام داده شدن است. مثلاً اگر Explores مشغول خواندن يك فايل باشد، جعبه status آن را گزارش مي‏دهد. كليك راست در هر جا داخل اين جعبه يك منو كوچك با دو گزينه مي‏آورد، نمايش ميزان حافظه در دسترس Weka و اجراي Java garbage collector ..

لازم است توجه شود كه garbage collector به طور ثابت به عنوان يك عمل پيش زمينه در هر حال اجرا مي‏شود كليك دكمه log ، گزارش عملكرد متني كارهايي كه Weka تاكنون در اين بخش انجام داده است با برچسب زماني ارايه مي‏كند.

زمانيكه Weka در حال عمليات است، پرنده كوچكي كه در پايين سمت راست پنجره است، بالا و پايين مي‏پرد. عدد پشت × نشان مي‏دهد كه به طور همزمان چند عمليات در حال انجام است. اگر پرنده بايستد در حاليكه حركت نمي‏كند، او مريض است! اشتباه رخ داده است و بايد Explorer از نو اجرا شود.

1. خواندن و فيلتر كردن فايل‏ها

در بالاي پانل Preprocess در شكل 3، دكمه‏هايي براي باز كردن فايل، URL ‏ها و پايگاه هاي داده‏ وجود دارد. در ابتدا تنها فايل‏هاي با پسوند arff . در browser فايل نمايش داده مي‏شود. براي ديدن ساير فايل‏ها يايد گزينه Format در جعبه انتخاب فايل تغيير داده شود.

Borna66

03-06-2011, 12:41 AM

2. تبديل فايل‏ها به فرمت ARFF

نرم افزار Weka داراي سه مبدل فرمت فايل مي‏باشد، براي فايل‏هاي صفحه گسترده با پسوند CSV ، با فرمت فايل C4.5 با پسوند names . و data و براي نمونه‏هاي سري با پسوند bsi .

اگر Weka قادر به خواندن داده‏ها نباشد، سعي مي‏كند آن را به صورت ARFF تفسير كند. اگر نتواند جعبه نشان داده شده در شكل 5 (الف) ظاهر مي‏شود.

http://pnu-club.com/imported/2011/03/903.jpg

(الف)

http://pnu-club.com/imported/2011/03/904.jpg

(ب)

http://pnu-club.com/imported/2011/03/905.jpg

(ج)

شكل 5. ويرايشگر عمومي اشياء (الف) ويرايشگر (ب) اطلاعات بيشتر (فشردن دگمه More ) (ج) انتخاب يك مبدل

اين، يك ويرايشگر عمومي اشياء است كه در Weka براي انتخاب و تنظيم اشيا بكار مي‏رود. به عنوان مثال وقتي پارامتري براي Classifier تنظيم مي‏شود، جعبهاي با نوع مشابه بكار برده مي‏شود. CSV Loader براي فايل‏هاي با پسوند CSV . به طور پيش فرض انتخاب مي‏شود. دكمه More اطلاعات بيشتري در مورد آن مي‏دهد كه در شكل 5 (ب) نشان داده شده است.

هميشه مطالعه مستندات ارزشمنداست! در اين حالت نشان مي‏دهد كه رديف نخست صفحه گسترده، نام ويژگي را تعيين مي‏كند. براي استفاده از اين مبدل بايد بر Ok كليك شود. براي مورد مختلف لازم است بر choose كليك شود تا از ليست شكل 5 (ج) انتخاب انجام شود.

گزينه اول، Arffloader است و فقط به دليل ناموفق بودن به اين نقطه مي‏رسيم. CSVLoader پيش فرض است و در صورت نياز به فرض ديگر، choose كليك مي‏شود. سومين گزينه، مربوط به فرمت C4.5 است كه دو فايل براي مجموعه داده وجود دارد يكي اسم‏ها و ديگـري داده‏هاي واقعـي مي‏باشد. چهارمين براي نمونه‏هاي سريالي ، براي بازخواني مجموعه دادهاي است كه به صورت شيئ سريالي شده جاوا ذخيره شده است. هر شيء در جاوا مي‏تواند در اين شكل ذخيره و بازخواني شود. به عنوان يك فرمت بومي جاوا ، سريعتر از فايل ARFF خوانده مي‏شود چرا كه فايل ARFF بايد تجزيه و كنترل شود. وقتي يك مجموعه داده بزرگ مكررا بازخواني مي‏شود، ذخيره آن در اين شكل سودمند است.

ويژگي‏هاي ديگر ويرايشگر عمومي اشيا در شكل 5 (الف)، save و open است كه به ترتيب براي ذخيره اشياي تنظيم شده و بازكردن شيئي كه پيش از اين ذخيره شده است، به كار ميرود. اينها براي اين نوع خاص شيئ مفيد نيستند. لكن پانل‏هاي ديگر ويرايشگر عمومي اشياء، خواص قابل ويرايش زيادي دارند. به دليل مشكلاتي كه ممكن است حين تنظيم مجدد آنها رخ دهد، مي‏توان تركيب اشياء ايجاد شده را براي استفاده‏هاي بعدي، ذخيره كرد.

تنها منبع مجموعه‏هاي داده براي Weka ، فايل‏هاي موجود روي كامپيوتر نيستند. مي‏توان يك URL را باز كرد تا Weka از پروتكل HTTP براي دانلود كردن يك فايل Arff از شبكه استفاده كند. همچنين مي‏توان يك پايگاه داده‏ها را باز نمود ( open DB ـ هر پايگاه دادهاي كه درايور اتصال به مجموعه هاي داده به زبان جاوا JDBC را دارد.) و به وسيله دستور select زبان SQL ، نمونه‏‏ها را بازيابي نمود. داده‏ها مي‏توانند به كمك دگمه save به همه فرمت‏هاي ذكر شده، ذخيره شوند. جداي از بحث بارگذاري و ذخيره مجموعه‏هاي داده، پانل preprocess به كاربر اجازه فيلتر كردن داده‏ها را مي‏دهد. فيلترها، اجزاي مهم Weka هستند.

3. بكارگيري فيلترها

با كليك دگمه choose (گوشه بالا و سمت چپ) در شكل 3 مي‏توان به ليستي از فيلترها دست يافت. مي‏توان از فيلترها براي حذف ويژگي‏هاي مورد نظري از يك مجموعه داده و انتخاب دستي ويژگي‏‏ها استفاده نمود. مشابه اين نتيجه را مي‏توان به كمك انتخاب ويژگي‏هاي مورد نظر با تيك زدن آنها و فشار دادن كليه Remove به دست آورد.

4. الگوريتم‏هاي يادگيري

زماني كه يك الگوريتم يادگيري با استفاده از دگمه choose در پانل classify انتخاب مي‏شود، نسخه خط فرماني رده بند در سطري نزديك به دگمه ظاهر مي‏گردد. اين خط فرمان شامل پارامترهاي الگوريتم است كه با خط تيره مشخص مي‏شوند. براي تغيير آنها مي‏توان روي آن خط كليك نمود تا ويرايشگر مناسب شيء، باز شود. جدول شكل 6، ليست اسامي رده بندهاي Weka را نمايش مي‏دهد. اين الگوريتم‏ها به رده بندهاي Bayesian ، trees ، functions rules ، lazy و دسته نهايي شامل روش‏هاي متفرقه تقسيم شدهاند.

4-1. Trees

Decision stump كه براي استفاده توسط روش‏هاي boosting طراحي شده است، براي مجموعه‏هاي داده عددي يا ردهاي، درخت تصميم‏گيري يك سطحي مي‏سازد. اين الگوريتم، با مقادير از دست رفته، به صورت مقادير مجزا برخورد كرده و شاخه سومي از درخت توسعه مي‏دهد.

4-2. Rules

Decision Table يك رده بند بر اساس اكثريت جدول تصميم‏گيري مي‏سازد. اين الگوريتم، با استفاده از جستجوي اولين بهترين، زير دسته‏هاي ويژگي‏‏ها را ارزيابي مي‏كند و مي‏تواند از اعتبارسنجي تقاطعي براي ارزيابي بهره ببرد (1995، Kohavi ).

يك امكان اين است كه به جاي استفاده از اكثريت جدول تصميم‏گيري كه بر اساس دسته ويژگي‏هاي مشابه عمل مي‏كند، از روش نزديكترين همسايه براي تعيين رده هر يك از نمونه‏ها كه توسط مدخل جدول تصميم‏گيري پوشش داده نشدهاند، استفاده شود.

Conjunctive Rule قاعدهاي را ياد مي‏گيرد كه مقادير رده‏هاي عددي را ردهاي را پيش‏بيني مي‏كند. نمونه‏هاي آزمايشي به مقادير پيش فرض رده نمونه‏هاي آموزشي، منسوب مي‏شوند. سپس تقويت اطلاعات (براي رده‏هاي رسمي)، يا كاهش واريانس (براي ردههاي عددي) مربوط به هر والد محاسبه شده و به روش هرس كردن با خطاي كاهش يافته ، قواعد هرس مي‏شوند.

ZeroR براي رده‏هاي اسمي، اكثريت داده‏هاي مورد آزمايش و براي رده‏هاي عددي، ميانگين آنها را پيش‏بيني مي‏كند. اين الگوريتم بسيار ساده است.

M5Rules ، به كمك M5 از روي درخت‏هاي مدل، قواعد رگرسيون استخراج مي‏كند.

http://pnu-club.com/imported/2011/03/906.jpg

شكل 6.الف. الگوريتمهاي رده بندي در Weka

http://pnu-club.com/imported/2011/03/907.jpg

در اين بخش به شرح مختصري برخي از اين الگوريتمها و پارامترهايشان كه قابليت كار با ويژگي هاي عددي را دارند، پرداخته مي‏شود.

4-3. Functions

Simple Linear Regresion مدل رگرسيون خطي يك ويژگي مشخص را ياد مي‏گيرد. آنگاه مدل با كمترين خطاي مربعات را انتخاب مي‏كند. در اين الگوريتم، مقادير از دست رفته و مقادير غيرعددي مجاز نيستند .

Linear Regression رگرسيون خطي استاندارد كمترين خطاي مربعات را انجام مي‏دهد مي‏تواند به طور اختياري به انتخاب ويژگي بپردازد، اين كار مي‏تواند به صورت حريصانه با حذف عقب رونده انجام شود، يا با ساختن يك مدل كامل از همه ويژگي‏‏ها و حذف يكي يكي جمله‏ها با ترتيب نزولي ضرايب استاندارد شده آنها، تا رسيدن به شرط توقف مطلوب انجام گيرد.

Least Med sq يك روش رگرسيون خطي مقاوم است كه ميانه (به جاي ميانگين ) مربعات انحراف از خط رگرسيون را كمينه مي‏كند. اين روش به طور مكرر رگرسيون خطي استاندارد را به زيرمجموعه‏هايي از نمونه‏ها اعمال مي‏كند و نتايجي را بيرون مي‏دهد كه كمترين خطاي مربع ميانه را دارند.

SMO teg الگوريتم بهينه سازي حداقل ترتيبي را روي مسايل رگرسيون اعمال مي‏كند. ( Scholkopf, 1998 ، Smola )

Pace Regression ، با استفاده از تكنيك رگرسيون pace ، مدل‏هاي رگرسيون خطي توليد مي‏كند (2002 ، Wang و Witten ). رگرسيون pace ، زماني كه تعداد ويژگي‏‏ها خيلي زياد است، به طور ويژهاي در تعيين ويژگي‏‏هايي كه بايد صرف‏نظر شوند، خوب عمل مي‏كند. در واقع در صورت وجود نظم و ترتيب خاصي، ثابت مي‏شود كه با بينهايت شدن تعداد ويژگي‏‏ها، الگوريتم بهينه عمل مي‏كند.

RBF Network ، يك شبكه با تابع پايهاي گوسي شعاعي را پياده سازي مي‏كند. مراكز و عرض‏هاي واحدهاي مخفي به وسيله روش ميانگين K تعيين مي‏شود. سپس خروجي‏هاي فراهم شده از لايه‏هاي مخفي ، با استفاده از رگرسيون منطقي در مورد رده‏هاي اسمي و رگرسيون خطي در مورد رده‏هاي عددي، با يكديگر تركيب مي‏شوند. فعال سازي‏هاي توابع پايه پيش از ورود به مدل‏هاي خطي، با جمع شدن با عدد يك، نرماليزه مي‏شوند. در اين الگوريتم مي‏توان، K تعداد خوشه‏ها، بيشترين تعداد تكرارهاي رگرسيون‏هاي منطقي براي مسأله‏هاي رده‏هاي رسمي، حداقل انحراف معيار خوشه‏ها، و مقدار بيشينه رگرسيون را تعيين نمود. اگر رده‏ها رسمي باشد، ميانگين K به طور جداگانه به هر رده اعمال مي‏شود تا K خوشه مورد نظر براي هر رده استخراج گردد.

4-4. رده بندهاي Lazy

ياديگرنده‏هاي lazy نمونه‏هاي آموزشي را ذخيره مي‏كنند و تا زمان رده بندي هيچ كار واقعي انجام نمي‏دهند.

IB1 يك يادگيرنده ابتدايي بر پايه نمونه است كه نزديكترين نمونه‏هاي آموزشي به نمونه‏هاي آزمايشي داده شده را از نظر فاصله اقليدسي پيدا كرده و نزديكترين ردهاي مشابه رده همان نمونه‏هاي آموزشي را تخمين مي‏زند.

IBK يك رده بند با K همسايه نزديك است كه معيار فاصله ذكر شده را استفاده مي‏كند. تعداد نزديكترين فاصله‏ها (پيش فرض 1= K ) مي‏تواند به طور صريح در ويرايشگر شيء تعيف شود. پيش‏بيني‏هاي متعلق به پيش از يك همسايه مي‏تواند بر اساس فاصله آنها تا نمونه‏هاي آزمايشي، وزندار گردد.

دو فرمول متفاوت براي تبديل فاصله به وزن، پياده سازي شدهاند. تعداد نمونههاي آموزشي كه به وسيله رده بند نگهداري مي‏شود، مي‏تواند با تنظيم گزينه اندازه پنجره محدود گردد. زماني كه نمونه‏هاي جديد اضافه مي‏شوند، نمونه‏هاي قديمي حذف شده تا تعداد كل نمونه‏هاي آموزشي در اندازه تعيين شده باقي بماند.

Kstar ، يك روش نزديكترين همسايه است كه از تابع فاصلهاي عمومي شده بر اساس تبديلات استفاده مي‏كند.

LWL يك الگوريتم كلي براي يادگيري وزن دار شده به صورت محلي است. اين الگوريتم با استفاده از يك روش بر پايه نمونه، وزن‏ها را نسبت مي‏دهد و از روي نمونه‏هاي وزندار شده، رده بند را مي‏سازد. رده بند در ويرايشگر شيء LWL انتخاب مي‏شود. Nave Bayes براي مسايل رده بندي و رگرسيون خطي براي مسايل رگرسيون، انتخاب‏هاي خوبي هستند. مي‏توان در اين الگوريتم، تعداد همسايه‏هاي مورد استفاده را كه پهناي باند هسته و شكل هسته مورد استفاده براي وزن دار كردن را (خطي، معكوس، يا گوسي) مشخص مي‏كند، تعيين نمود. نرمال سازي ويژگي‏‏ها به طور پيش فرض فعال است[ Data Mining, witten et Al. 2005 ].

منبع: دانشكده مهندسي راه آهن ؛دانشگاه علم صنعت ایران دانشگاه علم و صنعت ايران - School of Railway Engineering- دانشكده مهندسي راه آهن - Home (http://www.iust.ac.ir/index.php?&slct_pg_id=907&sid=18&slc_lang=fa)

Borna66

03-06-2011, 12:42 AM

این لینک دانلود نرم افزار داده كاوي Weka ...

Download Weka 3.6.4 Free - Data Mining Software in Java - Softpedia (http://www.softpedia.com/get/Internet/Servers/Database-Utils/Weka.shtml)

Download WEKA 3.6.0 for Linux - A data mining workbench in Java. - Softpedia (http://linux.softpedia.com/get/Science-and-Engineering/Bioinformatics/WEKA-1245.shtml)
(http://linux.softpedia.com/get/Science-and-Engineering/Bioinformatics/WEKA-1245.shtml)

ikaroos

03-06-2011, 09:23 PM

سلام
من داده هام به صورت فایل اکسل است. حالا چه جوری به فورمت هایی ا پسوند CSV ، با فرمت فايل C4.5 با پسوند names . و data و براي نمونه‏هاي سري با پسوند bsi تبدیل کنم . مخلصتونم چه باید بکنم
اصلاً نحوه تولید داده برای آن چه جوری است؟
اگر من داده هایم را در فایل اکسس ثبت کنم حالا باید چه کنم چگونه به فرمت های گفته شده تبدیل می شوند.
تبدیل کننده نرم افزار خطا می هد نمی دونم چه باید انجام بدم

m3113

07-26-2014, 06:57 PM

سلام دوست عزیز.
شما در ابتدا باید از قست file روی گزینه save as کلیک کرده، سپس فرمت فایل خود را .csv انتخاب کرده.
درضمن شما میتواند در جهت سوالات بیشتر با email: milad.omrani@live.com در تماس باشید.