توجه ! این یک نسخه آرشیو شده می باشد و در این حالت شما عکسی را مشاهده نمی کنید برای مشاهده کامل متن و عکسها بر روی لینک مقابل کلیک کنید : نحوه تولید داه برای weka
ikaroos
03-05-2011, 09:40 AM
سلام دوستان
من یک فایل اکسل از یک سری داده دارم می خواهم آنها را تبدیل به فرمت Arffمورد نیاز weka بکنم نمدونم چه باید انجام بدم لطفاً من و راهنمای کنید
با تشکر
Borna66
03-06-2011, 12:40 AM
داده کاوی چیست؟
بنابر اعلام دانشگاه MIT دانش نوین داده کاوی (Data mining ) یکی از ده دانش در حال توسعه ای است که دهه آینده را با انقلاب تکنولوژیکی مواجه می سازد. این تکنولوژی امروزه دارای کاربرد بسیار وسیعی در حوزه های مختلف است به گونه ای که امروزه حد و مرزی برای کاربرد این دانش در نظر نگرفته و زمینه های کاری این دانش را از ذرات کف اقیانوسها تا اعماق فضا می دانند . امروزه، بیشترین کاربرد داده کاوی در بانکها، مراکز صنعتی و کارخانجات بزرگ، مراکز درمانی و بیمارستانها، مراکز تحقیقاتی، بازاریابی هوشمندو .... میباشد.
داده کاوی پل ارتباطی میان علم آمار ، علم کامپیوتر ، هوش مصنوعی ، الگوشناسی ، فراگیری ماشین و بازنمایی بصری داده می باشد. داده کاوی فرآیندی پیچیده جهت شناسایی الگوها و مدل های صحیح، جدید و به صورت بالقوه مفید، در حجم وسیعی از داده بوده به طریقی که این الگوها و مدلها برای انسانها قابل درک باشند. داده کاوی به صورت یک محصول قابل خریداری نمی باشد، بلکه یک رشته علمی و فرآیندی است که بایستی به صورت یک پروژه پیاده سازی شود.
کاوش داد ه ها به معني کنکاش داده هاي موجود در پايگاه داده و انجام تحليل هاي مختلف بر روي آن به منظور استخراج اطلاعات مي باشد. داده كاوی فرایندی تحلیلی است كه برای كاوش داده ها ( معمولا حجم عظیمی از داده ها - در زمینه های كسب وكار و بازار) صورت میگیرد و یافتههابابهكارگیری الگوهایی،احراز اعتبار میشوند . هدف اصلی داده كاوی پیش بینی است. و به صورت دقیق تر میتوان گفت :کاوش داده ها شناسايي الگوهاي صحيح، بديع، سودمند و قابل درک از داده هاي موجود در يک پايگاه داده است که با استفاده از پرداز شهاي معمول قابل دستيابي نيستند. فرایند داده كاوی شامل سه مرحله می باشد :
1. كاوش اولیه
2. ساخت مدل یا شناسایی الگو با كمك احراز اعتبار/ تایید
3. بهره برداری.
گام1 : كاوش
معمولااینمرحله با آماده سازی داده ها صورت می گیرد كه ممكن است شامل پاك سازی داده ها ،تبدیل داده هاوانتخاب زیرمجموعههايي از ركوردهاباحجمعظیمیاز متغييرها( فیلدها ) باشد . سپس با توجهبهماهیتمساله تحلیلی، اینمرحلهبهمدلهاي پیش بیني ساده یا مدلهایآماریوگرافیكی برای شناسایی متغیرهاي مورد نظر و مرحله 2:ساخت و احراز اعتبار مدل
اینمرحلهبه بررسیمدلهاي مختلف و گزینش بهترین مدل با توجه به كارآیی پيشبيني آن می پردازد. شاید این مرحله ساده به نظر برسد، اما اينطورنیست. تكنیكهایمتعددیبرایر سیدنبهاینهدف توسعه یافتند.و " ارزیابی رقابتی مدل ها"نام گرفتند. بدین منظور مدلهای مختلف برای مجموعه دادههای یكسانبهكارمیروند تاكارآییشانباهم مقایسهشود ،سپس مدلی كهبهترین كارآیی راداشته باشد، انتخاب میشود.اینتكنیكها عبارتند از : Bagging,Boosting ,Stacking و Meta-learning
مرحله 3 : بهره برداری
آخرینمرحلهمدلیراكهد رمرحله قبلانتخابشده است، در دادههایجدیدبه كارمیگیردتا پیشبینیهايخروجیهای مورد انتظاررا تولید نماید.داده كاویبهعنوانابزارمدی ریتاطلاعاتبرایتصمیم گیری،عمومیتیافتهاست . اخیرا،توسعه تكنیك های تحلیلی جدید در این زمینه مورد توجه قرار گرفته است (مثلا Classification Trees)،اما هنوز داده كاوی مبتنی بر اصول آماری نظیر(Exploratory Data Analysis (EDA)می باشد.تعیین پیچیدگی مدلها برای استفاده در مرحله بعدی نیاز دارد .
مفاهیم اساسی در داده كاوی
Bagging:
این مفهوم برای تركیب رده بندی های پیش بینی شده از چند مدل به كار می رود.فرض كنیدكه قصدداریدمدلی برای رده بندی پیش بيني بسازیدو مجموعه داده های مورد نظرتان كوچك است.شمامی توانید نمونه هایی( با جایگزینی) را از مجموعه داده ها انتخاب و برای نمونه های حاصل ازدرخت رده بندی (مثلا C&RT وCHAID )استفاده نمایید.به طوركلی برای نمونه های مختلف به درخت های متفاوتی خواهید رسید.سپس برای پیش بینی با كمك درخت های متفاوت به دست آمده از نمونه ها ،یك رای گیری ساده انجام دهید.رده بندی نهایی ، رده بندی ایخواهد بود كه درخت های مختلف آنرا پیش بینی كرده اند .
Boosting:
این مفهوم برای تولید مدلهای چندگانه (برای پیش بینی یا رده بندی)به كار میرود. Boosting نیزاز روش C&RT یا CHAID استفاده وترتیبی از classifier ها را تولید خواهد كرد .
Meta-Learning :
این مفهوم برای تركیب پیش بینیهای حاصل از چند مدل به كار میرود.و هنگامی كه انواع مدلهای موجود در پروژه خیلی متفاوت هستند، كاربرد دارد. فرض كنید كه پروژه داده كاوی شما شامل Tree classifierها نظیر C&RTو CHAID، تحلیل خطی و شبكه های عصبی است.هر یك از كامپیوترها،رده بندی هایی رابرای نمونه هاپیش بینی كرده اند.تجربه نشان میدهدكه تركیب پیش بینی های چند روش دقیق تراز پیش بینی های هریك از روشهاست.پیش بینی های حاصل از چند classifier را می توان به عنوان ورودی meta-linear مورد استفاده قرار داد. meta-linear پیش بینی هارا تركیب می كند تا بهترین رده بندی پیش بینی شده حاصل شود.
با تشکر از گرداورندگان این مقاله . متاسفانه منبع رو یادم نمیاد.
Borna66
03-06-2011, 12:40 AM
نرم افزار داده كاوي Weka
1-مقدمه
تا به امروز نرم افزار هاي تجاري و آموزشي فراواني براي داده كاوي در حوزه هاي مختلف داده ها به دنياي علم و فناوري عرضه شدهاند. هريك از آنها با توجه به نوع اصلي داده هايي كه مورد كاوش قرار ميدهند، روي الگوريتمهاي خاصي متمركز شدهاند. مقايسه دقيق و علمي اين ابزارها بايد از جنبه هاي متفاوت و متعددي مانند تنوع انواع و فرمت داده هاي ورودي، حجم ممكن براي پردازش داده ها، الگوريتمها پياده سازي شده، روشهاي ارزيابي نتايج، روشهاي مصور سازي ، روشهاي پيش پردازش داده ها، واسطهاي كاربر پسند ، پلت فرم هاي سازگار براي اجرا، قيمت و در دسترس بودن نرم افزار صورت گيرد. از آن ميان، نرم افزار Weka با داشتن امكانات بسيار گسترده، امكان مقايسه خروجي روشهاي مختلف با هم، راهنماي خوب، واسط گرافيگي كارآ، سازگاري با ساير برنامههاي ويندوزي، و از همه مهمتر وجود كتابي بسيار جامع و مرتبط با آن [ Data Mining, witten et Al. 2005 ] ، معرفي ميشود.
ميزكار Weka ، مجموعهاي از الگوريتمهاي روز يادگيري ماشيني و ابزارهاي پيش پردازش دادهها ميباشد. اين نرمافزار به گونهاي طراحي شده است كه ميتوان به سرعت، روشهاي موجود را به صورت انعطافپذيري روي مجموعههاي جديد داده، آزمايش نمود. اين نرمافزار، پشتيبانيهاي ارزشمندي را براي كل فرآيند داده كاوي هاي تجربي فراهم ميكند. اين پشتيبانيها، آماده سازي دادههاي ورودي، ارزيابي آماري چارچوبهاي يادگيري و نمايش گرافيكي دادههاي ورودي و نتايج يادگيري را در بر ميگيرند. همچنين، هماهنگ با دامنه وسيع الگوريتمهاي يادگيري، اين نرمافزار شامل ابزارهاي متنوع پيش پردازش دادههاست. اين جعبه ابزار متنوع و جامع، از طريق يك واسط متداول در دسترس است، به نحوي كه كاربر ميتواند روشهاي متفاوت را در آن با يكديگر مقايسه كند و روشهايي را كه براي مسايل مدنظر مناسبتر هستند، تشخيص دهد.
نرمافزار Weka در دانشگاه Waikato واقع در نيوزلند توسعه يافته است و اسم آن از عبارت "Waikato Environment for knowledge Analysis" استخراج گشته است. همچنين Weka ، نام پرندهاي با طبيعت جستجوگر است كه پرواز نميكند و در نيوزلند، يافت ميشود. اين سيستم به زبان جاوا نوشته شده و بر اساس ليسانس عمومي و فراگير GNU انتشار يافته است. Weka تقريباً روي هر پلت فرمي اجرا ميشود و نيز تحت سيستم عاملهاي لينوكس، ويندوز، و مكينتاش، و حتي روي يك منشي ديجيتالي شخصي ، آزمايش شده است.
اين نرمافزار، يك واسط همگون براي بسياري از الگوريتمهاي يادگيري متفاوت، فراهم كرده است كه از طريق آن روشهاي پيش پردازش، پس از پردازش و ارزيابي نتايج طرح هاي يادگيري روي همه مجموعه هاي داده موجود، قابل اعمال است.
نرم افزار Weka ، پياده سازي الگوريتمهاي مختلف يادگيري را فراهم ميكند و به آساني ميتوان آنها را به مجموعه هاي داده خود اعمال كرد.
همچنين، اين نرمافزار شامل مجموعه متنوعي از ابزارهاي تبديل مجموعه هاي دادهها، همانند الگوريتمهاي گسسته سازي ميباشد. در اين محيط ميتوان يك مجموعه داده را پيش پردازش كرد، آن را به يك طرح يادگيري وارد نمود، و دستهبندي حاصله و كارآيياش را مورد تحليل قرار داد. (همه اين كارها، بدون نياز به نوشتن هيچ قطعه برنامهاي ميسر است.)
اين محيط، شامل روشهايي براي همه مسايل استاندارد داده كاوي مانند رگرسيون، ردهبندي، خوشهبندي، كاوش قواعد انجمني و انتخاب ويژگي ميباشد. با در نظر گرفتن اينكه، دادهها بخش مكمل كار هستند، بسياري از ابزارهاي پيش پردازش دادهها و مصورسازي آنها فراهم گشته است. همه الگوريتمها، وروديهاي خود را به صورت يك جدول رابطهاي به فرمت ARFF دريافت ميكنند. اين فرمت دادهها، ميتواند از يك فايل خوانده شده يا به وسيله يك درخواست از پايگاه دادهاي توليد گردد.
يكي از راههاي به كارگيري Weka ، اعمال يك روش يادگيري به يك مجموعه داده و تحليل خروجي آن براي شناخت چيزهاي بيشتري راجع به آن اطلاعات ميباشد. راه ديگر استفاده از مدل يادگيري شده براي توليد پيشبينيهايي در مورد نمونههاي جديد است. سومين راه، اعمال يادگيرندههاي مختلف و مقايسه كارآيي آنها به منظور انتخاب يكي از آنها براي تخمين ميباشد. روشهاي يادگيري Classifier ناميده ميشوند و در واسط تعاملي Weka ، ميتوان هر يك از آنها را از منو انتخاب نمود. بسياري از classifier ها پارامترهاي قابل تنظيم دارند كه ميتوان از طريق صفحه ويژگيها يا object editor به آنها دسترسي داشت. يك واحد ارزيابي مشترك، براي اندازهگيري كارآيي همه classifier به كار ميرود.
پياده سازيهاي چارچوبهاي يادگيري واقعي، منابع بسيار ارزشمندي هستند كه Weka فراهم ميكند. ابزارهايي كه براي پيش پردازش دادهها استفاده ميشوند. filter ناميده ميشوند. همانند classifier ها، ميتوان filter ها را از منوي مربوطه انتخاب كرده و آنها را با نيازمنديهاي خود، سازگار نمود. در ادامه، به روش به كارگيري فيلترها اشاره ميشود.
علاوه بر موارد فوق، Weka شامل پياده سازي الگوريتمهايي براي يادگيري قواعد انجمني، خوشهبندي دادهها در جايي كه هيچ دستهاي تعريف نشده است، و انتخاب ويژگيهاي مرتبط در دادهها ميشود.
2- روش استفاده از Weka
شكل 1، راههاي انتخاب واسطهاي مختلف Weka را نشان ميدهد.
آسانترين راه استفاده از Weka ، از طريق واسطي گرافيكي است كه Explorer خوانده ميشود. اين واسط گرافيكي، به وسيله انتخاب منوها و پر كردن فرمهاي مربوطه، دسترسي به همه امكانات را فراهم كرده است. براي مثال، ميتوان به سرعت يك مجموعه داده را از يك فايل ARFF خواند و درخت تصميمگيري آن را توليد نمود. امادرختهاي تصميمگيري يادگيرنده صرفاً ابتداي كار هستند. الگوريتمهاي بسيار ديگري براي جستجو وجود دارند. واسط Explorer كمك ميكند تا الگوريتمهاي ديگر نيز آزمايش شوند.
http://pnu-club.com/imported/mising.jpg
شكل 1. Weka در وضعيت انتخاب واسط
اين واسط با در اختيار گذاشتن گزينهها به صورت منو، با وادار كردن كاربر به اجراي كارها با ترتيب صحيح، به وسيله خاكستري نمودن گزينهها تا زمان صحيح به كارگيري آنها، و با در اختيار گذاشتن گزينههايي به صورت فرمهاي پرشدني، كاربر را هدايت ميكند. راهنماي ابزار مفيدي، حين عبور ماوس از روي گزينهها، ظاهر شده و اعمال لازم مربوطه را شرح ميدهد. پيشفرضهاي معقول قرار داده شده، كاربر را قادر ميسازند تا با كمترين تلاشي، به نتيجه برسد. اما كاربر بايد براي درك معني نتايج حاصله، راجع به كارهايي كه انجام ميدهد، بينديشد.
Weka دو واسط گرافيكي ديگر نيز دارد. واسط knowledge flow به كاربر امكان ميدهد تا چنيشهايي براي پردازش دادههاي در جريان، طراحي كند. يك عيب پايهاي Explorer . نگهداري هر چيزي در حافظه اصلي آن است. (زماني كه يك مجموعه داده را باز ميكنيم، Explorer ، كل آن را، در حافظ باز ميكند) نشان ميدهد كه Explorer ، صرفاً براي مسايل با اندازههاي كوچك تا متوسط، قابل اعمال است. با وجود بر اين Weka شامل تعدادي الگوريتمهاي افزايشي است كه ميتواند براي پردازش مجموعه هاي داده بسيار بزرگ مورد استفاده قرار گيرد. واسط knowledge flow امكان ميدهد تا جعبه هاي نمايانگر الگوريتمهاي يادگيري و منابع دادهها را به درون صفحه بكشيم و با اتصال آنها به يكديگر، تركيب و چينش دلخواه خود را بسازيم. اين واسط اجازه ميدهد تا جريان دادهاي از مؤلفههاي به هم متصل كه بيانگر منابع داده، ابزارهاي پيش پردازش، روشهاي ارزيابي و واحدهاي مصوّر سازي هستند تعريف شود. اگر فيلترها و الگوريتمهاي يادگيري، قابليت يادگيري افزايشي را داشته باشند، دادهها به صورت افزايشي بار شده و پردازش خواهند شد.
سومين واسط Weka ، كه Experimenter خوانده ميشود، كمك ميكند تا به اين سؤال عملي و پايهاي كاربر حين استفاده از تكنيكهاي ردهبندي و رگرسيون، پاسخ دهد: "چه روشها و پارامترهايي براي مسأله داده شده، بهتر عمل ميكنند؟"
عموماً راهي براي پاسخگويي مقدماتي به اين سؤال وجود ندارد و يكي از دلايل توسعه Weka ، فراهم نمودن محيطي است كه كاربران Weka را قادر به مقايسه تكنيكهاي گوناگون يادگيري بنمايد. اين كار، ميتواند به صورت تعاملي در Explorer انجام شود. با اين وجود، Experimenter با ساده كردن اجراي ردهبندي كنندهها و فيلترها با پارامترهاي گوناگون روي تعدادي از مجموعههاي داده، جمعآوري آمار كارآيي و انجام آزمايشهاي معنا، پردازش را خودكار ميكند. كاربرهاي پيشرفته، ميتوانند از Experimenter براي توزيع بار محاسباتي بين چندين ماشين، استفاده كنند. در اين روش، ميتوان آزمايشهاي آماري بزرگي را راهاندازي نموده و آنها را براي اجرا، رها نمود.
وراي اين واسطهاي تعاملي، عملكرد پايهاي Weka قرار دارد. توابع پايهاي Weka ، از طريق خط فرمان هاي متني قابل دسترسي هستند. زماني كه Weka ، فعال ميشود، امكان انتخاب بين چهار واسط كاربري وجود دارد: Explorer ، knowledge ، Experimenter و واسط خط فرمان.
اكثر كاربران، حداقل در ابتداي كار Explorer را به عنوان واسط كاربري انتخاب ميكنند.
3. قابليتهاي Weka
مستندسازي در لحظه، كه به صورت خودكار از كد اصلي توليد ميشود و دقيقاً ساختار آن را بيان ميكند، قابليت مهمي است كه حين استفاده از Weka وجوددارد.
نحوه استفاده از اين مستندات و چگونگي تعيين پايههاي ساختماني اصلي Weka ، مشخص كردن بخشهايي كه از روشهاي يادگيري با سرپرست استفاده ميكند، ابزاري براي پيش پردازش دادهها بكار ميرود و اينكه چه روشهايي براي ساير برنامههاي يادگيري وجود دارد، در ادامه تشريح خواهد شد. تنها به ليست كاملي از الگوريتمهاي موجود اكتفا ميشود زيرا Weka به طور پيوسته تكميل ميشود و به طور خودكار از كد اصلي توليد ميشود. مستندات در لحظه هميشه به هنگام شده ميباشد. اگر ادامه دادن به مراحل بعدي و دسترسي به كتابخانه از برنامه جاوا شخصي يا نوشتن و آزمايش كردن برنامههاي يادگيري شخصي مورد نياز باشد، اين ويژگي بسيار حياتي خواهد بود.
در اغلب برنامههاي كاربردي داده كاوي، جزء يادگيري ماشيني، بخش كوچكي از سيستم نرمافزاري نسبتاً بزرگي را شامل ميشود. در صورتي كه نوشتن برنامه كاربردي داده كاوي مد نظر باشد، ميتوان با برنامهنويسي اندكي به برنامههاي Weka از داخل كد شخصي دسترسي داشت. اگر پيدا كردن مهارت در الگوريتمهاي يادگيري ماشيني مدنظر باشد، اجراي الگوريتمهاي شخصي بدون درگير جزييات دست و پا گير شدن مثل خواندن اطلاعات از يك فايل، اجراي الگوريتمهاي فيلترينگ يا تهيه كد براي ارزيابي نتايج يكي از خواستهها ميباشد. Weka داراي همه اين مزيتها است. براي استفاده كامل از اين ويژگي، بايد با ساختارهاي پايهاي دادهها آشنا شد.
4. دريافت Weka
نرم افزار Weka ، در آدرس http://www.cs.waikato.ac.nz/me/weka ، در دسترس است. از اين طريق ميتوان نصب كننده متناسب با يك پلت فرم معين، يا يك فايل Java jar را كه در صورت نصب بودن جاوا به راحتي قابل اجرا است، دانلود نمود.
5. مروري بر Explorer
واسط گرافيكي اصلي براي كاربران، Explorer است كه امكان دسترسي به همه امكانات Weka را از طريق انتخاب منوها و پر كردن فرمها فراهم ميآورد. شكل 2، نماي Explorer را نشان ميدهد. در اين واسط، شش پانل مختلف وجود دارد كه از طريق نوار بالاي صفحه قابل انتخاب هستند و با وظايف داده كاوي پشتيباني شده توسط Weka متناظر ميباشند.
http://pnu-club.com/imported/2011/03/900.jpg
دو گزينه از شش گزينه بالاي پنجره Explorer در شكل هاي 3 و 4 به طور خلاصه تشريح شده است.
به طور خلاصه، كاركرد تمام گزينهها به شرح ذيل است.
Preprocess : انتخاب مجموعه داده و اصلاح آن از راههاي گوناگون
Classify : آموزش برنامههاي يادگيري كه ردهبندي يا رگرسيون انجام ميدهند و ارزيابي آنها.
Cluster : يادگيري خوشهها براي مجموعه هاي داده
Associate : يادگيري قواعد انجمني براي دادهها و ارزيابي آنها
Select attributes : انتخاب مرتبطترين جنبه ها در مجموعه هاي داده
Visualize : مشاهده نمودارهاي مختلف دوبعدي داده ها و تعامل با آنها
http://pnu-club.com/imported/2011/03/901.jpg
شكل 3. خواندن فايل داده هاي آب و هوا
Weka Exphorer امكان رده بندي دارد، چنانچه به كاربران اجازه ميدهد به صورت تعاملي اقدام به ساخت درخت تصميمگيري كنند. Weka نمودار پراكندگي دادهها را نسبت به دو ويژگي انتخاب شده، فراهم ميآورد. وقتي زوج ويژگياي كه ردهها را به خوبي جدا ميكند، پيدا شد، امكان ايجاد دو شاخه با كشيدن چند ضلعي اطراف نقاط دادهها بر نمودار پراكندگي وجود دارد.
http://pnu-club.com/imported/2011/03/902.jpg
شكل 4. نوار Classify
هر نوار، دسترسي به دامنه كاملي از امكانات را فراهم ميكند. در پايين هر پانل، جعبه status و دكمه log قرار دارد. جعبه status پيغامهايي است كه نشان ميدهد چه عملياتي در حال انجام داده شدن است. مثلاً اگر Explores مشغول خواندن يك فايل باشد، جعبه status آن را گزارش ميدهد. كليك راست در هر جا داخل اين جعبه يك منو كوچك با دو گزينه ميآورد، نمايش ميزان حافظه در دسترس Weka و اجراي Java garbage collector ..
لازم است توجه شود كه garbage collector به طور ثابت به عنوان يك عمل پيش زمينه در هر حال اجرا ميشود كليك دكمه log ، گزارش عملكرد متني كارهايي كه Weka تاكنون در اين بخش انجام داده است با برچسب زماني ارايه ميكند.
زمانيكه Weka در حال عمليات است، پرنده كوچكي كه در پايين سمت راست پنجره است، بالا و پايين ميپرد. عدد پشت × نشان ميدهد كه به طور همزمان چند عمليات در حال انجام است. اگر پرنده بايستد در حاليكه حركت نميكند، او مريض است! اشتباه رخ داده است و بايد Explorer از نو اجرا شود.
1. خواندن و فيلتر كردن فايلها
در بالاي پانل Preprocess در شكل 3، دكمههايي براي باز كردن فايل، URL ها و پايگاه هاي داده وجود دارد. در ابتدا تنها فايلهاي با پسوند arff . در browser فايل نمايش داده ميشود. براي ديدن ساير فايلها يايد گزينه Format در جعبه انتخاب فايل تغيير داده شود.
Borna66
03-06-2011, 12:41 AM
2. تبديل فايلها به فرمت ARFF
نرم افزار Weka داراي سه مبدل فرمت فايل ميباشد، براي فايلهاي صفحه گسترده با پسوند CSV ، با فرمت فايل C4.5 با پسوند names . و data و براي نمونههاي سري با پسوند bsi .
اگر Weka قادر به خواندن دادهها نباشد، سعي ميكند آن را به صورت ARFF تفسير كند. اگر نتواند جعبه نشان داده شده در شكل 5 (الف) ظاهر ميشود.
http://pnu-club.com/imported/2011/03/903.jpg
(الف)
http://pnu-club.com/imported/2011/03/904.jpg
(ب)
http://pnu-club.com/imported/2011/03/905.jpg
(ج)
شكل 5. ويرايشگر عمومي اشياء (الف) ويرايشگر (ب) اطلاعات بيشتر (فشردن دگمه More ) (ج) انتخاب يك مبدل
اين، يك ويرايشگر عمومي اشياء است كه در Weka براي انتخاب و تنظيم اشيا بكار ميرود. به عنوان مثال وقتي پارامتري براي Classifier تنظيم ميشود، جعبهاي با نوع مشابه بكار برده ميشود. CSV Loader براي فايلهاي با پسوند CSV . به طور پيش فرض انتخاب ميشود. دكمه More اطلاعات بيشتري در مورد آن ميدهد كه در شكل 5 (ب) نشان داده شده است.
هميشه مطالعه مستندات ارزشمنداست! در اين حالت نشان ميدهد كه رديف نخست صفحه گسترده، نام ويژگي را تعيين ميكند. براي استفاده از اين مبدل بايد بر Ok كليك شود. براي مورد مختلف لازم است بر choose كليك شود تا از ليست شكل 5 (ج) انتخاب انجام شود.
گزينه اول، Arffloader است و فقط به دليل ناموفق بودن به اين نقطه ميرسيم. CSVLoader پيش فرض است و در صورت نياز به فرض ديگر، choose كليك ميشود. سومين گزينه، مربوط به فرمت C4.5 است كه دو فايل براي مجموعه داده وجود دارد يكي اسمها و ديگـري دادههاي واقعـي ميباشد. چهارمين براي نمونههاي سريالي ، براي بازخواني مجموعه دادهاي است كه به صورت شيئ سريالي شده جاوا ذخيره شده است. هر شيء در جاوا ميتواند در اين شكل ذخيره و بازخواني شود. به عنوان يك فرمت بومي جاوا ، سريعتر از فايل ARFF خوانده ميشود چرا كه فايل ARFF بايد تجزيه و كنترل شود. وقتي يك مجموعه داده بزرگ مكررا بازخواني ميشود، ذخيره آن در اين شكل سودمند است.
ويژگيهاي ديگر ويرايشگر عمومي اشيا در شكل 5 (الف)، save و open است كه به ترتيب براي ذخيره اشياي تنظيم شده و بازكردن شيئي كه پيش از اين ذخيره شده است، به كار ميرود. اينها براي اين نوع خاص شيئ مفيد نيستند. لكن پانلهاي ديگر ويرايشگر عمومي اشياء، خواص قابل ويرايش زيادي دارند. به دليل مشكلاتي كه ممكن است حين تنظيم مجدد آنها رخ دهد، ميتوان تركيب اشياء ايجاد شده را براي استفادههاي بعدي، ذخيره كرد.
تنها منبع مجموعههاي داده براي Weka ، فايلهاي موجود روي كامپيوتر نيستند. ميتوان يك URL را باز كرد تا Weka از پروتكل HTTP براي دانلود كردن يك فايل Arff از شبكه استفاده كند. همچنين ميتوان يك پايگاه دادهها را باز نمود ( open DB ـ هر پايگاه دادهاي كه درايور اتصال به مجموعه هاي داده به زبان جاوا JDBC را دارد.) و به وسيله دستور select زبان SQL ، نمونهها را بازيابي نمود. دادهها ميتوانند به كمك دگمه save به همه فرمتهاي ذكر شده، ذخيره شوند. جداي از بحث بارگذاري و ذخيره مجموعههاي داده، پانل preprocess به كاربر اجازه فيلتر كردن دادهها را ميدهد. فيلترها، اجزاي مهم Weka هستند.
3. بكارگيري فيلترها
با كليك دگمه choose (گوشه بالا و سمت چپ) در شكل 3 ميتوان به ليستي از فيلترها دست يافت. ميتوان از فيلترها براي حذف ويژگيهاي مورد نظري از يك مجموعه داده و انتخاب دستي ويژگيها استفاده نمود. مشابه اين نتيجه را ميتوان به كمك انتخاب ويژگيهاي مورد نظر با تيك زدن آنها و فشار دادن كليه Remove به دست آورد.
4. الگوريتمهاي يادگيري
زماني كه يك الگوريتم يادگيري با استفاده از دگمه choose در پانل classify انتخاب ميشود، نسخه خط فرماني رده بند در سطري نزديك به دگمه ظاهر ميگردد. اين خط فرمان شامل پارامترهاي الگوريتم است كه با خط تيره مشخص ميشوند. براي تغيير آنها ميتوان روي آن خط كليك نمود تا ويرايشگر مناسب شيء، باز شود. جدول شكل 6، ليست اسامي رده بندهاي Weka را نمايش ميدهد. اين الگوريتمها به رده بندهاي Bayesian ، trees ، functions rules ، lazy و دسته نهايي شامل روشهاي متفرقه تقسيم شدهاند.
4-1. Trees
Decision stump كه براي استفاده توسط روشهاي boosting طراحي شده است، براي مجموعههاي داده عددي يا ردهاي، درخت تصميمگيري يك سطحي ميسازد. اين الگوريتم، با مقادير از دست رفته، به صورت مقادير مجزا برخورد كرده و شاخه سومي از درخت توسعه ميدهد.
4-2. Rules
Decision Table يك رده بند بر اساس اكثريت جدول تصميمگيري ميسازد. اين الگوريتم، با استفاده از جستجوي اولين بهترين، زير دستههاي ويژگيها را ارزيابي ميكند و ميتواند از اعتبارسنجي تقاطعي براي ارزيابي بهره ببرد (1995، Kohavi ).
يك امكان اين است كه به جاي استفاده از اكثريت جدول تصميمگيري كه بر اساس دسته ويژگيهاي مشابه عمل ميكند، از روش نزديكترين همسايه براي تعيين رده هر يك از نمونهها كه توسط مدخل جدول تصميمگيري پوشش داده نشدهاند، استفاده شود.
Conjunctive Rule قاعدهاي را ياد ميگيرد كه مقادير ردههاي عددي را ردهاي را پيشبيني ميكند. نمونههاي آزمايشي به مقادير پيش فرض رده نمونههاي آموزشي، منسوب ميشوند. سپس تقويت اطلاعات (براي ردههاي رسمي)، يا كاهش واريانس (براي ردههاي عددي) مربوط به هر والد محاسبه شده و به روش هرس كردن با خطاي كاهش يافته ، قواعد هرس ميشوند.
ZeroR براي ردههاي اسمي، اكثريت دادههاي مورد آزمايش و براي ردههاي عددي، ميانگين آنها را پيشبيني ميكند. اين الگوريتم بسيار ساده است.
M5Rules ، به كمك M5 از روي درختهاي مدل، قواعد رگرسيون استخراج ميكند.
http://pnu-club.com/imported/2011/03/906.jpg
شكل 6.الف. الگوريتمهاي رده بندي در Weka
http://pnu-club.com/imported/2011/03/907.jpg
در اين بخش به شرح مختصري برخي از اين الگوريتمها و پارامترهايشان كه قابليت كار با ويژگي هاي عددي را دارند، پرداخته ميشود.
4-3. Functions
Simple Linear Regresion مدل رگرسيون خطي يك ويژگي مشخص را ياد ميگيرد. آنگاه مدل با كمترين خطاي مربعات را انتخاب ميكند. در اين الگوريتم، مقادير از دست رفته و مقادير غيرعددي مجاز نيستند .
Linear Regression رگرسيون خطي استاندارد كمترين خطاي مربعات را انجام ميدهد ميتواند به طور اختياري به انتخاب ويژگي بپردازد، اين كار ميتواند به صورت حريصانه با حذف عقب رونده انجام شود، يا با ساختن يك مدل كامل از همه ويژگيها و حذف يكي يكي جملهها با ترتيب نزولي ضرايب استاندارد شده آنها، تا رسيدن به شرط توقف مطلوب انجام گيرد.
Least Med sq يك روش رگرسيون خطي مقاوم است كه ميانه (به جاي ميانگين ) مربعات انحراف از خط رگرسيون را كمينه ميكند. اين روش به طور مكرر رگرسيون خطي استاندارد را به زيرمجموعههايي از نمونهها اعمال ميكند و نتايجي را بيرون ميدهد كه كمترين خطاي مربع ميانه را دارند.
SMO teg الگوريتم بهينه سازي حداقل ترتيبي را روي مسايل رگرسيون اعمال ميكند. ( Scholkopf, 1998 ، Smola )
Pace Regression ، با استفاده از تكنيك رگرسيون pace ، مدلهاي رگرسيون خطي توليد ميكند (2002 ، Wang و Witten ). رگرسيون pace ، زماني كه تعداد ويژگيها خيلي زياد است، به طور ويژهاي در تعيين ويژگيهايي كه بايد صرفنظر شوند، خوب عمل ميكند. در واقع در صورت وجود نظم و ترتيب خاصي، ثابت ميشود كه با بينهايت شدن تعداد ويژگيها، الگوريتم بهينه عمل ميكند.
RBF Network ، يك شبكه با تابع پايهاي گوسي شعاعي را پياده سازي ميكند. مراكز و عرضهاي واحدهاي مخفي به وسيله روش ميانگين K تعيين ميشود. سپس خروجيهاي فراهم شده از لايههاي مخفي ، با استفاده از رگرسيون منطقي در مورد ردههاي اسمي و رگرسيون خطي در مورد ردههاي عددي، با يكديگر تركيب ميشوند. فعال سازيهاي توابع پايه پيش از ورود به مدلهاي خطي، با جمع شدن با عدد يك، نرماليزه ميشوند. در اين الگوريتم ميتوان، K تعداد خوشهها، بيشترين تعداد تكرارهاي رگرسيونهاي منطقي براي مسألههاي ردههاي رسمي، حداقل انحراف معيار خوشهها، و مقدار بيشينه رگرسيون را تعيين نمود. اگر ردهها رسمي باشد، ميانگين K به طور جداگانه به هر رده اعمال ميشود تا K خوشه مورد نظر براي هر رده استخراج گردد.
4-4. رده بندهاي Lazy
ياديگرندههاي lazy نمونههاي آموزشي را ذخيره ميكنند و تا زمان رده بندي هيچ كار واقعي انجام نميدهند.
IB1 يك يادگيرنده ابتدايي بر پايه نمونه است كه نزديكترين نمونههاي آموزشي به نمونههاي آزمايشي داده شده را از نظر فاصله اقليدسي پيدا كرده و نزديكترين ردهاي مشابه رده همان نمونههاي آموزشي را تخمين ميزند.
IBK يك رده بند با K همسايه نزديك است كه معيار فاصله ذكر شده را استفاده ميكند. تعداد نزديكترين فاصلهها (پيش فرض 1= K ) ميتواند به طور صريح در ويرايشگر شيء تعيف شود. پيشبينيهاي متعلق به پيش از يك همسايه ميتواند بر اساس فاصله آنها تا نمونههاي آزمايشي، وزندار گردد.
دو فرمول متفاوت براي تبديل فاصله به وزن، پياده سازي شدهاند. تعداد نمونههاي آموزشي كه به وسيله رده بند نگهداري ميشود، ميتواند با تنظيم گزينه اندازه پنجره محدود گردد. زماني كه نمونههاي جديد اضافه ميشوند، نمونههاي قديمي حذف شده تا تعداد كل نمونههاي آموزشي در اندازه تعيين شده باقي بماند.
Kstar ، يك روش نزديكترين همسايه است كه از تابع فاصلهاي عمومي شده بر اساس تبديلات استفاده ميكند.
LWL يك الگوريتم كلي براي يادگيري وزن دار شده به صورت محلي است. اين الگوريتم با استفاده از يك روش بر پايه نمونه، وزنها را نسبت ميدهد و از روي نمونههاي وزندار شده، رده بند را ميسازد. رده بند در ويرايشگر شيء LWL انتخاب ميشود. Nave Bayes براي مسايل رده بندي و رگرسيون خطي براي مسايل رگرسيون، انتخابهاي خوبي هستند. ميتوان در اين الگوريتم، تعداد همسايههاي مورد استفاده را كه پهناي باند هسته و شكل هسته مورد استفاده براي وزن دار كردن را (خطي، معكوس، يا گوسي) مشخص ميكند، تعيين نمود. نرمال سازي ويژگيها به طور پيش فرض فعال است[ Data Mining, witten et Al. 2005 ].
منبع: دانشكده مهندسي راه آهن ؛دانشگاه علم صنعت ایران دانشگاه علم و صنعت ايران - School of Railway Engineering- دانشكده مهندسي راه آهن - Home (http://www.iust.ac.ir/index.php?&slct_pg_id=907&sid=18&slc_lang=fa)
Borna66
03-06-2011, 12:42 AM
این لینک دانلود نرم افزار داده كاوي Weka ...
Download Weka 3.6.4 Free - Data Mining Software in Java - Softpedia (http://www.softpedia.com/get/Internet/Servers/Database-Utils/Weka.shtml)
Download WEKA 3.6.0 for Linux - A data mining workbench in Java. - Softpedia (http://linux.softpedia.com/get/Science-and-Engineering/Bioinformatics/WEKA-1245.shtml)
(http://linux.softpedia.com/get/Science-and-Engineering/Bioinformatics/WEKA-1245.shtml)
ikaroos
03-06-2011, 09:23 PM
سلام
من داده هام به صورت فایل اکسل است. حالا چه جوری به فورمت هایی ا پسوند CSV ، با فرمت فايل C4.5 با پسوند names . و data و براي نمونههاي سري با پسوند bsi تبدیل کنم . مخلصتونم چه باید بکنم
اصلاً نحوه تولید داده برای آن چه جوری است؟
اگر من داده هایم را در فایل اکسس ثبت کنم حالا باید چه کنم چگونه به فرمت های گفته شده تبدیل می شوند.
تبدیل کننده نرم افزار خطا می هد نمی دونم چه باید انجام بدم
m3113
07-26-2014, 06:57 PM
سلام دوست عزیز.
شما در ابتدا باید از قست file روی گزینه save as کلیک کرده، سپس فرمت فایل خود را .csv انتخاب کرده.
درضمن شما میتواند در جهت سوالات بیشتر با email: milad.omrani@live.com در تماس باشید.
Powered by vBulletin™ Version 4.2.2 Copyright © 2024 vBulletin Solutions, Inc. All rights reserved.