TAHA
06-30-2009, 10:14 PM
توليد نسخه اي کوتاه شده از متون فارسي به وسيله رايانه
حتما تا به حال برايتان پيش آمده است که بخواهيد متني را خلاصه کنيد. براي اين کار بايد از ميان جملات نوشته شده مهم ترين جملات را انتخاب کنيد تا متن خلاصه شده نکات کليدي و مهم متن اصلي را در بر داشته باشد، وقتي هم که در شبکه هاي اينترنتي يا خبرگزاري ها به دنبال يافتن مطلب مورد نظر خود هستيد با حجم انبوهي از اطلاعات و داده ها مواجه مي شويد که سبب سردرگمي شما خواهد شد و براي دستيابي به حجمي از اطلاعات که مورد نظر شماست بايد مطلب را خلاصه کرده ، قسمت هاي تکراري و غيرضروري را از ميان اين اطلاعات حذف کنيد.
2نفر از مبتکران نوجوان کشورمان موفق به طراحي نرم افزاري شده اند که با اجراي آن به صورت خودکار متن ورودي به رايانه شما خلاصه مي شود. اين نرم افزار که رتبه سوم گروه تخصصي رايانه را در بخش دانش آموزي نهمين جشنواره جوان خوارزمي از آن خود کرده است با امتيازبندي جملات و بررسي انسجام معنايي جملات انتخاب شده ، با توجه به درخواست کاربر متن را خلاصه مي کند، به گونه اي که متن نهايي حاوي مهم ترين نکات اصلي بوده و کمترين حجم را دارد.
خلاصه سازي خودکار متن عبارت است از کوتاه کردن متن از طريق انتخاب جملات مهم ، به طوري که متن نهايي مهم ترين نکات متن اصلي را نيز در بر داشته باشد. تشخيص جملات کليدي متن نيز نياز به هوشمندي اي دارند که دستيابي به آن از طريق درک و فهميدن متن اصلي ، تشخيص نقش کلمات و معاني آنها در جايگاه هاي مختلف و همچنين انتخاب مهم ترين قسمت ها امکان پذير خواهد بود. در نتيجه مي توان گفت خلاصه سازي از زيرشاخه هاي علم هوش مصنوعي است .در هوش مصنوعي بر خلاصه سازي متن از پردازش زبان طبيعي استفاده مي شود. ان الپي يا پردازش زبان طبيعي از زيرشاخه هاي هوش مصنوعي و زبان شناسي است که پردازش و درک زبان طبيعي انسان را به صورت هوشمند و خودکار مورد بررسي قرار مي دهد.
ابهامات زبان فارسي
به گفته نسرين مصطفي زاده ، دانش آموز دبيرستان فرزانگان منطقه 6تهران يکي از مجريان اين طرح پژوهشي ، زبان طبيعي داراي ابهامات و ناگفته هاي بسيار زيادي است که فهم آن به فهم موضوع و زمينه آن نياز دارد و با استفاده از ترکيب کلمات و جملات نمي توان از آن آگاهي پيدا کرد.درک زبان طبيعي انسان با توجه به نياز موجود براي دستيابي به دانش وسيع در ارتباط با جهان بسيار مهم است . آنچه در اينجا اهميت دارد، اين است که ابهامات زبان فارسي در مقايسه با ديگر زبان ها به مراتب بيشتر است.
چندمعنايي و چندنقشي بودن کلمات ، حذف کلمات و عبارات به قرينه معنوي يا لفظي و همچنين دشواري تشخيص افعال مرکب و اسامي خاص از مهم ترين عواملي هستند که محدوديت هايي را در فهم دقيق عبارات فارسي به وجود آورده اند. در نتيجه بايد پذيرفت که اگرچه استفاده دوجانبه از زبان براي انسان بسيار ساده است ، اما اين ويژگي در ماشين هاي خودکار و رايانه ها اغلب بسختي تشخيص داده مي شود.
اين در حالي است که در سال هاي اخير نياز به دسترسي به اطلاعات در شبکه هاي اينترنتي با افزايش چشمگيري مواجه بوده است و در نتيجه به موازات افزايش کاربران اينترنتي ، نياز به ابزارهايي که بتوانند در کوتاه ترين زمان ممکن متن جستجو شده را به صورت خلاصه نمايش دهند نيز افزايش يافته است.
با توجه به ضرورت دستيابي به خلاصه اي منسجم و همچنين نبود خلاصه ساز فارسي با انسجام معنايي کامل که براي همه کاربران قابل استفاده باشد، اولين نسخه نرم افزار خلاصه ساز متن فارسي براي رفع اين نياز با عنوان نرم افزار پازش به زبان فارسي طراحي شد که مي تواند بسياري از محدوديت هايي را که در گذشته در اين زمينه وجود داشته است ، از ميان بردارد. از اين نرم افزار مي توان در موتورهاي جستجو براي نشان دادن خلاصه اي از هر يک از نتايج جستجو، خلاصه کردن هرگونه مقاله و نوشته فارسي و همچنين خلاصه کردن متون تبليغاتي فارسي براي ارسال در اندازه پيامک استفاده کرد.
برتري ها و ويژگي هاي پازش
به گفته شادي حريري ، ديگر محقق طرح اين نرم افزار براي خلاصه سازي متن از 3مرحله تشکيل مي شود. در مرحله پيش پردازش يا تجزيه ، متن ورودي خوانده شده و پس از انجام کارهاي مقدماتي براي خلاصه سازي مانند مشخص کردن محدوده کلمات و جمله ها روي متن مرحله امتيازدهي آغاز مي شود.
در اين قسمت نرم افزار به 2روش کلاسيک و الگوريتم پازش امتياز نهايي جملات را اعمال مي کند و در نهايت در مرحله توليد که آخرين مرحله سيستم خلاصه سازي است متن خلاصه شده نهايي تهيه و به خروجي ارسال مي شود. به طور کلي از 2روش براي خلاصه سازي متن استفاده مي شود.
در روش اول جملات مهم با استفاده از جملات و پاراگراف هاي متن اصلي انتخاب مي شود، اما در روش دوم متن خلاصه شده نهايي براساس توضيح و تفسير بخش هاي منتخب از متن اصلي به دست مي آيد که اين روش از عملکرد مناسب تري در خلاصه سازي متن برخوردار است ؛ اما چون گسترش سيستم هايي که براساس توضيح و تفسير بخش هاي انتخاب شده عمل مي کنند بسيار پيچيده تر بوده و به زمان بيشتري نياز دارد و علاوه بر اين توسعه چنين سيستم هايي نيازمند دسترسي به زيرشاخه هاي ديگري از پردازش زبان طبيعي هستند، بنابراين بيشتر نرم افزارهاي خلاصه ساز امروزي براساس روش اول طراحي شده اند.
اگرچه بايد پذيرفت که خلاصه سازي دقيق متن تنها به وسيله انسان انجام مي شود و دقت بهترين نرم افزارهاي خلاصه سازي که تاکنون طراحي شده اند تنها 40تا 60درصد دقت انسان خواهد بود.
پازش ، اولين خلاصه ساز فارسي متن باز و نرم افزاري آزاد است که تحت ليسانس gplمنتشر خواهد شد. الگوريتم هاي جامع از قابليت پياده سازي براي هر زباني برخوردارند، اما هيچيک از سيستم هاي خلاصه ساز نوشته شده در سطح جهاني که براساس جملات و پاراگراف هاي متن اصلي ، جملات مهم را انتخاب مي کنند، الگوريتمي مشابه الگوريتم نوين پازش که بتواند تا اين اندازه انسجام معنايي جملات انتخاب شده را حفظ کند، ندارند.
طراحي سيستم
به گفته اين دو محقق جوان ، پس از اين که متن مورد نظر براي خلاصه شدن در قسمت مشخص شده قرار گرفت با مشخص شدن عبارت هاي اشاره ، محدوده کلمات و جملات متن نيز مشخص مي شود. در اين مرحله که به اصطلاح مرحله پيش پردازش نام دارد کلمات غيرضروري متن نيز حذف مي شوند. در مرحله بعد، از يک پايگاه واژه براي يافتن ارتباط بين واژه ها استفاده و امتياز دهي جملات به روش کلاسيک انجام مي شود. به اين ترتيب ، به جملات حاوي کلمات کليدي وارد شده به وسيله کاربر امتياز مثبت تعلق مي گيرد.
به جملاتي که ابتداي آنها عباراتي مانند به طور مثال ، زيرا و ... آمده است امتياز منفي داده مي شود و جملات حاوي عبارت هاي در نتيجه ، بنابراين و ... نيز امتياز مثبت مي گيرند. همچنين جملات براساس موقعيت نسبي در متن اصلي نيز امتيازبندي مي شوند، مثلا اولين جمله در يک مقاله روزنامه معمولا جمله مهم تري است و براين اساس جملات داراي کلمات مرتبط با عنوان متن انتخاب شده و با اجراي الگوريتم ترين پازش ، انسجام معنايي جملات مورد بررسي قرار مي گيرد. در اين الگوريتم متن انتخابي به صورت نمودارهايي شبيه سازي مي شود تا مسيريابي روي جملات انجام شود و در نهايت جملات اصلي انتخاب شوند. در پايان نيز متن نهايي که در حقيقت جملات مهم پاراگراف هاي متن اصلي است ، به عنوان متن خروجي روي صفحه نمايش داده مي شود که مهم ترين ويژگي آن در مقايسه با ديگر خلاصه سازها اين است که متن نهايي از لحاظ معنايي منسجم تر است.
پردازش زبان طبيعي يا ان ال.پي
منظور از پردازش زبان طبيعي اين است که رايانه اي بتواند زبان انسان را تحليل و ارزيابي کند و حتي قادر به توليد زبان طبيعي باشد. هدف اصلي در پردازش زبان طبيعي اين است که با استفاده از الگوريتم ها و ساختارهاي داده اي در علوم رايانه ، نظريه هاي محاسباتي زبان را ارائه کنيم. کاربردهاي نوشتاري و گفتاري از مهم ترين زمينه هاي کاربرد پردازش زبان طبيعي هستند که يافتن اطلاعاتي خاص در يک متن يا ترجمه يک متن به زباني ديگر را امکان پذير مي کنند.
در سال هاي اخير، تحقيقات بسيار زيادي در اين زمينه انجام شده است که تحقق اين اهداف مستلزم داشتن دانشي وسيع از زبان است ، بنابراين علاوه بر محققان علوم رايانه ، دانش متخصصان زبان شناس نيز در دستيابي به خدمات و سيستم هاي مبتني بر کاربردهاي مختلف پردازش زبان مانند سيستم هاي ارتباط با مشتري از طريق تلفن يا سيستم هاي آموزش به دانش آموزان تاثيرگذار خواهد بود.
حتما تا به حال برايتان پيش آمده است که بخواهيد متني را خلاصه کنيد. براي اين کار بايد از ميان جملات نوشته شده مهم ترين جملات را انتخاب کنيد تا متن خلاصه شده نکات کليدي و مهم متن اصلي را در بر داشته باشد، وقتي هم که در شبکه هاي اينترنتي يا خبرگزاري ها به دنبال يافتن مطلب مورد نظر خود هستيد با حجم انبوهي از اطلاعات و داده ها مواجه مي شويد که سبب سردرگمي شما خواهد شد و براي دستيابي به حجمي از اطلاعات که مورد نظر شماست بايد مطلب را خلاصه کرده ، قسمت هاي تکراري و غيرضروري را از ميان اين اطلاعات حذف کنيد.
2نفر از مبتکران نوجوان کشورمان موفق به طراحي نرم افزاري شده اند که با اجراي آن به صورت خودکار متن ورودي به رايانه شما خلاصه مي شود. اين نرم افزار که رتبه سوم گروه تخصصي رايانه را در بخش دانش آموزي نهمين جشنواره جوان خوارزمي از آن خود کرده است با امتيازبندي جملات و بررسي انسجام معنايي جملات انتخاب شده ، با توجه به درخواست کاربر متن را خلاصه مي کند، به گونه اي که متن نهايي حاوي مهم ترين نکات اصلي بوده و کمترين حجم را دارد.
خلاصه سازي خودکار متن عبارت است از کوتاه کردن متن از طريق انتخاب جملات مهم ، به طوري که متن نهايي مهم ترين نکات متن اصلي را نيز در بر داشته باشد. تشخيص جملات کليدي متن نيز نياز به هوشمندي اي دارند که دستيابي به آن از طريق درک و فهميدن متن اصلي ، تشخيص نقش کلمات و معاني آنها در جايگاه هاي مختلف و همچنين انتخاب مهم ترين قسمت ها امکان پذير خواهد بود. در نتيجه مي توان گفت خلاصه سازي از زيرشاخه هاي علم هوش مصنوعي است .در هوش مصنوعي بر خلاصه سازي متن از پردازش زبان طبيعي استفاده مي شود. ان الپي يا پردازش زبان طبيعي از زيرشاخه هاي هوش مصنوعي و زبان شناسي است که پردازش و درک زبان طبيعي انسان را به صورت هوشمند و خودکار مورد بررسي قرار مي دهد.
ابهامات زبان فارسي
به گفته نسرين مصطفي زاده ، دانش آموز دبيرستان فرزانگان منطقه 6تهران يکي از مجريان اين طرح پژوهشي ، زبان طبيعي داراي ابهامات و ناگفته هاي بسيار زيادي است که فهم آن به فهم موضوع و زمينه آن نياز دارد و با استفاده از ترکيب کلمات و جملات نمي توان از آن آگاهي پيدا کرد.درک زبان طبيعي انسان با توجه به نياز موجود براي دستيابي به دانش وسيع در ارتباط با جهان بسيار مهم است . آنچه در اينجا اهميت دارد، اين است که ابهامات زبان فارسي در مقايسه با ديگر زبان ها به مراتب بيشتر است.
چندمعنايي و چندنقشي بودن کلمات ، حذف کلمات و عبارات به قرينه معنوي يا لفظي و همچنين دشواري تشخيص افعال مرکب و اسامي خاص از مهم ترين عواملي هستند که محدوديت هايي را در فهم دقيق عبارات فارسي به وجود آورده اند. در نتيجه بايد پذيرفت که اگرچه استفاده دوجانبه از زبان براي انسان بسيار ساده است ، اما اين ويژگي در ماشين هاي خودکار و رايانه ها اغلب بسختي تشخيص داده مي شود.
اين در حالي است که در سال هاي اخير نياز به دسترسي به اطلاعات در شبکه هاي اينترنتي با افزايش چشمگيري مواجه بوده است و در نتيجه به موازات افزايش کاربران اينترنتي ، نياز به ابزارهايي که بتوانند در کوتاه ترين زمان ممکن متن جستجو شده را به صورت خلاصه نمايش دهند نيز افزايش يافته است.
با توجه به ضرورت دستيابي به خلاصه اي منسجم و همچنين نبود خلاصه ساز فارسي با انسجام معنايي کامل که براي همه کاربران قابل استفاده باشد، اولين نسخه نرم افزار خلاصه ساز متن فارسي براي رفع اين نياز با عنوان نرم افزار پازش به زبان فارسي طراحي شد که مي تواند بسياري از محدوديت هايي را که در گذشته در اين زمينه وجود داشته است ، از ميان بردارد. از اين نرم افزار مي توان در موتورهاي جستجو براي نشان دادن خلاصه اي از هر يک از نتايج جستجو، خلاصه کردن هرگونه مقاله و نوشته فارسي و همچنين خلاصه کردن متون تبليغاتي فارسي براي ارسال در اندازه پيامک استفاده کرد.
برتري ها و ويژگي هاي پازش
به گفته شادي حريري ، ديگر محقق طرح اين نرم افزار براي خلاصه سازي متن از 3مرحله تشکيل مي شود. در مرحله پيش پردازش يا تجزيه ، متن ورودي خوانده شده و پس از انجام کارهاي مقدماتي براي خلاصه سازي مانند مشخص کردن محدوده کلمات و جمله ها روي متن مرحله امتيازدهي آغاز مي شود.
در اين قسمت نرم افزار به 2روش کلاسيک و الگوريتم پازش امتياز نهايي جملات را اعمال مي کند و در نهايت در مرحله توليد که آخرين مرحله سيستم خلاصه سازي است متن خلاصه شده نهايي تهيه و به خروجي ارسال مي شود. به طور کلي از 2روش براي خلاصه سازي متن استفاده مي شود.
در روش اول جملات مهم با استفاده از جملات و پاراگراف هاي متن اصلي انتخاب مي شود، اما در روش دوم متن خلاصه شده نهايي براساس توضيح و تفسير بخش هاي منتخب از متن اصلي به دست مي آيد که اين روش از عملکرد مناسب تري در خلاصه سازي متن برخوردار است ؛ اما چون گسترش سيستم هايي که براساس توضيح و تفسير بخش هاي انتخاب شده عمل مي کنند بسيار پيچيده تر بوده و به زمان بيشتري نياز دارد و علاوه بر اين توسعه چنين سيستم هايي نيازمند دسترسي به زيرشاخه هاي ديگري از پردازش زبان طبيعي هستند، بنابراين بيشتر نرم افزارهاي خلاصه ساز امروزي براساس روش اول طراحي شده اند.
اگرچه بايد پذيرفت که خلاصه سازي دقيق متن تنها به وسيله انسان انجام مي شود و دقت بهترين نرم افزارهاي خلاصه سازي که تاکنون طراحي شده اند تنها 40تا 60درصد دقت انسان خواهد بود.
پازش ، اولين خلاصه ساز فارسي متن باز و نرم افزاري آزاد است که تحت ليسانس gplمنتشر خواهد شد. الگوريتم هاي جامع از قابليت پياده سازي براي هر زباني برخوردارند، اما هيچيک از سيستم هاي خلاصه ساز نوشته شده در سطح جهاني که براساس جملات و پاراگراف هاي متن اصلي ، جملات مهم را انتخاب مي کنند، الگوريتمي مشابه الگوريتم نوين پازش که بتواند تا اين اندازه انسجام معنايي جملات انتخاب شده را حفظ کند، ندارند.
طراحي سيستم
به گفته اين دو محقق جوان ، پس از اين که متن مورد نظر براي خلاصه شدن در قسمت مشخص شده قرار گرفت با مشخص شدن عبارت هاي اشاره ، محدوده کلمات و جملات متن نيز مشخص مي شود. در اين مرحله که به اصطلاح مرحله پيش پردازش نام دارد کلمات غيرضروري متن نيز حذف مي شوند. در مرحله بعد، از يک پايگاه واژه براي يافتن ارتباط بين واژه ها استفاده و امتياز دهي جملات به روش کلاسيک انجام مي شود. به اين ترتيب ، به جملات حاوي کلمات کليدي وارد شده به وسيله کاربر امتياز مثبت تعلق مي گيرد.
به جملاتي که ابتداي آنها عباراتي مانند به طور مثال ، زيرا و ... آمده است امتياز منفي داده مي شود و جملات حاوي عبارت هاي در نتيجه ، بنابراين و ... نيز امتياز مثبت مي گيرند. همچنين جملات براساس موقعيت نسبي در متن اصلي نيز امتيازبندي مي شوند، مثلا اولين جمله در يک مقاله روزنامه معمولا جمله مهم تري است و براين اساس جملات داراي کلمات مرتبط با عنوان متن انتخاب شده و با اجراي الگوريتم ترين پازش ، انسجام معنايي جملات مورد بررسي قرار مي گيرد. در اين الگوريتم متن انتخابي به صورت نمودارهايي شبيه سازي مي شود تا مسيريابي روي جملات انجام شود و در نهايت جملات اصلي انتخاب شوند. در پايان نيز متن نهايي که در حقيقت جملات مهم پاراگراف هاي متن اصلي است ، به عنوان متن خروجي روي صفحه نمايش داده مي شود که مهم ترين ويژگي آن در مقايسه با ديگر خلاصه سازها اين است که متن نهايي از لحاظ معنايي منسجم تر است.
پردازش زبان طبيعي يا ان ال.پي
منظور از پردازش زبان طبيعي اين است که رايانه اي بتواند زبان انسان را تحليل و ارزيابي کند و حتي قادر به توليد زبان طبيعي باشد. هدف اصلي در پردازش زبان طبيعي اين است که با استفاده از الگوريتم ها و ساختارهاي داده اي در علوم رايانه ، نظريه هاي محاسباتي زبان را ارائه کنيم. کاربردهاي نوشتاري و گفتاري از مهم ترين زمينه هاي کاربرد پردازش زبان طبيعي هستند که يافتن اطلاعاتي خاص در يک متن يا ترجمه يک متن به زباني ديگر را امکان پذير مي کنند.
در سال هاي اخير، تحقيقات بسيار زيادي در اين زمينه انجام شده است که تحقق اين اهداف مستلزم داشتن دانشي وسيع از زبان است ، بنابراين علاوه بر محققان علوم رايانه ، دانش متخصصان زبان شناس نيز در دستيابي به خدمات و سيستم هاي مبتني بر کاربردهاي مختلف پردازش زبان مانند سيستم هاي ارتباط با مشتري از طريق تلفن يا سيستم هاي آموزش به دانش آموزان تاثيرگذار خواهد بود.