بالا
 تعرفه تبلیغات




 دانلود نمونه سوالات نیمسال دوم 93-94 پیام نور

 دانلود نمونه سوالات آزمونهای مختلف فراگیر پیام نور

نمایش نتایج: از شماره 1 تا 10 از مجموع 10

موضوع: Gtx200 پردازنده گرافيكي با 1.4 ميليارد ترانزيستور و 240 هسته

Hybrid View

  1. #1
    rezalaghaian آواتار ها
    • 1,759

    عنوان کاربری
    مدير بازنشسته
    تاریخ عضویت
    Jan 2010
    محل تحصیل
    نيشابور
    شغل , تخصص
    ازاد
    رشته تحصیلی
    كامپيوتر
    راه های ارتباطی

    توجه Gtx200 پردازنده گرافيكي با 1.4 ميليارد ترانزيستور و 240 هسته





    1.4 ميليارد ترانزيستور
    اسم رمز هسته جديد "ان‌ويديا" GT200 نام دارد كه جانشين خانواده G80 وG90 شده است. اما شايد شما هم مثل ما از اين نحوه نامگذاري متعجب شده باشد. "ان‌ويديا" اعلام كرده كه GT مخفف عبارت Graphic Tesla است و GT200 بيان كننده اين موضوع كه هسته جديد در حقيقت دومين نسل از معماري Graphic Tesla است. اما سوال اينجاست كه تكليف GT100 چيست؟
    G80 اولين نسل از معماري Graphic Tesla بوده، اما چرا "ان‌ويديا" اين هسته را GT100 نامگذاري نكرد؟
    به هرحال اكنون GT200 در يك هسته بسيار بزرگ‌تر و با تعداد ترانزيستورهاي بيشتر نسبت به G80 معرفي شده است.
    قبل از بررسي هسته جديد اجازه دهيد مقايسه‌اي بين تعداد ترانزيستورهاي رايج در اين هسته گرافيكي و پردازنده‌ها داشته باشيم.
    در ميان پردازنده‌ها، هسته پردازنده
    Montecito ( پردازنده Itanium 2 Dual Core ) داراي بيشترين تعداد ترانزيستور است. اين پردازنده با 1.7 ميليارد ترانزيستور كه اكثريت آنها مربوط به كش سطح سوم است، تنها پردازنده‌اي است كه از GT200 ترانزيستورهاي بيشتري دارد. حافظه كش L3 اين پردازنده با اندازه 24 مگابايت به بيش از 1.5 ميليارد ترانزيستور نياز دارد. اما در مقابل GT200 شامل 1.4ميليارد ترانزيستور است كه همگي آنها براي افزايش در قدرت محاسبات بكار گرفته شده‌اند.
    فرآيند ساخت 65 نانومتر موجب شده تا اين هسته اندازه بسيار بزرگي داشته باشد. درحاليكه رقيب اصلي "ان‌ويديا" يعني AMD اكنون در حدود 7 ماه است كه از فرآيند ساخت 55 نانومتر براي ساخت پردازنده‌هاي گرافيكي خود استفاده مي‌كند و شركت اينتل نيز از فرآيند ساخت 45 نانومتر در پردازنده‌هاي جديدش استفاده كرده است.
    بنابراين با توجه به فرآيند ساخت 65 نانومتر و حجم وسيعي از ترانزيستورها قطعاً GT200 پردازنده گرافيكي جمع و جوري نخواهد بود.
    برخلاف تصور اكثر مردم، فرآيند ساخت كوچك‌تر به هيچ عنوان موجب افزايش كارايي و خنك‌تر شدن چيپ نخواهد شد، اما بطور قابل توجهي هزينه ساخت GPU را كاهش مي‌دهد. زيرا هر هسته شامل يك ويفر است كه هسته‌هاي كوچكتر به ويفر كوچكتري نياز دارند. ويفر كوچك‌تر نيز موجب كاهش هزينه ساخت محصول مي‌شود. برخي معتقدند عدم تمايل به ريسك كردن در اين بازه زماني تنها دليل عدم استفاده از فرآيند ساخت كوچك‌تر توسط "ان‌ويديا" بوده است. زيرا تغيير در فرآيند ساخت پردازنده‌هاي گرافيكي اين احتمال را بوجود مي‌آورد كه محصولات جديد "ان‌ويديا" با تاخير به بازارها عرضه شوند و بنابراين "ان‌ويديا" براي از دست ندادن بازار، حاضر به استفاده از فرآيند ساخت پايين‌تر نشده است.
    در عوض GT200 بزرگترين هسته TSMC است كه تا به امروز توليد شده است. حركت از 690 و 754 ميليون ترانزيستور به ترتيب درG80 وG92 به 1.4ميليارد ترانزيستور در GT200 مطمئناً به سادگي انجام نگرفته است. اما واقعاً اين افزايش ترانزيستورها چه كاري انجام مي‌دهد؟


    شکل 1: مقايسه اندازه هسته GTX 200 با هسته پردازنده جديد اينتل با نام Penryn
    در انتهاي نگاهت كلبه اي ميسازم
    تا مبادا بگوئي از دل برفت هرانكه از ديده برفت

    روزگار خوش

  2. #2
    rezalaghaian آواتار ها
    • 1,759

    عنوان کاربری
    مدير بازنشسته
    تاریخ عضویت
    Jan 2010
    محل تحصیل
    نيشابور
    شغل , تخصص
    ازاد
    رشته تحصیلی
    كامپيوتر
    راه های ارتباطی

    پیش فرض

    يكي از عمده‌ترين خصوصيات جديد توانايي پردازش دقيق اطلاعات مميز شناور در سخت‌افزار به ميزان 2 برابر است ( اين چيپ شامل 30 واحد FP 64 بيتي است ). اندازه File Registerها براي هر يك از آرايه‌هاي ( SP ( Streaming Processor دو برابر شده و هر SP قادر به پردازش يك MAD و يك MUL بطور همزمان است. اين موضوع در اكثر مواقع موجب افزايش كارايي مي‌شود.
    تعداد SPها از 128 عدد در G80 به 240 عدد در GT200 افزايش يافته است. براي درك بهتر تمامي مفاهيم در ادامه مقاله توضيحات مفصلي ارايه خواهيم كرد. اما ابتدا اجازه دهيد در مورد خود كارت‌ها صحبت كنيم.

    فركانس‌ها و HDMI
    در حال حاضر "ان‌ويديا" دو محصول مبتني بر GT200 معرفي كرده و آنها را
    GeForce GTX ناميده است. GTX 280 وGTX 260 كارت‌هايي هستند كه در حال حاضر مبتني برGT200 هستند.
    GeForce GTX 280 شامل 240 پردازنده جرياني است كه در فركانس 1.3 گيگاهرتز عمل مي‌كنند. اين هسته شامل يك رابط حافظه 512 بيتي ( شامل 8 كنترلر حافظه 64 بيتي ) با پشتيباني از حداكثر 1 گيگابايت حافظه است كه در فركانس 2.2 گيگاهرتز عمل مي‌كند. ديگر بخش‌هاي GPU نيز در فركانس 602 مگاهرتز عمل مي‌كنند.
    كارت‌هاي مبتني بر اين هسته 236 وات توان مصرف مي‌كنند و به دو كانكتور برق 6 و 8 پين نياز دارند. نكته قابل توجه در مورد اين كارت اينكه در صورت استفاده از 2 كانكتور برق 6 پين اين كارت عمل نخواهد كرد.

    GTX 260 كه دو گروه از Texture/Processingهاي آن غير فعال شده، شامل 192 پردازنده جرياني است ( تعداد پردازنده‌هاي جرياني اين محصول هنوز بيشتر از تعداد پردازنده‌هاي جرياني محصولات مبتني بر G80 و G92 است ). SPها در اين محصول با فركانس اندكي پايين‌تر يعني 1242 مگاهرتز عمل مي‌كنند در حاليكه فركانس حافظه تقريباً 2 گيگاهرتز است. GTX 260 همچنين شامل 7 كنترلر حافظه 64 بيتي است. اين موضوع موجب شده تا باس حافظه به 448 بيت و حداكثر ميزان حافظه مورد پشتيباني به 896 مگابايت كاهش پيدا كند.
    GTX 260 حداكثر 183 وات توان مصرف مي‌كند و فقط به دو كانكتور برق 6 پين نياز دارد.

    از نقطه نظر طراحي، GeForce GTX 280 طراحي بهتري نسبت به 9800 GX2 دارد و اجازه مي‌دهد تا حرارت از بخش‌هاي وسيع جلوي كارت بسادگي دفع شود.
    9800 GX2 متاسفانه فاقد دريچه حرارتي بزرگ براي دفع حرارت بود. اين موضوع در برخي مواقع موجب افزايش بيش از اندازه حرارت مي‌شد.
    GTX 260 و GTX 280 داراي دو خروجي Dual Link DVI هستند كه با استفاده از يك رابط "HDMI-to-DVI" مي‌توان آنها را به HDMI تبديل كرد. هر دوي اين كارت‌ها برخلاف نسل قبل قادر به انتقال صدا از طريق درگاه HDMI هستند.

    ساختمان NVIDIA GT200
    كوچكترين عضو ساختمان GT200 همانند خانواده G80 و G90 پردازنده جرياني
    ( Streaming Processor ) است كه "ان‌ويديا" آن را به اختصار SP مي‌نامد ( به شکل 2 دقت کنيد).


    شکل2 : SP كوچكترين عضو ساختمان GT200
    در انتهاي نگاهت كلبه اي ميسازم
    تا مبادا بگوئي از دل برفت هرانكه از ديده برفت

    روزگار خوش

  3. #3
    rezalaghaian آواتار ها
    • 1,759

    عنوان کاربری
    مدير بازنشسته
    تاریخ عضویت
    Jan 2010
    محل تحصیل
    نيشابور
    شغل , تخصص
    ازاد
    رشته تحصیلی
    كامپيوتر
    راه های ارتباطی

    پیش فرض

    هر يك از SPها يك هسته پردازشي مستقل هستند كه مي‌توانند داده‌هاي مربوط به رئوس و پيكسل‌ها را پردازش كنند. SPها در حقيقت يك ريزپردازنده كامل با دو
    ALU و يك FPU هستند. يك SP فاقد حافظه كش است كه اين موضوع موجب مي‌شود تا به غير از محاسبات رياضي براي كاربردهاي ديگر اصلاً مناسب نباشد. از آنجاييكه يك SP در اكثريت مواقع روي داده‌هاي راس و پيكسل كار مي‌كند نيازي به حافظه كش ندارد. گذشته از شباهت اسمي يك SP شركت "ان‌ويديا" بسيار شبيه به يك نسخه خيلي خلاصه شده SPE در ريزپردازنده‌هاي Cell است. در حاليكه يك
    SPE در Cell داراي هفت واحد اجرايي است يك SP در پردازنده‌هاي جرياني شركت "ان‌ويديا" داراي تنها سه واحد اجرايي است.
    يكSP به تنهايي قادر به انجام هيچ كاري نيست اما اگر تعداد زيادي از SPها در كنار يكديگر قرار گيرند قادر به انجام رندر تصاوير گرافيكي هستند. با توجه به اين موضوع شركت "ان‌ويديا" در ساختمان GPUهايش از چندين SP استفاده كرده و آنها را در گروه‌هاي مختلف قرار داده است. اين گروها را "ان‌ويديا"
    Streaming Multiprocessor ناميده كه به اختصار آن‌ها را SM مي‌گويند ( به شکل 3 دقت کنيد).


    شکل3 : گروه Streaming Multiprocessor
    يك SM در حقيقت از 8 عددSP و دو پردازنده( Special Function Units (SFU "واحد عملكرد ويژه" تشكيل شده است. هرSFU چهارFPU دارد كه براي عملكردهاي غير جبري استفاده مي‌شوند ( همانند سينوس و كسينوس ). همچنين براي برخي از محاسبات و براي كاربردهاي شبيه Anistropic Texture Filtering استفاده مي‌شوند. هر SM شامل يك واحد MT Issue است كه دستورالعمل‌ها را به همه SPها وSFUها ارسال مي‌كند.
    بعلاوه SMها شامل كش دستورالعمل بسيار كوچك، كش فقط خواندني داده و كش اشتراكي خواندن/نوشتن 16 كيلوبايتي هستند. برخلاف پردازنده‌هاي خانگي، مجموعه اطلاعاتي كه قرار است در اين كش‌ها ذخيره شوند خيلي اندك است بنابراين اندازه آنها نيز كوچك است. كش دستورالعمل ( I Cache ) با ظرفيت 16 كيلوبايت مشابه با پردازنده‌هاي Cell، اطلاعات مديريت نرم‌افزار را ذخيره مي‌كند و كش اشتراكي خواندن/نوشتن ( Shared Memory ) با ظرفيت 16 كيلوبايت اطلاعات پردازش شده توسط SPها را در خود ذخيره مي‌كند.
    در مرحله بعدي واحدي به نام(Texture/Processing Cluster (TPC ( خوشه پردازنده/بافت ) قرار دارد كه شامل مجموعه‌ي از SMها مي‌شود( به شکل 4 دقت کنيد).


    شکل4 : واحد TPC را نشان مي‌دهد.
    در انتهاي نگاهت كلبه اي ميسازم
    تا مبادا بگوئي از دل برفت هرانكه از ديده برفت

    روزگار خوش

  4. #4
    rezalaghaian آواتار ها
    • 1,759

    عنوان کاربری
    مدير بازنشسته
    تاریخ عضویت
    Jan 2010
    محل تحصیل
    نيشابور
    شغل , تخصص
    ازاد
    رشته تحصیلی
    كامپيوتر
    راه های ارتباطی

    پیش فرض

    شركت "ان‌ويديا" GPUهاي خود را طوري طراحي كرده است كه مي‌تواند تعداد SMهاي درون TPCها را تغيير دهد. به عبارت ساده‌تر "ان‌ويديا" با تغيير تعداد
    SM ها وTPC ها پردازنده‌هاي متنوعي توليد مي‌كند. در معماري G80 هر TPC شامل دو SM مي‌شد. اما اكنون در GT200 هر TPC شامل سه SM مي‌شود.
    اجزا TPC به هرحال تغيير نكرده است. يك TPC از تعدادي SM همراه با كنترل‌هاي منطقي و يك بلوك بافت (Texture Unit) تشكيل شده است. اگر بخاطر داشته باشيد در بخش قبل گفتيم يك SM شامل 8 عد SP و دو عدد SFU است بنابراين GT200 شامل TPCهاي با 24 عددSP و 6 عدد SFUاست درحاليكه G80 شامل TPCهاي با 16 عدد SP و 4 عدد SFUاست. بلوك بافت شامل آدرس‌دهي و فيلترگذاري منطقي به علاوه يك كش بافت L1 مي‌شود.
    بخش ديگر معماري GPU‌هاي "ان‌ويديا"(Streaming Processor Array (SPA "آرايه پردازنده‌هاي جرياني" نام دارد( شکل 5) كه شامل تعدادي TPC مي‌شود.


    شکل5 : آرايه پردازنده‌هاي جرياني يا SPA
    در G80، SPA شامل هشت عدد TPC بود اما درGT200، هر SPA شامل ده عدد TPC است و همانطور كه گفتيم هر TPC اكنون به جاي 2 عدد SM، 3 عدد SM دارد. بنابراين قدرت پردازش GT200 نسبت به G80 به 87.5 درصد افزايش پيدا كرده است( شکل 6 ).


    شکل6
    در انتهاي نگاهت كلبه اي ميسازم
    تا مبادا بگوئي از دل برفت هرانكه از ديده برفت

    روزگار خوش

  5. #5
    rezalaghaian آواتار ها
    • 1,759

    عنوان کاربری
    مدير بازنشسته
    تاریخ عضویت
    Jan 2010
    محل تحصیل
    نيشابور
    شغل , تخصص
    ازاد
    رشته تحصیلی
    كامپيوتر
    راه های ارتباطی

    پیش فرض

    شركت "ان‌ويديا" GPUهاي خود را طوري طراحي كرده است كه مي‌تواند تعداد SMهاي درون TPCها را تغيير دهد. به عبارت ساده‌تر "ان‌ويديا" با تغيير تعداد
    SM ها وTPC ها پردازنده‌هاي متنوعي توليد مي‌كند. در معماري G80 هر TPC شامل دو SM مي‌شد. اما اكنون در GT200 هر TPC شامل سه SM مي‌شود.
    اجزا TPC به هرحال تغيير نكرده است. يك TPC از تعدادي SM همراه با كنترل‌هاي منطقي و يك بلوك بافت (Texture Unit) تشكيل شده است. اگر بخاطر داشته باشيد در بخش قبل گفتيم يك SM شامل 8 عد SP و دو عدد SFU است بنابراين GT200 شامل TPCهاي با 24 عددSP و 6 عدد SFUاست درحاليكه G80 شامل TPCهاي با 16 عدد SP و 4 عدد SFUاست. بلوك بافت شامل آدرس‌دهي و فيلترگذاري منطقي به علاوه يك كش بافت L1 مي‌شود.
    بخش ديگر معماري GPU‌هاي "ان‌ويديا"(Streaming Processor Array (SPA "آرايه پردازنده‌هاي جرياني" نام دارد( شکل 5) كه شامل تعدادي TPC مي‌شود.


    شکل5 : آرايه پردازنده‌هاي جرياني يا SPA
    در G80، SPA شامل هشت عدد TPC بود اما درGT200، هر SPA شامل ده عدد TPC است و همانطور كه گفتيم هر TPC اكنون به جاي 2 عدد SM، 3 عدد SM دارد. بنابراين قدرت پردازش GT200 نسبت به G80 به 87.5 درصد افزايش پيدا كرده است( شکل 6 ).


    شکل6
    در انتهاي نگاهت كلبه اي ميسازم
    تا مبادا بگوئي از دل برفت هرانكه از ديده برفت

    روزگار خوش

  6. #6
    rezalaghaian آواتار ها
    • 1,759

    عنوان کاربری
    مدير بازنشسته
    تاریخ عضویت
    Jan 2010
    محل تحصیل
    نيشابور
    شغل , تخصص
    ازاد
    رشته تحصیلی
    كامپيوتر
    راه های ارتباطی

    پیش فرض

    در انتها نيز اين GPU قادر به برنامه‌ريزي و كنترل منطقي براي تقسيم بار كاري به كل آرايه و هسته‌هاي پردازشي است و همچنين يك كش بافت L2 و واحد
    (Rasterization (ROP قرار دارد كه خروجي اطلاعات به حافظه گرافيكي و فيلتر‌گذاري را اعمال مي‌‌كند(شکل 7 ).
    بنابراين بطوركلي هسته GT200 كه قلب GTX 280 و GTX 260 است شامل 240 پردازنده جرياني و 160 كيلوبايت حافظه منطقي است. اين هسته از فرآيند ساخت 65 نانومتر و 1.4ميليارد ترانزيستور تشكيل شده است. تعداد ترانزيستورهاي اين هسته از تعداد مردم چين ( پرجمعيت‌ترين كشور دنيا ) نيز بيشتر است.


    شکل7
    محاسبات بيشتر
    قدرت محاسبات در هسته GT200 بواسطه 240 پردازنده جرياني نيز به ميزان قابل توجهي افزايش پيدا كرده است. اين مسئله موجب شده تا تعداد ترانزيستورهاي GT200 نسبت به پردازنده‌هاي نسل قبلي‌اش به مقدار چشمگيري افزايش پيدا كند
    ( G80، 686 ميليون و GT200، 1.4 ميليارد ترانزيستور ).
    افزايش قدرت پردازش بافت درGT200 دقيقاً مشابه با افزايش قدرت محاسبات نيست. در قسمت‌هاي قبل بطور مختصر در مورد TPC توضيحاتي ارايه كرديم و گفتيم كه تعداد SM از 2 عدد به 3 عدد در GT200 افزايش يافته است و همچنين گفتيم كه تعداد TPC‌ها از 8 عدد به 10 عدد افزايش پيدا كرده است.
    در هسته بكار گرفته شده در GrForce 8800 GTX يعني G80، بلوك‌هاي بافت مشابه با شكل 8 بود:


    شکل8 : بلوك‌هاي بافت در هسته GrForce 8800 GTX يعني G8
    در انتهاي نگاهت كلبه اي ميسازم
    تا مبادا بگوئي از دل برفت هرانكه از ديده برفت

    روزگار خوش

  7. #7
    rezalaghaian آواتار ها
    • 1,759

    عنوان کاربری
    مدير بازنشسته
    تاریخ عضویت
    Jan 2010
    محل تحصیل
    نيشابور
    شغل , تخصص
    ازاد
    رشته تحصیلی
    كامپيوتر
    راه های ارتباطی

    پیش فرض

    هر بلوك شامل 4 واحد آدرس بافت و 8 واحد فيلتر‌گذاري بافت مي‌شد.
    با حركت به G92، هسته بكار گرفته شده در 8800 GT، 8800GTS 512 مگابايتي و 9800 GTX "ان‌ويديا" تعداد واحدهاي آدرس بافت را دو برابر كرد و واحدهاي فيلترگذاري و بافت به نسبت 1:1 رسيدند( شکل 9 ).


    شکل9
    در GT200 هسته بكار گرفته شده در GTX 280/260 هنوز "ان‌ويديا" از نسبت 1:1 براي واحدهاي آدرس به بافت استفاده مي‌كند اما اين نكته را فراموش نكنيد كه نسبت SPها به پردازنده‌هاي بافت افزايش پيدا كرده است( شکل 10 ).


    شکل10 : هسته GT200 که در GeForce GTX 280/260 بكار گرفته شده
    در انتهاي نگاهت كلبه اي ميسازم
    تا مبادا بگوئي از دل برفت هرانكه از ديده برفت

    روزگار خوش

  8. #8
    rezalaghaian آواتار ها
    • 1,759

    عنوان کاربری
    مدير بازنشسته
    تاریخ عضویت
    Jan 2010
    محل تحصیل
    نيشابور
    شغل , تخصص
    ازاد
    رشته تحصیلی
    كامپيوتر
    راه های ارتباطی

    پیش فرض

    در طراحي پيشين هر TPC شامل 8 واحد فيلتر‌گذاري و 8 واحد آدرس مي‌شد. بهئعبارت ساده‌تر 8 واحد فيلترگذاري و 8 واحد بافت براي 16 پردازنده جرياني. اما در GT200 تعداد واحدهاي فيلترگذاري و بافت هنوز 8 عدد است در حاليكه تعداد پردازنده‌هاي جرياني در هر TPC به 24 عدد رسيده است.


    جدول1
    همانطور كه گفتيم قدرت محاسبات به ميزان 87.5 درصد افزايش يافته در حاليكه قدرت پردازش بافت تنها 25 درصد افزايش يافته است. اين نسبت‌ها بيان كننده اين حقيقت است كه "ان‌ويديا" برنامه‌ريزي وسيعي براي پردازنده‌هاي گرافيكي خود دارد و با معرفي بازي‌ها و برنامه‌هاي كاربردي كه نياز به سايه‌زن‌هاي پيچيده‌تري دارند، اين شركت پردازنده‌هاي گرافيكي با قدرت پردازش بافت قوي‌تري معرفي خواهد كرد.
    نسبت افزايش قدرت محاسبات به بافت در GT200 كاملاً آشكار است. "ان‌ويديا" در سال‌هاي گذشته نيز به اين موضوع توجه زيادي داشته است. اگر به سال‌هاي گذشته برگرديد و زمان معرفي GeForce FX را بخاطر بياوريد مطمئناً متوجه اين مسئله خواهيد شد. در آن زمان "ان‌ويديا" پهناي باند حافظه در GeForce FX را قرباني موتور محاسبات قدرتمند‌تر كرد. GeForce FX شامل يك باس حافظه 128 بيتي بود درحاليكه Radeon 9700 Pro از يك رابط 256 بيتي استفاده مي‌كرد. متاسفانه ساخت چنين GPU در آن زمان اشتباه بود و GeForce FX به سختي مي‌توانست با رقبايش به رقابت بپردازد. اما امروز دنياي گرافيك سه بعدي متحول شده و برنامه‌هاي سايه‌زن پيچيده با هر يك از پيكسل‌هاي صفحه نمايش سروكار دارند و بنابراين GPUهاي امروزي نيازمند قدرت محاسبات بيشتري هستند.

    افزايش در توان عملياتي Rasterization
    در مجموع قابليت پردازش بافت در GT200 به ميزان 25 درصد افزايش يافته است و "ان‌ويديا" 2 واحد ROP به GPU جديدش اضافه كرده است.
    8800 GTX 6 واحد ROP داشت كه هر يك قادر به توليد حداكثر 4 پيكسل در هر سيكل بود. بنابراين ROPهاي 8800 GTX قادر به توليد حداكثر 24 پيكسل در هر سيكل بودند. اما GT200 داراي 8 واحد ROP است كه مي‌تواند حداكثر 32 پيكسل در هر سيكل توليد كند.
    G80/G92 براي تركيب پيكسل‌ها نياز به دو سيكل داشتند يا به عبارت ساده‌ترG80/G92 قادر به توليد 24 پيكسل در هر سيكل بودند، اما آنها مي‌توانستند تنها 12 پيكسل در هر سيكل تركيب كنند. با توجه به فرآيند ساخت 65 نانومتر و طراحي مجدد اكنون GT200 قادر به تركيب پيكسل‌ها در يك سيكل است (32 پيكسل در هر سيكل ). نتيجه نهايي بهبود كارايي غيرخطي در هر چيزي از Anti-Aliasing
    ( ضد پلگي ) و اثرات آتش تا سايه‌ها در GT200 است.
    در انتهاي نگاهت كلبه اي ميسازم
    تا مبادا بگوئي از دل برفت هرانكه از ديده برفت

    روزگار خوش

  9. #9
    rezalaghaian آواتار ها
    • 1,759

    عنوان کاربری
    مدير بازنشسته
    تاریخ عضویت
    Jan 2010
    محل تحصیل
    نيشابور
    شغل , تخصص
    ازاد
    رشته تحصیلی
    كامپيوتر
    راه های ارتباطی

    پیش فرض

    جزئيات معماري : يك معماري SIMT ؟
    بطور قطع شما با دستور‌العمل‌هاي SIMD و MIMD آشنا هستند اما پردازنده‌هاي سايه‌زن GT200 از واحدهاي SIMT استفاده مي‌كنند.
    SIMT چيست ؟ SIMT مخفف عبارت Single Instruction Multiple Threads و به معناي يك دستور العمل چندين رشته است كه كاملاً با SIMD نيز متفاوت است.
    بطور كلي Rasterizer ( بخش تصويرساز ) مربع‌هاي چهار گوش 2*2 پيكسل را توليد مي‌كند كه هر پيكسل از 4 مقدار مميز شناور (R,G,B,A) يا (X,Y,Z,W) تشكيل شده است. اين مربع‌هاي 2*2 پيكسل سپس به ALU انتقال پيدا مي‌كنند و دستورالعمل يكساني براي همه 16 عدد مميز شناور روي آنها اعمال مي‌شود. GeForceهاي 6 و 7 داراي وضعيتي به نام Co-Issue بودند كه دو دستورالعمل را براي هر يك از 16 عدد مميز شناور اعمال مي‌كرد.
    همانطور كه مي‌دانيد G80 نسبت به GeForce 6 و 7 داراي معماري متفاوتي است اما Rasterizer هنوز مربع‌هاي چهار گوش 2*2 پيكسل را توليد مي‌كند كه در يك بافر ذخيره مي‌شوند. زمانيكه 8 مربع چهار گوش ( 32 پيكسل ـ يك “Warp” در اصطلاح CUDA ) در بافر ذخيره شود، آنها به پردازنده‌ها ارسال و توسط دستورالعمل‌هاي SIMD پردازش مي‌شوند( تا اينجاي كار در كارت‌هاي سري قبل نيز انجام مي‌شد ). بنابراين تفاوت در چيست؟

    تفاوت در نحوه سازماندهي داده‌هاي پردازش شده است. در روش SIMT به جاي كار روي چهار بردار با چهار عدد مميز شناور و سازماندهي شبيه به
    ( R, G, B, A, R, G, B, A, R, G, B, A, R, G, B, A ) ، پردازش روي بردارهاي كه 32 عدد مميز شناور يكسان دارند انجام خواهد شد مانند:
    (R, R, R, R, R, R, R, R, R, R, R, R, R, R, R, R, R, R, R, R, R, R, R, R, R, R, R, R, R, R, R, R) سپس
    (G, G, G, G, G, G, G, G, G, G, G, G, G, G, G, G, G, G, G, G, G, G, G, G, G, G, G, G, G, G, G) و ... .

    نحوه سازماندهي در مثال اول( AoS ( Array of Structure و در مثال دوم SoA ( Structure of Array ) ناميده مي‌شود. در حالت دوم تمامي 32 رشته ورودي به SIMT از يك نوع خواهد بود كه منجر با افزايش كارايي خواهد ‌شد. زيرا در اين حالت همواره به اندازه كافي داده براي پر كردن بردارها وجود داشته و به دليل شباهت عملكرد پردازنده به پردازنده‌هاي اسكالر، برنامه‌نويسي آنها راحت‌تر مي‌شود. برخلاف روش دوم، در روش اول در صورتي به حداكثر قدرت پردازشي مي‌رسيم كه دستورالعمل‌هاي يكساني روي چهار جزء تشكيل دهنده هر بردار وجود داشته باشد.

    DirectX 10.1
    همانطور كه مي‌دانيد كارت‌هاي گرافيكي سري 3000 و 4000 شركت ATI از
    DirectX 10.1 پشتيباني مي‌كنند. اين نسخه از DirectX برخي از مشكلات و كاستي‌هاي اين رابط را برطرف كرده و خصوصيات جديدي نظير الگوريتم پردازش سطوح صاف، Differed Shading را به آن اضافه كرده است. خيلي‌ها انتظار داشتند كه "ان‌ويديا" در اين نسل از پردازنده‌هاي گرافيكي‌اش از DirectX 10.1 پشتيباني كند. اما گويا مسئولان "ان‌ويديا" هيچ اعتقادي به پشتيباني از DirectX 10.1 ندارند. زيرا آنها معتقدند كه پيشرفت‌هاي جديد بكار گرفته شده در اين نسخه چندان اهميت ندارد. يكي از مسئولان شركت "ان‌ويديا" چندي پيش در يك مصاحبه مطبوعاتي اظهار كرد كه آنها هيچ محصولي مبتني بر DirectX 10.1 معرفي نخواهند كرد و منتظر DirectX 11 خواهند ماند.

    آزمايشات
    قبل از بررسي نتايج آزمايشات اجازه دهيد به مشخصات كلي پردازنده‌هاي گرافيكي مورد بررسي نيم نگاهي داشته باشيم:


    جدول2
    معماري GT200 نسبت به G80 يا G92 تغييرات عمده‌اي نداشته و تنها قدرت پردازش افزايش پيدا كرده است. در نمودار شکل 11 تفاوت بين GT200 و G80 در حاليكه هر دو هسته داراي فركانس يكساني بوده‌اند نمايش داده شده است. در اين آزمايش فركانس هر دو GPU برابر با 575 مگاهرتز و فركانس حافظه و سايه‌زن‌ها به ترتيب برابر با 900 و 1350 مگاهرتز است. بنابراين نتيجه ناشي از اين آزمايش نشان دهنده پيشرفت ناشي از تفاوت معماري دو هسته است. نمودار شکل 11 در حقيقت پيشرفت كاراييGT200 نسبت به G80 در فركانس كاري يكسان را نمايش مي‌دهد.


    شکل 11 : تفاوت بين GT200 و G80
    در انتهاي نگاهت كلبه اي ميسازم
    تا مبادا بگوئي از دل برفت هرانكه از ديده برفت

    روزگار خوش

  10. #10
    rezalaghaian آواتار ها
    • 1,759

    عنوان کاربری
    مدير بازنشسته
    تاریخ عضویت
    Jan 2010
    محل تحصیل
    نيشابور
    شغل , تخصص
    ازاد
    رشته تحصیلی
    كامپيوتر
    راه های ارتباطی

    پیش فرض

    معماري GT200 حداقل 48 درصد افزايش كارايي نسبت به معماري G80 ارايه كرده است. Crysis كه يكي از سنگين‌ترين بازي‌هاي رايج امروزي است با 48.2 درصد افزايش كارايي نتايج قابل قبولي را ارايه كرده است و Bioshock با 72 درصد افزايش كارايي بيشترين افزايش كارايي را در ميان بازي‌هاي مورد آزمايش داشته است( شکل 12).


    شکل12
    در بازي Crysis زمانيكه Anti-Aliasing وAF غير فعال است 9800GX2 كارايي بالاتري نسبت به GTX280 ارايه مي‌کند اما زمانيكه اين گزينه‌ها فعال مي‌شود
    GTX 280 كارايي بالاتري را ارايه مي‌كند( شکل 13). افزايش تعداد ROPها و تعداد واحدهاي سايه‌زن و فيلترگذاري در آزمايش دوم تاثير گذار بوده است. اين نكته را فراموش نكنيد كه GTX 280 قيمت بالاتري نسبت به 9800 GX2 دارد. GTX 260 نيز از 8800 Ultra و ATI 3870 X2 كارايي بالاتري در هر دو وضعيت ارايه كرده است. لازم به ذكر است كه GTX 260 با قيمتي در حدود 400 هزار تومان از
    8800 Ultra و ATI 3870 X2 ارزان‌تر است.


    شکل13
    در اين بازي 9800 GX2 در وضعيت غيرفعال بودن فيلترها كارايي در حدود 17 درصد بالاتر و در زمان فعال شدن آنها كارايي در حدود 7 درصد بالاتر نسبت به GTX 280 ارايه كرده است. تفاوت كارايي بين GTX 280 و GTX 260 در حدود 27 درصد است در حاليكه GTX 260 45 درصد ارزان‌تر از GTX 280 است. GTX 260 يكبار ديگر از
    3870 X2 و 8800 Ultra كارايي بالاتري ارايه كرده است.

    نتيجه‌گيري
    با وجود به اينكه "ان‌ويديا" در محصولات جديدش از 1.4ميليارد ترانزيستور استفاده كرده و توانسته قدرت پردازش آنها را به مقدار قابل توجهي بهبود بخشد اما فرآيند ساخت 65 نانومتر موجب افزايش قيمت و دما در آنها شده است. بواسطه افزايش دما "ان‌ويديا" مجبور به نصب حرارت‌گير و فن‌‌هاي عظيم الجثه روي اين سري از محصولات شده كه اين مسئله ميزان نويز را افزايش داده است. از طرفي ديگر عدم پشتيباني از DirectX 10.1 يكي ديگر از معايب اين سري از محصولات به حساب مي‌آيد.
    اما از نقطه نظر كارايي GeForce GTX 280 قيمت بالاتري نسبت به 9800 GX2 دارد اما اين دو محصول از نظر كارايي تفاوت چنداني با يكديگر ندارند. به عبارت ديگر
    9800 GX2 تهديد جدي براي GTX 280 به حساب مي‌آيد. اما GTX 260 با قيمتي در حدود 45 درصد ارزان‌تر از GTX 280 كارايي تنها در حدود 18 درصد پايين‌تر از اين محصول دارد. اين محصول از Radeon 3870 X2 ارزان‌تر است و كارايي بالاتري نسبت به آن ارايه مي‌كند. در صورتيكه GTX 260 بصورت SLI پيكره‌بندي شود تنها 23 درصد از
    GTX 280 گران‌تر است اما كارايي بسيار بالاتري را ارايه خواهد كرد. اين محصول "ان‌ويديا" در حال حاضر بهترين نسبت كارايي به قيمت را در ميان كارت‌هاي حرفه‌ي دارد. به هرحال "ان‌ويديا" اگر تمايل دارد كه GTX 280 مورد استقبال قرار گيرد چاره‌اي جز كاهش قيمت اين محصول را ندارد. امري كه با توجه به فرآيند ساخت 65 نانومتر و قيمت بالاي سيليكون آن سخت به نظر مي‌رسد ....
    در انتهاي نگاهت كلبه اي ميسازم
    تا مبادا بگوئي از دل برفت هرانكه از ديده برفت

    روزگار خوش

برچسب برای این موضوع

مجوز های ارسال و ویرایش

  • شما نمی توانید موضوع جدید ارسال کنید
  • شما نمی توانید به پست ها پاسخ دهید
  • شما نمی توانید فایل پیوست ضمیمه کنید
  • شما نمی توانید پست های خود را ویرایش کنید
  •