قدرت تاک در Nehalem [بایگانی] - باشگاه دانشجویان دانشگاه پیام نور

PDA

توجه ! این یک نسخه آرشیو شده می باشد و در این حالت شما عکسی را مشاهده نمی کنید برای مشاهده کامل متن و عکسها بر روی لینک مقابل کلیک کنید : قدرت تاک در Nehalem

rezalaghaian

01-10-2011, 11:09 AM

مقدمه:
سه سال پيش در تايوان و در يکي از معتبرترين نمايشگاه‌هاي بين‌المللي دنيا با نام Computex 2006، اينتل از سري جديد پردازنده‌هاي 65 نانومتري خود که از يک معماري جديد با نام Intel Core 2 بهره مي‌بردند، پرده برداشت.
معمولا تيک‌تاک ساعت، نشان دهنده يک ثانيه مي‌باشد. اما اين يک ثانيه جز در موارد محدودي مثل مسابقات اتومبيلراني يا مسابقات دوي سرعت 100 متر المپيک، اهميت چنداني پيدا نمي‌کند.
اگر چه اينتل راهي را براي اهميت دادن هر چه بيشتر به اين تيک تاک ساعت پيدا کرده است! البته اينتل هر تيک و هر تاک ساعت را به يک سال کش داده است، يعني هر نيم ثانيه يک سال! در زمان بندي جديد اينتل، تيک نشان‌دهنده فناوري ساخت جديد مي‌باشد و تاک نشان دهنده ريز معماري جديد. در واقع اينتل، تيک را در يک سال عرضه مي‌کند و تاک را در سال بعدي!
Ronak Singhal مدير طراحي و معماري Nehalem مي‌گويد: "وقتي يک پردازنده در مرحله تاک مي‌باشد، يعني ما در حال انجام تغييرات قابل توجه و ساختاري در آن پردازنده هستيم."
اگر خاطرتان باشد پيش از اينکه اينتل معماري Core 2 را ارائه کند، اين کمپاني براي آخرين بار پردازنده‌هاي Pentium خود را با تکنولوژي ساخت جديدتر يعني 65 نانومتر و بدون تغيير معماري ارائه کرد. در حقيقت اين روش که اينتل از آن به روش Tick-Tock ياد مي‌کند تنها راه حل ارائه به موقع محصولات و دور نماندن از گردونه سخت رقابت در بين توليدکنندگان کامپيوتر‌هاي شخصي است. زيرا عملا ارائه يک پردازنده که هم معماري و هم تکنولوژي ساخت جديدي داشته باشد، به طور همزمان بسيار وقت‌گير است. به همين سبب اينتل در مرحله‌اي موسوم به Tick، پردازنده‌هاي با تکنولوژي ساخت جديد و با پيروي از همان معماري گذشته را ارائه مي‌کند و سپس در مرحله اي با نام Tock پردازنده‌هايي با همان تکنولوژي ساخت ولي با معماري جديد را ارائه مي‌کند. کل اين فرآيند 2 سال به طول مي‌انجامد.
پس بنابراين، پردازنده‌هاي 65 نانومتري Core 2 که با هسته Conroe ارائه شده‌اند سري Tock فناوري 65 نانومتر و پردازنده‌هاي Core 2 با هسته Penryn سري Tick فناوري 45 نانومتري به حساب مي‌آيند.
بر طبق شکل 1 ما اکنون در شش ماهه دوم تکنولوژي 45 نانومتري هستيم و زمان ارائه پردازنده‌هاي 45 نانومتري با يک معماري جديد فرا رسيده است. معمولا سري Tock به سبب تغيير معماري با تغيير تعداد پايه‌هاي سوکت نيز همراه است.

http://pnu-club.com/imported/mising.jpg
شکل 1

rezalaghaian

01-10-2011, 11:09 AM

شايد تا به حال در مورد اين معماري و تبليغات گسترده‌اي که اينتل از سال 2004 تا به حال در همايش‌هاي مختلف IDF به راه انداخته است، شنيده باشيد و از اينکه در هر کدام از اين نمايشگاه‌ها خبرهاي مختلف و گاه متناقضي از ويژگي‌هاي مختلف اين معماري بيان ميشود، بسيار سر در گم شده باشيد.
در مورد اين اخبار بايد گفت که تا زماني که يک محصول با نام مدل به بازار معرفي نشده ‌است، نمي‌توان در مورد تک تک ويژگي‌هاي آن از جمله نحوه رمزگشايي دستورالعمل‌ها، نحوه ارتباط با حافظه، کارت گرافيک و... با اطمينان صحبت کرد. اما يک نظر کلي مي‌توان داد و آن اينکه تقريبا تمام خبرهاي مختلفي که تا کنون شنيده‌ايد به نوعي درست‌ هستند. در حقيقت در هر خبر به تشريح يکي از مدل‌هاي خاص اين پردازنده‌ها پرداخته‌اند و چون مدل و حتي اسم رمز پردازنده آن را با نام کلي Nehalem شناخته‌اند، تناقض بوجود آمده است.
براي مثال در بعضي خبرها آمده بود که اين پردازنده 1160 پايه دارد و در جاي ديگر اعلام شده بود 1366 پايه خواهد داشت حال آنکه هر دو خبر درست بوده زيرا اين دو سوکت از دو کلاس مختلف در معماري Nehalem هستند. اما حقيقتي که در تمامي ‌اين پردازنده‌ها به وضوح مي‌توان مشاهده کرد تحول عظيم در معماري پردازنده‌هاي اينتل است به طوري که مي‌توان به جرات گفت که تا به حال در هيچ يک از جهش‌هاي معماري اينتل مشاهد نشده‌ است.
اخيرا اينتل جزئيات Nehalem را منتشر کرد و معلوم شد که تاک در زمان بندي توسعه پردازنده جديدش، جايي است که پيشرفت قابل توجهي درمعماري پردازنده ارائه مي‌گردد. Nehalem با فناوري ساخت 45 نانومتري، پيشرفت زيادي را در کارائي پردازنده به بار آورده است.
با توجه به تفاوت‌هاي ميان پردازنده‌هاي مختلف معماري Nehalem ، ابتدا درباره ويژگي‌هاي اصلي اين معماري و تحولات صورت گرفته در آن صحبت مي‌کنيم و در ادامه به جزئيات هر يک از اسم رمزها مي‌پردازيم.
کنترلر حافظه در دل پردازنده
ريزمعماري جديد IMC ، پيشرفت قابل ملاحظه‌اي را در بازدهي سيستم و افزايش پهناي باند حافظه به ارمغان مي‌آورد (البته اين نوآوري اينتل که با هياهوي فراوان در مورد آن تبليغ مي‌گردد، عبارت است از اينکه براي اولين بار بخش کنترل کننده حافظه در داخل خود پردازنده تعبيه شده است و جالب آنکه مثل خيلي از موارد ديگر، ابداع جديدي نيست، چرا که سال ها است رقيب هميشگي اينتل، يعني AMD از اين فناوري استفاده مي‌کند، لذا کاربرد واژه "نوآوري" در مورد آن توسط اينتل، بسيار مبهم است!).
يکي از ايرادهايي که بر معماري Core 2 وارد بود قرار دادن کنترلر حافظه در پل شمالي بود در حالي که رقيب Core 2 يعني معماري AMD K8 از کنترلر حافظه مجتمع در پردازنده بهره مي‌برد همين امر سبب شده بود که زمان دسترسي به حافظه به دو برابر نوع مجتمع يعني حدود 80 نانوثانيه افزايش يابد.
در روش گذشته، پردازنده آدرسي را به پل شمالي مي‌فرستاد و با فعال کردن پايه‌هاي خواندن و نوشتن و يک سري سيگنال‌هاي کنترلي، کنترلر موجود در پل شمالي متوجه مي‌شد که اين آدرس براي دسترسي به حافظه است و حال اگر سيگنال RD فعال بود به اين معني است که اطلاعات موجود در آدرس مورد نظر را از حافظه بخوان و از طريق باس داده به پردازنده منتقل کن، اما اگر سيگنال WR فعال بود ديتاي آماده از باس داده پردازنده را به آدرس موجود در پردازنده بنويس که به سبب پايين‌تر بودن سرعت چيپ پل شمالي، اين روش افزايش زمان تاخير را به همراه دارد.
تمامي ‌اين مشکلات سبب شد که اينتل نيز مانند AMD از ايده کنترلر حافظه مجتمع استفاده کند. اين کنترلر که در نوع خود بي‌نظير است از حافظه‌هاي DDR3 با تکنولوژي‌هاي Dual/Triple/Quad Channel (بسته به نوع محصول) با فرکانس‌هاي بين 800 تا 1600 مگاهرتز پشتيباني مي‌کند.

rezalaghaian

01-10-2011, 11:10 AM

QPI رقيبي براي HT
همانطور که خاطرتان است AMD در معماري K8 خود از درگاه جديدي با نام Hyper Transport بهره برده بود که به طور مستقل و بي واسطه با وسايل پر سرعتي مانند درگاه PCI-Express ارتباط بر قرار مي‌کرد، اين تکنولوژي تا جايي موفق بود که AMD در نسل‌هاي بعدي معماري خود، نسل‌هاي جديد HT با نام HT 2.0 و HT 3.0 را نيز که از پهناي باند و فرکانس بالاتري بهره مي‌بردند را ارائه کرد. اينتل نيز در يک حرکت مشابه اقدام به ارائه يک رابط جديدي با نام تجاري Intel Quick Path Interconnection استفاده کرده که از نيمه دوم سال 2008 در محصولات Xeon وItanium 2 که جزو پردازنده‌هاي سرور اينتل به حساب مي‌آيند قرار خواهند گرفت و بعد‌ها پردازنده‌هاي دسکتاپ نيز به اين تکنولوژي مجهز خواهند شد.
QPI که جايگزين FSB خواهد شد در پردازنده‌هاي Nehalem و Tukwila مورد استفاده قرار خواهد گرفت. هر درگاه Quick path توانايي انتقال 4.8GT/s تا 6.4GT/s را در هر ثانيه دارد. به طور کلي اينتل قصد دارد از يک تا چهار درگاه Quick path را در پردازنده‌هاي خود بکار گيرد. همچنين اين درگاه‌هاي 5 ، 10 يا 20 بيتي توانايي انتقال 12GB/s تا 16GB/s را براي هر درگاه و 24 تا 32GB/s را براي هر لينک دارند.
در آزموني که توسط اينتل در همايش IDF انجام شد با يک درگاه 20 بيتي پردازنده Nehalem توانست با پهناي باند 25.6 GB/s با حافظه و کارت گرافيک ارتباط برقرار کند که اين عدد دو برابر پهناي باند تئوري است که در پردازنده Penryn با FSB 1600MHz توسط پل شمالي X48 به دست آمده بود.
آقاي Singhal مي‌گويد: "در اين پلتفرم، FSB وجود ندارد و اين يک تغيير بزرگ براي ما مي‌باشد!"
فناوري مسير سريع، پهناي باند حافظه را به 32GB/s براي هر کنترلر مي‌رساند( مثلا براي شکل نشان داده شده، مجموعا به 64GB/s مي‌رسد) درحاليکه با معماري موجود، حداکثر تا 21GB/s قابل ارتقاء مي‌باشد.
آقاي Singhal مي‌گويد: "پهناي باند بزرگي وجود دارد و چون ما تعداد هسته‌ها را افزايش مي‌دهيم، لذا به حافظه بزرگي هم احتياج داريم."

http://pnu-club.com/imported/mising.jpg
شکل 2 : معماري کنوني ( FSB )

http://pnu-club.com/imported/mising.jpg
شکل 3 : معماري Quick Path

rezalaghaian

01-10-2011, 11:10 AM

استفاده از حافظه نهان سطح 3
در گذشته روش استفاده از حافظه نهان اينگونه بود که هر هسته از يک حافظه نهان سطح يک با حجم بالا بهره مي‌برد( در حدود 3MB ) که همه آنها در ارتباط مستقيم با حافظه رم بودند، حال اگر يک هسته پردازنده احتياج به يک داده داشت ابتدا بايد تمام حافظه نهان خود را چک مي‌کرد و اگر ديتاي مورد نظر را نمي‌يافت به سراغ رم مي‌رفت. اين روش در بهترين حالت، تاخير بسيار کمي ‌داشت اما در بدترين حالت که مقدار مورد نظر در حافظه نهان پيدا نشود، نه تنها وجود حافظه نهان به افزايش سرعت کمک نمي‌کند، بلکه باعث تاخير بيشتر نسبت به روش‌هاي قبل (دريافت داده به طور مستقيم از رم) مي‌شد. زيرا بايد زمان جستجوي بي‌نتيجه در Cache را به زمان تاخير رم اضافه کنيم( شکل 4).

http://pnu-club.com/imported/mising.jpg
شکل 4 : استفاده از حافظه نهان سطح 3 در معماري کنوني اينتل
در روش جديد هر هسته يک حافظه نهان دستورالعمل (Instruction Cache) و داده
(Data Cache) سطح يک و يک حافظه نهان سطح دو براي هر هسته دارد که هيچ يک به طور مستقيم با حافظه در ارتباط نيستند، بلکه هر هسته از آن حافظه براي نگهداري موقت اطلاعات براي Pipeline استفاده مي‌کند تا سرعت محاسبات خود را افزايش دهد و در مقابل از يک حافظه اشتراکي بين تمام هسته‌ها با حجم بالاتر بهره مي‌برد که تنها اين سطح از حافظه نهان در ارتباط مستقيم با حافظه رم قرار دارد، به همين دليل زمان جستجوي اطلاعات مربوط به حافظه رم در اين حافظه کاهش مي‌يابد(شکل 5).

http://pnu-club.com/imported/mising.jpg
شکل 5 : استفاده از حافظه نهان سطح 3 در ريز معماري Nehalem

rezalaghaian

01-10-2011, 11:10 AM

ساختار حافظه نهان Nehalem
سيستم حافظه نهان Nehalem نسبت به سيستم حافظه نهان پردازنده‌هاي قبلي تفاوت قابل ملاحظه‌اي داشت است. مخصوصا در حافظه نهان L2 و L3تغييرات اساسي ايجاد شده است.
Nehalem يک زير سيستم جديد سه سطحي را براي حافظه نهان معرفي کرده است. اين زير سيستم از فناوري حافظه نهان هوشمند اينتل استفاده مي‌کند.
حافظه نهان L1 مثل پردازنده‌هاي قبلي خواهد بود، يعني 32KB براي دستورات
( I-Cache )‌ و 32 کيلوبايت براي داده‌ها ( D-Cache )‌در نظر گرفته شده است.
حافظه نهان L2 براي هر هسته، اختصاصي خواهد بود. در حاليکه در پردازنده‌هاي قبلي، اينگونه نيست. در Nehalem هر هسته داراي‌ 256 کيلوبايت حافظه نهان اختصاصي مي‌باشد. حافظه نهان L2 با کاهش بسيار زياد تاخير، بازدهي را به شدت افزايش مي‌دهد و از آنجا که تعداد هسته‌ها در پردازنده افزايش مي‌يابد، حافظه نهان L2 يک بخش بسيار مهم براي کاهش فشار بر روي حافظه نهان L3 خواهد بود.
سرانجام Nehalem داراي يک حافظه نهان جديد و بزرگ L3‌ مي‌باشد که تمامي ‌هسته‌ها از آن بطور اشتراکي استفاده مي‌کنند. همانگونه که در شکل 6 مي‌بينيد، در يک پردازنده 4 هسته‌اي، حافظه نهان L3 داراي 8 مگابايت حافظه مي‌باشد. ساختار حافظه نهان L3، آن را به گونه‌اي توسعه پذير مي‌کند که مي‌تواند نيازهاي پردازنده را مرتفع کند.

http://pnu-club.com/imported/mising.jpg
شکل 6 : يک پردازنده 4 هسته‌اي داراي 8 مگابايت حافظه نهان L3 .

rezalaghaian

01-10-2011, 11:11 AM

آقاي Singhal مي‌گويد:
"پردازنده Penryn داراي 2 سطح حافظه نهان مي‌باشد، حافظه نهانL1 ‌ براي دستورات و داده‌ها و حافظه نهان L2 که بين هسته‌ها به اشتراک گذاشته شده است ولي در Nehalem، سه سطح حافظه نهان وجود دارد، حافظه نهان L1‌ مثل قبلي مي‌باشد، يعني براي دستورات و داده‌ها. حافظه نهان L2 براي هر هسته اختصاصي مي‌باشد و 256 کيلوبايت است. آن مي‌تواند هم کدها و هم داده‌ها را در خود نگه دارد. در واقع آن براي کاهش تاخير و بازدهي بالا طراحي شده است. بنابراين هنگامي ‌که تعداد هسته‌ها را افزايش مي‌دهيم، با مشکل تلاش هسته‌ها براي دسترسي به يک حافظه مشترک روبرو نخواهيم شد، درصورتيکه در پردازنده‌هاي قبلي، اين مشکل وجود دارد. حالا با حافظه نهان L3 چنانچه تعداد هسته‌ها را افزايش دهيم، مي‌توانيم اندازه حافظه نهان L3 را هم به تناسب آن افزايش دهيم".

وقتي که آخرين سطح حافظه نهان که براي هر هسته اختصاصي مي‌باشد، با يک Miss مواجه شود، بازدهي سيستم به مقدار قابل توجهي پايين مي‌آيد. در اين حالت سيستم بايد حافظه نهان هر هسته را جستجو کند، اگر داده مورد نظر در آن حافظه نهان‌ها نباشد، سيستم سرانجام بايد حافظه سيستم (RAM)‌ را جستجو کند که اين تاخير زيادي را ايجاد مي‌کند. ولي با ساختار Nehalem که آخرين سطح حافظه نهان را هم شامل مي‌شود (اشتراکي)، وقوع Miss در آخرين سطح حافظه نهان، تاخير زيادي را به وجود نمي‌آورد، زيرا سيستم مي‌فهمد که داده در خارج از پردازنده و در حافظه سيستم (RAM) قرار دارد و در آنجا به دنبال آن مي‌گردد( شکل‌هاي 4 و پنج را مقايسه کنيد ). بنابراين لزومي‌ ندارد که حافظه نهان هر هسته را جستجو کند و تاخير ايجاد کند.
حافظه نهان هوشمند اينتل
فناوري حافظه نهان هوشمند اينتل، بازدهي را افزايش داده و تاخير را کاهش مي‌دهد و همه اين کارها توسط سيستم مديريت و پيکربندي حافظه حافظه نهان که اختصاصا براي پردازنده هاي چند هسته اي طراحي شده است، انجام مي‌شود. اينتل فناوري حافظه نهان هوشمند خود را دو سال پيش معرفي کرده اما بطور موثري در معماري Nehalem بکار گرفته مي‌شود.
با اشتراک حافظه نهان L3 در معماري Nehalem ، هر هسته مي‌تواند به راحتي به داده هاي L3 دسترسي داشته باشد. حافظه نهان L3 اشتراکي همچنين منابع سيستم را بهينه مي‌کند. براي مثال، ممکن است هسته A نياز کمي‌به حافظه نهان خودش داشته باشد، درحاليکه در همان لحظه، هسته B به مقدار زيادي حافظه نهان احتياج داشته باشد. اگر حافظه نهان L3 به اشتراک گذاشته نشود و هر هسته داراي مقدار ثابتي حافظه نهان باشد، هسته A منبع خود يعني حافظه نهان اختصاصي خود را هدر مي‌دهد، درحاليکه هسته B از بازدهي پايين به خاطر نداشتن حافظه نهان کافي، رنج مي‌برد!
با فناوري حافظه نهان هوشمند، هستهB مي‌تواند به هر مقدار حافظه نهان که نياز دارد، داسترسي داشته باشد تا زمانيکه هسته A ، نياز بيشتري نداشته باشد. بنابراين بازدهي کلي سيستم و استفاده از منابع حافظه نهان به بهترين حالت ممکن مي‌رسد.

حافظه نهان L3اختصاصي
در اين مثال، هسته B به حافظه نهان L3‌ بيشتري احتياج دارد، اما نمي‌تواند از حافظه نهان L3‌ هسته A ، قرض بگيرد! درحاليکه هسته A به تمام حافظه نهان L3‌ خود نياز ندارد، هسته B را با بازدهي پايين ناشي از نداشتن حافظه نهان کافي رها مي‌کند!

http://pnu-club.com/imported/mising.jpg
شکل 7 : حافظه نهان L3اختصاصي

rezalaghaian

01-10-2011, 11:11 AM

حافظه نهان L3 اشتراکي ( با فناوري Smart Cache)
در اين مثال، هسته A‌ به مقدار کمي‌از حافظه نهان L3 نياز دارد. با استفاده از فن آوري حافظه نهان هوشمند، هسته B مي‌تواند از مابقي حافظه نهان L3‌ به هر ميزاني که نياز دارد، استفاده کند که اين باعث حفظ بازدهي هستهB و عدم کاهش آن مي‌گردد.

http://pnu-club.com/imported/mising.jpg
شکل 8 : حافظه نهان L3 اشتراکي با فناوري Smart Cache
ويژگي Loop Stream Detection
يکي از وقت گيرترين دستورات در پردازش کدهاي برنامه نويسي دستور حافظه است. از ابتدا تاکنون پردازنده‌هاي مختلف روش‌هاي گوناگوني براي اجراي دستور استفاده کرده‌اند، براي مثال در يک روش پردازنده با اين فرض پيش مي‌رود که اين بار حلقه تکرار نخواهد شد و با آن مانند يک دستور معمولي برخورد مي‌کند (انگار حلقه‌اي وجود ندارد)، در دستور بعد که متوجه مي‌شود فرض اشتباه بوده، رجيسترهاي داخلي خود را پاک کرده و به ابتداي حلقه پرش مي‌کند. اين کار براي هر بار اجراي حلقه حدود 17 سيکل ساعت زمان مي‌برد و فقط در آخرين بار که شرط حلقه نقض مي‌شود (فرض پردازنده درست خواهد بود ) 5 سيکل ساعت زمان مي‌برد. در روش جديد( شکل 9) پردازنده پيش از اينکه دستوري را واکشي (Fetch) کند، چک مي‌کند که اين دستورالعمل اجراي حلقه است يا نه؟ اگر اينطور است بدون واکشي و ديکود، دستور را با تمامي ‌اطلاعات لازم به مرحله Queue مي‌برد و با آگاهي بر اينکه اين دستورالعمل‌ها چند بار بايد تکرار شوند، آنها را اجرا مي‌کند.

http://pnu-club.com/imported/mising.jpg
شکل 9 : ويژگي Loop Stream Detection در معماري Nehalem

rezalaghaian

01-10-2011, 11:11 AM

يکپارچه بودن اين پردازنده‌ها
از ديگر ويژگي‌هايي که مي‌توان به آن اشاره کرد يکپارچه بودن اين پردازنده‌ها است. در حقيقت تا پيش از اين تمام پردازنده‌هاي 4 هسته‌اي اينتل از قرار گرفتن دو پردازنده دو هسته‌اي در کنار يکديگر تشکيل مي‌شدند اما در Nehalem تمامي‌هسته‌ها بر روي يک سطح Die به وجود مي‌آيند حتي پردازنده‌هاي 8 هسته‌اي اين نسل نيز به صورت يکپارچه خواهند بود بنابراين مي‌توان در اين نسل انتظار ارائه پردازنده‌هاي 3 هسته‌اي يا 6 هسته‌اي را نيز از سوي اينتل داشت.
چند رشته‌اي همزمان
اينتل اولين پردازنده‌اي که فناوري پردازش چند رشته‌اي همزمان يا همان
SMT-Simultaneous Multi Threading را داشت، در سال 2002 در يکي از مدل هاي Pentium4 عرضه کرد. Nehalem هم اين فناوري را با تغييراتي در آن براي افزايش کارايي شامل مي‌شود.
Nehalem داراي 128 ريز دستورالعمل (Micro-OPs) در مقابل 96 ريز دستورالعمل Penryn مي‌باشد (يعني 33 درصد افزايش).
با SMT ، هر هسته مي‌تواند 2 رشته را همزمان اجرا کند، يعني 2 برابر تعداد رشته‌ايي که يک پردازنده بدون SMT مي‌تواند پردازش کند. باNehalem و چند هسته آن، SMT به يک ابزار ارزشمندتر نسبت به قبل تبديل مي‌گردد.
پردازش چند رشته اي چندين مزيت دارد، از جمله:
ـ افزايش قابليت چند وظيفه‌ي (Multi Tasking).
ـ افزايش بازدهي برنامه‌اي کاربردي که مي‌توانند از مزيت چند رشته‌ي بهره ببرند، از قبيل برنامه‌اي چند رسانه‌ايي، جستجوگرهاي بانک‌هاي اطلاعاتي و موتورهاي جستجو.
ـ بهبود توان مصرفي.

http://pnu-club.com/imported/mising.jpg
شکل 10 : قابليت SMT Simultaneous Multi Threading در معماري Nehalem
Pentium4 هم SMT‌ را پشتيباني مي‌کرد، ولي Nehalem با استفاده از پايپ‌لاين کوتاه‌تر و پهناي باند بزرگ‌تر بين هسته‌ها و حافظه، بازدهي بيشتري را به ارمغان مي‌آورد.
همانگونه که در شکل مي‌بينيد، SMT در Nehalem ، مي‌تواند هم رشته‌هاي نارنجي و هم رشته‌هاي آبي را همزمان پردازش کند که پردازش سريع‌تري را به ارمغان مي‌آورد. در عوض در پردازنده‌هاي 4 هسته‌اي بدون SMT ، همه رشته‌هاي نارنجي بايد قبل از رشته‌هاي آبي که وارد هسته مي‌شوند، پردازش شوند.
وقتيSMT همراه با فن‌آوري چند هسته اي ارائه گردد، Nehalem مي‌تواند توان پردازشي بين 4 تا 16 رشته همزمان را فراهم کند (با فرض اينکه هر هسته بتواند همزمان 2 رشته را پردازش کند).

rezalaghaian

01-10-2011, 11:11 AM

استفاده از عنصر هافنيم
در فرآيند ساخت Nehalem از يک فناوري ساخت 45nm با ظرفيت بالاي پارامتر K‌، که توسط عنصر هافنيم تامين مي‌شود، استفاده مي‌گردد. هافتيم يک عنصر فلزي( شکل 11) با شماره 72 در جدول تناوبي مي‌باشد (به مقاله "گذر از قانون مور" در شماره 39 مراجعه شود).

http://pnu-club.com/imported/mising.jpg
شکل 11
سازندگان تراشه‌ها سعي در هر چه فشرده‌تر و متراکم تر کردن ترانزيستورها دارند، در نتيجه آنها انرژي را به محيط اطراف انتقال مي‌دهند (در واقع از دست مي‌دهند). تلف شدن توان و افزايش حرارت (همانگونه که در شکل 12 و ترانزيستورهايA و B نشان داده شده است)، هر دو باعث کاهش راندمان سيستم مي‌شوند.
با استفاده از يک عايق از جنس عنصر هافنيم که با يک گيت فلزي در فناوري ساخت 45nm‌ پردازنده Nehalem به کار برده شده است، (ترانزيستور C‌ شکل 12) اينتل به مقدار قابل توجهي توان هدر رفته را کاهش داده و در نتيجه بازدهي سيستم را افزايش مي‌دهد.

http://pnu-club.com/imported/mising.jpg
شکل 12
اينتل ايده استفاده از يک عنصر با پارامتر K‌ بالا در گيت "دي الکتريک" و استفاده از يک فلز در گيت "الکترود" را حدود 5 سال پيش مطرح کرد( شکل 13، اما آن را براي اولين بار در پردازنده‌اي که با فناوري 45nm ساخته مي‌شود، عرضه کرد. عنصر هافنيم مي‌تواند در يک لايه نازک‌تر از دي اکسيد سيليکون استفاده شود و در عين حال ميزان نشتي گيت را تا حدود 10 برابر کاهش مي‌دهد.

http://pnu-club.com/imported/mising.jpg
شکل 13
استفاده از يک عنصر با پارامتر K بالا، موجب مشکلاتي هم مي‌شود، از جمله نياز به ولتاژ زياد هنگام سوئيچ کردن ترانزيستور. اما با استفاده از يک گيت فلزي همراه با هافنيم، اينتل مي‌تواند اين مشکل را نيز برطرف کند.
از جمله برتري‌هاي معماري Nehalem بر معماري‌هاي Penryn مي‌توان به 30% مصرف توان کمتر (به دليل استفاده از نسل جديد گيت‌هاي HI-K Metal با ولتاژ کاري پايين‌تر در حدود 1.176) اشاره کرد.

rezalaghaian

01-10-2011, 11:12 AM

SSE4.2 دستورالعمل هاي جديد اينتل

هفت دستورالعمل جديد اينتل با نام SSE4.2 باعث بهبود قدرت پردازش Nehalem‌مي‌گردد. به عنوان نمونه، چهار دستورالعمل SSE4.2 همانگونه که در شکل 14 داده شده است، پردازش رشته‌ها و متن را بهبود مي‌بخشند و نيز تجزيه XML را تسريع مي‌کنند.
با استفاده از اين دستورات جديد، سيستم مي‌تواند بلاک‌هاي16 بايتي را همزمان مقايسه کند در حاليکه پيش از اين، مقايسه به صورت بايت به بايت صورت مي‌گرفت‌.

http://pnu-club.com/imported/mising.jpg
شکل 14
بخش اول شکل 14 : ( Equal Each Operation ) وقتي که هر کارکتر در Src2 دقيقا در همان مکان درSrc1 قرار داشته باشد، حاصل True‌ (يک) خواهد بود.

بخش دوم شکل 14 : ( Equal Ordered Operation ) وقتي شروع يک زير رشته از Src1 در مکاني از رشته Src2 وجود داشته باشد، آنجا مقدار True‌ (يک) خواهد گرفت.

بخش سوم شکل 14 : ( Equal any Operation ) وقتي هر کارکتر تکي از Src2 با يک کارکتر از Src1 مطابقت داشته باشد، مقدار True‌ (يک) خواهد گرفت.

بخش چهارم شکل 14 : ( Ranges Operation )وقتي هر کارکتر از Src2 درSrc1 وجود داشته باشد، به اندازه طول Src1 (حداکثر تا 8 کارکتر) مقدار يک خواهد گرفت.
دستورالعمل‌هاي SSE4.2 عمليات جستجو و تشخيص الگوها را براي مجموعه‌هاي بزرگ داده‌ها، به ميزان قابل توجهي بهبود مي‌بخشد که يکي از کاربردهاي آن در نرم افزارهاي تشخيص دست خط مي‌باشد.

rezalaghaian

01-10-2011, 11:12 AM

توسعه پذيري (Scalability)
اينتل مي‌تواند Nehalem را با هر ترکيبي از 2 تا 8 هسته عرضه کند، اين بدان معناست که مي‌تواند برحسب نياز بازار، پردازنده خود را توليد و ارائه دهد. اينتل ادعا دارد که Nehalem ، توسعه پذيرترين تراشه طراحي شده دنيا مي‌باشد چرا که مي‌توان آن را از 2 هسته تا 8 هسته طراحي کرد!
ارتباط مابين پردازنده ها
Nehalem پهناي باند 25.6GB/s را بين پردازنده ها و کنترل کننده I/O فراهم مي‌کند.
پردازنده هاي اينتل
اينتل هنوز اطلاعات رسمي ‌در مورد مشخصات کامل Nehalem را منتشر نکرده است، اما واضح است که Nehalem راه پردازنده هاي ديگر اينتل را که پيشرفت قابل ملاحظه‌اي داشته‌اند را ادامه خواهد داد. براي مثال پردازنده Nehalem با 4 هسته، احتمالا داراي 731 ميليون ترانزيستور خواهد بود( جدول 1) .

http://pnu-club.com/imported/mising.jpg
جدول 1
معرفي پردازنده‌هاي خانواده Nehalem
حال که به بررسي ويژگي‌هاي کلي پردازنده‌هاي Nehalem پرداختيم، در زير به معرفي پردازنده‌هاي مختلفي که با اين معماري ارائه خواهند شد (به ترتيب زمان ارائه) خواهيم پرداخت.
Bloomfield , Nehalem-Ep
اين دو پردازنده که در نيمه دوم سال 2008 ارائه مي‌شود.
پردازنده با اسم رمز Bloomfield که بازار پردازنده‌هاي Extreme Desktop را مورد هدف قرار خواهند داد، پردازنده 4 هسته‌اي با فرکانس 3.2GHz و قابليت پشتيباني از تکنولوژي Triple Channel DDR3 و Quick path با حداکثر پهناي باند 6.4GT/s را دارد.
اما پردازنده Nehalem-Ep يا Gainestown که بازار پردازنده‌هاي DP-Server اينتل را هدف قرار مي‌دهد تمامي ‌ويژگي‌هاي بالا را دارد (شکل 15). علاوه بر اينکه از
2x Quick Path پشتيباني خواهد کرد و مدل‌هايي با مصرف توان‌هاي متفاوت ارائه خواهد شد. همچنين لازم به ذکر است که هر دو پردازنده از سوکت جديد LGA 1366 (که به Socket B شهرت دارد)، 256KB حافظه نهان سطح 2 و 8MB حافظه نهان سطح 3 به صورت اشتراکي بهره مي‌برد.

http://pnu-club.com/imported/mising.jpg
شکل 15

rezalaghaian

01-10-2011, 11:13 AM

Nehalem-EX
اين پردازنده که با اسم رمز Beckton نيز شناخته خواهد شد جزو پردازنده‌هاي
MP-Server اينتل خواهد بود(شکل16 ). نکته قابل توجه در اين پردازنده پشتيباني از نسل جديد حافظه‌هاي FB-DIMM2 به همراه تکنولوژي Quad Channel و همچنين حافظه‌هاي نهان اشتراکي سطح 3 با حجم 24MB خواهد بود. اين پردازنده همچنين از سوکت 1567 پايه‌اي پشتيباني خواهد کرد و در فصل پاياني سال 2009 ارائه مي‌شود.

http://pnu-club.com/imported/mising.jpg
شکل 16
تنها در نيمه دوم سال 2009 اينتل نوع خاصي از پردازنده‌هاي دو هسته‌اي با توان مصرفي بسيار پايين و معماري Nehalem را ارائه خواهند کرد که از يک ويژگي منحصر بفرد برخوردارند، اين پردازنده‌ها در کنار خود از يک پردازنده گرافيکي نيز بهره مي‌برند (شکل17).

http://pnu-club.com/imported/mising.jpg
شکل 17
از توضيح درباره ديگر محصولات Nehalem به سبب اينکه تفاوت چنداني با تعاريف بالا ندارند پرهيز مي‌کنيم. ليست کامل آنها به همراه ويژگي‌هاي هر يک در جدول 2 آمده است.

http://pnu-club.com/imported/mising.jpg (http://computernews.ir/img.aspx?l=/files/gallery/2010/4/nehalem_j2_s.jpg)
جدول2
سخن پاياني
در پايان لازم به ذکر است که پردازنده‌هاي مجهز به معماري Nehalem تا پايان سال 2009 با فناوري ساخت 45 نانومتر ارائه خواهند شد و پس از آن نوبت به مرحله Tick پردازنده‌هاي 32 نانومتري (که آنها نيز از معماري Nehalem بهره مي‌برند) خواهد رسيد.
همچنين چيپ‌ست مادربرد اين پردازنده‌ها که توسط اينتل ارائه مي‌شود در مرحله نخست X58 نام خواهد داشت که امکانات اورکلاک Nehalem نيز تنها توسط اين چيپ براي کاربر فراهم مي‌شود. مرحله تيک در سال 2009 خواهد بود که يک پردازنده Nehalem با فناوري 32nm ( با نام Westmere ) ساخته خواهد شد و مرحله تاک در سال 2010 مي‌باشد که تغيير ديگري در ريز معماري آن پديد خواهد آمد (با نام Sandy Bridge). اينتل هنوز رسما اعلام نکرده است که اين تغيير، چه خواهد بود، اما اگر پايه اين تغييرات، Nehalem باشد، احتمالا يک نوآوري تکان دهنده خواهد بود!