Ревю на архитектурата Zen 2 и овърклок на Matisse

15
908

Автор на оригинала е популярният 1usmus, експерт в областта на хардуера и и овърклока


От една година говорим за процесорите на AMD от второ поколение. Новият процесорен дизайн с чиплети бе обявен като мащабен пробив в производителността и мащабируемостта на процесорите. Това е важно, понеже с всяко ново поколение процесори става все по-трудно създаването на голям кристал чрез нов технологичен процес и високи тактови честоти.

Очаква се, че това смело решение ще окаже влияние на цялата процесорна индустрия. Нека сравним различните Zen архитектури, да погледнем, доколко могат да се клокнат различните поколения процесори на AMD и какво дава овърклокът на оперативната памет при процесорите от поколението Zen 2.

Архитектурата

Да започнем с това, че Zen 2 е член на фамилията Zen и не е нова пълноценна архитектура или нова парадигма в обработването на Х86 инструкциите. Погледнато по-общо, ядрото изглежда като ядрото на Zen/Zen+. Основните ключови особености на архитектурата Zen 2 включват новата система за предсказване на условните преходи (известна под името TAGE), удвоеният кеш на микроинструкциите, удвоеният L3 кеш, увеличението на целочислените ресурси, увеличението на ресурсите за запис и съхранение на единичните операции AVX-256 (или AVX2) и други.

CCD и CCX

Вече казахме, че AMD успя да направи пробив в изграждането и производството на процесори чрез използването на чиплети. При тази технология не се налага използването на голям кристал и е достатъчно използването на няколко по-малки, с което използването на новите нанометрови технологични норми е значително по-лесно.

Да започнем с това, че CCX комплектите на Zen 2 имат същия брой ядра, като при предишното поколение. В един CCX блок са обединени 4 ядра и 16 MB обща кеш памет от трето ниво.

В един 7 nm кристал се разполагат два CCX блока, които формират един чиплет, абревиатурата на който е CCD (Core Complex Die). Освен ядрото и кеша, в CCD чиплета е включен и контролера за Infinity Fabric шината, чрез която се осъществява връзката между CCD с друг чиплет и със задължителния допълнителен кристал, на който са разположени входно изходните интерфейси, контролера на паметта и други, като този кристал се произвежда чрез 12 нанометров технологичен процес. Именно този подход се използва в новите процесори Ryzen 3000, като е познат още от Zen+.

Във входно изходния кристал на процесорите от поколението Zen 2 се разполагат така наречените извънядрени компоненти, както и елементите на северния мост. В него се намират контролера на паметта и контролера на PCI Express 4.0 шината. В същия I/O кристал са реализирани и две Infinity Fabric шини, необходими за осъществяване на връзка с чиплетите.

В зависимост от това, за кой процесор от фамилията Ryzen 3000 става дума, той може да включва или два, или три чиплета.

В процесорите с осем и по-малко ядра се използва само един CCD чиплет и един I/O кристал.

Ясно е, че в процесорите с повече от осем ядра е необходимо използването на два чиплета. Да подчертаем, че процесорът си остава едно единно цяло. Във всеки един Ryzen 3000 чип контролерът на паметта се намира в I/O кристала и тъй като този кристал е само един, всяко от ядрата може по всяко време да се обръща към всяка негова област, без никакви NUMA конфигурации.

Разбира се, използването на чиплети в процесорите изисква грамотна реализация на специализираната шина Infinity Fabric, която осигурява връзката между различните елементи на процесора. AMD очевидно добре се е справила с тази задача, което се потвърждава от множеството тестове и отзиви.

При Zen 2 архитектурата се използва друг AGU (address generation unit), с помощта на който по-бързо се изчислява правилния адрес за обратния запис и сега всяко процесорно ядро може да записва данните по-бързо в сравнение с предишната архитектура, въпреки че общата пропускателна способност за запис на данни между чиплета и оперативната памет е намалена двойно. Това се отразява много добре на игрите, при които в редица случаи се генерират повече записвания, отколкото четения.

Infinity Fabric

С прехода към Zen 2 компанията преминава към второто поколение на Infinity Fabric шината (IF2). Едно от основните обновявания на IF2 е увеличаването ширината на шината от 256 на 512 бита. което означава двукратно увеличение на пропускателната способност и възможност за прехвърлянето на по 32 байта на такт във всяко направление. AMD прибягва до това решение, понеже в процесорите Ryzen 3000 въвежда поддръжката на PCI Express 4.0. Второ, този подход сериозно увеличава производителността на компютърната система с случаите, когато ниската пропускателна способност на шината се дължи на ниската тактова честота на оперативната памет – например, потребителят си е купил по-евтина RAM.

AMD показва в своите слайдове и документации, че общата ефективност на IF2 е увеличена с 27%, което е довело до намаляване мощността на един бит. Съвсем скоро предстои излизането на HEDT процесорите с много чиплети, на които новият интерфейс е крайно необходим, но повече подробности ще разберем през есента.

Една от важните особености на новата вътрешна IF2 шина е, че контролерът на паметта има още един режим на работа, при който неговата честота е половината от честотата на DRAM – тоест, UCLK = 1/2 MEMCLK. Това е направено, за да се удовлетворят потребностите на ентусиастите, занимаващи се с екстремален овърклок. А ако се случи неудачен I/O кристал, да може да се клоква оперативната памет, без да се натоварват IF2 шината и контролера на паметта. Но на практика, дори и най-лошият екземпляр може да работи с UCLK честота 1800 MHz, като режимът 2:1 остава ексклузивен за ентусиастите и овърклокърите.

При Zen 2 синхронизацията на тактовия сигнал е достъпна във вид на вариантите 1:1 и 2:1. При поколенията Zen 1 и Zen+ се предлага само 1:1.

В Reddit има твърде много въпроси свързани с FCLK, което не е за учудване, понеже това е нова опция в UEFI. Потребителите живо се интересуват какво значение да има FCLK, за да се постигне максимална производителност. Идеалният вариант за Zen 2 е режимът, при който FCLK = UCLK = MEMCLK, понеже в този режим няма „времеви глоби“ за точната синхронизация на тези три домейна.

Препоръките на AMD по този въпрос са съвсем лесни. Ако не ви се занимава с тунинг на таймингите, по-добре е да се избере режима 1:1, още повече, че той е включен по подразбиране. По-принцип така бе и с предишните версии на архитектурата Zen, но ако сте ентусиаст и сте прочели повечето материали по овърклока и RAM тунинга, нищо не ви пречи да изстискате всичко от вашия хардуер.

Кешът

Системата на кеш паметта има много сериозни промени. Най-съществената е в кеша на процесорните команди L1, размерът на който е намален от 64 на 32 KB, но асоциативността му е увеличена от 4 на 8.

Тази промяна е дала възможност на AMD да увеличи кеша на микрокомандите от 2 на 4 KB и по този начин да получи по-доброто използване на L1-I кеша. Според AMD, по този начин се постига по-добър баланс между енергийната ефективност и производителността в повечето съвременни приложения, които обикновено не са оптимизирани за ефективна работа.

Кеш паметта L1-D както преди си е 32 KB с 8-канална асоциативност, като 512-те KB кеш памет от второ ниво също са с 8-канална асоциативност. Размерът на L3 кеша сега е удвоен, считано на CCX комплекта ядра до цели 16 MB. Това означава, че един чиплет (CCD) разполага с цели 32 MB L3 кеш. Латентността на кеша от първите две нива не е променена и е останала 4 такта за L1 и 12 такта за L2. Но при L3 латентността е увеличена от 35 на 40 такта, което е характерно за големите кешове и не е нещо особено.

AMD уточнява, че са увеличени и размерите на опашките при обработването на L1 и L2, но не съобщи с колко.

Но има друг важен момент. Сега кеш паметта може да обслужва по две 256-битови операции за четене и по една 256-битова операция на запис за един такт на ниво L1 кеш. Както и по една 256-битова операция на четене и запис на ниво L2 кеш, което дава огромно ускоряване при изпълнението на AVX командите.

Изчисленията с двойна точност

Основното подобрение на производителността при изчисленията с плаваща запетая е пълноценната поддръжка на разширените векторни AVX2 команди. AMD е увеличила ширината на изпълнителния блок от 128 на 256 бита, което дава възможност за изпълнението на една AVX2 инструкция за един такт и по по този начин съответното векторно изчисление не се разделя на две инструкции и два цикъла. Тоест, при Zen 2 можем да очакваме двукратно увеличение скоростта на работа с AVX2 кода.

Изпълнителните елементи във FPU са останали същите. Освен това, в Zen 2 компанията AMD е успяла да постигне обработката на поредица AVX2 инструкции да става без понижаване на тактовата честота, като е при процесорите на Intel. Да вмъкнем тук, че честота на процесора автоматично се променя в зависимост от температурата и напрежението, но това става независимо от изпълняваните процесорни инструкции. Интересно е, че при новите процесори на AMD потребителят може да промени или напълно да изключи тази промяна на честотата, като по този начин поема цялата отговорност за охлаждането на процесора.

В модула за изчисленията с плаваща запетая опашките се образуват от максимум четири микроинструкции на един такт, които се записват във вид на файл в 160 физически регистри.

Има и други корекции в FMA модула, освен удвоения размер ширината на изчислителния блок. AMD показва в своите документации, че нейните специалисти са увеличили суровата производителност при разпределението на паметта, при физическите изчисления и при някои методи за обработка на звука.

Друга ключова промяна в тази област е ускоряването на умножението на числа с плаваща запетая от 4 на 3 цикъла. Това е наистина значително подобрение. Повече детайли на тази тема AMD обеща да разкрие по време на събитието Hot Chips. което ще се състои през месец август тази година.

Fetch/Prefetch

Основното подобрение в Zen 2 е използването на TAGE, въпреки че той се използва извън L1 кеша. AMD заяви, че чрез различни подобрения в работата на L1 и L2 кешовете с 30% се намалява вероятността за грешно прогнозиране на условен преход, с което допълнително се икономисва електрическа енергия.

 


Това бе първата част от ревюто на архитектурата на Zen 2. Следва продължението на разглеждане работата на Zen 2 процесорите Ryzen 3000 (QoS, безопасността, енергийната ефективност), овърклока на чиповете и какво влияние оказва клокването на оперативната памет.

15
ДОБАВИ КОМЕНТАР

avatar
4 Коментари
11 Отговори на коментарите
0 Последователи
 
Коментарът с най-много реакции
Най-горещият коментар
  Абонирай се  
нови стари оценка
Извести ме за
Антипростак и убиец на тролове (a.k.a SOROS)
Антипростак и убиец на тролове (a.k.a SOROS)

TL;DR

Кольо
Кольо

„удвоеният кеш на микроинструкциите“
Това е едната половина на L1 кеша и какво точно му е удвоено? Я пак отново се консултирайте с автора какво точно е писал и с какво сравнява, за да е вярно написаното, ако въобще е възможно да вярно.

Антипростак и убиец на тролове (a.k.a SOROS)
Антипростак и убиец на тролове (a.k.a SOROS)

Кольо, не разбираш от микропроцесори и щуротии, не си натоварвай мозъка!

Арнолд Шварц е негър
Арнолд Шварц е негър

По добра е архитектурата на Zen, щото за разлика от на интелските имбецили, дето умишлено са спестили защитата в процесорите, за да може да са по бързи, тези са едм в пъти по защитени, ем са и по бързи вече с по голямо IPC… Intel е за кофата…

Антипростак и убиец на тролове (a.k.a SOROS)
Антипростак и убиец на тролове (a.k.a SOROS)

Е как може? Как може да си толкова неграмотен? – не си никакво IT.

Аз-Съм
Аз-Съм

@Арнолд Шварц е негър
Приятел ако не ти плащат да пишеш всеки ден и по цял ден толкова много глупости значи по-добре потърси психиатрична помощ.

Антипростак и убиец на тролове (a.k.a SOROS)
Антипростак и убиец на тролове (a.k.a SOROS)

Той е платен тоя. Преди се подвизаваше под прякора @Мангалата, ама го разбраха, че е технически недорасъл и промени идентичността си.

Мангалата
Мангалата

Ооо анус, ти още ли си жив бе? Пак мен търсиш да правим наденица. От тебе червото, от мен месото! И нямам нищо общо с бат арни, освен че се кефя на АМД.

Антипростак и убиец на тролове (a.k.a SOROS)
Антипростак и убиец на тролове (a.k.a SOROS)

Аааа, как бързо си смени псевдонима – как така веднага разбра, че си призован в коментарите!? Пенетрейшвам си та и си чета статийки в сайта, кеф!

Арнолд Шварц е негър
Арнолд Шварц е негър

Не позна цъpвyл, мангалата е друг очевадно умен човек, не е пpocт кат вас двамата с оня другия бyнaк.. И то се познава кой кой е, както виждаш аз псувам, щото сте пpocти на гaлoши, а той се въздържа… Ама то от интел/ нвидиа сектата не очаквам читави коментари освен селяния и бай ганьовщина…

Антипростак и убиец на тролове (a.k.a SOROS)
Антипростак и убиец на тролове (a.k.a SOROS)

Ти ако беше умен, щеше и да си образован, щеше и да пишеш грамотно. Да, ама уви! Поредния напушен гамен, който псува хегемона, само защото е хегемон. (Провери думата в интернет, понеже, убеден съм, не я знаеш).

Арнолд Шварц е негър
Арнолд Шварц е негър

Боли ма фара, и от къде реши, че си по умен и начетен бе мазно кафяво лeкe, пълен бaлък си… И псувам, щото с такива ПОДчовеци, като твоя милост, не си заслужава да се хабя в обяснение..

Антипростак и убиец на тролове (a.k.a SOROS)
Антипростак и убиец на тролове (a.k.a SOROS)

„…от къде реши, че си по умен и начетен бе“ – Ами съдя по неграмотното ти писане на коментари.

*Правя ти пенетрейшън отзад*

Бесен язовец на оня с коня
Бесен язовец на оня с коня

Съдиш на мaйкa ти дупката от, която те е изcpaлa, то ти си супер НЕграмотна твар, и ПОДчовек..
И такава дума пенетрейшън в българския речник, НЕ съществува тaпaк….

mikgigs
mikgigs

AVX2 няма как да са по-бързи два пъти. Ако са два пъти по-бързи, това значи процесорът да е два пъти по-бърз при използването им, което очевидно не е. Може би зареждането на данни за инструкцията в регистрите да е два пъти по-бързо – от слайда пише load/store bandwidth? Нали авторът разбира, че vmovapd… се използва обикновено в началото на кода, а самите данни се обработват с много аритметични операции – което е тежкото действие..Второ, това важи явно за pd (double – или както авторът им казва „двойна точност“), което е изключително рядко и се използва рядко на практика (аз лично… Виж още »