fbpx
0.8 C
София

Nvidia разкри архитектурните особености на 8 nm графични ядра Ampere

Най-четени

Даниел Десподов
Даниел Десподовhttps://www.kaldata.com/
Новинар. Увличам се от съвременни технологии, информационна безопасност, спорт, наука и изкуствен интелект.

Въпреки многобройните изтичания на информация, подготовката на анонса на видеокартите GeForce RTX 3000 премина тайно. Nvidia не бързаше да съобщава информация за за графичните ядра с архитектура Ampere и по време на голямата презентация на новите графични карти всички се чудеха каква е вътрешната структура на новите 8 nm GPU. Но сега Тони Тамаси (Tony Tamasi), старши вицепрезидент на Nvidia запълни тази празнина.

Топ мениджърът публикува в Reddit блок схемите на поточния мултипроцесор (Streaming Multiprocessor, SM), който се използва в геймърските графични процесори с архитектура Ampere. Ако сравним SM, който се използва в GA100 на ускорителя на изчисления Nvidia A100, с графичните ядра на видеокартите GeForce RTX 3000, ще видим, че липсват FP64 блоковете. Тяхното място е заето от допълнителни FP32 блокове.

Както преди, един SM блок е разделен на четири масива за обработка на данните. В графичните чипове Nvidia Turing всеки мултипроцесорен блок включва 64 поточни процесора или CUDA ядра, които могат едновременно да извършват целочислени операции (INT32) и операции с плаваща запетая (FP32).

Този път Nvidia използва във всеки един от тези масиви по два блока за данните. Първият се състои от 16 ядра FP32, а вторият – от 16 ядра FP32 плюс 16 ядра INT32. В резултат от това целият масив  може да обработва или 32 операции FP32, или едновременно 16 операции FP32 и 16 – INT32. Това означава, че един SM модул може да изпълни 128 операции FP32 за един такт, което е двойно повече от Turing, или 64 FP32 и 64 операции INT32 за един такт.

Удвояването скоростта на обработка на FP32 операциите повишава бързодействието на всички по-разпространени графични и изчислителни алгоритми. Съвременните шейдърни натоварвания обикновено съдържат смесица от аритметични инструкции, като например FFMA, събиране на числа с плаваща запетая (FADD) или умножение на числа с плаваща запетая (FMUL). Тези изчисления са съчетани с по-опростени инструкции, като например, добавяне на цели числа при някои видове адресиране, сравнения на числа с плаваща запетая, получаването на минималното и/или максималното значение при обработката на данни и т.н. Ръстът на бързодействието варира на ниво шейдър и на ниво приложение в зависимост от използваните инструкции. Шейдърите с погасяването на цветния шум от трасирането на лъчите са много добър пример за значителна печалба на бързодействие от удвоената пропускателна способност на FP32 изчисленията.

Двукратният ръст на скоростта на тези математически изчисления е изисквало удвояване на количеството необходими данни. Ето защо, в Ampere SM са удвоени както общата кеш памет, така и нейната производителност: при Ampere архитектурата, L1 кешът на SM работи със 128 байта на такт, докато при Turing имаме 64 байта на такт. Общата пропускателна способност на L1 кеша на GeForce RTX 3080 е 219 GB/s, докато при GeForce RTX 2080 Super имаме 116 GB/s.

През следващите дни се очаква по-подробна информация за графичните процесори Nvidia Ampere.


Коментирайте статията в нашите Форуми. За да научите първи най-важното, харесайте страницата ни във Facebook, и ни последвайте в Telegram и Viber или изтеглете приложението на Kaldata.com за Android, iOS и Huawei!

Абонирай се
Извести ме за
guest

0 Коментара
Отзиви
Всички коментари

Нови ревюта

Подобни новини