Keresés

Új hozzászólás Aktív témák

  • Abu85

    HÁZIGAZDA

    válasz paprobert #47757 üzenetére

    Nem hiszem, hogy így lesz. A dizájnoknál nagyon számít, hogy miképpen tervezed meg a multiprocesszort. Az AMD esetében az RDNA-val a nagyon magas utilizációra ment, tehát mindegy, hogy milyen kódot adsz neki, mindig magas hatékonysággal fog futni a multiprocesszoron. Ezt teljesen értelmetlen lenne trükközésbe elvinni, mert kódfuttatás hatékonysága eleve kiemelkedően magas.

    A Turing például eléggé olyan dizájn volt, ahol nem volt mindegy, hogy milyen kódot adsz a multiprocesszornak. Ha csak FP32 operációt tartalmazott, akkor csak a feldolgozók egy kisebb részé működött, csak Int32-vel egy másik kis része, csak Tensorral egy harmadik kis része. Tehát ahhoz, hogy elérj egy nagy hatékonyságot, rendkívül specifikus kódokat kellett neki adni. Arról nem is beszélve, hogy a Turing közel sem kezeli annyira jól a késleltetésre optimalizált kódokat, mint az RDNA.
    Az Ampere ezen a dizájnon nem igazán változtat, de hoz be némi trükközést. Az R600 az egyik legjobb példa erre még ma is az 1+1+1+1+1 co-issue móddal. Ezzel öt teljesítményszint volt megkülönböztetve papíron, és a kódok tipikusan 40-80% közötti utilizációval mentek. Tehát bizony volt olyan kód, ami a rendelkezésre álló 320 FP32-ből 80-at használt csak, és volt olyan is, ami mindent bevetett. És a nagy átlagban köptek egy 2/3-os kihasználást, némelyik program ez alattit, némelyik fölöttit. A trükközésnél tehát nem is az a lényeg, hogy jó legyen az utilizáció, mert azt már feladtad magával a dizájnnal. Az a fontos, hogy minél több olyan kódot találj, ahol a dizájn hátrányos részein elvesztett teljesítményt visszahozod.

    A fentiek miatt az RDNA nem igazán tud elmenni ilyen irányba, mert nincs mit visszahozni. Arra épül fel az egész architektúra, hogy még a számára legrosszabb kódokat is gyorsan feldolgozza.
    Ezek akkor eredményeznek egyébként nagy különbségeket, ha csak valami szintetikus mérést nézel, de egy gyakorlati programban azért van nagyon-nagyon sok shader, vagyis a kódok jellege is rendkívül eltérő, tehát a kódok egy része ugyan lassan fog futni az Ampere-en, de egy másik részük meg nagyon gyorsan, és hasonlóan, ahogy az R600 vs. G80 esetében a különbségek kiegyenlítik egymást. Mert ugye a G80 ott volt az R600-on közel harmadannyi feldolgozóval is.

    (#47758) Petykemano: A GCN-nek nem volt semmi ilyen probléma. Ott a konkurens wavefrontokkal kellett sokat játszani. Az RDNA erre vezetett be kétféle módot.

    Hát nagyon sokban, de ezt pont ebben a hsz-ben leírtam. Az RDNA tipikusan egy olyan dizájn, ami arra készült, hogy bármilyen kóddal magas legyen az utilizáció, míg az Ampere pont az ellentétes irányba mozdul, de cserébe sok az ALU, illetve hát ebből következnek az utilizációs limitek is.

    Az egy csomagolási technika. Nincs igazán köze az FP32-es trükkökhöz.

    A CDNA az compute dizájn.

    [ Szerkesztve ]

    Senki sem dől be a hivatalos szóvivőnek, de mindenki hisz egy meg nem nevezett forrásnak.

Új hozzászólás Aktív témák