Új hozzászólás Aktív témák

  • paprobert

    senior tag

    válasz Abu85 #150 üzenetére

    De akkor mégis hova a csudába bújt el a jó egyszálas teljesítmény? Toporgás, IPC-visszalépés történt.

    Ha technikailag helytálló lenne az, amit írtál, akkor erre az egyetlen logikus magyarázat az lenne, hogy kisebbek lettek a magok, mint aminek kellett volna lenniük. Gyakorlatilag túltolták a throughput-optimalizáltságot, és ennek az egyszálas teljesítmény látta kárát.

    De ha megnézzük az elköltött tranzisztormennyiséget és a méretet az adott gyártástechnológián, akkor a Zambezi pazarlóbb mint a Thuban, nyoma sincs annak, hogy akár tranisztorszámban, akár méretben visszavágták volna az FX magokat.

    [ Szerkesztve ]

    640 KB mindenre elég. - Steve Jobs

  • Yutani

    nagyúr

    válasz paprobert #151 üzenetére

    Elég hosszú lett a Bulldozer pipeline-ja, ott vesztett sokat az IPC-ből.

    #tarcsad

  • apatyas

    Korrektor

    válasz paprobert #151 üzenetére

    A Phenom II -nek 3* alu+agu volt az integer blokkjában, a bulldozernek (legalább is az elején, ahogy emlékszem változtattak még rajta) meg csak 2* . Az előző hsz-beli dolgokkal együtt, arra tervezték hogy magas órajelen tudjon futni. De a szilícium nem így akarta. (ez a P4-el a hasonlóság)

    pezo77 #5 2017.12.14. 13:29 Hmm. És ez az e-hajó akkor hol is tud kikötni? Az e-bay -ben? ;)

  • paprobert

    senior tag

    válasz Yutani #152 üzenetére

    Tudod, egyre nehezebben vagyok hajlandó tolerálni bármelyik ilyen "ez a hibás" elméletet.

    Hallottunk már annyi mindent az elmúlt években, bűnbaknak lett kikiáltva:
    -a gyenge frontend,
    -az osztott FPU,
    -a túlbonyolított cache alrendszer
    -a túl hosszú pipeline
    -a nem 6-8 GHz-en futó példányok
    -a szoftvervilág igényei

    A felsoroltak bármelyike gondot okoz, de 1-1 sor önmagában nézve nem válaszolná meg a teljes kudarcot.

    A valóság az, hogy

    1. egy szálon gyenge lett a fejlesztés. Ez a kiindulópont.
    2. a modult teljesen leterhelve az INT : FPU arány eltolódik az optimálisból INT túlsúlyba, amivel az FPU részleg INT üresjáratot okoz, és gyakorlatilag FPU hiány áll be. Nesze neked magduplázás.
    3. High performance library-vel is órajel és fogyasztás plafonba fejelt az AMD.

    Teljesen másról szólt volna a Bulldozer történet, ha a bázis egyszálas teljesítmény ott lett volna a szeren, mindenki, beleértve engem is állva tapsolt volna.
    Ehelyett jöttek "csak emiatt nem jó, de milyen jövőbemutató, majd a heterogén éra, majd a HSA, majd a Mantle, majd a DX12" urban legendek.

    A Zen tudta kombinálni az elfogadható IPC-t, a versenyképes órajeleket dense library-vel is, a valódi magokat balanszolt erőforrásokkal. Mindez fejlett energiagazdálkodással, egy korrekt node-on.

    A világot sem kellett megváltani, jó is lett.

    [ Szerkesztve ]

    640 KB mindenre elég. - Steve Jobs

  • Abu85

    HÁZIGAZDA

    válasz paprobert #151 üzenetére

    A szoftver. A Pentium 4 és a Bulldozer ugyanott bukott el. Nem hasonlítottak a P6-dizájnhoz, és így nem voltak jók hozzá a tipikus szoftveroptimalizálások. Ennyi. A Zen egy P6-hoz hasonló dizájn, és rögtön működik.

    Viszont a P6-szerű dizájnoknál sok a korlát, vagyis lehet, hogy a gyakorlatban jól működik, de az ARM már most jobb a Cortex-A76-tel, és akkor még hol vannak az igazán nagy teljesítményre tervezett dizájnjaik...

    Az Intel és az AMD is rajta van már a heterogén dizájnokon. Az AMD a ROCm (HSA), míg az Intel a OneAPI (SYCL) koncepciót üti most, mert tudják ők, hogy ha nem tudnak új dizájnokat behozni a processzoroknál, akkor el kell kezdeni átalakítani az egész rendszert.

    [ Szerkesztve ]

    Senki sem dől be a hivatalos szóvivőnek, de mindenki hisz egy meg nem nevezett forrásnak.

  • apatyas

    Korrektor

    válasz Abu85 #155 üzenetére

    És mégse ott murdelt meg mindkettő, hanem az elérhető órajeleken illetve a bezabált fogyasztáson - gyártástechnológiai kérdések. Noha az igaz, hogy a Bull egy szálon kevesebb volt, de órajellel behozta volna. Vulkánnal meg dx12-vel kellett volna kicsit jobban iparkodni, és egyből nincs annyi nyávogás. Aki meg dolgozik rajta, annak jó. Kivéve a szintén őskövület, egyszálas, vagy tényleg nem többszálúsítható folyamatokat. Azokat attól tartok, a heterogén éra se menti meg.
    Szőni tessék vele, az többszálú :D

    [ Szerkesztve ]

    pezo77 #5 2017.12.14. 13:29 Hmm. És ez az e-hajó akkor hol is tud kikötni? Az e-bay -ben? ;)

  • paprobert

    senior tag

    válasz Abu85 #155 üzenetére

    Az Intel által megszellőztetett tervek a CPU fronton valóban a CPU feldolgozókkal való kitömését célozza, illetve megfejelik az egészet a GPU-val a párhuzamosított ökoszisztémával. Teljesen kukába dobják az egyensúlyt? Koránt sem.

    Látni kell, hőgy ők is evolúcióban gondolkodnak, simán a P6 DNS-re építkezve.

    De odaállni a fejlesztők elé, hogy "Szevasztok, holnaptól lesztek szívesek megoldani a feladatot az eddigi 1 helyett 0.5-0.7 teljesítménnyel". Na ez így nem megy. (Bulldozer)

    Egy ma jól működő dizájnt is lehetséges optimalizálni throughputra. A szoftverfejlesztők szeretni is fogják, mert ha ki tudod használni, nyersz, de ha nem tudod sem baj, mert az extra teljesítmény továbbra is ott van a régi jól bevált keretek között.

    Én az AMD-től is ezt várom, a CCX-ek nagyon jó lehetőséget kínálnak egy felpimpelt, throughput-barát működésre, ahogy a belső interconnect tempója növekszik a következő 2-3 generációban.

    [ Szerkesztve ]

    640 KB mindenre elég. - Steve Jobs

  • frescho

    addikt

    válasz Abu85 #124 üzenetére

    "Úgy magyarázták, hogy hardveres szinten alig volt közös rész. Annyi történt igazából, hogy az egyes kritikus részegységeket tervezték túl, hogy ki tudjanak szolgálni két szálat is."

    Nem válaszoltál a kérdésemre, hogy konkrétan mik voltak a közös részek. Az eredeti Bulldozer bemutatódban a chip nagy része közös.

    "A Pentium 4 ugyanott csúszott el, ahol a Bulldozer. Az nem véletlen, hogy az Intel és az AMD is letér a P6-szerű dizájnok irányáról, és együtt elcsúsznak."

    Konkrétan mi volt az amiben a P4 elbukott és megegyezik ugyanez a hiba a Bulldozerben? Könnyű a szoftverre fogni, de semmi konkrétumot nem írtál, hogy mi volt a közös a P4 és a Bulldozer platformban. Konkrétan mit jelent az, hogy "P6-szerű dizájn" és a P4 miért skálázódott elfogadhatóan addig amíg nem futottak bele a maximális frekvencia/fogyasztás falba?

    https://frescho.hu

  • Abu85

    HÁZIGAZDA

    válasz apatyas #156 üzenetére

    Amit ugye azért nyomtak nagyra mindkét esetben, mert a szoftverek miatt nem jött máshogy a teljesítmény. Ok és okozat. :)

    (#157) paprobert: Ennél azért jóval továbbmennek. A mostani tervekben gyakorlatilag olyan dizájnok szerepelnek egy tokozásra, amelyben van CPU, GPU, FPGA, AI részegység, és ezek képeznének gyakorlatilag egy egészet. Például az AMD például az integráció szempontjából CPU-ban és GPU-ban gondolkodik, illetve GPU-n belüli specializált AI részegységen. Tehát közel sem annyira extrém a koncepciójuk, mint az Intelnek. Amikor itt voltak Budapesten, akkor lehetőségem volt beszélni velük, és kérdeztem, hogy miért nem mennek FPGA-ra és más specifikus rendszerre. Ugyan elméleti teljesítményben valóban a CPU-GPU-FPGA-AI jön ki a legjobbra, de a gyakorlatban "programing hell" az egész. Gyakorlatilag tíz évnyi munka volt az, hogy a Linux kernelben lehetőség legyen a GPU-t a CPU-val egy szinten kezelni, de Windowson még mindig nem érték ezt el, noha a Microsoft már erősen dolgozik rajta. Most az FPGA-nál ezt megint újra kell kezdeni. Az Intel viszont most csőlátásban a teljesítményre megy, és abban reménykednek, hogy majd a SYCL segít a programozásban. Igazából a SYCL tud segíteni, tehát nem lehetetlen ez az irány sem.

    (#158) frescho: Mindenféle puffer. Ezeket dagasztották meg, hogy két szálra jók legyenek, de ha csak az egyik szál kapta meg őket, akkor sokkal több puffert használt, mint használhatott volna a modulos felépítés nélkül. A feldolgozók valójában nem voltak közösek, annak ellenére, hogy a marketingben ez volt az üzenet.

    Annyira eltért a P6 dizájntól, hogy az erre kialakított optimalizálások nem működtek rajta. Ez volt a P4 és a Bulldozer baja is. És, hogy ezt kompenzálják, elkezdték növelni az órajelet, amivel nőtt a fogyasztásuk is. Nem koncepcióból tervezték ezeket zabagépnek, meg futottak bele az órajellimitbe, hanem a körülmények hozták így mindkét esetben. Azért eléggé beszédes, hogy két gyártó úgy dönt, hogy eltávolodik az Intel P6 architektúrájának alapvető koncepciójától, és gyakorlatilag ugyanúgy elhasalnak, lényegében ugyanott (fogyasztásba és órajelfalban). Viszont mindkét gyártó visszatér a P6-szerű dizájnnal és helyből működik. Ennyit számít a szoftverben az optimalizálás. Ezzel persze magukat is szívatják, mert így bizonyos döntésekre vannak kényszerítve. Legalábbis nem hiszem, hogy még egyszer mellékutazik valamelyik cég. :)

    [ Szerkesztve ]

    Senki sem dől be a hivatalos szóvivőnek, de mindenki hisz egy meg nem nevezett forrásnak.

Új hozzászólás Aktív témák