Keresés

Új hozzászólás Aktív témák

  • Abu85

    HÁZIGAZDA

    válasz frescho #39 üzenetére

    Minden duplikálva volt. Még az FP is. [link]

    A front-end azért volt közös, mert így erősebb volt az egész. Megoldható lett volna külön is, csak gyengébb lett volna a teljesítmény.
    A Bulldozer front-endje nem volt alulméretezve. Konkrétan ezt kapta meg a Zen is. Még amikor az AMD a Zen briefingeket tartotta, akkor elmondták, hogy alig módosítottak rajta, mert ez volt a legjobb eleme a Bulldozernek, ami messze túl volt méretezve, így megfelelt a Zen magnak is.

    A modul lényege az egyszálú teljesítmény maximalizálása volt, mert ha egy szálon futott a számítás, akkor lényegében az a szál egymaga megkapta a túlméretezett, két szálra tervezett részeket. A koncepció az volt benne, hogy ilyen formában sokkal kisebb mértékben kell növelni a lapkaterületet, a nagyobb százalékos előrelépéshez. A CMT +60-80%-ot jelenthetett, miközben lapkaterületben nagyjából +40-50%-ot fizettek. Plusz 100%-ért plusz 100%-ot kellett volna fizetni a lapkaterület szintjén.

    [ Szerkesztve ]

    Senki sem dől be a hivatalos szóvivőnek, de mindenki hisz egy meg nem nevezett forrásnak.

  • Abu85

    HÁZIGAZDA

    válasz Bici #18 üzenetére

    A processzorgyártók definiálhatják azt, hogy mit értenek mag alatt. Az AMD-nek van is egy compute core whitepaperje. Abban ezt értik mag alatt: egy mag olyan HSA-t támogató, tetszőlegesen programozható hardveres blokk, amely képes legalább egy folyamatot futtatni saját kontextusán, illetve virtuális memóriaterületén belül, függetlenül a többi magtól.

    Senki sem dől be a hivatalos szóvivőnek, de mindenki hisz egy meg nem nevezett forrásnak.

  • Abu85

    HÁZIGAZDA

    válasz NightGT #46 üzenetére

    [link] - ami a Pentium 4-nél volt a baj, az sem volt a maga koncepciójában rossz, csak pár dolog hiányzott a sikerhez.

    [ Szerkesztve ]

    Senki sem dől be a hivatalos szóvivőnek, de mindenki hisz egy meg nem nevezett forrásnak.

  • Abu85

    HÁZIGAZDA

    válasz Z10N #50 üzenetére

    Nincs precedens ítélet nélkül. A közös megegyezés sosem tekinthető precedensnek, noha elképzelhető, hogy más államban is ki lehetne harcolni egy hasonló megállapodást, de egyrészt 5-6 év mire el lehet jutni eddig, másrészt ilyen kis költség mellett nem éri meg ezen dolgozni. Önmagában a több évre vonatkozó költségek is többe kerülhetnek a személyeknek, mint amennyit vissza tudnak kapni. Ez azoknak éri meg igazán, akik nem vesznek ebben részt, csak a kiharcolt megegyezésről értesülve felkarolják azt a pár dollárt.

    Senki sem dől be a hivatalos szóvivőnek, de mindenki hisz egy meg nem nevezett forrásnak.

  • Abu85

    HÁZIGAZDA

    válasz Z10N #55 üzenetére

    Mert Kaliforniára szól az egyezmény.

    (#58) Raymond: Pedig a működés szintjén az két külön egység. A marketingben ez nagyon le volt egyszerűsítve, de ahogy a hardver működött ott valójában nem volt megosztott FP. Az rendben van, hogy 256 bites utasításokkal dolgozó AVX-es kód futtatása esetén az AMD úgy magyarázta el a működést, hogy a FlexFP modul teljesen hozzákapcsolódik egy maghoz, ugyanakkor a hardverben nem ez történik, hanem az, hogy a VEX prefix kódolási sémára építve nem 256 bites, hanem 128 bites vektoroperációk jönnek létre, amelyet maga az AVX teljesen támogat, és az egyik szálon az egyik 128 bites, míg a másik szálon a másik 128 bites operáció lesz elvégezve. Az eredmény igazából ugyanaz, mint a leegyszerűsített magyarázatnál, de a valóságban látható, hogy a modulon belüli két mag ilyen formában is független. Nem mellesleg a FlexFP célja pont az, hogy ha az egyik mag amúgy az erőforrást nem használná, akkor a másik mag azt átvegye, ami fizikailag sosem történik meg a túlegyszerűsített leírásokkal ellentétben, de végeredményben az AMD gyakorlatilag azt érte el, hogy az egyes utasításcsoportok végrehajtása a kétszeresére gyorsuljon a Bulldozer dizájnjával.

    (#62) frescho: Ez nagyon leegyszerűsített magyarázata annak, hogy a hardverben mi történik. Ahogy fentebb írtam egy kicsit leegyszerűsítette ezt az AMD. De hardveres szinten az FP közel sem annyira megosztott, mint amennyire hiszik az emberek.

    Abszolút túl volt méretezve a front-end. De nehéz volt áttervezni, így megmaradt a teljes generációra. Az AMD sem tudja, hogy miért terjedt el az a legenda, hogy a front-end kevés volt, de nem volt az, a sokkal erősebb Zen magba is át tudták menteni, és semmi gondja nincs a kiszolgálásával.

    Pedig az egyszálú teljesítmény maximalizálása volt a cél, hiszen a modul egy erősebb összeállítás volt, és a részben osztozkodó erőforrásokat teljesen megkapta az egy szál, ha mellette nem futott semmi.

    Mivel eszközszinten ezek nem igazán megosztott egységek, így ki tudod venni, csak akkor jelentősen lassult volna a Bulldozer egyszálú teljesítménye.

    Az USA-ban más a jogrendszer. A csoportos kereseteknél mindenki maga állja a költségeit. Az esélyük még ha nagy is volt a nyerésre, akkor is többet költöttek volna el az ügyvédekre, mint amennyit most fizettek.

    [ Szerkesztve ]

    Senki sem dől be a hivatalos szóvivőnek, de mindenki hisz egy meg nem nevezett forrásnak.

  • Abu85

    HÁZIGAZDA

    válasz frescho #83 üzenetére

    A Zen bemutatóján volt két mérnök. Az egyik mondta, hogy a Bulldozert anno úgy tervezték, hogy egy modulon belül maximalizálják az egyszálú teljesítményt. Ezért gyorsult a második száltól csak 60-80%-ot a rendszer két magra vetítve, mert az első szál már eleve megnövelt erőforrásokat kapott, így gyorsabban tudott dolgozni, mintha két kisebb magot alakítottak volna ki. Két kisebb maggal ugyanott lettek volna két szállal, de egy szállal lassabb lett volna a rendszer.

    A Zennél nem egzotikus kialakítást használtak, mert a Pentium 4-nél és a Bulldozernél is látszott, hogy a fejlesztők nem nagyon akarnak az új ötletekre optimalizálni, így ezek ritkán tudták a valós teljesítményüket leadni, így a Zent már a régi koncepció szerint építették, ami nagyon pazarló ugyan, de a programok optimálisan futnak rajta.

    Fentebb leírtam, hogy miért nem duplázódott a teljesítmény. A dizájn lényege az volt, hogy ha csak egy szál fut, akkor az gyorsabban fusson, mint elméletben lehetne, így viszont a második szál hozta előny csupán 60-80% volt, alkalmazástól függően.

    A limit a szoftver. Ugyanaz volt a baj, ami a Pentium 4 esetében. A szoftverfejlesztők nagyon a P6-szerű dizájnokra tervezik a szoftvereket. Így hiába hozol Pentium 4-et és Bulldozert, a szoftver nem követi le. Szűk keresztmetszetek egyik dizájnban sem voltak, egyszerűen nem ezekre voltak írva a szoftverek. Az Intel és az AMD nyilván érti, hogy a P6-szerű dizájnoknak megvannak a saját korlátjai, amelyek erősen látszanak már az ARM-hoz viszonyítva, hiszen a Cortex-A76 tud innoválni, és nem kell alkalmazkodni a szoftveres háttérhez, de egyelőre a szoftveres háttér teszi az X86/AMD64-et erőssé, tehát kalandozott a két cég más iránnyal, de visszatértek a P6-szerű dizájnokhoz, mert ebből jön a legtöbb előnyük.

    [ Szerkesztve ]

    Senki sem dől be a hivatalos szóvivőnek, de mindenki hisz egy meg nem nevezett forrásnak.

  • Abu85

    HÁZIGAZDA

    válasz Dr. Romano #90 üzenetére

    Az Atom sem. Itt nem egy egzakt értéket céloznak, hanem tranzisztorbüdzséhez mért értékeket. Mindig ez a kulcskérdés. Tudnának olyan procit csinálni, amely a mostaniak kétszeresét is leadja egyszálú teljesítményben, csak figyelembe kell venni a Pollack szabályt.

    [ Szerkesztve ]

    Senki sem dől be a hivatalos szóvivőnek, de mindenki hisz egy meg nem nevezett forrásnak.

  • Abu85

    HÁZIGAZDA

    válasz Dr. Romano #92 üzenetére

    A felhasználók tudása rendkívül korlátozott a mérnökökéhez képest. Nem értik, hogy mit miért csinálnak, rosszabb esetben félreértik. Lásd a Bulldozer esetében. Az volt a hit, hogy a modulos felépítés miatt volt lassú az egyszálú teljesítmény. Pont emiatt volt nagyobb, mint amilyen lett volna a modulos felépítés nélkül. Csak ugye nem tudod megmagyarázni nekik, mert nincsenek meg az ismereteik hozzá, hogy megértsék.

    [ Szerkesztve ]

    Senki sem dől be a hivatalos szóvivőnek, de mindenki hisz egy meg nem nevezett forrásnak.

  • Abu85

    HÁZIGAZDA

    válasz Kansas #96 üzenetére

    A Pollack-szabály az.

    Senki sem dől be a hivatalos szóvivőnek, de mindenki hisz egy meg nem nevezett forrásnak.

  • Abu85

    HÁZIGAZDA

    válasz Dr. Romano #98 üzenetére

    A célcsoportot nem választják. Viszi, akinek kell.

    Senki sem dől be a hivatalos szóvivőnek, de mindenki hisz egy meg nem nevezett forrásnak.

  • Abu85

    HÁZIGAZDA

    válasz Kansas #100 üzenetére

    Definiálják is a magot. Tehát meg lehet nézni, hogy mit értenek rajta. Ilyen formában nyolc mag van benne.

    Az Atomban is 4 mag van, még sem ér fel egy kétmagos Core vagy Ryzenhez. Nem ez határozza meg a teljesítményt.

    Az alku azért volt, mert így olcsóbb. Bele lehet állni, és akkor megnyerik, de mennyibe fog kerülni 20-30 millió dollár?

    (#104) Kansas: Az IT-szabályok 99%-a megfigyelésre alapoz, viszont valós fizikai ok is van a többségük mögött.

    (#107) Frawly: Nem azért mennek zsákutcába, hogy aztán jól kijöjjenek belőle, hanem azért, mert a P6-nak a korlátjain nem tudnak majd túllépni. Most még náluk van az x86/AMD64 előnye, de az ARM a Cortex-A76-tel már jobb a hardver tekintetében. És ez alapvetően abból ered, hogy hiába próbált az Intel és az AMD új irányt kezdeni, egyszerűen a piac visszakényszerítette őket a P6-szerű dizájnra.

    [ Szerkesztve ]

    Senki sem dől be a hivatalos szóvivőnek, de mindenki hisz egy meg nem nevezett forrásnak.

  • Abu85

    HÁZIGAZDA

    válasz frescho #123 üzenetére

    Alapvetően igaz lett, mert a második szál csak 60-80%-ot gyorsított az első szálhoz képest, vagyis egy szál egy modulon nagyobb teljesítményre volt képes, mint amennyi amúgy lett volna benne, ha nincsenek összevonva az egyes erőforrások.

    Úgy magyarázták, hogy hardveres szinten alig volt közös rész. Annyi történt igazából, hogy az egyes kritikus részegységeket tervezték túl, hogy ki tudjanak szolgálni két szálat is.

    A Pentium 4 ugyanott csúszott el, ahol a Bulldozer. Az nem véletlen, hogy az Intel és az AMD is letér a P6-szerű dizájnok irányáról, és együtt elcsúsznak. Én az ötlet szintjén mindkettőt megértem, hogy miért csinálták, hovatovább még egyet is értek vele, hogy erre kellene menni, viszont a piac nem kész arra, hogy ilyen éles váltást akár az AMD, akár az Intel megcsináljon, függetlenül attól, hogy mennyire jó ötletek voltak a Pentium 4-ben és a Bulldozerben.

    [ Szerkesztve ]

    Senki sem dől be a hivatalos szóvivőnek, de mindenki hisz egy meg nem nevezett forrásnak.

  • Abu85

    HÁZIGAZDA

    válasz attila9988 #130 üzenetére

    Az AMD az Athlon 64 idején definiálta a magot. A definíciót a HSA specifikációjának elkészülésével módosították csak. Ez lényegében annyit tesz, hogy a magnak HSA-val kompatibilisnek kell lennie, de semmi többet. Az alapvető definíció maradt ugyanaz: egy mag olyan tetszőlegesen programozható hardveres blokk, amely képes legalább egy folyamatot futtatni saját kontextusán, illetve virtuális memóriaterületén belül, függetlenül a többi magtól.

    A konzolokban nem Bulldozer van.

    [ Szerkesztve ]

    Senki sem dől be a hivatalos szóvivőnek, de mindenki hisz egy meg nem nevezett forrásnak.

  • Abu85

    HÁZIGAZDA

    válasz Bici #141 üzenetére

    Senki sem dől be a hivatalos szóvivőnek, de mindenki hisz egy meg nem nevezett forrásnak.

  • Abu85

    HÁZIGAZDA

    válasz paprobert #149 üzenetére

    Kisebb magokkal, több építhető a lapkába, és ezzel a throughput teljesítmény növekszik. A modul pedig arra van, hogy egy szál teljesítménye legyen maximalizálva, mivel a második szál már csak 60-80% pluszt hoz.

    Senki sem dől be a hivatalos szóvivőnek, de mindenki hisz egy meg nem nevezett forrásnak.

  • Abu85

    HÁZIGAZDA

    válasz paprobert #151 üzenetére

    A szoftver. A Pentium 4 és a Bulldozer ugyanott bukott el. Nem hasonlítottak a P6-dizájnhoz, és így nem voltak jók hozzá a tipikus szoftveroptimalizálások. Ennyi. A Zen egy P6-hoz hasonló dizájn, és rögtön működik.

    Viszont a P6-szerű dizájnoknál sok a korlát, vagyis lehet, hogy a gyakorlatban jól működik, de az ARM már most jobb a Cortex-A76-tel, és akkor még hol vannak az igazán nagy teljesítményre tervezett dizájnjaik...

    Az Intel és az AMD is rajta van már a heterogén dizájnokon. Az AMD a ROCm (HSA), míg az Intel a OneAPI (SYCL) koncepciót üti most, mert tudják ők, hogy ha nem tudnak új dizájnokat behozni a processzoroknál, akkor el kell kezdeni átalakítani az egész rendszert.

    [ Szerkesztve ]

    Senki sem dől be a hivatalos szóvivőnek, de mindenki hisz egy meg nem nevezett forrásnak.

  • Abu85

    HÁZIGAZDA

    válasz apatyas #156 üzenetére

    Amit ugye azért nyomtak nagyra mindkét esetben, mert a szoftverek miatt nem jött máshogy a teljesítmény. Ok és okozat. :)

    (#157) paprobert: Ennél azért jóval továbbmennek. A mostani tervekben gyakorlatilag olyan dizájnok szerepelnek egy tokozásra, amelyben van CPU, GPU, FPGA, AI részegység, és ezek képeznének gyakorlatilag egy egészet. Például az AMD például az integráció szempontjából CPU-ban és GPU-ban gondolkodik, illetve GPU-n belüli specializált AI részegységen. Tehát közel sem annyira extrém a koncepciójuk, mint az Intelnek. Amikor itt voltak Budapesten, akkor lehetőségem volt beszélni velük, és kérdeztem, hogy miért nem mennek FPGA-ra és más specifikus rendszerre. Ugyan elméleti teljesítményben valóban a CPU-GPU-FPGA-AI jön ki a legjobbra, de a gyakorlatban "programing hell" az egész. Gyakorlatilag tíz évnyi munka volt az, hogy a Linux kernelben lehetőség legyen a GPU-t a CPU-val egy szinten kezelni, de Windowson még mindig nem érték ezt el, noha a Microsoft már erősen dolgozik rajta. Most az FPGA-nál ezt megint újra kell kezdeni. Az Intel viszont most csőlátásban a teljesítményre megy, és abban reménykednek, hogy majd a SYCL segít a programozásban. Igazából a SYCL tud segíteni, tehát nem lehetetlen ez az irány sem.

    (#158) frescho: Mindenféle puffer. Ezeket dagasztották meg, hogy két szálra jók legyenek, de ha csak az egyik szál kapta meg őket, akkor sokkal több puffert használt, mint használhatott volna a modulos felépítés nélkül. A feldolgozók valójában nem voltak közösek, annak ellenére, hogy a marketingben ez volt az üzenet.

    Annyira eltért a P6 dizájntól, hogy az erre kialakított optimalizálások nem működtek rajta. Ez volt a P4 és a Bulldozer baja is. És, hogy ezt kompenzálják, elkezdték növelni az órajelet, amivel nőtt a fogyasztásuk is. Nem koncepcióból tervezték ezeket zabagépnek, meg futottak bele az órajellimitbe, hanem a körülmények hozták így mindkét esetben. Azért eléggé beszédes, hogy két gyártó úgy dönt, hogy eltávolodik az Intel P6 architektúrájának alapvető koncepciójától, és gyakorlatilag ugyanúgy elhasalnak, lényegében ugyanott (fogyasztásba és órajelfalban). Viszont mindkét gyártó visszatér a P6-szerű dizájnnal és helyből működik. Ennyit számít a szoftverben az optimalizálás. Ezzel persze magukat is szívatják, mert így bizonyos döntésekre vannak kényszerítve. Legalábbis nem hiszem, hogy még egyszer mellékutazik valamelyik cég. :)

    [ Szerkesztve ]

    Senki sem dől be a hivatalos szóvivőnek, de mindenki hisz egy meg nem nevezett forrásnak.

Új hozzászólás Aktív témák