Keresés

Új hozzászólás Aktív témák

  • dabadab

    titán

    válasz Abu85 #40 üzenetére

    Attol meg, hogy egy ISA-ban vannak az utasitasok, az nem jelenti azt, hogy ugyanazon a pipeline-on kell futniuk, ahogy gyakorlatilag az FPU utasitasok is egy tok kulon cuccon futottak, a CPU bottal se piszkalta oket, aztan megis reszei voltak az x86 ISA-nak (aztan az mas kerdes, hogy idovel a ket szilikon egybeolvadt, de ez most nem tul erdekes).

    DRM is theft

  • dabadab

    titán

    válasz Abu85 #45 üzenetére

    "Ha ezt az előnyt elveszed a CPU-ba építéssel, akkor a rendszer már nem lesz hatékony."

    Miert vesztened el? Beleirod az ISA-ba, hogy ez igy mukodik, kesz.

    DRM is theft

  • Rive

    veterán

    válasz Abu85 #45 üzenetére

    A hatékonyság itt érdekes kérdés. Egy szál futtatása esetén tényleg nem hatékony adatpárhuzamosra skalár jellegű feladatot nyomoritani.

    Node, hogy hány szál fut?

    /// Nekünk nem Mohács, de Hofi kell! /// Szíriusziak menjetek haza!!!

  • Meteorhead

    aktív tag

    válasz Abu85 #20 üzenetére

    Kíváncsi lennék a véleményedre, hogy szerinted ennek lesz-e látható hatása a PC-s piacra.

    Kicsit azt érzem, hogy hQ és az egész HSA a PC-s piac szemszögéből olyan, mint a Mantle. Egy platformspecifikus cucc, aminek a terjedése eleve halálra van ítélve az által, hogy a konkurensek magasról tojnak rá. Lehet, hogy nyílt, de PC-n ha csak AMD implementálja, akkor platformspecifikus.

    Mégis mi reménye lehet ennek a queue-ing modellnek elterjednie, amikor a packet modell kialakításában részt sem vettek azok, akik még csak most tervezik azt az architektúrát, ami konkurenciát szeretne állítani Kaverinek. A borzasztó borúlátásomat csak az táplálja, hogy a legkisebb jelét sem látom annak, hogy a konkurencia akár csak a legáttételesebb módon is, de az AMD saját játékában (az integrációban) szeretné felvenni a versenyt.

    Intel szerver fronton 15 magos procikat hoz, NV legutóbbi konferenciáján egyetlen szó sem esett Tegra 5-ről, vagy Maxwellről... Egyedül NV-ről van hír, hogy Tegrával hoz közös címteret, ami az egyik alappillére HSA-nak, de nem vagyok benne biztos, hogy a queue-ing modell megvalósításához nincs szükség HW-es drótozásra is, ha másnak nem, a GPU-s szálütemezőnek tudnia kell valamit hozzá.

    Azzal, hogy az Intel azt súlykolja, hogy OpenCL-es játékokat szeretne látni azzal épp azt erősíti, hogy egyelőre nem áll szándékukban OpenCL 2.0-nál mélyebb integrációt megvalósítani. Az már közel van a HSA queue-ing modellhez, de ugyanazon az OS queue-n megy keresztül, mint minden más.

    Mindenesetre ha már csak OpenCL 2.0 conformance lenne minden PC-s piaci szereplő között, már az nagy lépés lenne. Akkor már csak azzal a nyomorult C99 variánssal kéne megküzdeni a kernelnyelvben.

  • dabadab

    titán

    válasz Abu85 #50 üzenetére

    "Mert egy CPU-mag sosem fog 2560 szálat kezelni egyszerre, míg mondjuk a GCN multiprocesszora erre van tervezve"

    Es miert kellene egy CPU magnak 2560 szalat kezelnie? Az ISA-ba siman beleirhatod, hogy a GPU resz ezt csinalja es igy mukdik, a CPU meg ugy, mondom, pont ugy, mint ahogy tortenetileg ez az FPU-nal is tortent, aminek az utasitasai mar reg benne voltak az ISA-ban, amikor meg boven kulon szilikonon voltak es teljesen elteroen mukodtek. A dolog nem szol semmi masrol, mint hogy legyenek fix utasitasok, ne eltero nyelvet beszeljen minden GPU.

    [ Szerkesztve ]

    DRM is theft

  • Rive

    veterán

    válasz Abu85 #50 üzenetére

    Akkor érdemes lenne megforditani Dabadab felvetését, és úgy kérdezni: mi akadálya van annak, hogy a CPU feladatainak egy részét - akár gyalázatos per-thread hatásfokkal, de eszelős 'szélességben' - a GPU-ba rántsuk?

    És akkor most beszélgessünk adatbázis vagy webszerverekről, vagy mittudomén.

    /// Nekünk nem Mohács, de Hofi kell! /// Szíriusziak menjetek haza!!!

  • lenox

    veterán

    válasz Abu85 #56 üzenetére

    Szerintem ezek azert nem pont igy vannak. Egyreszt AVX/AVX2 (meg akar SSEx) peldaja, hogy hogyan lehet mixelni adatparhuzamos es kesleltetesre kihegyezett utasitasokat. Masreszt a szalak nem celok, hanem eszkozok, ezt mondjuk sokadjara mondom el, de mindegy. Harmadreszt azt amit egy gpu multiprocesszor, vagy cu, egyseg tud, nevezetesen, hogy mondjuk 2000 szalad van, es amig ezek nagy resze adatra var a memoriabol addig a tobbi tud szamolni, azt cpu-val is meg tudod csinalni, a prefetch utasitasokkal, illetve azt is eleg jol lehet kontrollalni, hogy mi kerul a cache-be, es mi csak a memoriaba. Az nyilvan igaz, hogy amig pl. opencl-lel egy gpun ez automatikusan megtortenik, addig cpu-n eleg ugyesnek kell lenni, hogy jol mukodjon, vagy olyan libet kell hasznalni, amiben mar meg van irva. Negyedreszt bar egy cpu-ban viszonylag nagy l2 cache van, de egy cu-ban meg van helyette lds meg regiszterek. Persze ettol meg a mostani cpuk nem ugyanarra vannak kihegyezve, mint a gpuk, lejebb kene vinni az orajelet, nagyobb simd unit kellene belejuk, lehetne akar 4 szalat is kezelniuk, a cachet is lehetne ugyesebben szervezni. Es mintha ilyenrol mar hallottam is volna valahol....

  • lenox

    veterán

    válasz Abu85 #80 üzenetére

    De nyilvanvaloan nem ugyanugy vannak benne az eroforrasok balanszolva, es nem is ugyanarra a celra keszult, szoval ez nem annyira mervado, bar elhiszem, hogy az amd marketinganyagban ez van. Vagy valamiert azt gondoltad, hogy avx csak ilyen konfigban lehet? Amugy a top500-ban nem latszanak annyira a hatekonyabb gpu architekturak, amit latok az a K20 vs Xeon Phi, es egalban vannak.

    [ Szerkesztve ]

  • lenox

    veterán

    válasz Abu85 #83 üzenetére

    Meg igazából kellemetlen lenne számukra az AVX-et leégetni, amikor termékeket építenek rá.

    Nehez is lenne, mivel nyilvanvaloan nem az avx miatt esik egy flopra tobb vagy kevesebb fogyasztas.

    Nem is értem miért.

    Talan mert DP-re volt szanva, de amugy ez egy termek, meg lehet venni, hogy lenne mar ilyen, hogy nem engedik, te is irtal az opencl eredmenyekrol, egy teljesen kontrollalatlan program alapjan (nem is ert semmit).

  • Rive

    veterán

    válasz Abu85 #97 üzenetére

    ...nem a hatékony x86 emuláció lesz a fő tervezési szempont.

    Kicsit alaposabban átgondolva van egy olyan érzésem, hogy ez már igazából mindegy. Egy elfogadhatóan működő JIT fordító összeütése (és OS-be integrálása) erről a pontról indulva már nem olyan kaliberű feladat, hogy előbb-utóbb ne csinálná meg valaki 'csak, mert képes rá'.

    Onnantól pedig a piaci nyomás dönt majd.

    /// Nekünk nem Mohács, de Hofi kell! /// Szíriusziak menjetek haza!!!

  • lenox

    veterán

    válasz Abu85 #96 üzenetére

    A legfőbb gond az x86, amit nem készítettek fel arra, hogy a processzormag sokezer szálat kezeljen párhuzamosak.

    Ez meg tovabbra sem igaz.

    Következésképpen egy maghoz nagyon nagy gyorsítótárat kell társítani

    Teljesen mindegy, hogy gyorsitotar kell, vagy lds, vagy regiszterfile. A vegeredmeny ugyanaz, tarolni kell az atmeneti adatokat a lapkan belul. Errol nem erdemes elfeledkezni.

    Öt cég teljes titokban belőtte ugyanazt az irányt

    Te ezt most teljesen komolyan mondod, hogy titokban?

    Valóban ők járnak tévúton?

    En nem mondtam ilyet, kulonbozo gyartoknak kulonbozo celjaik lehetnek. Szerintem pl. az intel nem fog a leggyorsabb gpura torekedni, ellenben fog a legnagyobb szamitasi teljesitmeny fele. A ketto nem ugyanaz.

    #98: Nem, azt jelenti, hogy a mag meretehez kepest, ami magaban foglalja a l1 es l2 cachet is pl., 2%-nal kisebb. ALU lehetne benne tobb, de majd nezd meg a kovetkezo generaciot.

  • Jakuu

    őstag

    válasz Abu85 #96 üzenetére

    "Öt cég teljes titokban belőtte ugyanazt az irányt, egymással nem kommunikálva erről. Valóban ők járnak tévúton?"

    Abu a naivitasod engem mindig megmosolyogtat.
    Szerinted a cegek, nem tudjak, hogy merre tart a masik ? Annyira azert nem hulye egyik se, hogy ne probalja kiszimatolni a masik ceg merre is probal nyitni.
    Arrol nem is beszelve, hogy veletlenek nincsenek, hogy eppen egyszerre az 5 ceg sutba dobja az elozo utat amit jart es uj vizekre evez. Hat hogyne, micsoda veletlen. :P
    Mint a VGA kartyaik piacra dobasanak datumai es sorolhatnam.

  • lenox

    veterán

    válasz Abu85 #108 üzenetére

    Akkor miért nem látunk a MIC magokban 256 szálat, ami ideális lenne annak rendszernek. Miért van csak négy szál?

    Nem ertem a kerdest, nem kell sok szal a nagy teljesitmenyhez, csak megfelelo szamu alu, es el kell tudni latni oket adattal. Azert gondolod, hogy sok thread kell, hogy amig valamelyik adatra var a memoriabol, addig valamelyik masik tudjon szamolni. De mint irtam erre kitalaltak a prefetch-t, szoval emiatt nem kell sok szal.

    A szamok nincsenek rendben, ezek szerint tahitinal a 32 cu 100 mm2 a 365-bol, pedig valojaban a chip nagy reszet a cu-k teszik ki. Masreszt kimaradt 4x64 kB regiszter, szoval egy cu-ban is 300 kB folotti atmeneti tarolo van, intelnel sincs 2-szer ennyi, ha esetleg vaamelyik implementacioban 256 kB l2 cachet valasztanak, akkor tok hasonlo lesz a mennyiseg.

    Ezért nem használ senki, még egyszer hangsúlyozom: Senki! skalár ISA-t az ilyen adatpárhuzamosságra tervezett rendszer fejlesztéséhez.

    Az avx-512 az ugyebar egy extension, ez most neked skalarnak szamit vagy nem? Ha igen, akkor nem igaz, amit irsz, ha nem akkor meg nem ertem, hogy jon ez ide.

    Ha a legnagyobb számítási kapacitásra törekednének, akkor már rég nem ölnének egy deka zsetont sem a MIC-be, mert az nagyon messze van a konkurens rendszerektől.

    Hiszen csak ra kell nezni a top500-ra vagy a green500-ra. En azert kivancsian varom a kovetkezo gent, kulon kartyan is meg cpu-ban is.

    Amugy vegyuk eszre, hogy a sokezer szal szuksegessegebol indult a vita, de te xeon phi fikazassa alakitottad. Szerintem megegyezhetunk benne, hogy ugyanannyi wattbol a xeon phi fele annyi sp-t es ugyanannyi dp-t tud, mint egy tahiti, de ez nem bizonyitja, hogy sokezer szalat kell tudjon kezelni valami ahhoz, hogy hatekony legyen.

  • lenox

    veterán

    válasz Abu85 #112 üzenetére

    Csak látványosan nem működik a prefetch egy ilyen rendszernél. Odaraktak mellé 512 kB L2-t, és a legfőbb optimalizálási útmutató, hogy maradj ezen belül.

    Ezt honnan lehet tudni, probaltad, vagy van valami doksi rola? Az intel szerint mukodik, nekem nincs xeon phi-m, hogy kiprobaljam, de sima cpun szoktam hasznalni, es mukodik, nem tudom, miert kene feltetelezni, hogy nem mukodik. Esetleg ezt megnezheted. Termeszetesen az az utmutatas, hogy maradj a cache-en belul, mint ahogy nv-nel vagy amd-nel is az, hogy minimalizald a global memory hasznalatot, nincs kulonbseg kozottuk.

    A számok rendben vannak.

    Akkor legyszi magyarazd meg, hogy hogy jon ki a 3 mm2, a fotokon nem annyinak latszik. De a lenyeg ugyis az, hogy az allitasod, miszerint a mic-nek nagy atmeneti tarolo kell, hogy mukodjon, mig a gcn-nek nem az nem igaz, ugyanugy kell a gcn-nel is nagy terulet, csak nem l2 cache-kent hasznaljak. De a szerepe ugyanaz, minimalizalja a global memory elerest. Persze ebben semmi meglepo nincs...

    A skalár ISA-nak szokták nevezni azt, ahol a rendszert a késleltetésre optimalizálják. A párhuzamos ISA az, amikor az adatpárhuzamos végrehajtás miatt a rendszert alapjaiban úgy építik fel, hogy a hatékony működés ne emésszen fel annyi tranzisztort, mint egy skalár ISA implementációja.

    Tehat skalar isanak gondolod, de akkor ugye nem igaz amit irtal, lasd intel.

  • lenox

    veterán

    válasz Abu85 #124 üzenetére

    Ha van valami ertekelheto adat, meres, pdf, szivesen megnezem, tudsz linket? De egyebkent a magot/cut kivulrol nezve mennyiben kulonbozik, hogy az adatot prefetch miatt kered vagy mert be akarod tolteni egy regiszterbe? Mert szerintem teljesen mindegy. Vagyis nem azon mulik, hogy prefetech vagy load.

    Hol látsz te bármelyik GPU-ban multiprocesszoronként fél megabájt másodszintű gyorsítótárat?

    60-70%-a van amd-nel, mint ilyen-olyan tar, nincs nagyragrendbeli kulonbseg. Szerintem sokkal fontosabb a mukodesbeli, nezd meg, hogy mukodik egy lds, ilyet tudtommal az intel nem csinal, pedig igen hatekony.

    SP számítási teljesítménye két-háromszor kevesebb, mint a konkurens GPU-ké.

    Inkabb csak 2-szer, es ez nem gpu, es foleg nem konkurens. De a kovetkezo genre 3-4-szer ekkora energiahatekonysagot hazudnak, szoval akar sp-ben is jo lehet. De foleg jo lehet, ha 16-32 magot beraknak egy cpu-ba.

Új hozzászólás Aktív témák