Keresés

Új hozzászólás Aktív témák

  • Fiery

    veterán

    válasz Bici #36 üzenetére

    Nem mi fejlesztjuk a LuxMarkot, ugyhogy maximum tippelni tudok. Vagy a benchmark maga "huz" az Intel iGPU-k fele kicsit, azaz eleve ugy irtak meg, hogy jobban fekudjon az Intel iGPU-knak; vagy az Intel-fele OpenCL compiler tartalmaz specifikus optimalizaciokat. Azaz, az Intel kifejezetten felkeszitette a forditojat arra, hogy a LuxMark OpenCL kernelet a leheto leggyorsabb GPU gepi kodra forditsa le. Az OpenCL eseteben a fejlesztoknek meglehetosen korlatozott ralatasa es rahatasa van arra, hogy az OpenCL kodbol pontosan milyen gepi kod keszul, es az mi modon fut le az aktualis hardveren. Ahogy anno a 3DMark eseteben is lehetoseg volt a shader kod teljes lecserelesere a video driver altal, ugy az OpenCL compiler is kepes arra, hogy felismerjen egy adott benchmarkot vagy applikaciot, es egy eloregyartott koddal helyettesitse azt, maximalisan kihasznalva a gyari zseni fejlesztok munkajanak eredmenyet.

    De mindez elmeleti lehetoseg csupan, egyaltalan nem biztos, hogy barmelyik GPU-gyarto is foglalkozna ilyen dolgokkal jelenleg. A jovoben biztos vagyok benne, hogy lesz ilyenre pelda, es a benchmark keszitok elobb-utobb ra fognak kenyszerulni arra, hogy dinamikusan generaljak az OpenCL kodot, vagy elore leforditott binaris kodot hasznaljanak (bar ez utobbi nem feltetlenul jarhato vagy celszeru modszer).

  • Fiery

    veterán

    válasz Bici #54 üzenetére

    Extrem optimalizacioval, a megfelelo processzornal, bizonyos kodoknal siman meg lehet "oldani", hogy az x86 CPU/FPU ugyanazt a szamitasi feladatot gyorsabban vegezze, mint az iGPU. Az AIDA64 fraktal benchmarkja peldaul gyorsabban fut a Haswell FPU-jan, mint az iGPU-jan, meghozza nem is kicsit, koszonhetoen az AVX2 es FMA-nak. A Kaveri eseteben ez azert nem realis, mert meglehetosen lassu az FPU, es "tul" eros az iGPU.

    Igy neznek ki az egyszeres pontossagu lebegopontos fraktal benchmark eredmenyek az AIDA64 GPGPU benchmarkja eseteben:

    Haswell i7-4770: FPU = 124,4 FPS / iGPU = 85,1 FPS
    Kaveri A10-7850K: FPU = 31,2 FPS / iGPU = 145,6 FPS

    Ettol fuggetlenul fenntartom azt, amit irtam az OpenCL GPU benchmarkokrol, me'g ha ez nem is feltetlenul igaz a LuxMarkra vagy barmelyik mas, jelenleg letezo OpenCL benchmarkra.

    [ Szerkesztve ]

  • Fiery

    veterán

    válasz Bici #69 üzenetére

    Az igazsaghoz azert hozzatartozik, hogy eleg melos kihasznalni az AVX2 es FMA-ban rejlo lehetosegeket. Ha a HSA beindul, azzal sokkal konnyebb lesz izmos kodot irni, mint AVX2-re vagy FMA-ra optimalizalni assemblyben peldaul. Ha a fejlesztonek van lehetosege, van ideje es a kepessegei is megfeleloek, akkor viszont brutalisat lehet szakitani AVX2/FMA-val. Plane ha majd lesz 8 magos desktop CPU (Haswell-E) is ilyen kepessegekkel :)

  • Jack@l

    veterán

    válasz Bici #14 üzenetére

    A luxmark nagyon rosszul használja a gpu-s lehetőségeket(cserébe fizikailag teljesen korrekt szimulációt csinál, ha jól tudom). Vannak sokkal gyorsabb gpu-s renderelők nála.

    A hozzászólási jogosultságodat 2 hónap időtartamra korlátoztuk (1 hsz / 10 nap) a következő ok miatt: Az ÁSZF III 10/8. pontjának megsértése - trollkodás - miatt. Többször és többen is kértek már, hogy hozzászólás írásakor használd a linkelés funkciót, mert ennek elmaradása sokak számára zavaró.

  • szabi80sz

    tag

    válasz Bici #165 üzenetére

    Kicsit késtem, de jobb később, mint soha. :)
    Szóval előre leszögezem: nem vagyok a LuxMark fejlesztője, így alapvetően találgatni tudok, viszont vannak egyértelmű dolgok, amik sebességelőnyhöz juttatják az Intel processzorokat az AMD-s processzorokkal szemben OpenCl alatt.
    Fiery válaszaival egyetértek, én is hasonlókat látok. Néhány érdekes kiegészítést tennék csak. A leírtak saját tesztek, amik nagyrészt szintetikusak (osztás, szorzás, maradékos osztás), de pár dolgot biztosan láttatnak abból a sebességtöbbletből, ami az Intel-t előnyhöz juttatja (valószínűleg nem csak a processzort).
    Elsőkén egy kizárás: I7-es volt a tesztalany, ami Hyper Threading-es, így 4 helyett látszólag 8 CPU mag "számol". Ez lényegtelen, mert eddigi tesztekben a HT kikapcsolásával nem lassult egy OpenCl-es kódom sem.
    Másodikként az Intel valóban jobb meghajtóprogrammal és SDK-val rendelkezik. Ez a tesztekben az AVX2, FMA utasítások jobb kihasználását is eredményezi, de alapból is gyorsabb. Egy általam mért teszt:
    Intel i7 2600k (nincs sem FMA, sem AVX, AVX2 meg pláne hiányzik belőle). Csak CPU-n mértem OpenCl teljesítményt (nem segít be a GPU). Az alaplapi tuningok ki voltak kapcsolva (a CPU-ba épített is). A kernel az OpenCl által végrehajtott függvénynek felel meg.
    I7 2600k (3,4 GHz) CPU +Intel OpenCl sdk: kernel futás: 212 - 214 ms
    I7 2600k (3,4 GHz) CPU +AMD (2.9 APP) sdk: kernel futás: 293 - 295 ms
    A10 6700 (3,7 GHz) CPU +AMD (2.9 APP) sdk: kernel futás: 515 - 527 ms
    A10 6700 GPU +AMD (2.9 APP) sdk (zero copy-val): kernel futás: 109 - 111 ms
    Zotac NVidia 650Ti + 332.21 driver: kernel futás: 36 - 38 ms
    Látható, hogy mennyivel lassabb az A10 (amit Fiery is írt, hogy gyenge a processzor), de még az AMD APP SDK is lassú az Inteléhez képest. Persze lehet, hogy AMD-n hatékonyabb kódokat tartalmaz, ezért is lassabb, de szerintem inkább az Intel SDK-ja jobban optimalizált (bizonyítani ezt nem tudom).
    Ha GPU-t és CPU-t is használ az alkalmazás, akkor a kettő összteljesítménye nagy mértékben függ az adatok elosztásától. Ezt a programozó végzi, az algoritmus hatékonysága különböző CPU-GPU páros esetén különböző lehet. Én is úgy gondolom, hogy ebben a tesztben az Intel-lel jobban működik (valószínűleg erre külön figyelhettek).
    A különböző számítások átlapolása sem mindegy hogy hogyan van megoldva.A Zero Copy-t és az InstantAccess-t sem tudom, hogy hogyan és mennyire használja ki a LuxMark.
    Egyébként a LuxMark eredményeit nem tartom lényegesnek, mert gyakran úgy tűnik, mintha az nVIDIA videokártyák mennyire lassúak lennének. Ennek meg akár az nVIDIA OpenCl driver-ből kimaradt párhuzamos másolás is lehet az oka, vagy csak egyszerűen a local_work_size hibás beállítása (nem láttam a kódjukat). Lényeg viszont, hogy az itt minden cikkben hangoztatott: "az nVIDIA által alkalmazott gyorsítótár- és memóriahierarchia nem kedveli annyira a komplex számításokat, mint az AMD GCN architektúrája." szöveg nem fedi a valóságot. Komplexebb feladatok alatt is gyorsabb volt az nVIDIA 430GT nálam, mint pl. a FirePro v4900. Lebegőpontos teljesítményben meg keményen verte. (Bár ez annyira nem ide tartozik, de már nagyon ki kívánkozott belőlem. :B ) Azért az is igaz, hogy az itt leírtak főleg csak simán a kernel futási idejéről szóltak, az OpenCl-es programok futási ideje ennél jóval összetettebb (pl. memóriába fel-le másolás ideje, az első OpenCl utasítás futási ideje, és ezek átlapolása egyéb számításokkal, stb).
    Remélem, hogy hajnak fél 3-kor nem írtam olyat, hogy holnap a fejemet fogjam miatta. :)

  • sb

    veterán

    válasz Bici #503 üzenetére

    Igen, ha épp ez a szint kell akkor nyilván jó, onnantól csak ár kérdése. egy 40-50e-es Kaveri sajnos ilyen szempontból sem versenyez. Ellenben a régi APU-k igen.

    Az a baj, hogy ez nagyon határterület.
    - Általában akinek játékra kell annak jobb egy dvga-val párosítva, mint a csúcs APU-k+gyors DDR3.
    - Akinek meg netezni/filmezni oda meg felnőttek azért az Intel IGP-k is. Egy kis Celeron/Pentium is elég lehet.
    A kettő között vannak valahol az APU-k, mint jó választások. A minimál játékok szintje lehet ez kb.

    Pénzre lefordítva:
    - 40k körül/felett cpu+dvga, mint csúcs APU+ gyors ram.
    - 20k alatt meg bármi jó lehet, Intel is.

    És akkor marad ez a szűk 30k körüli sáv, ahol kevés értelmes alternatíva marad APU-n kívül.
    De még ez sem biztos egyébként, mert a fogyasztás és egyebek mentén ezen a szűk rétegen belül is lehet még válogatni APU és dvga-s megoldások közül. De egyetértünk, hogy itt összességében inkább már csak macera +1 komponens.

    nyakdam, igazad van. Ezt már leírtam én is.
    Plussz harmadik pontként az integrált gpu akármibe is besegíthet, ami számításigényes. Sokkal gyorsabban, mint a cpu rész. Ehhez kellenek majd az új HSA-s programok.
    Ki van ez találva, nincs ezzel gond, csak még nem valósult meg.

    [ Szerkesztve ]

  • Geri Bátyó

    őstag

    válasz Bici #512 üzenetére

    Nem értek egyet, mivel a Bulldozernél a magas órajel volt az alap fejlesztési irány és mivel a gyártástechnológia nem rajtuk múlik, hiba volt ezt erőltetni. (Vagy, hiba volt eladni a gyártást.)
    Az Intel házon belül is elbukta ezt!

    Kukázni kellene ezt az irányt és meglépni egy hasonló váltást, mint az Intel a Core2-vel.

    "Ki a büdös istennyila vagy te bohócképű!?" SzŐr Geri, birodalmi poéta és főszakács (:L topic)

  • Geri Bátyó

    őstag

    válasz Bici #517 üzenetére

    Jó volna belelátni a fejesek fejébe! :K

    Ettől függetlenül a Bulldozer semmivel sem job, mint előtte a K10 és utódai (A Lano erősebb a Kaverinél is). A párhuzam megvan az NetBurst-el.
    Willamette - Bulldozer = vacak
    Northwood - Piledriver = jelentős előrelépés, de kevés a konkurenciához
    Prescott - Steamroller (Kaveri) = egyértelmű zsákutca, gyártástechnológiai gondok (órajel)
    Presler/Cedar Mill - Excavator (Carrizo) = kűszködés az új generációig

    A különbség az, hogy az Intelnek nem volt példája ehhez a zsákutcához.

    Pedig nagyon szurkoltam az AMD-nek. Hogyha hozta volna az ígéretet, váltottam volna a bloom-ról.

    "Ki a büdös istennyila vagy te bohócképű!?" SzŐr Geri, birodalmi poéta és főszakács (:L topic)

  • jocomen

    aktív tag

    válasz Bici #523 üzenetére

    Ha így van, ahogy mondod, akkor azt is tudják előre, h a carrizo is zsákutca lesz. Mégis haladnak tovább a szakadék felé vezető úton. --> ergo legközelebb is a radeon-részleg fogja kihúzni őket a csávából.

    Szerintem az amd azért "direkt nem gyárt" kaveriket, mert így kívánja csökkenteni a veszteségét. Blamázs a cégnek, de ők tudják.
    Tudják, h ennyiért nem piacképes. Viszont ha annyiért adnák, akkor nem érné meg nekik. Így nem gyártják. Helyette vannak gcn vga-k, amiket el lehet adni, és keresnek is rajtuk.

    [ Szerkesztve ]

  • jocomen

    aktív tag

    válasz Bici #532 üzenetére

    Így is lehet, h semmit fognak eladni belőle. Talán a múzeumok és a gyűjtők vesznek majd 1-1 db-ot az "eszmei" értéke miatt.

    fx 8xxx szériából adtak azért el párat, az fx6xxx pedig még sikeresnek is mondható, szerintem. Ezekben nem volt igp sem.
    Igen, akár ilyen 8 magos 4 modu + igp cuccal is lehetett volna próbálkozni. Sokat fogyasztott volna bizonyára, de működhetett volna. Befért volna, mert így is benne van.
    Vagy csinálhattak volna ebből az anyagból 2 aput, féláron, és az versenyképes is lett volna.
    Csak ez a túlméretezett igp, ... másik alaplapért, chipkészletért, nagyobb tdp-ért kiált. Ehelyett félmegoldás: a működést feláldozták a kompatibilitás oltárán.
    A következőhöz is marad ugyan ez. ddr4 ram ha lesz is, borsos áron. hsa se valószínű, h eláraszt minket addig.
    Azaz, szinte borítékolható, h a carrazo is csak "bohóckodás" lesz, és akkor járnak jól ők is (és a vásárlók is), ha minél kevesebbet gyártanak/vesznek belőle.

    [ Szerkesztve ]

  • derive

    senior tag

    válasz Bici #532 üzenetére

    Annyi a bajon, hogy a csucs kaveriben picit rosszul osztottak fel a lapkateruletet. Az A8ashoz kepest az A10es IGPje kemeny 10%ot hoz, 30%al tobb teruleten (sztem ezek hibas chipek). Mar az intel igpk is savszellimitaltak, 6 GCN mag ugyanugy veri az inteleket,a 8 meg vegig ehezik. Rakhattak volna a helyere meg 1 CPU modult, mert rosszul nez ki, hogy gyengebb az elodjenel.
    Az A8 sokkal kiegyensulyozottabb, amint lejjebb megy az ara, jon is HTPCbe.

    [ Szerkesztve ]

  • Geri Bátyó

    őstag

    válasz Bici #530 üzenetére

    A Prescottal volt a gond, előtte még nem. Az eredeti utód a Tejas lett volna, ami a Prescott bejelentésekor már fejlesztés alatt állt és minta is készült belőle. Sőt, annak az utóda is a tervezőasztalon volt már. A Presler volt a kényszerlépés, mielőtt kihozták a Core2-t.
    Ezen az alapon a Steamrollernek már (bőven) a kényszerlépésnek kellene lenni, de itt még az Excavator is jön.
    Remélem, hogy jön egy hasonló ütős megoldás utána, mint a GPU-nál a GCN.

    (#532) Bic: Egyet kell értenem. Semmire sem mennének a plusz modulokkal, csak elszállna a fogyasztás.
    Talán az IGP miatt lehetett volna 3 csatornás memvezérlő, de nem tudom, hogy az számottevő gyorsulást jelentett volna-e vagy csak drágulást.

    [ Szerkesztve ]

    "Ki a büdös istennyila vagy te bohócképű!?" SzŐr Geri, birodalmi poéta és főszakács (:L topic)

  • Geri Bátyó

    őstag

    válasz Bici #547 üzenetére

    "Szerintem az AMD részéről az egész Bulldozer vonal kényszerpálya."
    Arra gondolsz, hogy papíron jól nézett ki a koncepció, de a valóságban nem váltotta be a hozzá fűzött reményeket? Mert azt nem hinném, hogy már a tervezéskor tudták, hogy gyenge lesz.
    Az viszont igaz, hogy egy feltupírozott Jaguar (6-8 maggal) hasonlóan ütős lehetne, mint a Core2 az Intelnek. Ez a megoldás viszont már kéznél van, nem kellene még egy generáció a bevetéséhez. Persze nem tudom, hogy mennyi változtatás kellene, de sokallom a még 2 évet (minimum).

    "Ki a büdös istennyila vagy te bohócképű!?" SzŐr Geri, birodalmi poéta és főszakács (:L topic)

  • Geri Bátyó

    őstag

    válasz Bici #549 üzenetére

    Lehet, hogy a K10 komolyabb átgyúrásával jobban jártak volna.
    Az Intel is a Pentium M / Tualatin vonalból kreálta a Core-t és nem gondolták, hogy képes lesz magas órajelre, de nem is arra fejlesztették.
    Ráadásul 2 év alatt kalapálták össze.

    A Kaveri legnagyobb rákfenéje viszont szerintem az, hogy nem használhatnak SOI-t (ez csak most ugrott be). Ezer éve arra álltak rá.

    "Ki a büdös istennyila vagy te bohócképű!?" SzŐr Geri, birodalmi poéta és főszakács (:L topic)

Új hozzászólás Aktív témák