Új hozzászólás Aktív témák
-
Zeratul
addikt
válasz hugo chávez #98 üzenetére
64 FLOPS mióta duplája a 64 FLOPS nak? 128 bites kód esetén az SB csak felét tudja a Bullnak.
-
Kotomicuki
senior tag
válasz hugo chávez #98 üzenetére
De ez várható is volt, ha már "megfelezték" az FPU-kat - emlékeim szerint, de majd kijavítotok, ha tévedek, amikor sikeresebb volt az AMD a CPU-k terén, mint az iNtel, akkor az FPU rész is minimum egálban volt a kékekkel.
Innentől tényleg az lesz a mérvadó, hogy melyik cég tudja megnyerni a szoftverfejlesztőket az igazának. Ebben pénzügyileg és eladott CPU darabszám szerint sem áll a zászló a zöldeknek - gondolom a kékek most sem fogják meghazudtolni önmagukat: a piaci és gazdasági erőfölénnyel való visszaélés, ha szükséges, ha nem, elő fog kerülni a tarsolyból.Hacsak nem fog bele egy átfogó szoftver-fejleszt(tet)ésbe (Bull+HD7000 - ha a TSMC is majd úgy "akarja") az AMD, akkor a Bull. sem váltja majd be a hozzáfűzött reményeket.
(Gondolom, hogy egyből jelennének meg az ellenfél által (le)fizetett fejlesztők, Bull.-on akadozó szoftverei, amit minden, hardverrel foglalkozó site-nak kutya kötelessége volna naponta szajkózni. Ezért még a kék-(másik)zöld ellentét barátsággá szelídülését sem tartom kizártnak, erre az időre. Tehát az "itt a hardver, kezdjetek vele vmit, önállóan" már nem járható út!)A platformosodásnak is megvannak, sőt, még csak itt jönnek elő, a maga hátulütői: ha nem tudják elfogadtatni a sajátot a fejlesztőkkel - nekik is 2-3 felé fejleszteni, mert mindenkié más... -, vásárlókkal - a marketing bullshit kit, hogyan tud átvágni... - , akkor nagyobbat buknak vele, mintha csak külön-külön, a piacvezető által diktált, éppen aktuális trendhez simulnának hozzá a termékeikkel - a piacvezető mindig is akkora profittal dolgozik, hogy lenne életterük mellette, ahogy eddig is volt.
(A gyárt(at)ás terén fennálló, és ennek a szinte soha le nem küzdhető hátránynak is szerepe van az AMD gyengélkedésében - egyáltalán, az a tény, hogy önállóan nem tud semmilyen termékét sem legyártani (profitkiesés a bérgyártók miatt), onnantól vesztett helyzetben van - , örök 2.-nak maradásában.)[Lehet, hogy akkor járnának a legjobban, ha egy teljesen "más", eddigi ellenfeleiktől mentes piacot teremtenének, ahol egyedül ők diktálhatják a feltételeket (vhogy úgy, ahogy az nV is megpattant a PC-s üzletágból, de azt nem föladva): egy alaplapos, teljesen ráintegrált alkatrészakkel készülő PC, semmi külön kártya, max. külső csatlakoztatási lehetőség a többi piaci résztvevő felé, (EP)ROM-ba égetett Op.renszerrel, stb. ~kb. a modern C64, de időtálló teljesítménnyel, előrelátóan megszerkesztett szoftver- (pl. Open CL) és Op.rendszerkörnyezettel - esetleg almás vagy IBM-s (SUN-os, stb.) együttműködésben/támogatással. Kezdetben a M$ op.rendszerének a hardvert nem kellő mértékben való kihasználására építkezve, ezzel valós teljesítménybeli fölényt elérve...]
A regisztrációdat véglegesen kitiltottuk a következő ok miatt: III.10.8 Üdvözlettel: PROHARDVER!
-
hugo chávez
aktív tag
Hát, tény, hogy jelenleg nem sok ilyen van, de azért lehet találni egy párat, pl az x264 is támogatja: [link]
(#100) P.H.:
Na igen, kissé "külön úton" járnak, majd meglátjuk, hogy melyik lesz a jobb, de az a baj, hogy a Bull még mindig nincs kint, hogy valós alkalmazásokban össze lehetne mérni a Sandy-kkel és azt sem lehet biztosan tudni, hogy mikor jön.
Azon meg nem csodálkozok, hogy az Intel ráfeküdt az AVX-re, mert nekik ez lehet az igazi belépő a heterogén érába, szerintem a Haswell-ben, vagy az utána jövő generációban a jelenleg a Sandy-ben lévő IGP szerepét át fogják venni az AVX képes, a későbbiekben akár 1024 bites SIMD egységek.(#101) Zeratul:
Pont ez volt a problémám Abu slide-jával, hogy nem gyengén félrevezető marketinganyag, de segítek neked értelmezni , ott egy 16 magos Interlagos-t hasonlítottak egy 4 magos Sandy-hez, úgy, hogy ezt az "apró" tényt nem írták oda, tehát, ha egy 8 magos asztali Bulldozer-re (Zambezi) vagy kíváncsi, akkor oszd el a Flex FP oszlopban lévő számokat kettővel.
(#102) Kotomicuki:
"De ez várható is volt, ha már "megfelezték" az FPU-kat"
Várható volt, de azért reménykedtem, meg persze arról is szó volt, hogy jóval 4 GHz felett lesz az alapórajele, de most úgy néz ki, hogy ez sem fog összejönni
[ Szerkesztve ]
"sajnos ez a beszélgetés olyan alacsony szintre jutott, hogy a továbbiakban már nem méltó hozzám" - by Pikari
-
hohoo
senior tag
válasz dízelracer #95 üzenetére
Te tényleg ennyire éjsötét vagy? Vagy szórakozol?
[ Szerkesztve ]
T-home extra csomag monopolterületen 6500 ft/hó, versenyterületen ahol Digi vagy UPC is van pedig 2990 ft/hó. Köszönjük!
-
hohoo
senior tag
válasz hugo chávez #103 üzenetére
A fura az, hogy ezt a 64 gflopsot mindenhol 4 modulra, vagyis 8 magos bullra írják...
nem 8 modulos 16 magosra.Csak te szerinted 16 magos az a 64
[ Szerkesztve ]
T-home extra csomag monopolterületen 6500 ft/hó, versenyterületen ahol Digi vagy UPC is van pedig 2990 ft/hó. Köszönjük!
-
hugo chávez
aktív tag
Ha nekem nem hiszel, akkor nézd meg itt alaposan a "Standard 128-bit mode" és a "Shared AVX mode" című képeket, vagy kérdezd meg Abut, vagy P.H.-t, hogy mi következik a jelenleg ismert adatokból.
Ja és az nem 64 GFLOPS, hanem 64 "darab" 32 bites, vagy másképpen 8 "darab" 256 bites lebegőpontos művelet/órajel
[ Szerkesztve ]
"sajnos ez a beszélgetés olyan alacsony szintre jutott, hogy a továbbiakban már nem méltó hozzám" - by Pikari
-
hohoo
senior tag
válasz hugo chávez #106 üzenetére
http://www.google.com/search?hl=hu&safe=off&client=opera&hs=QYb&rls=hu&channel=suggest&q=flex+fp+flops&btnG=Keres%C3%A9s&aq=f&aqi=&aql=&oq=
mindenhol máshol meg 8 mag 4 modult írnak...
Ha úgy lenne ahogy mondod mi értelme lenne? annál a phenom 2 is jobb lenne 128 bites műveletekkel.
[ Szerkesztve ]
T-home extra csomag monopolterületen 6500 ft/hó, versenyterületen ahol Digi vagy UPC is van pedig 2990 ft/hó. Köszönjük!
-
hohoo
senior tag
De olyat is látok, hogy egy 4 magos sb-ben 8 db avx képes egység van, ami tényleg egyenlő lenne a 16 magos 8 modulos bulléval, mert abban is annyi van.
Ha ez így van akkor avx-ben fele akkora teljesítményű lesz egy azonos árkategóriájú bull mint egy sb. Viszont integerben gyorsabb lesz 2x. Nyilván az amd mérnökök nem hülyék, és kiszámolták hogy mennyire van kihasználja az integer rész és az fpu, és azért alkották ilyenre. Ha jól tudom általában a feltételes utasítások fogják meg a procikat, ami meg integeren fut, így tehát logikus, hogy integerből több kell mint fp-ből. (ezért nem szeretik a feltételes utasításokat a gpu-k)
VAGY rendesen úgy tervezték a bullt hogy már számításba vették a gpu-val egybeforrasztást, és mivel a gpu sokkal jobb lebegőpontos műveletekben, egy idő után már nem is nagyon kell ilyen egység a cpu részbe.
Ez akkor lenne jó, ha a gpu-n lehetne futtatni avx-es dolgokat majd a trinity-ben.
Viszont ha azon nem lehet, akkor opencl-re kell alapozni avx helyett később amd-nél, ami meg rizikós, mert ehhez az amd-nek úgy meg kéne venni a fejlesztőket mint ahogy az intel teszi.[ Szerkesztve ]
T-home extra csomag monopolterületen 6500 ft/hó, versenyterületen ahol Digi vagy UPC is van pedig 2990 ft/hó. Köszönjük!
-
hugo chávez
aktív tag
Nézd, erre nem tudok mit mondani, a Sandy-nél ugye egy mag két 256 bites műveletet tud egyszerre ciklusonként, egy FADD-et és egy FMUL-t :"Sandy Bridge can sustain a full 16 single precision FLOP/cycle" és "Sandy Bridge can execute a 256-bit FP multiply, a 256-bit FP add and a 256-bit shuffle every cycle" [link], a Bull Flex FP-jéről (amiből modulonként egy van) pedig azt írják, hogy egy 256 bites (feltételezem, hogy vagy FADD, vagy FMUL) műveletet tud ciklusonként: "The beauty of the Flex FP is that it is a single 256-bit FPU that is shared by two integer cores. With each cycle, either core can operate on 256 bits of parallel data via two 128-bit instructions or one 256-bit instruction" [link] szóval ebből az következik, hogy a 64 FLOPs/ciklus a 16 magos (8 modulos és 8 Flex FP-s) Interlagos-ra vonatkozik.
"sajnos ez a beszélgetés olyan alacsony szintre jutott, hogy a továbbiakban már nem méltó hozzám" - by Pikari
-
hugo chávez
aktív tag
"Ez akkor lenne jó, ha a gpu-n lehetne futtatni avx-es dolgokat majd a trinity-ben."
Nos, szerintem az Intel pont ezt akarja a jövőben, vagyis AVX utasításkészletet támogató SIMD egységekkel akarja felváltani a jelenlegi IGP-iben lévő vektormagokat.
"Viszont ha azon nem lehet, akkor opencl-re kell alapozni avx helyett később amd-nél, ami meg rizikós, mert ehhez az amd-nek úgy meg kéne venni a fejlesztőket mint ahogy az intel teszi."
Itt úgy érzem, hogy némiképp kevered a dolgokat, mert az AVX egy SIMD utasításkészlet, az OpenCL pedig egy API. Amúgy az OpenCL-nek már van AVX támogatása.
"sajnos ez a beszélgetés olyan alacsony szintre jutott, hogy a továbbiakban már nem méltó hozzám" - by Pikari
-
hohoo
senior tag
válasz hugo chávez #110 üzenetére
Nem keverem. AVX támogatású gpu egységek nélkül opencl (vagy stream vagy mi az az alap api) kell(mert ki akar gpu gépi kóddal szórakozni?). Ha tudja avx-re használni akkor viszont nem kell feltétlenül.
[ Szerkesztve ]
T-home extra csomag monopolterületen 6500 ft/hó, versenyterületen ahol Digi vagy UPC is van pedig 2990 ft/hó. Köszönjük!
-
P.H.
senior tag
Nem kellett hozzá apró betűs rész. Vették a jelenlegi generáció legnagyobbját (X6) és összehasonlították következő generáció bevezetéskori legnagyobbjával (8 modul); hogy teljes legyen a táblázat, hozzávették az Intel legerősebb AVX-képes CPU-ját is. Az pedig 4 magos - még most is.
[ Szerkesztve ]
Arguing on the Internet is like running in the Special Olympics. Even if you win, you are still ... ˙˙˙ Real Eyes Realize Real Lies ˙˙˙
-
dezz
nagyúr
válasz hugo chávez #103 üzenetére
Ugye nem gondoljátok komolyan, hogy a Bulldozer egy magra vetítve fele annyi FP számolóegységgel rendelkezik, mint a K10? Nem hinném, hogy így lenne...
Attól, hogy a 128-bites egységeket (FMUL és FADD) össze lehet vonni kétmagonként (2xFMUL + 2xFADD), illetve be lehet fogni őket FMA-ra, még nem lesz belőlük fele annyi...
Ami az SSEx vs. AVX-et illeti: akármilyen befolyásos is az Intel, egyik napról a másikra akkor sem fogják átírni az összes létező szoftvert AVX-re, és ha át is írnak valamit, az SSx verziót nem fogják eltüntetni a Föld színéről...
Később meg a Bulldozerből is jön elvileg a magonként 256-bites FP egységekkel rendelkező változat (hogy ez vajon az "enhanced" lesz-e már, vagy csak a "next-gen."...).
-
dezz
nagyúr
válasz hugo chávez #106 üzenetére
Ezt írják: "Two 128-bit FMAC units, one for each core"
FMAC = FMUL + FADD. Ennyi volt eddig is egy magban a K10-nél.
Ez magonként 4db FMUL és 4db FADD művelet ciklusonként.
8 FLOP/ciklus x 8 mag = 64 FLOP/ciklus...
A kis képeken talán egy FMA-t vettek egy FLOP-nak. (Mintha GPU-knál lenne ez szokás.) -
FireGL
aktív tag
Az embert a gondolkodás tette állattá...
-
Findzs
addikt
FX-8100 sláger gyanús lesz
a felette lévők csak felhúzott testvérei lehetnekegy hivatalos árat lökhetnének már
"Az embereket nem az igazság érdekli, hanem a saját igazuk."
-
hugo chávez
aktív tag
Szerintem attól, hogy egy GPU/IGP SIMD egységei támogatják az AVX-et, még ugyanúgy vagy kell egy OpenCL-hez hasonló API/Framework, vagy, ha nem akarnak használni API-t, akkor valami alacsony szintű, hardverközeli nyelven kell szenvedni, de erről szerintem inkább dezz tudna nyilatkozni, mert a programozás nem az én asztalom. Ráadásul pl. az OpenCL nagy előnye, hogy egy OpenCL-re írt progi gyakorlatilag mindenen képes lehet futni, amihez van OpenCL driver, tehát CPU-n, GPU-n, IGP-n, vagy, heterogén módon, akár ezeken egyszerre is.
(#114) dezz:
"Ez magonként 4db FMUL és 4db FADD művelet ciklusonként."
Nekem nem igazán világos ez, egy 128 bites egységen hogy "megy át" egy ciklus alatt 4x32 bit FMUL és 4x32 bit FADD? Az nem lehet, hogy FADD, vagy FMUL esetén 4, FMAC esetén pedig csak 2 FMUL és 2 FADD művelet van ciklusonként?
"sajnos ez a beszélgetés olyan alacsony szintre jutott, hogy a továbbiakban már nem méltó hozzám" - by Pikari
-
P.H.
senior tag
válasz hugo chávez #119 üzenetére
"Nekem nem igazán világos ez, egy 128 bites egységen hogy "megy át" egy ciklus alatt 4x32 bit FMUL és 4x32 bit FADD? Az nem lehet, hogy FADD, vagy FMUL esetén 4, FMAC esetén pedig csak 2 FMUL és 2 FADD művelet van ciklusonként?"
Sehogy, 1 execution portra órajelenként 1 műveletet lehet indítani (ez a port mint kifejezés lényege), és itt most 128 bites portokról van szó.
Az Optimization Guide ide vonatkozó része (ez teljesen újra lett írva a korábbi verziókhoz képest )
The AMD Family 15h processor floating point unit (FPU) was designed to provide four times the raw FADD and FMUL bandwidth as the original AMD Opteron and Athlon 64 processors. It achieves this by means of two 128-bit fused multiply-accumulate (FMAC) units which are supported by a 128-bit high-bandwidth load-store system. The FPU is a coprocessor model that is shared between the two cores of one AMD Family 15h compute unit. As such it contains its own scheduler, register files and renamers and does not share them with the integer units. This decoupling provides optimal performance of both the integer units and the FPU. In addition to the two FMACs, the FPU also contains two 128-bit integer units which perform arithmetic and logical operations on AVX, MMX and SSE packed integer data.
A 128-bit integer multiply accumulate (IMAC) unit is incorporated into FPU pipe 0. The IMAC performs integer fused multiply and accumulate, and similar arithmetic operations on AVX, MMX and SSE data. A crossbar (XBAR) unit is integrated into FPU pipe 1 to execute the permute instruction along with shifts, packs/unpacks and shuffles. There is an FPU load-store unit which supports up to two 128-bit loads and one 128-bit store per cycle.
FPU Features Summary and Specifications:
• The FPU can receive up to four ops per cycle. These ops can only be from one thread, but the thread may change every cycle. Likewise the FPU is four wide, capable of issue, execution and completion of four ops each cycle. Once received by the FPU, ops from multiple threads can be executed.
• Within the FPU, up to two loads per cycle can be accepted, possibly from different threads.
• There are four logical pipes: two FMAC and two packed integer. For example, two 128-bit FMAC and two 128-bit integer ALU ops can be issued and executed per cycle.
• Two 128-bit FMAC units. Each FMAC supports four single precision or two double-precision ops.
• FADDs and FMULs are implemented within the FMAC’s.
• x87 FADDs and FMULs are also handled by the FMAC.
• Each FMAC contains a variable latency divide/square root machine.
• Only 1 256-bit operation can issue per cycle, however an extra cycle can be incurred as in the case of a FastPath Double if both micro ops cannot issue together.Azt hiszem, lényegretörő és egyértelmű.
[ Szerkesztve ]
Arguing on the Internet is like running in the Special Olympics. Even if you win, you are still ... ˙˙˙ Real Eyes Realize Real Lies ˙˙˙
-
Abu85
HÁZIGAZDA
válasz hugo chávez #119 üzenetére
Nem feltétlen szükséges. Elérhető lenne C++-ból, csak fordító kell. Az AVX GPU-s támogatáson azonban nem éri meg gondolkodni. Pont a viszonylag kevés támogatott utasítás miatt fogyasztanak kevesebbet a GPU-k egységnyi számítási kapacitás mellett. Az AVX támogatásával ugyan nőne a lehetőségek tárháza, de kevesebb lenne a nyers számítási kapacitás, mert a chipdizájn bonyolódna és a fogyasztás drasztikusan nőne.
[ Szerkesztve ]
Senki sem dől be a hivatalos szóvivőnek, de mindenki hisz egy meg nem nevezett forrásnak.
-
hugo chávez
aktív tag
Igen, így már teljesen egyértelmű, köszi
(#121) Abu85:
"Az AVX GPU-s támogatáson azonban nem éri meg gondolkodni."
Na igen, dedikált GPU-nál nem érné meg, de én nem tartom lehetetlennek, hogy az Intel meg fogja lépni a jövőbeni (Haswell-t követő) APU/HPU-inál, mert, feltételezem, hogy így sokkal jobban együtt tudnának működni a "CPU" és a "GPU" magok.
[ Szerkesztve ]
"sajnos ez a beszélgetés olyan alacsony szintre jutott, hogy a továbbiakban már nem méltó hozzám" - by Pikari
-
dezz
nagyúr
válasz hugo chávez #119 üzenetére
128-bit FMAC = 128 bit FMUL + 128 bit FADD
ps. én nem programozom PC-n, ez leginkább P.H. asztala.
(#120) P.H.: "Azt hiszem, lényegretörő és egyértelmű."
Nem tudom, én számomra nem derült ki a szövegből egyértelműen, hogy mehet-e 2x128 bit FMUL + 2x128 bit FADD. De a gyakorlat azt mutatja (lást teszteredmények), hogy mehet, mert hogy nem lassabb, mint a 6-magos K10, hanem gyorsabb.
És ha így van, akkor nem tudom, miért nem tud 2x256 bit AVX-et.
-
P.H.
senior tag
Nem csak a teoretikus műveletvégzési sebességtől lehet gyorsabb(?), mint az X6, ez csak pár számot tartalmazó táblázat meg egy-egy ábra, amelyekből nem látszik, hogy pl. sokkal okosabban osztja/oszthatja el az végrehajtó egységek között a műveleteket (lásd pl. itt a 147. oldalt; nem nagy dolognak látszik, de pl. egy ilyen felezi vagy 2/3-olja az IPC-t K10-en is, ha nincsenek ennek figyelembevételével kézzel rendezve az asm-utasítások).
Az FPU-ban 4 execution port van, kettőre legfeljebb 128 bites FP-műveletek, kettőre pedig legfeljebb 128 bites integer-műveletek mehetnek -, órajelenként 1-1-1-1. Egy 256 bites AVX-utasítás 2 db 128 bites műveletre fordul le és így kerül be az FPU-ba. Az AMD-slide szerint 128 bites SSE, 128 bites AVX és 256 bites AVX esetén azonos a végrehajtási sebesség. Ez úgy alkot logikus egységet, ha egy-egy FLEX FP 2x 128 bit (8 SP vagy 4 DP FLOP) műveletre képes órajelenként. Ezt mondják az Opt. Guide-ban, a slide-on és az AMD-blogban (itt is a táblázatban).
Ha valóban ilyen jól sikerült nekik továbbfejleszteni pár "egyszerű" lépéssel az FPU-t, annak örülni kell; de nem kell beleképzelni további pár superior, még eltitkolt képességet; FLOP/órajelben ennyi van. Mostmár inkább az lesz érdekes, hogy mennyi lesz az órajel hozzá (akár a következő 1-2 generáción belül).
[ Szerkesztve ]
Arguing on the Internet is like running in the Special Olympics. Even if you win, you are still ... ˙˙˙ Real Eyes Realize Real Lies ˙˙˙
-
dezz
nagyúr
Oké, de ha valósak a tesztek, akkor nem csak az X6-nál gyorsabb, hanem a SandyB-nél is. Elképzelhetőnek tartod ezt fele akkora peak értékkel?
Vagy tegyük fel, nem valósak azok a számok. A Bulldozer nagyjából fele olyan gyors lesz (hasonló órajelen), mint a SandyB 256-bites AVX-ben -- és csak 128-bites SSEx/AVX-ben lesznek kb. egálban? Érdekes lesz/lenne...
Ha helyes az a 48-as szám a slide-on az X6-nál, akkor 1-1 magra és azonos frekire vetítve K10-hez képest is a fele lesz a peak 128-bites SSEx-ben és sima FP-ben. Ehhez képest ezt írják:
"The AMD Family 15h processor floating point unit (FPU) was designed to provide four times the raw FADD and FMUL bandwidth as the original AMD Opteron and Athlon 64 processors."
"kettőre legfeljebb 128 bites FP-műveletek, kettőre pedig legfeljebb 128 bites integer-műveletek mehetnek"
Ezt honnan lehet tudni?
-
P.H.
senior tag
Nem igazán értem, mire gondolsz, a számok valósak.
- a Sandy Bridge egy FPU-val futtat 2 szálat, egy FPU órajelenként 2 128 bites (8 FLOP) vagy 2 256 bites műveletet (16 FLOP) képes végrehajtani, azaz ráerőszakolva a gondolatmenetedet, szálanként 4 vagy 8 FLOP jut.
- a Bulldozer egy FPU-val futtat 2 szálat, egy FPU órajelenként 2 128 bites (8 FLOP) vagy 1 256 bites műveletet (ugyancsak 8 FLOP) képes végrehajtani, azaz a gondolatmenettel szálanként 4 FLOP jut.
Nekem 128 bites végrehajtás mellett ez azonosnak tűnik, nem "fele akkora peak" értéknek, AVX esetén a a Sandy Bridge 2x erősebb. Érdekes, nem érdekes, ez van. Ezenkívül 100 más dolog határozza meg azt, hogy mennyire lehet megközelíteni az elméleti maximumot.
Például K8 és K10.5 egyaránt 2 FLOP/órajel tempóval tudja végrehajtani az x87-es kódokat, mégis ennyi különbség van köztük ugyanannál a kódnál: c1 oszlop az IPC (1.6 vs 2.1), a soronkénti c2/c0 hányados megadja az órajelenként végrehajtott átlagos x87-műveleteket: 0.8 vs 1.05; (itt az alsó a program).Nem azt írták, hogy magonként négyszerezik a számítási kapacitást a K8-hoz képest, hanem FPU-nként.
Abból a teljes szövegből lehet tudni, amit #120-ba bemásoltam az Opt. Guide-ból, illetve innen (234. oldal):
[ Szerkesztve ]
Arguing on the Internet is like running in the Special Olympics. Even if you win, you are still ... ˙˙˙ Real Eyes Realize Real Lies ˙˙˙
-
dezz
nagyúr
A #115-ösben linkelt eredmények valóságosságára gondoltam.
Rosszul fogalmaztam, a fele akkora peaket az X6-hoz képest értettem, per mag.
Tudom, hogy sokminden beleszól. Az a kérdés, hogy ezzel a fele/mag, összességében tehát 2/3-os peakkel lehet-e ennyivel gyorsabb a gyakorlatban az X6-nál (nem csak kivételes esetben).
Mem tudom, miért ráerőszakolás /mag vagy /szál alapon hasonlítani.
Itt FPU-nként sincs négyszerezés... Kétszerezés van, de 2-magonként 1 FPU.
Három pipe-nál látok ott AVX-et. Vagy az egy sorban lévők mehetnek egyszerre?
-
P.H.
senior tag
Azért ráerőszakolás, mert
- ha (Intel-nél) egy magon vagy (AMD-nél) egy modulon egy szál fut, az kihasználhatja a teljes rendelkezésre álló mozgásteret
- ha egy-egy szál legalább átlagosan 1.0 FP-műveletet képes indítani órajelenként, már akkor is kihasználja két szál mind a Bulldozer, mind a Sandy Brige FPU-ja által nyújtott lehetőségeket, az X6-ét viszont még messze nem, ott így is lassabb lesz, mint "lehetne".
- 1.0 felett már akár akadályozhatják egymást, így szálanként akár lassabbak lehetnek egy X6-on futó szálhoz képest, de itt 4 modulos Bulldozer esetén is 8 szálról beszélünk, ahogy 4 magos Sandy Bridge-nél is.A K8-hoz képes egyrészt kétszeres a 64->128 bit szélesítés miatt, további kétszeres az FMA-képességgel; 2 FMA utasítás 2-2 FADD+FMUL-nak felel meg. Persze ez kissé marketingízű
Mégsem olvastad el a teljes szöveget:
"In addition to the two FMACs, the FPU also contains two 128-bit integer units which perform arithmetic and logical operations on AVX, MMX and SSE packed integer data.
A 128-bit integer multiply accumulate (IMAC) unit is incorporated into FPU pipe 0. The IMAC performs integer fused multiply and accumulate, and similar arithmetic operations on AVX, MMX and SSE data."
Összhangban van a kettő; (lebegőpontos) fmul-fadd-fmac csak két egységen van jelölve.[ Szerkesztve ]
Arguing on the Internet is like running in the Special Olympics. Even if you win, you are still ... ˙˙˙ Real Eyes Realize Real Lies ˙˙˙
-
dezz
nagyúr
Sőt, a táblázat alapján a kétszerezés is csak akkor igaz, skalár FP esetén, ha egyszerre akarunk 2 FMUL-t vagy 2 FADD-ot. 1 FMUL + 1 FADD esetén, úgy tűnik, nincs változás. SSEx esetén szintén nem látok változást. És itt a változás hiánya fele peak/magot jelent... Ez valahogy nem áll össze.
-
hugo chávez
aktív tag
Még valamit nem értek: azon a slide-on, amit te és Abu mutattatok, az van, hogy a Sandy FPU-ja nem tud 2 128 bites AVX utasítást végrehajtani egy ciklus alatt (miért ne tudna?), de a "FLOPs/cycle (128-bit AVX)" részhez már 32 (ami ugye FPU-nként 2x128 bit) van írva. Akkor ez hogy van? Én néztem volna be valamit, vagy az AMD anyaga még annál is nagyobb bullshit, mint ahogy eddig gondoltam?
[ Szerkesztve ]
"sajnos ez a beszélgetés olyan alacsony szintre jutott, hogy a továbbiakban már nem méltó hozzám" - by Pikari
-
P.H.
senior tag
válasz hugo chávez #132 üzenetére
Abból az alapfeltevésből kell kiindulni, hogy a konkurencia a termékéről nem állíthatnak valótlanságot (házon belül azt mondanak, amit akarnak, ezért került X6 a táblázatba, nem Magny Cours, ezesetben a 48 helyén 96 szerepelne ; de nyilván nem szerencsés itt sem nagyon kozmetikázni).
Azzal a két sorral arra utalnak, hogy az Intel-nél 1 FADD- és 1 FMUL-jellegű 128 bites utasítás indítható órajelenként a két specializált végrehajtó egység miatt, X6-nál szintúgy, az AMD 2 FMAC portja viszont általános, a fentiek bármilyen kombinációját kezeli órajelenként. Ennek kézzelfogható jelentősége főleg 2 szál párhuzamos futtatása esetén van, kevésbé "tartja fel" egymást a két thread.
[ Szerkesztve ]
Arguing on the Internet is like running in the Special Olympics. Even if you win, you are still ... ˙˙˙ Real Eyes Realize Real Lies ˙˙˙
-
hugo chávez
aktív tag
"Azzal a két sorral arra utalnak, hogy az Intel-nél 1 FADD- és 1 FMUL-jellegű 128 bites utasítás indítható órajelenként a két specializált végrehajtó egység miatt, X6-nál szintúgy, az AMD 2 FMAC portja viszont általános, a fentiek bármilyen kombinációját kezeli órajelenként."
Rendben, ez így logikusnak tűnik, de akkor az AMD-nek ezt kellett volna odaírnia, nem azt, hogy a Sandy FPU-i nem képesek egy ciklus alatt két 128 bites AVX műveletre, mert ez nem igaz. Azt, hogy leírnak egy kritériumot, a többit meg hozzágondolják (mármint, hogy nem csak 1 FADD és 1 FMUL, hanem vagy 2 FADD, vagy 2 FMUL végrehajtására is képes legyen ciklusonként) és utána a hozzágondolt extra kritériumnak nem megfelelőnek nyilvánítják a konkurencia termékét, inkább nem akarom minősíteni. (Ilyen húzásra inkább az Intel-től számítana az ember... )
[ Szerkesztve ]
"sajnos ez a beszélgetés olyan alacsony szintre jutott, hogy a továbbiakban már nem méltó hozzám" - by Pikari
-
Kotomicuki
senior tag
Mindig tanul az ember, köszönöm a "vitát" a benne résztvevőknek!
Számomra ebből az szűrődött le, hogy az AMD még sem adja fel és megpróbál felnőni a feladathoz:
Ha már nem tudja a CPU-erőben befogni ellenfelét, akkor megduplázza a végrehajtó egységek számát - ez az nV ellen nagyjából bevált, "képösszerakó"-GPU szinten. Míg az FPU-t kicsit univerzálisabbá téve javítja annak teljesítményét.
Gondolom, majd ha kijön mindkét újdonság (Bull., HD 7k), és az ezen kettős közös erejét kihasználó programok (Catalyst szinten ez már megvalósítható lenne, vagy feltétlenül "külsős" támogatást igényelne? - Ha az első eset (jól!) megvalósítható lenne... ), akkor nagyot billen(het) a mérleg, eddig nem túl kedvezően álló nyelve az AMD felé - csak valóban jöjjenek azok a programok.
(Szegény, iNtel által megvásárolt, programfejlesztők: a 128 bites AVX-t sem tudták még rendesen alkalmazni/kihasználni, erre a 256 bitest kell majd mostantól erőltetniük... - kár, hogy nem építőjellegű okokból!)Vajh, hol tarthatnánk már, ha egymást erősítené (amivel - ezek szerint hamisan - érvelnek a jelenleg fennálló rendszer mellett) és nem egymást gátolná (sajnos, ez most a valóság - ha egy csoport monopolhelyzetbe kerül...) a konkurenciaharc - nem csak az informatikában...
A regisztrációdat véglegesen kitiltottuk a következő ok miatt: III.10.8 Üdvözlettel: PROHARDVER!
-
bognar110
őstag
Én szerintem FX-8100 vagy FX-6100 fogok venni persze miután megtudom majd hogy mennyibe fog kerülni.
-
Mozsa
tag
Hát jöhetne az amd egy erős procival, nagyon ráférne.
-
SteaMMouse
csendes tag
Nem tudom mennyi aktuális a dolog így 2 évvel később, de mennyire jó/rossz döntés beruházni egy 8150-re?
https://steamcommunity.com/id/BoldiHUN/
-
Rypejakten
addikt
válasz SteaMMouse #138 üzenetére
abszolút nem éri meg, akkor már inkább Vishera alapú FX8320-at vegyél.
-
SteaMMouse
csendes tag
válasz Rypejakten #139 üzenetére
Köszönöm szépen a tanácsod!
https://steamcommunity.com/id/BoldiHUN/
-
SteaMMouse
csendes tag
Csak így még egy kérdés.
FX8320 vagy 8350? Tudom nem olyan kifejezetten apró órajel különbségről beszélünk, de megéri-e egy jóvalta olcsóbb 8320 megvásárlása és túlórajelezése vagy inkább fektessek bele jóvalta többet és akkor már egy 8350 jobb választás lenn? Tudom a túlórajelezés nem mindig a legjobb választás. De azért 20 000 Ft ide vagy oda (legalacsonyabb különbség is 14 000) azért igenis számít.https://steamcommunity.com/id/BoldiHUN/
-
stratova
veterán
válasz SteaMMouse #141 üzenetére
20-ért már olyan léghűtést kapnál, hogy az FX földig hajol. De szerintem FX-8320 + Scythe Ashura. Sőt megkérdezheted a témájában, itt is. A szűk keresztmetszet esetleg az alaplapod lehet még a 4 +1-es VRM miatt, de esélyesen gyári FX-8350 órajelre egy FX-8320 is belőhető benne. Gondolom a 4.0 GHz-es 965-öt egy erősebb táp szolgálta, ha amúgy az a proci szépen muzsikál csak komoly multi esetén váltanám le FX-re mert c2c jobb a Phenom II egy szálon. Ha az FX vagy az OFF klubtagok között árulja valaki a portékáját, annak az előélete gyakran visszakövethető. Ha nem feszelték agyon, használtan érdekesebb lehet.
[ Szerkesztve ]
-
SteaMMouse
csendes tag
válasz stratova #142 üzenetére
Huhh ez szép terjedelmes válasz volt! A linkekért pedig külön nagy köszönet.
Ami azt illeti a váltásra azért kerül sor, mert 3D modellezéssel foglalkozom (3DS MAX, Adobe AE 3D animálás, apróságok). Ezek pedig már bizonyítottan keresztbe megették a gépem (azóta próbálok újítgatni, most készülök procit javítani, utána pedig a későbbiekben, ha nagyobb projektekhez is érek még RAMot is). Minden esetre köszi a tippet&tanácsot. Eddig sajnos nem igazán forgolódtam FX körben, denagyonlassan gatyába rázom magam. Köszi mégegyszer![ Szerkesztve ]
https://steamcommunity.com/id/BoldiHUN/
-
stratova
veterán
válasz SteaMMouse #143 üzenetére
Szerencsés egybeesés, hogy ez éppen az a terület ahol már FX-8320 is veri Phenom II 1100T-t mind, teljesítmény mind fogyasztás/teljesítmény terén alapon és húzva is.
[ Szerkesztve ]
Új hozzászólás Aktív témák
- BESZÁMÍTÁS! ÚJ Intel Core i5 11400F / i9 11900KF / i9 11900K tálcás processzorok 27% áfás számlával
- Beszámítás! Intel Core i3 10105 4 mag 8 szál processzor garanciával hibátlan működéssel
- i3 8100/ ingyen automata
- i7 7700k
- Beszámítás! Intel Core i3 9100 4 mag 4 szál processzor garanciával hibátlan működéssel
Állásajánlatok
Cég: Promenade Publishing House Kft.
Város: Budapest
Cég: Ozeki Kft.
Város: Debrecen