Új hozzászólás Aktív témák
-
S_x96x_S
őstag
Szerintem te még a Monolitikus chipeket szeretnél látni ( közös cache-el ) - de már nem ez a trend az AMD-nél.
>Első körben szvsz a nagy gyengeségek befoltozásának kellett volna prioritást adni,
Szerintem ez történt.
- Infinity Fabric-ot csiszolgatták ( second generation IF )
- AVX2 -öt duplázták
- "Optimized IO die improves latency and power"
- Security"
Zen 2
- World's first 7nm High Perf x86 CPU
- CPU Core Execution Enhancements
- 2nd Gen IF
- More Security Elements
- Modular Design
- Improved pipeline, DOuble loading point and load store
- Doubled core density
- Half energy per operation
- Improved branch predictor
- Better instruction pre-fetching
- Re-optimized instruction cache
- Larger op-cache
- FP with to 256-bit
- Doubled load/store bandwidth
- Increased dispatch/retire
- Maintained high throughput modes
- Security
- Memory Encryption with Increased Flexibility
- Hardware enhanced spectre mitigations
- Zen introduced a multi-chip approach
- Enabled configurability, increased peak compute
- Zen 2 Each IP is its optimal technology
- 14nm IO die
- 7nm CPU chiplets
- Optimized IO die improves latency and power
- Revolutionary new approach
">oda pedig jól jött volna a 8 magos CCX közös L3-mal.
Szerintem nem az volt az igazi szűk keresztmetszet, ami visszafogta a teljesítményt,
hanem az első generációs Infinity Fabric - és ezt most jelentősen átdolgozták.
Persze a ZEN2-eseknek máshol lesz már a szűk keresztmetszete.Az igazi teszteknél majd megtudjuk a valóságot - de szerintem igéretes lesz a ZEN2
[ Szerkesztve ]
Mottó: "A verseny jó!"
-
#95904256
törölt tag
Nem feltétlenül nyereség ha kétszer annyi mag osztozik egy dupla méretű L3-on.
Mindkét tényező ( magok száma, méret ) hátrányosan befolyásolja a késleltetést.Persze így megmarad az a tulajdonság, hogy az adott chipleten belül sem egyforma sebességgel férnek hozzá egymás adataihoz a különböző magok. Lehet hogy ez furcsa, de nem "gyengeség". Pl. több foglalatos rendszerek esetében is hasonló a helyzet. Fura, de ez van.
[ Szerkesztve ]
-
S_x96x_S
őstag
>Az, hogy 4x mag / CCX az szerintem egy masszív szűk keresztmetszetet teremt
> ami érezhető mind asztali mind szerver fronton.mivel nincsenek még független ZEN2-es tesztek,
vagy ami infó van - az jelentős IPC növekedésről szól
emiatt az "érezhető szűk keresztmetszet" egészen máshol lesz mint ahol bárki várná - főleg az ZEN1 alapján spekulálva.Ha az I/O die-ban valóban lesz egy böszme nagy L4-es cache, akkor csak picit fogod érezni a különbséget.
Valamint az L3 cache is a duplája lesz.Szerver és HPC fronton a szűk keresztmetszet az Infinity Fabric volt.
Valamint valószínüleg 8 magos ccx-et tervezni most nem fért bele az időbe.egy 4 magos CCX-nek megvan az az előnye, hogy
- ZEN2-es(7nm) Athlon procikat (max 4 mag )
- olcsó notebook APU-kat
- olcsó konzol chipeket ( semi custom )
lehet belőle összelegózni.Ha igazán jól (skálázhatóak ) az Infinity Fabrik(v2) -
akkor oly mindegy , hogy 4core-os ccx -ből vagy 8core-os ccx-ből van összelegózva.az Infinity Fabrik(v1) -nek a skálázhatóság volt a fő baja, a ccx-ek keresztbe-kasul kommunikáltak.
Hiába cseréled led a 4 magos ccx-et -> 8magos ccx-re , a skálázhatósági probléma ugyanúgy fenmarad.Nézd meg dupla annyi magot javasolsz - ugyanakkora adatkapcsolatra ?
Nekem úgy tünik - hogy még rosszabb lesz az eredmény.Nem a ccx-ekkel van a gond, hanem az összeköttetésekkel. A masszív szűk keresztmetszet - a kapcsolatokban van.
bővebben:
https://fuse.wikichip.org/news/1064/isscc-2018-amds-zeppelin-multi-chip-routing-and-packaging/Mottó: "A verseny jó!"
-
S_x96x_S
őstag
Januárban megtudjuk - az biztos, hogy más elképzeléseink vannak a szűk keresztmetszetről.
Ez nem baj.összefoglalva az álláspontom:
---------------------
A 4magos ccx -> 8magos ccx-re való cseréből csak a programok egy része profitál, ott is akkor ha belefér az L3 cache-be, ha nem fér bele, akkor gáz .. és azt se növelheted a végtelenségig.
viszont abból, hogy az I/O die segítségével jobb latency-t és bandwidth -et igérnek, abból minden program profitál és mellette még skálázható is.
Valamint a ccx-ek mostani felépítésének megtartását az egyre jobb (szoftveres) ZEN1-es optimalizáció is elősegiti. Mind a windows mind a linux egyre jobban tudja kezelni a ZEN1 architektúriát.
A ZEN1 -nek a " latency + bandwidth." volt a szűk keresztmetszete. és ezen javítottak rengeteget!
persze ez csak az igéret. majd meglátjuk a tesztekben.""
C: With all the memory controllers on the IO die we now have a unified memory design such that the latency from all cores to memory is more consistent?MP: That’s a nice design – I commented on improved latency and bandwidth. Our chiplet architecture is a key enablement of those improvements.
"The architecture with the central IO chip provides a more uniform latency and it is more predictable."
------
persze nem biztos, hogy jól látom.
De szerintem ezt a témát az AMD mérnökei eléggé kielemezték. és nem véletlen, hogy ezt az arhitektúrát alakították ki.
Nem hiszem, hogy azért választották ezt az architektúrát, hogy lassabb legyen a ZEN2.------
Mottó: "A verseny jó!"
-
paprobert
senior tag
Kétség ne férjen hozzá, a CCX-en belüli kommunikációhoz is tranzisztorok kellenek. Részben valószínűleg ezért is maradtak a 2*4-es felosztásnál, mert ez egy hatékony csoportosítás. A belső magok 8-ra emelése valószínűleg nem csak duplázta volna, hanem még tovább hízlalta volna a szükséges összeköttetéseket.
A méretnövekedés pedig megakadályozott volna elég sok mindent. Alacsonyabb órajelek, nagyobb lapkaméret, több defekt, és ezzel akár egy ilyen 64 magos Epyc összerakása is megkérdőjelezhetővé válna.
640 KB mindenre elég. - Steve Jobs
-
S_x96x_S
őstag
>Nekem nem a CCX- koncepcióval magával van gondom, ...
> hanem azzal, hogy ezek _mellett_ a 4mag/CCX dologhoz nem nyúltak
> és nem bővítették. (6 vagy 8 mag per CCX)Ha én elkezdem analizálni a problémát ( Root cause analysis ) akkor rákérdezek
Q: miért is gyorsabb a monolitikus design ( több mag összedrótózava ) mint a ccx/chipletes?
A: " latency + bandwidth."
Q: Hogyan lehet ( " latency + bandwidth.") -en javítani ?
A: Több féleképp.
A1: picivel több magszám: (6vagy8) - de ez nem skálázható - csak részben oldja meg a problémát
A2: picivel több programszál (thread) hasonló mint az A1.
A3: I/O Die , Áttervezett Infinity Fabric ( skálázható megoldás ) Főleg mivel a GPU kapcsolatot is megoldja.Szóval akkor az A3 -re kell tenni most a fókuszt mert az a szűk keresztmetszet. Ha ezt áttervezzük, akkor mindenhol érzékelhető teljesítménynövekedést kapunk.
Megoldja az APU ( " latency + bandwidth.") ( CPU - GPU kapcsolódási ) problémát.De mi legyen majd a ZEN3 -ban és a ZEN4 -ben?
Ha a ChipHell -es legújabb infó igaz, akkor
Zen 3: SMT4
Zen 4: AVX512az SMT4 - 4 szállat jelent. Az IBM Power most SMT8-nál tart.
( "POWER8 provides eight SMT hardware threads/core (or SMT8)" )Vagyis ha igazak a pletykák, akkor az AMD a több szállas utat ( is ) választotta
Persze ettől még lehet másik ccx-e is az AMD-nek. ( volt erről pletyka , hogy kétféle ccx-lesz )
mindenesetre valami ok miatt az EPYC2 -ben ilyen várható.De az is lehet, hogy a program rosszul olvasta ki az L3-as cache-t , volt ilyen tipp is.
Vagyis nem lehet tudni semmi biztosat.
A teljesítményre meg végképp nem lehet következtetni azon kivül, amit az AMD eddig is megadott IPC ügyben.[ Szerkesztve ]
Mottó: "A verseny jó!"
-
#65675776
törölt tag
Mert melyik része nem igaz? Téglából is lehetne akkorát gyártani, hogy 2-3 elég legyen egy egész falhoz. Max a kemencébe rakott példányoknak jó esetben a 5-10%-a lenne használható, és ami jó sem használható annyira hatékonyan, rugalmasan. Vannak előnyei a monolitikus chipeknek is, de legalább annyi hátrányuk is, ha nem több. A gyárthatóság egyre nagyobb probléma lesz, elvégre az egyre kisebb csikszélességek egyre drágábbak, tehát a rossz kihozatal egyre nagyobb veszteséget jelent. Nem véletlen, hogy a nagyobb szerverprociknál az intel is MCM-et használ inkább megint. Egy akkora monollitikus CPU csak nagyon alacsony kihozatallal lenne gyártható. Még szerverpiaci árréssel számolva sem érné meg.
-
S_x96x_S
őstag
>Azt mondtam, hogy a 4mag/CCX egyértelműen visszafogja az architektúrát.
32, 48 és 64 (128 !?) magnál extrém minimális az a visszafogás amitől te tartasz.
és itt már a most javított I/O die (Lattency+bandwith) számít.
egy 8 magos AM4-es procinál persze ez is fontos lehet,
de egy erre optimalizált AM4-es I/O die -al itt is lehet (Lattency+bandwith) hasonlóan emelni a sebességet.durva példa:
- I/O die (L4?) cache - hozzáad mindenhez +12% sebességet.
- Az L3 cache szintén hozzáad +3 %-ot
- A 2x 4ccx -es kivitel - meg néhány esetben levesz 5% sebességet.Ha jól csinálják, akkor a pozitiv fejlesztések ellensúlyozzák a néha megjelenő hátrányt a 4magos ccx -es kiviteltből eredendően.
Mottó: "A verseny jó!"
-
S_x96x_S
őstag
>Honnan veszed, hogy "extrém minimális" lesz sok mag mellett?
>ezek pedig jelenleg a CCX<-IF->CCX kommunikációra vezethetőek vissza.64 magnál ugyanúgy megmaradnak a CCX-ek - nem lesz monolitikus design.
úgyanúgy kell kommunkálni.
A te javaslatoddal csak részben lett megoldva a probléma.
Viszont a többi fejlesztéssel ezt a problmát minimalizálni lehetett.A ZEN1 érzékeny volt a memórisebességére és a késleltésre. Ha ezt lecserélik és duplázzák az L3-at,
akkor a te általad jelzett ZEN1-es problémát minimalizálták.A mostani konkurenciával meg hiába hasnlítod össze. extrém magszám felett ők is ragasztóznak.
>Deszktopon ez úgy tűnik semennyire nem fog változni,
>ugyanúgy megmarad a <4-mag> <=IF=> <4-mag> rendszer
>mint potenciálisan szűk keresztmetszet kicsit javított késleltetésekkel.Az Intel monolitikus designjával ne hassonlítsd össze, főleg mert
az új Intel desing (dual-ring?) meg lehet, hogy másolja az AMD-t.
"
There is also some suggestion Intel might utilise a dual ring bus design for this Comet Lake chip, instead of the single ring bus used for the i9 9900K, or the mesh design picked up by the similarly ten-core i7 7900X and upcoming i9 9900X. That’s an intriguing thought and could possible suggest a move to something more akin to AMD’s CCX design.With this Comet Lake rumour that would potentially suggest a pair of either five- or six-core chips (with one core disabled) arrayed in a similar way to the quad-core CCX of Ryzen. And that sort of setup will need a whole lot of space.
"
https://www.pcgamesn.com/intel-comet-lake-cpu-10-core-14nmHa az Intel össze tud rendesen ragasztózni 2 chipletet - akkor az AMD-nek is képesnek kell lennie rá.
>Játékokban ez továbbra is vissza fog ütni.
meglátjuk mivel kompenzálja ezt az AMD. Ha lesz egy böszme nagy L4-es cache, akkor kevésbé lesz érzékeny a DDR4 memória sebességére , jobb lesz a játékoknál is.
és nem lehet annyira észrevenni mint most.Mottó: "A verseny jó!"
-
#95904256
törölt tag
Nem egészen értem, hogy miért látod jelentős problémának, hogy csak 4 mag osztozik az L3-on és a többi magot csak buszon keresztül tudják elérni. Nézd meg pl. a sokmagos Intel szerverprocesszorok felépítését ( Skylake-SP ):
Itt minden mag a buszon csücsül a saját kis L3 cache darabkájával. Ők sem problémáztak rajta.[ Szerkesztve ]
-
#95904256
törölt tag
0: Ha a linkelt tisztben valóban a CCX-ek közti kommunikáció miatt szerepelt rosszul a ZEN, akkor jó hírem van. A Zen2-ben sokkal kisebb késleltetésű lesz az IF, így máris jelentősen csökken az értelme annak, hogy 4mag/CCX-ről egy lassabb L3-mal rendelkező, de 8magos CCX-re váltsanak.
1: Az általad linkelt tesztben szereplő Intel processzorokban még több és kisebb részből áll össze az L3. Mégis jobb eredményt produkálnak, nahát... lehet, hogy mégsem itt van a kutya elásva.
2: "Az Intel topológiában amit linkeltél, még így is sokkal alacsonyabb a cache késleltetés" Feltetted a kérdést, hogy vajon miért? Azért mert a gyűrűs buszuk jóval kisebb késleltetésű. Jó hírem van! A Zen2-ben sokkal kisebb késleltetésű lesz az IF!
Nahát, két pontban is az jött ki, hogy inkább a magok közti busz sebességére kell gyúrni.
Szóval érted, az a probléma amit említettél orvosolható azzal, hogy erre gyúrnak.
Új hozzászólás Aktív témák
- Bundle topik
- cigam: Milyen NAS-t vegyek?
- Androidos tablet topic
- A Play Áruházban is fellelhető a legjobb Samsung segédalkalmazás
- Politika
- Milyen légkondit a lakásba?
- Sorozatok
- Samsung Galaxy S23 és S23+ - ami belül van, az számít igazán
- Xiaomi 13T és 13T Pro - nincs tétlenkedés
- Samsung Galaxy Watch4 és Watch4 Classic - próbawearzió
- További aktív témák...
Állásajánlatok
Cég: Ozeki Kft.
Város: Debrecen
Cég: Promenade Publishing House Kft.
Város: Budapest