Új hozzászólás Aktív témák

  • Petykemano

    veterán

    válasz Cathulhu #779 üzenetére

    Azt néhány benchmarknál láttuk, hogy hogy megtáltosodott, amikor hirtelen belefért az 512Kb L2$-be.
    Nyilván egy L4$ nem rendelkezik olyan késleltetéssel, mint az L2$, de ha egy nagyobb méretű cache rendszermemóriánál jobb késleltetéssel bír, az néhány százalékot biztos segít. Sőt!
    Az L3$ esetén is már tapasztalható volt, hogy nem minden szelet érhető el ugyanolyan késleltetéssel egy adott mag irányából. Ha egy nagyobb L4$-t is hasonlóan építenek fel, ami magának prefetchel a rambó', defragmentál, és a sűrűn használt adatokat áthelyezi az alacsony késleltetésű rekeszekbe, akkor az szépen gyorsíthatja a rendszert. Akár 3D, akár io die, hovatovább később akár maga az interposer is tartalmazhatja ezt.

    A zennel kapcoslatban én már felvetettem, hogy vajon van-e egyáltalán inter-CCX kommunikáció. Lévén, hogy victim cache az L3, amibe csak akkor kerül be valami, ha adott CCX-ben egy mag L2-jéből kihullik. Az Intel egy mérését láttam, ők 103 vs 105 ns-ra mérték ki az interCCX és a RAM kommunikációját, ami annyira kicsi különbség, hogy felvetődhet a kérdés, hogy érdemes-e egyáltalán tökölni vele. Nekem annyira gyanús, hogy nincs, hogy nagyon és bízom benne, hogy pusztán az inter-CCX kommunikáció létrejöttével megoldódnak a core-hop miatt tapasztalt lassulási jelenségek. Ez persze pusztán csak egy elmélet.

    Én mindenesetre remélem, hogy a zen2-vel fogunk látni még L4$-t.

    A HBM-et úgy értettem, hogy az interposeres kapcsolat a 2.5D, de akkor ezek szerint így van.

    Találgatunk, aztán majd úgyis kiderül..

Új hozzászólás Aktív témák