Keresés

Aktív témák

  • dark100

    aktív tag

    válasz robisz #7 üzenetére

    Sajnos nem igazan valik be. Erdemes kiprobalni, en is igy inditottam :)
    Csak nem jott be. Azutan gondolkoztam el a vereseg okain. A valasz fajoan egyszeru. Csak a kiszamithato informaciok tomorithetoek hatekonyan! Ha szetszedsz egy file-t, akkor informaciot kell arrol tarolnod, hogy eredetileg mi hol volt benne (ez egy redundans informacio!). Ezen informaciot radasul tarolnod is kell, megha tomoritve is (no a meret). Radasul a szetszedes nem is feltetlenul optimalis! A zip ismetleskereso algoritmusa tapasztalataim szerint jobban teljesit mint az ember altal ugymond okosan keresett ismetlesek.... Keress kiszamithato informaciokat! Pl ha a fileban minden / utan > van, akkor ez kiszamithatova tesz valamit, es maris hatekonyabb lesz a tomorites!

    Ingyenes software == A mezeskalacs haziko a Jancsi es Juliskaban. Es != szabad software

  • dark100

    aktív tag

    válasz robisz #10 üzenetére

    Altalaban azon szokott elcsuszni a dolog, hogy az ember elhiszi amit mondanak de nem probalja ki. Es nagyobb szoveges file-okat nyilvan a bzip2-hoz illik hasonlitani. Mindenesetre fel akartam hivni a lehetseges bukkanokra a figyelmet. Amugy ha kesz az egesz akkor erdekel hogy milyen hatekonysagul lesz.

    Azert megegyszer a tomoritessel kapcsolatos altalnos tapasztalataim:

    1. mindig keruld a redundans informaciokat. Pl hogy valamit kivagsz, es egy mutatot teszel ra.

    2. mindig talald meg a fellelheto szabalyokat es irts amit lehet. Ha pl a kocsi mindig attributum nev, es mindig van elotte egy szokoz utana meg egy ='' akkor maris van 3 karaktered amit 100% hatekonysaggal kivegezhetsz a filebol.

    Ingyenes software == A mezeskalacs haziko a Jancsi es Juliskaban. Es != szabad software

  • dark100

    aktív tag

    válasz robisz #13 üzenetére

    Egyszeru. Az 1 redundans informacio :) A zip jobban fel fogja a tageket ismerni, es radasul meg a kornyezetuket is felhasznalja. Tehat a tagot mindig attrib1='' koveti, akkor azt is hozzacsapja, ha tag elott mindig 3 tab es < van akkor azt is, de ha a tag mindig ujsorba kezdodik akkor az enter-t is stb, ha az elozo sor vegen mondjuk mindig ''> van akkor azt is, stb. Ezt megcsinalja az xmill?

    Egyszeru pelda:
    Melyik lesz kisebb tomoritve: Ha byte-okat tarolsz, vagy ha minden byte helyett annak hexadecimalis (0-9 A-F) vagy binaris formajat (csak 0 es 1)? Ugye a naiv ember ravagja, hogy ezek alapvetoen azonos informaciot hordoznak, valoszinu egyforma meretuek lesznek. Hat nem...

    Tomoritesben redundansnak hivjuk azt az informaciot ami kiszamithato. Az 1-esnek kiszamithato erteke van, hiszen az a hosszunev beillesztheto a helyere. Kov: a hosszuneves forma jobban lesz tomoritheto. A zipnek egy benasaga van, hogy csak 32 kbyte-ra hajlando visszanezni ismetlesek keresesenel. (torteneti okok) Ezen a ponton lehet megfogni. (valszeg az XMILL is ezert javit, hiszen ha a tagbol sok van, de 32 kbytenal nagyobb tavolsagra szetszorva, akkor a zip megszivja). Probalj ki olyat aminek nincs ilyen korlatja, pl bzip2.

    Ingyenes software == A mezeskalacs haziko a Jancsi es Juliskaban. Es != szabad software

  • shev7

    veterán

    válasz robisz #15 üzenetére

    Abba gondolj bele, hogy a hosszunev az altalaban csak tagkent fordul elo a szovegben, igy egyertelmuen tomoritheto, mig ha raksz a helyere egy 1-est, ami mas kornyezetben is elofordul a szovegben, akkor ez noveli a szotarmeretet, es rontja a tomorites hatasfokat.

    Szerk:
    Redundanciara visszaterve. Az egyesek redundanasak, mert plussz informaciot nem hordoznak. Nem, az hogy ott vannak az nem plussz informacio. Hiszen a tomoritonek jobb lenne, ha nem lennenek ott, ahogy mar az elobb kifejtettem

    [Szerkesztve]

    ''Gee, Brain, what do you want to do tonight?'' ''The same thing we do every night, Pinky: Try to take over the world!''

  • shev7

    veterán

    válasz robisz #18 üzenetére

    (1ébként az xml struktúrát és az adatokat külön tömöríti az xmill, tehát
    nem fordul elő más szövegkörnyezetben)


    Azert ez erdekes lenne. Az adatok koze be kell tenni egy markert, hogy melyik adat hova tartozik, akkor viszont a szerkezet mar benne van az adatokban, es ujra elojon a redundancia.

    ''Gee, Brain, what do you want to do tonight?'' ''The same thing we do every night, Pinky: Try to take over the world!''

  • shev7

    veterán

    válasz robisz #20 üzenetére

    ha egy fileban vannak, akkor nem kellenek a pointerek. Ez egy olyan struktura amiben a pointerek elhagyhatoak, tehat redundanciat hordoznak.

    Szrek.: ha jol tudom ezek az eljarasok mar elege kozelitenek a maxmimumhoz hatekonysag teren.

    [Szerkesztve]

    ''Gee, Brain, what do you want to do tonight?'' ''The same thing we do every night, Pinky: Try to take over the world!''

  • shev7

    veterán

    válasz robisz #22 üzenetére

    A példában amit írtam az 50000 karakterből 2500 lett... a te logikád
    alapján mondhatnám én is, hogy az eredeti xml redundáns, mert
    tartalmaz 47500 felesleges karaktert.


    En arrol beszelek hogy a tomorites soran ugyis az ismetlodesek lesznek kikuszobolve. Attol, hogy lecsokkented a file meretet, az informaciotartalmat nem csokkented le, a tomorites merteke meg nem a file eredeti meretevel van osszefuggesben, hanem az eredeti file informaciotartalmaval...

    ''Gee, Brain, what do you want to do tonight?'' ''The same thing we do every night, Pinky: Try to take over the world!''

  • robisz

    senior tag

    válasz robisz #25 üzenetére

    Mellesleg az információtartalmat nem is szeretném lecsökkenteni....
    azt már veszteséges tömörítésnek hívják... :U

  • shev7

    veterán

    válasz robisz #25 üzenetére

    Arrol beszelek, hogyha az ismetlodesek lesznek kikuszobolve, akkor mi ertleme csokkenteni egy tag hosszat, ha a tomoritonek mindegy, hogy eredetileg milyen hosszu volt?

    ''Gee, Brain, what do you want to do tonight?'' ''The same thing we do every night, Pinky: Try to take over the world!''

  • shev7

    veterán

    válasz robisz #26 üzenetére

    Ha nem csokkented az informaciotartalmat, akkor egy bzip elott felesleges barmit csinalnod a filelal, mivel ez az algoritmus szinte a maxmalis hatekonysagu. Erre akarok kilyukadni.

    ''Gee, Brain, what do you want to do tonight?'' ''The same thing we do every night, Pinky: Try to take over the world!''

  • shev7

    veterán

    válasz robisz #29 üzenetére

    A redundanciat nem a karakterek szamaval merjuk. :)

    ''Gee, Brain, what do you want to do tonight?'' ''The same thing we do every night, Pinky: Try to take over the world!''

  • shev7

    veterán

    válasz robisz #31 üzenetére

    A tomoritett filban nincs redundancia (idealis esetben) a tomorito pedig nem karakterekkel dolgozik, hanem ismetlodo karaktersorozatokkal.

    Szerinem most te nagyon kevered itt a redundanciat es a tomoritest. Az XML nem attol ''redundans'' hogy hosszu egy tag neve, hanem attol, hogy sokszor fordul elo.

    Ha te ''pointerekkel'' csokkented a file meretet akkor olyan redundanciat viszel a fileba (redundancia, mert a ponter mondja meg, hogy hol legyen az adat, pedig akar az adatot is irhatnad oda) amivel a tomorito nem igazan tud mit kezdeni.

    [Szerkesztve]

    ''Gee, Brain, what do you want to do tonight?'' ''The same thing we do every night, Pinky: Try to take over the world!''

  • dark100

    aktív tag

    válasz robisz #33 üzenetére

    Huha latom hatalmas duma volt :)
    Es igen jol ramentetek a lenyegre. A file-nek van informaciotartalma es van hossza. Szamos modszer van ami meretet valtoztat de informaciot nem.

    De amugy egy jo otlet mar elokerult: Az XML alapvetoen egy fa adatszerkzetet tarol, ahol minden nyitotagnak van zarotagja. Ennek a zarotagnak a tartalma kotelezo.

    Pl: <tag1> <tag2> </itt muszaly tag2nek lennie> </itt muszaly tag1nek lennie>

    Namarmost akkor a zarotagok helye ugyan nem, de tartalmuk egyertelmuen szamithato. Ez AZ a szamithato informacio, amire egy zip tomorito nem johet ra! A zarotagok kiiritasaval a file valoban egyszerusodik a masodrendu tomorito szamara. Ha mondjuk pointerekt raksz informacio helyere, azzal nem egyszerusites, csak atnevezel. Ha pl teged Karcsinak hivnak, majd valaki K-nak nevez at, mert azzal letomoritett, akkor ki fogod rohogni. Hat ez van a tagokkal is........

    Ingyenes software == A mezeskalacs haziko a Jancsi es Juliskaban. Es != szabad software

  • shev7

    veterán

    válasz robisz #33 üzenetére

    Namost ha tomoriteni akarsz a meret fontos tenyezo. Ha lecsereled a tag-eket (hozzateszem egy xml file nem csak tagekbol all, ott van meg mellette adat is, igy santit a 20adjara tomorites) azzal meg sem kozelitetted az adott file tomorithetosegenek hatarat. Viszont igy a sajat tapasztalataid alapjan is rontottad a gzip hatekonysagat, ami azert kozel van a Shannoni hatarhoz ( :) ) tehat akkor rossz iranyba indultal el. Csak ennyit akartam mondani.

    Szintén a te gondolatmeneted követve: a winrar ritka szar tömörítő...
    olyan redundanciát visz a fájlba, amivel a winzip már nemnagyon tud mit kezdeni...


    Erre inkabb nem mondok semmit. A winrar (majdnem) hozza a winzip hatekonysagat, a te modszered kozel sem.

    [Szerkesztve]

    ''Gee, Brain, what do you want to do tonight?'' ''The same thing we do every night, Pinky: Try to take over the world!''

Aktív témák