Keresés

Aktív témák

  • dark100

    aktív tag

    válasz Lamerjohny #1 üzenetére

    Mindenkepp valami zip-es huffman vagy aritmetikai tomoritest javaslok xml-re, miutan alapvetoen textes file, keves fele karaktert hasznal sok ismetlodessel. Magam is szovegtomoritesbol irtam diplomamunkat (bar az altalnos volt). A gyakori szovegek (tokenek) atalkitasa nekem ugy tunt nem hoz szamottevo elonyt. Bar az xml eseten meg lehet probalni a nyelv tulajdonsagait felhasznalni, sokat segithet, ha minel tobb informaciot ki tud a programod talani, mert azt nem kell tarolni. Amugy minden tomorites lenyege az, hogy minel tobb kitalalhato info legyen, amit nem kell tarolni.

    Ingyenes software == A mezeskalacs haziko a Jancsi es Juliskaban. Es != szabad software

  • dark100

    aktív tag

    válasz Lamerjohny #5 üzenetére

    Probald ki. De tenyleg ovatosan a szetszedessel, mint mondtam, nekem nem valt be.
    Pl:

    20x szetszorva a fileba:
    <nev param1=''value1'' param2=''value2''>Content</nev>

    Ha te ezt szetszeded, akkor rosszabbul fogod tomoriteni, mintha egybe van. A korotte levo szokozok pl mindig szamottevoen javitanak a tomoitesi hatekonysagon.

    Pl:
    '' <nev ''
    Ha ez eleg gyakran elofordul, akkor, barhogy is szeded szet, szinte biztosan gyengit a tomoritesen.

    Az MS amugy jol latja, a zip tenyleg eszetlen jol viszi a text-eket. (Az az Industry Standard Compression duma csak kabitas a hulyeknek). Csak az aritmetikai tomorito vagy a bzip tudja megszorongatni, de az is csak nagyobb file-oknal (asszem tan valahol a megabyte meret kornyeken tudnak beelozni).

    Ingyenes software == A mezeskalacs haziko a Jancsi es Juliskaban. Es != szabad software

  • dark100

    aktív tag

    válasz robisz #7 üzenetére

    Sajnos nem igazan valik be. Erdemes kiprobalni, en is igy inditottam :)
    Csak nem jott be. Azutan gondolkoztam el a vereseg okain. A valasz fajoan egyszeru. Csak a kiszamithato informaciok tomorithetoek hatekonyan! Ha szetszedsz egy file-t, akkor informaciot kell arrol tarolnod, hogy eredetileg mi hol volt benne (ez egy redundans informacio!). Ezen informaciot radasul tarolnod is kell, megha tomoritve is (no a meret). Radasul a szetszedes nem is feltetlenul optimalis! A zip ismetleskereso algoritmusa tapasztalataim szerint jobban teljesit mint az ember altal ugymond okosan keresett ismetlesek.... Keress kiszamithato informaciokat! Pl ha a fileban minden / utan > van, akkor ez kiszamithatova tesz valamit, es maris hatekonyabb lesz a tomorites!

    Ingyenes software == A mezeskalacs haziko a Jancsi es Juliskaban. Es != szabad software

  • dark100

    aktív tag

    válasz robisz #10 üzenetére

    Altalaban azon szokott elcsuszni a dolog, hogy az ember elhiszi amit mondanak de nem probalja ki. Es nagyobb szoveges file-okat nyilvan a bzip2-hoz illik hasonlitani. Mindenesetre fel akartam hivni a lehetseges bukkanokra a figyelmet. Amugy ha kesz az egesz akkor erdekel hogy milyen hatekonysagul lesz.

    Azert megegyszer a tomoritessel kapcsolatos altalnos tapasztalataim:

    1. mindig keruld a redundans informaciokat. Pl hogy valamit kivagsz, es egy mutatot teszel ra.

    2. mindig talald meg a fellelheto szabalyokat es irts amit lehet. Ha pl a kocsi mindig attributum nev, es mindig van elotte egy szokoz utana meg egy ='' akkor maris van 3 karaktered amit 100% hatekonysaggal kivegezhetsz a filebol.

    Ingyenes software == A mezeskalacs haziko a Jancsi es Juliskaban. Es != szabad software

  • dark100

    aktív tag

    válasz robisz #13 üzenetére

    Egyszeru. Az 1 redundans informacio :) A zip jobban fel fogja a tageket ismerni, es radasul meg a kornyezetuket is felhasznalja. Tehat a tagot mindig attrib1='' koveti, akkor azt is hozzacsapja, ha tag elott mindig 3 tab es < van akkor azt is, de ha a tag mindig ujsorba kezdodik akkor az enter-t is stb, ha az elozo sor vegen mondjuk mindig ''> van akkor azt is, stb. Ezt megcsinalja az xmill?

    Egyszeru pelda:
    Melyik lesz kisebb tomoritve: Ha byte-okat tarolsz, vagy ha minden byte helyett annak hexadecimalis (0-9 A-F) vagy binaris formajat (csak 0 es 1)? Ugye a naiv ember ravagja, hogy ezek alapvetoen azonos informaciot hordoznak, valoszinu egyforma meretuek lesznek. Hat nem...

    Tomoritesben redundansnak hivjuk azt az informaciot ami kiszamithato. Az 1-esnek kiszamithato erteke van, hiszen az a hosszunev beillesztheto a helyere. Kov: a hosszuneves forma jobban lesz tomoritheto. A zipnek egy benasaga van, hogy csak 32 kbyte-ra hajlando visszanezni ismetlesek keresesenel. (torteneti okok) Ezen a ponton lehet megfogni. (valszeg az XMILL is ezert javit, hiszen ha a tagbol sok van, de 32 kbytenal nagyobb tavolsagra szetszorva, akkor a zip megszivja). Probalj ki olyat aminek nincs ilyen korlatja, pl bzip2.

    Ingyenes software == A mezeskalacs haziko a Jancsi es Juliskaban. Es != szabad software

  • dark100

    aktív tag

    válasz robisz #33 üzenetére

    Huha latom hatalmas duma volt :)
    Es igen jol ramentetek a lenyegre. A file-nek van informaciotartalma es van hossza. Szamos modszer van ami meretet valtoztat de informaciot nem.

    De amugy egy jo otlet mar elokerult: Az XML alapvetoen egy fa adatszerkzetet tarol, ahol minden nyitotagnak van zarotagja. Ennek a zarotagnak a tartalma kotelezo.

    Pl: <tag1> <tag2> </itt muszaly tag2nek lennie> </itt muszaly tag1nek lennie>

    Namarmost akkor a zarotagok helye ugyan nem, de tartalmuk egyertelmuen szamithato. Ez AZ a szamithato informacio, amire egy zip tomorito nem johet ra! A zarotagok kiiritasaval a file valoban egyszerusodik a masodrendu tomorito szamara. Ha mondjuk pointerekt raksz informacio helyere, azzal nem egyszerusites, csak atnevezel. Ha pl teged Karcsinak hivnak, majd valaki K-nak nevez at, mert azzal letomoritett, akkor ki fogod rohogni. Hat ez van a tagokkal is........

    Ingyenes software == A mezeskalacs haziko a Jancsi es Juliskaban. Es != szabad software

  • dark100

    aktív tag

    válasz dark100 #34 üzenetére

    Amugy allandoan beszelunk a redundanciarol de meg senki nem mondta ki hogy Shannon tetel a becsuletes neve. Neten utana lehet nezni.

    Ingyenes software == A mezeskalacs haziko a Jancsi es Juliskaban. Es != szabad software

Aktív témák