Keresés: - Xml tömörítés - IT café Hozzászólások

Legfrissebb anyagok

IT café témák

PROHARDVER! témák

Mobilarena témák

GAMEPOD.hu témák

LOGOUT.hu témák

Keresés

Aktív témák

#2 robisz senior tag Lamerjohny #1

2006-03-01 23:44:45 #2
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

robisz

senior tag

válasz Lamerjohny #1 üzenetére

Helló!
Szerintem király a téma én első körben szétnéznék a neten, hogy mit alkottak mások...
Pl. olvasd el ezt (pdf):
[link]
Valamint nézd meg az xmill nevű open source projectet ami éppen azt
csinálja amit te szeretnél...
Sok sikert!

[Szerkesztve]
#7 robisz senior tag Lamerjohny #5

2006-03-08 12:27:59 #7
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

robisz

senior tag

válasz Lamerjohny #5 üzenetére

Olvasd el az xmill hogyan szedi szét a tag-eket a tartalomtól...
Ezzel igenis sokat lehet nyerni főleg ha nagy az xml és sok egyforma
tag van benne...
#10 robisz senior tag dark100 #8

2006-03-09 01:20:31 #10
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

robisz

senior tag

válasz dark100 #8 üzenetére

Akkor gondold végig mégegyszer és rájössz, hogy nagyobb méret esetén
nagyon is megéri szétszedni.
(Az xmill-ről is azt írják, hogy 20kb felett kezd jobb lenni a gzip-nél,
de ez alatt nem is nagyon érdemes tömöríteni)
Persze mindig lehet olyan esetet találni amikor rosszabb lesz a sima
zip-nél (pl ha minden xml tag és attribútum neve különböző) de ez
nagyon ritkán fordul elő.
#12 robisz senior tag dark100 #11

2006-03-09 11:15:35 #12
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

robisz

senior tag

válasz dark100 #11 üzenetére

Nem értek egyet az 1. pontoddal... pont ez a lényeg... képzeld el hogy van egy
hosszú nevű xml elemed pl.

<nagyonnagyonhosszúelemnév></nagyonnagyonhosszúelemnév>

Ez 54 karakter... most tegyük fel, hogy ez előfordul 1000-szer,
ez 54000 karakter.

Az xmill amikor elmenti a struktúrát, minden elemet lecserél egy integerre
a lezáró elem helyére pedig egy ''/'' jelet tesz.

Tehát a fenti elemből
''1/''
lesz 1000-szer ami 2000 karakter, plusz egy ''jelmagyarázat'' az elejére
''1=nagyonnagyonhosszúelemnév'' ami +27 karakter.

Így lesz az 54000-ből 2027 karakter és még csak ezután fogod zip-elni...

Ezenkívűl lehet úgy is optimalizálni, hogy a különböző típusú adatokat
külön konténerekbe teszed (pl. külön a csak numerikusakat stb)
és speciális tömörítővel külön külön tömöríted őket.

Egyébként nem hiszek el mindent amit olvasok.... de mi lenne ha kipróbálnád???

[Szerkesztve]
#13 robisz senior tag

2006-03-09 11:18:54 #13
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

robisz

senior tag

Egyébként ki tudnád fejteni, hogy a fenti módszer hol tartalmaz redundáns
információt?
#15 robisz senior tag dark100 #14

2006-03-09 12:37:50 #15
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

robisz

senior tag

válasz dark100 #14 üzenetére

Szerintem te rosszul értelmezed a redundanciát

Abban igazad van, hogy az 1-es kiszámítható abban az értelemben,
hogy tudjuk, hogy a ''hosszúnév''-nek felel meg.
De ennél sokkal fontosabb, hogy az ''1''-esek a hosszúnevek HELYÉT
jelölik...

Redundáns az az információ ami fölösleges, plusz információt nem hordoz...
Te viszont itt az 1-esek nélkül az életben elő nem állítod az eredeti
tartalmat tehát egyáltalán nem redundáns az információ.. csak másképpen,
hatékonyabban van ábrázolva.

Szerintem ha erre engedsz rá egy bzip2-őt akkor az esetek nagy részében jobb
eredményt kell kapnod...

De tudod mit? Most már én fogom kipróbálni...
#16 robisz senior tag

2006-03-09 13:13:34 #16
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

robisz

senior tag

Hmmm... kipróbáltam és az eredmények téged igazoltak...
Az xmill-hez adott példa xml-eket becsomagoltam bzip2-vel ami
egy esetet kivéve le is alázta az xmill-t...
Úgyhogy MEA CULPA....
Most már értem miért döglött be a project 2003-ban

De a redundanciára vonatkozó állításomat fenntartom
#18 robisz senior tag shev7 #17

2006-03-09 13:32:40 #18
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

robisz

senior tag

válasz shev7 #17 üzenetére

Amit irtam az nagyon le volt egyszerűsítve... nyilván egy ''kereskedelmi''
tömörítő 1000-el bonyolutabb, de a fenti példát az is hasonlóan tömörítené
össze...
Nyilván az 1-esek rontják a tömörítés hatásfokát, de ott már egy
20-ad akkora szöveget kell tömöríteni...
(1ébként az xml struktúrát és az adatokat külön tömöríti az xmill, tehát
nem fordul elő más szövegkörnyezetben)
#20 robisz senior tag shev7 #19

2006-03-09 13:40:49 #20
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

robisz

senior tag

válasz shev7 #19 üzenetére

Egész pontosan a struktúrába tesz be adatokra mutató ''pointereket''
(azokat is integerekkel helyettesíti)
Továbbra sem látom hol itt a redundancia... melyik az a rész amit
el tudsz hagyni úgy hogy visszaállítsd az eredeti tartalmat???

Egyébként nem hiszem, hogy egy diplomamunka keretében
reális elképzelés egy bzip2-nél hatékonyabb tömörítés kidolgozása
#22 robisz senior tag shev7 #21

2006-03-09 13:58:43 #22
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

robisz

senior tag

válasz shev7 #21 üzenetére

Igaz, csak így az ismétlődő adatokat egyszer teszem bele a fájlba
és a pointerek szerepelnek többször...

A példában amit írtam az 50000 karakterből 2500 lett... a te logikád
alapján mondhatnám én is, hogy az eredeti xml redundáns, mert
tartalmaz 47500 felesleges karaktert

Én elfogadom, hogy a pointer redundancia, de pici redundancia
ami egy nagyon-nagyból lett létrehozva
#25 robisz senior tag shev7 #24

2006-03-09 15:06:12 #25
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

robisz

senior tag

válasz shev7 #24 üzenetére

En arrol beszelek hogy a tomorites soran ugyis az ismetlodesek lesznek kikuszobolve

És mit gondolsz, hogyan???
#26 robisz senior tag robisz #25

2006-03-09 15:08:16 #26
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

robisz

senior tag

válasz robisz #25 üzenetére

Mellesleg az információtartalmat nem is szeretném lecsökkenteni....
azt már veszteséges tömörítésnek hívják...
#29 robisz senior tag shev7 #27

2006-03-09 15:13:37 #29
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

robisz

senior tag

válasz shev7 #27 üzenetére

Én már rég elismertem, hogy ez nem egy HATÉKONY módszer, csak a
nagy redundanciázást nem értem...

Amit leírtam az egy primitív módszer, ami jelentősen csökkentheti az eredeti
fájl redundanciáját... a bzip2-höz képest viszont harmatgyenge ez
tény és való....
#31 robisz senior tag shev7 #30

2006-03-09 15:25:04 #31
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

robisz

senior tag

válasz shev7 #30 üzenetére

Akkor mivel méritek???

Én egy tömörítési eljárás esetén azzal mérném... vagy esetleg a byte-ok számával
#33 robisz senior tag shev7 #32

2006-03-09 16:06:27 #33
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

robisz

senior tag

válasz shev7 #32 üzenetére

Csakhogy nekem nem az volt a célom, hogy a GZIP ÁLTAL JÓL FELDOLGOZHATÓ
(GÁJF (c)) karaktersorozatot hozzak létre... hanem én magam akartam tömöríteni...
A fenti példában sikerült is kb a 20-adjára....

Szintén a te gondolatmeneted követve: a winrar ritka szar tömörítő...
olyan redundanciát visz a fájlba, amivel a winzip már nemnagyon tud mit kezdeni...
#37 robisz senior tag shev7 #36

2006-03-09 23:22:18 #37
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

robisz

senior tag

válasz shev7 #36 üzenetére

A winrar (majdnem) hozza a winzip hatekonysagat, a te modszered kozel sem.

Hát az tuti.... de ezt nem is állítottam

Ezt az xmlppm-et viszont érdemes lenne megnézni... kipróbáltam pár fájlon
és eddig még mindig jobb eredményt adott a bzip2-nél...
Csak az xml parse-olással van gondja néha, nem minden fájl tetszik neki