Az adatbányászat a felfedezés élményét is kínálja

Tévhit, hogy a felfedezések kora lejárt, manapság talán még hatalmasabb és több érdekességet rejtő tengerre hajózhatnak ki a kincsek után nyomozó felfedezők: az adatok óceánjára.

A naponta létrejövő adatmennyiség szinte elképzelhetetlen mértékben növekszik. A kaliforniai Berkeley Egyetem becslése szerint az emberiség jelenleg 1-2 exabájt (millió terabájt) mennyiségű új adatot állít elő évente. Ez 250 megabájtnyi újonnan rögzített adatot jelent a Föld minden lakosára vetítve – az eszkimótól az argentin nyugdíjasig. A modern adatbázis-kezelő rendszerek már képesek megbirkózni az adatgyűjtés és -tárolás feladatával, sőt az előrejelzések szerint az igények bővülésével is lépést tudnak tartani.

Az egyre szélesebbre duzzadó adatfolyam hatalmas mennyiségű értékes információt rejt. A kérdés ma már inkább az, hogy miképpen lehet hozzáférni az adatbázisokban rejtőzködő információs kincshez. Ehhez ad módszereket a mára már valódi tudományággá fejlődött adatbányászat.

Az adatbányászat meghatározására sokféle definíció létezik, a lényegben azonban valamennyien megegyeznek – foglalják össze a terület ismérveit Fajszi Bulcsú és Zimmer Márton, a KFKI Csoporthoz tartozó IQSYS Informatikai Rt. szakértői: az adatbányászat célja értékes, de rejtett vagy implicit összefüggések, információk és szabályszerűségek feltárása nagy adatbázisokból.

Amióta a tömegtermékek piaci versenyében az egyes gyártók már csak kifinomult módszerekkel tudnak új piaci réseket találni vagy egymástól tudnak csak ügyfeleket átcsábítani – gondoljunk csak a hazai mobiltelefon-telítettségre és a szolgáltatók kíméletlen versenyére –, ezeknél a vállalatoknál szinte létkérdéssé vált a fogyasztói szokások összefüggéseinek elemzése. Egy vállalat következtethet egyebek mellett a várható vásárlói viselkedésekre, vagy például becslést kaphat arról, hogy egy adott ügyfél rendesen törleszti-e majd a hitelt, vagy egy másik várhatóan átpártol-e a konkurenciához. A várható üzleti haszon biztosítja az adatbányászati projektekbe való befektetés megtérülését.

Az adatbányászathoz kapcsolódó költségek könnyen és világosan számszerűsíthetők, ezért előfordul, hogy a cégek még abban az esetben sem hajlandóak belefogni egy adatbányászati munkába, ha az a költségeket jóval meghaladó haszonnal kecsegtet, mivel a nyereség nehezen prognosztizálható. A bizalmat úgy lehet kialakítani, hogy a vállalat először egy kis költségű, egy adott üzleti problémára fókuszált kísérleti projektet indít, amelynek elemzésével jobban becsülhető egy esetleges későbbi, nagyobb volumenű adatbányászati beruházás megtérülése – javasolják szakértők.

A tapasztalatok alapján azonban csak akkor produkál jó eredményt egy adatbányászati projekt, ha az úgynevezett egyharmad-kétharmad szabály érvényesül, amely szerint a feltárt összefüggések kétharmada a megrendelő szakterületén dolgozó munkatársak sejtéseit, várakozásait igazolta, és egyharmada jelentett teljesen új ismeretet. Gyanús ugyanis, ha a meglepő eredmények aránya ennél nagyobb. Másrészről, ha csupa korábban is ismert összefüggést tár fel a munka, akkor nem hozott létre új értéket.

Az IQSYS szakértői szerint az adatbányászati alkalmazások terjedésével párhuzamosan Magyarországon is meg fognak jelenni túlzott elvárások a technológiával szemben, ahogy ez például a mesterséges intelligencia fejlődésének idején is megtörtént. Ezzel szemben az adatbányászat üzleti elfogadottsága még néhány évig az általa kínált megoldások értéke alatt marad. Az üzleti élet szereplői tehát kevesebbet fognak megvalósítani annál, mint amit a fogyasztók, a társadalom gondol: kialakul egy szakadék a valóban működő alkalmazások és a kicsit futurisztikus fogyasztói elképzelések között.

Girnt József

Azóta történt

Előzmények