Új hozzászólás Aktív témák

  • The DJ

    addikt

    Ismét érdekes kérdésem lesz, de hátha valaki tudja a választ.

    Adott egy weboldal, amin csomó halott link van (az egyes menüpontok tartalmi részében). Erről kellene nekem egy lista, hogy pontosan mely linkek is halottak. Nekikezdtem kézzel, de rájöttem, hogy ezzel sose végzek és csak újabb és újabb mélységekbe kerülök, a végén pedig már azt se tudom, hogy mit néztem át és mit nem. Tehát kellene egy automatizált módszer, egy "crawler", ami végigfut az oldalon és kigyűjti nekem szépen a halott linkeket (vagy az összes linket és én kiválogatom melyik a halott).

    Ha ez eddig egyszerűnek tűnik, akkor bonyolítom. A halott linkek nem adnak vissza 404-et, mivel úgy van megírva az oldal, hogy ilyen esetben csak egy egy "Page not found" hibaoldalt ad vissza. Próbáltam ezer meg egy webes crawlert és csomó programot is, de egyik sem keres a tartalmi részben, csak végigfutja a főoldalt és kilistázza azt a tizenpár linket ami a főmenüben található. Naköszi. Azok élnek, nekem nem azokat kell megvizsgálnom, hanem minden menüpontnak a tartalmi részében találhatóakat. Innen nyílnak meg újabb oldalak, amik nincsenek is linkelve a főmenüben. Sok oldal egy újabb oldalhoz vezet, újabb linkekkel és nekem tudnom kéne melyikek a halottak.

    Ha találnék egy olyan programot vagy módszert, ami a domainen belül az összes linket kigyűjti nekem rekurzívan akkor már haladnék valamerre, de az igazi az lenne, ha olyat találnék, ami kiadja az eredeti linket és az átirányított címet is.

    Érthetőbben... adott egy link: http://oldal.com/linkneve.aspx ez a tartalom nem található, ezért átirányít a következő módon az error page-re: http://oldal.com/Error.aspx?aspxerrorpath=/linkneve.aspx

    Szóval hogy a fenébe gyűjtsem én ki a halott linkeket?

    https://wpszaki.hu - Minden, ami WordPress, cikkek kezdőknek és haladóknak.

Új hozzászólás Aktív témák