Cookie – Marktlücke gefunden. Kann die bitte jemand füllen?

Die Welt benötigt ein Tool, dass automatisiert eine Webseite herunterlädt und gleichzeitig alle Cookies, auch die aus iFrames, in einer Cookies.txt Datei speichert.

Mit

wget -r –level 1 -np –user-agent=“Mozilla/5.0 (X11; U; Linux i686; de; rv:1.9b5) Gecko/2008050509 Firefox/3.0b5″ –keep-session-cookies –save-cookies cookies.txt https://pop64.com/

bekomme ich meine Webseite, aber nicht die Cookies. wget kann das nicht, es fehlen fast alle Cookies und ich weiß nicht warum.

Mit dem bereits erwähnten Attacat Cookie Audit Tool kann ich automatisiert alle Cookies speichern, aber nicht automatisiert durch die gesamte Seite speichern.

Die Welt benötigt eine Kombination aus beidem. Ich gebe eine URL an, z.B. https://pop64.com und das Tool rattert durch alle gefundenen Links UND speichert alle Cookies in einer Cookies.txt Datei ab.

Als dirty Hack suche ich eine Extension, die in Firefox eine Webseite nicht spidert, sondern automatisch „durchsurft“ und gleichzeitig, mit der Attacat Cookie Audit Tool, alle Cookies abgreift.

Kann das mal bitte jemand bauen? Ich gebe auch einen aus. Oder zwei.

[amazon_carousel widget_type=“SearchAndAdd“ width=“600″ height=“200″ title=“Cookies “ market_place=“DE“ shuffle_products=“False“ show_border=“False“ keywords=“cookies“ browse_node=““ search_index=“Books“ /]

3 comments

  1. Dentaku says:

    Hmmm. Ich könnte einen Proxy schreiben, der die Cookies wegspeichert. Wenn man den wget-Aufruf durch diesen Proxy leiten würde, dann hätte man alle Cookies. Würde das helfen?

  2. Gerhard says:

    Hmm. Ich schätze mal, das Problem wird sein, dass einzelne Cookies durch die Drittprogramme/Plugins/Addons und ausgeführte JavaScripte zusammenkommen. Die erwischt man auch mit einem Proxy nicht, da der wget-Aufruf die meisten dieser Cookies nicht auslöst.

    Grundsätzlich ist die Idee mit einem Proxy aber sicherlich ein guter Ansatz, nur muss eben der komplette Aufruf über einen Browser darüber geleitet werden. Quasi eine Kombination aus Proxy und dem Dirty Hack, weil dann ja auch wieder alle Seiten einzeln angesurft werden müssen.

    Da letztlich aber dann auch noch eine Aufbereitung erfolgen muss, ist der Hack in Kombination mit dem Tool wohl doch die einzige umfassende Lösung.

    Meine Vermutung.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.