ich schreibe gerade einen Suchmaschinenbot, der auch relativ gut funktioniert. Implementiert habe ich ihn unter C++ auf FreeBSD. Nun hat er aber leider ein Problem mit Umlauten, wenn das Charset der Website auf UTF-8 steht.
Jetzt dachte ich mir, dass ich (laut RFC) einfach ein Charset vorgebe und im Header mitschicke und mir der jeweilige Webserver dann die Character umwandelt, so dass ich sie einfach lesen kann (sonst habe ich leider keine Idee, wie ich vernünftig an die Umlaute und Sonderzeichen komme).
Leider funktioniert mein Plan nicht, die Character werden nicht umgewandelt. So sieht mein Header aus:
GET / HTTP/1.0
User-Agent: MeinBot/0.0.1
Host: www.einewebsite.de
Accept: text/html, image/gif, image/jpeg, *; q=.2, */*; q=.2
Connection: keep-alive
charset: ISO-8859-1
Gibt es da eine einfache Möglichkeit, UTF-8 umzuwandeln?
Vielen Dank,
Morfio ...