PDA

View Full Version : Douplicate Content Problem: Suchanfragen im Webkatalog werden von Google gecrawlt


Schmidtner
10-09-2008, 02:51 PM
Moin,
folgende Probleme:

1)
Wenn über das Suchfeld im Webkatalog eine Suchanfrage durchgeführt wird, crawlt Google die Suchergebnisseiten mit. Dies ist ein großes Problem, da doppelter Content somit in den Google-Index aufgenommen wird! Auf diese Weise sind schon mehrere Suchergebnisseiten von uns in den Google-Index gelangt und das wirkt sich irgendwann extrem negativ in der Suche aus.

Ein paar Beispiele für gecrawlte Suchanfragen:
http://www.webverzeichnis-online.de/index.php?search=internet
http://www.webverzeichnis-online.de/index.php?search=immobilien
http://www.webverzeichnis-online.de/index.php?search=social

Ich vermute dass das Problem mit der Tagcloud zusammenhängt, da das URL-Muster genau das gleiche ist wenn man auf eines der Tags klickt. Gibt es hierfür eine Lösung außer NoFollow für die TagCloud anzulegen?


2)
Außerdem habe ich beobachtet, das mehrere Seiten mit gleichem Content, aber unterschiedlicher URL ebenfalls vorhanden sind. Ich weiß nicht genau was es ist, aber die URL's sehen so aus:

http://www.webverzeichnis-online.de/submit_article.php?c=16
http://www.webverzeichnis-online.de/submit_article.php?c=8
http://www.webverzeichnis-online.de/submit_article.php?c=19

Was ist das und wie kann man es abstellen?
Im Webkatalog wird übrigens das Professionell-Template verwendet.

Danke im voraus für eure Mühen.

volker
10-09-2008, 03:15 PM
Hallo

Content visible to registered users only.

Jupp das ist richtig aber eine andere Lösung habe ich auch noch nicht entdeckt als die tags mit no follow zu belegen


zum Problem 2 das kannste im Template abstellen bzw löchen
dort wo du deine Submit Botton Submit und Artikeleintragen drinn hast ich glaub dat ist in der header.tpl oder Top_bar.tpl alles was zwischen{$smarty.const.DOC_ROOT}/submit.php und " steht löschen denn wird nur eine Submitseite erzeugt das gleiche gildet denn auch für die Artikel eintragen Seite

pragent
10-09-2008, 03:16 PM
Das 1. sind die Tagclouds
Das 2. sind die Eintragsformulare für Artikel (kategoriebezogen)


Man könnte nun in die robots.txt folgendes schreiben:

User-agent: *
Disallow: /submit_article.php


Die index.php zu sperren, wäre nicht so sinnvoll.




Aber man könnte das versuchen:

Disallow: /*?
Damit sperrt man alle Seiten die ein Fragezeichen in der URL enthalten.


Disallow: /*?
Allow: /*?$
ALLE Dateien nicht crawlen, die ein Fragezeichen enthalten.
Dateien, welche direkt mit einem Fragezeichen enden, sollen aber indexiert werden

masterschenk
10-09-2008, 03:27 PM
Hallo,

ich habe bei mir in der robots so geregelt.
User-agent: *
Disallow: *s=
Disallow: /submit.php
Disallow: /submit_article.phpGrüße

Schmidtner
10-09-2008, 03:30 PM
Moin,
danke euch dreien für die schnelle Hilfe.
Ich habe die Robots.txt nun angepasst und werde beobachten wie es sich nun in Zukunft verhält.

Bezüglich der Tag-Cloud hab ich aber noch eine Frage und zwar sieht der Code für die Tagcloud folgendermaßen aus:

Content visible to registered users only.

Aufgerufen werden die Tags durch diese Zeile (der Rest ist der Rahmen drumrum):

Content visible to registered users only.Wie baue ich denn hier das rel="nofollow" ein? :confused:

pragent
10-09-2008, 03:30 PM
Genau ... das geht auch;)

oh ... zu langsam ... gehört noch als Antwort 1 höher

pragent
10-09-2008, 03:32 PM
Eigentlich sollte in der tagcloud.php irgendwo der Link generiert werden.
Hab diesen Tagcloud-Mod nicht mehr eingebaut, da ich etwas anderes vorhabe.


Schau mal in Zeile 548
Content visible to registered users only.


Ich würde es so einfügen:
Content visible to registered users only.

Schmidtner
10-09-2008, 03:43 PM
Tag-Cloud Links sind jetzt noFollow.

Falls einer mal das gleiche Problem haben sollte, ich habe es jetzt folgendermaßen eingebaut:

Content visible to registered users only.Vielen danke für die (immer wieder) schnelle Hilfe. :)

pragent
10-09-2008, 03:49 PM
So macht Support doch Spass[bt]

MikeK
10-09-2008, 07:36 PM
Kleiner Tipp: Wenn man sich nicht sicher ist, ob die Regel in der robots.txt von Google wie gewünscht interpretiert wird (Platzhalter gehören nicht unbedingt zum Standard), dann kann man das in den Webmastertools überprüfen!

Und schau auch mal hier: http://www.phplinkdirectory.com/forum/showthread.php?t=26199

Dein Weg ist richtig! Immer mal wieder prüfen, was Google so für Seiten indiziert ...

Ciao,
Mike