WebFrance Posted December 13, 2006 Report Share Posted December 13, 2006 Le fichier robots.txt doit etre présent à la racine d'un site, meme vide si vous n'en avez pas l'utilité, car son absence provoque des erreurs 404 générées par les bots qui cherchent en premier lieu ce fichier en crawlant un site. (merci à Jeff et Thick pour cette précision importante) Si vous souhaitez interdire l'indexation de certaines pages, vous pouvez soit renseigner votre fichier robots.txt dans ce sens ou tout simplement la balise meta robots : <meta name="robots" content="noindex,follow" /> Il ne peut y en avoir qu'un fichier robots.txt par site, et il doit etre situé à la racine Si vous n'en mettez pas, cela équivaut à ce fichier robots.txt : User-agent: * Disallow:[/code] * indique que l'instruction est donnée à tous les robots Extrait du très bon article sur le sujet d'Abondance : Le nom du fichier (robots.txt) doit toujours être créé en minuscules. La structure d'un fichier robots.txt est la suivante : User-agent: * Disallow: /cgi-bin/ Disallow: /tempo/ Disallow: /perso/ Disallow: /entravaux/ Disallow: /abonnes/prix.html Dans cet exemple : User-agent: * signifie que l'accès est accordé à tous les agents (tous les spiders), quels qu'ils soient. Le robot n'ira pas explorer les répertoires /cgi-bin/, /tempo/, /perso/ et /entravaux/ du serveur ni le fichier /abonnes/prix.html. Le répertoire /tempo/, par exemple, correspond à l'adresse http://www.monsite.com/tempo/. Chaque répertoire à exclure de l'aspiration du spider doit faire l'objet d'une ligne Disallow: spécifique. [b]La commande Disallow: permet d'indiquer que "tout ce qui commence par" l'expression indiquée ne doit pas être indexé[/b]. Lire la suite du dossier sur le fichier robots.txt d'Abondance Quote Link to comment Share on other sites Partagez cette page :
MarieAltiref Posted December 13, 2006 Report Share Posted December 13, 2006 et surtout n'oubliez pas le S à robots :) sinon ça ne marche pas. Quote Link to comment Share on other sites Partagez cette page :
Jeff Posted December 13, 2006 Report Share Posted December 13, 2006 L'absence du fichier robots.txt provoque une erreur 404 générée par le bot il est donc vivement recommandé d'en mettre un à la racine du site. ;) Jeff, Quote Link to comment Share on other sites Partagez cette page :
WebFrance Posted December 13, 2006 Author Report Share Posted December 13, 2006 :o C'est à dire ? Personnellement j'en mets jamais sauf quand je ne peux pas faire ce que je veux directement avec les metas :o Quote Link to comment Share on other sites Partagez cette page :
Jeff Posted December 13, 2006 Report Share Posted December 13, 2006 Le moteur de recherche vient vérifier systématiquement la présence du fichier robots.txt et une erreur 404 est générée si il ne le trouve pas, cela n'a pas d'incidence sur le site mais sur le serveur, cela peut tout de même représenter pas mal d'erreurs 404 sur les gros sites. Je l'ai mesuré en mettant en place un qui me permettait de recevoir un mail à chaque 404 avec le nom de la page ou fichier appelé à la mise en place de site ou sur des sites existants, cela me permettait aussi de connaître les erreurs de frappe de certains visiteurs ;) Jeff, Quote Link to comment Share on other sites Partagez cette page :
ThickParasite Posted December 13, 2006 Report Share Posted December 13, 2006 :o C'est à dire ? Le robots.txt est le premier fichier que le robot vient chercher quand il crawl un site. Si tu n'as pas ce fichier alors il le cherche pendant un moment et ça te provoque une masse de 404. Tu peux mettre un robots.txt vide sans aucun souci mais cette simple précaution t'évitera un max de 404. Après, je suppose qu'on peut vivre sans, mais pour ma part je n'aime pas froisser les bots donc je m'arrange pour qu'ils trouvent ce qu'ils demandent ;) Quote Link to comment Share on other sites Partagez cette page :
ThickParasite Posted December 13, 2006 Report Share Posted December 13, 2006 Pfff Jeff plus rapide :lol: Quote Link to comment Share on other sites Partagez cette page :
WebFrance Posted December 13, 2006 Author Report Share Posted December 13, 2006 Wow, merci de toutes vos précisions, j'avais loupé un épisode sur ce coup la heureusement que j'en ai un sur mes principaux sites mais j'ignorais totalement cet aspect ! Je l'ai mesuré en mettant en place un s cript qui me permettait de recevoir un mail à chaque 404 avec le nom de la page ou fichier appelé à la mise en place de site ou sur des sites existants, cela me permettait aussi de connaître les erreurs de frappe de certains visiteurs Sympa ton outil Jeff, tu n'aurais pas sous la main par hasard une url pour trouver ce s cript ? Après, je suppose qu'on peut vivre sans, mais pour ma part je n'aime pas froisser les bots donc je m'arrange pour qu'ils trouvent ce qu'ils demandent ;) message bien recu, je n'aime pas non plus poser des lapins aux bots :wub: Quote Link to comment Share on other sites Partagez cette page :
tom_sawyer Posted December 13, 2006 Report Share Posted December 13, 2006 Sympa ton outil Jeff, tu n'aurais pas sous la main par hasard une url pour trouver ce s cript ? Salut Nicolas voici une méthode pour faire cela : http://www.toulouse-renaissance.net/c_outils/c_erreur404.htm ++ Quote Link to comment Share on other sites Partagez cette page :
WebFrance Posted December 13, 2006 Author Report Share Posted December 13, 2006 merci Tom je vais mettre ca en place :) Quote Link to comment Share on other sites Partagez cette page :
xavfun Posted December 13, 2006 Report Share Posted December 13, 2006 et surtout n'oubliez pas le S à robots :) sinon ça ne marche pas. :shout: ok j'avoue, sur chocoku land j'avais oublié le "s" c'est Pagetronic qui l'a vue sinon j'en met jamais (sauf pour forum et rewrite) et je vis très bien sans => c'est pas pour le concours Sorcier Glouton que certains (dont une fille qui parle de "s" à crée une "team" avec un robots.txt pour ne pas polluer les autres moteurs que MSN ?) =>> dailleurs tout les moteurs ne le prennent pas en compte Quote Link to comment Share on other sites Partagez cette page :
Recommended Posts
Join the conversation
You can post now and register later. If you have an account, sign in now to post with your account.
Note: Your post will require moderator approval before it will be visible.