Crawl, logs et zones d'ombre : comprendre Googlebot au lieu de deviner
Google ne vous ignore pas.
Il vous observe.
En silence.
Et c'est ça qui est le plus déstabilisant.
Vous publiez.
Vous optimisez.
Vous « faites ce qu'il faut ».
Puis vous attendez.
Parfois ça monte.
Parfois rien.
Parfois l'inverse de ce que vous aviez prévu.
Et là, cette pensée arrive :
« J'ai l'impression de travailler dans le noir… Google fait quoi, là, exactement ? »
En bref (ce que ce guide te donne)
- une lecture simple du crawl (ce que Googlebot revisite, ignore, sur-explore)
- une manière d'utiliser les logs comme un outil de priorisation SEO
- des actions concrètes pour :
- canaliser le crawl vers les pages importantes
- réduire le « bruit » (crawl inutile)
- renforcer la circulation interne (maillage)
Si tu veux le pendant « structure interne » : maillage interne : définition + exemples.
Google ne crawl pas votre site, il suit ses habitudes
Beaucoup imaginent encore le crawl comme une inspection méthodique. Page après page. URL après URL.
Dans la réalité, Googlebot se comporte plutôt comme quelqu'un qui a déjà trop de choses à faire : il revient là où il se sent à l'aise.
Il ne découvre pas votre site chaque jour.
Il repasse sur les mêmes chemins.
C'est là que beaucoup se trompent. Ils essaient de forcer le crawl : soumettre des sitemaps en boucle, cliquer sur « demander une indexation » comme un bouton d'ascenseur.
Créer des chemins de confort pour Googlebot, c'est autre chose :
- observer où il passe déjà
- rendre ces zones plus claires et mieux reliées
- connecter ces zones à des contenus stratégiques
Le crawl inutile est plus dangereux que le crawl insuffisant
Un site trop crawlable est rarement un site fort.
Quand Googlebot passe son temps à explorer des filtres, des pages vides, des variations inutiles, il dilue son attention.
Beaucoup cherchent à augmenter le « budget crawl ».
En réalité, ils augmentent surtout le désordre.
Affaiblir volontairement certaines zones, ce n'est pas les bloquer brutalement.
C'est les rendre moins centrales.
Les logs ne servent pas à analyser, mais à prédire
La plupart ouvrent les logs comme on regarde un tableau de bord après un accident.
Les logs deviennent utiles quand on commence à les lire comme un journal d'intentions.
Googlebot ne fait presque jamais demi-tour brutalement.
Il teste.
Il ajuste son effort avant d'ajuster ses décisions.
Prenons un cas simple.
Une section /guides/ crawlée tous les 2 jours depuis des mois. Puis, sans raison apparente, elle passe à un crawl tous les 5 ou 6 jours.
Dans les logs, le signal est clair : un désengagement progressif.
Souvent, la cause est minuscule :
- un lien interne supprimé lors d'un « nettoyage »
- un bloc « articles liés » retiré
Rien de dramatique pour un humain.
Mais pour Googlebot, c'est une perte de contexte.
Mini-méthode express pour lire tes logs (sans usine à gaz)
1) Extraire les hits Googlebot
2) Regrouper par URL (quelles pages reçoivent le plus de visites ?)
3) Comparer : pages business vs pages info
4) Ajuster le maillage interne à partir des pages sur-crawlées
Exemple de commande (format Apache/Nginx classique) :
grep -i "Googlebot" access.log | awk '{print $7}' | sort | uniq -c | sort -nr | head -n 50
On ne cherche pas juste des volumes.
On cherche des rythmes.
Les pages que Google adore sont rarement celles qui rapportent
Google développe des attachements : certaines URL deviennent des repères.
Pages de blog anciennes.
Guides très longs.
Pages informatives propres, nettes, rassurantes.
Le problème : elles ne vendent rien.
La réaction classique : pousser les pages business. Plus de liens. Plus d'optimisation.
Et parfois… ça ne prend pas.
La bonne approche est plus subtile :
- utiliser les pages sur-crawlées comme « portes »
- ajouter des liens contextuels forts vers les pages business
- réduire les carrefours inutiles qui diluent l'attention
Si tu veux une logique « structure vs backlinks » : backlinks ou architecture.
Les zones d'ombre ne sont pas des bugs, mais des leviers
Une page crawlée mais non indexée déclenche souvent une panique.
Dans beaucoup de cas, il n'y a rien à corriger.
Certaines pages n'ont pas vocation à capter du trafic :
- pages « hub »
- pages d'orientation
- listes thématiques
Elles servent à organiser.
Mais attention : une zone d'ombre n'est utile que si elle est volontaire.
Si tu veux le diagnostic « Search Console » : pourquoi Google n'indexe pas mon site.
Google teste votre site comme un humain fatigué
Googlebot n'explore pas votre site avec enthousiasme.
Il avance avec une énergie limitée.
Quand ça devient pénible, il s'arrête. Pas par punition. Par lassitude.
Sur des sites denses, on observe souvent :
- crawl régulier sur les niveaux proches
- décrochage complet sur les niveaux profonds (trop de clics)
Simplifier volontairement, c'est :
- retirer des liens qui n'apportent rien au parcours principal
- clarifier ce qui est central et ce qui ne l'est pas
Le vrai signal SEO n'est pas l'indexation, mais l'insistance
Une page indexée une seule fois envoie peu de signaux.
Ce qui compte : la fréquence de crawl.
Les logs racontent quelles URL obsèdent Google.
On ne « bloque » pas Google, on le fatigue
La réaction classique : robots.txt, noindex, interdictions nettes.
Dans la pratique, ça crée parfois des frictions inutiles.
Google évite très bien ce qui lui coûte trop d'énergie.
Le pilotage du crawl repose souvent sur la gestion de l'effort que Google doit fournir pour explorer une zone.
Le site parfait est suspect, le site lisible est rassurant
Les sites qui performent le mieux ne sont pas les plus lissés.
Ce sont les plus lisibles.
On y perçoit une hiérarchie naturelle.
À lire ensuite
- Prioriser des optimisations rentables : 6 optimisations SEO
- Canaliser l'autorité interne : maillage interne
- Arbitrage architecture vs liens : backlinks ou architecture