Een zoekmachine toelaten op je website is natuurlijk handig als je gevonden wil worden. En gelukkig hoef je hier niks voor te doen. Toch is het in veel gevallen handig om dit te beperken.
In dit stuk focus ik op het indexeren van images door zoekmachines.
robots.txt of metatag
Er zijn twee manieren om de crawlers van zoekmachines te begeleiden op je website. Via een robots.txt bestand in de root of via een metatag in de header.
In de robots.txt geef je aan welke directories de crawler mag bezoeken, zo ziet dat in bij mijn WordPress installaties als volgt uit:
User-agent: *
Disallow: /wp-login.php
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /feed/
Disallow: /trackback/
Disallow: /cgi-bin/
Disallow: /wp-content/
Met een metatag kun je dit nog iets scherper krijgen. Voor de metatag ingebruik met WordPress verwijs ik je naar de meta-robots plugin van Yoast.
<meta name=”robots” content=”noindex,nofollow” />
Waarom plaatjes laten indexeren?
Simpel gezegd, ook dat levert mogelijke bezoekers op, al zei het minder.
Eigenlijk een verkeerde vraag, de vraag moet zijn welke plaatjes je wil laten indexeren.
Ik zou er voor kiezen om alleen relevantie afbeeldingen te indexeren, dus niet de afbeeldingen die onderdeel zijn van de opmaak van je website, maar plaatjes die bij de artikelen horen.
Persoonlijk zou ik er ook voor kiezen om foto-albums van scholen/verenigingen niet te laten indexeren.
Als je weet welke afbeeldingen je wilt laten indexeren, kun je bepalen om welke directories het gaat. In geval van WordPress wil je dus niet de /wp-content/themes/ indexeren, wel de /wp-content/uploads.
Google, BING en anderen
Het indexeren van images door zoekmachines kun je alleen beïnvloeden door het robot.txt bestand. Het officiele robots.txt protocol ondersteunde alleen Disallow:, waarmee je de crawler toegang ontzegd.
Yahoo, BING en Google hebben in 2008 afspraken gemaakt over hoe zij het REP protocol ondersteunen. Onderdeel daarvan in de simpele toevoeging Allow:, waarmee je de spiders specifiek vertelt dat ze die directory mogen indexeren.
Perfecte robots.txt voor WordPress en images
Nu is het tijd om een mooie robots.txt te maken voor je WordPress installatie. In het bovenstaande voorbeeld heb ik voor alle crawlers doormiddel van User-agent: * aangegeven wat ze mogen indexeren. Hierin worden ook alle image directories in /wp-content/ verboden.
Nu gaan we specifiek aan BING en Google vertellen dat zij wél de afbeeldingen map mogen indexeren. De image-crawlers van BING en Google heten respectievelijk: MSNBot-Media en Googlebot-Image.
User-agent: Googlebot-Image
Allow: /wp-content/uploads/User-agent: MSNBot-Media
Allow: /wp-content/uploads/
Hiermee zullen de afbeeldingen die bij alle artikelen horen geïndexeerd worden, maar de afbeeldingen van je layout in de map themes niet. Andere crawlers zullen geen van je images indexeren, persoonlijk vind ik dat wel fijn.
Als je dit in het geheel zet:
Sitemap: /sitemap.xml.gz
#image
User-agent: Googlebot-Image
Allow: /wp-content/uploads/User-agent: MSNBot-Media
Allow: /wp-content/uploads/#global
User-agent: *
Disallow: /wp-login.php
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /feed/
Disallow: /trackback/
Disallow: /cgi-bin/
Disallow: /wp-content/
Het indexeren van afbeeldingen is een trager proces dan het indexeren van pagina’s, je zult dus wel geduld moeten hebben. Nog een kleine extra SEO-tip: Geef afbeeldingen namen als bos-bloemen.jpg, geen 14583592.jpg en vul altijd de titel en alt-teksten in.
Opmerkingen, reacties of kan het beter? Laat een reactie achter!
Goeie tip Frank! en bezig met de overstap van Tumblr naar WordPress en deze tip ga ik hier zeker in toepassen!
Goede keus 😉 Met WordPress kun je zoveel meer.
Succes.
Hoi, vraagje. Kan je ook gewoon alle afbeeldingen op je site laten indexeren? Dus dat je niet perse bepaalde dingen moet uitsluiten maar gewoon alles laat indexeren.
Goede tip van de afbeeldingnaam.
Zekers, standaard (dus zonder robot.txt) indexeren alle zoekmachines alles.
En daarom vertel je met een robots.txt wat hij niet mag indexeren.
Waarom ik op deze manier de afbeeldingen indexeer is omdat ik naast BING (+Yahoo) en Google, de andere imagezoekmachines niet helemaal vertrouw.
Hoi Frank,
Ik wil heel graag iets met mijn robots.txt doen in mijn wordpress, maar ik kan het bestand niet vinden, maar de Googlebots (check bij webmaster tools) wel, en die geeft aan dat hij op dissallow / (alles) staat.
Ik heb dan maar zelf een .txt gemaakt waarin ik alles toe sta. Deze heb ik in dezelfde folder geupload als de verificatiebestanden voor Google webmaster en Alexa. Maar dat heeft geen effect.
Ik heb op mijn wordpress ook buddypress geinstalleerd, en gebruik het buddypress default theme. Ik heb in de admin/privacy ook aangegeven dat robots toegang krijgen…..maar toch lukt het me niet. Wat gaat er hier fout dan?
Login in wordpress -> admin -> settings -> privacy -> Blog Visibility
-> I would like my blog to be visible to everyone, including search engines (like Google, Bing, Technorati) and archivers
Daarna moet je zorgen dat je robots.txt in je rootdirectory staat.
Ho Frank, dat had ik ook gedaan, maar hielp niet. Tot ik de Buddypress default theme als ‘parent theme’ heb ingesteld en een ‘child theme’ gebruik. De default theme staat namelijk in de plugin/buddypress/enz. en de ‘child theme’ is een theme die in de wp-contant/themes directory staat. Zodra ik dat had gedaan kreeg Google toegang. Dus voor degenen die met buddepress werken: Je moet niet de Default theme activeren, maar een child theme maken. Anders kan google je niet vinden.
Hmmm, dat klinkt vaag, heb je anders een linkje naar je site? dan kan ik eens kijken.
Hoi Frank,
Dit is een verkorte url naar de website (om te voorkomen dat de url straks met ons verhaal in de zoekresultaten verschijnt, was mijn eerste harde les bij de eerste klant) http://bit.ly/cFOnjz
Google kan er nu dus wel op. Maar in de zoekresultaten is de site alleen te vinden als je specifiek op de url zoekt, en dan alsnog op de 2e pagina. Daarbij is enkel de URL te zien, geen titel of omschrijving. Blijft dus totaal anders om met WP/BP Google de juiste instructies te geven. De Top Contributers op de Google webmaster Fora doen er natuurlijk enigzins geheimzinnig over, die zitte bij de innercircle…
Nog een aparte WP/BP SEO ding: Als ik het info: commando gebruik, met ‘www’ voor de url, ziet Google de omschrijving wel. Maar zonder het ‘www’ voor de url, helemaal niets. In tegenstelling tot mijn andere (niet WP) sites.
Weet jij hoe dit zit? En kan jij ergens zien waar het mis gaat dat Google de omschrijving niet toont in de zoekresultaten? Google Crawld de site wel, waarom heeft hij de omschrijving en conetent (keywords, meta e.d.) nog niet opgepakt?
Hoe nieuw is de site?
Geef het wat tijd om te indexeren, het heeft in dit geval niets met de robots.txt te maken.
Dat weet ik nog niet, aangezien Google een robots.txt file vond dat op disallow all stond, terwijl ik er geen kon vinden. Ook nadat ik er zelf een in de root geplaatst had, vond Google niet die, maar dat spookbestand.
Dat heeft ergens te maken met het WordPress systeem en/of Buddypress. Het probleem was opgelost bij toepassing van een ‘child’ theme. Zie boven.
Kan het dan niet zijn dat dat spookbestand er alsnog zit en enkel invloed uitoefent? In theorie kan er maar 1 robots.txt gehoorzaamd worden lijkt me.
Ik kan er gewoon niet uit dat ik het bestand niet kon vinden. Het probleem is dus wel opgelost, maar lekker loopt het niet met Google, en ik voorkomen dat ik na een paar weken moet concluderen dat er idd ‘iest’ verkeerd zat, vandaar.
Zo te zien is de site inmiddels geïndexeerd, was een kwestie van tijd dus.
Het verhaal met die childthemes klinkt wat vaag, maar ik heb nog niet veel met BuddyPress gewerkt.
Geweldige tips. Dank.
Enig idee waar ik in WP aan kan geven dat iedereen een reactie kan plaatsen zonder dat men daar speciaal voor ingelogd moet zijn. Nu heb ik standaard staan “Je moet inloggen om een reactie te kunnen plaatsen”. Ik wil niet iedereen hiertoe verplichten om een reactie te kunnen plaatsen.
Thanks in advance.
Dat staat in je adminomgeving onder ‘discussion’
Hele handige tip Frank, ga ik ook maar eens toepassen.
Beste Frank,
De webmaster tools van google geeft aan wanneer ik de sitemap submit dat al mijn urls worden geblocked door de robots.txt
Hoe is dit op te lossen? Ik had al een robots.txt gemaakt met de code dat alles toestaat om te indexeren.
In wordpress staat allow to index. Ik kom er er niet uit helaas!
Zou je me kunnen assisteren?