Min eneste (?) påskenøtt

Jeg kan love at jeg aldri vil være initiativtager til hverken påskenøttblogg, julenøttblogg, julekalenderblogg eller lignende tiltak. Men nå har det seg slik at jeg har støtt på en nøtt som jeg ikke klarer å knekke. Det har seg nemlig slik at jeg for en stund tilbake så noe i søkemotorene som jeg aldri har sett tidligere. Og dermed spør jeg dere. Hva i alle dager er dette for noe?

Feil i Google

Feil i Google

Som man kan se har ikke Google akkurat taklet æ-ø-å-problematikken helt i henhold. Jeg har selvsagt sett slik tegnsetting tidligere. Men da på en nettside, og gjerne i forbindelse med feil innstillinger i nettleseren eller feil koding av nettsiden.

Men i dette tilfellet har altså Google taklet én underside, nemlig forsiden, galt. Det rare er at det er ingen forskjeller, slik jeg kan se, på forsiden eller andre undersider på dette domenet. Det er ingen feil i kildekoden til nettsiden. Det jeg da antok var feilen var at på indekseringstidspunktet har noe gått galt. Enten fra Googles side, eller at undersiden hadde en feil ved indekseringstidspunktet. Men hvorfor har ikke dette blitt oppdatert? Feilen har ligget i SERP’en lenge nå. Mens feilen er ikke å se på nettsiden til denne kiropraktoren.

Så til det artige (i nerdeøyne). Jeg er ikke kjent for å gi meg så himla lett, akkurat. Så jeg henvendte meg først til Danny Dover i SEOmoz. SEOmoz er et av verdens fremste selskaper på søkemotoroptimalisering. Han svarte meg noe sånt som:

Nå har jeg brukt en god del tid på dette caset, og såvidt jeg kan se er det ingenting galt med nettsiden. Alt ser ut til å være i orden, og med mindre det er noe jeg ikke har fått med meg, ser dette ut til å være en glipp fra Google sin side. Det merkelige er at Google parser alt annet enn forsiden korrekt. Ta kontakt igjen om du finner ut av dette!

Med andre ord, han landet på samme svar som jeg hadde. Derfor tok jeg like godt kontakt med Matt Cutts. Han har ikke bare egen wiki-artikkel. Han er også Googles fremste (?) ekspert på organisk søk, og jobber til daglig i Search Quality Group i Google. I en godt beskrivende mail fra meg til han om problemet utfordringen, får jeg følgende svar:

I believe that page has some invalid utf8 in an alt tag. Matt.

Det er jo tydelig at han kanskje ikke har lagt sjela si i dette caset, men det er likevel ikke et svar jeg er tilfreds med. Det tok 2 sekunder for meg å forstå at det var et problem med tegnkodingen. Det snåle er at jeg ikke kan se tegnkodefeilen i «vår ende».

Så, etter å ha søkt svar hos 4 eksperter (meg selv, kollegaer i Metronet, Danny Dover og til slutt Matt Cutts) spør jeg nå internettet:

Er det noen som kan forklare meg hva som har hendt her, og hvordan det kan rettes opp?

5

5 thoughts on “Min eneste (?) påskenøtt

  1. HTML-en på sida påstår at det kommer UTF-8-data:

    Mesteparten av sida er også UTF-8, men hvertfall alt-taggen til logoen er ISO-8859-1. Hvis man velger View-Character Encoding -> Western får riktig alt-tag i HTML-kilden: alt=»Skøyenåsen Kiropraktor» – men hvis man velger UTF-8 får man feil: alt=»Sk�yen�sen Kiropraktor»

    De som har laget denne sida har altså lagt ut forskjellig tegnsett i samme side, og da er resultatet uforutsigbart.

    Løsning: sørg for at alt innhold på sida er i det tegnsettet man angir, i dette tilfellet UTF-8.

  2. Er dette grunnen, mon tro? Jeg ser fortsatt et lite problem. Du sier at slikt kan gi uforutsigbare resultater. Men er det uforutsigbart når det virker som om alle andre sider har blitt taklet korrekt, mens kun forsiden har blitt tolket feil? Feilen du refererer til ligger jo på de andre sidene også, i så fall…

  3. Det jeg mener med uforutsigbart er at hvis man roter med tegnsett har man liten kontroll over hvordan dette blir tolket av programmer som tolker innholdet på sida, f.eks. Google-crawleren eller nettlesere. En «ø» er faktisk en annen kombinasjon av bytes i UTF-8 og i ISO-8859-1, og vil tolkes forskjellig avhengig av hvilket karaktersett programmet forventer å få. Nøyaktig hvordan Google-crawleren tolker dette vet jeg ikke, derfor kan jeg ikke fortelle nøyaktig hva som har skjedd på de forskjellige sidene. Men når man ser et encoding-problem (som dette åpenbart er) og finner sider med forskjellig encoding i samme side er dette hvertfall en åpenbar feilkilde som man gjør lurt i å rette.

  4. Blir page-title generert av kode (f.eks. php’s htmlentities) der du kanskje har glemt å oppgi riktig charset?
    Siden validerer ihvertfall ikke.

  5. Til info; jeg har aldri vært pålogget hverken cms-løsningen eller serveren til den aktuelle siden. Det har selvsagt ikke gjort feilsøkingen lettere å ikke kunne se alt… Snarere enda mer utfordrende:)

    Men jeg skal ta med meg alle kloke svar til rette vedkommende så kanskje man er inne på en løsning.

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *

*

Du kan bruke disse HTML-kodene og -egenskapene: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>