Sivusi ovat tallessa

Googlen välimuisti puhuttaa. Kun Googlen hakurobotti käy sivuja läpi, se tallentaa omaan tietokantaansa myös sivun sisällön. Tätä välimuistissa sijaitsevaa sivua voi katsella esimerkiksi silloin kun alkuperäinen sivu ei ole saatavilla. Mutta välimuistissa olevista sivuista on muuhunkin: ne ovat olemassa vielä jonkin aikaa senkin jälkeen kun alkuperäinen sivu on hävinnyt syystä tai toisesta.

Haluatko lukea nolon tapauksen, joka on jo poistettu alkuperäisiltä sivuilta? Onko sivu muuttunut salasanasuojatuksi? Tai onko se kenties päässyt katoamaan kovalevyn rikkouduttua? Kaikissa näissä tapauksissa sivu saattaa vielä löytyä Googlesta.

Mutta kaikki eivät siitä pidä. News.comin jutussa keskustellaan siitä, rikkooko Googlen välimuisti tekijänoikeuslakia. Monien mielestä ei, mutta asiaa ei ole vielä ratkaistu.

Googlen kuvahakutoiminto ottaa myös kopioita – mutta se kopioi verkosta löytämiään kuvia. Tämä on kuitenkin laillista niin kauan kuin kuvista tallennetaan vain pieniä thumbnail-versioita, juuri tulleen USA:laisen oikeusistuimen päätöksen mukaan.

5 thoughts on “Sivusi ovat tallessa”

Google kuitenkin noudattaa kiltisti robots.txt-tiedostoa tai esimerkiksi HTML:��n liitett�v�� metadataa, jolloin ongelma on v�ltett�viss� yll�pit�j�n niin halutessa. Esimerkiksi rivi riitt�� kertomaan Googlelle, ett� sivusta ei saa ottaa kopiota v�limuistiin.

Tietysti l�ytyy aina my�s arkistonker��j�botteja, jotka eiv�t tuollaisesta v�lit�, joten jos sivu on julkisesti saatavilla Internetiss�, voi olla varma, ett� se on mahdollista l�yty� viel� vuosienkin kuluttua hyv�st� tallesta.

Thumbnail-kuvien laillisuudesta en tied� varmasti sanoa, mutta uskoisin sen olevan Suomessa laitonta lakikirjan mukaisesti, mutta moraalisesti en n�e siin� tuollaisessa k�ytt�tarkoituksessa mit��n ep�ilytt�v�� tai v��r��.

Ei muuten tunnu noudattavan. Minulla on robots.txt, jonka pit�isi kattaa koko hakemistorakenne (ja ylim��r�inen mm. /blog/ -hakemistossa, varmuuden vuoksi), sek� asialliset metadatat blog-sivuilla.

Ja mit� sanoo Google? Oli pitk��n hiljaan, mutta sitten innostui indeksoimaan sivuja aivan yll�tt�en. Luulen, ett� t�m� jollain tapaa johtuu linkityksest� ja mahdollisesti siit�, ett� Google huomasi t�m�n periferian blog-sivustojen olemassaolon er��n kokeilun kautta.

Ainakin itsell�ni tuntuu Google noudattavan meta-tageja orjallisesti. Itse en ole tosin k�skenytk��n olla kokonaan huomioimatta, vaan pelk�st��n olla pit�m�tt� julkista v�limuistitallennetta. Ja tuo meta-tagi, jolla tuo toimii on siis [meta name=”robots” content=”noarchive” /], joka oli tuosta edellisesta viestist� karsiutunut ik�v�sti pois. Robots.txt:n vaikutusta en ole koettanut.

Lis�tietoja l�ytyy mm. Googlenkin sivuilta: http://www.google.fi/intl/fi/faq.html#crawl

Allekirjoittanut haki aika monen oman sivun HTML/CSS pohjat Googlen cachesta, kun hostingissa hajosi RAID5 pakka.
Kiitos tietokantojen, ei sis�lt�j� tarvinnut tuottaa uusiksi.

Merten: Sinun robot.txt sanoo FORBIDDEN, eli Google(kaan) ei pysty sit� lukemaan. Ja luulempa, ett� sivusi l�ytyv�t Googlesta ihan muusta syyst� kuin siit�, ett� Google tekisi jotain v��r��.

Pinseri

Tärkeitä asioita

Sivusi ovat tallessa

5 thoughts on “Sivusi ovat tallessa”

Leave a Reply