Sivusi ovat tallessa

Googlen välimuisti puhuttaa. Kun Googlen hakurobotti käy sivuja läpi, se tallentaa omaan tietokantaansa myös sivun sisällön. Tätä välimuistissa sijaitsevaa sivua voi katsella esimerkiksi silloin kun alkuperäinen sivu ei ole saatavilla. Mutta välimuistissa olevista sivuista on muuhunkin: ne ovat olemassa vielä jonkin aikaa senkin jälkeen kun alkuperäinen sivu on hävinnyt syystä tai toisesta.

Haluatko lukea nolon tapauksen, joka on jo poistettu alkuperäisiltä sivuilta? Onko sivu muuttunut salasanasuojatuksi? Tai onko se kenties päässyt katoamaan kovalevyn rikkouduttua? Kaikissa näissä tapauksissa sivu saattaa vielä löytyä Googlesta.

Mutta kaikki eivät siitä pidä. News.comin jutussa keskustellaan siitä, rikkooko Googlen välimuisti tekijänoikeuslakia. Monien mielestä ei, mutta asiaa ei ole vielä ratkaistu.

Googlen kuvahakutoiminto ottaa myös kopioita – mutta se kopioi verkosta löytämiään kuvia. Tämä on kuitenkin laillista niin kauan kuin kuvista tallennetaan vain pieniä thumbnail-versioita, juuri tulleen USA:laisen oikeusistuimen päätöksen mukaan.

5 thoughts on “Sivusi ovat tallessa

  1. Google kuitenkin noudattaa kiltisti robots.txt-tiedostoa tai esimerkiksi HTML:n liitettv metadataa, jolloin ongelma on vltettviss yllpitjn niin halutessa. Esimerkiksi rivi riitt kertomaan Googlelle, ett sivusta ei saa ottaa kopiota vlimuistiin.

    Tietysti lytyy aina mys arkistonkerjbotteja, jotka eivt tuollaisesta vlit, joten jos sivu on julkisesti saatavilla Internetiss, voi olla varma, ett se on mahdollista lyty viel vuosienkin kuluttua hyvst tallesta.

    Thumbnail-kuvien laillisuudesta en tied varmasti sanoa, mutta uskoisin sen olevan Suomessa laitonta lakikirjan mukaisesti, mutta moraalisesti en ne siin tuollaisessa kytttarkoituksessa mitn epilyttv tai vr.

  2. Ei muuten tunnu noudattavan. Minulla on robots.txt, jonka pitisi kattaa koko hakemistorakenne (ja ylimrinen mm. /blog/ -hakemistossa, varmuuden vuoksi), sek asialliset metadatat blog-sivuilla.

    Ja mit sanoo Google? Oli pitkn hiljaan, mutta sitten innostui indeksoimaan sivuja aivan ylltten. Luulen, ett tm jollain tapaa johtuu linkityksest ja mahdollisesti siit, ett Google huomasi tmn periferian blog-sivustojen olemassaolon ern kokeilun kautta.

  3. Ainakin itsellni tuntuu Google noudattavan meta-tageja orjallisesti. Itse en ole tosin kskenytkn olla kokonaan huomioimatta, vaan pelkstn olla pitmtt julkista vlimuistitallennetta. Ja tuo meta-tagi, jolla tuo toimii on siis [meta name=”robots” content=”noarchive” /], joka oli tuosta edellisesta viestist karsiutunut ikvsti pois. Robots.txt:n vaikutusta en ole koettanut.

    Listietoja lytyy mm. Googlenkin sivuilta: http://www.google.fi/intl/fi/faq.html#crawl

  4. Allekirjoittanut haki aika monen oman sivun HTML/CSS pohjat Googlen cachesta, kun hostingissa hajosi RAID5 pakka.
    Kiitos tietokantojen, ei sisltj tarvinnut tuottaa uusiksi.

  5. Merten: Sinun robot.txt sanoo FORBIDDEN, eli Google(kaan) ei pysty sit lukemaan. Ja luulempa, ett sivusi lytyvt Googlesta ihan muusta syyst kuin siit, ett Google tekisi jotain vr.

Leave a Reply

Your email address will not be published. Required fields are marked *