Sivusi ovat tallessa

Kirjoittaja Sami, 10.7.2003

Googlen välimuisti puhuttaa. Kun Googlen hakurobotti käy sivuja läpi, se tallentaa omaan tietokantaansa myös sivun sisällön. Tätä välimuistissa sijaitsevaa sivua voi katsella esimerkiksi silloin kun alkuperäinen sivu ei ole saatavilla. Mutta välimuistissa olevista sivuista on muuhunkin: ne ovat olemassa vielä jonkin aikaa senkin jälkeen kun alkuperäinen sivu on hävinnyt syystä tai toisesta.

Haluatko lukea nolon tapauksen, joka on jo poistettu alkuperäisiltä sivuilta? Onko sivu muuttunut salasanasuojatuksi? Tai onko se kenties päässyt katoamaan kovalevyn rikkouduttua? Kaikissa näissä tapauksissa sivu saattaa vielä löytyä Googlesta.

Mutta kaikki eivät siitä pidä. News.comin jutussa keskustellaan siitä, rikkooko Googlen välimuisti tekijänoikeuslakia. Monien mielestä ei, mutta asiaa ei ole vielä ratkaistu.

Googlen kuvahakutoiminto ottaa myös kopioita – mutta se kopioi verkosta löytämiään kuvia. Tämä on kuitenkin laillista niin kauan kuin kuvista tallennetaan vain pieniä thumbnail-versioita, juuri tulleen USA:laisen oikeusistuimen päätöksen mukaan.

    Jutussa “Sivusi ovat tallessa” on 5 kommenttia:

    • Google kuitenkin noudattaa kiltisti robots.txt-tiedostoa tai esimerkiksi HTML:ään liitettävää metadataa, jolloin ongelma on vältettävissä ylläpitäjän niin halutessa. Esimerkiksi rivi riittää kertomaan Googlelle, että sivusta ei saa ottaa kopiota välimuistiin.

      Tietysti löytyy aina myös arkistonkerääjäbotteja, jotka eivät tuollaisesta välitä, joten jos sivu on julkisesti saatavilla Internetissä, voi olla varma, että se on mahdollista löytyä vielä vuosienkin kuluttua hyvästä tallesta.

      Thumbnail-kuvien laillisuudesta en tiedä varmasti sanoa, mutta uskoisin sen olevan Suomessa laitonta lakikirjan mukaisesti, mutta moraalisesti en näe siinä tuollaisessa käyttötarkoituksessa mitään epäilyttävää tai väärää.

    • Merten says:

      Ei muuten tunnu noudattavan. Minulla on robots.txt, jonka pitäisi kattaa koko hakemistorakenne (ja ylimääräinen mm. /blog/ -hakemistossa, varmuuden vuoksi), sekä asialliset metadatat blog-sivuilla.

      Ja mitä sanoo Google? Oli pitkään hiljaan, mutta sitten innostui indeksoimaan sivuja aivan yllättäen. Luulen, että tämä jollain tapaa johtuu linkityksestä ja mahdollisesti siitä, että Google huomasi tämän periferian blog-sivustojen olemassaolon erään kokeilun kautta.

    • Ainakin itselläni tuntuu Google noudattavan meta-tageja orjallisesti. Itse en ole tosin käskenytkään olla kokonaan huomioimatta, vaan pelkästään olla pitämättä julkista välimuistitallennetta. Ja tuo meta-tagi, jolla tuo toimii on siis [meta name=”robots” content=”noarchive” /], joka oli tuosta edellisesta viestistä karsiutunut ikävästi pois. Robots.txt:n vaikutusta en ole koettanut.

      Lisätietoja löytyy mm. Googlenkin sivuilta: http://www.google.fi/intl/fi/faq.html#crawl

    • toni says:

      Allekirjoittanut haki aika monen oman sivun HTML/CSS pohjat Googlen cachesta, kun hostingissa hajosi RAID5 pakka.
      Kiitos tietokantojen, ei sisältöjä tarvinnut tuottaa uusiksi.

    • Juha-Mikko says:

      Merten: Sinun robot.txt sanoo FORBIDDEN, eli Google(kaan) ei pysty sitä lukemaan. Ja luulempa, että sivusi löytyvät Googlesta ihan muusta syystä kuin siitä, että Google tekisi jotain väärää.

Kirjoita kommentti


Tämä linkki on ansa roskapostittajille.