Oma pikku Google

Tulossa: Google-haku oman tietokoneen kovalevyyn. Jos se osaa tehd hakuja mys maileista eik ole niin turkasen hidas kuin Microsoftin omat haut, ainakin meiklisen duunikoneeseen tuo softa vilahtaa vlittmsti. Nykyisill mailimrill koko ajan suurempi osa tyajasta kuluu erilaisten hakujen parissa.

6 thoughts on “Oma pikku Google

  1. Kertokaa minulle miten Wintoosassa lyt nopeasti kaikki tiedostonimet joissa esiintyy esim. merkkijono “paska”? Kaiken jrjen mukaan tuloksen pitisi valmistua alle sekunnissa, mutta ainakin minulla likyttis haluaa skannata kaikki 500000 tiedostoa. Miss vika?

  2. Ei se ihan niin simppeli ole. Jos kaikki tiedostosi olisivat yhdess hakemistossa, niiden nimet ja sijainnit levyll olisivat tallennettu yhteen levyjrjestelmtietueeseen. Tst tietueesta pit kaikki yli 4 merkki pitkt tiedostonimet kyd lpi ja tarkistaa esiintyyk tuo 5-merkkinen fraasi sen alussa, lopussa tai jossain vliss.

    Esimerkiksi tiedoston nimi voi olla “aflamhaflampaskeras”, jossa on fraasi “paske”, mutta ei “paska”. Jrjestelmn on ensin kytv lpi “aflamhaflam”, mik on sinns helppoa, ett missn ei esiinny p-kirjainta, mutta sitten tuleekin jo “pask”, joka on lhempn, joskin silti ohi.

    Sanaa “paska” vaikeampi olisi hakea sanaa “paparazzi”, koska tiedostonimess “hompapapapapaparazzparazzizzi” ei voida vasemmalta oikealla lukiessa olla ennen loppua juuri missn vaiheessa, ett onko jokin “pa” tuon sanan “paparazzi” aloittava merkkijono. Koska on jrkevmpi luoda yleinen hakualgoritmi, eik jokaiselle mahdolliselle fraasille omaa algoritmiaan (koska vaihtoehtoja on kytnnss retn mr), on algoritmin otettava tllainenkin ongelma huomioon.

    Huomattavasti nopeampaa on etsi tiedostoja, joiden nimi ALKAA jollain fraasilla.

    Tm kest siis aikansa, jos jrjestelmss on 500000 tiedostoa ja ainoa hakukriteeri tosiaan on merkkijono tiedoston nimess. Ei edes tiedet, mit hakemistoja ei tarvitse hakea.

    Hakemistot nimittin tuovat lis monimutkaisuutta hakuun, koska jrjestelmn tytyy paikantaa jokainen kansio kaikkialta ympri kiintolevy ja suorittaa niden sisltmille tiedostonimille yllkuvaamani tarkistus.

    Kiintolevy joutuu siis lukemaan noin keskimrin varmaan 15 tavun (1 tavu, 1 tiedostonimen merkki) mittaisia tietoptki jokapuolelta kiintolevy, jolloin se joutuu lhes jokaisessa niss 500000 vliss siirtmn lukupt seuraavaan kohtaan.

    Tokihan tm voitaisiin tehd nopeamminkin, jos tiedostojrjestelm suunniteltaisiin nimenomaisesti tllaisia hakuja varten sen sijaan, ett pyrittisiin nopeuttamaan “normaalimpia” operaatioita, kuten tiedostojen siirtoa ja kopiointia hakemistosta ja levylt toiselle.

  3. …tosin esimerkiksi linuxilla ei kyll mene noin 200000 tiedoston nimen hakemiseen ja vertaamiseen kahta sekuntia kauempaa, ett nytt tiedostojrjestelm olevan fiksumpi.

    find .|grep paska

  4. Toivottavasti tuo Google haku toimii omassa kovalevyss yht tehokkaasti kuin internetiss. Harmikseni olen nimttin havainnut etta kun haen omaa nimeani Googlella esiin tulee mita merkillisimpi vuonna 1995 kirjoittamiani typeri kommentteja vieraskirjoihin. Haku on siis turhankin tehokas. Toisaalta kun haen Windows XP:n standardihaulla omia dokumenttejani omalta kovalevyltni se ei kertakaikkiaan lyd kaikkia. Vaikeuksia on erityisesti ollut ohjelmakoodia sisltvien tekstitiedostojen lytmisess. Ehk hakuni asetukset ovat jotenkin vrin mutta tllaisen haun pitaisi kyll onnistua ilman erityisasetuksia vain sanomalla “search all”. Odotan siis innolla Googlen hakua omaan kovalevyyni.

  5. Totta h-tiss brute force hakuun menee aikaa, mutta kun olen heittnyt Winukassa indexing servicen plle, voisi p#rkele olettaa ett se osaa rakentaa filenameista indeksin, s**tana! Koska olen ihminen pistn tiedostonimeen selkokielell mit se sislt, varsinkin kun kyse on tekstidokumenteista, powerpoint-esityksist, excel+taulukoista jne. Tst seuraa ett tiedostonimi-indeksi olisi turkasen trke! On se kumma ett Microsoftin kovapalkkaiset kumipt eivt hiffaa edes tt (prkl)!!

  6. Minusta tuntuu ettei windows -haun hitaus johdu itse tiedostojrjestelmst tai kernelist, vika on jossain muualla. Esimerkiksi tuollainen (maksullinen, free trial) softa kuin EFS tekee haut murto -osassa windows -hakuun verrattuna, lyten samat tiedostot. Testailin puulaakimaisesti – voihan tuo kytnnss olla tehottomampi – mutta so what? Yleisimpiin hakuihin tuo tuntuu toimivan MS:n omaa tykalua paremmin.

    …ja indexointi oli pll. ;-)

    http://www.snapfiles.com/get/efsearch.html

Leave a Reply

Your email address will not be published. Required fields are marked *