Prilagođeno pretraživanje

četvrtak, 23. srpnja 2009.

Tehnika Rada i Pozicioniranje Rezultata Tražilice Google



Tehnika internet tražilice:

Arhitektura

Google Inc. diljem svijeta posjeduje više računalnih centara, koji pojedinačno sadrže potpunu funkcionalnost tražilice. Korisnički upit se kroz „Domain Name System“ (sustav koji imena kao što je google.com pretvara u IP-Adrese) prenosi u idealnom slučaju u sljedeći mrežno topološki najbliži cenatar – navedeni centar je samo u rijetkim slučajevima identičan najbližem geografski topološkom centru. U slučaju ako određeni računalni centar nije sposoban za rad, preostali centri preuzimaju njegovu ulogu.

Svaki računalni centar sastoji se od računalnog clustera. Za tu namjenu korištena računala su osobna računala kompatibilna s IBM-ovim proizvodima, prvenstveno računalima; tj. sastoje se od relativno jeftinih standardnih komponenti. Navedeni sustav koristi samorazvijeni Google File System – razdijeljena arhitektura koja sve podatke redundantno (suvišno) pohranjuje na različitim uređajima. U slučaju ako dođe do kvara određenog računala ili određenog hard diska unutar računala, odgovarajući podaci se s drugog mjesta unutar clustera prekopiraju na zamjensko računalo, tako da se oštećena hardwareeska komponenta može zamijeniti u toku rada, bez zaustavljanja sustava. Cjelokupni sustav može se veoma lako modificirati, tj. prema potrebi se mogu dodavati ili oduzimati računala ili pojedinačni hard diskovi.

Odlaganjem određene strukture podataka (indexi, kopije dokumenata, zapisi svake vrste) na različitim računalima i zahvaljujući velikom broju raspoloživih računala pojedini upiti mogu se relativno brzo obraditi, budući da se informacije čitaju paralelno. Vrijeme odgovora od maksimalno pola sekunde smatra prihvatljivim, te se koristi za orijentaciju kod utvrđivanja brzine kojom se isporučuju odgovori na upite. Brza „dostava“ informacija bila je veoma velik doprinos popularnosti Googlea već početkom razvoja sustava. Konkurenciji je za odgovor trebalo mnogo više vremena. Osobito kod inkrementnih upita, tj. kod detaljnih upita korisnika ušteda vremena osjetno je veća.

Software tražilice

Kao perativni sustav koristi se „osiromašena“ verzija Linux distribucije Red Hat. Programski jezik C++ i Python imaju esencijalnu ulogu kod implementacije softwarea tražilice u cjelokupni sustav.

Redoslijed stranica rezultata

Broj dokumenata koji odgovaraju upitu može biti nepregledne veličine. U tom slučaju potrebno je rezultate sortirati prema relevantnosti, kako bi se na upit odgovorilo s najvažnijim dokumentima pozicioniranim na prvim mjestima. Procjena upotrebljivosti izvora u odnosu na upit jedan je od odlučnih kriterija prema kojima se mjeri kvaliteta tražilica. Na temelju količine za to određenih informacija dodjeljeni Ranking se s vremena na vrijeme automatski provjerava pomoću algoritma. Proces rangiranja stranica mora se obaviti u razumnom vremenskom okviru, kako bi Ranking bio aktualan.

Google za organizaciju traženih rezultata među ostalim koristi i tzv. PageRank vrijednost. PageRank se određuje prema broju linkova na određeni dokument. Koliko više postoji linkova, i koliko je veći Page Rank stranice na kojoj su smješteni linkovi, toliko je veća vrijednost odgovarajućeg dokumenta, tj, dokumenta na koji ukazuju linkovi. Pojedinačni PageRank stranice može se odrediti pomoću browser-plugina pod nazivom Google-Toolbar. Jedini problem je u tomu što je navedeni PageRank najčešće star par mjeseci. Takođe postoje i online službe koje omogućuju pregled PageRanka određene stranice.

Uz PageRank, kod redoslijeda stranica u obzir se uzimaju i daljnji faktori, kao što je zastupljenost ključnih riječi unutar teksta ili naslova dokumenta. Takođe veliku ulogu imaju i imena sidra „named anchor“ unutar dokumenta. Posljednja tehnika se veoma često zlorabi kod izrade tzv. „Google bombe“. Točan način orgnizacije Googleovih rezultata je poslovna tajna, kako bi se spriječila manipulacija rezultata tražilice. Optimizacija stranica za tražilice bavi se navedenim metodama s ciljem da postigne čim bolje rezultate uz čim manje troškove za vlasnika stranice.

Google - Razvoj Uspješne Tražilice i Kompanije

Google i cenzura u fokusu kritike

Savjeti i trikovi za korištenje tražilice Google

PageRank Algoritam i njegova Primjena

Googleove Usluge i Marketing

Komunikacija, Publikacije i Software Tražilice Google

Nema komentara: