18Oct

    Meklētājprogrammas

    Kad es mācījos RSEBAA, man bija tāda lieliska iespēja iepazīties ar Unu Endziņu. Ar viņas atļauju, es pārpublicēšu viņas bakaulara darba “Meklētājprogrammas optimizācija” daļas. Viena no tām:

    Parasti, kad Interneta lietotājs vēlas iegūt kādu informāciju, tiek izmantotas meklētājprogramma. Pēc definīcijas – meklētājprogramma ir programma, kas dokumentos meklē atslēgvārdus un lietotājam sniedz dokumentu sarakstu, kuros šie vārdi ir atrasti. Vienkāršiem vārdiem runājot, meklētājprogramma savieno ievadītos vārdus (vaicājumu) ar datu bāzi, ko tā izveidojusi no tīmekļa lapām (indeksu). Tad meklētājprogramma veido sarakstu ar URL saitēm (kas pēc meklētājprogrammas algoritma visvairāk atbilst ievadītajam vaicājumam) un to īsu izklāstu.

    Deviņdesmito gadu sākumā Interneta lietotāji izmantoja komandrindu, lai lietotu tādas meklētājprogrammas kā Archie, Veronica u.c., mūsdienās tīmekļa lietotāji informācijas meklēšanai Internetā izmanto meklētājprogrammas ar web lietotāja saskarni. Kā populārāko mūsdienu meklētājprogrammu piemērus var minēt „Yahoo” un „Google.

    Mūsdienās meklētājprogrammas ir veidotas tā, lai būtu vienkārši lietojamas. Lietotājs, kas izmanto Internetu ziņu lasīšanai, noteikti spēs darboties arī ar meklētājprogrammu. Populārāko meklētājprogrammu lietotāja saskarnes var personificēt, piemēram, iestatīt lietotājam vēlamo valodu vai rezultātu kārtošanu pēc noteiktiem parametriem, tādā veidā vēl vairāk atvieglojot meklēšanu. Parasti meklētājprogrammas piedāvā arī citus pakalpojumus kā e-pasts, attēlu meklēšana, vēstkopas utt. Tas tiek darīts ar nolūku, lai paturētu lietotāju sistēmā, jo meklētājprogrammu peļņas avots ir reklāmas izvietošana meklētājprogrammas pakalpojumos. Tāpēc arī meklētājprogrammu piedāvātajam pakalpojumu skaitam ir tendence palielināties.

    Iekams ķerties pie meklētājprogrammas optimizācijas, jānoskaidro kā meklētājprogrammas darbojas. Tālāk sīkāk aprakstīti meklētājprogrammas darbības principi.

    Meklētājprogrammas darbības principi

    Lai lietotājs varētu atrast sev interesējošo tīmekļa vietni, tai jābūt indeksētai. Šo darbību palīdz veikt speciāla programmatūra, ko sauc par rāpuli (crawler). Rāpulis pārvietojas no vienas Interneta saites uz citu un apkopo atrastās lapas. Šo procesu sauc par rāpošanu (web crawling). Parasti rāpošanas process sākas lielos serveros, kur rāpulis indeksē kādu populāru Interneta vietni un tālāk seko šajā vietnē atrastajām saitēm (links), tādā veidā pārvietojoties pa visu plašo Internetu.

    Meklētājprogrammas „Google” aprakstā teikts, ka tā izmanto vairākus rāpuļus vienlaikus un tie nepārtraukti rāpo pa tīmekli, katrs rāpulis var veidot 300 pieslēgumus vienlaicīgi un rāpot ar ātrumu 100 tīmekļa lapas sekundē, tādā veidā katru sekundi saglabājot datus 600 kilobaitu lielumā.

    Pirmie rāpuļi ievāca tikai tīmekļa lapu nosaukumus, bet mūsdienās tie pieraksta visu tīmekļa lapas saturu, dažādu datņu tipus kā pdf, doc un mp3, kā arī tīmekļa vietnes meta datus. Tīmekļa vietnēs var arī ievietot norādījumus rāpulim, izmantojot tam paredzētus speciālus failus un tagu atribūtus.

    Spēkā ir pieņēmums, ka, jo lielāks ir aplūkoto saišu skaits un, jo biežāk tās tiek pierakstītas, jo pilnīgāks ir indekss. Savukārt, jo pilnīgāks ir indekss, jo pastāv lielāka iespēja, ka meklēšanas rezultātu lapas ar attiecīgajiem vārdiem, vislabāk atbildīs meklētajam vaicājumam.

    Pie indeksa veidošanas jeb saraksta sakārtošanas, informācija tiek kārtota tā, ka zinot konkrētu URL, varētu atrast vārdus, kas uz to attiecas. Šeit jāņem vērā divi aspekti: kādu informāciju rāpulis saglabā un kāda metode tiks izmantota informācijas indeksēšanai. Ja ir saglabāta visa lapas struktūra, tad meklētājprogramma var noteikt lapā atrodamo vārdu svaru, ņemot vērā vai tie parādās lapas augšdaļā, apakšvirsrakstos, saitēs, meta datos vai virsrakstā. Katrai meklētājprogrammai ir savs veids kā tā novērtē lapas tekstu, tādēļ ievadot vaicājumu dažādās meklētājprogrammās, rezultāti var atšķirties. Bieži vien dažas lapas dažādu iemeslu dēļ netiek iekļautas indeksā, te nu jāatceras, ka meklētājprogrammas izstrādā privāti uzņēmumi tāpēc tiem ir tiesības rīkoties kā tie vēlas, lapas īpašnieks nevar piespiest meklētājprogrammu to ieļaut savā indeksā.

    Tālāk indeksa dati tiek saspiesti, lai ietaupītu servera vietu. Piemēram, „Google” aprakstā teikts, ka tā izmanto 2 baitus, lai saglabātu datus par katra atrastā vārdu fonta izmēru, pozīciju, burtu lielumu un citu informāciju.

    Beidzamais solis ir datu bāzes izveide, lai lietotājs varētu piekļūt indeksam. Šo datu bāzi vēl mēdz saukt par izpildes laika indeksu, kas veido tādu kā tiltu starp meklētājprogrammas neredzamo daļu un redzamo lietotāja saskarni.

    Tālāk jau lietotājs ievada meklējamos vārdus jeb vaicājumu meklētājprogrammā, meklētājprogramma savieno šo vaicājumu ar datu bāzi, ko tā izveidojusi no indeksa, un, kā jau iepriekš tika minēts, izveido sarakstu ar URL saitēm un to īsu izklāstu. Vaicājums, ko lietotājs ievada meklēšanas lauciņā var būt pavisam īss, viens vai divi vārdi, kā arī pietiekami sarežģīts. Lai lietotājam nebūtu jātērē laiks meklētājprogrammas vaicājumu valodas apguvei, ir izveidota paplašinātās meklēšanas lietošanas saskarne, kas piedāvā sašaurināt meklēšanu pēc frāzēm, domēna, datnes tipa, atrašanās vietas, valodas, rezultātu skaita un laika ierobežojumiem. Daudzas meklētājprogrammas piedāvā iekļaut vai izslēgt atslēgvārdus vai meklēt līdzīgas lapas, tāpat bieži meklētājam tiek piedāvāti uzvedinoši vārdi, piemēram, Yahoo izstrādātā also try opcija. Galu galā visas meklētājprogrammas taču vēlas atšifrēt meklētāja patieso nodomu, tomēr kā izrādās lielākā daļa meklētājprogrammu lietotāju nemaz neizmanto paplašinātās meklēšanas iespējas. Par meklētāja paradumiem vairāk var lasīt sadaļā – meklēšanas paradumi.

    Autors: Una Endziņa ©

    Pieraksties Jaunumiem!

    Pieraksties Jaunumiem!

    • Vispār Unai ir ļoti daudz labu domu savā bak. darbā, ar laiku pa daļām tos pārpublicēšu (Una piekrita), jo tās tiek tiešām ir lasīšanas vērtas.