CAUTAREA INFORMATIEI PE INTERNET



CAUTAREA INFORMATIEI PE INTERNET


Se spune ca serviciile puse la dispozitie de Internet vor transforma lumea intr-un „sat global” din puct de vedere informational si nu numai. In momentul de fata imaginea pe care o ofera Internet-ul unui nou-venit este mai degraba aceea a unui oras aglomerat in care te poti rataci cu usurinta fara o harta adecvata. Problema principala este de unde se poate procura o astfel de harta. Au aparut carti si site-uri care incearca sa ghideze utilizatorii de Internet pe aceasta cale.




Este general acceptata ideea ca in orice domeniu al activitatii umane, volumul publicatiilor conventionale (carti, reviste, teze, documente si alte tipariri) depaseste cu mult capacitatea de lecturare a unei persoane. Transpunind aceasta realitate de la domeniul publicatiilor traditionale in sfera publicatiilor electronice, situatia este cu cateva ordine de marime mai dramatica. Avalansa informationala crest e in prezent exponential. Pentru a intelege ordinul de complexitate a problemei cautarii de informatie pe Internet, este suficient a mentiona ca in spatiul Web de navigare, uriasa biblioteca a Congresului american este numai unul din miile sau chiar zecile de mii de depozite de informatie stocata in format electronic.


Singura solutie eficienta la acesta problema o constituie crearea in interiorul Internet-ului de servicii care sa ghideze utilizatorii in circulatia prin universul informational. Un exemplu evident al acestor servicii il constituie motoarele de cautare Web si directoarele tematice Web prezentate in cele ce urmeaza.


Strategia navigarii

De regula, navigatorul incepator, socat de multitudinea posibilitatilor de obtinere a informatiei este atras de o zona sau alta, de un domeniu la care nu avea acces pana acum, de noutatea unor informatii, etc. Consecintele nu sunt greu de prevazut: consum mare de timp si, mai ales, devierea de la problema propusa pentru studiu. Evident, dupa multe ore de navigare se castiga involuntar o anumita experienta care determina o interactiune mai eficienta cu informatia gasita pe paginile Web, dar costurile ei sunt destul de ridicate.


Majoritatea studiilor despe acest subiect recomanda o serie de etape care sa ghideze navigarea utilizatorului, astfel economisindu-se timp si pastrindu-se costurile de accesare a Internetului cat mai reduse posibil:

Dezvoltarea planului de navigare

Inainte de efectuarea cautarii, navigatorul trebuie sa stabilesca urmatoarele aspecte:

informatiile de baza care il vor ajuta sa urmareasca tema propusa (subiectele sau conceptele principale ale temei, domeniile cu care aceasta se intersecteaza, posibilele cuvinte cheie ale temei);

directia de navigare (urmarirea unui fir conductor prestabilit sau navigarea dupa link-urile oferite de retea);

punctul de pornire (aspectul temei cu care se va initia cautarea, stabilirea motorului de cautare sau a directorului tematic cu care se va efectua cautarea);

timpul disponibil navigarii (un timp de cautare mai mare permite vizitarea mai multor link-uri oferite de retea);


Mentinerea planului de navigare

In timpul efectuarii navigarii, utilizatorul trebuie sa ia in considerare urmatorii factori care sa-i garanteze succesul cautarii:

evaluarea constanta a situatiei prezente (navigarea trebuie sa corespunda cu asteptarile si cu planul initial);

evaluarea calitatii itinerariului efectuat pana in prezent (site-urile vizitate trebuie sa ofere informatiile de care navigatorul are nevoie; utilizatorul trebuie sa evite ratacirea in retea);

filtrarea informatiei gasite (retinerea cuvintelor cheie gasite; includerea in navigare a elementelor noi gasite referitoare la tema cautata);


Evaluarea progresului realizat

In cazul in care itinerariul a avut succes, navigatorul trebuie sa identifice elementele care au determinat gasirea informatiei dorite pentru o eventuala situatie viitoare. In caz contrar, utilizatorul va incerca sa realizeze o autocritica a modalitatii de navigare.


Modalitati de cautare a informatiei pe Internet

Cele mai simple si mai folosite modalitati de accesare a informatiei de pe Internet sunt:

adresarea directa a unui anumit site;

explorarea unui director tematic;

folosirea unui motor de cautare Web;


Vizitarea unui site cunoscut

In cazul in care suntem in posesia unei adrese Web pe care dorim sa o vizitam, vom folosi un navigator Web (Netscape sau Internet Explorer, de exemplu) pentru a accesa respectiva adresa. Tot ce avem de facut este sa tastam adresa in fereastra speciala a navigatorului. Orice fisier publicat pe Internet are o adresa (locatie) unica, astfel fiind posibil pentru orice tip de navigator Web sa localizeze fisierul de pe computerul gazda si pentru a-l afisa pe monitorul utilizatorului.


Explorarea unui director tematic

Un numar din ce in ce mai mare de universitati, biblioteci, companii, organizatii si chiar voluntari creeaza directoare tematice pentru a cataloga portiuni din Internet. Aceste directoare sunt organizate pe subiecte si constau in legaturi (link-uri) la diverse resurse de pe Internet.

Folositi aceasta metoda ori de cate ori cautarea se refera la un subiect mai general, o tema sau un domeniu de subiecte.


Folosirea unui motor de cautare

Un motor de cautare pe Internet este un program care permite utilizatorului sa introduca cuvinte cheie, relevante pentru subiectul cautat. Motoarele de cautare au avantajul de a oferi acces la o gama imensa de informatii de pe Internet prin bazelor de date care memoreaza informatii complete a unui numar covarsitor de site-uri.

Este recomandata folosirea acestui tip de cautare atunci cand informatia dorita se refera la un subiect specific.


Motoare de cautare

Fie ca ne intereseaza date generale despre o personalitate politica, fie un anumit amanunt din istoria omenirii, nu e nevoie decat de o conexiune la Internet pentru a avea acces la aceste informatii. Cantitatea impresionanta de informatii face insa destul de dificila localizarea unor date anume. In acest scop au fost create motoarele de cautare.


Pentru a ne forma o prima idee despre motoarele de cautare sa incercam sa definim acest termen. Un motor de cautare este de fapt un site Web dotat cu o baza de date speciala in care sunt listate titlurile paginilor web, cuvinte cheie, descrierile si continutul lor. In momentul in care utilizatorul de Internet cauta anumite cuvinte cheie, motoarele de cautare afiseaza toate paginile web care contin acele cuvinte.


Toate motoarele de cautarea realizeaza cautarea de cuvinte cheie dintr-o baza de date, dar numerosi factori influenteaza rezultatele fiecaruia in parte. Marimea bazei de date, frecventa innoirii acesteia, capacitatile de cautare, viteza si chiar design-ul pot duce la rezultate incredibil de diferite.


Exista deasemenea motoare de metacautare (metasearch sau metacrawlers) care trimit comenzile de cautare la mai multe motoare in acelasi timp. Deoarece nu permit cautarea a prea multi termeni in aceeasi comanda de cautare, nu sunt folosite decat de o mica parte a utilizatorilor care doresc sa gasesca un subiect rar in paginile Internetului. Cele mai bune exemple ale acestor motoare sunt:

Dogpile - http://www.dogpile.com/

Mamma - http://www.mamma.com/

Metacrawler - http://www.metacrawler.com/


Tipuri de motoare de cautare

Motoarele de cautare se impart in doua categorii: cele care indexeaza informatia automat si cele care se bazeaza pe informatiile introduse manual.


Motoare de cautare bazate pe roboti

Cele automate, in genul HotBot.com, se bazeaza pe un program (spider, crawler sau robot) care ruleaza neintrerupt, urmarind link-urile pe care le gaseste pe Internet si care indexeaza informatia intr-o baza de date imensa. Un spider va vizita aceeasi pagina de mai multe ori (la intervale de aproximativ o luna) pentru a verifica daca i-a fost schimbat continutul.

Robotii sunt un set de agenti software, programe cu un grad de autonomie proprie neobisnuita, care indeplinesc anumite actiuni pentru utilizator. Conform unor publicatii de specialitate, acesti agenti incep cautarea cu o lista de servere si site-uri populare si urmaresc link-urile acestora pentru a gasi alte link-uri pe care le vor memora in baza de date. Un astfel de agent poate trimite catre baza de date doar adresa si link-ul fiecarei pagini pe care o viziteaza, sau doar cateva tag-uri HTML, sau chiar intregul text al fiecarei pagini.


Directoare tematice

A doua categorie de motoare de cautare, numite si directoare, se bazeaza pe disponibilitatea fiecarui utilizator de site-uri de a-si introduce manual datele despre site in baza de date a motorului de cautare. Acest tip de motor de cautare ofera avantajul structurarii informatiei pe o structura arborescenta de categorii si subcategorii, dar au dezavantajul de a nu isi modifica continutul dinamic. Puteti avea surpriza ca o pagina dintre cele gasite sa nu mai existe deloc desi ea a fost listata dupa cautare.


Daca la inceputurile Internetului, un motor de cautare isi putea defini cu exactitate tipul ca fiind unul dintre cele doua mentionate mai sus, astazi ne confruntam cu o situatie interesanta: cea a hibrizilor. Yahoo.com si Google.com sunt un bun exemplu in acest sens. Yahoo, desi pune accentul pe directorul sau, foloseste si cautarea indexata a spider-ului Google, daca rezultatele din propria baza de date nu sunt satisfacatoare. Google, pe de alta parte, foloseste in principal ceea ce spider-ul sau a indexat dar, daca este cazul, face deasemeni corespondenta cu directorul Yahoo pentru a oferi categorii si subcategorii.


Motoarele de cautare ale anului 2003

Un top al celor mai bune motoare de cautare nu poate fi decat subiectiv dar majoritatea celor de pe Internet si din presa mentioneaza urmatoarele ca fiind dintre cele mai cunoscute:

Google

Este in majoritatea studiilor prezentat ca fiind cel mai folosit si cel mai cunoscut motor de cautare. Bazat pe un spider excelent, are cea mai cuprinzatoare baza de date dintre toate. Daca doua site-uri contin exact ceea ce ati cautat, Google il va oferi primul in lista pe cel care are cele mai multe link-uri pe Internet. Acest sistem este folosit in premiera si, se pare, ofera rezultatele cele mai bune.

Google poate gasi mult mai mult decat pagini web. Accesind meniul principal al site-ului exista posibilitatea cautarii de imagini si chiar stiri din reteaua Internet.

Google este folosit, mai mult sau mai putin de un numar ridicat de directoare ca varianta alternativa(Yahoo.com, Netscape.com).



AltaVista.com

Este cel  mai vechi motor de cautare folosin spider-e, aflandu-se in topul preferintelor inca din 1995. Ofera avantajul cautarii specializate dupa imaigini, stiri, multimedia sau produse din magazinele virtuale. In timp ce alte motoare de cautare ofera e-mail gratuit si alte sevicii, AltaVista ramane un cautator pur si simplu. Facand referire la atat de multe site-uri, ca un dezavantaj, poti avea surpriza neplacuta de a fi bombardat cu informatii complet inutile.


Yahoo.com

Lansat in 1994, Yahoo este cel mai vechi director de pe Internet. In Octombrie 2002, Yahoo a facut un pas gigantic prin incepind utilizarea listarii bazate pe spider-ul Google. Yahoo imbogateste listarea Google cu informatii foarte utile din sistemul propriu de directoare, facind resultatele cautarii foarte usor de citit.

Informatia listata este selectata si impartita pe directoare de editori care viziteaza si evalueaza diferite site-uri zi de zi. Site-ul ofera 14 directoare distincte acoperind o gama enorma de teme.


Lycos

Un alt motor de cautare demn de luat in seama este si Lycos. Face parte din categoria motoarelor de cautare cu traditie, fiind lansat in 1994. In 1999 a incetat sa-si mai trimita robotii in cautare de pagini web, dar in schimb a inceput sa se folosesca de listele site-ului AllTheWeb, detinut de FAST.


AllTheWeb (FAST)

Un excelent motor de cautare bazat pe spider-i, ofera acoperire si relevanta in rezultatele listate. Este considerat de multi alternativa lui Google. Poate cauta fisiere de tip MP3, imagini, clipuri video si fisiere FTP.


MSN Search

Microsoft este binecunoscut pentru eforturile de refacere continua a produselor sale software pana cand acestea devin utilizabile in conditii bune iar MSN Search este un exemplu evident al efortului echipei Microsoft in domeniul Internet-ului. In general ofera rezultate mentinute la nivel uman dar se foloseste atunci cand este cazul de serviciile altor motoare de cautare bazate pe roboti de cautare.



Inscrierea paginilor web la motoare de cautare

Poti avea site-ul cu cea mai relevanta informatie si cel mai bun design de pe Internet, dar daca nu este vizitat de nimeni atunci site-ul tau va fi si cel mai inutil site din retea. Promovarea este, fara indoiala, cel mai important capitol al procesului de creare a unei pagini web, iar inscrierea in cele mai importante motoare de cautare este cu siguranta cea mai importanta parte a promovarii.


Cerintele paginii web

„De ce nu pot fi gasit de motoarele de cautare?” este o intrebare frecventa in randul creatorilor de pagini web neexperimentati. Durata de timp dupa care pagina web ar putea fi listata pe motorul de cautare, poate varia intre 2 zile si 6 luni, depinzind de frecventa cu care acel motor de cautare isi reinnoieste baza de date. Exista pachete sofwtare dedicate acestei probleme. WebPosition Submitter poate de exemplu eavlua timpul de raspuns al oricarui motor de cautare prezent pe Internet la ora actuala.


In cele ce urmeaza sunt prezentate cateva aspecte care ar trebui luate in considerare dupa ce ati inscris o pagina web la un motor de cautare.


Este site-ul deja listat?

Din pacate, nici unul din marile motoare de cautare nu avertizeaza utilizatorii atunci cand site-urile acestora au fost acceptate in baza de date proprie. Metoda de determinare a existentei unui site in listele unui motor de cauater variaza de la caz la caz. Nu va asumati faptul ca site-ul dumneavoastra nu este indexat de motorul de cautare doar pentru ca nu il regasiti intre primele site-uri listate.


Asigurati-va ca ati realizat upload-ul site-ului inaintea inscrierii

Inscrierea unei pagini care nu exista rezulta intotdeauna in esec. Acordati atentie maxima corectitudinii adresei site-ului.


Folsirea cadrurilor (frames) creeaza probleme

Este recomandat sa creeati pagini web fara folosirea frame-urilor. Inscrieti doar paginile continute de frame-uri. In mod alternativ, adaugati sectiunea NOFRAMES care sa contina cuvintele cheie care descriu cel mai bine site-ul dumneavoastra. Cei mai multi roboti de cautare vor citi doar aceasta sectiune.


Pagini protejate de parole

Robotii motoarelor de cautare nu pot citi pagini care sunt protejate de parole. Aceeasi regula se aplica informatiei continute in baze de date. Robotii de cautare nu pot trimite comenzi bazelor de date ale site-urilor. Solutia optima este de a creea pagini statice care pot fi citite de roboti.


Paginile dinamice blocheaza robotii

Orice adresa URL care contine caractere speciale in genul smenului de intrebare si ampersand-ul folosite de Php vor fi ignorate de catre roboti la cautare.


Textele incluse in grafica

Textele care apar in fisiere multimedia (imagini, clipuri video) dar si cele din cadrul aplet-urilor Java si XML nu  pot fi indexate de motoarele de cautare.


Viteza de conectare slaba

Daca site-ul dumneavoastra nu are ca atu viteza de conectare sau paginile acestuia sunt foarte complexe si necesita un timp indelungat de incarcare, atunci este foarte posibil ca robotul de cautare sa–si termine executia pe site-ul  dumneavoastra inainte sa fi citit ceva. Pentru beneficiul vizitatorilor si al motoarelor de cautare limitati marimea paginilor la mai putin de 100K.

Deasemeni, daca site-ul dumneavoastra esueaza sa raspunda atunci cand este explorat de robotul de cautare, nu veti fi luat in considerare. Chiar mai mult daca site-ul vizitat este inactiv din diverse motive, motoarele de cautare vor sterge respectivul site de pe listele proprii. Din acest motiv un serviciu de gazduire reputabil va asigura mai multe sanse site-ului de a fi indexat.


Tag-urile de redirectare

Paginilie web care redirecteaza utilizatorul spre o alta pagina nu vor putea fi accesate de robotii de cautare deoarece inainte ca acestia sa poata citi orice informatie, pagina respectiva se va inchide.



Link-uri adiacente

Daca inscrierea site-ului se rezuma doar la inscrierea paginii principale este foarte probabil ca nu mai mult de 2, 3 link-uri sa fie indexate in plus. Orice pagina considerata esentiala pentru mesajul general al site-ului dumneavoastra trebuie inscrisa separat.


Calitatea informatiei

Daca inscrierea site-ului se realizeaza intr-unul din directoarele Web precum Yahoo, Altavista, OpenDirectory sau altele, o persoana va revizui si evalua continutul site-ului dumneavoastra inainte de luarea deciziei de inserare a site-ului in baza de date a directorului. Factorul uman constituie factorul decisiv.


Calitatea serviciului de gazduire

Majoritatea motoarelor de cautare nu mai indexeaza site-uri gazduite de servicii gratuite, datorita calitatii indoielnice ale majoritatii acestora.


Daca nici una din situatiile de mai sus nu se aplica in cazul dumneavoastra nu va ramane decat sa reincercati inscrierea site-ului la motorul de cautare si in final chiar sa contactati via email echipa de administrare a respectivului site