Actualidade

« Atrás

Como funcionan os buscadores?

Data:  venres, 05 de xuño de 2015

Para entender os buscadores hai que coñecer un pouco desde a razón da súa existencia ata como funcionan. Por iso, este artigo ten como obxectivo a comprensión a nivel xeral do seu funcionamento.

Antigamente os usuarios tiñan que navegar polos diversos directorios da internet para localizar a información que necesitaban, o que ocasionaba unha perda de tempo considerable.

Os buscadores naceron pola necesidade de navegar con máis facilidade entre os servidores web e os sitios da internet, converténdose no método preferido polos usuarios para realizar unha procura.

Hoxe en día os buscadores máis empregados son: Google, Yahoo, Bing, Aol, Ask, Baidu (China), Yandex (Rusia), pero se falamos a nivel global Google é o buscador máis empregado polos usuarios.

Agora que sabemos como xurdiron, formulámonos a seguinte pregunta: como funcionan os buscadores?

Existen unhas fases comúns para calquera buscador:

  1. A primeira fase podémola chamar "rastrexo". Este procedemento comeza cunha relación de direccións URL, que realmente son as sementes que o web crawler/spider percorrerá.

Pero seguramente agora te estarás preguntando: que é un web crawler?

O web crawler, tamén coñecido como as "arañiñas" ou o rastrexo de páxinas web, é un programa deseñado para inspeccionar as páxinas da World Wide Web de forma metódica e automatizada.

O procedemento do web crawler comeza cando se lle dá un conxunto de direccións URL. O programa visita estas páxinas, analízaas e crea unha copia. Logo extrae as ligazóns que atopa no seu interior e almacénaas para o seu posterior procesado. E así sucesivamente.

Cando se realiza unha procura non se executa un web crawler nese mesmo momento para atopar todas as páxinas web que conteñen a palabra de procura. No seu lugar os buscadores xa executaron anteriormente moitos web crawlers e xa teñen todos os contidos almacenados, polo que se poden mostrar os resultados ó instante.

Hoxe en día hai moitos crawlers, pero o máis empregado e coñecido é Googlebot, que en realidade é o rastrexador de Google.

Tamén é necesario saber que existen os ficheiros robots.txt que, basicamente, dan instrucións a estes rastrexadores acerca das páxinas que o propietario dun sitio web non desexa que se rastrexen. Estes arquivos só son necesarios se o teu sitio web inclúe contido que non desexas que ningún buscador indexe. Ó contrario, se desexas que os buscadores indexen o sitio enteiro, non debe haber nin un só ficheiro baleiro. Por exemplo:

O URL que non desexo que ningún buscador rastrexe pode ser http://www.cpae20.depo.é/web/cpae/login (é dicir, non quero que ningún buscador me dea resultados deste sitio privado da miña páxina web ó que só acceden os seus membros).

  1. A segunda fase chamámola indexing. Nesta fase crearase un índice con toda a información extraída na primeira fase. Este contén unha relación de palabras ou frases onde cada unha delas terá unha referencia ó documento no que se atoparon. Con isto non quero dicir que se cree un documento novo, senón que se enlazan cunha referencia ó documento no que se atoparon estas palabras ou frases.
  2. Ranking e displaying conforman a terceira fase do proceso dos buscadores. Estes procesos prodúcense despois de que o usuario realice a consulta ou mesmo mentres a está realizando, como vemos na imaxe. Cando empezas a escribir unha procura, Google Instant predí o que estás a buscar e empeza a mostrarche resultados.

 

 

O ranking emprega o algoritmo do propio buscador, que está relacionado co SEO. Estes algoritmos dan inicio á procura das páxinas adecuadas. Por iso é moi importante, se se quere situar ou mellorar a visibilidade nos buscadores, coñecer ó máximo aqueles factores que inflúen no algoritmo do ranking do buscador.

O displaying, en cambio, emprega o SERP (Search Engine Result Page ou páxina de resultado), que tamén está relacionado co SEO.

Unha das variables máis importantes que se inclúe nos algoritmos dos buscadores é o PageRank (número de ligazóns que apuntan a un sitio e a calidade destas ligazóns). Con todo, hoxe en día a realidade é que Google varía o seu algoritmo continuamente e existen máis de 200 variables para elixir os resultados máis relevantes para unha consulta entre millóns de páxinas e contidos.

Entre as variables que revisa Google no seu algoritmo atópanse: a actualidade dos contidos, as ligazóns ó sitio e a orixe das devanditas ligazóns, a calidade do contido, o URL e o título da páxina web, as palabras da páxina web, a personalización, os sinónimos das  palabras clave, as recomendacións dos usuarios ós que estás conectado, a corrección ortográfica…

E ata aquí o funcionamento básico dos buscadores. Espero que o artigo vos axudase.

Sonia Patricia Romero Navarro
Asesora tecnolóxica do CPAE 2.0
Enxeñeira informática

Fonte:  CPAE