Como funcionan os buscadores? - Actualidade
Actualidade
Como funcionan os buscadores?
Data: venres, 05 de xuño de 2015
Para entender os buscadores hai que coñecer un pouco desde a razón da súa existencia ata como funcionan. Por iso, este artigo ten como obxectivo a comprensión a nivel xeral do seu funcionamento.
Antigamente os usuarios tiñan que navegar polos diversos directorios da internet para localizar a información que necesitaban, o que ocasionaba unha perda de tempo considerable.
Os buscadores naceron pola necesidade de navegar con máis facilidade entre os servidores web e os sitios da internet, converténdose no método preferido polos usuarios para realizar unha procura.
Hoxe en día os buscadores máis empregados son: Google, Yahoo, Bing, Aol, Ask, Baidu (China), Yandex (Rusia), pero se falamos a nivel global Google é o buscador máis empregado polos usuarios.
Agora que sabemos como xurdiron, formulámonos a seguinte pregunta: como funcionan os buscadores?
Existen unhas fases comúns para calquera buscador:
- A primeira fase podémola chamar "rastrexo". Este procedemento comeza cunha relación de direccións URL, que realmente son as sementes que o web crawler/spider percorrerá.
Pero seguramente agora te estarás preguntando: que é un web crawler?
O web crawler, tamén coñecido como as "arañiñas" ou o rastrexo de páxinas web, é un programa deseñado para inspeccionar as páxinas da World Wide Web de forma metódica e automatizada.
O procedemento do web crawler comeza cando se lle dá un conxunto de direccións URL. O programa visita estas páxinas, analízaas e crea unha copia. Logo extrae as ligazóns que atopa no seu interior e almacénaas para o seu posterior procesado. E así sucesivamente.
Cando se realiza unha procura non se executa un web crawler nese mesmo momento para atopar todas as páxinas web que conteñen a palabra de procura. No seu lugar os buscadores xa executaron anteriormente moitos web crawlers e xa teñen todos os contidos almacenados, polo que se poden mostrar os resultados ó instante.
Hoxe en día hai moitos crawlers, pero o máis empregado e coñecido é Googlebot, que en realidade é o rastrexador de Google.
Tamén é necesario saber que existen os ficheiros robots.txt que, basicamente, dan instrucións a estes rastrexadores acerca das páxinas que o propietario dun sitio web non desexa que se rastrexen. Estes arquivos só son necesarios se o teu sitio web inclúe contido que non desexas que ningún buscador indexe. Ó contrario, se desexas que os buscadores indexen o sitio enteiro, non debe haber nin un só ficheiro baleiro. Por exemplo:
O URL que non desexo que ningún buscador rastrexe pode ser http://www.cpae20.depo.é/web/cpae/login (é dicir, non quero que ningún buscador me dea resultados deste sitio privado da miña páxina web ó que só acceden os seus membros).
- A segunda fase chamámola indexing. Nesta fase crearase un índice con toda a información extraída na primeira fase. Este contén unha relación de palabras ou frases onde cada unha delas terá unha referencia ó documento no que se atoparon. Con isto non quero dicir que se cree un documento novo, senón que se enlazan cunha referencia ó documento no que se atoparon estas palabras ou frases.
- Ranking e displaying conforman a terceira fase do proceso dos buscadores. Estes procesos prodúcense despois de que o usuario realice a consulta ou mesmo mentres a está realizando, como vemos na imaxe. Cando empezas a escribir unha procura, Google Instant predí o que estás a buscar e empeza a mostrarche resultados.
O ranking emprega o algoritmo do propio buscador, que está relacionado co SEO. Estes algoritmos dan inicio á procura das páxinas adecuadas. Por iso é moi importante, se se quere situar ou mellorar a visibilidade nos buscadores, coñecer ó máximo aqueles factores que inflúen no algoritmo do ranking do buscador.
O displaying, en cambio, emprega o SERP (Search Engine Result Page ou páxina de resultado), que tamén está relacionado co SEO.
Unha das variables máis importantes que se inclúe nos algoritmos dos buscadores é o PageRank (número de ligazóns que apuntan a un sitio e a calidade destas ligazóns). Con todo, hoxe en día a realidade é que Google varía o seu algoritmo continuamente e existen máis de 200 variables para elixir os resultados máis relevantes para unha consulta entre millóns de páxinas e contidos.
Entre as variables que revisa Google no seu algoritmo atópanse: a actualidade dos contidos, as ligazóns ó sitio e a orixe das devanditas ligazóns, a calidade do contido, o URL e o título da páxina web, as palabras da páxina web, a personalización, os sinónimos das palabras clave, as recomendacións dos usuarios ós que estás conectado, a corrección ortográfica…
E ata aquí o funcionamento básico dos buscadores. Espero que o artigo vos axudase.
Sonia Patricia Romero Navarro
Asesora tecnolóxica do CPAE 2.0
Enxeñeira informática
Fonte: CPAE